归档

2026 年 04 月

注意力机制｜Attention

2026-04-05

AI #NLP #Deep Learning #Machine Learning

第一节：引言在深度学习进入“大模型时代”之前，处理序列任务（如机器翻译、文本摘要）的主流框架是 Encoder-Decoder（编码器-解码器）结构，通常被称为 Seq2Seq 模型。 1.1 编码器-解码器的工作原理在标准的 Seq2Seq 架构中，编码器（通常是一个循环神经网络 RNN，如

BLEU评估指标｜Bilingual Evaluation Understudy

2026-04-01

AI #NLP #Deep Learning #Machine Learning

第一节：机器翻译评估的挑战在评估机器翻译（Machine Translation, MT）系统的性能时，最理想的方式是聘请双语专家进行人工评分。然而，随着深度学习模型的快速迭代，人工评估面临着不可逾越的瓶颈：高昂的成本：大规模语料库的翻译评估需要耗费大量的人力财力。低下的效率：人工评分无法

2026-03-23

AI #NLP #Deep Learning #Machine Learning

第一节：机器翻译的历史黎明与早期规则建模的局限机器翻译作为自然语言处理（NLP）领域最古老且最具挑战性的课题之一，其构想几乎与现代计算机的诞生同步。早在 20 世纪 50 年代，研究人员就开始尝试让机器理解并转换人类语言。 1. 1950s：冷战背景下的技

多层循环神经网络｜Multi-layer RNNs

2026-03-21

AI #NLP #Deep Learning #Machine Learning

第一节：重新定义“深度”——从一维到二维的跨越在谈论深度学习时，我们经常听到“深层网络”这个词。但在循环神经网络（RNN）的语境下，“深度”其实有两个截然不同的维度。 RNN 的第一种深度：时间轴上的展开

2026-03-19

AI #NLP #Deep Learning #Machine Learning

第一节：引言在自然语言处理（NLP）的早期，我们习惯于使用标准的 RNN、LSTM 或 GRU。这些模型都有一个共同的特点：它们是“因果”的（Causal）。这意味着在处理每一个词（x(t)）时，模型只能看到该词及其之前的上下文。 1.1 左侧上下文的局限性想象一下，我们正在训练一个情感分类模型

2026-03-19

AI #NLP #Deep Learning #Machine Learning

第一节：前言在处理图像识别（CNN）或简单的数值回归（MLP）时，我们的模型通常假设输入数据是相互独立的。然而，人类的语言、动人的旋律、或是波动的股票曲线，都具有一个共同特征：序列性（Sequentiality）。如果你只看“马”这个字，你无法判断它是主语、宾语还是形容词；但如果你看到“那匹马在

2026-03-17

AI #NLP #Deep Learning #Machine Learning

第一部分：引言在深度学习的序列建模中，循环神经网络（RNN）曾被寄予厚望。然而，传统的 vanilla RNN 在实际应用中存在一个致命的缺陷：“短时记忆”。由于梯度消失问题，它很难捕捉到序列中跨度较大的长距离依赖关系。为了打破这一瓶颈，长短期记忆网络（Long Short-Term Memor

2026-03-15

Papers Reading #Reading

这篇论文《On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems》

2026-03-14

AI #Reading

论文《Step-by-Step Fact Verification System for Medical Claims with Explainable Reasoning》发表在

2026-03-13

Papers Reading #Reading

该论文发表在 ICNLSP 2025（第 8 届国际自然语言与语音处理会议，The 8th International Conference on Natural Language and Speech Processi