长短期记忆网络｜LSTM（Long Short-Term Memory）

第一部分：引言在深度学习的序列建模中，循环神经网络（RNN）曾被寄予厚望。然而，传统的 vanilla RNN 在实际应用中存在一个致命的缺陷：“短时记忆”。由于梯度消失问题，它很难捕捉到序列中跨度较大的长距离依赖关系。为了打破这一瓶颈，长短期记忆网络（Long Short-Term Memor

bolin 发布于 2026-03-17

AI #Reading

文献阅读：Step-by-Step Fact Verification System for Medical Claims with Explainable Reasoning

论文《Step-by-Step Fact Verification System for Medical Claims with Explainable Reasoning》发表在

bolin 发布于 2026-03-14

第一节：引言在深度学习的序列建模中，循环神经网络（RNN）曾被寄予厚望。由于其循环连接的结构，理论上 RNN 能够保留无限长的历史信息。然而在实际训练中，你会发现它表现得非常“短视”——它能轻易记住上一个单词，却总是忘记上一个段落。这种局限性的核心原因，在于反向传播（Backpropagatio

bolin 发布于 2026-03-11

第一节：什么是语言模型？ (Language Model Recap) 在深入探讨如何评价一个模型之前，我们首先需要明确：我们要评价的对象究竟是什么？ 1.1 核心定义：预测未来从本质上讲，语言模型 (Language Model, LM) 是一个极其简单的系统：它只做一件事——预测下一个词 (

bolin 发布于 2026-03-11

第一节：RNN 的核心架构 1.1 为什么我们需要 RNN？在处理图像识别或简单分类任务时，传统的全连接神经网络（DNN）和卷积神经网络（CNN）表现卓越。但在处理序列数据（如自然语言、语音、股票走势）时，它们会面临两个致命的缺陷：输入长度固定：传统模型要求输入向量的维度必须预先设定，但现实中的

bolin 发布于 2026-03-10

第一节：语言模型任务回顾在深入研究复杂的神经网络架构之前，我们首先需要明确：什么是语言模型（Language Modeling）？简单来说，语言模型的目标是预测序列中下一个出现的词。假设我们已经有了一个单词序列 x(1), x(2), ... , x(t)，模型的核心任务就是计算在给定这些已知词

bolin 发布于 2026-03-09

第一节：什么是语言模型？在自然语言处理（NLP）的广阔领域中，语言模型（Language Modeling）是最基础且最重要的核心任务之一。简单来说，它的目标是让计算机能够理解和生成人类的语言序列。 1. 核心任务：预测下一个词语言模型的核心任务非常直观：给定一段已经出现的词序列，预测下一个可

bolin 发布于 2026-03-06

第一节：绪论——优化算法在神经网络训练中的核心地位在深度学习的范畴内，模型训练的本质是一个在大规模参数空间内寻找最优解的非凸优化问题。优化器（Optimizer）作为连接模型架构与数据特征的桥梁，其核心任务是通过计算损失函数 L 对模型参数 θ 的梯度，利用特定的更新规则使目标函数最小化。

bolin 发布于 2026-03-03

一、引言：深度神经网络中的过拟合风险与正则化策略在深度学习领域，模型的泛化能力（Generalization Ability）是衡量算法优劣的核心指标。随着网络深度的增加和参数量（Capacity）的指数级增长，深度神经网络展现出了极强的函数拟合能力。然而，这种强大的表达能力往往是一把双刃剑：当

bolin 发布于 2026-03-01

第一节：句式结构的两种视野在自然语言处理中，理解一个句子不仅仅是识别每个词的意思，更重要的是理解这些词是如何组合在一起表达完整语义的。目前主流的句法分析主要有两种视角：成分句法分析和依存句法分析。 1. 成分句法分析 (Constituency Parsing) 成分句法分析又被称为短语结构语法（

bolin 发布于 2026-01-10