作者:bolin

长短期记忆网络|LSTM(Long Short-Term Memory)

第一部分:引言 在深度学习的序列建模中,循环神经网络(RNN)曾被寄予厚望。然而,传统的 vanilla RNN 在实际应用中存在一个致命的缺陷:“短时记忆”。由于梯度消失问题,它很难捕捉到序列中跨度较大的长距离依赖关系。 为了打破这一瓶颈,长短期记忆网络(Long Short-Term Memor

bolin bolin 发布于 2026-03-17

文献阅读:On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems

这篇论文 《On the Influence of Context Size and Model Choice in Retrieval-Augmented Generation Systems》

bolin bolin 发布于 2026-03-15

文献阅读:Step-by-Step Fact Verification System for Medical Claims with Explainable Reasoning

论文 《Step-by-Step Fact Verification System for Medical Claims with Explainable Reasoning》 发表在

bolin bolin 发布于 2026-03-14

文献阅读:FActBench: A Benchmark for Fine-grained Automatic Evaluation of LLM-Generated Text

该论文发表在 ICNLSP 2025(第 8 届国际自然语言与语音处理会议,The 8th International Conference on Natural Language and Speech Processi

bolin bolin 发布于 2026-03-13

文献阅读:MedSEBA: Synthesizing Evidence-Based Answers Grounded in Evolving Medical Literature

该论文发表在 CIKM 2025 (第 34 届 ACM 信息与知识管理国际会议,The 34th ACM International Conference on Information and Knowledge Management)。

bolin bolin 发布于 2026-03-12

循环神经网络的问题:梯度消失与梯度爆炸|Problems with RNNs: Vanishing and Exploding Gradients

第一节:引言 在深度学习的序列建模中,循环神经网络(RNN)曾被寄予厚望。由于其循环连接的结构,理论上 RNN 能够保留无限长的历史信息。然而在实际训练中,你会发现它表现得非常“短视”——它能轻易记住上一个单词,却总是忘记上一个段落。 这种局限性的核心原因,在于反向传播(Backpropagatio

bolin bolin 发布于 2026-03-11

困惑度|Perplexity

第一节: 什么是语言模型? (Language Model Recap) 在深入探讨如何评价一个模型之前,我们首先需要明确:我们要评价的对象究竟是什么? 1.1 核心定义:预测未来 从本质上讲,语言模型 (Language Model, LM) 是一个极其简单的系统:它只做一件事——预测下一个词 (

bolin bolin 发布于 2026-03-11

循环神经网络RNN|Recurrent Neural Networks, RNN

第一节:RNN 的核心架构 1.1 为什么我们需要 RNN? 在处理图像识别或简单分类任务时,传统的全连接神经网络(DNN)和卷积神经网络(CNN)表现卓越。但在处理序列数据(如自然语言、语音、股票走势)时,它们会面临两个致命的缺陷: 输入长度固定:传统模型要求输入向量的维度必须预先设定,但现实中的

bolin bolin 发布于 2026-03-10

固定窗口神经语言模型|A fixed-window neural Language Model

第一节:语言模型任务回顾 在深入研究复杂的神经网络架构之前,我们首先需要明确:什么是语言模型(Language Modeling)? 简单来说,语言模型的目标是预测序列中下一个出现的词。假设我们已经有了一个单词序列 x(1), x(2), ... , x(t),模型的核心任务就是计算在给定这些已知词

bolin bolin 发布于 2026-03-09

n-gram语言模型|n-gram Language Model

第一节:什么是语言模型? 在自然语言处理(NLP)的广阔领域中,语言模型(Language Modeling) 是最基础且最重要的核心任务之一。简单来说,它的目标是让计算机能够理解和生成人类的语言序列。 1. 核心任务:预测下一个词 语言模型的核心任务非常直观:给定一段已经出现的词序列,预测下一个可

bolin bolin 发布于 2026-03-06