
论文 《Step-by-Step Fact Verification System for Medical Claims with Explainable Reasoning》 发表在 NAACL 2025(2025年计算语言学协会北美分会会议)上。
1. 引言
自动事实核查的通用流程包括文档检索、证据提取、真实性预测,以及可选的理由生成。在此架构中,文档检索通常通过采用BM25或语义搜索等方法,利用句子嵌入模型筛选证据,并使用DeBERTa等纯编码器模型预测最终结论。大多数最先进的事实验证系统都依赖于这一流程。
更贴近现实的情境是开放域事实验证,系统在得出判定结果之前,必须先在大型知识库中发现证据。近期的事实验证研究虽已探索了这一情境,但其中大多数仍依赖于传统管道,利用BM25、句子嵌入以及仅编码器的推理模型来生成判定结果。
大型语言模型其较长的上下文窗口意味着与仅使用编码器的模型相比,能够提供更多的证据。
基于指令微调的LLM具有多轮交互特性,这使得事实核查能够被视为一个一步接着一步(分步式)的问题:在获得足够信息以对某项主张的真实性作出裁决之前,系统会在后续迭代中生成新的问题以获取更多证据。
研究表明,这些针对事实验证(FV)的分步式大型语言模型(LLM)系统在处理HOVER等数据集中的复杂多跳断言时表现良好。直观来看,这些数据集中的复杂合成断言(例如“姚明的妻子毕业于德克萨斯州的一所大学”)必须被分解为子单元,才能得到有效验证。 然而,我们认为,对于“蜂蜜可以治愈普通感冒”这类更贴近现实但较为简单的陈述,在得出结论前同样需要生成后续问题并收集更深入的知识。目前尚无研究测试过这些分步式事实验证系统在特定领域陈述上的表现如何(医学方面)。
为弥合这一研究空白,本研究开发了一个分步式大型语言模型(LLM)系统,并将其应用于三个医学事实核查数据集。
还概述了关于基础大语言模型、证据来源以及谓词逻辑推理对最终验证性能影响的额外发现,突显了此类系统在处理各类主张方面的巨大潜力。

2. 相关工作
大多数关于迭代式事实验证系统的研究都聚焦于多跳的百科全书式陈述。而本研究是首批针对现实世界陈述探索逐步式事实验证系统的研究之一基于科学和医学知识。
3. 基础
3.1 事实验证的三个阶段
传统的三阶段流程包括:(1) 文档检索;(2) 证据提取;(3) 判决预测。本论文用这个传统的方法作为基线(baseline)。
采用语义搜索(查询与语料库嵌入向量的相似度)在大型文档语料库(PubMed和维基百科)上进行建模。
筛选出排名前列的文档后,再次使用句子嵌入模型,将论点与文档中的段落进行比对,从而选取最相关的证据片段。
建模为自然语言推理(NLI)任务,其目标是预测主张与证据之间的逻辑蕴含关系,即主张是否得到支持基于证据,被证据反驳,或信息不足。
3.2 Step-by-Step LLM System
针对待验证的论点 c,生成最多五个后续问题 q1 , ... , q5 ,以收集更多与该论断相关的证据。这些问题通过基础大语言模型 Mq 和提示词生成。
通过方法 R(q, s) 从来源 s(网络搜索或内部知识库)中检索每个问题 q 的证据。
收集到的证据由模型 Ms 进行总结,并连同原始论点 c 一起提交给推理模型 Mr。
推理模型 Mr 将判断是否应继续生成新问题,或是现有证据已足够。 若证据充足,则预测最终裁决标签v,其值为 SUPPORTED 或被驳斥,并生成解释 e。
除了上述方法外,还尝试了一种将谓词逻辑(predicate logic)融入流程的设置。给定论点 c,大语言模型会生成一个谓词, 形 式 为 动 词 ( 主 语 , 宾 语 ) , 例 如 Treats(aspirin,headache),并利用它生成更优质的问题 qi 以及裁决v。其背后的思路是:谓词的结构化特性有助于寻找更准确的证据,并为最终裁决预测引入结构化推理。
4. 实验与设置
在实验中,主要研究问题是 RQ:对于特定领域,迭代式 LLM 方法是否优于传统的三部分管道?
4.1 数据集与评估
选取了三个用于生物医学和医疗保健断言的英文数据集:
SCIFACT(一个由专家撰写的生物医学断言数据集,其内容源自医学论文摘要中的引文句子)使用的子集包含 693 个论点,其中456条为被支持的论点,237条为被反驳的论点。
HEALTHFC(一个关于日常健康的声明数据集,涵盖营养、免疫系统和心理健康等多个主题)使用的子集包含 327 条论点,其中 202 条得到证实,125 条被驳斥。
COVERT(一个包含健康相关论断的数据集,这些论断均具有因果性质(例如“疫苗会引起副作用”)),所有论断均源自 Twitter,这带来了非正式语言的额外挑战,同时也提供了验证虚假信息的真实世界场景。使用的子集包含 264 条论点,其中 198条得到证实,66 条被驳斥。
它们分别代表了事实核查的三个不同应用场景:协助研究人员开 展 工 作 (SCIFACT) 、 验 证 普 通 用 户 的 日 常 疑 问 (HEALTHFC ) 以 及 社 交 媒 体 上 的 虚 假 信 息 检 测 (COVERT)。
还利用基于专家混合架构的高性能开放权重模型 Mixtral 8x7B以及 LLaMa,对基于内部知识和在线搜索的常规推理进行了额外测试。
采用二元精确率、召回率和F1分数作为评估指标。
5. 结果与讨论

性能提升。分步验证系统在所有三个数据集上均显著提升了最终F1分数,尤其是精确度。首个GPT系统在HealthFC数据集上将F1分数提升了+4.3,在CoVERT上提升了3.4,在SciFact上提升了4.9,与采用单轮验证的传统管道相比,这是一项重大改进。
内部知识与外部知识。在所有情况下,利用网络搜索都能提升SciFact的性能,这表明当该数据集与在线找到的生物医学研究相结合时,其表现更为出色。 对于另外两个包含常见健康主张的数据集,在某些情况下,大语言模型(LLM)的内部知识甚至表现优于网络搜索。
谓词逻辑。 在GPT系统中,这使得HealthFC的整体表现达到最佳,F1分数为81.7(较基线提升5.2,较无谓词方案提升1)。另一方面,虽然另外两个数据集的精确率也有所提高,但这导致召回率大幅下降,从而降低了F1分数。这一现象在CoVERT论点中的非正式语言中尤为明显,其中生成的谓词包含“Has(Person, Covid)”这类定义不明确的实例,这只会降低证据检索过程的质量。因此,谓词更适合用于表述清晰的查询以及复杂的论点。
大型语言模型(LLM)的选择。GPT-4o-mini 表现最佳,成为该任务的最佳大型语言模型。显 然 ,GPT 生 成 的 问 题 最 为 笼 统 且 简 单 , 而LLaMa 和 Mixtral 则提供了更具体、更详细的问题。 在遵循少量样本示例问题的风格方面,GPT表现最佳。此外,平均而言,Mixtral针对每个主张生成的提问数量最多,其次是GPT,然后是LLaMa。

定性分析。生成的许多问题都在询问索赔中出现的疾病、症状、药物及其他术语的定义。一旦这些复杂术语得到阐释,FV流程便能够顺利进行后续的验证工作。这解释了为何分步系统在医疗索赔中表现如此出色它们本质上包含复杂的概念和关系,必须在做出最终决定前弄清楚。
附录
