北邮网安团队发现推理链变长竟致幻觉率暴增10倍？

北邮网安团队投稿

量子位 | 公众号 QbitAI

随着推理链条从三步扩展至超过五十步，幻觉的发生概率急剧上升了十倍；与此同时，反思的节点也陷入了无法应对的困境。

北京邮电大学的研究团队通过思维链审计实验，首次对这一“越想越错”的现象进行了量化分析，并揭示了其背后的元认知偏差。

在长链推理过程中，反思并非纠错手段，而是为幻觉赋予“理性凭证”——

模型在确保与用户提示的语义保持一致时，即使需要改动协议的规定，也绝不会放弃原有的基础前提。

风险缺口：长链CoT放大“误差滚雪球”

推理大型模型（RLLMs）能够将复杂问题分解为数十个推理步骤，并最终得出看似严谨的结论。但是，随着推理过程的延长，一个令人担忧的现象逐渐显现——错误并非偶然发生，而是如同滚雪球般在推理链条中不断累积放大。

在医疗、金融、法律等涉及高风险的领域，即便是微小的失误也可能引发严重的后果。

遗憾的是，目前的安全评估大多局限于对结果的判断：仅凭答案的正误来评判、通过毒性来衡量，这就像“考试仅关注最终的分数”一样。

该做法忽略了这样一个核心问题：错误究竟是如何在链条中扎根、蔓延并最终形成僵局的？若不能深入理解这一过程，便难以找到有效的解决策略。

北京邮电大学的研究团队为解决这一问题，采取了以下方法：

首先，依据RFC协议的相关文件来构建一个受控的知识领域；接着，让模型执行30至60步的连续推理过程；在此过程中，于关键步骤中嵌入反思操作，以便实时追踪置信度的变动情况。

具体来说，他们设立了一个受控的知识范围，这一范围涵盖了两种不同类型的幻觉案例，并成功解决了在受控情境下准确复现幻觉的难题（图a）。

这个领域具有以下三个特点：

接着，他们设计了一套专门用于长链推理的模型体系，这套体系能够记录知识在多个推理环节中的引入、循环以及优化过程，成功应对了在复杂推理路径上探究幻觉演变难题的挑战（见图b）。

他们深入分析了幻觉的具体案例，旨在探究现实情境中幻觉的扩散原因，并应对了揭示长链推理中幻觉产生机制这一难题。如图c所示，k1和k3通过引入错误信息，导致原本正确的思维链的第一步（c1）在经过c3的反射后，扭曲成引发幻觉的c4，进而揭示了推理模型中潜在的风险。

反思越深错误越真：长链推理的自我说服

经过对研究结果的深入剖析，北京邮电大学的研究团队成功揭示了RLLM产生幻觉的根本机理：

模型在漫长的思维链条中不断尝试，却并未逐步接近真理，反而通过成百上千字的繁复论证，将几十个错误的词汇组合固定下来。

1、外部错误诱发内部造假

实验结果表明，一旦模型遇到预先设定的错误（例如“UDP校验绑定HMAC安全机制”），：

2、反思（Reflection）沦为自我说服工具

正向干预实验：解析长链推理的“病变”现象

为了探究上游推理的变动对下游环节所产生的影响，北京邮电大学的研究团队精心策划了一项正向干预实验，该实验可细分为以下三个阶段：

精确识别：在总计1015个长链样本中，成功标注出第一个存在错误的知识点，例如那些虚构的协议内容。

2.三阶段干预：

3.六维评估指标：

长链幻觉检测结果：现有方法难以应对

对七种主流检测技术进行评估，其中表现最佳的方法处理一个样本需时约两小时，然而其准确度依旧未能达到79%的水平。

经过在超过1500个token的复杂思维链样本中进行验证，研究结果表明，现有的检测技术面对元认知层面的幻觉问题时，其表现不尽如人意。

通过正向干预实验对长链幻觉进行检测，结果显示：

Edit1对下游推理产生的效应明显超过Edit2与Edit3，这一现象揭示了干预效果在推理过程中呈现递减的趋势。

Edit2案例的编辑效果在用户接受度上较Edit1更为理想，同时幻觉率也显著下降，这表明模型对Edit2的信赖度相对较低，更容易受到外界干预的作用。

使用7种主流的检测方法对幻觉进行检测，得到以下结果：

也就是说邢台市应急管理宣传教育培训中心，现有的干预手段并不能彻底根除幻觉，而且目前所采用的模型在应对这一现象时也显得力不从心。

中年身体亮红灯？行走竟是最适合的长寿妙药？速看