北邮网安团队发现推理链变长竟致幻觉率暴增10倍?

宁波市海曙区图书馆

北邮网安团队 投稿

量子位 | 公众号 QbitAI

随着推理链条从三步扩展至超过五十步,幻觉的发生概率急剧上升了十倍;与此同时,反思的节点也陷入了无法应对的困境。

北京邮电大学的研究团队通过思维链审计实验,首次对这一“越想越错”的现象进行了量化分析,并揭示了其背后的元认知偏差。

在长链推理过程中,反思并非纠错手段,而是为幻觉赋予“理性凭证”——

模型在确保与用户提示的语义保持一致时,即使需要改动协议的规定,也绝不会放弃原有的基础前提。

图片

风险缺口:长链CoT放大“误差滚雪球”

推理大型模型(RLLMs)能够将复杂问题分解为数十个推理步骤,并最终得出看似严谨的结论。但是,随着推理过程的延长,一个令人担忧的现象逐渐显现——错误并非偶然发生,而是如同滚雪球般在推理链条中不断累积放大。

在医疗、金融、法律等涉及高风险的领域,即便是微小的失误也可能引发严重的后果。

遗憾的是,目前的安全评估大多局限于对结果的判断:仅凭答案的正误来评判、通过毒性来衡量,这就像“考试仅关注最终的分数”一样。

该做法忽略了这样一个核心问题:错误究竟是如何在链条中扎根、蔓延并最终形成僵局的?若不能深入理解这一过程,便难以找到有效的解决策略。

北京邮电大学的研究团队为解决这一问题,采取了以下方法:

首先,依据RFC协议的相关文件来构建一个受控的知识领域;接着,让模型执行30至60步的连续推理过程;在此过程中,于关键步骤中嵌入反思操作,以便实时追踪置信度的变动情况。

图片

具体来说,他们设立了一个受控的知识范围,这一范围涵盖了两种不同类型的幻觉案例,并成功解决了在受控情境下准确复现幻觉的难题(图a)。

这个领域具有以下三个特点:

接着,他们设计了一套专门用于长链推理的模型体系,这套体系能够记录知识在多个推理环节中的引入、循环以及优化过程,成功应对了在复杂推理路径上探究幻觉演变难题的挑战(见图b)。

他们深入分析了幻觉的具体案例,旨在探究现实情境中幻觉的扩散原因,并应对了揭示长链推理中幻觉产生机制这一难题。如图c所示,k1和k3通过引入错误信息,导致原本正确的思维链的第一步(c1)在经过c3的反射后,扭曲成引发幻觉的c4,进而揭示了推理模型中潜在的风险。

反思越深错误越真:长链推理的自我说服

经过对研究结果的深入剖析,北京邮电大学的研究团队成功揭示了RLLM产生幻觉的根本机理:

模型在漫长的思维链条中不断尝试,却并未逐步接近真理,反而通过成百上千字的繁复论证,将几十个错误的词汇组合固定下来。

图片

图片

1、外部错误诱发内部造假

实验结果表明,一旦模型遇到预先设定的错误(例如“UDP校验绑定HMAC安全机制”),:

2、反思(Reflection)沦为自我说服工具

正向干预实验:解析长链推理的“病变”现象

图片

为了探究上游推理的变动对下游环节所产生的影响,北京邮电大学的研究团队精心策划了一项正向干预实验,该实验可细分为以下三个阶段:

精确识别:在总计1015个长链样本中,成功标注出第一个存在错误的知识点,例如那些虚构的协议内容。

2.三阶段干预:

3.六维评估指标:

长链幻觉检测结果:现有方法难以应对

对七种主流检测技术进行评估,其中表现最佳的方法处理一个样本需时约两小时,然而其准确度依旧未能达到79%的水平。

经过在超过1500个token的复杂思维链样本中进行验证,研究结果表明,现有的检测技术面对元认知层面的幻觉问题时,其表现不尽如人意。

图片

通过正向干预实验对长链幻觉进行检测,结果显示:

Edit1对下游推理产生的效应明显超过Edit2与Edit3,这一现象揭示了干预效果在推理过程中呈现递减的趋势。

Edit2案例的编辑效果在用户接受度上较Edit1更为理想,同时幻觉率也显著下降,这表明模型对Edit2的信赖度相对较低,更容易受到外界干预的作用。

图片

使用7种主流的检测方法对幻觉进行检测,得到以下结果:

也就是说邢台市应急管理宣传教育培训中心,现有的干预手段并不能彻底根除幻觉,而且目前所采用的模型在应对这一现象时也显得力不从心。