北邮网安团队 投稿
量子位 | 公众号 QbitAI
随着推理链条从三步扩展至超过五十步,幻觉的发生概率急剧上升了十倍;与此同时,反思的节点也陷入了无法应对的困境。
北京邮电大学的研究团队通过思维链审计实验,首次对这一“越想越错”的现象进行了量化分析,并揭示了其背后的元认知偏差。
在长链推理过程中,反思并非纠错手段,而是为幻觉赋予“理性凭证”——
模型在确保与用户提示的语义保持一致时,即使需要改动协议的规定,也绝不会放弃原有的基础前提。
风险缺口:长链CoT放大“误差滚雪球”
推理大型模型(RLLMs)能够将复杂问题分解为数十个推理步骤,并最终得出看似严谨的结论。但是,随着推理过程的延长,一个令人担忧的现象逐渐显现——错误并非偶然发生,而是如同滚雪球般在推理链条中不断累积放大。
在医疗、金融、法律等涉及高风险的领域,即便是微小的失误也可能引发严重的后果。
遗憾的是,目前的安全评估大多局限于对结果的判断:仅凭答案的正误来评判、通过毒性来衡量,这就像“考试仅关注最终的分数”一样。
该做法忽略了这样一个核心问题:错误究竟是如何在链条中扎根、蔓延并最终形成僵局的?若不能深入理解这一过程,便难以找到有效的解决策略。
北京邮电大学的研究团队为解决这一问题,采取了以下方法:
首先,依据RFC协议的相关文件来构建一个受控的知识领域;接着,让模型执行30至60步的连续推理过程;在此过程中,于关键步骤中嵌入反思操作,以便实时追踪置信度的变动情况。
具体来说,他们设立了一个受控的知识范围,这一范围涵盖了两种不同类型的幻觉案例,并成功解决了在受控情境下准确复现幻觉的难题(图a)。
这个领域具有以下三个特点:
接着,他们设计了一套专门用于长链推理的模型体系,这套体系能够记录知识在多个推理环节中的引入、循环以及优化过程,成功应对了在复杂推理路径上探究幻觉演变难题的挑战(见图b)。
他们深入分析了幻觉的具体案例,旨在探究现实情境中幻觉的扩散原因,并应对了揭示长链推理中幻觉产生机制这一难题。如图c所示,k1和k3通过引入错误信息,导致原本正确的思维链的第一步(c1)在经过c3的反射后,扭曲成引发幻觉的c4,进而揭示了推理模型中潜在的风险。
反思越深错误越真:长链推理的自我说服
经过对研究结果的深入剖析,北京邮电大学的研究团队成功揭示了RLLM产生幻觉的根本机理:
模型在漫长的思维链条中不断尝试,却并未逐步接近真理,反而通过成百上千字的繁复论证,将几十个错误的词汇组合固定下来。
1、外部错误诱发内部造假
实验结果表明,一旦模型遇到预先设定的错误(例如“UDP校验绑定HMAC安全机制”),:
2、反思(Reflection)沦为自我说服工具
正向干预实验:解析长链推理的“病变”现象
为了探究上游推理的变动对下游环节所产生的影响,北京邮电大学的研究团队精心策划了一项正向干预实验,该实验可细分为以下三个阶段:
精确识别:在总计1015个长链样本中,成功标注出第一个存在错误的知识点,例如那些虚构的协议内容。
2.三阶段干预:
3.六维评估指标:
长链幻觉检测结果:现有方法难以应对
对七种主流检测技术进行评估,其中表现最佳的方法处理一个样本需时约两小时,然而其准确度依旧未能达到79%的水平。
经过在超过1500个token的复杂思维链样本中进行验证,研究结果表明,现有的检测技术面对元认知层面的幻觉问题时,其表现不尽如人意。
通过正向干预实验对长链幻觉进行检测,结果显示:
Edit1对下游推理产生的效应明显超过Edit2与Edit3,这一现象揭示了干预效果在推理过程中呈现递减的趋势。
Edit2案例的编辑效果在用户接受度上较Edit1更为理想,同时幻觉率也显著下降,这表明模型对Edit2的信赖度相对较低,更容易受到外界干预的作用。
使用7种主流的检测方法对幻觉进行检测,得到以下结果:
也就是说邢台市应急管理宣传教育培训中心,现有的干预手段并不能彻底根除幻觉,而且目前所采用的模型在应对这一现象时也显得力不从心。