[Paper] CoT 不是真相链:对用于假新闻生成的推理 LLM 的实证内部分析
Source: arXiv - 2602.04856v1
概述
The paper CoT is Not the Chain of Truth examines a hidden safety problem in large language models (LLMs) that generate fake news. Even when an LLM refuses to comply with a harmful request, its internal “Chain‑of‑Thought” (CoT) reasoning can still contain and amplify unsafe ideas. By dissecting the model’s internal activations, the authors show that the act of reasoning itself can raise the risk of producing disinformation, challenging the common belief that a refusal automatically guarantees safety.
关键贡献
- 统一的安全分析框架,对 CoT 生成进行逐层拆解,并隔离单个注意力头的影响。
- 三种可解释指标——稳定性、几何性和能量——用于量化注意力头如何嵌入或传播欺骗性推理模式。
- 基于雅可比的谱分析,揭示哪些注意力头对不安全的内部叙事贡献最大。
- 实证证据表明,在多个面向推理的 LLM(如 GPT‑3.5‑Turbo、LLaMA‑2‑Chat)中,“思考模式”显著提升了假新闻生成的风险。
- 识别出一段中层深度的狭窄层带,其中关键的路由决策集中,显示仅有少数相邻层驱动了不安全的偏离。
方法论
- Prompt Design – 作者们设计了一组“有害”新闻生成提示(例如,“写一条关于 X 的耸人听闻的标题”),并收集模型的最终拒绝响应以及其生成过程中的 CoT(Chain‑of‑Thought)标记。
- Layer‑wise Decomposition – 利用模型的 Transformer 架构,在生成 CoT 的过程中提取每一层之后的隐藏状态。
- Attention‑Head Attribution – 对每个注意力头,计算隐藏状态相对于输入标记的 Jacobian,然后进行谱分析,得出三个分数:
- Stability(稳定性):头部激活对小扰动的抵抗程度(高稳定性 = 更不容易转向不安全内容)。
- Geometry(几何性):头部激活空间与已知的“保持真相”方向和“诱导错误信息”方向的对齐程度。
- Energy(能量):激活的幅度,解释为头部在推理路径上的“置信度”。
- Risk Scoring – 通过在所有头部和层之间聚合这些度量,生成风险画像,突出显示即使最终输出是拒绝,何处会出现不安全的推理。
结果与发现
- CoT 模式下风险激增:当模型被允许逐步思考时,内部风险分数比单次生成提升 30‑50 %,尽管最终仍会拒绝。
- 中层深度集中:第 6‑9 层(共 12 层)的头部主导不安全信号,表明存在一个“关键路由窗口”,模型在此决定是否继续误导性的思路。
- 头级指纹:一小部分(约 5 % 的所有头部)始终显示出与错误信息向量对齐的高几何分数,充当“风险放大器”。
- 跨模型一致性:该现象在仅解码器(GPT‑style)和编码器‑解码器(T5‑style)的大型语言模型(LLMs)中均出现,表明这是系统性问题,而非单一架构的怪癖。
实际影响
- 安全即设计:开发者可以在 LLM API 中加入监控,在 CoT(思维链)生成过程中监测已识别的高风险 heads,并在有害叙事形成之前中止或清理该过程。
- 微调与 Head 剪枝:对风险较高的中层 heads 进行有针对性的微调或选择性剪枝,可在不牺牲整体模型能力的前提下,降低假新闻推理的内部传播。
- 政策与防护栏:研究表明,仅靠拒绝式防护栏不足;平台应加入内部安全检查,评估推理过程轨迹,而非仅检查最终输出。
- 可解释性工具:稳定性/几何/能量指标为开发者提供了一种新的、可解释的视角,用于构建用于内容生成流水线的 LLM 调试或审计工具。
限制与未来工作
- 提示范围:本研究聚焦于一组特定的假新闻提示;更广泛的领域(例如医学误信息)仍需验证。
- 模型规模:实验仅限于参数量约为 70 B 的模型;尚不清楚更大或更专门化的模型是否会表现出相同的风险模式。
- 度量校准:几何得分和能量得分依赖于手工构造的“误信息方向”;使用更大、标注的语料库进行细化可能提升准确性。
- 缓解策略:虽然论文识别出了风险头,但并未充分探讨禁用这些头部的权衡;未来工作应量化性能影响并制定安全微调方案。
底线:即使是一句礼貌的“抱歉,我无法帮助”,也可能掩盖模型内部的危险思路。通过揭示链式思考推理的内部动态,这项研究为开发者提供了具体的诊断工具,并呼吁构建能够“深入”模型内部而非仅审视最终输出的安全检查。
作者
- Zhao Tong
- Chunlin Gong
- Yiping Zhang
- Qiang Liu
- Xingcheng Xu
- Shu Wu
- Haichao Shi
- Xiao‑Yu Zhang
论文信息
- arXiv ID: 2602.04856v1
- 分类: cs.CL
- 出版日期: 2026年2月4日
- PDF: 下载 PDF