[Paper] 理解与缓解 LLM Steering 中的数据集损坏

发布: 2天前 (2026年3月4日 GMT+8 02:00)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.03206v1

概述

本文研究了 contrastive steering——一种在推理时轻量级地推动大型语言模型（LLMs）朝向或远离特定特征的技术——在用于学习引导方向的示例数据被破坏时的表现。作者表明，适度的噪声是可容忍的，但有针对性的投毒会导致有害的副作用，他们提出了一种简单的稳健统计修正方法，显著提升了安全性。

关键贡献

对比引导在各种腐败情形下的经验稳健性研究（随机噪声、标签翻转和对抗性投毒）。
几何分析：腐败样本如何扭曲学习得到的 1‑维引导子空间。
识别出一种失效模式：当引导数据集的非平凡比例被恶意篡改时，模型可能出现意外行为。
稳健均值估计器的集成：将标准的高维均值计算替换为近期提出的稳健估计器，可在几乎无额外开销的情况下缓解大多数恶意影响。
实用的安全防护措施和在生产流水线中安全部署对比引导的指南。

方法论

数据集构建 – 作者构建了包含提示‑响应对的数据集，标记为“具有特质”与“无特质”（例如，礼貌 vs. 生硬）。
噪声类型 – 他们注入三种噪声：
- 随机：标签或响应的随机置换。
- 系统性：一致性偏差（例如，所有“具有特质”的示例被中性文本替代）。
- 对抗性：精心构造的示例，旨在将引导方向推向有害子空间。
引导方向学习 – 对比引导在选定的中间层计算每个类别的平均激活向量，并将其差值作为引导方向（一个 1‑维子空间）。
稳健均值替代 – 将标准均值替换为稳健的高维均值估计器（例如，基于中位数‑均值的迭代过滤），以容忍离群值。
评估 – 作者测量：
- 特质对齐度（模型遵循预期方向的程度）。
- 副作用泄漏（对无关属性的意外改变）。
- 随噪声比例变化的灵敏度曲线。

结果与发现

基线鲁棒性：在约 15 % 随机损坏的情况下，控制方向保持稳定，特性对齐仅略有下降。
对抗性脆弱性：在约 30 % 的定向投毒下，模型开始表现出恶意特征（例如生成不允许的内容），但仍表面上遵循原始的控制提示。
几何洞察：被破坏的数据点会移动类别均值，使控制子空间相对于真实方向旋转；该效应随投毒数据比例线性增长。
稳健均值的影响：即使在 40 % 数据被投毒的情况下，将均值替换为稳健估计器也能将恶意漂移降低超过 80 %，且预期特性性能下降不到 2 %。
计算成本：稳健估计器大约增加 10 % 的运行时开销，相较于大型模型的整体推理成本可以忽略不计。

实际影响

更安全的模型定制 – 使用对比引导进行安全过滤、语调调整或政策合规的团队，现在可以通过最小的代码改动防御数据投毒攻击。
低成本部署 – 由于稳健估计器使用与引导相同的激活向量，无需额外的模型训练或微调。
可审计性 – 几何分析提供了一种诊断工具：监控类均值的范数和方向可以标记出引导数据集可能被篡改的情况。
更广泛的适用性 – 任何依赖少量示例在激活空间中计算方向的工作流（例如基于提示的对齐、LoRA 风格的适配器）都可以受益于相同的稳健均值防护。

限制与未来工作

该研究聚焦于单一中间层和特定类别的大型语言模型（LLM）；对于更深层或多层引导方案，鲁棒性可能有所不同。
鲁棒估计器假设异常值的比例有界；极高比例的投毒（>50 %）仍会使该方法失效。
现实中的对手可能会针对鲁棒估计器进行适应性攻击，从而需要自适应防御措施。
未来研究可探索对受损样本的在线检测，将鲁棒统计与可认证鲁棒性保证相结合，并在多模态模型上评估该方法。

作者

Cullen Anderson
Narmeen Oozeer
Foad Namjoo
Remy Ogasawara
Amirali Abdullah
Jeff M. Phillips

论文信息

arXiv ID: 2603.03206v1
分类: cs.LG, cs.AI, cs.CL
出版日期: 2026年3月3日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 没有世界模型的世界属性：从静态词向量的共现统计中恢复空间和时间结构

近期的研究将从大型语言模型（LLM）隐藏状态中线性可恢复的地理和时间变量解释为对类世界 i… 的证据。

[Paper] SWE-CI：通过持续集成评估代理在维护代码库方面的能力

Large language model (LLM)-powered agents 已经展示出在自动化软件工程任务（如 static bug fixing）方面的强大能力，如证据所示……

[Paper] 无记忆，无检测：基于输出分布的小语言模型污染检测

CDD（Contamination Detection via output Distribution），通过测量模型采样输出的峰度来识别数据污染。我们研究了……

[Paper] MoD-DPO：通过模态解耦偏好优化缓解全能大语言模型中的跨模态幻觉

Omni-modal 大语言模型（omni LLMs）最近在视听理解任务上取得了强劲的表现，但它们仍然高度易受…