[论文] 语义锚点在上下文学习中的作用:为何小型语言模型无法翻转其标签

发布: (2025年11月26日 GMT+8 12:14)
6 min read
原文: arXiv

Source: arXiv - 2511.21038v1

概览

本文研究了在给出少量刻意翻转标签的示例时,大语言模型(LLM)是否能够重新学习类别标签的含义。通过将上下文学习(ICL)视为一种提示驱动的分类器,作者展示了小型开源模型(1 – 12 B 参数)被其预训练期间获得的语义所锚定,无法通过少量示例提示“覆盖”这些语义。

关键贡献

  • 语义锚定假设: 提出 ICL 主要将输入投射到预训练得到的语义方向上,而不是重新映射标签含义。
  • 三种对齐度量: 引入 真值对齐先验对齐提示对齐,用于剖析模型预测与真实标签、零样本偏差以及提供的示例之间的关系。
  • 语义覆盖率(SOR): 定义了一种新度量,用来衡量模型正确遵循翻转标签语义的频率。
  • 实证研究: 在八个分类任务上评估了八种开源 LLM(1 – 12 B 参数),使用自然示例和倒置示例两种设置。
  • 负面结果: 在少样本条件下所有模型的 SOR = 0,证实小模型仅凭提示无法学习反语义分类器。

方法论

  1. 提示诱导的分类: 将每个任务构造成文本补全问题,模型先收到若干示例,然后是测试输入。
  2. 自然示例 vs. 倒置示例:
    • 自然 示例使用正确的标签映射(例如 “spam → 1”)。
    • 倒置 示例系统性地交换标签含义(例如 “spam → 0”)。
  3. 对齐度分解:
    • 真值对齐 – 与真实标签的一致性。
    • 先验对齐 – 与模型零样本预测(其内在偏差)的一致性。
    • 提示对齐 – 与提示中指示的标签的一致性。
  4. 语义覆盖率(SOR): 计算模型预测匹配翻转标签语义(即遵循倒置提示)的测试实例比例。
  5. 实验: 在八个基准分类数据集(情感、主题、意图等)上使用八种开源 LLM(1 B‑12 B),分别在 1‑shot 和 5‑shot 提示下进行评估。

结果与发现

模型规模自然示例 – 准确率提升先验对齐提示对齐(倒置)SOR
1 B相比零样本提升 +3–5 %高 (≈80 %)略有提升,但以准确率下降为代价0 %
3 B‑12 B相比零样本提升 +4–9 %高 (≈85 %)仅在准确率崩塌时才提升0 %
  • 自然示例 能提升整体准确率,同时模型的预测仍然强烈地与其预训练先验对齐;大多数正确答案与零样本输出相同。
  • 倒置示例 从未产生连贯的反语义分类器:模型只能通过牺牲真值对齐来提升提示对齐,导致语义覆盖率为零,在所有规模和任务上均如此。
  • 该结论在不同任务、示例数量以及模型规模(至 12 B 参数)上保持一致。

实际意义

  • 提示工程的局限性: 对于小到中等规模的 LLM,少量示例不足以彻底翻转模型对标签的理解(例如将 “positive” 重新定义为 “negative”)。提示设计应侧重于澄清任务,而非重新标记
  • 零样本偏差意识: 由于 ICL 主要依赖模型已有的先验,开发者应先检查零样本行为;强偏差即使在加入多示例后仍可能占主导。
  • 微调 vs. 提示: 若需真正改变标签语义(自定义分类体系、领域特定类别),需要轻量微调、适配器或检索增强方法,而非纯粹的少样本提示。
  • 安全与对齐: 少样本提示难以覆盖语义既是优点(防止意外的标签劫持),也是缺点(限制低资源环境下的快速定制)。

局限性与未来工作

  • 模型规模: 实验止步于 12 B 参数,尚不清楚更大模型(如 70 B+)是否能实现非零 SOR。
  • 任务多样性: 仅考察了分类任务;生成式或多标签场景可能表现不同。
  • 提示格式: 本研究使用固定的示例模板,未探索更丰富的提示策略(链式思考、自洽等)。
  • 未来方向: 将分析扩展到指令微调模型,探讨检索增强提示的影响,以及研究适度参数高效微调如何与语义锚定现象交互。

作者

  • Anantha Padmanaban Krishna Kumar

论文信息

  • arXiv ID: 2511.21038v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 发布日期: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »