[论文] 语义锚点在上下文学习中的作用：为何小型语言模型无法翻转其标签

发布: 2个月前 (2025年11月26日 GMT+8 12:14)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.21038v1

概览

本文研究了在给出少量刻意翻转标签的示例时，大语言模型（LLM）是否能够重新学习类别标签的含义。通过将上下文学习（ICL）视为一种提示驱动的分类器，作者展示了小型开源模型（1 – 12 B 参数）被其预训练期间获得的语义所锚定，无法通过少量示例提示“覆盖”这些语义。

关键贡献

语义锚定假设： 提出 ICL 主要将输入投射到预训练得到的语义方向上，而不是重新映射标签含义。
三种对齐度量： 引入 真值对齐、先验对齐 和 提示对齐，用于剖析模型预测与真实标签、零样本偏差以及提供的示例之间的关系。
语义覆盖率（SOR）： 定义了一种新度量，用来衡量模型正确遵循翻转标签语义的频率。
实证研究： 在八个分类任务上评估了八种开源 LLM（1 – 12 B 参数），使用自然示例和倒置示例两种设置。
负面结果： 在少样本条件下所有模型的 SOR = 0，证实小模型仅凭提示无法学习反语义分类器。

方法论

提示诱导的分类： 将每个任务构造成文本补全问题，模型先收到若干示例，然后是测试输入。
自然示例 vs. 倒置示例：
- 自然示例使用正确的标签映射（例如 “spam → 1”）。
- 倒置示例系统性地交换标签含义（例如 “spam → 0”）。
对齐度分解：
- 真值对齐 – 与真实标签的一致性。
- 先验对齐 – 与模型零样本预测（其内在偏差）的一致性。
- 提示对齐 – 与提示中指示的标签的一致性。
语义覆盖率（SOR）： 计算模型预测匹配翻转标签语义（即遵循倒置提示）的测试实例比例。
实验： 在八个基准分类数据集（情感、主题、意图等）上使用八种开源 LLM（1 B‑12 B），分别在 1‑shot 和 5‑shot 提示下进行评估。

结果与发现

模型规模	自然示例 – 准确率提升	先验对齐	提示对齐（倒置）	SOR
1 B	相比零样本提升 +3–5 %	高 (≈80 %)	略有提升，但以准确率下降为代价	0 %
3 B‑12 B	相比零样本提升 +4–9 %	高 (≈85 %)	仅在准确率崩塌时才提升	0 %

自然示例 能提升整体准确率，同时模型的预测仍然强烈地与其预训练先验对齐；大多数正确答案与零样本输出相同。
倒置示例 从未产生连贯的反语义分类器：模型只能通过牺牲真值对齐来提升提示对齐，导致语义覆盖率为零，在所有规模和任务上均如此。
该结论在不同任务、示例数量以及模型规模（至 12 B 参数）上保持一致。

实际意义

提示工程的局限性： 对于小到中等规模的 LLM，少量示例不足以彻底翻转模型对标签的理解（例如将 “positive” 重新定义为 “negative”）。提示设计应侧重于澄清任务，而非重新标记。
零样本偏差意识： 由于 ICL 主要依赖模型已有的先验，开发者应先检查零样本行为；强偏差即使在加入多示例后仍可能占主导。
微调 vs. 提示： 若需真正改变标签语义（自定义分类体系、领域特定类别），需要轻量微调、适配器或检索增强方法，而非纯粹的少样本提示。
安全与对齐： 少样本提示难以覆盖语义既是优点（防止意外的标签劫持），也是缺点（限制低资源环境下的快速定制）。

局限性与未来工作

模型规模： 实验止步于 12 B 参数，尚不清楚更大模型（如 70 B+）是否能实现非零 SOR。
任务多样性： 仅考察了分类任务；生成式或多标签场景可能表现不同。
提示格式： 本研究使用固定的示例模板，未探索更丰富的提示策略（链式思考、自洽等）。
未来方向： 将分析扩展到指令微调模型，探讨检索增强提示的影响，以及研究适度参数高效微调如何与语义锚定现象交互。

作者

Anantha Padmanaban Krishna Kumar

论文信息

arXiv ID: 2511.21038v1
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025 年 11 月 26 日
PDF: Download PDF

相关文章

阅读更多 »

[Paper] ThetaEvolve：测试时学习在开放问题上

近期在大型语言模型（LLMs）方面的进展已经促成了数学发现的突破，以 AlphaEvolve 为例，这是一个闭源系统，...

[Paper] MegaChat：合成波斯语问答数据集用于高质量销售聊天机器人评估

伊朗的中小企业（SMEs）日益利用Telegram进行销售，实时互动对转化至关重要。然而，dev...

[Paper] 通过结构化知识发现方法提升语言模型生成的可解释性

Knowledge-enhanced text generation 旨在通过利用内部或外部知识源来提升生成文本的质量。虽然语言模型已经…

[Paper] 每个 Token 都很重要：在大型语言模型中推广 16M 超长上下文

本工作探讨了构建“能够记忆的机器”的挑战，将长期记忆框定为高效超长上下文建模的问题。W...