[Paper] 修辞性问题在 LLM 表示中的线性探测研究

发布: (2026年4月16日 GMT+8 01:50)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.14128v1

概述

本文研究大型语言模型(LLMs)如何在内部编码修辞性问题——这些问题并非旨在得到回答,而是用于说服、表达立场或塑造对话。通过使用简单的线性分类器对LLM的隐藏状态进行探测,作者展示了修辞线索在模型处理的早期就会出现,并且可以可靠地被检测到,即使在不同的社交媒体数据集之间也是如此。

关键贡献

  • 线性探测框架 用于在大型语言模型隐藏状态中检测修辞性问题与信息寻求性问题。
  • 实证证据 表明修辞信号在序列的 最后一个标记 表示中最为稳定。
  • 跨数据集可迁移性:在一个语料库上训练的探针在另一个语料库上实现 AUROC ≈ 0.7–0.8,表明存在共享但细微的表征。
  • 多方向编码:不同的探针揭示不同的修辞现象(话语层面的立场 vs. 句法疑问模式),暗示没有单一的线性方向能够捕获所有修辞信息。
  • 定性分析 将探针特定的排名与具体语言线索关联(例如,扩展论证 vs. 表层提问形式)。

方法论

  1. 数据集 – 两个公开可用的社交媒体语料库,包含修辞性和真实信息寻求问题,每个都有人工验证的标签。
  2. 模型检查点 – 在数据集上运行流行的基于 Transformer 的大语言模型(例如 GPT‑2、LLaMA),并在每个 token 处提取隐藏状态。
  3. 线性探针 – 对于每一层和 token 位置,使用仅隐藏向量训练逻辑回归分类器,以区分修辞性和非修辞性问题(不对 LLM 进行微调)。
  4. 评估 – 使用 AUROC 在保留数据上评估探针,并通过将一个语料库上训练的探针应用到另一个语料库来测量 跨数据集 迁移。
  5. 排序分析 – 根据每个探针的 top‑k 实例进行比较,查看它们的重叠程度,揭示关注点的差异。
  6. 定性检查 – 手动检查来自不同排序的样本句子,以解释每个探针捕获的语言模式。

结果与发现

方面作者发现
层与标记位置修辞信号最早出现在第 3–第 4 层 Transformer,但 最后一个标记(即最终隐藏状态)始终获得最高的 AUROC。
可分离性在每个数据集中,修辞性问题在信息寻求性问题上是线性可分的(AUROC 0.78–0.84)。
跨数据集迁移探针迁移表现尚可(AUROC 0.70–0.80),但前 k 预测的 排名重叠 较低(< 20 %)。
多线性方向在不同语料上训练的探针会优先考虑不同线索:有些侧重于话语层面的立场(例如讽刺、论证延续),有些侧重于表层句法(例如出现 “why” 或 “how” 但没有随后的答案)。
可解释性定性示例证实模型同时编码了高层次的语用意图和低层次的句法模式,每种模式都由不同的线性方向捕获。

实际意义

  • Content moderation & sentiment analysis – 检测修辞性问题可以帮助平台标记具有说服性或操纵性的语言(例如政治 trolling),同时避免误判真实用户查询。
  • Chatbot design – 知道 LLMs 已经嵌入修辞线索意味着开发者可以构建轻量级分类器来调整响应策略(例如,以确认而非直接回答的方式回应)。
  • Prompt engineering – 在编写包含修辞手法的提示时(例如 “Isn’t this amazing?”),开发者可以预料模型的隐藏状态已经携带该立场,从而实现对下游任务(如语调调整生成)的更细致控制。
  • Transferable tooling – 鉴于线性探针在不同领域间具有良好的 AUROC,单个预训练探针即可打包为 plug‑and‑play 模块,供任何需要 rhetorical‑question detection 的 LLM‑based pipeline 使用。
  • Explainability dashboards – 编码的多方向特性表明,可视化多个探针得分(例如 “discourse stance” 与 “syntactic interrogative”)能够为开发者提供更丰富的洞察,了解模型为何将某个问题视为修辞性。

限制与未来工作

  • 数据集范围 – 只检查了两个社交媒体语料库;在正式文本(新闻、学术写作)或其他语言上结果可能不同。
  • 线性探针的简易性 – 虽然提供信息,但线性分类器无法捕捉可能同样编码修辞意图的非线性交互。
  • 解释粒度 – 本研究定性地将探针方向与语言现象关联,但系统性的修辞线索分类仍未确定。
  • 模型多样性 – 实验仅聚焦于少数 transformer 检查点;扩展到仅编码器模型(如 BERT)或更新的指令微调大语言模型可能揭示不同的编码模式。
  • 应用测试 – 未评估真实世界部署(例如审核流水线);未来工作可衡量对用户体验和误报率的下游影响。

作者

  • Louie Hong Yao
  • Vishesh Anand
  • Yuan Zhuang
  • Tianyu Jiang

论文信息

  • arXiv ID: 2604.14128v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 出版日期: 2026年4月15日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »