[Paper] 修辞性问题在 LLM 表示中的线性探测研究

发布: 3周前 (2026年4月16日 GMT+8 01:50)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.14128v1

概述

本文研究大型语言模型（LLMs）如何在内部编码修辞性问题——这些问题并非旨在得到回答，而是用于说服、表达立场或塑造对话。通过使用简单的线性分类器对LLM的隐藏状态进行探测，作者展示了修辞线索在模型处理的早期就会出现，并且可以可靠地被检测到，即使在不同的社交媒体数据集之间也是如此。

方面	作者发现
层与标记位置	修辞信号最早出现在第 3–第 4 层 Transformer，但最后一个标记（即最终隐藏状态）始终获得最高的 AUROC。
可分离性	在每个数据集中，修辞性问题在信息寻求性问题上是线性可分的（AUROC 0.78–0.84）。
跨数据集迁移	探针迁移表现尚可（AUROC 0.70–0.80），但前 k 预测的排名重叠较低（< 20 %）。
多线性方向	在不同语料上训练的探针会优先考虑不同线索：有些侧重于话语层面的立场（例如讽刺、论证延续），有些侧重于表层句法（例如出现 “why” 或 “how” 但没有随后的答案）。
可解释性	定性示例证实模型同时编码了高层次的语用意图和低层次的句法模式，每种模式都由不同的线性方向捕获。

Content moderation & sentiment analysis – 检测修辞性问题可以帮助平台标记具有说服性或操纵性的语言（例如政治 trolling），同时避免误判真实用户查询。
Chatbot design – 知道 LLMs 已经嵌入修辞线索意味着开发者可以构建轻量级分类器来调整响应策略（例如，以确认而非直接回答的方式回应）。
Prompt engineering – 在编写包含修辞手法的提示时（例如 “Isn’t this amazing?”），开发者可以预料模型的隐藏状态已经携带该立场，从而实现对下游任务（如语调调整生成）的更细致控制。
Transferable tooling – 鉴于线性探针在不同领域间具有良好的 AUROC，单个预训练探针即可打包为 plug‑and‑play 模块，供任何需要 rhetorical‑question detection 的 LLM‑based pipeline 使用。
Explainability dashboards – 编码的多方向特性表明，可视化多个探针得分（例如 “discourse stance” 与 “syntactic interrogative”）能够为开发者提供更丰富的洞察，了解模型为何将某个问题视为修辞性。