[Paper] 通过对话学习:剖析人类与LLM在政治议题上的对话动态
请提供您希望翻译的具体文本内容(例如摘要、正文等),我会在保持源链接和原始格式的前提下,将其翻译成简体中文。
概述
本文研究了人们在政治敏感话题上通过与大型语言模型(LLM)的对话互动进行学习的方式。通过剖析 397 场真实的人类‑LLM 对话,作者揭示,学习不仅仅取决于解释有多“好”——更在于对话的展开方式以及用户如何与模型互动。
关键贡献
- 大规模实证数据集:397 条关于社会政治议题的多轮对话,标注了语言丰富性、用户信心和知识变化。
- 中介分析:显示 解释丰富性 通过促使反思性洞察间接提升用户信心,而知识增长完全由认知参与驱动。
- 调节分析:证明解释的影响随用户的政治效能感(他们对政治影响的感知)而变化。
- 以交互为中心的洞见:发现更长、更具反思性的对话对高效能用户更有益,凸显学习是交互式成就而非静态输出。
- 设计建议:提供具体指南,将 LLM 解释行为与用户的参与状态对齐。
方法论
-
Data Collection – Participants engaged in free‑form, multi‑turn dialogues with an LLM (ChatGPT‑style) about a set of pre‑selected political issues (e.g., climate policy, voting rights).
数据收集 – 参与者与大型语言模型(ChatGPT 风格)就一组预先选择的政治议题(例如气候政策、投票权)进行自由形式的多轮对话。 -
Annotation Pipeline – Each turn was labeled for:
- Explanatory richness (depth, evidence, nuance)
- Reflective insight (evidence of user self‑questioning or synthesis)
- Cognitive engagement (active information‑seeking, clarification requests)
- Political efficacy (self‑reported sense of political agency)
标注流程 – 对每一轮对话进行标注,标注内容包括: - 解释丰富性(深度、证据、细微差别)
- 反思洞察(用户自我提问或综合的证据)
- 认知参与(主动寻求信息、请求澄清)
- 政治效能感(自我报告的政治行动感)
-
Pre‑ / Post‑Measures – Users completed knowledge quizzes and confidence surveys before and after the conversation.
前后测量 – 用户在对话前后完成知识测验和信心调查。 -
Statistical Modeling –
- Mediation: Tested whether explanatory richness → reflective insight → confidence/knowledge.
- Moderation: Examined how political efficacy altered the strength of these pathways.
- Interaction length: Analyzed the role of conversation depth (number of turns) on outcomes.
统计建模 – - 中介分析:检验解释丰富性 → 反思洞察 → 信心/知识的路径是否成立。
- 调节分析:考察政治效能感如何改变这些路径的强度。
- 交互长度:分析对话深度(轮次数)对结果的影响。
结果与发现
| 结果 | 主要驱动因素 | 中介路径 | 调节因素 |
|---|---|---|---|
| 信心提升 | 解释丰富性(部分) | 丰富性 → 反思性洞察 → 信心 | 高政治效能 + 有效的不确定性解决 |
| 知识提升 | 认知参与(全部) | 丰富性 → 参与 → 知识 | 能够维持更长、反思性对话的高效能用户 |
| 对话时长 | 对反思型用户的收益大于对事实回忆型用户 | 更长的聊天 → 更多参与 → 更高的知识 | 仅在用户已有高政治效能的情况下 |
简而言之,若用户对内容进行反思,较丰富的解释会让他们感到更有信心;而实际的知识提升则取决于用户在整个聊天过程中保持认知活跃。政治上感到有赋权的用户能够获得最大的收益,尤其是在他们能够解决不确定性并维持更长交流时。
实际意义
- 自适应解释引擎 – 构建能够检测用户参与信号(例如提问频率、停顿时长)的 LLM 包装层,并动态调整解释的深度。
- 效能感知 UI – 为自报政治效能感低的用户提供可选的“信心提升”提示(例如“您想了解更多证据吗?”)。
- 对话长度控制 – 允许用户开启“深度探讨”模式,鼓励在复杂政策议题上进行更长、更具反思性的轮次。
- 反馈回路 – 集成快速的回合后测验或信心滑块,以实时评估学习情况并相应引导对话。
- 领域特定提示模板 – 在政治教育平台中嵌入明确邀请用户反思的提示(如“您对这个论点有什么看法?”),以触发反思‑洞察路径。
开发教学机器人、公民参与应用或任何基于 LLM 的咨询系统的开发者,都可以利用这些洞见,超越“一刀切”式解释,打造面向交互感知的学习体验。
限制与未来工作
- 人口偏差 – 参与者通过线上招募,可能无法代表完整的政治光谱或人口多样性。
- 单一 LLM 版本 – 结果与所使用的特定模型绑定;更新或微调的模型可能表现不同。
- 自我报告的效能 – 政治效能通过问卷测量,可能在对话过程中波动。
- 标注的可扩展性 – 丰富的回合级标注需要人工标注员;实现自动检测仍是一个未解的挑战。
未来的研究方向包括:使用多语言 LLM 测试这些发现,自动化实时检测反思性洞察,并探讨这些动态在法律咨询或医疗辅导等高风险领域的表现。
作者
- Shaz Furniturewala
- Gerard Christopher Yeo
- Kokil Jaidka
论文信息
- arXiv ID: 2601.07796v1
- 分类: cs.CL, cs.HC
- 出版日期: 2026年1月12日
- PDF: 下载 PDF