[Paper] 被倾听还是被打断?性别、插话与情绪语调在美国最高法院口头辩论中的表现
发布: (2025年12月5日 GMT+8 23:56)
6 min read
原文: arXiv
Source: arXiv - 2512.05832v1
Overview
本文研究了美国最高法院口头辩论期间的打断如何影响辩护人的发言内容和语气,特别关注性别因素。通过对十年跨度的转录语料库应用现代 NLP 技术,作者展示了虽然打断很少改变论点的意义,但针对女性律师的打断在情感色彩上显著更为负面。
Key Contributions
- 大规模实证研究:分析了 2010‑2019 年期间最高法院口头辩论的 12,663 条发言片段。
- 语义影响分析:使用基于 GloVe 的句子嵌入测量打断前后意义漂移。
- 情感分析(基于词典):揭示了性别偏见:针对女性的打断包含更高的负面情感。
- 计算话语分析示例:将其作为探讨精英高风险场景中权力动态的工具。
- 开源流水线:基于 ConvoKit Supreme Court Corpus 构建,可复用于其他法庭或辩论数据集。
Methodology
- 数据收集 – 本研究利用 ConvoKit Supreme Court Corpus,其中包含口头辩论的完整时间戳转录。每个“发言片段”是辩护人连续讲话直到法官插话为止。
- 识别打断 – 根据法官插话的时间戳,将片段划分为打断前和打断后两部分。
- 语义相似度 – 将两部分分别转化为 300 维 GloVe 句子嵌入(词向量平均)。两向量的余弦相似度量化打断后论点意义的变化程度。
- 情感测量 – 采用词典方法(VADER/NRC)为每个片段打分,得到正面、负面和中性情感。重点关注负面成分。
- 统计检验 – 配对 t 检验比较打断前后相似度,回归模型评估性别(女性 vs. 男性辩护人)是否预测更高的负面情感,控制案件类型、法官和论证长度等因素。
Results & Findings
- 语义稳定性:打断前后嵌入的平均余弦相似度为 0.87(在 0–1 量表上),表明核心论证内容在被打断后基本保持不变。
- 性别情感差异:针对女性辩护人的打断其负面情感得分平均高出 0.12 分(p < 0.01),该差距在考虑案件复杂度和单个法官的说话风格后仍然显著。
- 打断长度对语义相似度无显著影响,说明即使是较长的插话也不会实质性重写论点的意义。
Practical Implications
- 偏见检测工具:该流水线可改造成法院、立法听证会或企业会议的实时监控系统,用于标记潜在的性别偏见打断。
- 法律专业培训:法学院和书记官项目可利用这些发现提升对微妙权力动态的认识,改进辩护策略。
- 对话式 AI 设计:在法律场景中使用的语音助理或转录服务可加入偏见感知的后处理(例如,高亮对弱势发言者的负面插话)。
- 政策与改革:性别化负面情感的实证证据可为司法行为准则或司法系统内部的多样性倡议提供依据。
Limitations & Future Work
- 基于词典的情感分析可能遗漏细微的讽刺或特定语境的负面情感;引入基于 transformer 的情感模型有望提升准确性。
- 本研究聚焦于美国最高法院口头辩论;结果未必适用于下级法院、其他法律体系或非法律辩论场合。
- 发言者意图未被捕获——有些打断是程序性的(例如请求澄清),而非对抗性的。未来工作可对打断类型进行分类,并考察其不同影响。
- 将分析扩展至交叉身份(如种族 + 性别)以及长期趋势,可能揭示偏见是否随时间下降。
底线:通过将大规模转录数据与简易 NLP 技术相结合,本研究发现了最高法院打断中情感色彩的细微但可测量的性别偏见——这些洞见对构建偏见感知工具、法律教育者和政策制定者均具有直接的可操作性。
Authors
- Yifei Tong
Paper Information
- arXiv ID: 2512.05832v1
- Categories: cs.CL, cs.CY
- Published: December 5, 2025
- PDF: Download PDF