[Paper] 探索大语言模型在主观跨度识别任务上的性能

发布: 1个月前 (2026年1月3日 GMT+8 00:30)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.00736v1

概述

本文研究了在要求定位主观文本跨度——即传达情感、冒犯性或事实主张的确切词语时，现代大型语言模型（LLM）的表现。虽然大多数先前的工作使用较小的模型（例如 BERT）来完成诸如命名实体识别（NER）等经典跨度标注任务，但本研究是首批系统评估 LLM 在更细致、基于观点的跨度识别任务上的工作之一。

关键贡献

全面基准，涵盖三个真实任务：基于方面的情感分析、冒犯语言检测和声明验证。
系统比较 多种 LLM 提示策略——纯零-shot、指令微调提示、上下文学习（few-shot 示例）和链式思考（CoT）推理。
实证证据 表明底层文本关系（例如情感线索、话语标记）帮助 LLM 更准确地定位跨度，优于基线方法。
开源评估脚本 与可复现的排行榜，为未来主观跨度识别研究提供支持。

方法论

数据集 – 作者为每个任务选择了公开可用的语料库：
- 情感：SemEval‑ABSA 数据集，包含方面词和极性跨度。
- 攻击性：OLID（Offensive Language Identification Dataset），带有标注的攻击性跨度。
- 声明验证：FEVER‑S，包含证据句子跨度。
LLM 系列 – 实验使用了多种最先进的模型（例如 GPT‑3.5、Claude‑2、LLaMA‑2），通过 API 或开源检查点访问。
提示设计 – 测试了四种提示方案：
- 零样本：单一指令，要求模型“标出表达情感/攻击/声明的跨度”。
- 指令微调：更详细的提示，定义跨度识别任务并提供格式指南。
- 上下文学习：提供 2–3 个示例，展示输入文本、目标跨度以及期望的输出格式。
- 思考链：模型先解释 为什么 某片段相关，然后再输出跨度。
评估指标 – 使用精确匹配和部分重叠标准（类似 NER 中的“标记级”评估）计算跨度层面的精确率、召回率和 F1。
基线 – 在相同数据上训练的基于 BERT 的标记分类器作为强大的任务特定基线。

结果与发现

任务	最佳 LLM 提示	F1（精确）	F1（部分）	BERT 基线
情感（ABSA）	CoT + In‑context	78.4	85.1	71.2
攻击性	Instruction‑tuned	74.9	82.3	68.7
声明验证	In‑context (3‑shot)	71.5	79.0	66.4

链式思考（Chain‑of‑thought）推理 一贯提升了更细微的情感任务的表现，表明让模型“思考出声”有助于它解决模糊线索。
上下文示例（In‑context examples） 对声明验证尤为重要，因为模型需要理解前提与证据之间的逻辑关系。
在所有任务中，LLM 优于 BERT 基线，即使没有在特定数据集上进行微调，也凸显了大规模预训练结合巧妙提示的强大威力。

实际影响

Explainable AI：开发者可以利用 LLM 生成对情感或审核决策的人类可读的解释（突出显示的跨度），提升面向用户的应用透明度。
Rapid prototyping：由于最佳结果仅依赖提示，团队可以在无需昂贵标注或微调周期的情况下构建功能性的跨度提取流水线。
Content moderation：攻击性语言的发现表明，LLM 能够精准定位具体的冒犯短语，从而实现更精确的自动编辑或警告。
Fact‑checking tools：准确的证据跨度提取可以为下游验证引擎提供输入，减少在大型语料库中手动寻找支持句子的工作量。

局限性与未来工作

Prompt sensitivity – 性能会因提示词的措辞而显著变化；论文指出系统化的提示搜索仍是一个未解决的问题。
API constraints – 某些 LLM 通过商业 API 访问，这限制了没有付费渠道的研究者的可复现性。
Domain coverage – 实验主要聚焦于英文新闻/社交媒体数据；跨语言或特定领域（例如医学）的跨度识别尚未测试。
Scalability – 虽然 zero‑shot prompting 成本低廉，但使用多个示例的 in‑context learning 会增加延迟和 token 成本，可能对高吞吐量服务构成阻碍。

未来的方向包括自动化提示优化、在跨度标注数据上对小型 LLM 进行微调，以缩小成本与性能之间的差距，并将基准扩展到多语言环境。

作者

Alphaeus Dmonte
Roland Oruche
Tharindu Ranasinghe
Marcos Zampieri
Prasad Calyam

论文信息

arXiv ID: 2601.00736v1
分类: cs.CL, cs.AI
出版日期: 2026年1月2日
PDF: 下载 PDF

[Paper] 探索大语言模型在主观跨度识别任务上的性能

概述

关键贡献

方法论

结果与发现

实际影响

局限性与未来工作

作者

论文信息

相关文章

[Paper] 理性几何：有效数学推理的谱特征

[Paper] 用于大语言模型持续适应的 Memory Bank Compression

[Paper] TeleDoCTR：面向电信的领域特定与上下文故障排除

[论文] Fast-weight Product Key Memory