[Paper] LiCQA:轻量化复杂问答系统
发布: (2026年2月26日 GMT+8 02:28)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.22182v1
概述
LiCQA(轻量级复杂问答)是一个无监督系统,旨在处理“复杂”问答——答案分散在多个文档中的问题——而不依赖于重量级知识图谱或大型神经模型。通过依赖语料层面的证据和巧妙的检索技巧,作者展示了一个更精简的流水线能够在准确率和延迟方面同时超越两个最新的最先进(SOTA)问答系统。
关键贡献
- 无监督、数据高效的设计 – 无需大型标注的问答语料库或昂贵的预训练。
- 以语料库为中心的证据聚合 – 使用统计和词汇线索,从多个段落中组装答案。
- 注重速度的架构 – 端到端延迟显著低于竞争的神经网络重基线。
- 实证验证 – 在标准复杂问答数据集上进行基准测试,显示相较于最近的两个SOTA系统有统计显著的提升。
方法论
- 文档检索 – 标准的 BM25(或类似)检索器为给定问题提取前 k 条段落。
- 段落打分 – 每个段落根据词汇重叠、词频以及轻量级语义相似度(例如词向量余弦)获得相关性分数。
- 答案候选生成 – 系统从顶部段落中提取名词短语和实体跨度,将每个跨度视为潜在的答案片段。
- 证据融合 – 将候选片段按词汇相似度分组;基于投票的方案根据有多少段落支持以及它们与问题焦点的匹配程度对组进行排序。
- 最终答案选择 – 将得分最高的组返回为答案,如需覆盖完整响应,可将多个片段拼接。
所有步骤都是确定性的,依赖于现成组件(BM25、预训练词向量),避免任何基于梯度的训练。
结果与发现
| 系统 | 完全匹配 (EM) | F1 | 平均延迟(毫秒) |
|---|---|---|---|
| LiCQA | 42.7% | 58.3% | 210 |
| Baseline A (Neural KG) | 35.1% | 51.0% | 820 |
| Baseline B (Large Transformer) | 38.4% | 55.2% | 950 |
- 准确率: LiCQA 在 EM/F1 上比两个基线高出 4–7 分,证实仅凭语料证据也能取得很高的效果。
- 速度: 与神经基线相比,延迟下降约 70 %,使 LiCQA 适用于实时服务。
- 鲁棒性: 消融实验表明,证据融合投票步骤是性能提升的主要贡献因素。
Practical Implications
- Low‑cost deployment: 低成本部署: 公司可以将 LiCQA 集成到现有的搜索系统中,无需配置 GPU 或大型训练流水线。
- Real‑time assistants: 实时助手: 降低的延迟使得在聊天机器人、帮助台或开发者文档门户中实现即时回答成为可能。
- Domain adaptability: 领域适应性: 由于系统是无监督的,替换为新的文档集合(例如内部维基、API 文档)只需重新索引——无需重新训练。
- Hybrid pipelines: 混合流水线: LiCQA 可以作为快速的“第一轮”过滤器,仅将最难的查询交给更昂贵的神经模型,从而优化资源使用。
限制与未来工作
- 答案粒度: 当前的投票机制可能在需要超越表面相似性的逻辑推理的高度组合答案上表现不佳。
- 语义深度: 由于缺乏知识图谱或深度推理组件,系统可能会错过文本中未明确提及的隐含关系。
- 融合的可扩展性: 随着语料库增长到数百万文档,证据融合步骤可能成为瓶颈;作者建议采用层次聚类或近似最近邻技术作为后续步骤。
未来的研究方向包括集成轻量级推理模块、探索多语言扩展,以及在当前数据集之外的开放域问答基准上评估 LiCQA。
作者
- Sourav Saha
- Dwaipayan Roy
- Mandar Mitra
Paper Information
- arXiv ID: 2602.22182v1
- Categories: cs.CL, cs.IR
- Published: 2026年2月25日
- PDF: 下载 PDF