当准确的 AI 仍然危险地不完整
Source: VentureBeat
Source:
介绍
通常,在构建、训练和部署 AI 时,企业会优先考虑准确性。这无疑很重要;但在法律等高度复杂、细微的行业中,仅靠准确性并不足够。更高的风险意味着更高的标准:模型输出必须评估其相关性、权威性、引用准确性以及幻觉率。
“不存在‘完美 AI’这种东西,因为在复杂的高风险领域(如法律)中,你永远达不到 100% 的准确性或 100% 的相关性,” — Min Chen,LexisNexis 副总裁兼首席 AI 官,VentureBeat Beyond the Pilot 播客。
目标是尽可能管理这种不确定性,并将其转化为持续的客户价值。“归根结底,对我们来说最重要的是 AI 结果 的质量,而这是一段持续的实验、迭代和改进之旅,”Chen 说。
获得对多方面问题的“完整”答案
为了评估模型及其输出,陈的团队建立了超过半打的“子指标”,通过多个因素——权威性、引用准确性、幻觉率——以及“全面性”来衡量“有用性”。该指标评估生成式 AI 的回复是否完整地覆盖了用户法律问题的所有方面。
“所以这不仅仅是相关性的问题。完整性直接关系到法律可靠性,”陈解释道。
- 示例: 用户提出一个需要涵盖五个不同法律考量的问题。生成式 AI 可能准确地回答了其中的三个。虽然相关,但部分答案仍不完整,从用户的角度来看是不够的。这可能产生误导并带来现实风险。
- 引用: 引用可能对用户的问题在语义上相关,但它们可能指向最终在法庭上被推翻的论点或实例。陈说:“我们的律师会认为这些不可引用。‘如果不可引用,就没有用处’。”
Source: …
超越标准 RAG
LexisNexis 在 2023 年推出了其旗舰生成式 AI 产品 Lexis+ AI——一款用于起草、研究和分析的法律 AI 工具。它基于标准的检索增强生成(Retrieval‑Augmented Generation,RAG)框架和混合向量搜索,将响应根植于 LexisNexis 可信、权威的知识库。
公司随后在 2024 年发布了个人法律助理 Protégé。该代理在向量搜索之上加入了知识图谱层,以克服纯语义搜索的“关键限制”。虽然语义搜索在检索上下文相关内容方面“非常好”,但正如陈所指出的,语义搜索“并不总能保证权威答案”。
过程
- 初始语义搜索返回它认为相关的内容。
- 陈的团队在“法律要点”图上遍历这些返回结果,以进一步筛选出最具权威性的文档。
除此之外,团队正在开发 agentic graphs 并加速自动化,使代理能够规划并执行复杂的多步骤任务。示例包括:
- 用于研究问答的 Planner agents,将用户问题拆分为多个子问题。人类用户可以审阅并编辑这些子问题,以完善和个性化最终答案。
- 用于交易文件起草的 Reflection agents,自动且动态地批评初稿,然后实时整合反馈并完善文档。
陈强调,这些进展并非旨在取代人类。“人类专家和 AI 代理可以一起学习、推理和成长。我看到的未来是人类与 AI 更深层次的协作。”
播客主题
- LexisNexis 收购 Henchman 如何帮助使用专有的 LexisNexis 数据和客户数据为 AI 模型提供基础
- 确定性评估与非确定性评估之间的区别
- 为什么企业在急于实验之前应先确定关键绩效指标(KPI)和成功定义
- 聚焦于“成本、速度、质量”三要素“三角形”的重要性