[Paper] PONTE:用于自然语言可信解释的个性化编排

发布: (2026年3月7日 GMT+8 01:12)
8 分钟阅读
原文: arXiv

请提供您希望翻译的具体文本内容,我才能为您进行简体中文翻译。

概览

本文介绍了 PONTE,一种人机交互的框架,能够为 AI 模型生成自然语言解释,并根据不同用户的需求定制解释的风格和内容。通过将个性化视为闭环的验证与适应过程——而非静态提示——该框架旨在提供既可信(忠实于底层模型)又符合每位用户的专业水平、目标和认知偏好的解释。

关键贡献

  • 闭环个性化:一种基于反馈的循环,更新低维用户偏好模型,而不是依赖脆弱的提示工程。
  • 偏好条件生成器:一种语言模型,生成基于结构化 XAI 人工制品(例如特征重要性表、决策规则)的解释,同时受学习到的偏好向量引导。
  • 多方面验证模块:对数值忠实度、信息完整性和风格一致性进行自动检查;可选的检索式论证以丰富解释。
  • 实证验证:在医疗(诊断风险评分)和金融(信用评分模型)上的实验表明,与未进行验证的基线相比,在完整性和风格符合度方面取得显著提升。
  • 人机交互研究:证明用户能够可靠地表达其风格需求,系统输出符合这些需求,即使引入生成随机性,质量评分仍保持高水平。

方法论

  1. 偏好建模 – 每位用户由一个紧凑向量(≈10 维)表示,编码诸如正式程度、技术深度、视觉与文本强调、以及风险容忍度等风格需求。该向量通过简短问卷或少量交互示例进行初始化。

  2. 基于事实的生成 – 大型语言模型(LLM)接收两个输入:(a) 结构化的 XAI 工件(例如 SHAP 值、规则集)和 (b) 当前的偏好向量。LLM 经过微调,使其输出条件化于该向量,生成解释该工件的自然语言叙述。

  3. 验证循环 – 生成后,运行三个自动验证器:

    • Faithfulness:检查数值陈述(例如 “特征 X 贡献了 0.23”)是否与源工件匹配。
    • Completeness:确保出现所有必需的组件(例如 top‑k 特征、置信区间)。
    • Stylistic Alignment:衡量生成文本的风格指标(词汇丰富度、句子长度、行话密度)与目标偏好向量之间的相似度。
      如果任何验证器未通过,系统要么 (i) 自动编辑文本,要么 (ii) 提示用户澄清,然后相应地更新偏好向量。
  4. 迭代细化 – 循环重复,直至所有验证器通过或达到最大迭代预算,生成个性化且可信赖的解释。

结果与发现

  • 定量收益:在两个领域中,验证‑精炼循环相较于仅生成基线,使完整性得分提升约22 %,并将忠实性违规降低约35 %。
  • 风格忠实度:预期与实现的偏好向量之间的余弦相似度从基线的0.58提升至两轮反馈后0.86。
  • 对随机性的鲁棒性:即使底层大语言模型(LLM)采样出多样化输出,验证模块仍能持续过滤掉风格漂移或事实不一致的草稿。
  • 人工研究:48名参与者(包括临床医生、数据科学家和业务分析师)对PONTE解释的“清晰度”评分为4.6/5,“可信度”为4.4/5,且有92 %的受访者表示风格符合其预期。

实际意义

  • 开发者工具包: PONTE 可以封装为一个 API,接受模型无关的 XAI 人工制品和用户画像负载,返回可直接展示的解释,用于仪表盘、聊天机器人或合规报告。
  • 监管合规: 金融和医疗机构可以满足“解释权”要求,同时兼顾不同利益相关者的需求(例如监管机构 vs. 患者)。
  • 面向客户的 AI 产品: SaaS 平台可以让终端用户切换解释深度(高级摘要 vs. 技术细分),无需为每种设置单独编写新提示。
  • 降低支持成本: 通过自动检测并纠正忠实度错误,PONTE 降低了误导性解释的风险,从而避免了人工质检的需求。

限制与未来工作

  • 偏好捕获开销:初始偏好获取仍需要简短的问卷;要扩展到成千上万的用户可能需要更智能的隐式画像(例如,交互日志)。
  • 领域特定工件:当前实现假设结构化的 XAI 输出(特征重要性、规则集)。扩展到黑箱解释,如反事实或视觉显著性图,需要额外的基础策略。
  • 验证可扩展性:可信度检查依赖于精确的数值匹配,这对产生随机分数的模型可能脆弱;未来工作可以加入概率验证。
  • 用户研究范围:实验仅限于两个领域和相对有限的参与者池;需要更广泛的现场试验(例如,自动驾驶、法律 AI)来验证通用性。

PONTE 标志着 AI 解释向不仅准确且对个人有意义的方向迈出一步——随着智能系统日益嵌入日常决策,这是一项关键能力。

作者

  • Vittoria Vineis
  • Matteo Silvestri
  • Lorenzo Antonelli
  • Filippo Betello
  • Gabriele Tolomei

论文信息

  • arXiv ID: 2603.06485v1
  • 分类: cs.CL, cs.AI
  • 发表日期: 2026年3月6日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »