[Paper] PONTE：用于自然语言可信解释的个性化编排

发布: 3天前 (2026年3月7日 GMT+8 01:12)

8 分钟阅读

原文: arXiv

请提供您希望翻译的具体文本内容，我才能为您进行简体中文翻译。

概览

本文介绍了 PONTE，一种人机交互的框架，能够为 AI 模型生成自然语言解释，并根据不同用户的需求定制解释的风格和内容。通过将个性化视为闭环的验证与适应过程——而非静态提示——该框架旨在提供既可信（忠实于底层模型）又符合每位用户的专业水平、目标和认知偏好的解释。

偏好建模 – 每位用户由一个紧凑向量（≈10 维）表示，编码诸如正式程度、技术深度、视觉与文本强调、以及风险容忍度等风格需求。该向量通过简短问卷或少量交互示例进行初始化。
基于事实的生成 – 大型语言模型（LLM）接收两个输入：(a) 结构化的 XAI 工件（例如 SHAP 值、规则集）和 (b) 当前的偏好向量。LLM 经过微调，使其输出条件化于该向量，生成解释该工件的自然语言叙述。
验证循环 – 生成后，运行三个自动验证器：
- Faithfulness：检查数值陈述（例如 “特征 X 贡献了 0.23”）是否与源工件匹配。
- Completeness：确保出现所有必需的组件（例如 top‑k 特征、置信区间）。
- Stylistic Alignment：衡量生成文本的风格指标（词汇丰富度、句子长度、行话密度）与目标偏好向量之间的相似度。
  如果任何验证器未通过，系统要么 (i) 自动编辑文本，要么 (ii) 提示用户澄清，然后相应地更新偏好向量。
迭代细化 – 循环重复，直至所有验证器通过或达到最大迭代预算，生成个性化且可信赖的解释。

定量收益：在两个领域中，验证‑精炼循环相较于仅生成基线，使完整性得分提升约22 %，并将忠实性违规降低约35 %。
风格忠实度：预期与实现的偏好向量之间的余弦相似度从基线的0.58提升至两轮反馈后0.86。
对随机性的鲁棒性：即使底层大语言模型（LLM）采样出多样化输出，验证模块仍能持续过滤掉风格漂移或事实不一致的草稿。
人工研究：48名参与者（包括临床医生、数据科学家和业务分析师）对PONTE解释的“清晰度”评分为4.6/5，“可信度”为4.4/5，且有92 %的受访者表示风格符合其预期。

开发者工具包: PONTE 可以封装为一个 API，接受模型无关的 XAI 人工制品和用户画像负载，返回可直接展示的解释，用于仪表盘、聊天机器人或合规报告。
监管合规: 金融和医疗机构可以满足“解释权”要求，同时兼顾不同利益相关者的需求（例如监管机构 vs. 患者）。
面向客户的 AI 产品: SaaS 平台可以让终端用户切换解释深度（高级摘要 vs. 技术细分），无需为每种设置单独编写新提示。
降低支持成本: 通过自动检测并纠正忠实度错误，PONTE 降低了误导性解释的风险，从而避免了人工质检的需求。

PONTE 标志着 AI 解释向不仅准确且对个人有意义的方向迈出一步——随着智能系统日益嵌入日常决策，这是一项关键能力。