[Paper] 安全性和准确性在临床大语言模型中遵循不同的尺度定律

发布: 5天前 (2026年5月6日 GMT+8 01:57)

9 分钟阅读

原文: arXiv

Source: arXiv - 2605.04039v1

（请提供您希望翻译的具体文本，我将为您翻译成简体中文。）

概述

本文研究了随着临床大语言模型（LLMs）规模的扩大，安全性和准确性如何演变。通过引入系统评估框架（SaFE‑Scale）和放射学专注基准（RadSaFE‑200），作者表明，更大的模型或更多的计算并不自动带来更安全的行为——部署选择，如证据质量和检索策略，影响更大。

关键贡献

SaFE‑Scale 框架：一种可复现的方法论，用于评估模型规模、上下文长度、检索复杂度和推理时计算资源下的安全性。
RadSaFE‑200 基准：200 道放射学多项选择题，配有干净证据、冲突证据以及细粒度安全标签（高风险错误、不安全答案、证据矛盾）。
全面的实证研究：在六种部署条件下（零样本、干净证据、冲突证据、标准 RAG、代理 RAG、最大上下文提示）评估 34 个本地部署的 LLM。
实证发现：高质量（干净）证据显著提升准确率（↑ 20 个百分点）和安全指标（高风险错误 ↓ 9.4 个百分点，矛盾 ↓ 10.4 个百分点，危险的过度自信 ↓ 6.4 个百分点）。
检索设计洞察：标准 RAG 和代理 RAG 并未继承干净证据带来的安全提升；代理 RAG 能降低矛盾，但高风险错误仍然居高不下。
延迟与安全的权衡：最大上下文提示会显著增加推理延迟，却未能弥合安全差距。
最坏情况分析：临床上有重大影响的失败集中在少数问题上，凸显了针对性防护措施的必要性。

方法论

基准构建 (RadSaFE‑200)
- 从板式考试中精选了200道放射学选择题。
- 对每个问题，临床医生提供：
  - 清洁证据 – 明确且高质量的参考文献。
  - 冲突证据 – 故意与正确答案相矛盾的来源。
- 为每个答案选项标记三个安全维度：
  - 高风险错误（可能导致有害误诊）。
  - 不安全答案（自信但错误）。
  - 证据冲突（答案与提供的证据相冲突）。
模型池
- 34 个 LLM（参数量约 300 M 至 >10 B），在医学文本上微调并本地部署。
部署条件
- 闭卷零样本：普通提示，无外部上下文。
- 清洁证据：提示中包含清洁参考文献。
- 冲突证据：提示中包含矛盾参考文献。
- 标准 RAG：从通用医学语料库检索 top‑k 段落。
- 代理 RAG：检索由“推理代理”引导，迭代选择证据。
- 最大上下文提示：将整个检索集合（尽可能长的上下文）喂入模型。
指标
- 准确率（正确答案选择）。
- 高风险错误率。
- 不安全的过度自信（模型对错误答案表现出高置信度）。
- 证据冲突率。
- 延迟（每次推理的时间）。
分析
- 将模型规模和计算量与每个指标进行相关性分析。
- 进行最坏情况分析，识别持续触发安全失效的问题。

Results & Findings

Deployment	Accuracy	High‑risk error	Contradiction	Dangerous overconfidence
Closed‑book (zero‑shot)	73.5 %	12.0 %	12.7 %	8.0 %
Clean evidence	94.1 %	2.6 %	2.3 %	1.6 %
Conflict evidence	78.3 %	10.5 %	11.9 %	6.9 %
Standard RAG	84.2 %	9.8 %	9.1 %	5.4 %
Agentic RAG	88.7 %	8.9 %	4.2 %	5.1 %
Max‑context	86.5 %	9.2 %	8.5 %	5.0 %

关键要点

证据质量胜过模型规模 —— 干净、经过筛选的参考文献带来最大的安全性提升，即使是最小的模型也受益显著。
仅靠规模扩张收益递减 —— 更大的模型只能略微提升准确率，却无法弥合安全性差距。
Agentic RAG 能提升准确率和矛盾率，但对高风险错误影响不大，这表明推理代理需要更好的风险感知能力。
延迟随上下文长度线性增长，但安全性提升并不成比例。
错误聚集 —— 大约 15 % 的问题贡献了超过 70 % 的高风险错误，显示出一条“长尾”难例。

实际意义

Design‑by‑evidence：部署时应优先提供 干净、经临床医生验证的证据，而不是依赖模型的原始规模或更长的上下文。
RAG pipelines need safety filters：单纯的检索增强不足；检索后验证（例如矛盾检测）是必需的。
Risk‑aware agents：在使用代理式 RAG 时，加入面向安全的奖励信号（对高风险错误进行惩罚），以使代理的选择策略与临床安全保持一致。
Monitoring & targeted testing：由于错误集中在少数查询上，持续监控这些 “高风险” 问题模式可以及早发现回归。
Latency budgeting：最大上下文提示并非灵丹妙药；开发者应在响应时间与边际安全收益之间取得平衡，可能采用自适应上下文窗口。
Regulatory readiness：SaFE‑Scale 方法提供了具体且可审计的安全基准，能够满足新兴的医疗 AI 监管要求。

限制与未来工作

领域范围：该基准聚焦于放射学；在其他专科（例如病理学、初级保健）中安全动态可能不同。
静态证据：干净的证据由临床医生预先挑选；实际系统必须实时检索或生成此类证据，这会带来额外的错误来源。
模型多样性：所有评估的模型均在本地部署；未考察带有专有安全层的云端 API。
安全维度：本研究集中于高风险错误、矛盾和过度自信；其他危害（例如隐私泄露、偏见）尚未涉及。
未来方向：将 SaFE‑Scale 扩展到多模态输入（图像 + 文本），整合自动化证据质量评分，并探索专为临床安全调优的基于人类反馈的强化学习（RLHF）。

作者

Sebastian Wind
Tri‑Thien Nguyen
Jeta Sopa
Mahshad Lotfinia
Sebastian Bickelhaup
Michael Uder
Harald Köstler
Gerhard Wellein
Sven Nebelung
Daniel Truhn
Andreas Maier
Soroosh Tayebi Arasteh

论文信息

arXiv ID: 2605.04039v1
分类: cs.CL, cs.AI, cs.LG
发表时间: 2026年5月5日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 记忆诅咒：扩展回忆如何侵蚀 LLM Agents 的合作意图

Context window expansion 通常被视为对 LLM 的一次直接能力升级，但我们发现它在多代理社会困境中系统性地失效……

[Paper] CA‑SQL：复杂度感知推理时间推理用于 Text-to‑SQL 的探索与计算预算分配

虽然近期在推理时学习方面的进展提升了 LLM 在 Text-to-SQL 任务上的推理能力，但当前的解决方案仍然难以在 m...

【论文】快速字节潜在Transformer

近期的字节级语言模型（LMs）在不依赖子词词汇表的情况下，匹配了 token-level 模型的性能，但它们的实用性受到 slo...

[Paper] Position: 机制可解释性必须披露识别假设以进行因果主张

机制可解释性论文越来越多地使用因果词汇：circuits、mediators、causal abstraction、monosemanticity。此类主张需要明确的 i...