为什么 Image Hallucination 比 Text Hallucination 更危险
发布: (2026年1月6日 GMT+8 11:15)
2 min read
原文: Dev.to
Source: Dev.to

引言
我们已经花了很多时间讨论文本幻觉,但图像幻觉是一个截然不同且往往更危险的问题。在视觉‑语言系统中,幻觉并不是关于看似合理的谎言,而是关于捏造视觉现实。
示例
- 描述并不存在的人物
- 赋予不存在的属性
- 推断从未发生的动作
影响领域
- 电子商务商品列表
- 可访问性字幕
- 文档抽取
- 医学影像工作流
在这些情境下,幻觉的代价从“错误答案”转变为真实的现实后果。
评估缺口
大多数评估流程仍然以文本为主。它们会给流畅度、相关性或相似度打分,却从不验证图像是否真的支持描述。
多模态评估
- 将生成的文本与视觉证据进行比较
- 推理对象的存在、属性和关系
- 检测图像与输出之间的矛盾
结论
图像幻觉并非小众问题;它代表了随着视觉模型进入生产环境而出现的可靠性缺口。开发稳健的多模态评估方法对于降低现实风险至关重要。