[Paper] ThermEval:用于热成像的视觉语言模型评估的结构化基准
发布: (2026年2月17日 GMT+8 02:16)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.14989v1
概览
ThermEval 引入了首个大规模基准,用于测试视觉语言模型(VLM)对热成像的理解程度——这种基于热量的图像用于夜间监控、搜救无人机、自动驾驶车辆和医学筛查。通过揭示当前以 RGB 为中心的 VLM 的盲点,该工作推动社区朝着能够推理温度而不仅仅是颜色的模型前进。
关键贡献
- ThermEval‑B: ~55 k 精选的热视觉问答 (VQA) 对,涵盖温度推理、目标检测和场景理解。
- ThermEval‑D: 一个新颖的数据集,提供密集的每像素温度图以及室内外场景的语义身体部位标注。
- 全面评估 25 个开源和商业 VLM,揭示其在温度相关查询上的系统性失效。
- 失效模式分析:模型依赖语言先验,在色彩图变化下崩溃,且通过提示或微调几乎没有提升。
- 开源基准套件(代码、数据、评估脚本),以实现可重复研究和未来扩展。
方法论
- 数据汇集 – 公共热成像数据集(例如 FLIR‑ADAS、KAIST)与新采集的 ThermEval‑D 合并,后者为每个像素提供精确的温度读数并附有人体部位的手工标签。
- 问题生成 – 为每张图像创建了自动生成和人工编写相结合的问题,针对:
- 温度提取(“汽车引擎盖的温度是多少?”)
- 相对热度推理(“前面的人比狗更热吗?”)
- 跨模态推断(“在黑暗可见光图像中哪个区域会可见?”)
- 基准结构 – 将问题划分为 7 类基本技能(例如 “绝对温度”、 “热梯度”、 “热遮挡”),用于诊断特定的推理缺口。
- 模型评估 – 每个视觉语言模型(VLM)接收热成像(原始 16 位数据或伪彩色映射)以及问题。答案通过精确匹配和 soft‑BLEU 指标与真实答案比较。同时测试提示工程和轻量监督微调(≤ 5 k 示例)。
该流水线故意保持简洁,便于开发者在无需专门的热图像预处理的情况下接入任意 VLM。
结果与发现
| 模型系列 | 原始热图输入 | 伪彩色图输入 | 平均准确率(满分100) |
|---|---|---|---|
| 开源基于 CLIP 的 VLMs | 22 | 15 | 18 |
| 专有 GPT‑4‑V(视觉) | 31 | 24 | 27 |
| 在 5 k ThermEval 示例上微调 | 35 | 28 | 31 |
- 温度 grounding 接近随机:即使是表现最好的模型,对绝对温度问题的正确回答率也仅约 30 %。
- 伪彩色图的脆弱性:将原始热值转换为伪彩色图像会导致整体性能下降约 20 %。
- 语言偏差:当温度信息模糊时,模型会默认使用高频答案(“温暖”“热”),而不考虑图像。
- 提示作用有限:添加“以摄氏度作答”平均提升准确率不到 3 %。
- 微调带来微小提升:5 k 监督示例将得分提升约 5 分,表明差距不仅是数据稀缺,更是根本的架构不匹配。
实际意义
- 安全关键系统(自动驾驶汽车、无人机)不能依赖现成的 VLM 进行热感知;需要专用的热模块或多模态适配器。
- 快速原型开发:该基准的模块化设计使开发者能够在无需从头构建完整数据集的情况下,测试自定义的温度感知头部或传感器融合流水线。
- 边缘部署:由于原始 16‑bit 热数据比伪彩色版本更具信息量,流水线应保留原始温度通道,而不是在推理时转换为 RGB。
- 合规监管:在医学筛查(例如发热检测)中,模型必须展示基于温度的推理;ThermEval 提供了具体的验证套件。
- 研究方向:这些发现激励了将温度视为物理标量场的新架构(例如,加入物理信息层或对比温度嵌入)。
限制与未来工作
- Domain coverage: while ThermEval‑D spans indoor/outdoor scenes, it lacks extreme environments (e.g., wildfire, industrial furnaces) where temperature ranges exceed current sensor limits.
- Annotation granularity: body‑part temperature labels are coarse (pixel‑level averages) and may miss fine‑grained vascular patterns important for medical use.
- Model diversity: the study focused on publicly available VLMs; proprietary models with internal thermal pretraining could behave differently.
- Future extensions proposed by the authors:
- Adding video‑based thermal reasoning tasks.
- Expanding to multimodal fusion with LiDAR or radar.
- Exploring self‑supervised pretraining on raw thermal streams to close the performance gap.
作者
- Ayush Shrivastava
- Kirtan Gangani
- Laksh Jain
- Mayank Goel
- Nipun Batra
论文信息
- arXiv ID: 2602.14989v1
- 分类: cs.CV, cs.AI, cs.LG
- 出版时间: 2026年2月16日
- PDF: Download PDF