[Paper] ThermEval：用于热成像的视觉语言模型评估的结构化基准

发布: 3天前 (2026年2月17日 GMT+8 02:16)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.14989v1

概览

ThermEval 引入了首个大规模基准，用于测试视觉语言模型（VLM）对热成像的理解程度——这种基于热量的图像用于夜间监控、搜救无人机、自动驾驶车辆和医学筛查。通过揭示当前以 RGB 为中心的 VLM 的盲点，该工作推动社区朝着能够推理温度而不仅仅是颜色的模型前进。

数据汇集 – 公共热成像数据集（例如 FLIR‑ADAS、KAIST）与新采集的 ThermEval‑D 合并，后者为每个像素提供精确的温度读数并附有人体部位的手工标签。
问题生成 – 为每张图像创建了自动生成和人工编写相结合的问题，针对：
- 温度提取（“汽车引擎盖的温度是多少？”）
- 相对热度推理（“前面的人比狗更热吗？”）
- 跨模态推断（“在黑暗可见光图像中哪个区域会可见？”）
基准结构 – 将问题划分为 7 类基本技能（例如 “绝对温度”、 “热梯度”、 “热遮挡”），用于诊断特定的推理缺口。
模型评估 – 每个视觉语言模型（VLM）接收热成像（原始 16 位数据或伪彩色映射）以及问题。答案通过精确匹配和 soft‑BLEU 指标与真实答案比较。同时测试提示工程和轻量监督微调（≤ 5 k 示例）。

该流水线故意保持简洁，便于开发者在无需专门的热图像预处理的情况下接入任意 VLM。

模型系列	原始热图输入	伪彩色图输入	平均准确率（满分100）
开源基于 CLIP 的 VLMs	22	15	18
专有 GPT‑4‑V（视觉）	31	24	27
在 5 k ThermEval 示例上微调	35	28	31

Domain coverage: while ThermEval‑D spans indoor/outdoor scenes, it lacks extreme environments (e.g., wildfire, industrial furnaces) where temperature ranges exceed current sensor limits.
Annotation granularity: body‑part temperature labels are coarse (pixel‑level averages) and may miss fine‑grained vascular patterns important for medical use.
Model diversity: the study focused on publicly available VLMs; proprietary models with internal thermal pretraining could behave differently.
Future extensions proposed by the authors:
1. Adding video‑based thermal reasoning tasks.
2. Expanding to multimodal fusion with LiDAR or radar.
3. Exploring self‑supervised pretraining on raw thermal streams to close the performance gap.