[Paper] CPJ:通过 Caption-Prompt-Judge 实现可解释的农业害虫诊断,并进行 LLM-Judged Refinement
发布: (2026年1月1日 GMT+8 00:21)
7 min read
原文: arXiv
Source: arXiv - 2512.24947v1
(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)
Overview
本文介绍了 CPJ(Caption‑Prompt‑Judge),一种无需训练、少量示例的框架,可将大型视觉语言模型(VLM)转化为可解释的农业害虫和病害诊断系统。通过生成结构化的图像描述,利用语言模型“judge”进行润色,并将精炼后的描述输入双答案 VQA 流程,CPJ 能够提供精准的害虫识别 and 可操作的防治建议——且无需任何昂贵的监督微调。
关键贡献
- Training‑free few‑shot pipeline – 消除对大型标注数据集或对 VLM 进行昂贵微调的需求,用于农业诊断。
- Caption‑Prompt‑Judge loop – 使用 VLM 生成多角度字幕,然后让 LLM(充当评审)迭代细化这些字幕,以确保事实一致性和完整性。
- Dual‑answer VQA design – 生成两个互补答案:
- 病害/害虫分类
- 推荐的缓解措施
基于细化后的字幕。
- Significant performance boost – 在 CDDMBench 基准上,CPJ 将疾病分类准确率提升 +22.7 pp,整体 QA 得分提升 +19.5 pp,相较于跳过字幕的基线。
- Open‑source release – 代码、数据和提示词已公开,鼓励可复现性和社区扩展。
方法论
-
图像 → 原始说明
- 大型视觉语言模型(例如 GPT‑5‑Mini)接收作物图像和一组提示模板(例如 “描述可见症状”, “识别受影响的植物部位”)。
- 它输出若干简短说明,涵盖不同的诊断角度(症状描述、背景、严重程度)。
-
LLM‑as‑Judge 精炼
- 一个大型语言模型(例如 GPT‑5‑Nano)负责评估每条说明:检查事实一致性、完整性以及与害虫诊断的相关性。
- 评审返回修订后的说明和置信分数。此循环运行数次(通常 2–3 次迭代),直至说明收敛。
-
双答案 VQA
- 精炼后的说明被输入到 VQA 模型中,模型被提示回答两个问题:
- 识别 – “存在哪种疾病或害虫?”
- 管理 – “农民应立即采取何种措施?”
- 由于 VQA 模型现在拥有简洁、专家风格的文本上下文,它能够生成更准确且可解释的答案。
- 精炼后的说明被输入到 VQA 模型中,模型被提示回答两个问题:
-
少样本提示
- 仅向 VQA 模型提供少量示例问答对,使方法保持轻量且易于适应新作物或新地区。
结果与发现
| 指标 | 无字幕基线 | CPJ (GPT‑5‑Mini captions → GPT‑5‑Nano VQA) |
|---|---|---|
| 疾病分类准确率 | 58.3 % | 81.0 % (+22.7 pp) |
| 整体 VQA 分数(分类 + 管理) | 62.1 % | 81.6 % (+19.5 pp) |
- 对领域迁移的鲁棒性 – 在未见过的农场图像或不同光照条件下测试时,CPJ 的基于字幕的推理退化程度远低于基线。
- 可解释性 – 精炼后的字幕作为可读的证据,使农学家能够逐步验证模型的推理过程。
- 效率 – 整个流水线仅进行推理;在单个 RTX 4090 上,处理 32 张图像的批次约为每张图像 0.8 秒。
实际意义
- 现场可用的诊断应用 – 开发者可以将 CPJ 嵌入移动或边缘设备,为农民提供即时、可解释的病害警报,无需为每种新作物准备大量标注数据集。
- 决策支持仪表盘 – 可以并排显示标题 + 答案对,为技术推广员提供透明的推理,以支持其建议。
- 快速适配 – 由于 CPJ 依赖提示而非微调权重,添加新害虫或新地区只需更新提示模板或提供少量 few‑shot 示例即可。
- 成本节约 – 消除传统高精度农业 AI 所需的昂贵数据收集和标注流程。
- 合规监管 – 可解释的输出有助于满足农业和食品安全领域新兴的 AI 透明度指南。
局限性与未来工作
- 标题质量上限 – 该方法继承了底层视觉语言模型的优势和盲点;罕见或视觉上微妙的疾病仍可能被误描述。
- 大语言模型资源需求 – 虽然无需训练,但迭代评判步骤会增加延迟,并且需要访问强大的大语言模型 API,在大规模应用时可能成本过高。
- 基准范围 – 实验仅限于 CDDMBench 数据集;需要在不同气候和作物品种下进行更广泛的现场试验。
- 未来方向 – 作者建议探索轻量级、在设备上运行的大语言模型评判器,整合多模态传感器数据(例如温度、湿度),并将框架扩展到害虫预测(时间序列预测),而非单图像诊断。
作者
- Wentao Zhang
- Tao Fang
- Lina Lu
- Lifei Wang
- Weihe Zhong
论文信息
- arXiv ID: 2512.24947v1
- 分类: cs.CV, cs.CL
- 出版时间: 2025年12月31日
- PDF: 下载 PDF