[Paper] CPJ：通过 Caption-Prompt-Judge 实现可解释的农业害虫诊断，并进行 LLM-Judged Refinement

发布: 1个月前 (2026年1月1日 GMT+8 00:21)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.24947v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。）

Overview

本文介绍了 CPJ（Caption‑Prompt‑Judge），一种无需训练、少量示例的框架，可将大型视觉语言模型（VLM）转化为可解释的农业害虫和病害诊断系统。通过生成结构化的图像描述，利用语言模型“judge”进行润色，并将精炼后的描述输入双答案 VQA 流程，CPJ 能够提供精准的害虫识别 and 可操作的防治建议——且无需任何昂贵的监督微调。

关键贡献

Training‑free few‑shot pipeline – 消除对大型标注数据集或对 VLM 进行昂贵微调的需求，用于农业诊断。
Caption‑Prompt‑Judge loop – 使用 VLM 生成多角度字幕，然后让 LLM（充当评审）迭代细化这些字幕，以确保事实一致性和完整性。
Dual‑answer VQA design – 生成两个互补答案：
1. 病害/害虫分类
2. 推荐的缓解措施
  基于细化后的字幕。
Significant performance boost – 在 CDDMBench 基准上，CPJ 将疾病分类准确率提升 +22.7 pp，整体 QA 得分提升 +19.5 pp，相较于跳过字幕的基线。
Open‑source release – 代码、数据和提示词已公开，鼓励可复现性和社区扩展。

方法论

图像 → 原始说明
- 大型视觉语言模型（例如 GPT‑5‑Mini）接收作物图像和一组提示模板（例如 “描述可见症状”， “识别受影响的植物部位”）。
- 它输出若干简短说明，涵盖不同的诊断角度（症状描述、背景、严重程度）。
LLM‑as‑Judge 精炼
- 一个大型语言模型（例如 GPT‑5‑Nano）负责评估每条说明：检查事实一致性、完整性以及与害虫诊断的相关性。
- 评审返回修订后的说明和置信分数。此循环运行数次（通常 2–3 次迭代），直至说明收敛。
双答案 VQA
- 精炼后的说明被输入到 VQA 模型中，模型被提示回答两个问题：
  - 识别 – “存在哪种疾病或害虫？”
  - 管理 – “农民应立即采取何种措施？”
- 由于 VQA 模型现在拥有简洁、专家风格的文本上下文，它能够生成更准确且可解释的答案。
少样本提示
- 仅向 VQA 模型提供少量示例问答对，使方法保持轻量且易于适应新作物或新地区。

结果与发现

指标	无字幕基线	CPJ (GPT‑5‑Mini captions → GPT‑5‑Nano VQA)
疾病分类准确率	58.3 %	81.0 % (+22.7 pp)
整体 VQA 分数（分类 + 管理）	62.1 %	81.6 % (+19.5 pp)

对领域迁移的鲁棒性 – 在未见过的农场图像或不同光照条件下测试时，CPJ 的基于字幕的推理退化程度远低于基线。
可解释性 – 精炼后的字幕作为可读的证据，使农学家能够逐步验证模型的推理过程。
效率 – 整个流水线仅进行推理；在单个 RTX 4090 上，处理 32 张图像的批次约为每张图像 0.8 秒。

实际意义

现场可用的诊断应用 – 开发者可以将 CPJ 嵌入移动或边缘设备，为农民提供即时、可解释的病害警报，无需为每种新作物准备大量标注数据集。
决策支持仪表盘 – 可以并排显示标题 + 答案对，为技术推广员提供透明的推理，以支持其建议。
快速适配 – 由于 CPJ 依赖提示而非微调权重，添加新害虫或新地区只需更新提示模板或提供少量 few‑shot 示例即可。
成本节约 – 消除传统高精度农业 AI 所需的昂贵数据收集和标注流程。
合规监管 – 可解释的输出有助于满足农业和食品安全领域新兴的 AI 透明度指南。

局限性与未来工作

标题质量上限 – 该方法继承了底层视觉语言模型的优势和盲点；罕见或视觉上微妙的疾病仍可能被误描述。
大语言模型资源需求 – 虽然无需训练，但迭代评判步骤会增加延迟，并且需要访问强大的大语言模型 API，在大规模应用时可能成本过高。
基准范围 – 实验仅限于 CDDMBench 数据集；需要在不同气候和作物品种下进行更广泛的现场试验。
未来方向 – 作者建议探索轻量级、在设备上运行的大语言模型评判器，整合多模态传感器数据（例如温度、湿度），并将框架扩展到害虫预测（时间序列预测），而非单图像诊断。

作者

Wentao Zhang
Tao Fang
Lina Lu
Lifei Wang
Weihe Zhong

论文信息

arXiv ID: 2512.24947v1
分类: cs.CV, cs.CL
出版时间: 2025年12月31日
PDF: 下载 PDF

[Paper] CPJ：通过 Caption-Prompt-Judge 实现可解释的农业害虫诊断，并进行 LLM-Judged Refinement

Overview

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] AdaGaR：自适应 Gabor 表示用于动态场景重建

[Paper] 两种深度学习方法用于Cine心脏MRI左心室的自动分割

[Paper] 理性几何：有效数学推理的谱特征

[Paper] Fusion-SSAT：通过特征融合释放自监督辅助任务的潜力，以实现通用深度伪造检测