[Paper] CPJ:通过 Caption-Prompt-Judge 实现可解释的农业害虫诊断,并进行 LLM-Judged Refinement

发布: (2026年1月1日 GMT+8 00:21)
7 min read
原文: arXiv

Source: arXiv - 2512.24947v1

(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)

Overview

本文介绍了 CPJ(Caption‑Prompt‑Judge),一种无需训练、少量示例的框架,可将大型视觉语言模型(VLM)转化为可解释的农业害虫和病害诊断系统。通过生成结构化的图像描述,利用语言模型“judge”进行润色,并将精炼后的描述输入双答案 VQA 流程,CPJ 能够提供精准的害虫识别 and 可操作的防治建议——且无需任何昂贵的监督微调。

关键贡献

  • Training‑free few‑shot pipeline – 消除对大型标注数据集或对 VLM 进行昂贵微调的需求,用于农业诊断。
  • Caption‑Prompt‑Judge loop – 使用 VLM 生成多角度字幕,然后让 LLM(充当评审)迭代细化这些字幕,以确保事实一致性和完整性。
  • Dual‑answer VQA design – 生成两个互补答案:
    1. 病害/害虫分类
    2. 推荐的缓解措施
      基于细化后的字幕。
  • Significant performance boost – 在 CDDMBench 基准上,CPJ 将疾病分类准确率提升 +22.7 pp,整体 QA 得分提升 +19.5 pp,相较于跳过字幕的基线。
  • Open‑source release – 代码、数据和提示词已公开,鼓励可复现性和社区扩展。

方法论

  1. 图像 → 原始说明

    • 大型视觉语言模型(例如 GPT‑5‑Mini)接收作物图像和一组提示模板(例如 “描述可见症状”, “识别受影响的植物部位”)。
    • 它输出若干简短说明,涵盖不同的诊断角度(症状描述、背景、严重程度)。
  2. LLM‑as‑Judge 精炼

    • 一个大型语言模型(例如 GPT‑5‑Nano)负责评估每条说明:检查事实一致性、完整性以及与害虫诊断的相关性。
    • 评审返回修订后的说明和置信分数。此循环运行数次(通常 2–3 次迭代),直至说明收敛。
  3. 双答案 VQA

    • 精炼后的说明被输入到 VQA 模型中,模型被提示回答两个问题:
      • 识别 – “存在哪种疾病或害虫?”
      • 管理 – “农民应立即采取何种措施?”
    • 由于 VQA 模型现在拥有简洁、专家风格的文本上下文,它能够生成更准确且可解释的答案。
  4. 少样本提示

    • 仅向 VQA 模型提供少量示例问答对,使方法保持轻量且易于适应新作物或新地区。

结果与发现

指标无字幕基线CPJ (GPT‑5‑Mini captions → GPT‑5‑Nano VQA)
疾病分类准确率58.3 %81.0 % (+22.7 pp)
整体 VQA 分数(分类 + 管理)62.1 %81.6 % (+19.5 pp)
  • 对领域迁移的鲁棒性 – 在未见过的农场图像或不同光照条件下测试时,CPJ 的基于字幕的推理退化程度远低于基线。
  • 可解释性 – 精炼后的字幕作为可读的证据,使农学家能够逐步验证模型的推理过程。
  • 效率 – 整个流水线仅进行推理;在单个 RTX 4090 上,处理 32 张图像的批次约为每张图像 0.8 秒。

实际意义

  • 现场可用的诊断应用 – 开发者可以将 CPJ 嵌入移动或边缘设备,为农民提供即时、可解释的病害警报,无需为每种新作物准备大量标注数据集。
  • 决策支持仪表盘 – 可以并排显示标题 + 答案对,为技术推广员提供透明的推理,以支持其建议。
  • 快速适配 – 由于 CPJ 依赖提示而非微调权重,添加新害虫或新地区只需更新提示模板或提供少量 few‑shot 示例即可。
  • 成本节约 – 消除传统高精度农业 AI 所需的昂贵数据收集和标注流程。
  • 合规监管 – 可解释的输出有助于满足农业和食品安全领域新兴的 AI 透明度指南。

局限性与未来工作

  • 标题质量上限 – 该方法继承了底层视觉语言模型的优势和盲点;罕见或视觉上微妙的疾病仍可能被误描述。
  • 大语言模型资源需求 – 虽然无需训练,但迭代评判步骤会增加延迟,并且需要访问强大的大语言模型 API,在大规模应用时可能成本过高。
  • 基准范围 – 实验仅限于 CDDMBench 数据集;需要在不同气候和作物品种下进行更广泛的现场试验。
  • 未来方向 – 作者建议探索轻量级、在设备上运行的大语言模型评判器,整合多模态传感器数据(例如温度、湿度),并将框架扩展到害虫预测(时间序列预测),而非单图像诊断。

作者

  • Wentao Zhang
  • Tao Fang
  • Lina Lu
  • Lifei Wang
  • Weihe Zhong

论文信息

  • arXiv ID: 2512.24947v1
  • 分类: cs.CV, cs.CL
  • 出版时间: 2025年12月31日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »