[Paper] 使用多模态大语言模型对手写工程考试进行评分

发布: (2026年1月3日 GMT+8 00:10)
8 min read
原文: arXiv

Source: arXiv - 2601.00730v1

概述

对手写工程考试的评分长期是瓶颈:学生的自由形式草图、方程式和电路图难以被计算机解释,人工批改也难以规模化。新论文提出了一种端到端工作流,利用多模态大型语言模型(LLM)自动批改扫描的手写测验,同时保留传统的纸质考试形式。只需提供手写参考答案和教师的简明规则集,系统即可在最少人工监督下生成可靠、可审计的分数。

关键贡献

  • Fully multimodal grading pipeline 接受原始 A4 扫描件(手写、图画、示意图),输出机器可解析的评分报告。
  • Reference‑grounded prompting:将讲师的手写解答转化为文本摘要,用于条件化 LLM,而不暴露原始扫描件,确保隐私和可复现性。
  • Robust multi‑stage design:包括格式/存在性检查、独立评分器的集成、监督级聚合步骤以及保证可审计性的确定性模板。
  • Empirical evaluation on a real Slovenian engineering quiz(包括手绘电路图),显示在 40 分制上平均绝对评分误差约为 8 分。
  • Ablation study 表明,朴素提示或省略参考解答会显著降低准确性并导致系统性超分。

方法论

  1. Scanning & Pre‑processing – Students’ answer sheets are digitized as high‑resolution images. A lightweight OCR/vision model extracts text blocks and detects hand‑drawn elements (e.g., circuit symbols).
    扫描与预处理 – 学生的答卷被数字化为高分辨率图像。轻量级 OCR/视觉模型提取文本块并检测手绘元素(例如电路符号)。
  2. Reference Summarization – The lecturer provides a handwritten “perfect” answer. A separate multimodal LLM converts this scan into a concise textual summary (the reference prompt).
    参考摘要 – 授课教师提供手写的“完美”答案。单独的多模态大语言模型将此扫描件转换为简明的文字摘要(即参考提示)。
  3. Grading Prompt Construction – For each student answer, the system builds a structured prompt that includes:
    • The extracted text and diagram descriptors.
    • The grading rubric supplied by the lecturer.
    • The reference summary (as conditioning information).
      评分提示构建 – 对每份学生答案,系统构建包含以下内容的结构化提示:
    • 提取的文本和图表描述。
    • 教师提供的评分标准。
    • 参考摘要(作为条件信息)。
  4. Ensemble Grading – Multiple independent LLM instances (e.g., GPT‑5.2, Gemini‑3 Pro) evaluate the same prompt, each producing a raw score and a justification.
    集成评分 – 多个独立的大语言模型实例(例如 GPT‑5.2、Gemini‑3 Pro)对同一提示进行评估,各自生成原始分数和理由。
  5. Supervisor Aggregation – A higher‑level model reconciles the ensemble outputs, applies deterministic validation rules (e.g., “score must be integer between 0‑40”), and flags ambiguous cases for human review.
    监督聚合 – 更高级别的模型调和集成输出,应用确定性验证规则(例如“分数必须是 0‑40 之间的整数”),并将模糊情况标记为人工审查。
  6. Report Generation – Final grades and rationales are emitted in a fixed JSON schema, enabling downstream analytics and audit trails.
    报告生成 – 最终分数和理由以固定的 JSON 架构输出,支持下游分析和审计追踪。

The entire pipeline is “frozen” during evaluation: no fine‑tuning or parameter updates are performed, which mirrors a realistic deployment scenario.
整个流水线在评估期间保持“冻结”状态:不进行微调或参数更新,这模拟了真实的部署场景。

结果与发现

  • Mean Absolute Difference (MAD):≈ 8 分(在 40 分的考试中),约 20 % 误差,系统性偏差可忽略不计(平均超/低评分 < 0.5 分)。
  • Manual‑Review Trigger Rate:在严格的最大差异阈值 (Dₘₐₓ = 40) 下,仅约 17 % 的提交需要人工干预。
  • Ablation Insights
    • 移除参考摘要后,MAD 增加至 > 15 分,并出现了持续的 +3 分超评分偏差。
    • 将提示简化为单次 LLM 调用(无集成)导致误差方差上升,审查触发率翻倍。
  • Diagram Handling:视觉组件成功识别关键电路符号,使得 LLM 能够对图表的正确性进行推理,水平可与人工评分者相媲美。

实际意义

  • 可扩展评估 – 大学和培训机构可以在不重新设计考试的情况下,实现大批量学生的自动评分,保留熟悉的纸笔工作流程。
  • 快速反馈循环 – 自动评分在扫描后几分钟内即可生成,帮助及时向学生提供反馈并支持自适应学习路径。
  • 可审计性与透明度 – 确定性的模板和 JSON 报告使得可以轻松追溯每个分数到底层 LLM 推理,满足认证要求。
  • 成本降低 – 仅约 17 % 的答案需要人工复核,机构在开放式 STEM 评估中的评分工作量可降低最高 80 %。
  • 可扩展性 – 通过更换评分标准并针对特定领域符号调整视觉预处理,同一流水线可适用于其他领域(如物理题目、建筑草图)。

Limitations & Future Work

  • Language & Domain Specificity – 当前的评估基于斯洛文尼亚工程测验;在其他语言或高度专业化的工程子领域的表现仍需验证。
  • Diagram Complexity – 虽然能够很好地处理简单的电路原理图,但更复杂的图纸(例如多层 PCB 布局)可能超出当前视觉模块的能力范围。
  • Model Access – 该流水线依赖于专有的 LLM API(GPT‑5.2、Gemini‑3 Pro);对于没有商业访问权限的组织, reproducibility 可能受到限制。
  • Human‑in‑the‑Loop Optimization – 未来工作可以探索主动学习策略,让系统有选择地向人工评分员查询,以随时间改进其提示。

Bottom line: 通过将多模态 LLM 与严格构建的评分工作流相结合,本研究展示了一条实现手写工程试卷自动化、可信评估的可行路径——为大规模采用 AI 辅助教育打开了大门。

作者

  • Janez Perš
  • Jon Muhovič
  • Andrej Košir
  • Boštjan Murovec

论文信息

  • arXiv ID: 2601.00730v1
  • 分类: cs.CV
  • 发布时间: 2026年1月2日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »