[Paper] AI 生成的响应对软件工程调查的影响研究

发布: (2025年12月19日 GMT+8 19:17)
6 min read
原文: arXiv

Source: arXiv - 2512.17455v1

概述

调查研究是经验软件工程研究的基石,但大型语言模型(LLM)如 ChatGPT 的兴起正打开一个新的攻击面:参与者现在只需几次敲击键盘就能生成“看似合理”的答案。本文调查了 AI 生成的响应如何已经污染了真实世界的软件工程调查,以及这对我们所依赖数据的可信度意味着什么。

关键贡献

  • AI滥用的实证证据 – 在针对软件工程师的两项2025年Prolific调查中检测到49条AI生成的回答。
  • 模式分类法 – 确定了重复的结构线索(重复序列、统一措辞、浅层个性化),这些可指示合成作者身份。
  • 有效性框架扩展 – 提出将“数据真实性”作为软件工程调查有效性的一个新维度,与构念效度、内部效度和外部效度并列。
  • 混合检测工作流 – 将人工定性检查与自动化工具(Scribbr AI Detector)相结合,以标记可疑答案。
  • 面向研究者的指南 – 提供针对调查设计、报告以及社区标准的具体建议,以减轻AI生成噪声的影响。

方法论

  1. 调查部署 – 在2025年初,在 Prolific 众包平台上运行了两个独立的问卷,每个问卷收集了数百名自认软件专业人士的回复。
  2. 异常筛选 – 研究人员首先寻找异常值(例如,完成时间异常快、答案字符串完全相同),随后对可疑提交进行更深入的定性阅读。
  3. 模式分析 – 团队对在标记答案中反复出现的语言和结构特征进行归类(例如,“根据我的经验,…” 后跟随通用陈述)。
  4. 自动检测 – 所有回复都输入到 Scribbr AI Detector 中,这是一种用于区分人类撰写文本和 LLM 生成文本的分类器。检测器的置信分数与手动发现进行交叉核对。
  5. 有效性评估 – 评估所识别的 AI 回复对调查的构念效度、内部效度和外部效度的影响,进而提出将 “数据真实性” 作为额外的效度视角。

结果与发现

  • **约800份回应中有49份(≈6%)**显示出强烈的AI生成证据。
  • 结构特征如完全平行的句子结构、重复使用填充短语(“据我所知”),以及缺乏具体的个人轶事,是最可靠的人类可检测线索。
  • Scribbr AI Detector标记了手动识别的AI回应的92 %,置信度 > 0.85,同时也出现了一些需要人工判断的边缘案例。
  • AI生成答案的存在削弱了构念效度(测量的构念不再反映真实的从业者信念)并威胁内部效度(可能引入虚假的相关性)。
  • 作者们认为数据真实性——即每条数据来源于真实人类受访者的保证——现在必须被视为首要的效度问题。

实际影响

  • Survey designers should embed “human‑verification” steps, such as open‑ended prompts that require personal context (e.g., “Describe a recent bug you fixed”) and time‑based checks to discourage rapid, AI‑driven completion.
  • Tool builders can integrate AI‑detectors directly into survey platforms (Qualtrics, Google Forms, etc.) to provide real‑time alerts for suspicious submissions.
  • Researchers need to disclose detection methods and authenticity metrics in their publications, fostering transparency and reproducibility.
  • Industry practitioners who rely on survey‑based benchmarks (e.g., developer productivity tools, CI/CD adoption rates) should treat published results with a healthy dose of skepticism until authenticity safeguards become standard.
  • Community standards (e.g., ACM SIGSOFT, IEEE) may soon require a “data authenticity statement” as part of conference paper submissions involving surveys.

限制与未来工作

  • 本研究仅聚焦于单一众包平台(Prolific)和两份问卷;在其他招聘渠道(例如 GitHub、Stack Overflow)上可能会得到不同的结果。
  • 检测依赖于专有的 AI 检测器(Scribbr);其在更新的语言模型(如 GPT‑4‑Turbo、Claude 3)上的表现尚未经过测试。
  • 作者承认存在 误报风险——一些真实的受访者可能会采用简洁、公式化的写作风格,从而与 AI 输出相似。
  • 未来研究方向包括:构建面向软件工程的开源、领域特定 AI 检测器,探索 LLM 可能使用的对抗性提示技术以规避检测,以及开展纵向研究以追踪 AI 滥用随 LLM 可获取性提升而演变的情况。

作者

  • Ronnie de Souza Santos
  • Italo Santos
  • Maria Teresa Baldassarre
  • Cleyton Magalhaes
  • Mairieli Wessel

论文信息

  • arXiv ID: 2512.17455v1
  • 类别: cs.SE
  • 出版日期: 2025年12月19日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »