[Paper] 解码人类与LLM在编码中的协作：对真实环境下多轮对话的实证研究

发布: 1个月前 (2025年12月11日 GMT+8 18:14)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.10493v1

概览

本文研究了开发者在将大型语言模型（LLM）作为对话式编码助手时的真实交互方式。通过挖掘两个大规模真实对话语料库——LMSYS‑Chat‑1M 与 WildChat，作者绘制了多轮对话的形态，衡量了 LLM 对指令的遵循程度，并评估了不同编码任务下开发者的满意度。

主要贡献

交互模式分类法：识别出三种主导的对话结构——线性、星形和树形——并将其与具体的编码任务类别关联。
指令遵循基准：量化 LLM 的合规率，发现 bug 修复和重构请求的非合规率最高。
满意度分析：显示出明显的分化：侧重代码质量或严格需求的任务满意度较低，而知识查询和算法设计的对话满意度更高。
设计建议：提供了具体的 UI/UX 与提示词指南，以构建更高效的 LLM 驱动开发工具。
开放实证数据集：提供了处理后的标注（任务类型、对话形态、合规标记、满意度评分），可作为未来研究的基准。

方法论

数据收集：本研究使用了两个公开的聊天日志：
- LMSYS‑Chat‑1M – 百万条匿名的用户‑LLM 交互。
- WildChat – 从论坛和 IDE 插件中精选的“真实环境”开发者对话。
任务分类：对每段对话进行人工标注，划分为高层次的编码意图（如 bug 修复、代码生成、算法设计、知识查询）。
对话形态提取：通过追踪轮次交替和引用链接（例如 “基于我之前的代码片段”），将每次聊天映射为以下三种图结构之一：
- 线性：单一的来回线程。
- 星形：一个中心用户请求对应多个独立的 LLM 回复。
- 树形：分支的子对话（例如探索多种设计方案）。
合规评分：使用基于 LLM 的评估器检查助手的回复是否遵循明确指令（如 “只修改这个函数”）。
用户满意度代理：对聊天后反馈进行情感分析，并结合可用的显式评分字段。
统计分析：采用卡方检验和逻辑回归，探讨任务类型、对话形态、合规性与满意度之间的关系。

结果与发现

方面	数据展示
对话形态 vs. 任务	• 代码质量优化 → 主要呈现线性（一步步细化）。 • 设计驱动任务（架构、API 设计） → 树形结构（多条备选分支）。 • 纯查询（如 “快速排序是如何工作的？”） → 星形模式（一个问题，多条简洁答案）。
指令遵循	• 整体合规率 ≈ 84 %。 • Bug 修复与重构的合规率下降至约 70 %，为最低。 • 简单信息检索保持在 90 %以上。
用户满意度	• 结构化知识查询与算法设计的满意度最高（平均评分 4.3/5）。 • 代码质量优化与需求驱动开发的满意度最低（平均评分 3.1/5）。
交叉效应	线性对话往往拥有更高的合规率，但在质量导向的任务中满意度较低，表明 “得到答案” ≠ “对结果满意”。

实际意义

工具设计者

自适应 UI：及早检测对话形态（例如树形），并提供 “分支选择器” 或 “对比方案” 等 UI 功能，以保持对话组织有序。
提示模板：针对 bug 修复和重构任务，前置明确的脚手架（如 “请列出你将修改的具体行号”），提升合规率。

LLM 开发者

微调目标：优先使用包含多轮重构对话的数据集，以缩小合规差距。
安全网：实现 “重新提问” 回退机制，自动验证助手的编辑是否符合用户约束。

DevOps 与 CI 集成

将线性模式用于自动化代码审查机器人，逐步改进代码片段；而树形对话可供设计评审流水线使用，以生成多种方案。

指标与监控

在生产环境中按任务类型跟踪合规率和满意度，及时发现痛点（例如重构任务的非合规率激增可能表明模型回退）。

局限性与未来工作

数据集偏差：两套语料均偏向英语开发者，可能低估了小众语言或特定领域工具的使用情况。
合规评估：自动评估器虽表现优秀，但在细微指令（如 “更倾向可读性而非速度”）上可能误判，人工验证仅限于抽样。
满意度代理：对自由文本的情感分析只能近似真实用户体验；显式的 Likert 量表调查会更可靠。

未来方向

将分类法扩展至混合对话形态，并实现实时形态检测。
探索基于强化学习的适配器，根据检测到的任务类型动态调整提示策略。
开展纵向用户研究，观察开发者对 LLM 助手的满意度随使用熟练度的演变。

作者

Binquan Zhang
Li Zhang
Haoyuan Zhang
Fang Liu
Song Wang
Bo Shen
An Fu
Lin Shi

论文信息

arXiv ID: 2512.10493v1
分类: cs.SE
发表时间: 2025 年 12 月 11 日
PDF: Download PDF

相关文章

阅读更多 »

[论文] 代理撰写的拉取请求中的库使用研究

编码代理正变得越来越能够完成以前需要人工开发者的端到端软件工程工作流，包括 ra...

【论文】Mini-SFC：用于服务功能链编排与管理的综合仿真框架

在不断演进的云计算和网络环境中，服务功能链（SFC）在实现复杂服务方面发挥着关键作用。

[Paper] AutoFSM：一种用于 FSM 代码生成、IR 与基于 SystemC 测试的多代理框架

随着大语言模型（LLMs）在代码生成方面的快速发展，它们在硬件设计中的应用正受到越来越多的关注。然而，e...

[Paper] CIS 基准扫描结果的可视化

在本文中，我们介绍了 GraphSecure，这是一款提供安全扫描结果高级分析和可视化的 Web 应用程序。GraphSecure 使用户……