[Paper] 通过开源大语言模型进行定性编码分析：用户研究与设计建议

发布: 3天前 (2026年2月21日 GMT+8 01:04)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.18352v1

概览

本文提出了 ChatQDA，一个在设备上运行的框架，利用开源的大型语言模型（LLMs）帮助研究人员进行定性编码，同时保持原始数据本地存储。通过绕过商业 API，该系统旨在消除常常阻碍在敏感、以人为中心的研究中使用强大 LLM 的隐私顾虑。

关键贡献

Privacy‑first architecture：一个完全本地的流水线，在用户机器上运行开源 LLM，避免任何原始访谈或调查文本的网络传输。
Chat‑style coding interface：一个交互式 UI，允许分析师提出自然语言提示（例如，“提取关于用户挫败感的主题”），并实时收到建议的编码。
Mixed‑methods user study：30 名来自社会科学和人机交互背景的参与者评估了该工具，提供了定量的可用性评分和定性的反馈。
“Conditional trust” insight：用户信任系统进行表层提取，但对更深层次的解释性判断以及跨运行的一致性保持怀疑。
Design recommendations：六条可操作的指南，用于构建本地优先、LLM 增强的分析工具，以在可验证的隐私与方法学严谨性之间取得平衡。

方法论

系统构建 – 作者将轻量级、开源的 transformer（例如 LLaMA‑7B）与自定义提示工程层捆绑，该层将典型的定性分析任务（开放编码、备忘录、主题生成）转化为模型查询。所有组件在分析员工作站的 Docker 容器中运行。
用户研究设计 – 采用 混合方法：
- 定量：在 45 分钟编码会话后使用 SUS（系统可用性量表）和 NASA‑TLX 工作负荷问卷。
- 定性：半结构化访谈，探讨参与者的信任感、感知准确性和隐私顾虑。
数据收集 – 参与者使用 ChatQDA 与基线手动电子表格工作流，对公开的访谈数据集（≈2 k 字）进行编码。
分析 – 作者对 SUS 分数进行统计比较，并对本研究的访谈记录进行编码，采用主题分析以呈现新出现的用户态度。

Results & Findings

Usability: ChatQDA 实现了 82.4 的平均 SUS 分数，表明“优秀”的可用性，参与者报告相较于手动基线 工作负荷降低 30 %。
Trust Profile: 用户表现出 有条件的信任——他们愿意让模型建议 表层代码（例如关键词标签），但对其捕捉 细微、依赖上下文的含义 的能力持怀疑态度。一致性检查（重新运行相同提示）有时会产生不同的代码集，进一步强化了这种怀疑。
Privacy Perception: 尽管系统从未传输数据，仍有 70 % 的参与者表达了对其数据是否可能意外泄露的“认知不确定”，凸显了技术保证与用户信心之间的差距。
Efficiency Gains: 平均而言，参与者使用 ChatQDA 完成编码任务 快了 22 分钟，他们将速度提升归因于即时建议生成和手动滚动的减少。

Practical Implications

对研究工具开发者 – 研究表明 本地优先的 LLM 集成 在技术上是可行的，并且能够在不牺牲数据主权的前提下显著提升工作流效率。
企业与合规 – 受 GDPR、HIPAA 或内部数据处理政策约束的行业可以采用类似的设备端 LLM 流程来自动化文本分析任务（例如客户反馈挖掘），同时保持在严格的隐私范围内。
产品设计 – “条件信任” 的发现表明 UI/UX 应展示 置信度分数、版本历史，以及便捷的 覆盖或编辑 模型生成代码的方式，为分析师提供安全保障。
开源生态系统 – 通过依赖社区维护的模型，组织可以避免供应商锁定，并且能够审计模型权重，为审计员和伦理委员会提供更大的透明度。

限制与未来工作

Model Scale – 该研究使用了一个 7‑b 参数模型；更大的模型可能提升细微差别的捕捉，但会对典型工作站资源造成压力。
Dataset Scope – 只测试了单一公开可用的访谈语料库；对更长、多语言或高度领域特定的文本，结果可能不同。
Trust Calibration – 作者指出需要系统化方法（例如校准的置信度指标、可解释性叠加）来弥合技术隐私保证与用户感知安全之间的差距。
Future Directions – 计划的扩展包括 (1) 融入 differential privacy 噪声以进一步安抚用户，(2) 评估 cross‑run reproducibility 机制，和 (3) 将用户研究扩大到健康和法律领域的专业定性分析师。

作者

Tung T. Ngo
Dai Nguyen Van
Anh-Minh Nguyen
Phuong-Anh Do
Anh Nguyen-Quoc

论文信息

arXiv ID: 2602.18352v1
分类: cs.HC, cs.CR, cs.SE
出版日期: 2026年2月20日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 功能正确性的统计置信度：AI 产品功能正确性评估方法

人工智能（AI）系统的质量评估是一项根本性挑战，因为它们本质上具有概率性。ISO/IE 等标准……

[Paper] ReqElicitGym：对话式需求获取面试能力的评估环境

随着LLM编码能力的快速提升，基于LLM的自动化软件开发的瓶颈正从生成正确代码转向……

[论文] 工具众多，易利用漏洞稀少：对 246 种安全静态代码分析器的调查

Static security analysis 是一种广泛使用的技术，用于检测软件漏洞，覆盖各种弱点、应用领域和程序语言。

[Paper] 生成式 AI 时代软件工程专业人士的角色与身份工作

生成式人工智能（GenAI）的采用意味着软件工程将迎来重大变革，既包括技术层面的变化，也涉及专业人员的人文层面……