[Paper] 理解 AI 驱动的科学研究工具的使用与参与度：Asta 交互数据集

发布: 3天前 (2026年2月27日 GMT+8 02:40)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.23335v1

概述

本文介绍了 Asta Interaction Dataset，这是一个庞大且匿名化的日志，记录了研究人员实际使用 AI‑驱动的文献检索和问答工具的方式。通过分析来自真实检索增强生成（RAG）平台的超过 200 K 条查询和交互痕迹，作者揭示了科学家们将这些系统视为协作伙伴，而非单纯的搜索引擎。研究结果为开发者提供了设计更有用的 AI 研究助理的具体线索。

关键贡献

大规模、真实世界数据集：>200 K 用户查询和交互日志，来源于两个已部署的 AI 研究工具，公开发布供社区使用。
查询意图分类法：细粒度分类（例如“起草”、“差距识别”、“引用验证”），捕捉 AI 辅助研究的多样化目的。
行为洞察：实证证据表明研究者提出更长、更复杂的查询，将生成的文本视为持久性产出，并以非线性方式浏览引用。
经验曲线分析：展示查询具体性和引用参与度随用户熟悉工具而演变的情况。
设计建议：为构建支持起草、迭代细化和引用管理的 AI 研究助理提供具体指南。

方法论

Data collection – 作者对两个生产工具（一个文献发现 UI 和一个科学 QA 界面）进行了仪器化，这些工具基于 LLM‑支持的 RAG 架构。所有用户交互（查询、点击、滚动、引用展开以及会话时间戳）在数月期间被记录。
Anonymization & preprocessing – 去除个人标识符和敏感内容；对查询进行分词和标准化。
Taxonomy development – 采用混合方法，将随机查询样本的人工标注与语义嵌入的聚类相结合，生成一个包含 12 类的意图模式。
Quantitative analysis – 计算查询长度、词元多样性、会话深度、引用点击率以及“文献重访”频率等指标。通过根据会话次数将用户划分为新手、中级和专家群体，分析时间趋势。
Statistical validation – 使用 ANOVA 和事后 Tukey 检验对不同群体和工具类型之间的差异进行检验，确保结果不是随机变异的产物。

结果与发现

发现	含义
平均查询长度 = 12.4 个 token（相较于传统网页搜索约 5 个 token）	研究人员提出更详细的多句问题，期待 AI 提供更丰富的上下文。
约 38% 的会话涉及“起草”意图（例如，让模型撰写摘要或相关工作段落）	AI 被用作写作协作者，而不仅仅是检索引擎。
引用点击率 = 62%，且 27% 的用户在多个会话中重新访问相同的生成答案	生成的回答成为“黏性”产物；用户将其视为值得再次查阅的参考材料。
有经验的用户（≥10 次会话）提出的目标查询多出 22%（例如，“比较方法 X 与 Y 在数据集 Z 上的表现”）	熟悉度导致更精确的提示，但关键词式查询仍然存在。
非线性导航——45% 的会话涉及在答案章节、引用论文之间跳转，然后返回答案	用户通过迭代方式深化理解，将 AI 作为链接到原始文献的枢纽。
持续的“差距识别”查询——所有查询中有 15% 要求模型指出缺失的文献或未解决的问题	AI 正被用于研究规划和假设生成。

实际意义

面向草稿的设计：UI 应提供便捷的方式来导出、编辑和版本控制 AI 生成的文本（例如 markdown 导出、Git 集成）。
引用管理集成：在答案 UI 中直接嵌入引用元数据，并支持一键导入到参考文献管理工具（Zotero、Mendeley）。
会话持久化：将每个答案视为一等公民的工件——允许书签、标签以及答案之间的链接，以支持观察到的非线性工作流。
提示引导：提供随用户熟练度演进的动态提示模板，在引导新手进行更有针对性的查询的同时，仍支持探索性的关键词式搜索。
评估基准：发布的分类法和数据集为开发者提供了一个真实的测试平台，用于衡量“研究助理”性能，超越标准 QA 指标（例如包括引用相关性、草稿质量和用户参与度）。
隐私‑优先设计：由于数据集需要彻底匿名化，任何生产系统在记录研究者交互时都应采用类似的安全措施。

Limitations & Future Work

Domain bias: 数据来自单一的 RAG 平台，专注于生命科学文献，因此在其他领域（如计算机科学、人文）中的模式可能不同。
Self‑selection: 选择使用该工具的用户可能更具技术背景，这可能会导致高级提示行为的出现率被高估。
Static analysis: 本研究捕捉的是交互的快照；对数年跨度的纵向研究可能揭示更深层的学习曲线。
Future directions: 作者提出的未来工作包括将数据集扩展到多学科语料库，加入眼动追踪或口述思考协议以更好地理解认知负荷，并测试能够响应已识别使用阶段（探索 → 起草 → 引文验证）的自适应 UI 组件。

作者

Dany Haddad
Dan Bareket
Joseph Chee Chang
Jay DeYoung
Jena D. Hwang
Uri Katz
Mark Polak
Sangho Suh
Harshit Surana
Aryeh Tiktinsky
Shriya Atmakuri
Jonathan Bragg
Mike D’Arcy
Sergey Feldman
Amal Hassan-Ali
Rubén Lozano
Bodhisattwa Prasad Majumder
Charles McGrady
Amanpreet Singh
Brooke Vlahos
Yoav Goldberg
Doug Downey

论文信息

arXiv ID: 2602.23335v1
分类: cs.HC, cs.AI, cs.IR
发布日期: 2026年2月26日
PDF: 下载 PDF

[Paper] 理解 AI 驱动的科学研究工具的使用与参与度：Asta 交互数据集

概述

关键贡献

方法论

结果与发现

实际意义

Limitations & Future Work

作者

论文信息

相关文章

[Paper] 通过锚定实现模型一致性

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

[Paper] SOTAlign：通过最优传输的单模态视觉和语言模型的半监督对齐

[Paper] FlashOptim：用于内存高效训练的优化器