[Paper] 您为何向 Stack Overflow 贡献内容？在 LLM 时代之前，跨文化动机与使用模式的理解

发布: 1天前 (2026年3月5日 GMT+8 18:51)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.05043v1

概览

本文研究了开发者为何向 Stack Overflow（SO）贡献内容，以及这些动机在不同文化之间的差异——具体而言是美国、中国和俄罗斯。通过将自我描述的动机与实际平台行为关联，作者揭示了对构建工具、社区或依赖 SO 数据的 AI 模型的任何人都重要的模式。

关键贡献

Cross‑cultural taxonomy: 通过系统分析用户个人资料文本，识别出 17 类不同的动机类别。
Mixed‑methods pipeline: 将对个人资料的定性内容分析与定量语言和活动指标相结合。
Empirical correlations: 展示了特定动机（如广告、利他主义、学习）如何与可衡量的行为（如发帖频率、答案采纳率和个人资料完整度）相关联。
Cultural contrasts: 证明美国贡献者倾向于自我宣传，中国贡献者更注重学习，俄罗斯贡献者则介于两者之间。
Practical guidelines: 为社区管理员、平台设计者以及 LLM 开发者提供了可操作的洞见，帮助培育多元化的参与。

方法论

数据收集 – 为来自三个地区（美国、中国、俄罗斯）的SO用户的分层样本提取公开的个人简介和活动日志（提问、回答、投票）。
定性编码 – 研究人员对个人简介进行演绎性内容分析，将陈述映射到预先定义的动机主题集合（例如，“职业宣传”“帮助他人”“技能获取”），共得到17个类别。
语言量化 – 应用自然语言处理（分词、词性标注）计算个人简介长度、词汇丰富度和情感得分。
相关性分析 – 使用Spearman相关系数（rho）将每个动机类别与活动指标（回答数量、声望增长、个人资料完整度）关联。
跨文化比较 – 进行统计检验（Kruskal‑Wallis检验、事后Dunn检验）以检测三国组之间的显著差异。

结果与发现

动机	主导地区	典型行为
广告 / 自我推广	美国	更长、细节丰富的个人资料；更高的声望追求活动；频繁的链接分享。
利他性问题解决	所有地区（总体排名最高）	高回答发布率，尤其在小众主题上。
学习 / 技能发展	中国	较短的个人资料，高提问频率，对自我品牌的重视程度较低。
社交 / 社区建设	俄罗斯（适中）	适中的个人资料长度，问答比例平衡，偶尔参与元讨论。

编写更详尽个人资料的用户倾向于从事广告和网络活动。
以学习为导向的用户保持个人资料简洁，专注于提问/回答，而非自我展示。
总体而言，广告动机仅次于利他主义，凸显平台作为职业建设舞台的作用。

实际意义

针对平台设计者： 为自我宣传是强驱动因素的地区定制 UI 提示（例如 “展示你的作品集”），而在中国等市场则强调学习资源。
针对社区管理员： 制定地区特定的推广——在美国为无私回答者提供认可徽章，在中国为学习者设立导师计划，在俄罗斯用户中举办讨论论坛活动。
针对大语言模型开发者： 注意来自 SO 的训练数据存在文化偏差；模型可能会对英文内容中过度表现自我宣传的语言，而对中文贡献者的学习导向表述表现不足。相应地调整数据平衡流水线。
针对招聘人员和人力资源工具： 利用已识别的个人资料丰富度与广告动机之间的关联，更好地将开发者在公开 SO 上的表现解读为职业意向的信号。

限制与未来工作

样本偏差: 仅分析了公开的个人资料文本；没有个人简介的沉默贡献者被排除，可能导致动机分布出现偏差。
静态快照: 本研究早于大型语言模型的广泛采用；随着 LLM 自动化回答，动机可能会发生变化。
文化细粒度: 按国家分组会掩盖国内的多样性（例如地区方言、行业部门）。未来工作可以探索更细致的文化维度（如 Hofstede 评分、语言家族）。
纵向追踪: 随时间跟踪用户可以揭示动机的演变，尤其是在平台重大变更或 LLM 整合之后。

作者

Sherlock A. Licorish
Elijah Zolduoarrati
Tony Savarimuthu
Rashina Hoda
Ronnie De Souza Santos
Pankajeshwara Sharma

论文信息

arXiv ID: 2603.05043v1
分类: cs.SE
发布时间: 2026年3月5日
PDF: 下载 PDF

相关文章

阅读更多 »

[论文] RippleGUItester：变更感知的探索性测试

软件系统通过频繁的代码更改不断演进，然而尽管进行了大量的测试和代码审查，这些更改仍常常引入意想不到的 bug ……

[论文] 它活了！Live Object Environment 在软件工程实践中的变化

工具塑造我们的思维。这就是为什么拥有可扩展且灵活的工具对开发者适应其需求至关重要。对程序的推理在……

[Paper] 通过主动学习和可解释AI降低架构技术债务检测中的标注工作量

自认技术债务（Self‑Admitted Technical Debt，SATD）指的是开发者在代码注释、提交信息等自然语言工件中明确承认的技术折衷。

[论文] ICSE 2023 可持续性报告

随着对学术会议碳足迹的讨论日益增多，越来越多的问题被提出，是否应该关注交通等造成的环境影响……