[Paper] 您为何向 Stack Overflow 贡献内容?在 LLM 时代之前,跨文化动机与使用模式的理解
发布: (2026年3月5日 GMT+8 18:51)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.05043v1
概览
本文研究了开发者为何向 Stack Overflow(SO)贡献内容,以及这些动机在不同文化之间的差异——具体而言是美国、中国和俄罗斯。通过将自我描述的动机与实际平台行为关联,作者揭示了对构建工具、社区或依赖 SO 数据的 AI 模型的任何人都重要的模式。
关键贡献
- Cross‑cultural taxonomy: 通过系统分析用户个人资料文本,识别出 17 类不同的动机类别。
- Mixed‑methods pipeline: 将对个人资料的定性内容分析与定量语言和活动指标相结合。
- Empirical correlations: 展示了特定动机(如广告、利他主义、学习)如何与可衡量的行为(如发帖频率、答案采纳率和个人资料完整度)相关联。
- Cultural contrasts: 证明美国贡献者倾向于自我宣传,中国贡献者更注重学习,俄罗斯贡献者则介于两者之间。
- Practical guidelines: 为社区管理员、平台设计者以及 LLM 开发者提供了可操作的洞见,帮助培育多元化的参与。
方法论
- 数据收集 – 为来自三个地区(美国、中国、俄罗斯)的SO用户的分层样本提取公开的个人简介和活动日志(提问、回答、投票)。
- 定性编码 – 研究人员对个人简介进行演绎性内容分析,将陈述映射到预先定义的动机主题集合(例如,“职业宣传”“帮助他人”“技能获取”),共得到17个类别。
- 语言量化 – 应用自然语言处理(分词、词性标注)计算个人简介长度、词汇丰富度和情感得分。
- 相关性分析 – 使用Spearman相关系数(rho)将每个动机类别与活动指标(回答数量、声望增长、个人资料完整度)关联。
- 跨文化比较 – 进行统计检验(Kruskal‑Wallis检验、事后Dunn检验)以检测三国组之间的显著差异。
结果与发现
| 动机 | 主导地区 | 典型行为 |
|---|---|---|
| 广告 / 自我推广 | 美国 | 更长、细节丰富的个人资料;更高的声望追求活动;频繁的链接分享。 |
| 利他性问题解决 | 所有地区(总体排名最高) | 高回答发布率,尤其在小众主题上。 |
| 学习 / 技能发展 | 中国 | 较短的个人资料,高提问频率,对自我品牌的重视程度较低。 |
| 社交 / 社区建设 | 俄罗斯(适中) | 适中的个人资料长度,问答比例平衡,偶尔参与元讨论。 |
- 编写更详尽个人资料的用户倾向于从事广告和网络活动。
- 以学习为导向的用户保持个人资料简洁,专注于提问/回答,而非自我展示。
- 总体而言,广告动机仅次于利他主义,凸显平台作为职业建设舞台的作用。
实际意义
- 针对平台设计者: 为自我宣传是强驱动因素的地区定制 UI 提示(例如 “展示你的作品集”),而在中国等市场则强调学习资源。
- 针对社区管理员: 制定地区特定的推广——在美国为无私回答者提供认可徽章,在中国为学习者设立导师计划,在俄罗斯用户中举办讨论论坛活动。
- 针对大语言模型开发者: 注意来自 SO 的训练数据存在文化偏差;模型可能会对英文内容中过度表现自我宣传的语言,而对中文贡献者的学习导向表述表现不足。相应地调整数据平衡流水线。
- 针对招聘人员和人力资源工具: 利用已识别的个人资料丰富度与广告动机之间的关联,更好地将开发者在公开 SO 上的表现解读为职业意向的信号。
限制与未来工作
- 样本偏差: 仅分析了公开的个人资料文本;没有个人简介的沉默贡献者被排除,可能导致动机分布出现偏差。
- 静态快照: 本研究早于大型语言模型的广泛采用;随着 LLM 自动化回答,动机可能会发生变化。
- 文化细粒度: 按国家分组会掩盖国内的多样性(例如地区方言、行业部门)。未来工作可以探索更细致的文化维度(如 Hofstede 评分、语言家族)。
- 纵向追踪: 随时间跟踪用户可以揭示动机的演变,尤其是在平台重大变更或 LLM 整合之后。
作者
- Sherlock A. Licorish
- Elijah Zolduoarrati
- Tony Savarimuthu
- Rashina Hoda
- Ronnie De Souza Santos
- Pankajeshwara Sharma
论文信息
- arXiv ID: 2603.05043v1
- 分类: cs.SE
- 发布时间: 2026年3月5日
- PDF: 下载 PDF