如果 Stack Overflow 死了,谁将训练下一个 LLM?
Source: Dev.to
Introduction
我在查看 Stack Overflow 的使用情况时发现,随着大语言模型(LLMs)广泛可用,全年新提问的数量下降了 78 %。
如果大家开始依赖 LLM 而不是 Stack Overflow 来获取答案,并且没有人在 Stack Overflow 或其他问答平台上回答问题,那么可能会出现一个反馈循环。
How LLMs Learn
像 ChatGPT 这样的 LLM 是在包含以下内容的大规模文本数据集上进行训练的:
- 文档
- 开源代码
- 像 Stack Overflow 这样的问答网站
- 论坛和博客
所有这些内容都是人类编写的。随着新的人类生成材料的池子缩小,模型将越来越依赖旧内容——甚至是它们自己生成的输出。这会逐渐降低原创性,就像“反复从同一杯水中喝水”,最终知识会变得陈旧。
Potential Consequences
- 初始增长: LLM 将继续利用现有数据(文档、代码库、研究论文)进行改进。
- 新信息的减少: 随着时间推移,新的人类创造的知识流可能会缩减,导致答案更加重复或过时。
- 人类火花的丧失: 没有持续的人类贡献,知识的动态、演进特性可能会被削弱。
Looking Ahead
当 LLM 生成答案的新鲜感减弱时,人们可能会回归“老办法”,通过论坛、问答网站和其他人驱动的平台有机地分享知识。AI 在人类持续创造新知识供其学习时表现最佳。
一种可能的平衡状态是人类、机器和学习相互促进:
- 人类产生新内容。
- LLM 吸收并传播这些内容。
- 用户同时依赖人类专业知识和 AI 辅助。
如果这种平衡崩溃,对 LLM 的依赖可能会变得过时,促使传统的知识共享方式复兴——也许不会很快,但终将到来。