你听说过Shoggoth怪物梗吗?

发布: (2026年1月17日 GMT+8 18:11)
3 min read
原文: Dev.to

Source: Dev.to

什么是 Shoggoth 怪物表情包?

Shoggoth 是一种满是触手和多个眼睛的怪物(喜欢恐怖文学的人会认出它的来源)。在 AI 社区,它被用作“原始”模型的隐喻,这类模型在互联网上使用海量数据进行训练,未经过任何过滤或策划。

大型语言模型的预训练

在预训练阶段,模型会接收来自互联网各个角落的文本。因此,它也会继承这些数据中最糟糕的行为。LLM 的设计目标是完成文本,而不是进行对话,也就是说,它们并不理解让回答看起来像人的因素。

监督微调 (SFT)

在监督微调(Supervised Finetuning,SFT)中,模型开始学习对话。高水平的人工会创建对话示例作为演示,使模型能够学习更合适的对话模式。

人类反馈强化学习 (RLHF)

在 SFT 之后,使用人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)来使 AI 的行为与人类偏好保持一致。这个过程为怪物“贴上了笑脸”,使回答更加友好和有用。

对齐问题

  • 道德非普遍性:没有唯一的道德标准;什么被视为正确可能因情境而异(例如在裁军问题上)。
  • 内部知识与反馈不匹配:模型可能会确认用户的观点,即使这些观点是错误的,甚至捏造事实以显得有帮助。

结论

将这个“小怪物”打造成可靠的产品是一个持续的挑战。我一直在阅读 Chip Huyen 的 AI Engineering 一书,研究这些架构与安全问题,收获颇丰!

Back to Blog

相关文章

阅读更多 »