草莓里到底有多少个R?AI真是太蠢了
Source: Dev.to
Introduction
单词 strawberry 中有多少个字母 R?AI 说不出来——至少不能可靠地说。截图、Reddit 讨论和自鸣得意的推文显示模型在最基本的字母上也会像小孩子一样绊倒。这个梗已经成为一个更深层次局限的代名词:AI 仍然在基本计数和精确渲染上挣扎。
Notable Failure Modes
Counting letters
即使在 2025 年,许多模型仍然无法一致地数出 “strawberry” 中的 R。让它们输出海马表情符号时,模型甚至会陷入一种明显的存在危机。
Rendering objects
AI 图像生成器仍然无法渲染完全装满的酒杯。模型从数据集中进行插值,而数据集中很少出现完全满的酒杯,导致生成的图像不真实。
Emoji handling
海马表情符号会引发混乱,因为整个互联网集体决定这种表情符号是存在的。模型学会它是合理的,插入后又发现它并不存在,于是无限循环。
Code generation
AI 生成的代码常常带有错误。训练数据包括 Stack Overflow 帖子、博客、gist、未完成的示例以及各种 hack。缺乏明确约束时,模型会复制人类同样的错误。
Why These Glitches Occur
- Training data bias – 模型从人类生成的内容中学习,继承了这些内容的不完美。
- Lack of explicit constraints – 没有明确的提示或安全检查,模型会遵循最可能的模式,即使该模式是错误的。
- Interpolation, not understanding – 当视觉概念(例如,完全满的酒杯)在训练数据中出现频率低时,模型会用近似而非正确的渲染来填补空白。
Implications for Developers
- Treat AI as an unreliable intern – 大量提示、明确引导,切勿盲目信任输出。
- Implement multi‑layer validation – 通过多个代理对结果进行审查,以发现 bug、性能问题和安全隐患。
- Design for failure – 假设系统会表现不佳或超出当前解决方案的能力范围。构建能够优雅吸收失败的体验。
The broader impact
- Developer knowledge bases – 随着 ChatGPT 提供更快、上下文相关的答案,Stack Overflow 的流量正在下降。
- Creative content – 音乐、图像和库存摄影正日益由 AI 生成,模糊了人类与机器输出的界限。
- Trust erosion – 当照片、视频、评论或人脸可以被伪造时,数字媒体的下游信任会出现剧烈变化。
Lessons and Recommendations
- Convert AI outputs into constrained state machines to enforce safety and correctness.(将 AI 输出转换为受约束的状态机,以确保安全性和正确性。)
- Avoid treating “textbox‑and‑send” as a product strategy; plan for orchestration, monitoring, and rapid iteration.(避免把“文本框‑发送”当作产品策略;要规划编排、监控和快速迭代。)
- Stay ahead of model churn – The model you used last month may be obsolete today; continuously update your tooling and processes.(保持对模型更迭的前瞻性——上个月使用的模型今天可能已经过时;持续更新工具和流程。)
- Focus on robust orchestration – The layer that coordinates AI models must evolve as fast as the models themselves.(专注于稳健的编排——协调 AI 模型的层必须与模型本身一样快地演进。)
Conclusion
嘲笑 AI 的错误很有娱乐性,但也可能让人忽视构建弹性系统的真正工作。如果你在使用 AI 开发,务必为失败做好设计,假设技术会在飞行途中超出你的预期,并相应规划。或许,真的该停止数 R 了。