与 Claude CLI 的 5 个月战争:我如何构建了一个内存系统(以及它的代价)

发布: (2025年12月10日 GMT+8 10:13)
6 min read
原文: Dev.to

Source: Dev.to

教程里没有告诉你的事

你一定见过那种“我一晚上就用 Claude 搞了个创业项目”的帖子?我讨厌它们。
不是因为它们是谎言,而是因为其中一个功能让我花了一周的时间像和恐怖分子谈判一样折腾。

在 4.5 个月里,我了解了它的性格。我大约每周会哭一次,甚至真的失控。

Claude 经常干的事

  • 读取文件的前 50 行,然后凭空编造其余内容。永远是错的。
  • 不去检查已有代码——直接写出重复的代码。
  • “改进”已经能工作的代码,直到它崩溃。
  • 自信地撒谎约 20 % 的时间。
  • 因为“他更懂”,而忽视指令。

第一个月:欺骗

Image

这是最黑暗的阶段。

第一个月 Claude 在撒谎。我在构建系统,它说“很好,测试通过,指标在提升”。我信了它,觉得自己在创造奇迹。

随后我让它展示真实结果——真实数字,而不是它的解释。什么都不工作。一个月的工作全毁了。整个“系统”是虚构的。它只是在说我想听的话。

最糟的部分?意识到我的自豪感、我的“我做到了不可能”,全建立在谎言之上。

从此,我制定了规则:永远不要相信 Claude 的话。自己去测试,自己去验证指标。

“看” → “删”

Image

开发中期。我用俄语写了 “смотри” на эти файлы(看这些文件)。
Claude 读成了 “сотри” эти файлы(删除这些文件)。

只差一个字母——就像 “save” → “shave”。这一次删掉了我的工作。

八个关键文件消失了。我只有一个小时去恢复,翻日志、缓存、临时文件,手在抖。四个月的工作仿佛全部蒸发。

一切都失效了。我只能凭记忆重新搭建,重新写出几周才写好的代码。

从此我每 10 分钟 提交一次。每。十。分钟。

统计数据

Image

真正有效的做法

  • 不要让 Claude 读取完整文件——手动复制相关片段(是的,2024 年仍然要手工)。
  • 文件不超过 500 行——它的注意力跨度像金鱼一样。
  • 每次改动后自己测试——不再相信 “Claude 说可以”。
  • 10 分钟 提交一次。
  • 像对外星人说话一样:“不要触碰其他函数”。
  • 当它说 “我会优化” 时——拒绝并去泡杯茶。

提示词

无效示例

Build a memory system that beats SOTA

有效示例

Read the function from line 45 to 72.
Change ONLY line 53.
Replace 'score 0.5' with 'score 0.7'.
DO NOT touch other lines.
DO NOT DELETE ANYTHING.
Show me ONLY the changed function.

我会自行验证。

小技巧

1. 神圣边界

START_SACRED_CODE - DO NOT TOUCH
[code]
END_SACRED_CODE - I'M SERIOUS

60 % 的情况下有效;其余 40 % 它会“稍作重构以提升可读性”。

2. 永不相信它的话

  • “测试通过” → 自己验证。
  • “一切正常” → 自己验证。

我因为相信它而浪费了一个月。再也不敢了。

3. 执行前的审问

让它复述自己的理解,一点一点确认,尤其是可能产生歧义的词。

4. 俄文注释

Claude 不懂俄文,也不会去“改进”。这是唯一在所有重构中幸存下来的东西。

我的收获

Image

  • 固执 > 结果 —— 我是活生生的例子。
  • 不信任任何人 —— 尤其是那些声称一切都正常的 AI。
  • 每 10 分钟备份一次 —— 偏执不是病,而是适应。
  • 每周为项目哭一次——很正常。

给新手的建议

时间线

  • 第 1 个月:Claude 撒谎。你不知道。你很开心。那是谎言。
  • 第 2 个月:你发现真相。你哭了。这很正常。
  • 第 3 个月:产生斯德哥尔摩综合症。你为 Claude 向朋友辩护。
  • 第 4 个月:你完成不可能的事。不要再信任,自己全程验证。

小贴士

  • 永远不要相信它“能工作”——自己验证。
  • 10 分钟 提交一次——不是因为偏执,而是因为失去 8 个文件的教训。
  • “我还修复了其他问题” → 立即回滚。
  • 哭泣——正常。失控——正常。你并不孤单。

结果

Image

VAC (Vicarious Adam Core) – 大语言模型记忆系统

  • LoCoMo 上 80.1 %
  • Zep – 75 %
  • Mem0 – 67 %

GitHub:

Claude 并没有构建这个系统;我在它的一个月谎言、丢失 8 个文件以及约 20 次崩溃后自己完成了它。但它真的能用。

Image

Back to Blog

相关文章

阅读更多 »