Kimi 砍掉了 Claude 的四个最佳想法 — 实践中的 AI 同行评审

发布: 3天前 (2026年2月27日 GMT+8 19:06)

13 分钟阅读

Source: Dev.to

Source: …

内容策略回顾：Claude vs. Kimi

我让 Claude (Opus 4.6) 制定了一份内容策略：六个标题改写和五个全新文章主题，全部都有数据支撑且逻辑严密。随后我把这些提案交给 Kimi K2.5。六个标题中有四个被标记，另有一个直接被拒绝并附注 “这会适得其反，别写了。”

当一个 AI 对另一个 AI 的提案进行批评时，考虑的范围会扩大。Claude 单独时从未出现的视角浮现出来，我原本潜意识接受的假设也变得可见。

我的作品集概览

文章总数： 21（已发布 18 篇，草稿 3 篇）
已发布标题模式： 11 / 18（≈ 61 %）采用 描述性 格式——“我如何做 X 的故事”或 “做 Y 的记录”。

然而 Zenn 每周的热门文章主要是 “综合指南” 和 “检查清单” 这两种格式。我的作品集中零篇属于这两种模式。这并非刻意为之——我只是无意识地陷入了 “我如何 …” 的写作习惯。

Claude 的趋势分析

Claude 通过 Zenn API 与网络搜索收集趋势数据，然后根据历年 Top‑10 与每周热门文章，将有潜力的标题归类为 九种模式。

#	模式	示例
1	挑衅式 / 陈述式	“X 的真实价值并非 Y”
2	综合式	“X 完全指南”、 “Top N 选集”
3	检查清单式	“做 X 前需要检查的事项”
4	数字式	“它慢了 9 倍”、 “用 0 行代码”
5	假设 / 结果式	“我尝试了 X，结果 Y 发生了”
6	幕后式	“X 的内部故事”、 “全貌揭秘”
7	流程追踪式	“为期一个月的 X 记录”
8	开源发布式	“我构建了 X 并开源”
9	隐性知识式	“资深工程师的潜意识操作”

Claude 将上述分类与我现有的文章进行对照，找出空白，并给出 六个标题改写提案 以及一套 标题设计规则。此时 Claude 的输出内部一致、数据充分，我对这些提案并无不适感。

单模型的局限性

Claude 往往倾向于使用支持自身分析的数据，不会主动寻找 能够削弱其假设的视角。由于提案都有扎实的数据作支撑，它们对我而言也显得“合理”。

引入 Kimi K2.5

为了获得不同的视角，我引入了 Kimi K2.5（Mixture‑of‑Experts 架构，1 万亿参数）。我已经在之前的文章中把 Kimi 配置为 CLI 工具。

使用场景： 同行评审（而非实现委托）。

提示结构

Input 1: Full text of 7 existing articles by the author (A‑rank quality)
Input 2: Full text of Claude's analysis results and proposals
Instruction: Review from 4 perspectives — strategist, editor, reader advocate, and marketer

Kimi 的 Agent Swarm 架构会将任务拆解并分配给最多 100 个子代理。我明确要求从四个视角进行批评。最终输出约 350 行（≈ 17 KB），每个视角都给出了具体的批评意见和替代建议。

Kimi 对 Claude 标题提案的判定

Claude 的提案	Kimi 的判定	Kimi 的理由（摘要）
“最強モデルで司令塔を組んだら9倍遅くなった” (Built an orchestrator with the strongest model; it got 9× slower)	⚠️ Revise	“被拒绝”的教训丢失。文章的真正价值在于拒绝某种做法的标准。
“Claude Codeに397問の試験問題を自作し始めた” (Started creating 397 exam questions with Claude Code)	❌ Reject	数字占比过大。核心洞见——“AI 并未主动利用自身能力”——被埋没。
*Strategy of “targeting the /

Source: …

标题	状态	备注
“optimal zone by character count”	⚠️ 正确	“信息密度”才是正确的度量，而不是字符数。
“Claude Code で技術記事を20本書いて育てた Zenn 執筆環境の全貌” (通过使用 Claude Code 编写 20 篇技术文章而构建的 Zenn 写作环境全貌)	⚠️ 重新考虑	应该淡化“即使非工程师也能做到”的角度，让成就数字自行说明。

关键要点

隐形的共识变得可见。
- 当我阅读 Claude 的提案时，背后的数据让它们显得“可信”。
- Kimi 的批评揭示了我对 Claude 偏见的潜意识认同。
数字优化陷阱。
- “397 个问题”和“慢 9 倍”是醒目的数字，但把它们放在前面 牺牲了文章的实际教训（AI 的盲点、拒绝决策的标准）。
同行评审的价值。
- 这不仅仅是产生“正确答案”；更在于揭示隐藏的假设并确保 核心洞见 得以凸显。

最后思考

让两个不同的 LLM 相互评估，使原本看似坚实、数据驱动的策略转变为更丰富、更细致的方案。Claude 为我提供了一个 结构良好、数据支持的基线，而 Kimi 则迫使我 质疑底层前提 并 精炼信息传递。这一过程凸显了我们多么容易让耀眼的数字或熟悉的模式主导思考，也强调了揭示每个标题背后 真实价值 的重要性。

Source: …

使用 Kimi 作为同行评审伙伴的思考

“Kimi 把这称为 ‘适得其反’。”——这是一条常见的内容营销原则，但当它直接应用到我的文章上（被明确指出哪一个数字在抹去哪一课时），我获得了一种只能通过这次经历才能得到的决断感。

同一工具，不同价值

之前的文章： Kimi K2.5 被用作 代码编写工作者。
当前的文章： Kimi K2.5 被用作 审稿人，对提案进行批评。

在实现委托方面，Kimi 的 群体智能（并行执行能力） 大放异彩。
在同行评审中，则是 该群体智能的多视角特性 发挥了作用。

即使是同一个模型，交给它 spec.md 与交给它完整的文章文本摘录，也会产生完全不同类型的价值。

此方法的局限性

Kimi 的批评不一定是 “正确的”。
模型本身有其偏见。
当两个 AI 达成一致时，也不保证答案正确。
最终决定由人类做出，因此人类偏见仍然存在。

同行评审扩展的是 “考虑范围”，而不是 “准确率”。

我的执行内容

标题改写 – 在原来的六个提案中，我在融合 Kimi 的修改后最终确定了五个。
标题‑设计规则 – 为 zenn-writer 技能添加了七条规则（例如，“以数字开头并搭配情感词汇”，“保留学习要素”等）。
新文章主题 – 列出了五个想法，例如：
- 一篇全面的 “Top 10 Settings”（前十设置）文章。
- 一篇清单式的 “Before You Trust LLM Output”（在信任 LLM 输出之前）文章。
- 其他用于填补已识别的空白。
品牌转型 – 将方向从 “even a non‑engineer can do it” 转变为 “an explorer pushing the limits of Claude Code.”
效果追踪 – 这些变化的影响尚未验证。我将在重新命名后监测页面浏览量（PV）和点赞数，并在数据到位后报告。

This was a shift in perspective from “using AI as a tool” to “using AI as a sparring partner.”

工作流程概览

Claude (data analysis & structuring)
   → Author (review & approval)
      → Kimi (multi‑perspective critique)
         → Author (integration & final judgment)
            → Execution

Claude 负责数据分析和结构化。
Kimi 负责多视角批评和品牌一致性检查。

这种角色划分是在同行评审过程中形成的。

Meta‑Note on This Article

该文章的设计基于热度分析的发现。
标题有意结合了 “numeric” 与 “hypothetical/result” 模式。
结构刻意遵循 “failure‑to‑lesson” 弧线，并采用 “concrete‑abstract‑concrete” 的流动。

是否该结构真正有效，将由本文的 PV 和点赞数自行验证。

步骤式生产日志

Planning (Claude)
- 创建了计划：8个章节、三个标题候选以及来源材料。
Specification
- 将计划转换为 spec.md 并发送给 Kimi K2.5。
- 规格包含：
  - 语气规范（da/dearu 风格 – 断言式日语）
  - 源文件的引用路径
  - 章节结构
First Draft (Kimi)
- 自动阅读了三个源文件。
- 生成了约 3,800 字的草稿。
- Result: 质量低下 – 文笔单薄、乏味，尽管遵循了规格。
Harsh Review (Claude’s editor agent)
- 判决：“REVISE AND RESUBMIT.”
- 标记：
  - 3 条 CRITICAL 数值不一致
  - 6 条 MEDIUM 问题（论点验证浅薄、缺乏具体实践）
Revision (Claude)
- 解决了所有 CRITICAL 与 MEDIUM 问题。
- 添加了作者自省（例如 “我自己也曾被‘397 个问题’卷入其中”）并承认方法论的局限性。
Second Review (Kimi)
- 未指定人格 – 允许群体智能自行判断。
- 给出 A rating（推荐出版），并提出三处小幅修正（开头的数值一致性）。
Final Integration
- 融入 Kimi 的反馈，完成最终版本。

来自 Kimi 不同使用的洞见

用例	结果
同行评审（批评与分析）	群体智能提供了多视角洞见，生成了350 行详细反馈。
文章写作（散文生成）	Claude 产生了显著更高质量的散文。

即使使用相同的模型，批评和生成也会以根本不同的方式展现能力。

Kimi 砍掉了 Claude 的四个最佳想法 — 实践中的 AI 同行评审

内容策略回顾：Claude vs. Kimi

我的作品集概览

Claude 的趋势分析

单模型的局限性

引入 Kimi K2.5

提示结构

Kimi 对 Claude 标题提案的判定

关键要点

最后思考

使用 Kimi 作为同行评审伙伴的思考

同一工具，不同价值

此方法的局限性

我的执行内容

工作流程概览

Meta‑Note on This Article

步骤式生产日志

来自 Kimi 不同使用的洞见

相关文章

AI 基础设施决策矩阵：自建 vs. 购买（2026 年）

我们构建了一个仅限Agent的社交动态

为什么安全总是迟到：经济学、Zero-Day 与攻击者数学

我的2026 AI工具栈：我使用的、原因以及如何保持全部运行

内容策略回顾：Claude vs. Kimi

我的作品集概览

Claude 的趋势分析

单模型的局限性

引入 Kimi K2.5

提示结构

Kimi 对 Claude 标题提案的判定

关键要点

最后思考

使用 Kimi 作为同行评审伙伴的思考

同一工具，不同价值

此方法的局限性

我的执行内容

工作流程概览

Meta‑Note on This Article

步骤式生产日志

来自 Kimi 不同使用的洞见

相关文章

AI 基础设施决策矩阵：自建 vs. 购买（2026 年）

我们构建了一个仅限Agent的社交动态

为什么安全总是迟到：经济学、Zero-Day 与 攻击者数学

我的2026 AI工具栈：我使用的、原因以及如何保持全部运行

引入 Kimi K2.5

为什么安全总是迟到：经济学、Zero-Day 与攻击者数学