Kimi 砍掉了 Claude 的四个最佳想法 — 实践中的 AI 同行评审
Source: Dev.to
Source: …
内容策略回顾:Claude vs. Kimi
我让 Claude (Opus 4.6) 制定了一份内容策略:六个标题改写和五个全新文章主题,全部都有数据支撑且逻辑严密。随后我把这些提案交给 Kimi K2.5。六个标题中有四个被标记,另有一个直接被拒绝并附注 “这会适得其反,别写了。”
当一个 AI 对另一个 AI 的提案进行批评时,考虑的范围会扩大。Claude 单独时从未出现的视角浮现出来,我原本潜意识接受的假设也变得可见。
我的作品集概览
- 文章总数: 21(已发布 18 篇,草稿 3 篇)
- 已发布标题模式: 11 / 18(≈ 61 %)采用 描述性 格式——“我如何做 X 的故事”或 “做 Y 的记录”。
然而 Zenn 每周的热门文章主要是 “综合指南” 和 “检查清单” 这两种格式。我的作品集中 零 篇属于这两种模式。这并非刻意为之——我只是无意识地陷入了 “我如何 …” 的写作习惯。
Claude 的趋势分析
Claude 通过 Zenn API 与网络搜索收集趋势数据,然后根据历年 Top‑10 与每周热门文章,将有潜力的标题归类为 九种模式。
| # | 模式 | 示例 |
|---|---|---|
| 1 | 挑衅式 / 陈述式 | “X 的真实价值并非 Y” |
| 2 | 综合式 | “X 完全指南”、 “Top N 选集” |
| 3 | 检查清单式 | “做 X 前需要检查的事项” |
| 4 | 数字式 | “它慢了 9 倍”、 “用 0 行代码” |
| 5 | 假设 / 结果式 | “我尝试了 X,结果 Y 发生了” |
| 6 | 幕后式 | “X 的内部故事”、 “全貌揭秘” |
| 7 | 流程追踪式 | “为期一个月的 X 记录” |
| 8 | 开源发布式 | “我构建了 X 并开源” |
| 9 | 隐性知识式 | “资深工程师的潜意识操作” |
Claude 将上述分类与我现有的文章进行对照,找出空白,并给出 六个标题改写提案 以及一套 标题设计规则。此时 Claude 的输出内部一致、数据充分,我对这些提案并无不适感。
单模型的局限性
Claude 往往倾向于使用支持自身分析的数据,不会主动寻找 能够削弱其假设的视角。由于提案都有扎实的数据作支撑,它们对我而言也显得“合理”。
引入 Kimi K2.5
为了获得不同的视角,我引入了 Kimi K2.5(Mixture‑of‑Experts 架构,1 万亿参数)。我已经在之前的文章中把 Kimi 配置为 CLI 工具。
使用场景: 同行评审(而非实现委托)。
提示结构
Input 1: Full text of 7 existing articles by the author (A‑rank quality)
Input 2: Full text of Claude's analysis results and proposals
Instruction: Review from 4 perspectives — strategist, editor, reader advocate, and marketer
Kimi 的 Agent Swarm 架构会将任务拆解并分配给最多 100 个子代理。我明确要求从四个视角进行批评。最终输出约 350 行(≈ 17 KB),每个视角都给出了具体的批评意见和替代建议。
Kimi 对 Claude 标题提案的判定
| Claude 的提案 | Kimi 的判定 | Kimi 的理由(摘要) |
|---|---|---|
| “最強モデルで司令塔を組んだら9倍遅くなった” (Built an orchestrator with the strongest model; it got 9× slower) | ⚠️ Revise | “被拒绝”的教训丢失。文章的真正价值在于 拒绝某种做法的标准。 |
| “Claude Codeに397問の試験問題を自作し始めた” (Started creating 397 exam questions with Claude Code) | ❌ Reject | 数字占比过大。核心洞见——“AI 并未主动利用自身能力”——被埋没。 |
| **Strategy of “targeting the */ |
Source: …
| 标题 | 状态 | 备注 |
|---|---|---|
| “optimal zone by character count” | ⚠️ 正确 | “信息密度”才是正确的度量,而不是字符数。 |
| “Claude Code で技術記事を20本書いて育てた Zenn 執筆環境の全貌” (通过使用 Claude Code 编写 20 篇技术文章而构建的 Zenn 写作环境全貌) | ⚠️ 重新考虑 | 应该淡化“即使非工程师也能做到”的角度,让成就数字自行说明。 |
关键要点
-
隐形的共识变得可见。
- 当我阅读 Claude 的提案时,背后的数据让它们显得“可信”。
- Kimi 的批评揭示了我对 Claude 偏见的潜意识认同。
-
数字优化陷阱。
- “397 个问题”和“慢 9 倍”是醒目的数字,但把它们放在前面 牺牲了文章的实际教训(AI 的盲点、拒绝决策的标准)。
-
同行评审的价值。
- 这不仅仅是产生“正确答案”;更在于揭示隐藏的假设并确保 核心洞见 得以凸显。
最后思考
让两个不同的 LLM 相互评估,使原本看似坚实、数据驱动的策略转变为更丰富、更细致的方案。Claude 为我提供了一个 结构良好、数据支持的基线,而 Kimi 则迫使我 质疑底层前提 并 精炼信息传递。这一过程凸显了我们多么容易让耀眼的数字或熟悉的模式主导思考,也强调了揭示每个标题背后 真实价值 的重要性。
Source: …
使用 Kimi 作为同行评审伙伴的思考
“Kimi 把这称为 ‘适得其反’。”——这是一条常见的内容营销原则,但当它直接应用到我的文章上(被明确指出哪一个数字在抹去哪一课时),我获得了一种只能通过这次经历才能得到的决断感。
同一工具,不同价值
- 之前的文章: Kimi K2.5 被用作 代码编写工作者。
- 当前的文章: Kimi K2.5 被用作 审稿人,对提案进行批评。
在实现委托方面,Kimi 的 群体智能(并行执行能力) 大放异彩。
在同行评审中,则是 该群体智能的多视角特性 发挥了作用。
即使是同一个模型,交给它 spec.md 与交给它完整的文章文本摘录,也会产生完全不同类型的价值。
此方法的局限性
- Kimi 的批评不一定是 “正确的”。
- 模型本身有其偏见。
- 当两个 AI 达成一致时,也不保证答案正确。
- 最终决定由人类做出,因此人类偏见仍然存在。
同行评审扩展的是 “考虑范围”,而不是 “准确率”。
我的执行内容
- 标题改写 – 在原来的六个提案中,我在融合 Kimi 的修改后最终确定了五个。
- 标题‑设计规则 – 为
zenn-writer技能添加了七条规则(例如,“以数字开头并搭配情感词汇”,“保留学习要素”等)。 - 新文章主题 – 列出了五个想法,例如:
- 一篇全面的 “Top 10 Settings”(前十设置)文章。
- 一篇清单式的 “Before You Trust LLM Output”(在信任 LLM 输出之前)文章。
- 其他用于填补已识别的空白。
- 品牌转型 – 将方向从 “even a non‑engineer can do it” 转变为 “an explorer pushing the limits of Claude Code.”
- 效果追踪 – 这些变化的影响尚未验证。我将在重新命名后监测页面浏览量(PV)和点赞数,并在数据到位后报告。
This was a shift in perspective from “using AI as a tool” to “using AI as a sparring partner.”
工作流程概览
Claude (data analysis & structuring)
→ Author (review & approval)
→ Kimi (multi‑perspective critique)
→ Author (integration & final judgment)
→ Execution
- Claude 负责数据分析和结构化。
- Kimi 负责多视角批评和品牌一致性检查。
这种角色划分是在同行评审过程中形成的。
Meta‑Note on This Article
- 该文章的设计基于热度分析的发现。
- 标题有意结合了 “numeric” 与 “hypothetical/result” 模式。
- 结构刻意遵循 “failure‑to‑lesson” 弧线,并采用 “concrete‑abstract‑concrete” 的流动。
是否该结构真正有效,将由本文的 PV 和点赞数自行验证。
步骤式生产日志
-
Planning (Claude)
- 创建了计划:8个章节、三个标题候选以及来源材料。
-
Specification
- 将计划转换为
spec.md并发送给 Kimi K2.5。 - 规格包含:
- 语气规范(
da/dearu风格 – 断言式日语) - 源文件的引用路径
- 章节结构
- 语气规范(
- 将计划转换为
-
First Draft (Kimi)
- 自动阅读了三个源文件。
- 生成了约 3,800 字的草稿。
- Result: 质量低下 – 文笔单薄、乏味,尽管遵循了规格。
-
Harsh Review (Claude’s editor agent)
- 判决:“REVISE AND RESUBMIT.”
- 标记:
- 3 条 CRITICAL 数值不一致
- 6 条 MEDIUM 问题(论点验证浅薄、缺乏具体实践)
-
Revision (Claude)
- 解决了所有 CRITICAL 与 MEDIUM 问题。
- 添加了作者自省(例如 “我自己也曾被‘397 个问题’卷入其中”)并承认方法论的局限性。
-
Second Review (Kimi)
- 未指定人格 – 允许群体智能自行判断。
- 给出 A rating(推荐出版),并提出三处小幅修正(开头的数值一致性)。
-
Final Integration
- 融入 Kimi 的反馈,完成最终版本。
来自 Kimi 不同使用的洞见
| 用例 | 结果 |
|---|---|
| 同行评审(批评与分析) | 群体智能提供了多视角洞见,生成了350 行详细反馈。 |
| 文章写作(散文生成) | Claude 产生了显著更高质量的散文。 |
即使使用相同的模型,批评和生成也会以根本不同的方式展现能力。