Kimi 砍掉了 Claude 的四个最佳想法 — 实践中的 AI 同行评审

发布: (2026年2月27日 GMT+8 19:06)
13 分钟阅读
原文: Dev.to

Source: Dev.to

Source:

内容策略回顾:Claude vs. Kimi

我让 Claude (Opus 4.6) 制定了一份内容策略:六个标题改写和五个全新文章主题,全部都有数据支撑且逻辑严密。随后我把这些提案交给 Kimi K2.5。六个标题中有四个被标记,另有一个直接被拒绝并附注 “这会适得其反,别写了。”

当一个 AI 对另一个 AI 的提案进行批评时,考虑的范围会扩大。Claude 单独时从未出现的视角浮现出来,我原本潜意识接受的假设也变得可见。


我的作品集概览

  • 文章总数: 21(已发布 18 篇,草稿 3 篇)
  • 已发布标题模式: 11 / 18(≈ 61 %)采用 描述性 格式——“我如何做 X 的故事”或 “做 Y 的记录”。

然而 Zenn 每周的热门文章主要是 “综合指南”“检查清单” 这两种格式。我的作品集中 篇属于这两种模式。这并非刻意为之——我只是无意识地陷入了 “我如何 …” 的写作习惯。


Claude 的趋势分析

Claude 通过 Zenn API 与网络搜索收集趋势数据,然后根据历年 Top‑10 与每周热门文章,将有潜力的标题归类为 九种模式

#模式示例
1挑衅式 / 陈述式“X 的真实价值并非 Y”
2综合式“X 完全指南”、 “Top N 选集”
3检查清单式“做 X 前需要检查的事项”
4数字式“它慢了 9 倍”、 “用 0 行代码”
5假设 / 结果式“我尝试了 X,结果 Y 发生了”
6幕后式“X 的内部故事”、 “全貌揭秘”
7流程追踪式“为期一个月的 X 记录”
8开源发布式“我构建了 X 并开源”
9隐性知识式“资深工程师的潜意识操作”

Claude 将上述分类与我现有的文章进行对照,找出空白,并给出 六个标题改写提案 以及一套 标题设计规则。此时 Claude 的输出内部一致、数据充分,我对这些提案并无不适感。


单模型的局限性

Claude 往往倾向于使用支持自身分析的数据,不会主动寻找 能够削弱其假设的视角。由于提案都有扎实的数据作支撑,它们对我而言也显得“合理”。


引入 Kimi K2.5

为了获得不同的视角,我引入了 Kimi K2.5(Mixture‑of‑Experts 架构,1 万亿参数)。我已经在之前的文章中把 Kimi 配置为 CLI 工具。

使用场景: 同行评审(而非实现委托)。

提示结构

Input 1: Full text of 7 existing articles by the author (A‑rank quality)
Input 2: Full text of Claude's analysis results and proposals
Instruction: Review from 4 perspectives — strategist, editor, reader advocate, and marketer

Kimi 的 Agent Swarm 架构会将任务拆解并分配给最多 100 个子代理。我明确要求从四个视角进行批评。最终输出约 350 行(≈ 17 KB),每个视角都给出了具体的批评意见和替代建议。


Kimi 对 Claude 标题提案的判定

Claude 的提案Kimi 的判定Kimi 的理由(摘要)
“最強モデルで司令塔を組んだら9倍遅くなった” (Built an orchestrator with the strongest model; it got 9× slower)⚠️ Revise“被拒绝”的教训丢失。文章的真正价值在于 拒绝某种做法的标准
“Claude Codeに397問の試験問題を自作し始めた” (Started creating 397 exam questions with Claude Code)Reject数字占比过大。核心洞见——“AI 并未主动利用自身能力”——被埋没。
**Strategy of “targeting the */

Source:

标题状态备注
“optimal zone by character count”⚠️ 正确“信息密度”才是正确的度量,而不是字符数。
“Claude Code で技術記事を20本書いて育てた Zenn 執筆環境の全貌” (通过使用 Claude Code 编写 20 篇技术文章而构建的 Zenn 写作环境全貌)⚠️ 重新考虑应该淡化“即使非工程师也能做到”的角度,让成就数字自行说明。

关键要点

  1. 隐形的共识变得可见。

    • 当我阅读 Claude 的提案时,背后的数据让它们显得“可信”。
    • Kimi 的批评揭示了我对 Claude 偏见的潜意识认同。
  2. 数字优化陷阱。

    • “397 个问题”和“慢 9 倍”是醒目的数字,但把它们放在前面 牺牲了文章的实际教训(AI 的盲点、拒绝决策的标准)。
  3. 同行评审的价值。

    • 这不仅仅是产生“正确答案”;更在于揭示隐藏的假设并确保 核心洞见 得以凸显。

最后思考

让两个不同的 LLM 相互评估,使原本看似坚实、数据驱动的策略转变为更丰富、更细致的方案。Claude 为我提供了一个 结构良好、数据支持的基线,而 Kimi 则迫使我 质疑底层前提精炼信息传递。这一过程凸显了我们多么容易让耀眼的数字或熟悉的模式主导思考,也强调了揭示每个标题背后 真实价值 的重要性。

Source:

使用 Kimi 作为同行评审伙伴的思考

“Kimi 把这称为 ‘适得其反’。”——这是一条常见的内容营销原则,但当它直接应用到我的文章上(被明确指出哪一个数字在抹去哪一课时),我获得了一种只能通过这次经历才能得到的决断感。


同一工具,不同价值

  • 之前的文章: Kimi K2.5 被用作 代码编写工作者
  • 当前的文章: Kimi K2.5 被用作 审稿人,对提案进行批评。

在实现委托方面,Kimi 的 群体智能(并行执行能力) 大放异彩。
在同行评审中,则是 该群体智能的多视角特性 发挥了作用。

即使是同一个模型,交给它 spec.md 与交给它完整的文章文本摘录,也会产生完全不同类型的价值。


此方法的局限性

  • Kimi 的批评不一定是 “正确的”。
  • 模型本身有其偏见。
  • 当两个 AI 达成一致时,也不保证答案正确。
  • 最终决定由人类做出,因此人类偏见仍然存在。

同行评审扩展的是 “考虑范围”,而不是 “准确率”。

我的执行内容

  1. 标题改写 – 在原来的六个提案中,我在融合 Kimi 的修改后最终确定了五个。
  2. 标题‑设计规则 – 为 zenn-writer 技能添加了七条规则(例如,“以数字开头并搭配情感词汇”,“保留学习要素”等)。
  3. 新文章主题 – 列出了五个想法,例如:
    • 一篇全面的 “Top 10 Settings”(前十设置)文章。
    • 一篇清单式的 “Before You Trust LLM Output”(在信任 LLM 输出之前)文章。
    • 其他用于填补已识别的空白。
  4. 品牌转型 – 将方向从 “even a non‑engineer can do it” 转变为 “an explorer pushing the limits of Claude Code.”
  5. 效果追踪 – 这些变化的影响尚未验证。我将在重新命名后监测页面浏览量(PV)和点赞数,并在数据到位后报告。

This was a shift in perspective from “using AI as a tool” to “using AI as a sparring partner.”

工作流程概览

Claude (data analysis & structuring)
   → Author (review & approval)
      → Kimi (multi‑perspective critique)
         → Author (integration & final judgment)
            → Execution
  • Claude 负责数据分析和结构化。
  • Kimi 负责多视角批评和品牌一致性检查。

这种角色划分是在同行评审过程中形成的。

Meta‑Note on This Article

  • 该文章的设计基于热度分析的发现。
  • 标题有意结合了 “numeric”“hypothetical/result” 模式。
  • 结构刻意遵循 “failure‑to‑lesson” 弧线,并采用 “concrete‑abstract‑concrete” 的流动。

是否该结构真正有效,将由本文的 PV 和点赞数自行验证。


步骤式生产日志

  1. Planning (Claude)

    • 创建了计划:8个章节、三个标题候选以及来源材料。
  2. Specification

    • 将计划转换为 spec.md 并发送给 Kimi K2.5
    • 规格包含:
      • 语气规范(da/dearu 风格 – 断言式日语)
      • 源文件的引用路径
      • 章节结构
  3. First Draft (Kimi)

    • 自动阅读了三个源文件。
    • 生成了约 3,800 字的草稿。
    • Result: 质量低下 – 文笔单薄、乏味,尽管遵循了规格。
  4. Harsh Review (Claude’s editor agent)

    • 判决:“REVISE AND RESUBMIT.”
    • 标记:
      • 3 条 CRITICAL 数值不一致
      • 6 条 MEDIUM 问题(论点验证浅薄、缺乏具体实践)
  5. Revision (Claude)

    • 解决了所有 CRITICAL 与 MEDIUM 问题。
    • 添加了作者自省(例如 “我自己也曾被‘397 个问题’卷入其中”)并承认方法论的局限性。
  6. Second Review (Kimi)

    • 未指定人格 – 允许群体智能自行判断。
    • 给出 A rating(推荐出版),并提出三处小幅修正(开头的数值一致性)。
  7. Final Integration

    • 融入 Kimi 的反馈,完成最终版本。

来自 Kimi 不同使用的洞见

用例结果
同行评审(批评与分析)群体智能提供了多视角洞见,生成了350 行详细反馈
文章写作(散文生成)Claude 产生了显著更高质量的散文。

即使使用相同的模型,批评生成也会以根本不同的方式展现能力。

0 浏览
Back to Blog

相关文章

阅读更多 »