키미가 클로드의 최고의 아이디어 4개를 죽였다 — 실전 AI Peer Review

발행: (2026년 2월 27일 오후 08:06 GMT+9)
15 분 소요
원문: Dev.to

Source: Dev.to

Source: https://example.com/article

Content Strategy Review: Claude vs. Kimi

저는 **Claude (Opus 4.6)**에게 콘텐츠 전략을 만들도록 했습니다: 6개의 제목 재작성과 5개의 새로운 기사 주제, 모두 데이터 기반이며 논리적으로 완벽했습니다. 그 뒤에 제안들을 Kimi K2.5에게 전달했습니다. 6개 중 4개의 제목이 플래그 처리되었고, 하나는 “이건 역효과가 날 거야, 하지 마.” 라는 코멘트와 함께 완전히 거부되었습니다.

한 AI가 다른 AI의 제안을 비평할 때, 고려 범위가 넓어집니다. Claude 혼자서는 절대 떠올리지 못했을 관점들이 드러났고, 제가 무의식적으로 동의하고 있던 가정들이 눈에 보이게 되었습니다.


My Portfolio Snapshot

  • 총 기사 수: 21 (발행 18개, 초안 3개)
  • 발행된 제목 패턴: 11 / 18 (≈ 61 %)이 설명형 포맷 – “The story of how I did X” 혹은 “A record of doing Y”.

Zenn의 주간 트렌딩 기사들은 “comprehensive guide”“checklist” 형식이 지배적입니다. 제 포트폴리오에는 두 패턴 중 어느 것도 하나도 없었습니다. 이는 의도적인 선택이 아니라, 제가 단순히 “어떻게 … 했는지” 이야기에 빠져 있었기 때문이었습니다.


Claude’s Trend Analysis

Claude는 Zenn API와 웹 검색을 통해 트렌드 데이터를 수집하고, 전체‑시간 상위‑10 및 주간 트렌딩 기사를 기반으로 아홉 가지 패턴으로 화제성 제목을 분류했습니다.

#PatternExample
1Provocative / Declarative“The real value of X isn’t Y”
2Comprehensive“Complete guide to X”, “Top N picks”
3Checklist“Things to check before doing X”
4Numeric“It got 9× slower”, “In 0 lines”
5Hypothetical / Result“I tried X and Y happened”
6Behind‑the‑scenes“The inside story of X”, “The full picture”
7Flow‑tracking“A month‑long record of doing X”
8OSS Release“I built X and open‑sourced it”
9Tacit Knowledge“What senior engineers do unconsciously”

Claude는 이 분류 체계를 제 기존 기사와 대조해 격차를 파악하고, 여섯 개의 제목‑재작성 제안제목‑디자인 규칙을 도출했습니다. 이 시점에서 Claude의 출력은 내부적으로 일관되고 데이터로 충분히 뒷받침되었으며, 저는 제안에 대해 불편함을 느끼지 않았습니다.


The Limitation of a Solo Model

Claude는 자신의 분석을 뒷받침하는 데이터에 편향되는 경향이 있으며, 자신의 가설을 약화시킬 수 있는 관점을 자동으로 탐색하지 않습니다. 제안들이 견고한 데이터에 기반했기 때문에 저 역시 그것들을 “그럴듯하다”고 받아들였습니다.


Introducing Kimi K2.5

다른 시각을 얻기 위해 Kimi K2.5(Mixture‑of‑Experts 아키텍처, 1 조 파라미터)를 도입했습니다. 저는 이미 Kimi를 CLI 도구로 설정해 두었으며(설정 방법은 이전 기사에 기술됨).

사용 사례: 동료 리뷰 (구현 위임이 아님).

Prompt Structure

Input 1: Full text of 7 existing articles by the author (A‑rank quality)
Input 2: Full text of Claude's analysis results and proposals
Instruction: Review from 4 perspectives — strategist, editor, reader advocate, and marketer

Kimi의 Agent Swarm 아키텍처는 작업을 분해해 최대 100개의 서브‑에이전트에 배분합니다. 저는 네 가지 관점에서 비평을 명시적으로 요구했습니다. 결과물은 약 350줄(≈ 17 KB) 규모였으며, 각 관점마다 구체적인 비판과 대안 제안을 반환했습니다.


Kimi’s Verdict on Claude’s Title Proposals

Claude’s ProposalKimi’s VerdictKimi’s Reasoning (Summary)
“最強モデルで司令塔を組んだら9倍遅くなった” (Built an orchestrator with the strongest model; it got 9× slower)⚠️ Revise거절의 교훈이 사라집니다. 실제 가치가 접근 방식을 거절한 기준에 있기 때문입니다.
“Claude Codeに397問の試験問題を自作し始めた” (Started creating 397 exam questions with Claude Code)Reject숫자가 너무 강조됩니다. 핵심 통찰인 “AI가 자체 역량을 활용하도록 제안하지 않는다” 가 가려집니다.
**Strategy of “targeting the(내용이 누락되었습니다)(내용이 누락되었습니다)

위 표의 마지막 행은 원본 텍스트가 중간에 끊겨 있어 완전한 번역이 불가능합니다.

| “문자 수에 따른 최적 구역”** | ⚠️ Correct | “정보 밀도”가 올바른 지표이며, 문자 수가 아닙니다. | | “Claude Code 로 기술 기사 20편을 작성해 만든 Zenn 집필 환경 전모” (The full picture of a Zenn writing environment built by writing 20 tech articles with Claude Code) | ⚠️ Reconsider | “비엔지니어도 할 수 있다”는 각도를 낮추고, 성과 수치를 통해 직접 보여주는 것이 좋습니다. |


핵심 요약

  1. 보이지 않던 합의가 드러났다.

    • Claude의 제안을 읽을 때, 뒤받침되는 데이터 때문에 그것이 “그럴듯하게” 느껴졌다.
    • Kimi의 비판은 내가 무의식적으로 Claude의 편향에 맞춰졌던 점을 드러냈다.
  2. 숫자 최적화 함정.

    • “397개의 질문”과 “9배 느림”은 눈에 띄는 수치이지만, 이를 앞세우면 기사의 실제 교훈(AI의 blind spot, 거절 결정 기준) 을 희생하게 된다.
  3. 동료 검토의 가치.

    • 단순히 “정답”을 만드는 것이 아니라, 숨겨진 가정을 드러내고 핵심 인사이트가 빛나도록 하는 것이 중요하다.

최종 생각

두 개의 서로 다른 LLM이 서로를 평가하도록 만든 덕분에, 겉보기에 탄탄하고 데이터 기반인 전략이 보다 풍부하고 미묘한 방향으로 발전했다. Claude는 구조화되고 데이터에 기반한 기본 틀을 제공했으며, Kimi는 근본 전제를 질문하고 메시지를 다듬도록 강요했다. 이 과정은 인상적인 숫자나 익숙한 패턴이 우리의 사고를 장악하기 쉬운 점을 보여주었고, 각 제목 뒤에 숨은 진정한 가치를 드러내는 것이 얼마나 중요한지를 일깨워 주었다.

Kimi를 동료 검토 파트너로 사용한 소감

“Kimi는 이것을 *‘비생산적’*이라고 불렀다.” – 흔한 콘텐츠‑마케팅 원칙이지만, 내 기사에 직접 적용돼 (어떤 번호가 어떤 교훈을 지우는지 정확히 알려줬을 때) 나는 이 경험을 통해서만 얻을 수 있는 해답을 얻었다.


같은 도구, 다른 가치

  • 이전 기사: Kimi K2.5를 코드‑작성 작업자로 사용했다.
  • 현재 기사: Kimi K2.5를 제안서 비평가로 사용한다.

구현 위임에서는 Kimi의 **군집 지능(병렬 실행 능력)**이 빛난다.
동료 검토에서는 그 군집 지능의 다중 관점 특성이 빛난다.

같은 모델이라도 spec.md를 주는 것과 전체 기사‑텍스트 발췌를 주는 것은 완전히 다른 종류의 가치를 만든다.


이 접근법의 한계

  • Kimi의 비평이 반드시 *“정확”*한 것은 아니다.
  • 모델 자체에 편향이 있다.
  • 두 AI가 동의한다고 해서 답이 옳다고 보장되지 않는다.
  • 최종 판단은 인간이 내리므로 인간 편향이 남는다.

동료 검토가 확장하는 것은 **“고려 범위”**이며, **“정확도”**가 아니라는 점이다.

What I Executed

  1. Title rewrites – 원래 여섯 개 제안 중 다섯 개를 Kimi의 수정 사항을 반영해 최종 확정했습니다.
  2. Title‑design ruleszenn-writer 스킬에 일곱 가지 규칙을 추가했습니다(예: “숫자를 앞에 두고 감성 단어와 짝지어라”, “학습 요소를 유지하라” 등).
  3. New article themes – 다섯 가지 아이디어를 나열했습니다, 예를 들어:
    • 포괄적인 “Top 10 Settings” 기사.
    • 체크리스트 형식의 “Before You Trust LLM Output” 기사.
    • 기타 식별된 공백을 메우는 내용.
  4. Branding transition – 방향을 *“비엔지니어도 할 수 있다”*에서 *“Claude Code의 한계를 탐구하는 탐험가”*로 전환했습니다.
  5. Effectiveness tracking – 이러한 변경의 효과는 아직 검증되지 않았습니다. 제목을 바꾼 후 페이지 뷰(PV)와 좋아요 수를 모니터링하고 데이터가 확보되는 대로 보고하겠습니다.

이는 **“AI를 도구로 사용”**에서 **“AI를 스파링 파트너로 사용”**으로 관점을 전환한 것입니다.

워크플로 개요

Claude (data analysis & structuring)
   → Author (review & approval)
      → Kimi (multi‑perspective critique)
         → Author (integration & final judgment)
            → Execution
  • Claude는 데이터 분석 및 구조화를 담당했습니다.
  • Kimi는 다각도 비평 및 브랜드 일관성 검사를 담당했습니다.

이러한 역할 분담은 동료 검토 과정 자체에서 나타났습니다.

이 기사에 대한 메타‑노트

  • 이 기사는 버즈 분석 결과를 활용하여 설계되었습니다.
  • 제목은 의도적으로 **“numeric”**와 “hypothetical/result” 패턴을 결합했습니다.
  • 구조는 의도적으로 “failure‑to‑lesson” 아크와 “concrete‑abstract‑concrete” 흐름을 따릅니다.

이 구조가 실제로 효과가 있는지는 이 기사 자체의 PV와 좋아요 수로 검증될 것입니다.


단계별 제작 로그

  1. Planning (Claude)

    • 계획 수립: 8개 섹션, 세 가지 제목 후보, 그리고 소스 자료.
  2. Specification

    • 계획을 spec.md 로 변환하고 Kimi K2.5 에 전달.
    • 사양에 포함된 내용:
      • 톤 지정 (da/dearu 스타일 – 단정적인 일본어)
      • 소스 파일에 대한 참조 경로
      • 섹션 구조
  3. First Draft (Kimi)

    • 세 개의 소스 파일을 자율적으로 읽음.
    • 약 3,800자 분량의 초안 생성.
    • 결과: 사양을 따랐음에도 불구하고 내용이 얇고 평범함 – 품질 저조.
  4. Harsh Review (Claude’s editor agent)

    • 판정: “REVISE AND RESUBMIT.”
    • 지적 사항:
      • 3가지 CRITICAL 수치 불일치
      • 6가지 MEDIUM 문제 (논문의 검증이 얕음, 체험적 교훈 부족)
  5. Revision (Claude)

    • 모든 CRITICAL 및 MEDIUM 문제 해결.
    • 저자 성찰 추가 (예: “‘397 questions’에 나도 휘말렸었다”) 및 방법론 한계 인정.
  6. Second Review (Kimi)

    • 페르소나 지정 없음 – 스웜 인텔리전스가 자율 판단을 수행하도록 함.
    • A 등급 부여 (출판 권장) 및 세 가지 사소한 수정 제시 (시작 부분의 수치 일관성).
  7. Final Integration

    • Kimi의 피드백을 반영해 최종 버전 완성.

Kimi의 다양한 활용에 대한 인사이트

사용 사례결과
동료 검토 (비판 및 분석)스웜 인텔리전스가 다각적인 인사이트를 제공하고, 350줄의 상세 피드백을 생성했습니다.
기사 작성 (문장 생성)Claude는 극적으로 높은 품질의 문장을 제작했습니다.

같은 모델이라도 비판생성은 근본적으로 다른 방식으로 능력을 끌어냅니다.

0 조회
Back to Blog

관련 글

더 보기 »