키미가 클로드의 최고의 아이디어 4개를 죽였다 — 실전 AI Peer Review
Source: Dev.to
Source: https://example.com/article
Content Strategy Review: Claude vs. Kimi
저는 **Claude (Opus 4.6)**에게 콘텐츠 전략을 만들도록 했습니다: 6개의 제목 재작성과 5개의 새로운 기사 주제, 모두 데이터 기반이며 논리적으로 완벽했습니다. 그 뒤에 제안들을 Kimi K2.5에게 전달했습니다. 6개 중 4개의 제목이 플래그 처리되었고, 하나는 “이건 역효과가 날 거야, 하지 마.” 라는 코멘트와 함께 완전히 거부되었습니다.
한 AI가 다른 AI의 제안을 비평할 때, 고려 범위가 넓어집니다. Claude 혼자서는 절대 떠올리지 못했을 관점들이 드러났고, 제가 무의식적으로 동의하고 있던 가정들이 눈에 보이게 되었습니다.
My Portfolio Snapshot
- 총 기사 수: 21 (발행 18개, 초안 3개)
- 발행된 제목 패턴: 11 / 18 (≈ 61 %)이 설명형 포맷 – “The story of how I did X” 혹은 “A record of doing Y”.
Zenn의 주간 트렌딩 기사들은 “comprehensive guide” 와 “checklist” 형식이 지배적입니다. 제 포트폴리오에는 두 패턴 중 어느 것도 하나도 없었습니다. 이는 의도적인 선택이 아니라, 제가 단순히 “어떻게 … 했는지” 이야기에 빠져 있었기 때문이었습니다.
Claude’s Trend Analysis
Claude는 Zenn API와 웹 검색을 통해 트렌드 데이터를 수집하고, 전체‑시간 상위‑10 및 주간 트렌딩 기사를 기반으로 아홉 가지 패턴으로 화제성 제목을 분류했습니다.
| # | Pattern | Example |
|---|---|---|
| 1 | Provocative / Declarative | “The real value of X isn’t Y” |
| 2 | Comprehensive | “Complete guide to X”, “Top N picks” |
| 3 | Checklist | “Things to check before doing X” |
| 4 | Numeric | “It got 9× slower”, “In 0 lines” |
| 5 | Hypothetical / Result | “I tried X and Y happened” |
| 6 | Behind‑the‑scenes | “The inside story of X”, “The full picture” |
| 7 | Flow‑tracking | “A month‑long record of doing X” |
| 8 | OSS Release | “I built X and open‑sourced it” |
| 9 | Tacit Knowledge | “What senior engineers do unconsciously” |
Claude는 이 분류 체계를 제 기존 기사와 대조해 격차를 파악하고, 여섯 개의 제목‑재작성 제안과 제목‑디자인 규칙을 도출했습니다. 이 시점에서 Claude의 출력은 내부적으로 일관되고 데이터로 충분히 뒷받침되었으며, 저는 제안에 대해 불편함을 느끼지 않았습니다.
The Limitation of a Solo Model
Claude는 자신의 분석을 뒷받침하는 데이터에 편향되는 경향이 있으며, 자신의 가설을 약화시킬 수 있는 관점을 자동으로 탐색하지 않습니다. 제안들이 견고한 데이터에 기반했기 때문에 저 역시 그것들을 “그럴듯하다”고 받아들였습니다.
Introducing Kimi K2.5
다른 시각을 얻기 위해 Kimi K2.5(Mixture‑of‑Experts 아키텍처, 1 조 파라미터)를 도입했습니다. 저는 이미 Kimi를 CLI 도구로 설정해 두었으며(설정 방법은 이전 기사에 기술됨).
사용 사례: 동료 리뷰 (구현 위임이 아님).
Prompt Structure
Input 1: Full text of 7 existing articles by the author (A‑rank quality)
Input 2: Full text of Claude's analysis results and proposals
Instruction: Review from 4 perspectives — strategist, editor, reader advocate, and marketer
Kimi의 Agent Swarm 아키텍처는 작업을 분해해 최대 100개의 서브‑에이전트에 배분합니다. 저는 네 가지 관점에서 비평을 명시적으로 요구했습니다. 결과물은 약 350줄(≈ 17 KB) 규모였으며, 각 관점마다 구체적인 비판과 대안 제안을 반환했습니다.
Kimi’s Verdict on Claude’s Title Proposals
| Claude’s Proposal | Kimi’s Verdict | Kimi’s Reasoning (Summary) |
|---|---|---|
| “最強モデルで司令塔を組んだら9倍遅くなった” (Built an orchestrator with the strongest model; it got 9× slower) | ⚠️ Revise | 거절의 교훈이 사라집니다. 실제 가치가 접근 방식을 거절한 기준에 있기 때문입니다. |
| “Claude Codeに397問の試験問題を自作し始めた” (Started creating 397 exam questions with Claude Code) | ❌ Reject | 숫자가 너무 강조됩니다. 핵심 통찰인 “AI가 자체 역량을 활용하도록 제안하지 않는다” 가 가려집니다. |
| **Strategy of “targeting the | (내용이 누락되었습니다) | (내용이 누락되었습니다) |
위 표의 마지막 행은 원본 텍스트가 중간에 끊겨 있어 완전한 번역이 불가능합니다.
| “문자 수에 따른 최적 구역”** | ⚠️ Correct | “정보 밀도”가 올바른 지표이며, 문자 수가 아닙니다. | | “Claude Code 로 기술 기사 20편을 작성해 만든 Zenn 집필 환경 전모” (The full picture of a Zenn writing environment built by writing 20 tech articles with Claude Code) | ⚠️ Reconsider | “비엔지니어도 할 수 있다”는 각도를 낮추고, 성과 수치를 통해 직접 보여주는 것이 좋습니다. |
핵심 요약
-
보이지 않던 합의가 드러났다.
- Claude의 제안을 읽을 때, 뒤받침되는 데이터 때문에 그것이 “그럴듯하게” 느껴졌다.
- Kimi의 비판은 내가 무의식적으로 Claude의 편향에 맞춰졌던 점을 드러냈다.
-
숫자 최적화 함정.
- “397개의 질문”과 “9배 느림”은 눈에 띄는 수치이지만, 이를 앞세우면 기사의 실제 교훈(AI의 blind spot, 거절 결정 기준) 을 희생하게 된다.
-
동료 검토의 가치.
- 단순히 “정답”을 만드는 것이 아니라, 숨겨진 가정을 드러내고 핵심 인사이트가 빛나도록 하는 것이 중요하다.
최종 생각
두 개의 서로 다른 LLM이 서로를 평가하도록 만든 덕분에, 겉보기에 탄탄하고 데이터 기반인 전략이 보다 풍부하고 미묘한 방향으로 발전했다. Claude는 구조화되고 데이터에 기반한 기본 틀을 제공했으며, Kimi는 근본 전제를 질문하고 메시지를 다듬도록 강요했다. 이 과정은 인상적인 숫자나 익숙한 패턴이 우리의 사고를 장악하기 쉬운 점을 보여주었고, 각 제목 뒤에 숨은 진정한 가치를 드러내는 것이 얼마나 중요한지를 일깨워 주었다.
Kimi를 동료 검토 파트너로 사용한 소감
“Kimi는 이것을 *‘비생산적’*이라고 불렀다.” – 흔한 콘텐츠‑마케팅 원칙이지만, 내 기사에 직접 적용돼 (어떤 번호가 어떤 교훈을 지우는지 정확히 알려줬을 때) 나는 이 경험을 통해서만 얻을 수 있는 해답을 얻었다.
같은 도구, 다른 가치
- 이전 기사: Kimi K2.5를 코드‑작성 작업자로 사용했다.
- 현재 기사: Kimi K2.5를 제안서 비평가로 사용한다.
구현 위임에서는 Kimi의 **군집 지능(병렬 실행 능력)**이 빛난다.
동료 검토에서는 그 군집 지능의 다중 관점 특성이 빛난다.
같은 모델이라도 spec.md를 주는 것과 전체 기사‑텍스트 발췌를 주는 것은 완전히 다른 종류의 가치를 만든다.
이 접근법의 한계
- Kimi의 비평이 반드시 *“정확”*한 것은 아니다.
- 모델 자체에 편향이 있다.
- 두 AI가 동의한다고 해서 답이 옳다고 보장되지 않는다.
- 최종 판단은 인간이 내리므로 인간 편향이 남는다.
동료 검토가 확장하는 것은 **“고려 범위”**이며, **“정확도”**가 아니라는 점이다.
What I Executed
- Title rewrites – 원래 여섯 개 제안 중 다섯 개를 Kimi의 수정 사항을 반영해 최종 확정했습니다.
- Title‑design rules –
zenn-writer스킬에 일곱 가지 규칙을 추가했습니다(예: “숫자를 앞에 두고 감성 단어와 짝지어라”, “학습 요소를 유지하라” 등). - New article themes – 다섯 가지 아이디어를 나열했습니다, 예를 들어:
- 포괄적인 “Top 10 Settings” 기사.
- 체크리스트 형식의 “Before You Trust LLM Output” 기사.
- 기타 식별된 공백을 메우는 내용.
- Branding transition – 방향을 *“비엔지니어도 할 수 있다”*에서 *“Claude Code의 한계를 탐구하는 탐험가”*로 전환했습니다.
- Effectiveness tracking – 이러한 변경의 효과는 아직 검증되지 않았습니다. 제목을 바꾼 후 페이지 뷰(PV)와 좋아요 수를 모니터링하고 데이터가 확보되는 대로 보고하겠습니다.
이는 **“AI를 도구로 사용”**에서 **“AI를 스파링 파트너로 사용”**으로 관점을 전환한 것입니다.
워크플로 개요
Claude (data analysis & structuring)
→ Author (review & approval)
→ Kimi (multi‑perspective critique)
→ Author (integration & final judgment)
→ Execution
- Claude는 데이터 분석 및 구조화를 담당했습니다.
- Kimi는 다각도 비평 및 브랜드 일관성 검사를 담당했습니다.
이러한 역할 분담은 동료 검토 과정 자체에서 나타났습니다.
이 기사에 대한 메타‑노트
- 이 기사는 버즈 분석 결과를 활용하여 설계되었습니다.
- 제목은 의도적으로 **“numeric”**와 “hypothetical/result” 패턴을 결합했습니다.
- 구조는 의도적으로 “failure‑to‑lesson” 아크와 “concrete‑abstract‑concrete” 흐름을 따릅니다.
이 구조가 실제로 효과가 있는지는 이 기사 자체의 PV와 좋아요 수로 검증될 것입니다.
단계별 제작 로그
-
Planning (Claude)
- 계획 수립: 8개 섹션, 세 가지 제목 후보, 그리고 소스 자료.
-
Specification
- 계획을
spec.md로 변환하고 Kimi K2.5 에 전달. - 사양에 포함된 내용:
- 톤 지정 (
da/dearu스타일 – 단정적인 일본어) - 소스 파일에 대한 참조 경로
- 섹션 구조
- 톤 지정 (
- 계획을
-
First Draft (Kimi)
- 세 개의 소스 파일을 자율적으로 읽음.
- 약 3,800자 분량의 초안 생성.
- 결과: 사양을 따랐음에도 불구하고 내용이 얇고 평범함 – 품질 저조.
-
Harsh Review (Claude’s editor agent)
- 판정: “REVISE AND RESUBMIT.”
- 지적 사항:
- 3가지 CRITICAL 수치 불일치
- 6가지 MEDIUM 문제 (논문의 검증이 얕음, 체험적 교훈 부족)
-
Revision (Claude)
- 모든 CRITICAL 및 MEDIUM 문제 해결.
- 저자 성찰 추가 (예: “‘397 questions’에 나도 휘말렸었다”) 및 방법론 한계 인정.
-
Second Review (Kimi)
- 페르소나 지정 없음 – 스웜 인텔리전스가 자율 판단을 수행하도록 함.
- A 등급 부여 (출판 권장) 및 세 가지 사소한 수정 제시 (시작 부분의 수치 일관성).
-
Final Integration
- Kimi의 피드백을 반영해 최종 버전 완성.
Kimi의 다양한 활용에 대한 인사이트
| 사용 사례 | 결과 |
|---|---|
| 동료 검토 (비판 및 분석) | 스웜 인텔리전스가 다각적인 인사이트를 제공하고, 350줄의 상세 피드백을 생성했습니다. |
| 기사 작성 (문장 생성) | Claude는 극적으로 높은 품질의 문장을 제작했습니다. |
같은 모델이라도 비판과 생성은 근본적으로 다른 방식으로 능력을 끌어냅니다.