엔지니어링 활용: 모델은 상품이고 인프라는 당신의 Moat
Source: Dev.to
모두가 다음 모델 업그레이드—GPT‑5, Claude 4, Gemini Ultra—를 쫓으며, 더 최신 모델이 AI 에이전트를 제대로 작동하게 만들 것이라고 생각합니다. 몇 달 동안 프로덕션 환경에서 AI 에이전트를 운영해 본 결과, 모델 자체보다 그 주변에 구축하는 인프라가 훨씬 더 중요하다는 것을 깨달았습니다.
Harness Engineering이란?
Harness Engineering은 AI 모델을 감싸고, 제한하며, 증폭하는 인프라를 구축하는 분야입니다.
| 전통적인 사고 | Harness Engineering |
|---|---|
| 더 나은 모델 → 더 나은 결과 | 동일 모델 + 더 나은 Harness → 획기적으로 더 나은 결과 |
Formula 1처럼 생각해 보세요: 엔진은 필수이지만, 섀시, 공기역학, 타이어, 텔레메트리, 그리고 피트 전략이 챔피언십을 승리로 이끕니다. 엔진(모델)은 단지 기본 조건에 불과합니다.
하네스의 다섯 유형
1. 프롬프트 하네스
동적으로 최적의 프롬프트를 구성하는 어셈블리로, 다음을 기반으로 합니다:
- 현재 작업 컨텍스트
- 관련된 과거 지식 (자동 주입)
- 활성화된 제약 조건 및 권한
- 에이전트 정체성 및 행동 규칙
에이전트가 시작될 때마다 실시간 프롬프트를 받아 현재 상황에 맞게 맞춤화됩니다—정적인 명령 집합이 아닙니다.
2. 출력 하네스
에이전트의 출력을 캡처하고, 검증하며, 라우팅합니다. 오픈소스 제어 플레인 Evolve에서는 에이전트가 Self‑Report API를 호출해야 하며, 그렇지 않으면 작업이 존재하지 않은 것으로 간주됩니다.
# Self‑report heartbeat (mandatory)
curl -X POST /api/agent/heartbeat \
-d '{"activity":"coding","progress_pct":40}'
# Report discovered issue
curl -X POST /api/agent/discovery \
-d '{"title":"Found rate limit","priority":"high"}'
# Log learned lessons
curl -X POST /api/agent/review \
-d '{"learned":["Never use pkill -f"]}'이를 통해 실시간 가시성을 제공하고 지식 루프에 피드백을 전달합니다.
3. 제약 하네스
대시보드에서 에이전트를 재시작하지 않고 토글할 수 있는 런타임 경계를 적용합니다:
- 에이전트가 웹을 탐색할 수 있나요? ✅/❌
- GitHub에 푸시할 수 있나요? ✅/❌
- 돈을 사용할 수 있나요? ❌ (항상 차단)
- 패키지를 설치할 수 있나요? ✅/❌
제약 조건은 프롬프트에 주입되므로 에이전트는 자신의 한계를 인지하고 준수합니다.
4. 런타임 하네스
에이전트를 지속적으로 운영하고 복원력을 유지합니다:
- 감시자: 10초 간격 건강 체크; 정지된 프로세스는 자동 복구.
- 하트비트 모니터: 5분 무음 → 알림; 15분 → 인간 개입.
- 충돌 복구: 지식 주입과 함께
--resume옵션을 사용하면 에이전트가 이전 지점에서 더 똑똑하게 이어서 작업할 수 있습니다.
5. 리뷰 하네스
두 번째, 비용이 저렴한 AI가 첫 번째 AI의 작업을 검토합니다:
- 전체 대화 로그(JSONL)를 읽음.
- 핵심 결정 및 도구 호출을 추출.
- 효율성, 정확성, 명령 준수 여부를 분석.
- 개선 방안을 생성.
비용은 무시할 수준이지만, 얻는 인사이트는 매우 귀중합니다.
폐쇄 루프 아키텍처
Agent runs → Output Harness captures lessons
↓
Secondary LLM scores & refines (Review Harness)
↓
Layered Knowledge Base stores them:
• Permanent (critical lessons)
• Recent (30‑day TTL)
• Task‑specific (current context)
↓
Prompt Harness injects relevant knowledge on next startup
↓
Agent becomes measurably smarter이 폐쇄 루프는 일회성 스크립트를 자체 진화 시스템으로 전환합니다.
Model Commodity, Harness Moat
Models are converging—GPT‑4, Claude, Gemini are roughly comparable for most tasks. The real differentiator is how well you harness the model, not which model you pick.
모델들이 수렴하고 있습니다—GPT‑4, Claude, Gemini는 대부분의 작업에서 대략 비슷합니다. 진정한 차별점은 모델을 얼마나 잘 활용하느냐이며, 어떤 모델을 선택하느냐가 아닙니다.
더 나은 하네스에 투자하기
| 목표 | 하네스 유형 |
|---|---|
| 더 나은 프롬프트 엔지니어링 | 프롬프트 하네스 |
| 더 나은 가시성 | 출력 + 관찰 하네스 |
| 더 나은 안전 | 제약 하네스 |
| 더 나은 신뢰성 | 런타임 하네스 |
자원을 계속해서 더 큰 모델에 쏟아붓는 기업들은 잘못된 게임을 하고 있습니다. 대신 견고한 하네스 구축에 집중하세요.
Source: …
Evolve: 오픈‑소스 하네스 플랫폼
Evolve (MIT‑licensed) implements all five harnesses for Claude Code agents.
git clone https://github.com/xmqywx/Evolve.git
cd Evolve && python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
# Front‑end
cd web && npm install && npm run build && cd ..
# Run the server
python run.pyEvolve를 채택하지 않더라도, AI 인프라를 하네스로 다루기 시작하세요. 스스로에게 물어보세요:
- 모델을 둘러싸고 있는 것은 무엇인가요?
- 어떤 제약을 적용하고 있나요?
- 에이전트가 어제의 경험으로부터 어떻게 학습하고 있나요?
모델은 상품일 뿐입니다. 하네스가 여러분의 방어선입니다.
여러분의 AI 에이전트 인프라는 어떤 모습인가요? 여러분의 접근 방식을 듣고 싶습니다.