비밀은 모델이 아니다. 하네스다.

발행: 2일 전 (2026년 3월 8일 AM 03:04 GMT+9)

6 분 소요

원문: Dev.to

Source: Dev.to

Introduction

AI 에이전트가 코드를 작성하도록 하는 것은 이제 새로운 일이 아니다. 진짜 도전은 모델이 얼마나 똑똑한가가 아니라, 에이전트가 견고하고 장기적으로 실행될 수 있는 환경을 갖추지 못했다는 점이다.

Harness Engineering은 이러한 환경을 구축하는 데 초점을 맞춘 분야이다.

OpenAI는 7명으로 구성된 팀이 5개월 동안 1,500개의 풀 리퀘스트에 걸쳐 1 백만 줄의 코드를 생성했으며, 손으로 한 줄도 작성하지 않았다고 자체 보고했다.

X(트위터)에서 “2026년의 10배 스킬은 Evaluation Engineering이다”라는 게시물이 바이럴되면서, “코드 작성”에서 “에이전트가 좋은 코드를 작성하도록 환경을 구축하는” 방향으로의 전환이 강조되었다.

Agent Harness는 실행을 담당한다:

Evaluation Harness는 AI 출력에 대한 정량적 점수를 제공한다:

진행 상황은 claude-progress.txt와 Git 히스토리를 통해 지속된다.

리포지토리에는 전체 코드베이스에 대한 규칙을 정의한 AGENTS.md(≈ 100줄)가 포함되어 있다. 맞춤형 린터와 CI가 이 규칙들을 자동으로 강제하여, 프롬프트에 제약을 삽입할 필요가 없게 만든다.

OpenAI의 환경은 단일 리포지토리에 맞게 고도로 맞춤화되어 있다. 주요 특징은 다음과 같다:

하나의 프로젝트에 특화되어 있기 때문에, 다른 코드베이스에 그대로 적용하려면 상당한 재구성이 필요하다.

두 회사 모두 동일한 핵심 원칙에 도달한다:

모델은 계속해서 더 똑똑해지겠지만, 가장 진보된 모델이라 할지라도 잘 설계된 환경 없이는 장기적인 개발을 지속할 수 없다. 결정적인 요소는 모델 선택이 아니라, 그 모델을 지원하는 하네스를 어떻게 구축하느냐이다.

나는 AI 에이전트 설계, 스킬, 컨텍스트 엔지니어링을 실제 팀과 워크플로에 AI를 통합하는 관점에서 다룬다. 분석은 1차 자료에 기반한다.

Follow for more: