연구진, 오픈소스 AI 검색 에이전트 Harness-1 훈련… 관련 정보 회상에서 GPT‑5.4 능가
Source: VentureBeat
일리노이 대학교 어배너-샴페인(UIUC), UC 버클리, 그리고 오픈소스 AI‑네이티브 벡터 데이터베이스 플랫폼 Chroma가 공동 연구를 진행해 Harness‑1을 공개했습니다. Harness‑1은 OpenAI의 오픈소스 모델 gpt‑oss‑20B 위에 구축된 200억 파라미터 규모의 오픈소스 검색 에이전트로, 복잡한 검색 작업을 수행하는 방식을 근본적으로 재설계했습니다.
Harness‑1은 성능 면에서 큰 도약을 이루어, 선별된 데이터셋에서 관련 정보를 올바르게 회상하는 능력에서 평균 **73 %**를 기록했습니다. 이는 GPT‑5.4(70.9 %)와 가장 정확한 오픈소스 검색 에이전트인 Tongyi DeepResearch 30B보다 11.4 포인트 높은 수치입니다. (GPT‑5.5도 한 달 이상 출시됐지만, 연구진이 모델을 구축하던 시점에 사용할 수 없었기에 테스트에 포함되지 않았습니다.)
개발자에게 중요한 점은, 모델과 실행 환경이 Apache 2.0 라이선스로 즉시 제공되며, 모델 코드와 가중치는 Hugging Face에 공개되어 있다는 것입니다.
또한 Harness‑1은 Thinking Machines가 만든 분산 웹 기반 AI 모델 학습·미세조정 API Tinker의 효능을 입증하는 사례이기도 합니다. Harness‑1의 학습 및 추론에 Tinker가 사용됐으며, 이는 인터랙티브 인프라가 차세대 자율 모델을 어떻게 지원하고 있는지를 보여줍니다.
연구진은 어떻게 이룩했을까?
Benchmarks Decoded (and Why Harness‑1 Could Help Enterprises Tremendously)
연구진은 실제 모델을 검증하기 위해 8개의 고난이도 검색 벤치마크에서 Harness‑1과 경쟁 모델들을 평가했습니다. 단순 퀴즈 형식이 아니라, AI가 다양한·밀집된 데이터 소스를 탐색하는 진짜 연구자처럼 행동해야 하는 테스트였습니다.
벤치마크는 다음과 같은 여러 도메인을 포함했습니다.
- 공개 웹 검색
- SEC(미국 증권거래위원회) 재무 보고서와 같은 복잡한 금융 서류
- USPTO(미국 특허청) 특허 데이터베이스
- 여러 문서에 흩어져 있는 단서를 논리적으로 연결해 정답을 도출해야 하는 “멀티‑홉” 질의응답
결과가 나오자 Harness‑1은 오픈소스 경쟁 모델들을 압도하며 정확한 사실을 찾아내고 정리하는 능력에서 최고 점수를 받았습니다. 특히 200억 파라미터라는 비교적 작은 규모에도 불구하고, 수백~수천억 파라미터에 달하는 거대 상용 AI 시스템과 맞서 싸웠습니다. GPT‑5.4, Sonnet‑4.6, Kimi‑K2.5 등 무거운 모델들을 제치고 뛰어넘었으며, 전체 평균 성능에서는 Opus‑4.6 한 모델에게 근소하게 뒤처졌습니다.
Harness‑1의 성능 향상은 검색 세션의 “부기” 작업을 모델의 작업 메모리에서 구조화된 소프트웨어 환경으로 오프로드함으로써 이루어졌습니다.
기업용 사례가 점점 복잡해지면서, 모델이 수천 개의 기업 문서나 재무 보고서를 자율적으로 탐색해야 하는 상황이 늘어나고 있습니다. 이때 모델은 종종 **“검색 기억상실”**에 빠집니다. 즉, 원래 질문을 잊어버리거나, 거부된 문서를 반복하거나, 검증하려는 주장 자체를 놓치는 현상이 발생합니다.
지금까지 이 기억상실을 해결하려는 주된 방법은 무차별적인 재읽기였습니다. 엔지니어들은 모델이 자체 행동 로그(추가만 가능한 전사)를 계속해서 다시 읽게 하여, 모든 검색·읽기·생각을 거대한 컨텍스트 윈도우에 쌓아두었습니다.
Harness‑1은 이 방식을 패러다임 전환시켰습니다. 진정한 인공지능 자율성의 병목은 모델 크기가 아니라 작업 환경이 상태를 얼마나 효율적으로 관리하느냐에 있다는 점을 증명한 것입니다. 이는 Anthropic의 Claude Code가 보여준 바와 마찬가지로, “원시 모델보다 그것이 실행되는 하네스(조건 집합) 가 더 중요하다”는 메시지를 다시 한 번 강조합니다.
Technology: Doing the Paperwork in the Environment
Harness‑1의 기술적 도약을 이해하려면 현실적인 비유를 생각해 보세요.
예시: 뛰어난 연구 조수를 고용했지만, 책상도, 메모지도, 파일 캐비닛도 없는 빈 방에 배치한다. 조수에게 매우 복잡한 주제에 대한 종합 보고서를 작성하라고 하면, 수십 권의 책을 읽으며 모든 인용구·출처·실패한 검색까지 머릿속에 기억해야 합니다. 결국 지적 부하가 한계에 다다르면, 조수는 사실을 놓치거나 흐름을 잃게 됩니다.
전통적인 검색 에이전트는 바로 이런 상황과 같습니다. 모델은 증가하는 전사(트랜스크립트) 위에서 정책을 학습합니다. 즉, “검색 → 읽기 → 다시 검색 → 전사에 모두 추가”라는 루프를 반복합니다.
일리노이 대학의 수석 연구원 Patrick (Pengcheng) Jiang이 X에 올린 글처럼:
“어느 순간 모델은 단순히 ‘검색’만 하는 것이 아니라, 기억 시스템, 노트 테이커, 검증자, 사서 역할까지 요구받게 됩니다.”
Harness‑1은 AI에게 책상과 파일 캐비닛을 제공합니다. 연구팀이 부르는 **“state‑externalizing harness”**는 다음을 담당합니다.
- 후보 문서 풀
- 중요도 태그가 붙은 정제된 증거 집합
- 압축된 증거 링크
- 검증 기록
즉, 의미적 선택은 모델이 담당하고, 구조적 상태 관리는 환경이 담당합니다. 모델은 검색할 대상, 보관할 문서, 언제 멈출지를 결정하는 정책만 수행하면 되고, 환경은 그 상태를 지속적으로 보관합니다.
Training Harness‑1: A Masterclass in Data Efficiency
Harness‑1의 학습 파이프라인은 AI 산업이 에이전트 학습을 접근하는 방식을 근본적으로 바꾸었습니다.
과거에는 개발자들이 검색 에이전트를 거대한 전사 위에서 정책으로 다루며, 강화학습(RL) 알고리즘이 의미 추론과 검색 상태의 원시 기억을 동시에 최적화하도록 강요했습니다.
하지만 Harness‑1 팀은 “하네스”가 모든 일상적인 부기 작업(증거 링크 유지, 후보 풀 관리, 검증 기록 등)을 담당한다는 점을 활용했습니다. 따라서 학습 과정은 구조화된 인터페이스를 어떻게 활용하는가만을 모델에 가르치면 되었습니다.
1. 초소형 Supervised Fine‑Tuning (SFT)
- 데이터 규모: 페타바이트 수준의 새 행동 데이터를 수집하지 않고, GPT‑5.4 교사 에이전트가 동일한 하네스 환경에서 생성한 899개의 필터링된 트래젝터리만 사용했습니다.
- 목표: 도메인 지식을 대량 주입하는 것이 아니라, 훌륭한 연구자의 기계적 리듬—툴 호출 포맷, 문서 중요도 태깅, 주장 검증 절차—을 모델에게 익히게 하는 것이었습니다.
2. Reinforcement Learning (RL) with CISPO
- 에피소드 길이: 최대 40턴까지의 전체 검색 세션을 대상으로 학습했습니다.
- 보상 설계: **발견(discovery)**과 **선정(selection)**을 명확히 구분하는 보상 함수를 도입했습니다. 모델은 단순히 관련 문서를 찾는 것뿐 아니라, 그 문서를 최종 답변 세트에 성공적으로 승격시켰을 때 보상을 받았고, 찾은 답변을 정리하지 못하면 벌점을 받았습니다.
- 툴 다양성 보너스: 별도의 인센티브 없이 정책은 쿼리를 남발하고 읽기 작업을 회피하는 게으른 검색 중심 전략으로 전락하는 경향이 있었습니다. 따라서 “툴 다양성” 보너스를 추가해, 모델이 다양한 도구(검색, 읽기, 검증)를 고르게 활용하도록 유도했습니다.
이러한 학습 설계 덕분에 200억 파라미터 모델이 극히 적은 데이터와 간결한 학습 단계만으로도 뛰어난 검색·정리 능력을 갖추게 되었습니다.
본 번역은 원문을 가능한 한 자연스러운 한국어로 옮기면서 마크다운 구조와 링크를 그대로 유지했습니다.