[논문] 스캐폴드가 GAIA에 미치는 효과: 통제 비교
개요
발표된 에이전트 능력 점수는 모델이 실제로 할 수 있는 일과 스캐폴드가 허용하는 일을 혼동하고 있으며, 이러한 유도 격차의 규모는 통제된 조건 하에서 충분히 규명되지 않았다. 본 연구는 사전 등록된 통제 비교를 수행하여 세 가지 스캐폴드(ReAct, Planner‑Actor‑Rater 멀티에이전트 설계, planner‑then‑executor)를 세 제공업체의 다섯 모델(Claude Opus 4.7, Sonnet 4.6, Haiku 4.5; Gemini 3.1 Pro Preview; GPT‑5.5)에서 GAIA 검증 레벨 1·2에 적용하고, 과제와 조건을 고정한 채 질문당 세 번의 시도를 진행했다. 스캐폴드 선택만으로도 단일 모델 내에서 측정 정확도가 최대 28 퍼센트 포인트(Opus, 레벨 2, robust slice)까지 변동했으며, 이는 스캐폴드 변동이 최소 10 포인트의 격차를 만든다는 사전 가설을 확인한다. 더 능력 있는 모델일수록 스캐폴드에 덜 민감할 것이라는 사전 예측은 방향이 반대로 기각되었다: 모든 데이터셋 슬라이스에서 모델별로 스캐폴드 효과가 크게 달라졌으며, 가장 능력 있는 Anthropic 모델이 더 어려운 레벨에서 구조화된 스캐폴드로부터 가장 큰 이득을 얻었고, 티어 스케일링은 robust slice에서 레벨 1에만 적용되었다. 레벨 2에서 ReAct 대비 멀티에이전트의 이점은 Anthropic 계열 내에서만 나타났고, 공급업체 간 모델에서는 나타나지 않아 모델 패밀리가 능력 티어보다 조건 변수임을 시사한다. 또한 파일 읽기 과제에서 planner‑executor의 이점은 부정되었다. 구조화된 스캐폴드는 도구 호출을 줄이면서도 어려운 레벨에서 중간 경로 오류로부터 더 자주 회복했으며, 단일 셀(Gemini + planner‑then‑executor)은 두 레벨 모두에서 가장 저렴하면서 레벨 2에서는 가장 정확했다. 이러한 결과는 단일 스캐폴드 기반 능력 수치는 스캐폴드에 조건화된 추정치이며, 모델이 향상돼도 유도 격차가 반드시 감소하지는 않음을 보여준다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.AI
- cs.CL
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.AI 분야의 발전에 기여합니다.
저자
- Jason Starace
논문 정보
- arXiv ID: 2606.08529v1
- Categories: cs.AI, cs.CL, cs.LG
- Published: 2026년 6월 7일
- PDF: PDF 다운로드