‘배틀쉽’ 게임으로 AI 에이전트에게 더 좋은 질문을 가르치다
Source: MIT News - AI
AI 에이전트와 “전함” 도전
2026년, 인공지능 에이전트에 대한 과대광고는 그 어느 때보다 커졌다. 이러한 반자율 프로그램은 생각하고 고객 서비스·소프트웨어 개발 등 분야에서 명확히 정의된 작업을 수행할 수 있으며, 보통 언어 모델(LM)을 사용한다. 하지만 의료 진단·과학적 발견과 같은 분야에서는 에이전트가 불확실한 환경에서 방대한 해결책을 탐색해야 하는데, 이는 현재 LM이 아직 어려워하는 부분이다.
MIT 컴퓨터 과학·인공지능 연구소(CSAIL)와 하버드 공학·응용 과학 대학(SEAS)의 연구원들은 고위험 상황에서 LM의 주요 문제점을 파악하기 위해 더 깊이 탐구했다. 그들의 실험은 **“전함”**이라는 고전적인 추리 게임을 사용했는데, 이 게임은 인간이 정보를 어떻게 찾는지를 연구하는 데 오랫동안 활용되어 왔다.
협동 전함
CSAIL과 SEAS 학자들은 게임을 자연어 질문과 답변을 중심으로 재구성해 새로운 변형을 만들었다. 그들의 “협동 전함” 게임에서는
- 한 참가자가 선장 역할을 맡아 숨겨진 전함의 위치에 대해 질문한다.
- 팀원은 관측자 역할을 수행하며 실시간으로 질문에 답한다.
연구진은 먼저 40명 이상의 인간이 함께 게임을 플레이하도록 하여 질문과 예/아니오 답변을 수집하고 BattleshipQA 데이터셋을 구축했다. 이 데이터셋은 팀이 다음 모델들을 시험할 때 유용한 비교 기준이 되었다.
- 최첨단 LM(예: GPT‑5)
- 소형 모델(예: Llama 4 Scout)
Result: 사전 학습 없이도 최상위 LM은 인간보다 전함을 더 적은 턴으로 승리했으며, 소형 시스템은 훨씬 비합리적인 결과를 보였다.
핵심 문제: 질문 생성
주된 문제는 많은 모델이 유용한 질문을 만들어내는 데 서투르다는 점이었다. 이를 개선하기 위해 연구진은 각 모델에 몬테카를로 추론 전략을 적용했으며, 이는 각 응답마다 다양한 옵션이 정답일 가능성을 신중히 측정한다.
- Outcome: 규모에 관계없이 일반 플레이어를 이길 수 있는 AI 모델이 탄생했다.
Llama 4 Scout의 향상
- Baseline: 인간을