LLM이 위임할 때 문서를 손상시킵니다
Source: Hacker News
Abstract
대형 언어 모델(LLM)은 지식 작업을 혁신할 준비가 되어 있으며, 위임 작업(delegated work)이라는 새로운 상호작용 패러다임(예: vibe coding)의 등장으로 그 가능성이 커지고 있습니다. 위임에는 신뢰가 필요합니다—즉, LLM이 문서에 오류를 도입하지 않고 작업을 충실히 수행할 것이라는 기대입니다.
우리는 DELEGATE-52를 도입하여 위임 워크플로우에서 AI 시스템의 준비 상태를 연구합니다. DELEGATE-52는 코딩, 결정학, 악보 표기 등 52개의 전문 분야에 걸쳐 깊이 있는 문서 편집이 요구되는 장기 위임 워크플로우를 시뮬레이션합니다.
19개의 LLM을 대상으로 한 대규모 실험 결과, 현재 모델들은 위임 과정에서 문서를 손상시킨다는 것이 밝혀졌습니다: 최첨단 모델들(Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4)조차도 장기 워크플로우가 끝날 때까지 문서 내용의 평균 **25 %**를 손상시키며, 다른 모델들은 더 심각하게 실패합니다. 추가 실험에서는 에이전시 도구 사용이 DELEGATE-52에서 성능을 향상시키지 못하고, 손상 정도가 문서 크기, 상호작용 길이, 혹은 방해 파일의 존재에 의해 악화된다는 점을 확인했습니다.
우리 분석은 현재 LLM이 신뢰할 수 없는 위임자임을 보여줍니다: 이들은 드물지만 심각한 오류를 조용히 문서에 삽입하며, 장기간 상호작용 동안 오류가 누적됩니다.