[Paper] 에이전트 도구 선택에서 환각을 나타내는 내부 표현
Source: arXiv - 2601.05214v1
개요
이 논문은 대형 언어 모델(LLM) 에이전트의 미묘하지만 중요한 실패 모드인 잘못된 도구를 환각하거나, 형식이 맞지 않는 매개변수를 생성하거나, 도구 자체를 “우회”하는 현상을 다룬다. LLM은 API를 호출하고, 셸을 실행하며, 데이터베이스를 조회할 수 있지만, 때때로 겉보기에는 타당해 보이지만 실제로는 의도한 외부 서비스를 전혀 호출하지 않는 출력을 생성한다. 저자들은 생성에 사용되는 동일한 순방향 패스 동안 모델의 내부 은닉 상태를 읽어 이러한 환각을 실시간으로 감지하고, 하류에 발생할 수 있는 손상을 방지하는 경량 실시간 감지 프레임워크를 제안한다.
핵심 기여
- In‑situ hallucination detector: 중간 토큰‑레벨 표현(어텐션 가중치, 히든 활성화)을 활용해 추가 모델 호출이나 외부 검증기 없이 툴 호출 오류를 예측합니다.
- 세 가지 오류 유형에 대한 통합 탐지: (1) 잘못된 툴 선택, (2) 형식이 잘못되었거나 누락된 파라미터, (3) 툴 우회(실제 호출 대신 시뮬레이션).
- 도메인에 구애받지 않는 평가: 코드 실행, 웹 검색, 데이터 검색 작업을 포함한 추론 벤치마크에서 테스트했으며, 실시간 환경에서 **86.4 %**까지 정확도를 달성했습니다.
- 최소한의 오버헤드: 탐지기는 일반적인 7B 파라미터 LLM에서 < 5 ms 지연만 추가하여, 프로덕션 에이전트에 필요한 저지연 보장을 유지합니다.
- 오픈소스 레퍼런스 구현: HuggingFace Transformers, vLLM 등 인기 있는 LLM 추론 라이브러리를 위한 플러그‑앤‑플레이 래퍼를 포함합니다.
방법론
- 전방 패스에 도구 삽입 – LLM이 다음 토큰을 생성하는 동안, 프레임워크는 작은 집합의 은닉 벡터(예: 마지막 레이어 은닉 상태와 “tool‑call” 토큰에 대한 어텐션 스코어)를 추출합니다.
- 특징 구성 – 이러한 벡터를 가벼운 분류기(2‑계층 MLP)로 투사합니다. 이 분류기는 올바른 도구 호출과 환각된 도구 호출을 구분한 라벨이 지정된 데이터셋으로 미세 조정되었습니다.
- 이진 결정 – 분류기는 신뢰도 점수를 출력합니다; 이 점수가 설정 가능한 임계값을 초과하면 시스템은 생성을 중단하고, 이벤트를 로그에 기록하며, 필요에 따라 안전한 기본값(예: 사용자에게 명확히 물어보거나 검증 서비스를 호출)으로 전환합니다.
- 학습 데이터 – 저자들은 동일한 프롬프트에 대해 올바른 도구 호출과 고의로 손상된 버전(잘못된 도구, 누락된 인수, 혹은 시뮬레이션된 출력)을 짝지은 합성 코퍼스를 만들었습니다. 이를 통해 비용이 많이 드는 인간 주석 없이도 균형 잡힌 학습 세트를 확보했습니다.
전체 파이프라인은 단일 전방 패스로 실행되므로, 탐지기는 두 번째 추론이나 별도의 검증 모델을 필요로 하지 않습니다.
결과 및 발견
| 작업 영역 | 탐지 정확도 | 정밀도 (환각) | 재현율 (환각) |
|---|---|---|---|
| 코드 실행 (Python REPL) | 84.1 % | 0.88 | 0.79 |
| 웹 검색 API | 86.4 % | 0.91 | 0.82 |
| 데이터베이스 쿼리 도구 | 81.7 % | 0.85 | 0.78 |
| 혼합 도메인 벤치마크 | 83.2 % | 0.87 | 0.80 |
- Parameter‑level errors (예: 잘못된 JSON)은 가장 높은 재현율(> 85 %)로 탐지되었습니다.
- Tool‑bypass 사례(모델이 도구를 실행한 척한 경우)는 가장 어려웠지만, 여전히 > 80 % 정밀도를 달성했습니다.
- 탐지기를 추가하면 GPU 가속 추론 서버에서 엔드‑투‑엔드 지연 시간이 3–5 ms 증가했으며, 이는 인터랙티브 에이전트의 일반적인 SLA 창 내에 충분히 들어갑니다.
실용적 의미
- 보다 안전한 프로덕션 에이전트 – 실시간 탐지를 통해 외부 서비스에 도달하기 전에 의심스러운 도구 호출을 거부하거나 격리할 수 있어 API 키, 호출 제한, 감사 로그를 보호합니다.
- 디버깅 시간 감소 – 개발자는 에이전트에 탐지기를 삽입하여 환각이 발생할 때 즉시 알림을 받을 수 있어 사후 분석 시간을 줄일 수 있습니다.
- 비용 절감 – 불필요한 외부 호출(특히 유료 API)을 피함으로써 조직은 운영 비용을 낮출 수 있습니다.
- 컴플라이언스 및 감사 – 이 프레임워크를 기존 보안 파이프라인에 연결하여 “우회 금지” 정책을 강제하고 모든 행동을 추적 가능하게 할 수 있습니다.
- 플러그‑앤‑플레이 통합 – 탐지기가 은닉 상태에서 작동하기 때문에 기본 모델을 재학습하지 않고도 모든 Transformer 기반 LLM에 추가할 수 있어, 오프‑더‑쉘프 모델(OpenAI GPT‑4, LLaMA‑2, Claude 등)을 사용하는 팀에게 매력적입니다.
제한 사항 및 향후 연구
- 모델‑특정 튜닝 – 분류기는 소수의 모델 크기(7B–13B)에서 학습되었습니다. 훨씬 큰 모델이나 근본적으로 다른 아키텍처(예: 디코더‑전용 vs. 인코더‑디코더)에 대한 전이 가능성은 추가 미세‑조정이 필요할 수 있습니다.
- 합성 학습 편향 – 합성 환각이 다양한 패턴을 포괄하지만, 실제 운영 환경에서 발생하는 드문 실세계 엣지 케이스를 모두 포착하지 못할 수 있습니다.
- 임계값 민감도 – 탐지 임계값을 선택하면 거짓 양성(불필요한 중단)과 놓친 환각 사이의 trade‑off가 발생합니다; 도메인별 적응형 임계값은 아직 연구 중인 방향입니다.
- 툴 호출을 넘어 확장 – 저자들은 동일한 내부 표현 신호가 사실 부정확성이나 정책 위반과 같은 다른 LLM 오류를 식별할 수 있는지 탐구할 계획입니다.
전반적으로, 이 논문은 실용적이고 낮은 오버헤드의 솔루션을 제공하여 LLM‑구동 에이전트의 신뢰성을 프로덕션‑급 표준에 한 걸음 더 가깝게 만들고 있습니다.
저자
- Kait Healy
- Bharathi Srinivasan
- Visakh Madathil
- Jing Wu
논문 정보
- arXiv ID: 2601.05214v1
- 분류: cs.AI
- 출판일: 2026년 1월 8일
- PDF: PDF 다운로드