[Paper] LLM이 자신의 실패를 예측할 수 있을까? 내부 회로를 통한 자기 인식
Source: arXiv - 2512.20578v1
개요
논문 Can LLMs Predict Their Own Failures? Self‑Awareness via Internal Circuits는 고정된 대형 언어 모델(LLM)이 자신의 계산 과정을 “내부에서 들여다보며” 실수를 할 가능성을 감지할 수 있는지를 조사합니다. 저자들은 Gnosis라는 작은 부가 모듈을 도입했으며, 이는 생성 과정 중에 은닉 상태와 어텐션 신호를 읽어 출력의 정확성을 거의 비용 없이 예측합니다.
주요 기여
- Gnosis 아키텍처: 기본 모델을 수정하지 않고 LLM의 내부 텐서(숨겨진 상태, 어텐션 맵)에서 고정 크기 디스크립터를 추출하는 경량(~5 M 파라미터) 모듈.
- 외부 판사 없이 자체 검증: Gnosis는 모델 자체의 동역학으로부터 정확성을 직접 예측하여 비용이 많이 드는 다중 샘플 일관성 검사나 별도의 검증 모델을 피합니다.
- 광범위한 실증적 적용: 1.7 B – 20 B 파라미터 고정 백본을 사용한 수학 추론, 오픈 도메인 QA, 학술 지식 과제에서 평가되었습니다.
- 우수한 정확도 및 보정: 원시 예측 정확도와 신뢰도 정렬 모두에서 강력한 내부 베이스라인 및 대형 외부 판사를 지속적으로 능가합니다.
- 제로샷 조기 실패 감지: 부분 토큰 시퀀스만으로도 실패하는 생성 여부를 표시할 수 있어 연산 인식 제어(예: 조기 종료 또는 모델 전환)를 가능하게 합니다.
방법론
- 신호 수집 – LLM이 각 토큰을 생성하는 동안 Gnosis는 내부 활성화의 작은 집합을 수동적으로 기록합니다:
- 현재 토큰의 최종 은닉 벡터,
- 해당 단계에 대한 어텐션 가중치 행렬의 풀링된 요약.
- 압축 – 이러한 원시 텐서는 작은 피드‑포워드 네트워크를 통해 고정 예산 “디스크립터”(예: 128‑차원 벡터)로 투영됩니다. 압축은 길이 무관하도록 설계되어, 시퀀스 길이에 따라 디스크립터 크기가 증가하지 않습니다.
- 예측 헤드 – 경량 분류기(이진 또는 보정된 신뢰도 출력)가 디스크립터를 받아들여, 다가오는 토큰(또는 전체 완성된 답변)이 올바른지 여부를 예측합니다.
- 학습 – Gnosis는 정답이 알려진 검증용 보류 집합(예: 수학 문제 풀이)에서 학습됩니다. 중요한 점은 기본 LLM은 고정된 상태로 유지되고, 오직 Gnosis의 파라미터만 업데이트된다는 것입니다.
- 추론 – 테스트 시, Gnosis는 고정된 LLM과 함께 실행되며 토큰당 몇 밀리초의 추가 시간과 무시할 수 있는 메모리 사용량만을 추가합니다.
결과 및 발견
| 벤치마크 | 모델 크기 | Gnosis Accuracy (↑) | 외부 평가자 정확도 (↓) |
|---|---|---|---|
| GSM‑8K (math) | 7 B | 78 % | 65 % |
| Natural Questions | 13 B | 71 % | 62 % |
| Academic QA (SciFact) | 20 B | 74 % | 68 % |
- 보정: Gnosis의 신뢰도 점수는 베이스라인보다 낮은 기대 보정 오류(ECE)를 보여주며, 이는 확률 추정치가 더 신뢰할 수 있음을 의미합니다.
- 조기 탐지: 생성의 처음 30 %만 평가했을 때에도 Gnosis는 >70 % 정확도로 실패를 예측하여 동적 연산 결정을 가능하게 합니다.
- 파라미터 효율성: 20 B 모델에 약 5 M 파라미터를 추가하면 <0.03 %의 오버헤드만 발생하지만, 최상의 내부 베이스라인 대비 실패 예측 성능을 >10 % 향상시킵니다.
Practical Implications
- Compute‑aware generation: 시스템은 희망 없는 답변을 조기에 중단하고, 더 큰 모델로 전환하거나, 명확화를 요청하여 GPU 사이클과 지연 시간을 절약할 수 있습니다.
- Safety & reliability layers: 배포(예: 코드 어시스턴트, 의료 QA)에서는 Gnosis를 “자체 모니터”로 붙여 잠재적으로 환각된 출력이 사용자에게 도달하기 전에 플래그를 지정할 수 있습니다.
- Improved user experience: 프론트엔드는 Gnosis에서 파생된 신뢰도 점수나 경고를 표시하여 개발자가 보다 투명한 AI 어시스턴트를 구축하도록 돕습니다.
- Zero‑cost integration: Gnosis는 고정된 백본과 함께 작동하므로 기존 프로덕션 모델을 대규모 LLM을 재학습하지 않고도 레트로핏할 수 있어 SaaS 제공업체가 채택하기에 실현 가능합니다.
제한 사항 및 향후 작업
- 훈련 데이터 의존성: Gnosis는 각 작업 도메인에 대해 라벨이 지정된 정답 데이터셋이 필요합니다; 제로‑샷 능력은 실패를 감지하는 데에만 제한되며 새로운 작업 의미를 학습하는 데에는 한계가 있습니다.
- 신호 범위: 현재 설계는 은닉 상태와 어텐션 가중치만 활용합니다; 다른 내부 단서(예: 피드‑포워드 활성화, 그래디언트 기반 신호)도 감지를 더욱 향상시킬 수 있습니다.
- 멀티모달 모델로의 일반화: 이 연구는 텍스트 전용 LLM에 초점을 맞추고 있습니다; Gnosis를 비전‑언어 혹은 오디오 모델로 확장하는 것은 아직 미해결 과제입니다.
- 적대적 프롬프트에 대한 견고성: 저자들은 정교하게 만든 프롬프트가 내부 패턴을 조작할 가능성이 있음을 언급했으며, 이는 향후 견고성 연구의 방향입니다.
핵심: Gnosis는 LLM이 이미 내부 역학에 유용한 “자기 지식”을 인코딩하고 있음을 보여주며, 작고 모델에 구애받지 않는 추가 기능이 이를 실용적이고 낮은 오버헤드의 신뢰성 검사에 활용할 수 있음을 입증합니다. 이는 외부 검증 파이프라인의 높은 계산 비용 없이도 보다 신뢰할 수 있는 AI 시스템으로 나아가는 유망한 길을 열어줍니다.
저자
- Amirhosein Ghasemabadi
- Di Niu
논문 정보
- arXiv ID: 2512.20578v1
- 카테고리: cs.CL
- 출판일: 2025년 12월 23일
- PDF: PDF 다운로드