[Paper] Project Ariadne: LLM 에이전트의 충실도 감사를 위한 구조적 인과 프레임워크
Source: arXiv - 2601.02314v1
(번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 본문을 알려주시면 도와드리겠습니다.)
Overview
대규모 언어 모델(LLM) 에이전트가 점점 더 자율적이고 고위험 결정을 내리기 위해 배치되고 있습니다—코드 생성부터 의료 선별까지. “Chain‑of‑Thought”(CoT) 프롬프트는 이러한 에이전트에게 인간이 읽을 수 있는 추론 흔적을 제공하지만, 그 흔적이 실제로 최종 답을 이끌어내는지 아니면 사후 정당화에 불과한지 아직 알 수 없습니다. Project Ariadne는 구조‑인과적 프레임워크를 도입하여 이러한 추론 흔적의 충실도를 엄격히 감사하고, 오늘날 최첨단 모델에서 체계적인 “충실도 격차”를 드러냅니다.
핵심 기여
- Causal Auditing Framework: 구조 인과 모델(SCM)과 do‑calculus를 활용하여 중간 추론 단계에 개입하고, 변화가 최종 답변에 어떻게 전파되는지 측정합니다.
- Causal Sensitivity (φ) Metric: 최종 출력이 각 추론 노드에 얼마나 의존하는지를 정량화합니다.
- Violation Density (ρ) & Causal Decoupling: 에이전트의 내부 논리가 출력과 단절될 때를 탐지하기 위한 공식 정의(사실/과학 과제에서 ρ가 최대 0.77까지 관측됨).
- Ariadne Score Benchmark: 생성된 CoT와 실제 의사결정 경로 간의 정렬을 평가하는 새로운 벤치마크 스위트.
- Empirical Evidence: 주요 LLM 에이전트(GPT‑4, Claude, Llama 2 등)가 내부 논리가 모순되더라도 동일한 답변을 내는 “Reasoning Theater” 현상을 자주 보인다는 실증적 증거.
방법론
- 모델을 SCM으로 – LLM의 추론 체인을 각 노드가 텍스트 전제 또는 추론 단계인 방향 그래프로 간주한다.
- Hard Interventions (
do‑operations) – 저자들은 전제를 체계적으로 뒤집거나, 부정하거나, 교체한다 (예: “모든 백조는 흰색이다”를 “모든 백조는 검은색이다”로 변경). - Counterfactual Propagation – 각 개입 후, 전체 체인을 다시 프롬프트하지 않고 모델에게 최종 답을 재계산하도록 요청하여 변경된 노드의 인과 효과를 분리한다.
- Metric Computation –
- Causal Sensitivity (φ) = |Δoutput| / |Δintervention|, 답변이 얼마나 변하는지를 측정한다.
- Violation Density (ρ) = 모순되는 내용에도 불구하고 φ ≈ 0인 노드의 비율.
- Benchmarking – 사실, 과학, 추론 과제들의 모음이 사용되어 각 모델의 Ariadne Score를 계산한다.
이 접근법은 의도적으로 model‑agnostic하게 설계되었으며, CoT 프롬프트를 받아들일 수 있고 주어진 시드에 대해 결정론적 출력을 반환하는 모든 LLM에서 작동한다.
Results & Findings
| Model | Avg. Causal Sensitivity (φ) | Violation Density (ρ) | Notable Failure Mode |
|---|---|---|---|
| GPT‑4 (CoT) | 0.31 | 0.62 | 핵심 전제를 부정한 후에도 답변이 변하지 않음 |
| Claude‑2 (CoT) | 0.27 | 0.68 | 과학적 사실 검증에서 “추론 연극” 발생 |
| Llama 2‑70B (CoT) | 0.22 | 0.77 | 수학 단어 문제에서 높은 ρ 관찰 |
- Faithfulness Gap: 테스트된 모든 도메인에서 에이전트의 최종 답변은 내부 추론에 약하게만 민감했으며, CoT 트레이스가 인과적 동인이라기보다 장식적인 층에 불과함을 보여준다.
- Causal Decoupling: 논리적으로 답을 뒤집어야 할 전제를 바꾸어도 답변이 그대로 유지되는 경우가 많아, 명시적인 체인 대신 잠재적인 파라메트릭 사전지식에 의존하고 있음을 드러낸다.
- Ariadne Score: 신뢰성(faithfulness)을 0–1 범위의 단일 숫자로 요약한 지표이며, 현재 최고 성능 모델들의 점수는 0.4 이하로 이상적인 1.0과는 거리가 멀다.
실용적 함의
- Safety & Compliance: 규제된 분야(금융, 의료, 자율 시스템)에서는 CoT 설명만으로는 충분하지 않다. 감사자는 Project Ariadne를 사용해 에이전트의 추론이 인과적으로 결정에 연결되어 있음을 인증할 수 있다.
- Debugging LLM Agents: 개발자는 “죽은” 추론 노드(φ ≈ 0)를 찾아 프롬프트를 재구성하거나 모델을 파인‑튜닝하여 해당 단계가 영향을 미치도록 할 수 있다.
- Prompt Engineering: 프레임워크는 인과적 의존성을 강제하는 프롬프트 전략(예: “다음 전제를 기반으로 답변해야 합니다”)이 충실도를 향상시킬 수 있음을 시사한다.
- Benchmarking & Competition: Ariadne Score는 새로운 리더보드 지표가 될 수 있어, 커뮤니티가 정확하면서도 설명 가능한 에이전트를 구축하도록 장려한다.
- Tooling: do‑calculus 개입을 구현하는 오픈‑소스 라이브러리를 기존 LLM 평가 파이프라인(예: 🤗 Eval, OpenAI’s Evals)에 통합할 수 있다.
제한 사항 및 향후 작업
- Scalability: Hard interventions은 추론 노드당 여러 번의 forward pass가 필요하며, 이는 긴 체인이나 대형 모델에서 비용이 많이 들 수 있습니다.
- Prompt Sensitivity: 이 방법은 결정론적 출력을 가정합니다; 온도 기반 샘플링은 인과 신호를 흐리게 만들 수 있습니다.
- Domain Coverage: 실험은 사실 및 과학적 작업에 초점을 맞추었으며, 창의적이거나 개방형 생성으로 확장하는 것은 아직 미해결 상태입니다.
- Model‑Specific Optimizations: 일부 아키텍처(예: retrieval‑augmented models)는 맞춤형 SCM 표현이 필요할 수 있습니다.
향후 방향
- 강화 학습을 통해 개입 선택 자동화.
- 인과 정규화를 파인‑튜닝에 통합하여 ρ를 감소.
- φ와 전통적인 유사도 기반 설명 가능성 점수를 결합한 하이브리드 메트릭 탐색.
저자
- Sourena Khanzadeh
논문 정보
- arXiv ID: 2601.02314v1
- 분류: cs.AI
- 출판일: 2026년 1월 5일
- PDF: Download PDF