[논문] 코드는 텍스트 그 이상: 코드 생성 불확실성 추정
개요
대규모 언어 모델(LLM)은 점점 더 코드 생성기로 활용되고 있으며, 눈에 띄지 않게 잘못된 프로그램은 실제 안전성과 신뢰성 위험을 초래합니다. 선택적 예측, 인간이 개입하는 검토, 그리고 하위 에이전트 의사결정을 위해서는 신뢰할 수 있는 불확실성 추정(UE)이 필수적입니다. 그러나 기존 대부분의 코드 UE 방법은 자연어(NL) 생성에서 물려받은 것이며, 코드를 구별하는 특성을 무시합니다. 우리는 코드가 자연어와 세 가지 면에서 다르다고 주장합니다: 하나의 잘못된 토큰이 전체 프로그램을 무너뜨릴 수 있는 토큰 취약성; 알고리즘적 의도와 실제 구현이 독립적으로 불일치할 수 있는 의도‑코드 격차; 그리고 프로그램을 실행할 수 있는 실행 가능성. 우리는 이러한 특성을 세 개의 직교 불확실성 축으로 구현합니다: 어휘적(Top‑K 토큰 엔트로피), 알고리즘적(의사코드 일관성), 기능적(행동 일관성). 다섯 개의 코드 LLM에 대해, 우리의 3축 앙상블은 가장 강력한 NL 기반 베이스라인의 평균 AUROC 0.696을 0.776(+8.1 포인트)으로 향상시켰습니다. 특히 Qwen3‑14B에서는 단일 패스 Top‑K 토큰 엔트로피가 가장 강력한 다중 패스 베이스라인과 동등한 성능을 보이면서도 3배 이상 비용이 절감되었습니다; 모델 전반에 걸쳐 저비용 신호로서 경쟁력을 유지합니다. 이러한 결과는 코드 UE가 직접 NL을 포팅하기보다 코드 특화 설계가 필요함을 시사합니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.CL
- cs.LG
- cs.SE
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- Yuling Shi
- Caiqi Zhang
- Yuexian Li
- Haopeng Wang
- Yeheng Chen
- Nigel Collier
- Xiaodong Gu
논문 정보
- arXiv ID: 2606.09577v1
- 분류: cs.CL, cs.LG, cs.SE
- 발표일: 2026년 6월 8일
- PDF: PDF 다운로드