[논문] 코드는 텍스트 그 이상: 코드 생성 불확실성 추정

발행: 3일 전 (2026년 6월 8일 PM 11:52 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.09577v1

개요

대규모 언어 모델(LLM)은 점점 더 코드 생성기로 활용되고 있으며, 눈에 띄지 않게 잘못된 프로그램은 실제 안전성과 신뢰성 위험을 초래합니다. 선택적 예측, 인간이 개입하는 검토, 그리고 하위 에이전트 의사결정을 위해서는 신뢰할 수 있는 불확실성 추정(UE)이 필수적입니다. 그러나 기존 대부분의 코드 UE 방법은 자연어(NL) 생성에서 물려받은 것이며, 코드를 구별하는 특성을 무시합니다. 우리는 코드가 자연어와 세 가지 면에서 다르다고 주장합니다: 하나의 잘못된 토큰이 전체 프로그램을 무너뜨릴 수 있는 토큰 취약성; 알고리즘적 의도와 실제 구현이 독립적으로 불일치할 수 있는 의도‑코드 격차; 그리고 프로그램을 실행할 수 있는 실행 가능성. 우리는 이러한 특성을 세 개의 직교 불확실성 축으로 구현합니다: 어휘적(Top‑K 토큰 엔트로피), 알고리즘적(의사코드 일관성), 기능적(행동 일관성). 다섯 개의 코드 LLM에 대해, 우리의 3축 앙상블은 가장 강력한 NL 기반 베이스라인의 평균 AUROC 0.696을 0.776(+8.1 포인트)으로 향상시켰습니다. 특히 Qwen3‑14B에서는 단일 패스 Top‑K 토큰 엔트로피가 가장 강력한 다중 패스 베이스라인과 동등한 성능을 보이면서도 3배 이상 비용이 절감되었습니다; 모델 전반에 걸쳐 저비용 신호로서 경쟁력을 유지합니다. 이러한 결과는 코드 UE가 직접 NL을 포팅하기보다 코드 특화 설계가 필요함을 시사합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.CL
cs.LG
cs.SE

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CL 분야의 발전에 기여합니다.

저자

Yuling Shi
Caiqi Zhang
Yuexian Li
Haopeng Wang
Yeheng Chen
Nigel Collier
Xiaodong Gu

논문 정보

arXiv ID: 2606.09577v1
분류: cs.CL, cs.LG, cs.SE
발표일: 2026년 6월 8일
PDF: PDF 다운로드

[논문] 코드는 텍스트 그 이상: 코드 생성 불확실성 추정

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증

[논문] AuRA: 오디오 이해를 LoRA 방식으로 LLM에 내재화

[논문] 순차 추천을 위한 생성적 전형 기반 아이템 표현

[논문] 격차에 주목: 최첨단 LLM이 표준 사무 능력 시험을 통과할 수 있을까?