[논문] 추론 모델의 알 수 없는 미지 현상 진단을 위한 구조화된 무지 인증서 보정
개요
대형 언어 모델은 특유의 방식으로 자주 실패한다: 알지 못함을 인정하기보다 지식 경계를 넘어선 질문에 대해 유창하지만 잘못된 답변을 만들어낸다. 우리는 구조화된 무지 인증서(Structured Ignorance Certificates, SICs)를 도입한다. 이는 모델이 누락된 도메인 교차점을 명시하고, 필요한 개념을 열거하며, 답변을 꾸며내는 대신 생산적인 검색 쿼리를 제안하도록 요구하는 JSON 형식 출력 스키마이다. 고품질 SIC를 생성하도록 모델을 학습시키기 위해, Qwen3-14B에 일곱 분야(물리학, 생물학, 공학, 컴퓨터 과학, 경제학, 의료, 법학)의 질문을 엮어 단일 분야 전문가가 답할 수 없는 새로운 교차 분야 질의를 만들도록 프롬프트를 제공하여 7,347개의 알 수 없는‑알 수 없는(Unknown‑Unknown, UU) 데이터셋을 구축하였다. 우리는 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)를 사용해 14B 파라미터 모델을 미세조정했으며, 보상은 검색 효용성, 개념 구체성, 출력 형식 유효성을 복합적으로 결합한다. 모델 응답을 기반으로 훈련된 패러프레이즈‑다이버전스 탐지기는 SIC‑튜닝된 출력이 체계적으로 더 높은 알 수 없는‑알 수 없는 확률 점수를 보임을 확인한다. 735개의 보류된 UU 질문에 대한 평가 결과, JSON 유효성 비율 99.46 %, 평균 인증서 구체성 점수 0.967, 그리고 검색 기반 생성에서 기본 모델 대비 ROUGE‑L이 3.6 % 향상되었다. 이는 명시적 인식 구조화가 학습 가능한 측정 가능한 능력임을 입증한다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.CL
- cs.AI
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.CL 분야의 발전에 기여한다.
저자
- Subramanyam Sahoo
논문 정보
- arXiv ID: 2606.08571v1
- 분류: cs.CL, cs.AI, cs.LG
- 출판일: 2026년 6월 7일
- PDF: PDF 다운로드