[Paper] 적은 환각이 적은 창의성을 의미할까? LLM에서의 실증적 조사

발행: 1개월 전 (2025년 12월 12일 오후 09:14 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.11509v1

Overview

논문 **“Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs”**는 놀라울 정도로 실용적인 질문을 제기합니다: 대형 언어 모델(LLM)의 “환각”(즉, 잘못된 사실을 생성) 경향을 억제하면 모델의 새롭고 창의적인 아이디어를 생성하는 능력도 함께 약해지는가? 세 가지 인기 있는 환각 감소 기법을 여러 모델 패밀리에서 테스트한 결과, 답은 선택한 방법에 따라 다르다는 것이 밝혀졌습니다. 이는 AI‑지원 연구 도구, 브레인스토밍 어시스턴트, 창의적 코딩 도우미를 구축하는 모든 사람에게 중요한 정보입니다.

Key Contributions

체계적인 비교: 환각‑감소 전략 세 가지—Chain of Verification (CoVe), Decoding by Contrasting Layers (DoLa), Retrieval‑Augmented Generation (RAG)—가 창의성에 미치는 영향을 비교.
광범위한 실험 범위: 세 가지 LLM 패밀리(LLaMA, Qwen, Mistral)와 1 B~70 B 파라미터 규모.
이중 벤치마크 평가: NeoCoder(코드‑생성 창의성)와 CS4(개방형 창의적 글쓰기) 사용.
실증적 발견: 환각‑감소 방법이 발산적 창의성에 반대 효과를 보임—CoVe는 창의성을 높이고, DoLa는 억제하며, RAG는 거의 중립적.
실무 가이드: 사실 정확성과 창의적 가설 생성이 동시에 요구되는 AI‑지원 과학 탐색 파이프라인을 구축하는 개발자를 위한 지침 제공.

Methodology

환각‑감소 기법
- Chain of Verification (CoVe): 모델이 먼저 답을 생성한 뒤, 검증 체인(자기 질문, 사실 확인)을 수행하고 최종 결과를 출력.
- Decoding by Contrasting Layers (DoLa): 초기와 후기 트랜스포머 레이어의 은닉 상태 표현을 대비시켜 디코딩 과정을 수정, “보수적인” 토큰 선택을 장려.
- Retrieval‑Augmented Generation (RAG): 외부 지식 베이스에서 상위 k개의 관련 문서를 프롬프트에 추가해 생성물을 기반에 맞게 정렬.
모델 패밀리 및 규모
- LLaMA, Qwen, Mistral – 각각 1 B, 7 B, 13 B, 30 B, 70 B(가능한 경우) 규모로 평가.
창의성 벤치마크
- NeoCoder: 새로운 코드 스니펫을 생성하도록 요구하는 프롬프트(예: “새로운 변형의 traveling‑salesperson 문제를 해결하는 함수를 작성하라”).
- CS4: 다수의 타당한 연속성을 허용하고 독창성 점수를 매기는 개방형 스토리/아이디어 프롬프트, 발산적 사고 측정에 특화.
측정 지표
- 환각 비율: 금본위 지식 베이스와 자동 사실 확인 및 인간 검증을 통해 측정.
- 창의성: 표준 발산‑사고 지표—유창성, 독창성, 유연성—을 n‑gram 다양성, 의미적 새로움, 인간 평가자를 통해 산출.
실험 프로토콜
- 각 모델‑기법 조합마다 벤치마크당 500개의 응답을 생성.
- 베이스라인(일반 디코딩) 대비 환각 감소율을 계산.
- 모델 크기를 통제하면서 기법별 창의성 점수를 비교.

Results & Findings

Technique	Hallucination ↓	NeoCoder Creativity ↑	CS4 Creativity ↑
CoVe	‑28 % (vs. baseline)	+12 % (significant)	+9 %
DoLa	‑22 %	‑15 % (significant drop)	‑13 %
RAG	‑25 %	±1 % (no statistical change)	±2 %

CoVe는 환각을 줄일 뿐만 아니라 발산적 사고를 촉진한다. 검증 체인이 일종의 “자기 반성” 단계로 작용해 모델이 최종 선택 전에 대안을 탐색하도록 만든다.
DoLa는 환각을 감소시키지만 창의성은 감소한다; 레이어 대비 디코딩이 모델을 더 안전하고 “정형화된” 토큰 선택으로 몰아가며 새로움을 제한한다.
RAG는 모델을 기반에 맞게 고정시키면서도 창의성 폭에 눈에 띄는 영향을 주지 않는다—사실 기반이 필요하지만 모델의 상상력을 유지하고 싶을 때 유용.
이러한 효과는 모델 패밀리와 규모 전반에 걸쳐 일관되며, 특히 큰 모델(≥30 B)은 DoLa에 의한 창의성 감소가 다소 완화되는 경향을 보여 규모가 일부 보상 역할을 할 수 있음을 시사한다.

Practical Implications

AI‑지원 연구 도구(예: 가설 생성기, 문헌 리뷰 어시스턴트)는 CoVe를 채택하면 사실 검증과 창의적 도약을 동시에 얻을 수 있다—예를 들어 “그럴듯하지만 새로운 메커니즘을 생성하고, 이후 알려진 화학 지식과 대조해 검증한다.”
코드‑생성 플랫폼에서 신뢰성 있으면서도 혁신적인 스니펫이 필요할 경우(예: 새로운 알고리즘 자동 완성) 역시 CoVe가 적합하며, 정확성을 높이면서 비범한 해결책을 장려한다.
안전‑중요 애플리케이션(의료 조언, 법률 초안)에서는 환각이 용납되지 않으므로 DoLa 또는 RAG를 고려한다. 창의성 손실을 어느 정도 감수할 수 있다면 DoLa가, 창의성을 유지하면서도 사실 기반을 원한다면 RAG가 최적이다.
제품 설계: 개발자는 “창의성‑대‑정확도” 토글을 제공해 내부적으로 CoVe, DoLa, RAG를 전환하도록 구현함으로써 최종 사용자가 트레이드‑오프를 직접 조절하게 할 수 있다.
프롬프트 엔지니어링: 검증 단계를(가벼운 것이어도) 추가하는 것이 정확도와 새로움을 동시에 끌어올리는 저비용 방법임을 시사한다—추가적인 검색 인프라 없이도 가능하다.

Limitations & Future Work

도메인 범위: 벤치마크가 코드와 개방형 글쓰기 위주이므로, 생물학·물리학 등 과학 분야에서는 다른 결과가 나올 수 있다.
검증 품질: CoVe의 검증 체인은 모델 자체의 자기 평가에 의존하므로 여전히 편향될 가능성이 있다; 외부 사실 확인기 활용은 아직 탐색되지 않았다.
확장성: CoVe는 추가 추론 패스를 요구해 지연 시간이 늘어난다—실시간 적용을 위해 검증 과정을 간소화하는 연구가 필요하다.
사용자 연구: 논문은 자동 메트릭과 전문가 평점으로 창의성을 측정했지만, 실제 사용자 만족도와 downstream 효과(예: 성공적인 가설 생성)는 아직 검증되지 않았다.
하이브리드 접근법: RAG의 기반 제공과 CoVe의 자기 검증을 결합하면 더 나은 정확성‑창의성 균형을 얻을 수 있다; 저자들은 향후 이러한 파이프라인을 탐구할 계획이다.

Authors

Mohor Banerjee
Nadya Yuki Wangsajaya
Syed Ali Redha Alsagoff
Min Sen Tan
Zachary Choy Kit Chun
Alvin Chan Guo Wei

Paper Information

arXiv ID: 2512.11509v1
Categories: cs.CL, cs.AI
Published: December 12, 2025
PDF: Download PDF

[Paper] 적은 환각이 적은 창의성을 의미할까? LLM에서의 실증적 조사

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] 신호에서 턴까지: 모듈형 Speech-to-Speech 파이프라인의 상호작용 마찰

[Paper] 대규모 신문 아카이브에서 Neural Topic Modeling을 통한 역사적 인사이트 추출 자동화

[Paper] 환각 억제: 정보이론적 보장을 통한 RAG 시스템의 Merlin-Arthur 프로토콜

[Paper] 블랙박스 언어 모델의 토큰 중요도 시각화