[Paper] 적은 환각이 적은 창의성을 의미할까? LLM에서의 실증적 조사
Source: arXiv - 2512.11509v1
Overview
논문 **“Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs”**는 놀라울 정도로 실용적인 질문을 제기합니다: 대형 언어 모델(LLM)의 “환각”(즉, 잘못된 사실을 생성) 경향을 억제하면 모델의 새롭고 창의적인 아이디어를 생성하는 능력도 함께 약해지는가? 세 가지 인기 있는 환각 감소 기법을 여러 모델 패밀리에서 테스트한 결과, 답은 선택한 방법에 따라 다르다는 것이 밝혀졌습니다. 이는 AI‑지원 연구 도구, 브레인스토밍 어시스턴트, 창의적 코딩 도우미를 구축하는 모든 사람에게 중요한 정보입니다.
Key Contributions
- 체계적인 비교: 환각‑감소 전략 세 가지—Chain of Verification (CoVe), Decoding by Contrasting Layers (DoLa), Retrieval‑Augmented Generation (RAG)—가 창의성에 미치는 영향을 비교.
- 광범위한 실험 범위: 세 가지 LLM 패밀리(LLaMA, Qwen, Mistral)와 1 B~70 B 파라미터 규모.
- 이중 벤치마크 평가: NeoCoder(코드‑생성 창의성)와 CS4(개방형 창의적 글쓰기) 사용.
- 실증적 발견: 환각‑감소 방법이 발산적 창의성에 반대 효과를 보임—CoVe는 창의성을 높이고, DoLa는 억제하며, RAG는 거의 중립적.
- 실무 가이드: 사실 정확성과 창의적 가설 생성이 동시에 요구되는 AI‑지원 과학 탐색 파이프라인을 구축하는 개발자를 위한 지침 제공.
Methodology
-
환각‑감소 기법
- Chain of Verification (CoVe): 모델이 먼저 답을 생성한 뒤, 검증 체인(자기 질문, 사실 확인)을 수행하고 최종 결과를 출력.
- Decoding by Contrasting Layers (DoLa): 초기와 후기 트랜스포머 레이어의 은닉 상태 표현을 대비시켜 디코딩 과정을 수정, “보수적인” 토큰 선택을 장려.
- Retrieval‑Augmented Generation (RAG): 외부 지식 베이스에서 상위 k개의 관련 문서를 프롬프트에 추가해 생성물을 기반에 맞게 정렬.
-
모델 패밀리 및 규모
- LLaMA, Qwen, Mistral – 각각 1 B, 7 B, 13 B, 30 B, 70 B(가능한 경우) 규모로 평가.
-
창의성 벤치마크
- NeoCoder: 새로운 코드 스니펫을 생성하도록 요구하는 프롬프트(예: “새로운 변형의 traveling‑salesperson 문제를 해결하는 함수를 작성하라”).
- CS4: 다수의 타당한 연속성을 허용하고 독창성 점수를 매기는 개방형 스토리/아이디어 프롬프트, 발산적 사고 측정에 특화.
-
측정 지표
- 환각 비율: 금본위 지식 베이스와 자동 사실 확인 및 인간 검증을 통해 측정.
- 창의성: 표준 발산‑사고 지표—유창성, 독창성, 유연성—을 n‑gram 다양성, 의미적 새로움, 인간 평가자를 통해 산출.
-
실험 프로토콜
- 각 모델‑기법 조합마다 벤치마크당 500개의 응답을 생성.
- 베이스라인(일반 디코딩) 대비 환각 감소율을 계산.
- 모델 크기를 통제하면서 기법별 창의성 점수를 비교.
Results & Findings
| Technique | Hallucination ↓ | NeoCoder Creativity ↑ | CS4 Creativity ↑ |
|---|---|---|---|
| CoVe | ‑28 % (vs. baseline) | +12 % (significant) | +9 % |
| DoLa | ‑22 % | ‑15 % (significant drop) | ‑13 % |
| RAG | ‑25 % | ±1 % (no statistical change) | ±2 % |
- CoVe는 환각을 줄일 뿐만 아니라 발산적 사고를 촉진한다. 검증 체인이 일종의 “자기 반성” 단계로 작용해 모델이 최종 선택 전에 대안을 탐색하도록 만든다.
- DoLa는 환각을 감소시키지만 창의성은 감소한다; 레이어 대비 디코딩이 모델을 더 안전하고 “정형화된” 토큰 선택으로 몰아가며 새로움을 제한한다.
- RAG는 모델을 기반에 맞게 고정시키면서도 창의성 폭에 눈에 띄는 영향을 주지 않는다—사실 기반이 필요하지만 모델의 상상력을 유지하고 싶을 때 유용.
- 이러한 효과는 모델 패밀리와 규모 전반에 걸쳐 일관되며, 특히 큰 모델(≥30 B)은 DoLa에 의한 창의성 감소가 다소 완화되는 경향을 보여 규모가 일부 보상 역할을 할 수 있음을 시사한다.
Practical Implications
- AI‑지원 연구 도구(예: 가설 생성기, 문헌 리뷰 어시스턴트)는 CoVe를 채택하면 사실 검증과 창의적 도약을 동시에 얻을 수 있다—예를 들어 “그럴듯하지만 새로운 메커니즘을 생성하고, 이후 알려진 화학 지식과 대조해 검증한다.”
- 코드‑생성 플랫폼에서 신뢰성 있으면서도 혁신적인 스니펫이 필요할 경우(예: 새로운 알고리즘 자동 완성) 역시 CoVe가 적합하며, 정확성을 높이면서 비범한 해결책을 장려한다.
- 안전‑중요 애플리케이션(의료 조언, 법률 초안)에서는 환각이 용납되지 않으므로 DoLa 또는 RAG를 고려한다. 창의성 손실을 어느 정도 감수할 수 있다면 DoLa가, 창의성을 유지하면서도 사실 기반을 원한다면 RAG가 최적이다.
- 제품 설계: 개발자는 “창의성‑대‑정확도” 토글을 제공해 내부적으로 CoVe, DoLa, RAG를 전환하도록 구현함으로써 최종 사용자가 트레이드‑오프를 직접 조절하게 할 수 있다.
- 프롬프트 엔지니어링: 검증 단계를(가벼운 것이어도) 추가하는 것이 정확도와 새로움을 동시에 끌어올리는 저비용 방법임을 시사한다—추가적인 검색 인프라 없이도 가능하다.
Limitations & Future Work
- 도메인 범위: 벤치마크가 코드와 개방형 글쓰기 위주이므로, 생물학·물리학 등 과학 분야에서는 다른 결과가 나올 수 있다.
- 검증 품질: CoVe의 검증 체인은 모델 자체의 자기 평가에 의존하므로 여전히 편향될 가능성이 있다; 외부 사실 확인기 활용은 아직 탐색되지 않았다.
- 확장성: CoVe는 추가 추론 패스를 요구해 지연 시간이 늘어난다—실시간 적용을 위해 검증 과정을 간소화하는 연구가 필요하다.
- 사용자 연구: 논문은 자동 메트릭과 전문가 평점으로 창의성을 측정했지만, 실제 사용자 만족도와 downstream 효과(예: 성공적인 가설 생성)는 아직 검증되지 않았다.
- 하이브리드 접근법: RAG의 기반 제공과 CoVe의 자기 검증을 결합하면 더 나은 정확성‑창의성 균형을 얻을 수 있다; 저자들은 향후 이러한 파이프라인을 탐구할 계획이다.
Authors
- Mohor Banerjee
- Nadya Yuki Wangsajaya
- Syed Ali Redha Alsagoff
- Min Sen Tan
- Zachary Choy Kit Chun
- Alvin Chan Guo Wei
Paper Information
- arXiv ID: 2512.11509v1
- Categories: cs.CL, cs.AI
- Published: December 12, 2025
- PDF: Download PDF