[Paper] NoLan: 대형 비전-언어 모델에서 객체 환각을 완화하기 위한 언어 사전의 동적 억제

발행: (2026년 2월 26일 오전 02:50 GMT+9)
7 분 소요
원문: arXiv

Source: arXiv - 2602.22144v1

개요

Large Vision‑Language Models (LVLMs) have become the go‑to backbone for multimodal assistants, but they often “hallucinate” objects that aren’t actually in the picture. This paper digs into why that happens and proposes a lightweight, training‑free decoding tweak—NoLan—that dramatically cuts hallucinations without sacrificing performance.

핵심 기여

  • Root‑cause analysis: 체계적인 실험을 통해 언어 디코더의 강한 사전 지식이, 비전 인코더가 아니라, 객체 환상의 주요 원인임을 보여준다.
  • NoLan framework: 다중모달과 텍스트 전용 출력 분포 간의 차이를 기반으로 언어 사전 지식을 동적으로, 추론 시에 억제하는 방식을 도입한다.
  • Training‑free solution: 추가 모델 파라미터나 미세 조정이 필요 없으며, 이 방법은 기존 LVLM에 플러그인 형태로 적용된다.
  • Broad validation: 여러 LVLM(LLaVA‑1.5 7B, Qwen‑VL 7B 등) 및 작업(POPE, VQA, 캡셔닝)에서 일관된 환상 감소를 입증한다.
  • Open‑source release: 코드와 통합 스크립트가 공개되어 빠른 도입을 장려한다.

방법론

  1. 파이프라인 분해 – 저자들은 동일한 시각적 특징을 텍스트‑전용 언어 모델에 입력하고 그 출력 분포를 전체 LVLM의 출력 분포와 비교함으로써 비전 인코더와 언어 디코더를 분리합니다.
  2. 사전 영향 측정 – 그들은 다중모달 출력 분포와 텍스트‑전용 기준선 사이의 KL‑발산을 계산합니다. 큰 발산은 언어 디코더가 강한 사전을 주입하고 있음을 나타냅니다.
  3. 동적 억제 – 디코딩 중에 NoLan은 언어 사전에 의해 과도하게 상승된 로짓(원시 토큰 점수)을 축소합니다. 스케일링 팩터는 관찰된 발산에 따라 결정되며, 차이가 클수록 억제가 강해집니다.
  4. 구현 – 이 기법은 표준 빔‑서치 또는 샘플링 디코더를 감싸는 얇은 래퍼이며, 추가 학습 데이터, 그래디언트, 혹은 구조적 변경이 필요하지 않습니다.

결과 및 발견

모델작업기본 정확도NoLan 정확도Δ 개선
LLaVA‑1.5 7BPOPE (환각 벤치마크)71.3 %77.8 %+6.5 %
Qwen‑VL 7BPOPE68.9 %76.1 %+7.2 %
Various LVLMsVQA & 이미지 캡셔닝비슷하거나 약간 낮음동일하거나 높음≤ 0 % 손실, 종종 +1‑2 %

주요 요점

  • NoLan은 모델과 작업 전반에 걸쳐 허위 객체 생성 비율을 지속적으로 낮춥니다.
  • 이 방법은 디코딩 로짓만 수정하므로 실제로 오버헤드가 거의 없습니다 (추론당 ≈ 1 ms).
  • 이 접근법은 모델이 유창하고 문맥을 고려한 언어를 생성하는 능력을 저하시키지 않습니다.

실용적 함의

  • 배포‑준비 안전 레이어: 팀은 NoLan을 기존 LVLM 서비스(예: 챗봇, 시각 어시스턴트)에 통합하여 재학습 없이 출력의 신뢰성을 높일 수 있습니다.
  • 규제 준수: 환각 현상을 감소시켜 검증 가능한 출력을 요구하는 새로운 AI 투명성 표준을 충족하는 데 도움이 됩니다.
  • 비용 효율적인 개선: NoLan은 추론 전용이므로 대규모 멀티모달 모델을 미세조정하는 데 드는 계산 비용을 절감합니다.
  • 향상된 사용자 경험: 잘못된 객체 언급이 줄어들어 정확한 시각적 기반을 필요로 하는 하위 파이프라인(예: 로봇공학, AR 오버레이)의 지시가 명확해집니다.

제한 사항 및 향후 연구

  • 환각의 범위: 이 연구는 객체 환각에 초점을 맞추고 있으며, 다른 유형(예: 속성 또는 관계 환각)은 다루지 않는다.
  • 텍스트 전용 베이스라인 모델에 대한 의존성: 억제 계수의 효과는 비교에 사용된 텍스트 전용 디코더의 품질에 달려 있다.
  • 과도한 억제 가능성: 언어 사전이 실제로 올바른 경우(예: 상식 추론)와 같은 극단적인 상황에서 NoLan이 유용한 정보를 억제할 수 있다.
  • 향후 방향: 동적 억제 개념을 속성 환각 처리로 확장하고, 토큰 유형별 적응 임계값을 탐색하며, 보다 긴밀한 비전‑언어 피드백 루프를 위해 시각적 그라운딩 검사를 통합한다.

저자

  • Lingfeng Ren
  • Weihao Yu
  • Runpeng Yu
  • Xinchao Wang

논문 정보

  • arXiv ID: 2602.22144v1
  • 분류: cs.CV, cs.AI, cs.CL
  • 출판일: 2026년 2월 25일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »