[Paper] MoD‑DPO: Omni LLM에서 Cross‑modal Hallucinations를 완화하기 위한 Modality Decoupled Preference Optimization 활용

발행: (2026년 3월 4일 오전 02:50 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2603.03192v1

개요

Omni‑modal 대형 언어 모델(LLM)은 텍스트, 이미지, 오디오를 하나의 시스템에서 동시에 추론할 수 있지만, 종종 “환각”을 일으켜 시각 또는 청각 입력과 일치하지 않는 답변을 생성합니다. 논문 MoD‑DPO는 이러한 모델에게 관련 없는 신호는 무시하고 올바른 모달리티에 기반하도록 명시적으로 학습시키는 경량 훈련 레시피를 소개하여 교차 모달 환각을 크게 감소시킵니다.

주요 기여

  • Modality‑Decoupled Direct Preference Optimization (MoD‑DPO): 표준 DPO 손실에 모달리티 인식 정규화를 추가하는 새로운 파인튜닝 프레임워크.
  • Invariance & Sensitivity Regularization: 모델이 비관련 모달리티의 손상(예: 시각 질문에 답할 때의 잡음이 섞인 오디오)에 대해 불변하도록 하고, 관련 모달리티의 변동에 대해서는 민감하도록 강제한다.
  • Language‑Prior Debiasing Penalty: 텍스트 전용 응답이 언어 사전 지식에 의해 주도될 가능성이 높은 경우 이를 벌점으로 부과하는 항목.
  • Empirical Validation: 기존 선호 최적화 방법과 동일한 연산 예산으로 여러 시청각 벤치마크에서 환각 비율을 최첨단 수준으로 감소시킨 실증적 검증.
  • Scalable Design: 이 접근법은 기존 omni‑LLM에 구조적 변경 없이 바로 적용 가능한 추가 모듈로 작동한다.

Source:

방법론

  1. Base Model – 사전 학습된 옴니‑모달 LLM(예: Flamingo‑2, LLaVA‑Video)에서 시작하며, 이미 텍스트‑이미지‑오디오 입력을 지원합니다.
  2. Preference Data – 모델 출력 쌍을 수집합니다: 관련 모달리티를 올바르게 참조하는 “좋은” 응답과, 모달리티를 무시하거나 언어 선행에 의존하는 “나쁜” 응답.
  3. Direct Preference Optimization (DPO) – 선호 쌍에 대해 이진 교차 엔트로피 손실을 사용해 좋은 응답에 더 높은 가능도를 부여하도록 모델을 최적화합니다.
  4. Modality‑Decoupled Regularizers
    • Irrelevant‑Modality Invariance: 비관련 모달리티를 무작위로 손상시킵니다(예: 작업이 오디오‑질문 응답일 때 이미지를 흐리게). 그리고 좋은 응답에 대한 모델의 로짓이 변하지 않도록 강제합니다.
    • Relevant‑Modality Sensitivity: 관련 모달리티에 약간의 교란을 가합니다(예: 오디오에 배경 소음 추가)고, 모델의 로짓이 비례적으로 변하도록 요구하여 진정한 grounding을 촉진합니다.
  5. Language‑Prior Debiasing – 텍스트 프롬프트만 입력했을 때 모델이 동일한 답을 생성할 확률에 비례하는 패널티를 추가하여 “텍스트‑전용 지름길”을 억제합니다.
  6. Training Loop – 최종 손실은 DPO 항, 두 정규화 항, 그리고 디바이싱 패널티의 가중합입니다. 선호 데이터셋에 대해 몇 에포크만 학습하면 되므로 전체 규모의 멀티모달 사전 학습보다 비용이 훨씬 적게 듭니다.

결과 및 발견

BenchmarkBaseline DPO Hallucination RateMoD‑DPO Hallucination RatePerception Accuracy (↑)
AVQA‑Hallucination (audio‑visual QA)23%12%+5.4 pts
Video‑Storytelling (visual‑only)18%9%+4.1 pts
Multimodal NLI (text‑+‑image)21%11%+6.2 pts
  • 일관된 향상: 세 가지 데이터셋 모두에서 MoD‑DPO는 환각을 대략 40‑50% 감소시키면서 정답 정확도를 향상시킵니다.
  • 컴퓨팅 효율: 이 방법은 동일한 GPU‑시간(≈ 2‑3 k GPU‑h)을 사용하여 기존 DPO 베이스라인과 동등하거나 능가합니다.
  • 절제 실험 인사이트: 불변성 항을 제거하면 환각이 15% 증가하고, 언어‑사전 페널티를 제외하면 텍스트‑전용 편향이 8% 증가합니다.
  • 견고성: 모델은 분포 외 모달리티 손상에 직면해도 안정성을 유지하여 일반화가 향상됨을 나타냅니다.

실용적 함의

  • 보다 신뢰할 수 있는 어시스턴트: 멀티모달 챗봇(예: 비디오 지원 에이전트, 오디오 안내 편집기)을 개발하는 개발자는 MoD‑DPO를 통합하여 어시스턴트의 응답이 제공된 미디어를 실제로 반영하도록 보장함으로써 사용자 불만을 줄일 수 있다.
  • 안전 및 규정 준수: 의료 영상, 자율 주행 등 규제된 분야에서는 근거 보장이 필수적이며, MoD‑DPO는 모델 출력이 환각되지 않았음을 검증할 수 있는 실용적인 방법을 제공한다.
  • 비용 효율적인 파인튜닝: 이 방법은 기존 기반 모델 위에서 작동하고 선호 데이터만 필요하므로(인간이 참여하거나 LLM 자체 순위 매김을 통해 생성 가능) 팀은 대규모 사전 학습 예산 없이도 멀티모달 충실도를 향상시킬 수 있다.
  • 툴링 통합: 정규화 모듈은 간단한 PyTorch 모듈이며, 인기 라이브러리(예: 🤗 Transformers)에 “모달리티 인식 DPO” 트레이너로 래핑할 수 있어 도입 장벽을 낮춘다.
  • 향상된 사용자 경험: 비디오 요약, 캡션 작성, 멀티모달 검색과 같은 애플리케이션은 시각·음성 신호와 일치하는 결과를 제공하여 참여도와 신뢰도를 높인다.

제한 사항 및 향후 작업

  • Preference Data Dependency – MoD‑DPO는 여전히 고품질 선호 쌍이 필요합니다; 틈새 도메인에 대해 대규모로 생성하는 것은 노동 집약적일 수 있습니다.
  • Modality Scope – 이 논문은 오디오‑비주얼 작업에 초점을 맞추고 있으며, 정규화자를 다른 모달리티(예: 깊이, 3‑D 포인트 클라우드, 센서 데이터)로 확장하는 것은 아직 미해결 과제입니다.
  • Perturbation Design – 불변성/민감도 정규화의 효과는 교란 선택에 달려 있습니다; 최적이 아닌 교란은 모델을 과도하게 제한하거나 미묘한 교차 모달리티 단서를 포착하지 못할 수 있습니다.
  • Long‑Form Consistency – 짧은 QA와 캡션은 개선되지만, 긴 서사나 다중 턴 대화에서 모달리티 충실도를 유지하는 것은 추가 연구가 필요합니다.
  • Future Directions – 저자들은 교란 강도에 대한 자동 커리큘럼 학습 탐색, 대조적 멀티모달 목표 통합, 언어와 비디오, 3‑D, 센서 스트림을 결합한 신흥 기반 모델에 대한 MoD‑DPO 평가를 제안합니다.

저자

  • Ashutosh Chaubey
  • Jiacheng Pang
  • Mohammad Soleymani

논문 정보

  • arXiv ID: 2603.03192v1
  • 분류: cs.CV, cs.CL, cs.LG
  • 출판일: 2026년 3월 3일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »