[논문] 답은 어디서 오는가? 자율주행 다중뷰 MLLM 시점별 시각 증거 식별 벤치마크

발행: (2026년 6월 9일 AM 12:39 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.09644v1

개요

멀티모달 대형 언어 모델(MLLM)은 시각적 추론 벤치마크에서 강력한 성과를 보이지만, 정답 정확도만으로는 모델이 올바른 시각적 증거에 의존했는지를 판단할 수 없습니다. 이 격차는 자율 주행에 사용되는 다중 뷰 운전 장면에서 특히 중요합니다. 모델이 설득력 있는 답변을 생성하더라도 잘못된 카메라 뷰에 근거할 수 있기 때문입니다. 우리는 증거 출처 식별을 평가하기 위한 다중 뷰 시각 질문 응답(VQA) 벤치마크를 제안합니다. 여섯 개의 동기화된 NuScenes 뷰와 질문이 주어지면, 모델은 지원하는 카메라 뷰를 식별하고 질문에 답해야 합니다. 이 벤치마크는 인과 관계, 반사실적 추론, 의도 예측을 아우르는 73개의 장면에서 122개의 갈등 중심 질문‑답변 쌍을 포함합니다. 뷰 라벨은 자동 갈등 마이닝 파이프라인을 통해 제안되고, 주석자에 의해 수동 검증됩니다. 우리는 세 가지 설정을 평가합니다: 카메라 뷰 선택, 골든 뷰가 주어졌을 때의 오라클 QA, 그리고 모델이 한 번에 뷰를 선택하고 답변을 생성하는 공동 예측. 답변은 구조화된 예측에 대해서는 정확히 일치하는지를, 자유형식 응답에 대해서는 LLM 심판을 사용해 평가합니다. 시각적 출처 식별을 정답 정확도와 명시적으로 분리함으로써, 이 벤치마크는 정답만으로는 놓칠 수 있는 근거 오류를 드러냅니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

  • cs.CL
  • cs.CV

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

  • Yimu Wang
  • Yee Man Choi
  • Barry Zhang
  • Mozhgan Nasr Azadani
  • Sean Sedwards
  • Krzysztof Czarnecki

논문 정보

  • arXiv ID: 2606.09644v1
  • 분류: cs.CL, cs.CV
  • 발표일: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »