[논문] 답은 어디서 오는가? 자율주행 다중뷰 MLLM 시점별 시각 증거 식별 벤치마크
개요
멀티모달 대형 언어 모델(MLLM)은 시각적 추론 벤치마크에서 강력한 성과를 보이지만, 정답 정확도만으로는 모델이 올바른 시각적 증거에 의존했는지를 판단할 수 없습니다. 이 격차는 자율 주행에 사용되는 다중 뷰 운전 장면에서 특히 중요합니다. 모델이 설득력 있는 답변을 생성하더라도 잘못된 카메라 뷰에 근거할 수 있기 때문입니다. 우리는 증거 출처 식별을 평가하기 위한 다중 뷰 시각 질문 응답(VQA) 벤치마크를 제안합니다. 여섯 개의 동기화된 NuScenes 뷰와 질문이 주어지면, 모델은 지원하는 카메라 뷰를 식별하고 질문에 답해야 합니다. 이 벤치마크는 인과 관계, 반사실적 추론, 의도 예측을 아우르는 73개의 장면에서 122개의 갈등 중심 질문‑답변 쌍을 포함합니다. 뷰 라벨은 자동 갈등 마이닝 파이프라인을 통해 제안되고, 주석자에 의해 수동 검증됩니다. 우리는 세 가지 설정을 평가합니다: 카메라 뷰 선택, 골든 뷰가 주어졌을 때의 오라클 QA, 그리고 모델이 한 번에 뷰를 선택하고 답변을 생성하는 공동 예측. 답변은 구조화된 예측에 대해서는 정확히 일치하는지를, 자유형식 응답에 대해서는 LLM 심판을 사용해 평가합니다. 시각적 출처 식별을 정답 정확도와 명시적으로 분리함으로써, 이 벤치마크는 정답만으로는 놓칠 수 있는 근거 오류를 드러냅니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다.
- cs.CL
- cs.CV
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- Yimu Wang
- Yee Man Choi
- Barry Zhang
- Mozhgan Nasr Azadani
- Sean Sedwards
- Krzysztof Czarnecki
논문 정보
- arXiv ID: 2606.09644v1
- 분류: cs.CL, cs.CV
- 발표일: 2026년 6월 8일
- PDF: PDF 다운로드