[논문] 답은 어디서 오는가? 자율주행 다중뷰 MLLM 시점별 시각 증거 식별 벤치마크

발행: 3일 전 (2026년 6월 9일 AM 12:39 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.09644v1

개요

멀티모달 대형 언어 모델(MLLM)은 시각적 추론 벤치마크에서 강력한 성과를 보이지만, 정답 정확도만으로는 모델이 올바른 시각적 증거에 의존했는지를 판단할 수 없습니다. 이 격차는 자율 주행에 사용되는 다중 뷰 운전 장면에서 특히 중요합니다. 모델이 설득력 있는 답변을 생성하더라도 잘못된 카메라 뷰에 근거할 수 있기 때문입니다. 우리는 증거 출처 식별을 평가하기 위한 다중 뷰 시각 질문 응답(VQA) 벤치마크를 제안합니다. 여섯 개의 동기화된 NuScenes 뷰와 질문이 주어지면, 모델은 지원하는 카메라 뷰를 식별하고 질문에 답해야 합니다. 이 벤치마크는 인과 관계, 반사실적 추론, 의도 예측을 아우르는 73개의 장면에서 122개의 갈등 중심 질문‑답변 쌍을 포함합니다. 뷰 라벨은 자동 갈등 마이닝 파이프라인을 통해 제안되고, 주석자에 의해 수동 검증됩니다. 우리는 세 가지 설정을 평가합니다: 카메라 뷰 선택, 골든 뷰가 주어졌을 때의 오라클 QA, 그리고 모델이 한 번에 뷰를 선택하고 답변을 생성하는 공동 예측. 답변은 구조화된 예측에 대해서는 정확히 일치하는지를, 자유형식 응답에 대해서는 LLM 심판을 사용해 평가합니다. 시각적 출처 식별을 정답 정확도와 명시적으로 분리함으로써, 이 벤치마크는 정답만으로는 놓칠 수 있는 근거 오류를 드러냅니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다.

cs.CL
cs.CV

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.CL 분야의 발전에 기여합니다.

저자

Yimu Wang
Yee Man Choi
Barry Zhang
Mozhgan Nasr Azadani
Sean Sedwards
Krzysztof Czarnecki

논문 정보

arXiv ID: 2606.09644v1
분류: cs.CL, cs.CV
발표일: 2026년 6월 8일
PDF: PDF 다운로드

[논문] 답은 어디서 오는가? 자율주행 다중뷰 MLLM 시점별 시각 증거 식별 벤치마크

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[Paper] 한 시간짜리 영상에서 자연어 시간 정합은 검색 문제: 벤치마크와 실증적 분해

[논문] 포렌식 이미지 검색의 모달리티 격차 해소

[논문] CellNet – 희소하고 잡음이 섞인 포인트 주석으로 세포 위치 파악

[논문] 점진적 크기 기반 프루닝으로 한 번의 학습 사이클에서 희소 서브네트워크 찾기