[논문] M³Exam: 현실적인 사용자‑에이전트 상호작용을 위한 다중모달 메모리 벤치마크
개요
언어 에이전트는 점점 더 많은 멀티모달 정보를 활용하고 있지만, 기존 벤치마크는 시각 자료가 드물고 내용이 단순한 인간‑대인 형태를 가정하여 실제 멀티모달 파일 상호작용에 대한 추론이나 숨겨진 사용자 정보를 해석하는 능력을 평가하지 못합니다. 따라서 우리는 현실적인 사용자‑에이전트 상호작용을 기반으로 한 질의 중심 멀티모달 대화 메모리 벤치마크 M³Exam을 도입합니다. 이 벤치마크는 교차 모달 정합 및 암시적 정보 추론을 포함한 다차원 평가를 제공하며, MLLM 및 메모리 시스템을 테스트한 결과 교차 모달 정합, 세션 간 추론, 그리고 멀티모달 컨텍스트 축적에 따른 효율성 비용에서 지속적인 격차가 드러났습니다. 또한 우리는 질의 모달 편향을 감지하고 필요할 때만 원시 시각 소스를 활용하는 멀티모달 메모리 방법 M³Proctor를 제안합니다. 이 방법은 정확도를 13% 향상시키면서 인덱스 구축 시간과 검색 토큰을 70% 이상 절감합니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다.
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- Zhengjun Huang
- Wenxuan Liu
- Zhoujin Tian
- Wei Chen
- Junle Chen
- Yuqian Wu
- Fangyuan Zhang
- Qintian Guo
- Xiaofang Zhou
논문 정보
- arXiv ID: 2606.07402v1
- 분류: cs.CL
- 발표일: 2026년 6월 5일
- PDF: PDF 다운로드