[논문] GRAMformer: 임의 순서 모달리티 상호작용을 위한 체적 멀티모달 교차 주의

발행: 6일 전 (2026년 6월 4일 PM 11:52 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.06249v1

개요

Transformer 기반 멀티모달 모델은 이질적인 모달리티 간 정보를 통합하기 위해 어텐션 메커니즘에 의존합니다. 성공에도 불구하고 기존 멀티모달 어텐션 공식은 쌍별 점곱 연산 집합을 통해 점수를 계산하거나, 여러 모달리티를 모두 키에 연결(concatenate)하는 방식을 사용합니다. 이는 여러 모달리티가 동시에 관여해야 할 경우에도 적용됩니다. 그 결과, 현재 접근법은 모달리티 수에 대해 2차 복잡도를 초래하거나, 다중 표현의 공동 구성을 의존하는 상호작용을 명시적으로 모델링하지 못합니다. 본 연구에서는 쿼리와 다수의 모달리티‑특정 키의 공동 기하학을 함수로 정의한 새로운 교차 어텐션 메커니즘인 Volumetric Multimodal cross-Attention (VMA) 를 제안합니다. VMA는 여러 모달리티에 걸친 쿼리와 키 벡터가 형성하는 부피(volume)를 계산함으로써, 쌍별 유사성을 넘어서는 공동 멀티모달 종속성을 포착하고, 任의 차수의 모달리티 상호작용을 자연스럽게 모델링합니다. 우리는 VMA를 GRAMformer 라는 새로운 멀티모달 트랜스포머 아키텍처에 통합했으며, 이는 임의 개수의 모달리티를 통합하도록 명시적으로 설계되었습니다. 제안 모델을 멀티모달 학습 과제에 적용해 평가한 결과, 효율성과 효과성 모두에서 향상을 확인했습니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다:

cs.CV
cs.LG

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여합니다.

저자

Giordano Cicchetti
Eleonora Grassucci
Danilo Comminiello

논문 정보

arXiv ID: 2606.06249v1
분류: cs.CV, cs.LG
발표일: 2026년 6월 4일
PDF: PDF 다운로드

[논문] GRAMformer: 임의 순서 모달리티 상호작용을 위한 체적 멀티모달 교차 주의

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 장기 컨텍스트 자율주행을 위한 계획에 맞춘 토큰 압축

[논문] TEVI: 희소 오토인코더를 활용한 텍스트 조건부 시각 표현 편집으로 비전‑언어 정렬 개선

[논문] 시청·기억·추론: 인간 시각 비디오 이해와 MLLM