[Paper] Mull-Tokens: 모달리티에 구애받지 않는 잠재적 사고
발행: (2025년 12월 12일 오전 03:59 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.10941v1
개요
Mull‑Tokens는 텍스트와 이미지 모두에서 중간 “생각”을 담을 수 있는 모달리티에 구애받지 않는 잠재 추론 레이어를 도입합니다. 이러한 토큰을 공유 작업 공간으로 학습시킴으로써, 모델은 무거운 전문 도구나 수작업 추론 파이프라인에 의존하지 않고 시각 및 언어 정보를 자유롭게 전환할 수 있습니다. 그 결과, 공간‑중심 벤치마크에서 성능을 크게 끌어올리는 보다 견고하고 확장 가능한 멀티모달 추론 접근법이 탄생했습니다.
주요 기여
- 모달리티에 구애받지 않는 잠재 토큰 (Mull‑Tokens) – 텍스트와 이미지를 위한 범용 추론 버퍼 역할.
- 두 단계 학습 레시피: (1) 텍스트‑이미지 추론 트레이스를 교차시킨 감독 사전학습, 이어서 (2) 최종 정답 감독만을 이용한 비감독 파인튜닝.
- 실험적 향상 – 평균 정확도 +3 % 및 네 개의 공간 추론 데이터셋에서 퍼즐‑솔빙 분할에 대해 최대 +16 % 향상, 텍스트 전용 및 교차형 베이스라인을 능가.
- 실용적인 레시피 – 기존 비전‑언어 아키텍처에 최소한의 구조 변경만으로 Mull‑Tokens를 통합하는 방법 제공.
방법론
- 잠재 토큰 설계 – 소수의 학습 가능한 벡터(즉, Mull‑Tokens)를 트랜스포머 토큰 스트림에 추가합니다. 이 벡터들은 특정 모달리티에 얽매이지 않으며 시각 임베딩, 텍스트 임베딩, 혹은 그 혼합을 흡수할 수 있습니다.
- 감독 사전학습 – 모델에 추론 트레이스를 제공: 텍스트 프롬프트와 이미지 패치가 교차하는 시퀀스로, 각 단계에서 Mull‑Tokens가 포착해야 할 “생각”을 알려주는 중간 감독이 포함됩니다.
- 자기지도 파인튜닝 – 트레이스 수준의 감독을 제거한 뒤, 최종 정답(예: 다중 선택 라벨)만으로 모델을 학습합니다. Mull‑Tokens는 명시적 지시 없이도 필요한 중간 추론을 스스로 조직합니다.
- 통합 – Mull‑Tokens를 표준 비전‑언어 백본(e.g., ViLT, CLIP‑based transformers)에 삽입합니다. 추론 시 모델은 단순히 순전파만 수행하면 되며, 토큰이 자동으로 교차 모달 정보 흐름을 중재합니다.
결과 및 발견
| 벤치마크 (공간 추론) | 베이스라인 (텍스트‑전용) | 베이스라인 (교차형) | Mull‑Tokens | 베스트 베이스라인 대비 Δ |
|---|---|---|---|---|
| 퍼즐‑솔브 (Heavy) | 62 % | 68 % | 84 % | +16 % |
| 3D‑퍼스펙티브 시프트 | 71 % | 73 % | 76 % | +3 % |
| 객체‑관계 그리드 | 68 % | 70 % | 73 % | +3 % |
| 다단계 내비게이션 | 65 % | 66 % | 69 % | +3 % |
- 모든 네 데이터셋에서 일관된 개선 – 공유 잠재 작업 공간이 시각 및 텍스트 단서를 융합하는 데 도움이 됨을 확인.
- 소거 실험에서는 감독된 트레이스 단계가 제거될 경우 성능이 약 5 % 감소, 토큰 역학 형성에 이 단계가 핵심임을 강조.
- 토큰 수 분석에서는 8개 Mull‑Tokens를 초과하면 수익이 감소, 용량과 계산 비용 사이의 최적점이 존재함을 시사.
실용적 함의
- 단순화된 파이프라인 – 개발자는 별도의 OCR, 씬 그래프 생성기, 추론 모듈 등을 체인하는 복잡한 구조를 Mull‑Tokens가 추가된 단일 트랜스포머로 대체할 수 있습니다.
- 새 도메인에 대한 확장성 – 토큰이 모달리티에 구애받지 않으므로 로봇공학, AR/VR, 전자상거래 등 공간 또는 어포던스 추론이 필요한 다양한 분야에 동일 아키텍처를 파인튜닝할 수 있습니다.
- 추론 비용 감소 – 외부 이미지 생성기나 심볼릭 추론 엔진이 필요 없으며, 추가 토큰 임베딩은 메모리 부담이 미미합니다.
- 플러그‑앤‑플레이 – 기존 비전‑언어 모델에 몇 줄의 코드만 추가하면 Mull‑Tokens를 적용할 수 있어, 레이아웃 지시를 이해하는 가상 비서와 같은 “시각 상식”이 필요한 제품의 빠른 프로토타이핑에 매력적입니다.
제한점 및 향후 연구
- 도메인 특이성 – 현재 트레이스는 공간 퍼즐에 맞춰 제작되었으며, 추상적 추론(예: 인과 추론)에서의 성능은 아직 검증되지 않음.
- 토큰 용량 한계 – 8개의 토큰이 잘 작동하지만, 보다 복잡하고 다단계 작업에서는 계층적 토큰 구조나 동적 토큰 할당이 필요할 수 있음.
- 해석 가능성 – 잠재 생각은 직접 인간이 읽을 수 있는 형태가 아니며, 향후 토큰 활성화를 탐색하거나 시각화하여 디버깅에 활용하는 연구가 필요.
- 교차 모달 사전학습 데이터 – 여전히 고품질 텍스트‑이미지 교차 데이터에 의존하므로, 더 크고 다양화된 트레이스 코퍼스를 구축하면 일반화 능력이 더욱 향상될 가능성이 있음.
핵심 요약: Mull‑Tokens는 멀티모달 모델에 공유 “생각 공간”을 제공하는 깔끔하고 확장 가능한 방법을 제시하며, 복잡한 공간 추론 작업에서 측정 가능한 성능 향상을 달성하면서도 실제 배포에 충분히 단순한 엔지니어링 스택을 유지합니다.
저자
- Arijit Ray
- Ahmed Abdelkader
- Chengzhi Mao
- Bryan A. Plummer
- Kate Saenko
- Ranjay Krishna
- Leonidas Guibas
- Wen‑Sheng Chu
논문 정보
- arXiv ID: 2512.10941v1
- 분류: cs.CV, cs.AI
- 발표일: 2025년 12월 11일
- PDF: Download PDF