[Paper] VLMs는 Natural Reading 중 LLM에 비해 Human Alignment를 전반적으로 향상시키지 않을 수 있다
Source: arXiv - 2605.28818v1
개요
이 논문은 비전‑언어 모델(VLM)이 일반 텍스트를 읽을 때 표준 대형 언어 모델(LLM)보다 인간의 뇌 활동 및 안구 움직임 패턴과 더 유사한 텍스트 표현을 생성하는지를 조사한다. 각 VLM을 밀접하게 매치된 LLM과 짝지어 순수 텍스트 읽기 과제에 테스트함으로써, 저자들은 멀티모달 사전학습의 효과를 실시간 시각 입력과 분리한다. 그 결과는 멀티모달 학습이 전반적으로 이점을 제공하지 않으며, 이점은 시각적 의미가 풍부한 문장에만 나타난다는 것을 시사한다.
주요 기여
- 제어된 비교 of LLM–VLM pairs under a text‑only reading paradigm, eliminating confounds from online visual cues.
- 정렬 벤치마크 using whole‑cortex fMRI recordings and synchronized eye‑tracking saccades from human participants reading naturalistic passages.
- 다중모달 사전학습이 모델‑인간 정렬에서 전역적인 개선이 아니라 선택적인 개선을 가져온다는 증거, especially for visually evocative sentences.
- 오픈소스 인실리코 프레임워크 for probing how training history (visual vs. purely linguistic) shapes language representations in the brain.
Source: …
방법론
- 모델 선택 – 각 VLM(예: CLIP‑ 기반, Flamingo‑ 스타일)에 대해 저자들은 동일한 아키텍처 크기와 토크나이저를 가진 LLM을 선택했으며, 사전 훈련 데이터(멀티모달 vs. 텍스트 전용)만이 다르게 설정되었습니다.
- 자극 – 참가자들은 연속적인 자연어 텍스트를 읽는 동안 뇌 활동(fMRI)과 안구 움직임이 기록되었습니다. 동일한 텍스트는 모델에도 순수 텍스트 형태로 입력되었습니다.
- 표현 추출 – 각 모델 레이어의 은닉 상태 활성화가 토큰마다 기록되었습니다.
- 정렬 메트릭
- 신경 정렬: 선형 인코딩 모델이 모델 활성화를 voxel‑별 fMRI 응답에 매핑하며, 상관계수 점수로 적합도를 정량화합니다.
- 안구 움직임 정렬: 예측된 주의 가중치(예: 트랜스포머 어텐션 헤드)와 실제 눈 움직임 착지 위치를 공간 유사도 메트릭으로 비교합니다.
- 선택적 분석 – 문장은 시각적 의미 밀도(예: 구체적인 명사 존재, 생생한 이미지)로 주석이 달렸으며, 낮은 시각적 내용 그룹과 높은 시각적 내용 그룹 간에 정렬 점수를 비교했습니다.
결과 및 발견
- 전역적인 이점 없음: 전체 코퍼스에 걸쳐 VLM과 LLM은 fMRI 패턴과 시선 이동 위치를 예측하는 데 비슷한 성능을 보였다.
- 선택적 향상: 시각적 의미가 풍부한 문장(예: “진홍색 석양이 지평선을 물들였다”)에 대해 VLM은 신경 및 시선 추적 정렬 모두에서 약간이지만 통계적으로 유의한 개선을 보였으며(≈3–5% 높은 상관관계).
- 층별 패턴: 이점은 중간 트랜스포머 층에서 가장 두드러졌으며, 이는 시각 사전학습이 최종 출력 층보다 중간 표현을 재구성한다는 것을 시사한다.
- 교차 모달 일관성: 더 나은 신경 정렬을 만든 동일한 문장이 시선 이동 정렬도 향상시켰으며, 이는 공유된 기본 표현이 존재한다는 개념을 강화한다.
실용적 함의
- 읽기 보조 도구를 위한 모델 선택 – 인간의 읽기 행동을 예측해야 하는 애플리케이션(예: 적응형 전자책, 시선 기반 UI)을 구축할 때, 대상 콘텐츠가 시각적으로 매우 풍부하지 않은 한 일반 LLM만으로도 충분할 수 있다.
- 미세조정 전략 – 방대한 멀티모달 코퍼스를 처음부터 학습하는 대신, 개발자는 시각 의미가 중요한 도메인(기술 매뉴얼, 스토리텔링 등)에서 선택적으로 시각적 기반(예: 이미지‑캡션 쌍)을 주입할 수 있다.
- 신경‑AI 진단 – 정렬 프레임워크는 인간 인지를 시뮬레이션하려는 모든 언어 모델에 대한 sanity check 역할을 할 수 있다; 개발자는 fMRI/눈‑추적 데이터와 비교 벤치마크를 수행해 “인간 유사성”을 평가할 수 있다.
- 자원 할당 – 멀티모달 사전학습은 계산 비용이 많이 들기 때문에, 팀은 이를 특수한 사용 사례에만 우선 적용하고, 보다 넓은 NLP 작업을 위해 컴퓨팅 및 탄소 예산을 절약할 수 있다.
제한 사항 및 향후 연구
- 데이터셋 범위 – 이 연구는 단일 자연 독해 데이터셋을 사용했으며, 다른 언어, 장르 또는 보다 다양한 참여자 풀에서는 결과가 달라질 수 있습니다.
- 정적 시각 콘텐츠 – 텍스트 전용 입력만을 검토했으며, 실시간 시각 컨텍스트(예: 삽화가 포함된 기사)는 VLM의 이점을 더욱 증폭시킬 수 있습니다.
- 모델 다양성 – 분석은 제한된 VLM 아키텍처 집합에 초점을 맞췄으며, 최신 비전‑언어 트랜스포머는 더 강한 정렬을 보일 수 있습니다.
- 인과 메커니즘 – 상관관계는 확인되었지만, 시각 사전학습이 언어 표현에 영향을 미치는 정확한 신경 메커니즘은 아직 명확하지 않습니다. 향후 연구에서는 제거(ablation) 연구를 통해 인과성을 탐구하거나 추론 단계에서 명시적인 시각 기반을 통합할 수 있습니다.
저자
- Jinzhou Wu
- Zhengwu Ma
- Jixing Li
- Baoping Tang
- Zitong Lu
논문 정보
- arXiv ID: 2605.28818v1
- 카테고리: cs.CL, q-bio.NC
- 발행일: 2026년 5월 27일
- PDF: PDF 다운로드