[Paper] VLMs는 Natural Reading 중 LLM에 비해 Human Alignment를 전반적으로 향상시키지 않을 수 있다

발행: (2026년 5월 28일 AM 02:59 GMT+9)
8 분 소요
원문: arXiv

Source: arXiv - 2605.28818v1

개요

이 논문은 비전‑언어 모델(VLM)이 일반 텍스트를 읽을 때 표준 대형 언어 모델(LLM)보다 인간의 뇌 활동 및 안구 움직임 패턴과 유사한 텍스트 표현을 생성하는지를 조사한다. 각 VLM을 밀접하게 매치된 LLM과 짝지어 순수 텍스트 읽기 과제에 테스트함으로써, 저자들은 멀티모달 사전학습의 효과를 실시간 시각 입력과 분리한다. 그 결과는 멀티모달 학습이 전반적으로 이점을 제공하지 않으며, 이점은 시각적 의미가 풍부한 문장에만 나타난다는 것을 시사한다.

주요 기여

  • 제어된 비교 of LLM–VLM pairs under a text‑only reading paradigm, eliminating confounds from online visual cues.
  • 정렬 벤치마크 using whole‑cortex fMRI recordings and synchronized eye‑tracking saccades from human participants reading naturalistic passages.
  • 다중모달 사전학습이 모델‑인간 정렬에서 전역적인 개선이 아니라 선택적인 개선을 가져온다는 증거, especially for visually evocative sentences.
  • 오픈소스 인실리코 프레임워크 for probing how training history (visual vs. purely linguistic) shapes language representations in the brain.

Source:

방법론

  1. 모델 선택 – 각 VLM(예: CLIP‑ 기반, Flamingo‑ 스타일)에 대해 저자들은 동일한 아키텍처 크기와 토크나이저를 가진 LLM을 선택했으며, 사전 훈련 데이터(멀티모달 vs. 텍스트 전용)만이 다르게 설정되었습니다.
  2. 자극 – 참가자들은 연속적인 자연어 텍스트를 읽는 동안 뇌 활동(fMRI)과 안구 움직임이 기록되었습니다. 동일한 텍스트는 모델에도 순수 텍스트 형태로 입력되었습니다.
  3. 표현 추출 – 각 모델 레이어의 은닉 상태 활성화가 토큰마다 기록되었습니다.
  4. 정렬 메트릭
    • 신경 정렬: 선형 인코딩 모델이 모델 활성화를 voxel‑별 fMRI 응답에 매핑하며, 상관계수 점수로 적합도를 정량화합니다.
    • 안구 움직임 정렬: 예측된 주의 가중치(예: 트랜스포머 어텐션 헤드)와 실제 눈 움직임 착지 위치를 공간 유사도 메트릭으로 비교합니다.
  5. 선택적 분석 – 문장은 시각적 의미 밀도(예: 구체적인 명사 존재, 생생한 이미지)로 주석이 달렸으며, 낮은 시각적 내용 그룹과 높은 시각적 내용 그룹 간에 정렬 점수를 비교했습니다.

결과 및 발견

  • 전역적인 이점 없음: 전체 코퍼스에 걸쳐 VLM과 LLM은 fMRI 패턴과 시선 이동 위치를 예측하는 데 비슷한 성능을 보였다.
  • 선택적 향상: 시각적 의미가 풍부한 문장(예: “진홍색 석양이 지평선을 물들였다”)에 대해 VLM은 신경 및 시선 추적 정렬 모두에서 약간이지만 통계적으로 유의한 개선을 보였으며(≈3–5% 높은 상관관계).
  • 층별 패턴: 이점은 중간 트랜스포머 층에서 가장 두드러졌으며, 이는 시각 사전학습이 최종 출력 층보다 중간 표현을 재구성한다는 것을 시사한다.
  • 교차 모달 일관성: 더 나은 신경 정렬을 만든 동일한 문장이 시선 이동 정렬도 향상시켰으며, 이는 공유된 기본 표현이 존재한다는 개념을 강화한다.

실용적 함의

  • 읽기 보조 도구를 위한 모델 선택 – 인간의 읽기 행동을 예측해야 하는 애플리케이션(예: 적응형 전자책, 시선 기반 UI)을 구축할 때, 대상 콘텐츠가 시각적으로 매우 풍부하지 않은 한 일반 LLM만으로도 충분할 수 있다.
  • 미세조정 전략 – 방대한 멀티모달 코퍼스를 처음부터 학습하는 대신, 개발자는 시각 의미가 중요한 도메인(기술 매뉴얼, 스토리텔링 등)에서 선택적으로 시각적 기반(예: 이미지‑캡션 쌍)을 주입할 수 있다.
  • 신경‑AI 진단 – 정렬 프레임워크는 인간 인지를 시뮬레이션하려는 모든 언어 모델에 대한 sanity check 역할을 할 수 있다; 개발자는 fMRI/눈‑추적 데이터와 비교 벤치마크를 수행해 “인간 유사성”을 평가할 수 있다.
  • 자원 할당 – 멀티모달 사전학습은 계산 비용이 많이 들기 때문에, 팀은 이를 특수한 사용 사례에만 우선 적용하고, 보다 넓은 NLP 작업을 위해 컴퓨팅 및 탄소 예산을 절약할 수 있다.

제한 사항 및 향후 연구

  • 데이터셋 범위 – 이 연구는 단일 자연 독해 데이터셋을 사용했으며, 다른 언어, 장르 또는 보다 다양한 참여자 풀에서는 결과가 달라질 수 있습니다.
  • 정적 시각 콘텐츠 – 텍스트 전용 입력만을 검토했으며, 실시간 시각 컨텍스트(예: 삽화가 포함된 기사)는 VLM의 이점을 더욱 증폭시킬 수 있습니다.
  • 모델 다양성 – 분석은 제한된 VLM 아키텍처 집합에 초점을 맞췄으며, 최신 비전‑언어 트랜스포머는 더 강한 정렬을 보일 수 있습니다.
  • 인과 메커니즘 – 상관관계는 확인되었지만, 시각 사전학습이 언어 표현에 영향을 미치는 정확한 신경 메커니즘은 아직 명확하지 않습니다. 향후 연구에서는 제거(ablation) 연구를 통해 인과성을 탐구하거나 추론 단계에서 명시적인 시각 기반을 통합할 수 있습니다.

저자

  • Jinzhou Wu
  • Zhengwu Ma
  • Jixing Li
  • Baoping Tang
  • Zitong Lu

논문 정보

  • arXiv ID: 2605.28818v1
  • 카테고리: cs.CL, q-bio.NC
  • 발행일: 2026년 5월 27일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »