[Paper] VLMs는 Natural Reading 중 LLM에 비해 Human Alignment를 전반적으로 향상시키지 않을 수 있다

발행: 2주 전 (2026년 5월 28일 AM 02:59 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2605.28818v1

개요

이 논문은 비전‑언어 모델(VLM)이 일반 텍스트를 읽을 때 표준 대형 언어 모델(LLM)보다 인간의 뇌 활동 및 안구 움직임 패턴과 더 유사한 텍스트 표현을 생성하는지를 조사한다. 각 VLM을 밀접하게 매치된 LLM과 짝지어 순수 텍스트 읽기 과제에 테스트함으로써, 저자들은 멀티모달 사전학습의 효과를 실시간 시각 입력과 분리한다. 그 결과는 멀티모달 학습이 전반적으로 이점을 제공하지 않으며, 이점은 시각적 의미가 풍부한 문장에만 나타난다는 것을 시사한다.

주요 기여

제어된 비교 of LLM–VLM pairs under a text‑only reading paradigm, eliminating confounds from online visual cues.
정렬 벤치마크 using whole‑cortex fMRI recordings and synchronized eye‑tracking saccades from human participants reading naturalistic passages.
다중모달 사전학습이 모델‑인간 정렬에서 전역적인 개선이 아니라 선택적인 개선을 가져온다는 증거, especially for visually evocative sentences.
오픈소스 인실리코 프레임워크 for probing how training history (visual vs. purely linguistic) shapes language representations in the brain.

Source: …

방법론

모델 선택 – 각 VLM(예: CLIP‑ 기반, Flamingo‑ 스타일)에 대해 저자들은 동일한 아키텍처 크기와 토크나이저를 가진 LLM을 선택했으며, 사전 훈련 데이터(멀티모달 vs. 텍스트 전용)만이 다르게 설정되었습니다.
자극 – 참가자들은 연속적인 자연어 텍스트를 읽는 동안 뇌 활동(fMRI)과 안구 움직임이 기록되었습니다. 동일한 텍스트는 모델에도 순수 텍스트 형태로 입력되었습니다.
표현 추출 – 각 모델 레이어의 은닉 상태 활성화가 토큰마다 기록되었습니다.
정렬 메트릭
- 신경 정렬: 선형 인코딩 모델이 모델 활성화를 voxel‑별 fMRI 응답에 매핑하며, 상관계수 점수로 적합도를 정량화합니다.
- 안구 움직임 정렬: 예측된 주의 가중치(예: 트랜스포머 어텐션 헤드)와 실제 눈 움직임 착지 위치를 공간 유사도 메트릭으로 비교합니다.
선택적 분석 – 문장은 시각적 의미 밀도(예: 구체적인 명사 존재, 생생한 이미지)로 주석이 달렸으며, 낮은 시각적 내용 그룹과 높은 시각적 내용 그룹 간에 정렬 점수를 비교했습니다.

결과 및 발견

전역적인 이점 없음: 전체 코퍼스에 걸쳐 VLM과 LLM은 fMRI 패턴과 시선 이동 위치를 예측하는 데 비슷한 성능을 보였다.
선택적 향상: 시각적 의미가 풍부한 문장(예: “진홍색 석양이 지평선을 물들였다”)에 대해 VLM은 신경 및 시선 추적 정렬 모두에서 약간이지만 통계적으로 유의한 개선을 보였으며(≈3–5% 높은 상관관계).
층별 패턴: 이점은 중간 트랜스포머 층에서 가장 두드러졌으며, 이는 시각 사전학습이 최종 출력 층보다 중간 표현을 재구성한다는 것을 시사한다.
교차 모달 일관성: 더 나은 신경 정렬을 만든 동일한 문장이 시선 이동 정렬도 향상시켰으며, 이는 공유된 기본 표현이 존재한다는 개념을 강화한다.

실용적 함의

읽기 보조 도구를 위한 모델 선택 – 인간의 읽기 행동을 예측해야 하는 애플리케이션(예: 적응형 전자책, 시선 기반 UI)을 구축할 때, 대상 콘텐츠가 시각적으로 매우 풍부하지 않은 한 일반 LLM만으로도 충분할 수 있다.
미세조정 전략 – 방대한 멀티모달 코퍼스를 처음부터 학습하는 대신, 개발자는 시각 의미가 중요한 도메인(기술 매뉴얼, 스토리텔링 등)에서 선택적으로 시각적 기반(예: 이미지‑캡션 쌍)을 주입할 수 있다.
신경‑AI 진단 – 정렬 프레임워크는 인간 인지를 시뮬레이션하려는 모든 언어 모델에 대한 sanity check 역할을 할 수 있다; 개발자는 fMRI/눈‑추적 데이터와 비교 벤치마크를 수행해 “인간 유사성”을 평가할 수 있다.
자원 할당 – 멀티모달 사전학습은 계산 비용이 많이 들기 때문에, 팀은 이를 특수한 사용 사례에만 우선 적용하고, 보다 넓은 NLP 작업을 위해 컴퓨팅 및 탄소 예산을 절약할 수 있다.

제한 사항 및 향후 연구

데이터셋 범위 – 이 연구는 단일 자연 독해 데이터셋을 사용했으며, 다른 언어, 장르 또는 보다 다양한 참여자 풀에서는 결과가 달라질 수 있습니다.
정적 시각 콘텐츠 – 텍스트 전용 입력만을 검토했으며, 실시간 시각 컨텍스트(예: 삽화가 포함된 기사)는 VLM의 이점을 더욱 증폭시킬 수 있습니다.
모델 다양성 – 분석은 제한된 VLM 아키텍처 집합에 초점을 맞췄으며, 최신 비전‑언어 트랜스포머는 더 강한 정렬을 보일 수 있습니다.
인과 메커니즘 – 상관관계는 확인되었지만, 시각 사전학습이 언어 표현에 영향을 미치는 정확한 신경 메커니즘은 아직 명확하지 않습니다. 향후 연구에서는 제거(ablation) 연구를 통해 인과성을 탐구하거나 추론 단계에서 명시적인 시각 기반을 통합할 수 있습니다.

저자

Jinzhou Wu
Zhengwu Ma
Jixing Li
Baoping Tang
Zitong Lu

논문 정보

arXiv ID: 2605.28818v1
카테고리: cs.CL, q-bio.NC
발행일: 2026년 5월 27일
PDF: PDF 다운로드

[Paper] VLMs는 Natural Reading 중 LLM에 비해 Human Alignment를 전반적으로 향상시키지 않을 수 있다

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] 언어 모델이 구문은 물론 구성 의미론까지 학습한다: 페어드 포커스 구문 이해 조사

[논문] LongTraceRL: 루브릭 보상으로 검색 에이전트 궤적에서 장기 문맥 추론 학습

[논문] 먼저 마스크가 해제되는 것은? 그래프‑텍스트 생성 확산 모델의 궤적 분석

[논문] 상반되는 근거: 혐오 발언 탐지에서 분류와 설명 가능성 평가 재고