실제로 '뇌와 유사한' AI 모델은 무엇인가요? 이를 측정하기 위해 오픈소스 벤치마크를 만들었습니다
Source: Dev.to
Meta는 지난 주에 TRIBE v2를 발표했습니다 – 비디오, 오디오, 텍스트로부터 fMRI 뇌 활성화를 예측하는 기반 모델입니다. 제가 계속 되돌아가던 질문은:
AI 모델을 뇌와 엄격하고 통계적인 방식으로 실제로 어떻게 비교할 수 있을까?
그래서 저는 CortexLab을 만들었습니다 – TRIBE v2 위에 누락된 분석 레이어를 추가하는 오픈‑소스 툴킷입니다.
핵심 아이디어
어떤 모델이든 (예: CLIP, DINOv2, V‑JEPA2, LLaMA) 다음을 물어보세요:
- 내부 특징이 예측된 뇌 활동 패턴과 일치하는가?
- 어떤 뇌 영역과 매치되는가?
- 그 일치는 통계적으로 유의한가?
CortexLab으로 할 수 있는 일
모델을 뇌와 비교
- RSA, CKA, Procrustes 유사도 점수
- 순열 검정, 부트스트랩 신뢰구간, ROI별 FDR 보정
- 노이즈 천장 추정 (달성 가능한 정렬의 상한)
뇌 반응 분석
- 네 가지 차원(시각, 청각, 언어, 실행)에서 인지 부하 점수
- ROI별 피크 반응 지연 (피질 처리 계층 구조 드러냄)
- 지연 상관관계 및 지속성 vs. 일시적 반응 분해
뇌 네트워크 연구
- 부분 상관을 이용한 ROI 연결 행렬
- 네트워크 클러스터링, 모듈성, 차수/매개 중심성
실시간 추론
- BCI 스타일 파이프라인을 위한 슬라이딩‑윈도우 스트리밍 예측
- 최소한의 보정 데이터로 교차 피험자 적응
예시 결과
네 모델을 비교한 벤치마크 출력 (합성 데이터이므로 점수는 정렬 방법의 특성을 반영하며 실제 뇌 주장을 의미하지 않음):
clip-vit-b32:
rsa: +0.0407 (p=0.104, CI=[0.011, 0.203])
cka: +0.8561 (p=0.174, CI=[0.903, 0.937])
dinov2-vit-s:
rsa: -0.0052 (p=0.542, CI=[-0.042, 0.164])
cka: +0.8434 (p=0.403, CI=[0.895, 0.932])
vjepa2-vit-g:
rsa: +0.0121 (p=0.333, CI=[-0.010, 0.166])
cka: +0.8731 (p=0.438, CI=[0.915, 0.944])
llama-3.2-3b:
rsa: -0.0075 (p=0.642, CI=[-0.026, 0.145])
cka: +0.8848 (p=0.731, CI=[0.922, 0.949])
왜 이것이 단순히 TRIBE v2가 아닌가
TRIBE v2는 원시 정점‑레벨 뇌 예측을 제공합니다. CortexLab이 추가하는 것:
- 통계 검정 – 특정 점수가 의미 있는가?
- 해석 가능성 – 어떤 ROI, 어떤 모달리티, 시간이 지남에 따라 어떻게 변하는가?
- 모델 비교 프레임워크 – 모델 A가 모델 B보다 유의하게 좋은가?
이 레이어가 없으면 예측만 존재합니다; 이 레이어가 있으면 견고한 결론을 도출할 수 있습니다.
인터랙티브 데모 (GPU 필요 없음)
Streamlit 대시보드가 생물학적으로 현실적인 합성 데이터(HRF 컨볼루션, 모달리티‑특정 활성화, 공간 스무딩)를 포함합니다. 모든 분석 도구를 인터랙티브하게 탐색할 수 있습니다.
링크
- GitHub:
- Live demo:
- HuggingFace repo:
피드백을 찾습니다
특히 관심 있는 분야:
- RSA/CKA/Procrustes 외의 더 나은 정렬 메트릭
- ROI‑to‑인지‑차원 매핑의 신경과학적 타당성
- 실제 벤치마크 아이디어(데이터셋, 모델 비교)
구현이나 방법론에 대해 질문이 있으면 언제든지 알려 주세요.