[논문] 상관관계만으로는 부족하다: 개인 인과 발견을 위한 인간 메타데이터 삽입

발행: 3일 전 (2026년 6월 9일 AM 12:54 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.09672v1

개요

사전 학습된 바이오메디컬 언어 모델에 “cortisol 28 ug/dL”와 “주식시장 변동성”이 관련이 있는지 물어보면, 동일함을 1.0으로 하는 척도에서 코사인 유사도가 0.83이라고 반환한다. 두 개념은 전혀 메커니즘이 공유되지 않는다. 이는 특수한 경우가 아니다: 우리가 테스트한 모든 상용 바이오메디컬 인코더(BioBERT, PubMedBERT, BioM‑ELECTRA)는 관련이 없는 교차 도메인 쌍에 대해 0.760.92의 점수를 주며, 정답은 거의 0이어야 한다. 교차 도메인 구분 정확도는 0%이다. 검색 시스템은 언어 모델이 다운스트림에서 잡음을 필터링하기 때문에 이를 견뎌낸다. 그러나 사람을 대상으로 하는 기반 모델인 대형 행동 모델(LBM)은 그렇지 않다: 사용자의 삶 그래프 위에서 추론하고 임베딩 근접성을 두 사건이 인과적으로 연결되었다는 증거로 간주한다. 잘못된 근접성은 잘못된 인과 엣지를 만들고, 그 아래 모든 것이 오류를 물려받는다. 여기서 임베딩 기하학은 조정 가능한 노브가 아니라 정확성 자체이다. 우리는 해결책을 제시한다. 72,034개의 쌍에 대해 대조 학습을 적용한 결과 PubMedBERT BIOSSES 상관계수가 0.633에서 0.828로 상승하고, 도메인 내·외 구분 비율이 1.05배에서 1.63배로 개선되었다. 두 번째 단계인 BODHI는 바이오메디컬 지식 그래프에 존재하지 않는 엣지를 하드 네거티브로 채굴하여 구분 비율을 2.30배, 차이를 +0.392로 끌어올리며 BIOSSES 비용은 4.5%에 불과하다. Intel Xeon 6737P + AMX 환경에서 OpenVINO를 사용하면 단일 질의 지연시간이 1367 ms에서 10 ms(133배)로 단축되고 초당 555문장을 처리한다. 한 가지 발견은 표준 권고와 상반된다: 이 실리콘에서는 모든 서빙 배치 크기에서 FP16이 INT8보다 성능이 좋으며, 그 이유를 설명한다. 동일 모델을 AMX가 없는 Ice Lake 인스턴스에서 실행하면 1327배 느려진다. 우리는 벤치마크 스위트, 학습 코퍼스, BODHI 생성기, OpenVINO 스크립트를 공개한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.AI
cs.CL
cs.LG
cs.PF
q-bio.QM

방법론

자세한 방법론은 전체 논문을 참고한다.

실용적 함의

본 연구는 cs.AI 분야의 발전에 기여한다.

저자

Suraj Biswas
Saurabh Gupta
Pritam Mukherjee

논문 정보

arXiv ID: 2606.09672v1
분류: cs.AI, cs.CL, cs.LG, cs.PF, q-bio.QM
발표일: 2026년 6월 8일
PDF: PDF 다운로드

[논문] 상관관계만으로는 부족하다: 개인 인과 발견을 위한 인간 메타데이터 삽입

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증

[논문] AuRA: 오디오 이해를 LoRA 방식으로 LLM에 내재화

[논문] 순차 추천을 위한 생성적 전형 기반 아이템 표현

[논문] 격차에 주목: 최첨단 LLM이 표준 사무 능력 시험을 통과할 수 있을까?