[논문] 상관관계만으로는 부족하다: 개인 인과 발견을 위한 인간 메타데이터 삽입
개요
사전 학습된 바이오메디컬 언어 모델에 “cortisol 28 ug/dL”와 “주식시장 변동성”이 관련이 있는지 물어보면, 동일함을 1.0으로 하는 척도에서 코사인 유사도가 0.83이라고 반환한다. 두 개념은 전혀 메커니즘이 공유되지 않는다. 이는 특수한 경우가 아니다: 우리가 테스트한 모든 상용 바이오메디컬 인코더(BioBERT, PubMedBERT, BioM‑ELECTRA)는 관련이 없는 교차 도메인 쌍에 대해 0.760.92의 점수를 주며, 정답은 거의 0이어야 한다. 교차 도메인 구분 정확도는 0%이다. 검색 시스템은 언어 모델이 다운스트림에서 잡음을 필터링하기 때문에 이를 견뎌낸다. 그러나 사람을 대상으로 하는 기반 모델인 대형 행동 모델(LBM)은 그렇지 않다: 사용자의 삶 그래프 위에서 추론하고 임베딩 근접성을 두 사건이 인과적으로 연결되었다는 증거로 간주한다. 잘못된 근접성은 잘못된 인과 엣지를 만들고, 그 아래 모든 것이 오류를 물려받는다. 여기서 임베딩 기하학은 조정 가능한 노브가 아니라 정확성 자체이다. 우리는 해결책을 제시한다. 72,034개의 쌍에 대해 대조 학습을 적용한 결과 PubMedBERT BIOSSES 상관계수가 0.633에서 0.828로 상승하고, 도메인 내·외 구분 비율이 1.05배에서 1.63배로 개선되었다. 두 번째 단계인 BODHI는 바이오메디컬 지식 그래프에 존재하지 않는 엣지를 하드 네거티브로 채굴하여 구분 비율을 2.30배, 차이를 +0.392로 끌어올리며 BIOSSES 비용은 4.5%에 불과하다. Intel Xeon 6737P + AMX 환경에서 OpenVINO를 사용하면 단일 질의 지연시간이 1367 ms에서 10 ms(133배)로 단축되고 초당 555문장을 처리한다. 한 가지 발견은 표준 권고와 상반된다: 이 실리콘에서는 모든 서빙 배치 크기에서 FP16이 INT8보다 성능이 좋으며, 그 이유를 설명한다. 동일 모델을 AMX가 없는 Ice Lake 인스턴스에서 실행하면 1327배 느려진다. 우리는 벤치마크 스위트, 학습 코퍼스, BODHI 생성기, OpenVINO 스크립트를 공개한다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.AI
- cs.CL
- cs.LG
- cs.PF
- q-bio.QM
방법론
자세한 방법론은 전체 논문을 참고한다.
실용적 함의
본 연구는 cs.AI 분야의 발전에 기여한다.
저자
- Suraj Biswas
- Saurabh Gupta
- Pritam Mukherjee
논문 정보
- arXiv ID: 2606.09672v1
- 분류: cs.AI, cs.CL, cs.LG, cs.PF, q-bio.QM
- 발표일: 2026년 6월 8일
- PDF: PDF 다운로드