[Paper] 멀티 프레임워크 커뮤니케이션 코딩을 위한 Agentic AI 시스템

발행: (2025년 12월 9일 오후 11:46 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.08659v1

Overview

이 논문은 MOSAIC이라는 모듈형 AI 시스템을 소개한다. MOSAIC은 여러 커뮤니케이션 프레임워크를 활용해 임상 대화를 자동으로 주석 달 수 있다. LangGraph 워크플로우에서 특화된 에이전트를 체인으로 연결함으로써, MOSAIC은 인간 수준에 근접한 정확도를 달성하면서도 다양한 의료 전문 분야와 코딩 스키마에 유연하게 적용될 수 있다.

Key Contributions

  • Agentic Architecture: 네 개의 협업 에이전트(Plan, Update, Annotation, Verification)로 구성된 LangGraph 기반 파이프라인을 도입하여 코드북 선택, 데이터 검색, 생성, 일관성 검사를 함께 수행한다.
  • Multi‑Framework Support: 단일 모델을 재학습하지 않고도 여러 기존 커뮤니케이션 코드북(예: 환자 행동, 제공자 공감)을 지원한다.
  • Retrieval‑Augmented Generation (RAG) + Dynamic Few‑Shot Prompting: 최신 도메인 문헌과 실시간 프롬프트 구성을 결합해 시스템을 최신 상태이면서도 상황 인식이 가능하도록 만든다.
  • High Empirical Performance: 50개의 전사본을 보유한 테스트 셋에서 전체 F1 점수 0.928을 달성했으며, 류마티스학에서는 최고 F1 0.962를 기록했다.
  • Open‑Source‑Ready Design: LangGraph 위에 구축되어 있어 개발자가 기존 헬스‑테크 파이프라인에 쉽게 확장하거나 삽입할 수 있다.

Methodology

  1. Plan Agent – 사용자가 지정한 커뮤니케이션 프레임워크(예: “Patient Behavior”)를 받아 적절한 코드북을 선택하고, 하위 에이전트를 위한 단계별 워크플로우를 설계한다.
  2. Update Agent – 임상 문헌, 가이드라인, 기존 주석 전사본의 벡터 스토어를 주기적으로 갱신하여 검색 컴포넌트가 최신 근거를 활용하도록 한다.
  3. Annotation Agents – 대화의 각 세그먼트에 대해 retrieval‑augmented generation을 수행한다:
    • 벡터 스토어에서 상위 k개의 관련 구절을 검색한다.
    • 코드북 정의와 검색된 스니펫을 포함한 dynamic few‑shot prompt를 만든다.
    • 대형 언어 모델(LLM)을 이용해 해당 세그먼트에 대한 라벨(또는 라벨 집합)을 생성한다.
  4. Verification Agent – 전체 전사본에 대해 일관성 검사를 실행한다(예: 모순되는 라벨이 없고 코드북 제약을 준수하는지). 검증 결과는 Annotation Agents에 교정 피드백으로 전달된다.

전체 파이프라인은 LangGraph에 의해 오케스트레이션되며, 각 에이전트를 방향성 그래프의 노드로 취급한다. 이를 통해 디버깅, 병렬 실행, 컴포넌트 교체가 손쉽게 이루어진다.

Results & Findings

Domain / SubsetF1 ScoreNotable Strength
Overall Test Set0.928프레임워크 전반에 걸쳐 일관된 높은 성능
Rheumatology0.962풍부한 학습 데이터 덕분에 최고 성능
OB/GYN~0.89다소 낮지만 여전히 강력한 성능
Patient Behavior LabelsHighest precision/recall질문, 선호도, 주장성을 잘 포착

Ablation 연구 결과, 네 개 에이전트 중 하나라도 제거하면 성능이 3–7 포인트 감소함을 확인했다. 이는 계획, 최신 검색, 검증이 모두 필수적임을 의미한다. 단일‑작업 LLM 베이스라인에 비해 MOSAIC은 평균 F1를 약 0.12 향상시킨다.

Practical Implications

  • Scalable Annotation: 헬스‑테크 플랫폼은 대규모 제공자‑환자 대화를 자동으로 코딩해 품질 개선 대시보드, 규정 준수 모니터링, 연구 데이터셋 등에 활용할 수 있다(별도 주석 인력 필요 없음).
  • Rapid Adaptation: 새로운 커뮤니케이션 프레임워크(예: shared decision‑making)를 추가하고 싶다면 코드북만 삽입하면 Plan Agent가 워크플로우를 자동으로 구성한다—전체 모델 재학습 불필요.
  • Continuous Learning: Update Agent의 검색 데이터베이스를 최신 임상 가이드라인으로 매일 갱신함으로써 시스템이 최신 베스트 프랙티스를 반영하도록 유지한다.
  • Developer Friendly: LangGraph 기반이므로 기본 LLM을 OpenAI GPT‑4에서 로컬 Llama 2 등으로 교체하거나, 벡터 스토어(Faiss, Milvus 등)를 최소한의 코드 변경으로 교체할 수 있다.
  • Regulatory & Auditable: Verification Agent가 일관성 검사를 기록하므로 컴플라이언스 감사 시 로그를 활용하거나 AI 결정에 대한 인간 친화적 설명을 생성할 수 있다.

Limitations & Future Work

  • Training Data Size: 금표준 전사본이 26개에 불과해 성능은 인상적이지만, 더 크고 다양화된 데이터셋에 대한 검증이 필요하다.
  • Domain Transfer: OB/GYN에서 약간의 성능 저하가 관찰되었으며, 이는 추가적인 도메인‑특화 파인튜닝이나 풍부한 검색 코퍼스가 필요함을 시사한다.
  • Explainability: Verification Agent가 불일치를 로그로 남기지만, 각 라벨에 대한 자연어 형태의 이유를 아직 제공하지 않는다—이 부분을 향후 연구에서 다룰 계획이다.
  • Real‑World Deployment: 노이즈가 많은 음성 전사, 다국어 대화, 프라이버시를 고려한 온‑디바이스 임베딩 등은 실제 서비스 적용 시 해결해야 할 과제이다.

Bottom line: MOSAIC은 에이전트 기반·검색 강화 접근법이 임상 커뮤니케이션 코딩에 인간 수준에 근접한 품질을 제공함을 증명한다. 이는 헬스‑테크 생태계에서 확장 가능하고 적응력 있는 AI 도구의 도입을 열어준다.

Authors

  • Bohao Yang
  • Rui Yang
  • Joshua M. Biro
  • Haoyuan Wang
  • Jessica L. Handley
  • Brianna Richardson
  • Sophia Bessias
  • Nicoleta Economou‑Zavlanos
  • Armando D. Bedoya
  • Monica Agrawal
  • Michael M. Zavlanos
  • Anand Chowdhury
  • Raj M. Ratwani
  • Kai Sun
  • Kathryn I. Pollak
  • Michael J. Pencina
  • Chuan Hong

Paper Information

  • arXiv ID: 2512.08659v1
  • Categories: cs.CL, cs.LG
  • Published: December 9, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »