OCR·Gemma, 증거 기반 건강 주장 검토용 ClaimSetu 발표
출처: Dev.to
이는 Gemma 4 Challenge: Build with Gemma 4에 대한 제출물입니다.
청구 검토는 챗봇 문제가 아니라 증거 문제입니다.
ClaimSetu는 한 가지 질문에 안전하게 답하도록 만들어졌습니다: 제출된 병원 청구 패킷에 인간 검토자가 진행할 수 있을 만큼 충분한 증거가 포함되어 있는가?
ClaimSetu는 로컬 우선(local‑first), 증거 기반의 청구 검토 보조 도구로, 건강 보험 워크플로우에 특화되었습니다. 스캔된 PDF, 사진, 퇴원 기록, 청구서, 검사 보고서, 시술 기록, 임상 노트 등 지저분한 청구 패킷을 읽어 검토자가 바로 사용할 수 있는 증거 팩으로 변환합니다.
ClaimSetu가 제공하는 내용
- 문서 분류 및 페이지 트라이애지
- 출처가 명시된 추출 청구 필드
- 입원·진단·치료·퇴원 타임라인 검증
- 누락 문서 및 약한 증거 플래그
- 패키지 규칙 결과
- 인간 검토를 위한 PASS / CONDITIONAL / REVIEW 권고
건강 보험 워크플로우에서 지연되거나 불명확한 청구 결정은 단순한 운영 문제를 넘어 병원, 보험사, 수혜자 간의 반복적인 소통을 초래합니다. ClaimSetu는 인간 의사결정자를 배제하지 않으면서 검토를 더 빠르고, 일관되며, 설명 가능하게 만드는 데 초점을 맞춥니다.
핵심 원칙은 간단합니다
OCR이 읽고, Gemma가 추론하고, 인간이 결정한다.
ClaimSetu는 자율적인 판정기가 아닙니다. 증거가 누락되었거나, 약하거나, 모순될 경우 추측하지 않고, CONDITIONAL 혹은 REVIEW 로 에스컬레이션하며 출처 기반 이유를 제시합니다.
동영상 안내: https://www.youtube.com/watch?v=pygwfJl8b5M
데모에서는 심각한 빈혈 청구 패킷을 검토합니다. 시스템은 입원 증거, 진단 증거, 임상 노트를 유용하게 식별하지만, 치료 상세 정보, 치료 후 증거, 퇴원 요약 증거가 누락됐음을 플래그합니다.
승인을 강제하기보다 CONDITIONAL 권고와 검토자를 위한 이유·증거 격차를 반환합니다.
원하는 행동: 자신감 넘치는 블랙박스가 아니라, 인간 검토자를 위한 신중한 공동 파일럿이 되는 것.
GitHub 저장소: https://github.com/ai-suraksha/claimsetu
저장소에 포함된 내용
claimsAssistant.py에 구현된 로컬 청구 검토 파이프라인app.py에 구현된 FastAPI 데모 앱demo/index.html에 구현된 인터랙티브 브라우저 데모- 아키텍처 및 디자인 자산
- Ollama를 통해 Gemma 4를 로컬에서 실행하기 위한 설정 안내
공개 저장소에는 실제 청구 패킷, 환자 식별자, 병원명, 의사명, 개인 주석 등이 포함되지 않습니다. 원시 청구 데이터는 로컬 및 비공개로 유지될 것으로 기대됩니다.
ClaimSetu는 Gemma 4를 하이브리드 증거 파이프라인의 이해·추론 레이어로 활용합니다.
설계 선택
-
Gemma를 블랙박스 OCR 엔진으로 사용하지 않았습니다. 의료 청구 검토는 출처 페이지, 추출 텍스트, 신뢰도, 증거 링크와 같은 추적 가능성이 필요합니다. 따라서 ClaimSetu는 먼저 PaddleOCR와 PyTesseract로 문서를 읽고, OCR 증거를 Gemma 4에 전달합니다.
-
두 모델 전략을 적용했습니다.
1️⃣ Gemma 4 E4B – 엣지 레이어 담당
- 잡음이 많은 OCR 텍스트 정리
- 페이지 트라이애지
- 문서 분류 폴백
- 지저분한 청구 페이지에서 구조화된 추출
E4B는 빠르고, 로컬이며, 다수 페이지에 반복 적용할 수 있어 적합했습니다.
2️⃣ Gemma 4 26B MoE – 추론 레이어 담당
- 청구 수준 타임라인 해석
- 패키지 규칙 추론
- 모순 탐지
- 검토자를 위한 설명
- PASS / CONDITIONAL / REVIEW 권고
26B MoE는 넓은 컨텍스트와 강력한 추론이 필요하면서도 로컬·로컬‑네트워크 추론을 지원할 수 있어 적합했습니다.
핵심 설계 포인트
모델의 추론을 안전성 강제와 분리했습니다. Gemma는 지저분한 증거를 해석하고 검토자가 다음에 확인해야 할 사항을 설명합니다. 반면 결정적 코드는 날짜 검증, 출처 텍스트 확인, 신뢰도 임계값, 누락 문서 규칙, 타임라인 일관성을 강제합니다.
이 분리 덕분에 ClaimSetu는 더 유용하고, 감사 가능하며, 의료 워크플로우에 더 안전해졌습니다.
얻은 교훈
규제된 워크플로우에서 LLM은 증거에 의해 제한될 때