내 ML 환경을 처음부터 설정하기: MedMind

발행: 2시간 전 (2026년 5월 2일 PM 04:50 GMT+9)

3 분 소요

Source: Dev.to

Overview – Day 1: Setting Up the Environment

나는 OpenAI API도 없고 튜토리얼식 래퍼도 없는 상태에서 임상 AI 시스템을 처음부터 구축하기로 했습니다. 목표는 직접 모델을 학습하고, 검색‑증강 생성(RAG) 파이프라인을 만들며, 전체를 배포하는 것입니다.

프로젝트 MedMind는 임상 질문을 받아 의료 지식 데이터베이스를 검색하고, 실제 의료 시험 문제로 미세‑조정된 모델을 사용해 답변을 생성합니다.

Full Stack

실제 의료 데이터셋을 다운로드하고 정제
그 데이터로 언어 모델을 미세‑조정
벡터 데이터베이스를 활용한 RAG 파이프라인 구축
모델을 정직하게 평가
FastAPI로 서비스 제공
Streamlit으로 UI 구축

Python Version

Python 3.11이 권장됩니다. PyTorch와 Hugging Face가 이 버전에 가장 좋은 지원을 제공하기 때문입니다.

Virtual Environment

python -m venv venv
# Windows
venv\Scripts\activate
# macOS / Linux
source venv/bin/activate

가상 환경을 만들면 프로젝트의 의존성을 시스템의 다른 부분과 격리할 수 있습니다.

Core Libraries

pip install torch transformers datasets peft trl accelerate
pip install chromadb sentence-transformers
pip install fastapi uvicorn streamlit

Library	Purpose
`transformers`	OPT, Mistral, LLaMA와 같은 사전 학습 모델에 접근
`peft`	LoRA를 이용한 효율적인 미세‑조정
`trl`	인스트럭션 미세‑조정을 간소화
`chromadb`	의료 지식을 저장하기 위한 벡터 데이터베이스
`sentence-transformers`	유사도 검색을 위한 텍스트 → 벡터 변환
`fastapi`	백엔드 API 서버
`uvicorn`	FastAPI용 ASGI 서버
`streamlit`	프론트‑엔드 UI 프레임워크

Project Structure

medmind/
├── data/       # data acquisition and cleaning scripts
├── training/   # fine‑tuning code
├── rag/        # retrieval pipeline
├── eval/       # evaluation scripts
├── api/        # FastAPI backend
└── frontend/   # Streamlit UI

Hardware Considerations

내 로컬 머신에는 GPU가 없으며, CPU에서 언어 모델을 학습하면 몇 주가 걸립니다. 따라서 전용 하드웨어가 없는 개발자들에게 흔히 쓰이는 Google Colab의 무료 T4 GPU를 사용합니다.

내 ML 환경을 처음부터 설정하기: MedMind

Overview – Day 1: Setting Up the Environment

Full Stack

Python Version

Virtual Environment

Core Libraries

Project Structure

Hardware Considerations

관련 글

Cilium 네트워크 정책 kubectl‑capture 기능이 디버깅을 위한 tcpdump 사이드카를 대체했습니다

AWS에서 멀티 VPC 아키텍처 구축

TestSprite 인도네시아 개발자를 위한: Localization Testing에 대한 심층 리뷰

AI는 당신의 Copilot이며, 인간을 대체하기 위한 것이 아니다.

Overview – Day 1: Setting Up the Environment

Full Stack

Python Version

Virtual Environment

Core Libraries

Project Structure

Hardware Considerations

관련 글

Cilium 네트워크 정책 kubectl‑capture 기능이 디버깅을 위한 tcpdump 사이드카를 대체했습니다

AWS에서 멀티 VPC 아키텍처 구축

TestSprite 인도네시아 개발자를 위한: Localization Testing에 대한 심층 리뷰

AI는 당신의 Copilot이며, 인간을 대체하기 위한 것이 아니다.

Overview – Day 1: Setting Up the Environment