내 ML 환경을 처음부터 설정하기: MedMind
발행: (2026년 5월 2일 PM 04:50 GMT+9)
3 분 소요
원문: Dev.to
Source: Dev.to
Overview – Day 1: Setting Up the Environment
나는 OpenAI API도 없고 튜토리얼식 래퍼도 없는 상태에서 임상 AI 시스템을 처음부터 구축하기로 했습니다. 목표는 직접 모델을 학습하고, 검색‑증강 생성(RAG) 파이프라인을 만들며, 전체를 배포하는 것입니다.
프로젝트 MedMind는 임상 질문을 받아 의료 지식 데이터베이스를 검색하고, 실제 의료 시험 문제로 미세‑조정된 모델을 사용해 답변을 생성합니다.
Full Stack
- 실제 의료 데이터셋을 다운로드하고 정제
- 그 데이터로 언어 모델을 미세‑조정
- 벡터 데이터베이스를 활용한 RAG 파이프라인 구축
- 모델을 정직하게 평가
- FastAPI로 서비스 제공
- Streamlit으로 UI 구축
Python Version
Python 3.11이 권장됩니다. PyTorch와 Hugging Face가 이 버전에 가장 좋은 지원을 제공하기 때문입니다.
Virtual Environment
python -m venv venv
# Windows
venv\Scripts\activate
# macOS / Linux
source venv/bin/activate
가상 환경을 만들면 프로젝트의 의존성을 시스템의 다른 부분과 격리할 수 있습니다.
Core Libraries
pip install torch transformers datasets peft trl accelerate
pip install chromadb sentence-transformers
pip install fastapi uvicorn streamlit
| Library | Purpose |
|---|---|
transformers | OPT, Mistral, LLaMA와 같은 사전 학습 모델에 접근 |
peft | LoRA를 이용한 효율적인 미세‑조정 |
trl | 인스트럭션 미세‑조정을 간소화 |
chromadb | 의료 지식을 저장하기 위한 벡터 데이터베이스 |
sentence-transformers | 유사도 검색을 위한 텍스트 → 벡터 변환 |
fastapi | 백엔드 API 서버 |
uvicorn | FastAPI용 ASGI 서버 |
streamlit | 프론트‑엔드 UI 프레임워크 |
Project Structure
medmind/
├── data/ # data acquisition and cleaning scripts
├── training/ # fine‑tuning code
├── rag/ # retrieval pipeline
├── eval/ # evaluation scripts
├── api/ # FastAPI backend
└── frontend/ # Streamlit UI
Hardware Considerations
내 로컬 머신에는 GPU가 없으며, CPU에서 언어 모델을 학습하면 몇 주가 걸립니다. 따라서 전용 하드웨어가 없는 개발자들에게 흔히 쓰이는 Google Colab의 무료 T4 GPU를 사용합니다.