[Paper] 인 실리코에서 인 비트로로: 히트 생성용 분자 생성 모델 평가
발행: (2025년 12월 26일 오후 11:02 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2512.22031v1
개요
논문 From In Silico to In Vitro: Evaluating Molecule Generative Models for Hit Generation 은 간단하지만 대담한 질문을 제기합니다: 최신 딥‑생성 AI가 실제로 초기 약물 발견 워크플로에 바로 투입될 수 있는 “히트‑유사” 분자를 생성할 수 있는가? 히트 생성 작업을 독립적인 과제로 다룸으로써, 저자들은 여러 최첨단 생성 모델을 벤치마크하고, 맞춤형 다중 기준 파이프라인으로 평가했으며, 심지어 예측된 GSK‑3β 억제제 몇 가지를 합성하여 실험실에서 활성을 확인했습니다.
주요 기여
- “히트‑유사 분자 생성”을 독립적이고 측정 가능한 과제로 최초 공식화 – 전체 약물 발견 파이프라인의 모호한 구성 요소가 아니라 명확한 작업으로 정의했습니다.
- 포괄적인 평가 프레임워크 구축 – 물리화학 필터, 구조 유사성 검사, 타깃‑특이 도킹 점수를 결합하여 현실적인 “히트‑유사” 화학 공간을 정의했습니다.
- 세 가지 생성 아키텍처 벤치마킹 (두 개의 자동회귀 모델과 하나의 확산 기반 모델) – 다양한 학습 데이터셋 및 설정에서 성능을 비교했습니다.
- 실증적 검증: 여러 AI‑생성 화합물을 합성하고 실험적으로 GSK‑3β 억제제로서 활성을 확인했습니다.
- 현재 메트릭에 대한 비판적 분석 – 표준 생성 모델 점수(유효성, 독창성, 새로움)와 실제 약물 발견 관련성 사이의 격차를 드러냈습니다.
방법론
- Data Curation – 공개 바이오활성 데이터베이스(예: ChEMBL)를 필터링하여 GSK‑3β를 포함한 여러 단백질에 대한 타깃‑특이적 학습 세트를 만들었다. 각 세트는 “hit‑like”(고친화)와 “non‑hit” 분자로 나뉘었다.
- Model Selection –
- Autoregressive Model A (SMILES 기반 RNN).
- Autoregressive Model B (Transformer 스타일 언어 모델).
- Diffusion Model (무작위 분자 그래프를 반복적으로 디노이징하는 그래프 기반 확산 프로세스).
- Training Regimes – 모델은 세 가지 조건에서 학습되었다: (i) 전체 데이터셋 학습, (ii) 히트 전용 파인튜닝, (iii) 보조 속성 예측기를 활용한 멀티‑태스크 학습.
- Multi‑Stage Filtering Pipeline – 생성된 분자는 다음을 통과한다:
- Physicochemical filters (Lipinski, PAINS, synthetic accessibility).
- Structural similarity to known actives (Tanimoto ≥ 0.4).
- Docking against the target protein (AutoDock Vina) to obtain a binding‑score threshold.
- Metrics – 표준 생성 모델 지표(validity, uniqueness, novelty)와 hit‑likeness score(전체 파이프라인을 통과한 분자의 비율).
- Experimental Validation – 상위 순위의 GSK‑3β 후보 물질을 합성·정제하고 효소 억제 assay에서 테스트하였다.
Results & Findings
| Model | Validity | Uniqueness | Novelty | Hit‑likeness (post‑filter) |
|---|---|---|---|---|
| Autoregressive A | 98 % | 92 % | 85 % | 12 % |
| Autoregressive B | 99 % | 95 % | 88 % | 15 % |
| Diffusion | 97 % | 97 % | 90 % | 18 % |
- 모든 모델이 화학적으로 유효한 SMILES/그래프를 생성했으며, diffusion 모델이 가장 높은 다양성을 보였습니다.
- 전체 필터링 파이프라인을 거친 후 ≈15–18 % 의 생성 화합물이 “히트‑유사” 로 판정되었으며, 이는 무작위 샘플링(≈2 %)에 비해 크게 향상된 결과입니다.
- 상위 10개 후보의 도킹 점수는 알려진 활성 물질과 비슷했으며(평균 ΔG ≈ ‑9.5 kcal/mol).
- 실험적 히트 비율: 합성된 GSK‑3β 후보 7개 중 4개가 10 µM에서 ≥ 50 % 억제 활성을 보여, AI‑생성 분자가 생물학적으로 의미가 있음을 확인했습니다.
- 저자들은 표준 지표(예: novelty)만으로는 다운스트림 성공을 예측하기에 부족하며, 다단계 파이프라인이 현실적인 평가에 필수적이라고 강조했습니다.
실용적 함의
- Accelerated hit identification – 팀은 고처리량 스크리닝의 일부를 AI‑생성 라이브러리로 대체하여 비용과 시간을 절감할 수 있습니다.
- Target‑specific library design – 소수의 알려진 활성 물질에 대해 파인‑튜닝함으로써, 개발자는 구조 모델이 있는 모든 단백질에 대해 빠르게 집중된 화합물 컬렉션을 생성할 수 있습니다.
- Integration into existing pipelines – 필터링 파이프라인을 CI/CD‑스타일 워크플로우(예: RDKit, OpenEye, 도킹 엔진 사용)로 스크립트화하여, 실험실 검증 전에 자동화된 “AI‑first” 히트 생성이 가능해집니다.
- Open‑source tooling – 논문의 코드와 데이터셋(관용적인 라이선스로 공개)은 독점적인 생성 화학 플랫폼을 구축하는 기업에게 바로 사용할 수 있는 베이스라인을 제공합니다.
- Risk mitigation – 모델이 여전히 합성 불가능성, PAINS 등 바람직하지 않은 분자를 일정 비율로 생성하므로, 후속 인간‑인‑루프 검토가 여전히 필요합니다.
제한 사항 및 향후 과제
- 학습 데이터 편향 – 공개 바이오액티비티 데이터베이스는 특정 화학형 및 어세이 유형에 편중되어 있어 모델이 학습할 수 있는 화학 공간이 제한됩니다.
- 평가 지표 – 저자들은 도킹 점수가 실제 결합 친화도의 대리값에 불과하다고 강조합니다; 보다 엄격한 자유 에너지 계산이나 머신러닝 기반 친화도 예측기가 순위 매김을 개선할 수 있습니다.
- 합성 확장성 – 소수의 히트가 검증된 반면, 수백 개 후보로 확장하려면 합성 경로 예측 및 비용 추정이 더욱 정교해져야 합니다.
- 새로운 타깃에 대한 일반화 – 연구는 몇몇 잘 정의된 단백질에 초점을 맞췄으며, 고아 타깃이나 특성이 잘 알려지지 않은 타깃에 접근하는 것은 아직 해결되지 않은 과제입니다.
- 향후 방향에는 액티브 러닝 루프(습식 실험 피드백을 통해 생성기를 재학습) 도입, 3D 콘포메이션을 공동으로 처리하는 멀티모달 모델 탐색, 현재의 히트‑유사성 기준에 ADMET 예측을 결합한 보다 풍부한 평가 스위트 개발이 포함됩니다.
저자
- Nagham Osman
- Vittorio Lembo
- Giovanni Bottegoni
- Laura Toni
논문 정보
- arXiv ID: 2512.22031v1
- 카테고리: cs.LG, cs.AI
- 출판일: 2025년 12월 26일
- PDF: PDF 다운로드