[Paper] Diffusion-Based Domain Adaptation을 이용한 세포 카운팅의 도메인 격차 감소

발행: (2025년 12월 13일 오전 03:19 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.11763v1

Overview

합성 현미경 이미지는 세포 개수 세기와 같은 작업을 위한 딥러닝 모델을 저비용으로 학습시키는 방법이지만, 컴퓨터가 만든 이미지와 실제 현미경 데이터 사이의 시각적 차이가 성능을 제한하는 경우가 많습니다. 본 논문은 확산 기반 스타일 전송 프레임워크(Inversion‑Based Style Transfer, InST)를 적용해 이 격차를 메우고, 단순한 합성 이미지를 실제와 같은 질감이 가미된 샘플로 변환하면서도 기본적인 세포 배치를 유지합니다. 그 결과, 이러한 “스타일링된” 이미지를 사전 학습한 모델은 전통적인 합성 데이터나 실제 데이터만 사용한 경우에 비해 셀 카운팅 오류가 크게 감소합니다.

Key Contributions

  • 현미경을 위한 교차 도메인 스타일 전송 – 원래 예술적 스타일 전송에 사용되던 InST 프레임워크를 재활용해 합성 세포 이미지에 실제 형광 질감을 주입합니다.
  • 잠재공간 Adaptive Instance Normalization (AdaIN) + 확산 역전파 – 세포 기하학은 유지하면서 시각적 외관을 무작위화하는 새로운 조합을 제시합니다.
  • 광범위한 벤치마킹 – EfficientNet‑B0를 세 가지 데이터 소스(하드코딩 합성, Cell200‑s, InST‑스타일링 합성)에서 사전 학습하고 실제 데이터에 미세 조정하여, 하드코딩 합성 대비 MAE 37 % 감소, Cell200‑s 대비 MAE 52 % 감소를 달성했습니다.
  • 경량 도메인 적응 기법과의 시너지 – InST‑스타일링 데이터 위에 DACS + CutMix를 추가하면 추가적인 성능 향상이 나타나, 기존 적응 파이프라인과도 잘 호환됨을 증명했습니다.
  • 오픈소스 공개 – 전체 코드, 사전 학습 모델, 데이터 생성 스크립트를 공개하여 즉시 재현성을 보장합니다.

Methodology

  1. 합성 기본 생성 – 깨끗한 이진 마스크와 해당 그레이스케일 이미지를 생성하는 기존 세포 시뮬레이션 파이프라인을 사용합니다(현실적인 텍스처는 없음).
  2. 스타일 소스 수집 – 라벨이 필요 없는 실제 형광 현미경 프레임을 소량 모읍니다.
  3. 확산 모델 역전파 – 각 합성 이미지를 사전 학습된 확산 모델에 입력하고, 확산 역전파를 수행해 이미지가 모델의 잠재공간으로 매핑되도록 합니다.
  4. 잠재공간 AdaIN – 실제 스타일 잠재코드의 채널별 평균/분산 통계치를 계산하고, 이를 합성 잠재코드에 Adaptive Instance Normalization으로 적용해 텍스처 통계만 교체하고 공간 구조는 유지합니다.
  5. 재생성 – 확산 디코더를 실행해 실제 스타일 텍스처를 갖지만 원래 세포 레이아웃은 그대로인 새로운 이미지를 합성합니다.
  6. 학습 파이프라인 – 스타일링된 합성 세트를 이용해 EfficientNet‑B0를 사전 학습한 뒤, 소량의 실제 라벨 데이터에 미세 조정합니다. 미세 조정 단계에서 선택적으로 DACS(도메인 인식 대비 손실)와 CutMix 증강을 추가합니다.

전체 파이프라인은 단일 GPU에서 몇 시간 내에 실행 가능하므로, 대규모 컴퓨팅 자원이 없는 연구실에서도 실용적입니다.

Results & Findings

Training dataMAE (cell count)
Hard‑coded synthetic only41.3
Cell200‑s synthetic53.7
Real data only27.7
InST‑styled synthetic25.9
InST + DACS + CutMix (fine‑tune)23.4
  • 37 % MAE 감소는 기존 합성 파이프라인 대비 달성된 수치입니다.
  • 52 % MAE 감소는 공개된 Cell200‑s 데이터 대비이며, 이전에 성능이 떨어지던 합성 소스를 최고의 사전 학습 자료로 전환했습니다.
  • 실제 데이터만 사용한 베이스라인이 강력하더라도, InST‑스타일링 데이터가 이를 능가합니다(25.9 vs. 27.7 MAE).
  • InST 위에 경량 도메인 적응(DACS + CutMix)을 추가하면 성능이 더욱 향상되어, 이 방법이 기존 트릭을 대체하기보다 보완한다는 점을 보여줍니다.

Practical Implications

  • 라벨링 비용 절감 – 연구실은 소수의 라벨이 없는 실제 프레임만으로 수천 장의 현실적인 학습 이미지를 생성할 수 있어, 수작업 카운팅 필요성이 크게 감소합니다.
  • 빠른 모델 반복 – 스타일링된 합성 데이터로 사전 학습하면 강력한 초기화가 이루어져, 소량의 실제 데이터에 대한 미세 조정이 적은 epoch만에 수렴해 컴퓨팅 시간을 절약합니다.
  • 다른 현미경 작업에 플러그‑인 가능 – 동일한 InST 파이프라인을 세그멘테이션, 표현형 분류, 약물 반응 예측 등 텍스처 현실성이 중요한 작업에 재활용할 수 있습니다.
  • 엣지 디바이스 친화 – 다운스트림 모델(EfficientNet‑B0)은 경량이라 임베디드 시스템(예: 현장 분석 모듈)에서도 배포가 가능하고, 합성 데이터 생성은 오프라인에서 수행됩니다.
  • 오픈소스 툴킷 – 제공된 스크립트를 CI 파이프라인에 통합해 새로운 실제 샘플이 확보될 때마다 합성 데이터셋을 자동으로 업데이트할 수 있습니다.

Limitations & Future Work

  • 확산 모델 의존성 – 스타일 전송 품질은 사전 학습된 확산 백본에 크게 좌우됩니다. 도메인 특화 확산 모델을 별도로 학습하면 성능이 개선될 수 있지만 추가 비용이 발생합니다.
  • 내용 보존의 제한 – 세포 레이아웃은 대체로 유지되지만, 겹쳐진 클러스터와 같은 극단적인 형태 변이는 역전파 과정에서 일부 매끄럽게 처리될 수 있습니다.
  • 한 종류의 카운팅 아키텍처에 한정된 평가(EfficientNet‑B0); 트랜스포머 기반 모델이나 세그멘테이션 중심 모델에 대한 광범위한 테스트가 필요합니다.
  • 3‑D 현미경 확장성 – 현재 파이프라인은 2‑D 슬라이스에만 적용 가능하므로, 3‑D 볼류메트릭 데이터에 적용하려면 3‑D 확산 모델 및 메모리 효율적인 역전파 전략이 필요합니다.

향후 연구 방향으로는 작업 특화 확산 모델 학습, 다중 스타일 조건화(예: 다양한 염색 프로토콜) 탐색, 그리고 라벨이 전혀 없는 데이터를 활용한 자체 지도 사전 학습을 통해 라벨 의존성을 더욱 낮추는 것이 포함됩니다.

Authors

  • Mohammad Dehghanmanshadi
  • Wallapak Tavanapong

Paper Information

  • arXiv ID: 2512.11763v1
  • Categories: cs.CV
  • Published: December 12, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Particulate: Feed-Forward 3D 객체 관절화

우리는 Particulate라는 feed-forward 접근 방식을 제시한다. 이 방법은 일상적인 객체의 단일 정적 3D mesh를 입력으로 받아, 기본적인 articulation의 모든 속성을 직접 추론한다.