[Paper] 동적 행동 학습을 통한 악성 ML 모델 탐지

발행: (2026년 4월 21일 PM 10:12 GMT+9)
7 분 소요
원문: arXiv

Source: arXiv - 2604.19438v1

개요

사전 학습된 머신러닝 모델(PTM)은 Hugging Face와 같은 모델 허브를 통해 널리 공유되며, 종종 직렬화된 객체(예: Python pickle) 형태로 제공됩니다. 이러한 편리함은 빠른 개발을 촉진하지만, 동시에 공급망 공격 표면을 열어줍니다: 악성 모델은 로드되는 순간 임의 코드를 실행할 수 있습니다. 기존 스캐너(예: PickleScan)는 정적 서명이나 휴리스틱에 초점을 맞추고 런타임에서 모델이 실제로 수행하는 작업을 무시하기 때문에, 오탐과 누락이 발생합니다. 이 논문은 DynaHug라는 탐지 프레임워크를 소개합니다. DynaHug는 정상 PTM의 동적 실행 패턴을 학습하고, 이를 벗어나는 행동을 잠재적 악성으로 표시합니다.

주요 기여

  • 동적‑행동‑기반 탐지: 정적 검사에만 의존하지 않고 PTM의 런타임 특성을 모델링하는 최초의 시스템.
  • One‑Class SVM 분류기: 정상 실행 추적에 OCSVM을 학습시켜, 라벨이 지정된 악성 샘플 없이도 분포 외(즉, 악성) 행동을 탐지 가능.
  • 대규모 실증 평가: Hugging Face와 MalHug 저장소에서 25 k개 이상의 모델(정상 및 악성)을 테스트.
  • 성능 향상: 최신 정적, 동적 및 LLM 기반 탐지기와 비교해 F1‑score가 최대 44 % 상승.
  • 소거 연구: 동적 추적, OCSVM, 모델 패밀리 클러스터링 등 각 설계 선택이 전체 효과에 측정 가능한 기여를 함을 입증.

Methodology

  1. Data Collection – Gather a corpus of task‑specific PTMs (e.g., text classification, image captioning). For each model, record a dynamic trace during a typical inference run: system calls, file accesses, network activity, CPU/memory usage, and Python‑level API calls.
  2. Feature Engineering – Convert raw traces into a fixed‑length feature vector (e.g., histogram of syscall frequencies, timing statistics, sandbox‑exit codes).
  3. Model Training – Use only the benign traces to train a One‑Class Support Vector Machine (OCSVM), which learns the boundary of normal behavior.
  4. Clustering – Group models by task/domain and train separate OCSVMs per cluster, reducing noise from heterogeneous workloads.
  5. Detection – When a new PTM is loaded, the same tracing pipeline runs in a lightweight sandbox; the resulting feature vector is fed to the appropriate OCSVM. If the sample lies outside the learned boundary, it is flagged as suspicious.
  6. Evaluation – Compare DynaHug’s predictions against ground‑truth labels (benign vs. malicious) and against baselines (PickleScan, static code analyzers, LLM‑based classifiers).

결과 및 발견

지표DynaHug최고 기준선
F1‑score0.92 (최대 44 % 향상)0.64 – 0.71
Precision0.900.58 – 0.68
Recall0.940.61 – 0.73
False‑Positive Rate3 %12 % – 18 %
  • 작업 전반에 걸친 견고성: 클러스터당 별도 OCSVM을 사용해 모델이 크게 달라져도(예: NLP vs. CV) 탐지 정확도를 높게 유지했습니다.
  • 낮은 오버헤드: 동적 추적은 평균 추론당 약 150 ms만 추가되어 사전 배포 보안 검사에 충분히 허용 가능한 수준입니다.
  • 소거 실험 인사이트: 클러스터링을 제거하면 F1이 약 7 % 감소했으며, OCSVM을 양성·악성 데이터를 모두 사용해 학습한 이진 분류기로 교체하면 Recall이 약 10 % 감소했습니다. 이는 단일 클래스 학습의 가치를 확인해 줍니다.

실용적 함의

  • Supply‑chain hardening: 개발자는 DynaHug을 CI/CD 파이프라인에 통합하여 모델을 주입하고, 제3자 PTM이 프로덕션 환경에 투입되기 전에 자동으로 검증할 수 있습니다.
  • Sandbox‑as‑a‑service: 클라우드 제공업체는 DynaHug을 관리형 API로 제공하여 허브의 모델 메타데이터와 함께 “모델 안전 점수”를 제공할 수 있습니다.
  • Compliance & Auditing: ISO 27001, NIST 800‑53 등 보안 표준을 적용받는 조직은 동적 행동 보고서를 모델 구매 시점의 적절한 주의 의무 증거로 활용할 수 있습니다.
  • Developer ergonomics: DynaHug은 일반적인 런타임 트레이스를 기반으로 동작하므로 모델 코드나 포맷을 변경할 필요 없이 제어된 환경에서 짧은 실행만 하면 됩니다.

제한 사항 및 향후 연구

  • 이국적인 환경에 대한 커버리지: 현재 추적 설정은 일반적인 Python 기반 추론을 목표로 합니다; 다른 런타임(예: TensorFlow C++, ONNX)에서 실행되는 모델은 별도의 계측이 필요합니다.
  • 우회 가능성: 공격자는 짧은 샌드박스 실행 동안 정상적인 추적을 모방하고 나중에 악성 페이로드를 활성화하는 모델을 만들 수 있습니다; 향후 연구에서는 장시간 또는 다단계 모니터링을 탐구할 예정입니다.
  • 악성 샘플에 대한 라벨 부족: OCSVM이 많은 악성 예제의 필요성을 완화하지만, 보다 풍부한 악성 데이터셋은 일급 클래스와 감독 신호를 결합한 하이브리드 탐지기를 가능하게 할 수 있습니다.
  • 클러스터링의 확장성: 작업 도메인 수가 증가함에 따라 클러스터별 분류기를 유지하는 것이 번거로워질 수 있습니다; 자동 클러스터링 및 모델 유형 추론이 후속 연구에 예정되어 있습니다.

저자

  • Sarang Nambiar
  • Dhruv Pradhan
  • Ezekiel Soremekun

논문 정보

  • arXiv ID: 2604.19438v1
  • 분류: cs.CR, cs.SE
  • 출판일: 2026년 4월 21일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »