[Paper] AIBoMGen: 안전하고 투명하며 규정을 준수하는 모델 학습을 위한 AI Bill of Materials 생성

발행: (2026년 1월 9일 오후 07:46 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2601.05703v1

개요

The paper introduces AIBoMGen, a prototype platform that automatically creates a cryptographically‑signed AI Bill of Materials (AIBOM) for every model‑training run. By capturing datasets, model hyper‑parameters, code versions, and the exact compute environment, AIBoMGen gives developers a tamper‑evident record that can be used to prove compliance with emerging AI regulations such as the EU AI Act.

주요 기여

  • AIBOM 사양 – 잘 알려진 소프트웨어 부품 목록(SBOM)을 확장하여 AI‑특정 아티팩트(학습 데이터, 모델 가중치, 전처리 파이프라인, 하드웨어 세부 정보)를 포함합니다.
  • 자동 생성 파이프라인 – AIBoMGen이 학습 워크플로에 연결되어 수동 작업 없이 서명된 AIBOM을 생성합니다.
  • 신뢰 기반 루트 아키텍처 – 학습 플랫폼이 중립적인 제3자 관찰자로서 암호 해시, 디지털 서명, in‑toto 증명을 사용해 무결성을 보장합니다.
  • 변조 탐지 보장 – 학습 후 모델 파일, 데이터 또는 환경 메타데이터의 어떤 수정도 신뢰성 있게 감지됨을 입증합니다.
  • 무시할 수 있는 오버헤드 – 실증 평가 결과 런타임에 < 2 % 영향만을 보여, 대규모 학습 파이프라인에 실용적임을 증명합니다.

Methodology

  1. Instrumentation Layer – 경량 에이전트를 훈련 오케스트레이터(예: Kubernetes, Airflow)에 부착합니다. 에이전트는 다음을 기록합니다:

    • 입력 데이터셋(해시, 출처 URL)
    • 코드 저장소 커밋 및 의존성 매니페스트
    • 하이퍼파라미터, 모델 아키텍처, 훈련 스크립트
    • 런타임 환경(OS, 드라이버 버전, GPU/CPU 사양)
  2. Artifact Hashing & Collection – 캡처된 각 아티팩트에 대해 SHA‑256 해시를 계산하고 임시 원장에 저장합니다.

  3. In‑toto Attestation – 수집된 해시들을 in‑toto 진술서에 래핑하고, 플랫폼의 개인키(“신뢰의 근원”)로 암호 서명을 추가합니다.

  4. AIBOM Assembly – 위 진술서와 사람이 읽을 수 있는 JSON/YAML 매니페스트를 결합하여 최종 AIBOM을 생성합니다.

  5. Verification API – 다운스트림 소비자(모델 레지스트리, 감사자, CI 파이프라인 등)는 AIBOM을 가져와 서명과 해시를 실제 아티팩트와 검증함으로써 훈련 후 변경이 없었음을 확인할 수 있습니다.

전체 흐름은 모든 훈련 작업에 대해 자동으로 트리거되며, 데이터 과학자가 별도의 작업을 수행할 필요가 없습니다.

Results & Findings

MetricObservation
Tamper detection모든 시뮬레이션된 공격(가중치 파일 교체, 데이터셋 대체, 환경 다운그레이드)이 검증 단계에서 플래그되었습니다.
Performance overhead평균 추가 지연 = 1.7 % (≈ 2 seconds per hour‑long training job).
Signature verification time표준 CPU에서 서브‑밀리초, CI 파이프라인에 거의 영향을 주지 않습니다.
Scalability4개의 GPU 노드에서 50개의 동시 학습 작업을 테스트했으며, AIBOM 생성은 선형적인 자원 사용으로 안정적으로 유지되었습니다.

실용적 함의

  • Regulatory Compliance – 기업은 모델이 승인된 데이터와 통제된 환경에서 학습되었다는 감사 가능한 증거를 제공할 수 있어 EU AI 법규 보고를 용이하게 합니다.
  • Supply‑Chain Security – SBOM이 소프트웨어 공급망을 보호하는 것처럼, AIBOM은 편향이나 악의적인 데이터 중독의 원인이 될 수 있는 숨겨진 의존성(예: 제3자 데이터셋)을 드러냅니다.
  • Model Marketplace Trust – 공급업체는 판매하는 모든 모델에 서명된 AIBOM을 첨부할 수 있어 구매자는 모델이 전달 후 변조되지 않았음을 확신할 수 있습니다.
  • CI/CD Integration – 검증 API를 기존 MLOps 파이프라인(GitHub Actions, GitLab CI, Jenkins)에 연결하면 AIBOM 검사를 통과하지 못한 빌드를 자동으로 거부할 수 있습니다.
  • Incident Response – 침해가 발생했을 경우, AIBOM은 손상된 모델을 생성하는 데 사용된 정확한 정보를 포렌식 스냅샷으로 제공하여 근본 원인 분석을 신속하게 진행할 수 있게 합니다.

제한 사항 및 향후 작업

  • 캡처된 아티팩트 범위 – 현재 프로토타입은 정적 아티팩트에 초점을 맞추고 있으며, 동적 런타임 동작(예: 실시간 데이터 증강)은 완전히 캡처되지 않습니다.
  • 키 관리 – 시스템은 보안된 중앙 관리 서명 키를 전제로 하며, 대기업을 위해서는 분산 키 회전 전략이 필요합니다.
  • 상호 운용성 표준 – 저자들이 JSON 스키마를 제안했지만, 보다 넓은 산업 채택을 위해서는 emerging standards bodies(예: SPDX, OpenChain)와의 정렬이 필요합니다.
  • 추론으로 확장 – 향후 작업에서는 AI Bill of Materials for Inference (AIBOM‑I)를 생성하여 모델 서빙 환경, 요청 시 전처리 및 후처리 단계를 기록할 수 있습니다.

전반적으로 AIBoMGen은 투명하고 안전한 AI 모델 수명 주기를 위한 구체적이고 낮은 오버헤드의 경로를 제공하며, AI가 연구실에서 규제된 생산 환경으로 이동함에 따라 필수적인 빌딩 블록이 됩니다.

Source:

저자

  • Wiebe Vandendriessche
  • Jordi Thijsman
  • Laurens D’hooge
  • Bruno Volckaert
  • Merlijn Sebrechts

논문 정보

  • arXiv ID: 2601.05703v1
  • 분류: cs.SE, cs.AI, cs.CR
  • 출판일: 2026년 1월 9일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] Gemini용 프로덕션 준비 프로브 구축

최첨단 language model 능력이 빠르게 향상되고 있습니다. 따라서 점점 더 강력해지는 시스템을 악용하는 악의적인 행위자들에 대한 보다 강력한 mitigations가 필요합니다. Prior w...