[Paper] AIBoMGen: 안전하고 투명하며 규정을 준수하는 모델 학습을 위한 AI Bill of Materials 생성
Source: arXiv - 2601.05703v1
개요
The paper introduces AIBoMGen, a prototype platform that automatically creates a cryptographically‑signed AI Bill of Materials (AIBOM) for every model‑training run. By capturing datasets, model hyper‑parameters, code versions, and the exact compute environment, AIBoMGen gives developers a tamper‑evident record that can be used to prove compliance with emerging AI regulations such as the EU AI Act.
주요 기여
- AIBOM 사양 – 잘 알려진 소프트웨어 부품 목록(SBOM)을 확장하여 AI‑특정 아티팩트(학습 데이터, 모델 가중치, 전처리 파이프라인, 하드웨어 세부 정보)를 포함합니다.
- 자동 생성 파이프라인 – AIBoMGen이 학습 워크플로에 연결되어 수동 작업 없이 서명된 AIBOM을 생성합니다.
- 신뢰 기반 루트 아키텍처 – 학습 플랫폼이 중립적인 제3자 관찰자로서 암호 해시, 디지털 서명, in‑toto 증명을 사용해 무결성을 보장합니다.
- 변조 탐지 보장 – 학습 후 모델 파일, 데이터 또는 환경 메타데이터의 어떤 수정도 신뢰성 있게 감지됨을 입증합니다.
- 무시할 수 있는 오버헤드 – 실증 평가 결과 런타임에 < 2 % 영향만을 보여, 대규모 학습 파이프라인에 실용적임을 증명합니다.
Methodology
-
Instrumentation Layer – 경량 에이전트를 훈련 오케스트레이터(예: Kubernetes, Airflow)에 부착합니다. 에이전트는 다음을 기록합니다:
- 입력 데이터셋(해시, 출처 URL)
- 코드 저장소 커밋 및 의존성 매니페스트
- 하이퍼파라미터, 모델 아키텍처, 훈련 스크립트
- 런타임 환경(OS, 드라이버 버전, GPU/CPU 사양)
-
Artifact Hashing & Collection – 캡처된 각 아티팩트에 대해 SHA‑256 해시를 계산하고 임시 원장에 저장합니다.
-
In‑toto Attestation – 수집된 해시들을 in‑toto 진술서에 래핑하고, 플랫폼의 개인키(“신뢰의 근원”)로 암호 서명을 추가합니다.
-
AIBOM Assembly – 위 진술서와 사람이 읽을 수 있는 JSON/YAML 매니페스트를 결합하여 최종 AIBOM을 생성합니다.
-
Verification API – 다운스트림 소비자(모델 레지스트리, 감사자, CI 파이프라인 등)는 AIBOM을 가져와 서명과 해시를 실제 아티팩트와 검증함으로써 훈련 후 변경이 없었음을 확인할 수 있습니다.
전체 흐름은 모든 훈련 작업에 대해 자동으로 트리거되며, 데이터 과학자가 별도의 작업을 수행할 필요가 없습니다.
Results & Findings
| Metric | Observation |
|---|---|
| Tamper detection | 모든 시뮬레이션된 공격(가중치 파일 교체, 데이터셋 대체, 환경 다운그레이드)이 검증 단계에서 플래그되었습니다. |
| Performance overhead | 평균 추가 지연 = 1.7 % (≈ 2 seconds per hour‑long training job). |
| Signature verification time | 표준 CPU에서 서브‑밀리초, CI 파이프라인에 거의 영향을 주지 않습니다. |
| Scalability | 4개의 GPU 노드에서 50개의 동시 학습 작업을 테스트했으며, AIBOM 생성은 선형적인 자원 사용으로 안정적으로 유지되었습니다. |
실용적 함의
- Regulatory Compliance – 기업은 모델이 승인된 데이터와 통제된 환경에서 학습되었다는 감사 가능한 증거를 제공할 수 있어 EU AI 법규 보고를 용이하게 합니다.
- Supply‑Chain Security – SBOM이 소프트웨어 공급망을 보호하는 것처럼, AIBOM은 편향이나 악의적인 데이터 중독의 원인이 될 수 있는 숨겨진 의존성(예: 제3자 데이터셋)을 드러냅니다.
- Model Marketplace Trust – 공급업체는 판매하는 모든 모델에 서명된 AIBOM을 첨부할 수 있어 구매자는 모델이 전달 후 변조되지 않았음을 확신할 수 있습니다.
- CI/CD Integration – 검증 API를 기존 MLOps 파이프라인(GitHub Actions, GitLab CI, Jenkins)에 연결하면 AIBOM 검사를 통과하지 못한 빌드를 자동으로 거부할 수 있습니다.
- Incident Response – 침해가 발생했을 경우, AIBOM은 손상된 모델을 생성하는 데 사용된 정확한 정보를 포렌식 스냅샷으로 제공하여 근본 원인 분석을 신속하게 진행할 수 있게 합니다.
제한 사항 및 향후 작업
- 캡처된 아티팩트 범위 – 현재 프로토타입은 정적 아티팩트에 초점을 맞추고 있으며, 동적 런타임 동작(예: 실시간 데이터 증강)은 완전히 캡처되지 않습니다.
- 키 관리 – 시스템은 보안된 중앙 관리 서명 키를 전제로 하며, 대기업을 위해서는 분산 키 회전 전략이 필요합니다.
- 상호 운용성 표준 – 저자들이 JSON 스키마를 제안했지만, 보다 넓은 산업 채택을 위해서는 emerging standards bodies(예: SPDX, OpenChain)와의 정렬이 필요합니다.
- 추론으로 확장 – 향후 작업에서는 AI Bill of Materials for Inference (AIBOM‑I)를 생성하여 모델 서빙 환경, 요청 시 전처리 및 후처리 단계를 기록할 수 있습니다.
전반적으로 AIBoMGen은 투명하고 안전한 AI 모델 수명 주기를 위한 구체적이고 낮은 오버헤드의 경로를 제공하며, AI가 연구실에서 규제된 생산 환경으로 이동함에 따라 필수적인 빌딩 블록이 됩니다.
Source:
저자
- Wiebe Vandendriessche
- Jordi Thijsman
- Laurens D’hooge
- Bruno Volckaert
- Merlijn Sebrechts
논문 정보
- arXiv ID: 2601.05703v1
- 분류: cs.SE, cs.AI, cs.CR
- 출판일: 2026년 1월 9일
- PDF: PDF 다운로드