[Paper] Open AI 공급망에서의 Permissive-Washing: 라이선스 무결성에 대한 대규모 감사

발행: 3일 전 (2026년 2월 10일 오전 12:51 GMT+9)

7 분 소요

원문: arXiv

Source: arXiv - 2602.08816v1

개요

The paper Permissive‑Washing in the Open AI Supply Chain exposes a hidden legal risk in today’s booming AI ecosystem: most open‑source datasets, models, and applications that claim “MIT‑style” permissive licenses are missing the very license files and attribution notices required to make that claim enforceable. By auditing over 124 k AI supply‑chain links on Hugging Face and GitHub, the authors show that the vast majority of artifacts are effectively unlicensed, putting downstream developers at risk of copyright infringement.

주요 기여

대규모 실증 감사 124,278개의 데이터셋 → 모델 → 애플리케이션 체인(3,338개 데이터셋, 6,664개 모델, 28,516개 애플리케이션).
“관대형 세탁(permissive washing)”에 대한 정량적 증거: 95 % 이상 데이터셋과 모델이 필수 라이선스 텍스트를 누락; 라이선스 텍스트와 저작권 고지 요구사항을 모두 충족하는 경우는 소수에 불과.
전파 분석: 상위 아티팩트가 올바르게 라이선스된 경우에도 하위 모델과 애플리케이션이 요구되는 귀속을 거의 유지하지 않음(모델 27.6 %, 애플리케이션 5.8 %).
오픈 연구 산출물: 전체 감사 데이터셋과 재현 가능한 파이프라인을 공개하여 커뮤니티가 라이선스 준수를 지속적으로 모니터링할 수 있도록 함.
법·기술적 통찰: 메타데이터(예: GitHub 태그)는 실제 라이선스 파일 및 저작권 고지를 대체할 수 있는 법적 수단이 아님을 명확히 함.

방법론

데이터 수집 – 저자들은 Hugging Face와 GitHub의 공개 저장소를 크롤링하여, 데이터셋에서 모델로, 모델에서 애플리케이션으로 선언된 모든 링크를 추출했습니다.
라이선스 추출 – 각 아티팩트에 대해 저장소 트리에서 LICENSE 파일, COPYRIGHT 파일 또는 인라인 라이선스 헤더를 검색했습니다. 또한 package.json, setup.cfg 등에서 SPDX 식별자를 파싱했습니다.
준수 확인 – 아티팩트가 준수하다고 판단되려면 (a) 전체 퍼미시브‑라이선스 텍스트가 존재하고, (b) 상위 저자(들)를 언급하는 저작권 고지가 포함되어야 합니다.
전파 추적 – 수집된 의존성 그래프를 사용하여 하위 아티팩트가 즉시 상위 소스로부터 필요한 라이선스 텍스트와 저작자 표시를 복사했는지 확인했습니다.
통계 분석 – 팀은 아티팩트 유형별 준수율을 계산하고, 라이선스 패밀리(MIT, Apache‑2.0, BSD‑3)별 분포를 조사했으며, 저장소 크기나 스타 수와 같은 요인이 준수에 영향을 미치는지 상관관계 테스트를 수행했습니다.

결과 및 발견

아티팩트 유형	% 전체 라이선스 텍스트 포함	% 텍스트 + 저작권 모두 충족	% 상류 공지사항 하류 보존
데이터셋	96.5 % 누락	2.3 % 준수	N/A
모델	95.8 % 누락	3.2 % 준수	27.6 % 데이터셋 공지 보존
애플리케이션	— (라이선스는 보통 모델에 있음)	—	5.8 % 모델 공지 보존 (6.4 % 모든 상류 공지)

라이선스 텍스트 누락이 일반적이며, 예외가 아니다.
귀속 감소: 모델이 데이터셋 라이선스를 올바르게 포함하더라도, 하류 애플리케이션이 그 귀속을 전달하는 경우는 거의 없다.
메타데이터 착시: 많은 저장소가 README 또는 pyproject.toml에 허용적인 SPDX 식별자를 기재하지만, 실제 라이선스 파일이 없으면 이는 법적 요구사항을 충족하지 않는다.

Practical Implications

Developers can’t rely on tags alone – Before reusing a dataset or model, verify the presence of a LICENSE file and a proper copyright line.
CI/CD checks – Integrate automated license‑file detection (e.g., using the authors’ pipeline) into build pipelines to flag missing documentation early.
Corporate risk management – Legal teams should treat “permissively‑licensed” AI assets as potentially unlicensed until the required files are confirmed, adjusting due‑diligence checklists accordingly.
Open‑source maintainers – Adding a clear LICENSE file and explicit attribution in the repository root can dramatically improve downstream compliance and protect the community from litigation.
Tooling opportunities – There is a market for plugins (for GitHub Actions, Hugging Face Spaces, etc.) that automatically copy upstream license notices when publishing derived models or applications.

제한 사항 및 향후 작업

범위는 Hugging Face와 GitHub의 공개 저장소에만 제한됩니다; 비공개 또는 기업용 AI 자산은 다른 준수 패턴을 보일 수 있습니다.
검토된 라이선스 군은 주로 MIT, Apache‑2.0, BSD‑3이며, 다른 허용적 또는 카피레프트 라이선스는 초점이 아니었습니다.
정적 분석만 – 이 연구는 라이선스 파일 누락이 의도된 것(예: 독점 의도)인지 우연인지를 평가하지 않습니다.
제안된 향후 방향에는 감사를 다른 플랫폼(GitLab, Bitbucket)으로 확장하고, 라이선스 도구(예: REUSE)의 영향을 연구하며, 저자들의 데이터셋 및 파이프라인 공개 후 준수 상황이 어떻게 변하는지 측정하는 것이 포함됩니다.

저자

James Jewitt
Gopi Krishnan Rajbahadur
Hao Li
Bram Adams
Ahmed E. Hassan

논문 정보

arXiv ID: 2602.08816v1
분류: cs.LG, cs.AI, cs.CY, cs.SE
출판일: 2026년 2월 9일
PDF: PDF 다운로드

[Paper] Open AI 공급망에서의 Permissive-Washing: 라이선스 무결성에 대한 대규모 감사

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] YOR: 당신만의 모바일 매니퓰레이터 for Generalizable Robotics

[Paper] SCRAPL: 머신러닝을 위한 랜덤 경로 기반 Scattering Transform

[논문] GENIUS: 생성형 유동 지능 평가 스위트

[Paper] LCIP: 손실 제어 역투영을 통한 고차원 이미지 데이터