[Paper] Open AI 공급망에서의 Permissive-Washing: 라이선스 무결성에 대한 대규모 감사
Source: arXiv - 2602.08816v1
개요
The paper Permissive‑Washing in the Open AI Supply Chain exposes a hidden legal risk in today’s booming AI ecosystem: most open‑source datasets, models, and applications that claim “MIT‑style” permissive licenses are missing the very license files and attribution notices required to make that claim enforceable. By auditing over 124 k AI supply‑chain links on Hugging Face and GitHub, the authors show that the vast majority of artifacts are effectively unlicensed, putting downstream developers at risk of copyright infringement.
주요 기여
- 대규모 실증 감사 124,278개의 데이터셋 → 모델 → 애플리케이션 체인(3,338개 데이터셋, 6,664개 모델, 28,516개 애플리케이션).
- “관대형 세탁(permissive washing)”에 대한 정량적 증거: 95 % 이상 데이터셋과 모델이 필수 라이선스 텍스트를 누락; 라이선스 텍스트와 저작권 고지 요구사항을 모두 충족하는 경우는 소수에 불과.
- 전파 분석: 상위 아티팩트가 올바르게 라이선스된 경우에도 하위 모델과 애플리케이션이 요구되는 귀속을 거의 유지하지 않음(모델 27.6 %, 애플리케이션 5.8 %).
- 오픈 연구 산출물: 전체 감사 데이터셋과 재현 가능한 파이프라인을 공개하여 커뮤니티가 라이선스 준수를 지속적으로 모니터링할 수 있도록 함.
- 법·기술적 통찰: 메타데이터(예: GitHub 태그)는 실제 라이선스 파일 및 저작권 고지를 대체할 수 있는 법적 수단이 아님을 명확히 함.
방법론
- 데이터 수집 – 저자들은 Hugging Face와 GitHub의 공개 저장소를 크롤링하여, 데이터셋에서 모델로, 모델에서 애플리케이션으로 선언된 모든 링크를 추출했습니다.
- 라이선스 추출 – 각 아티팩트에 대해 저장소 트리에서
LICENSE파일,COPYRIGHT파일 또는 인라인 라이선스 헤더를 검색했습니다. 또한package.json,setup.cfg등에서 SPDX 식별자를 파싱했습니다. - 준수 확인 – 아티팩트가 준수하다고 판단되려면 (a) 전체 퍼미시브‑라이선스 텍스트가 존재하고, (b) 상위 저자(들)를 언급하는 저작권 고지가 포함되어야 합니다.
- 전파 추적 – 수집된 의존성 그래프를 사용하여 하위 아티팩트가 즉시 상위 소스로부터 필요한 라이선스 텍스트와 저작자 표시를 복사했는지 확인했습니다.
- 통계 분석 – 팀은 아티팩트 유형별 준수율을 계산하고, 라이선스 패밀리(MIT, Apache‑2.0, BSD‑3)별 분포를 조사했으며, 저장소 크기나 스타 수와 같은 요인이 준수에 영향을 미치는지 상관관계 테스트를 수행했습니다.
결과 및 발견
| 아티팩트 유형 | % 전체 라이선스 텍스트 포함 | % 텍스트 + 저작권 모두 충족 | % 상류 공지사항 하류 보존 |
|---|---|---|---|
| 데이터셋 | 96.5 % 누락 | 2.3 % 준수 | N/A |
| 모델 | 95.8 % 누락 | 3.2 % 준수 | 27.6 % 데이터셋 공지 보존 |
| 애플리케이션 | — (라이선스는 보통 모델에 있음) | — | 5.8 % 모델 공지 보존 (6.4 % 모든 상류 공지) |
- 라이선스 텍스트 누락이 일반적이며, 예외가 아니다.
- 귀속 감소: 모델이 데이터셋 라이선스를 올바르게 포함하더라도, 하류 애플리케이션이 그 귀속을 전달하는 경우는 거의 없다.
- 메타데이터 착시: 많은 저장소가
README또는pyproject.toml에 허용적인 SPDX 식별자를 기재하지만, 실제 라이선스 파일이 없으면 이는 법적 요구사항을 충족하지 않는다.
Practical Implications
- Developers can’t rely on tags alone – Before reusing a dataset or model, verify the presence of a
LICENSEfile and a proper copyright line. - CI/CD checks – Integrate automated license‑file detection (e.g., using the authors’ pipeline) into build pipelines to flag missing documentation early.
- Corporate risk management – Legal teams should treat “permissively‑licensed” AI assets as potentially unlicensed until the required files are confirmed, adjusting due‑diligence checklists accordingly.
- Open‑source maintainers – Adding a clear
LICENSEfile and explicit attribution in the repository root can dramatically improve downstream compliance and protect the community from litigation. - Tooling opportunities – There is a market for plugins (for GitHub Actions, Hugging Face Spaces, etc.) that automatically copy upstream license notices when publishing derived models or applications.
제한 사항 및 향후 작업
- 범위는 Hugging Face와 GitHub의 공개 저장소에만 제한됩니다; 비공개 또는 기업용 AI 자산은 다른 준수 패턴을 보일 수 있습니다.
- 검토된 라이선스 군은 주로 MIT, Apache‑2.0, BSD‑3이며, 다른 허용적 또는 카피레프트 라이선스는 초점이 아니었습니다.
- 정적 분석만 – 이 연구는 라이선스 파일 누락이 의도된 것(예: 독점 의도)인지 우연인지를 평가하지 않습니다.
- 제안된 향후 방향에는 감사를 다른 플랫폼(GitLab, Bitbucket)으로 확장하고, 라이선스 도구(예: REUSE)의 영향을 연구하며, 저자들의 데이터셋 및 파이프라인 공개 후 준수 상황이 어떻게 변하는지 측정하는 것이 포함됩니다.
저자
- James Jewitt
- Gopi Krishnan Rajbahadur
- Hao Li
- Bram Adams
- Ahmed E. Hassan
논문 정보
- arXiv ID: 2602.08816v1
- 분류: cs.LG, cs.AI, cs.CY, cs.SE
- 출판일: 2026년 2월 9일
- PDF: PDF 다운로드