[Paper] Open AI 供应链中的 Permissive-Washing：许可证完整性的大规模审计

发布: 3天前 (2026年2月9日 GMT+8 23:51)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.08816v1

概览

论文 Permissive‑Washing in the Open AI Supply Chain 揭示了当今蓬勃发展的 AI 生态系统中一个隐藏的法律风险：大多数声称采用 “MIT‑style” 宽松许可证的开源数据集、模型和应用程序，缺少实现该声明所必需的许可证文件和署名说明。通过审计 Hugging Face 和 GitHub 上超过 124 k 条 AI 供应链链接，作者们展示了绝大多数制品实际上是 未授权 的，从而使下游开发者面临版权侵权的风险。

关键贡献

大规模实证审计 124,278 个数据集 → 模型 → 应用链（3,338 个数据集，6,664 个模型，28,516 个应用）。
“宽松洗白” 的量化证据：> 95 % 的数据集和模型缺少强制性的许可证文本；只有少数同时满足许可证文本和版权声明要求。
传播分析：表明即使上游制品已正确授权，下游模型和应用仍很少保留所需的署名（模型 27.6 %，应用 5.8 %）。
开放研究成果：发布完整审计数据集和可复现的流水线，以便社区继续监测许可证合规性。
法律‑技术洞见：阐明元数据（例如 GitHub 上的标签）并不能替代实际的许可证文件和版权声明。

方法论

数据收集 – 作者爬取了 Hugging Face 和 GitHub 上的公共仓库，提取了每个数据集到模型以及模型到应用的声明链接。
许可证提取 – 对于每个制品，他们在仓库树中搜索 LICENSE 文件、COPYRIGHT 文件或内联许可证头部，并解析 package.json、setup.cfg 等文件中的 SPDX 标识符。
合规性检查 – 只有当 (a) 完整的宽松许可证文本存在，且 (b) 包含引用上游作者的版权声明时，制品才被视为合规。
传播追踪 – 使用收集的依赖图，他们验证下游制品是否从直接上游来源复制了所需的许可证文本和归属信息。
统计分析 – 团队计算了各制品类型的合规率，检查了许可证家族（MIT、Apache‑2.0、BSD‑3）的分布，并进行相关性测试，以观察仓库规模或星标数量等因素是否影响合规性。

结果与发现

Artifact type	% with full license text	% meeting both text + copyright	% preserving upstream notice downstream
Datasets	96.5 % 缺失	2.3 % 符合	N/A
Models	95.8 % 缺失	3.2 % 符合	27.6 % 保留数据集声明
Applications	—（许可证通常在模型上）	—	5.8 % 保留模型声明（6.4 % 任意上游声明）

许可证文本缺失是常态，而非例外。
署名衰减：即使模型正确包含了数据集的许可证，下游应用几乎从不继续保留该署名。
元数据幻觉：许多仓库在 README 或 pyproject.toml 中列出宽松的 SPDX 标识符，但若没有实际的许可证文件，这并不能满足法律要求。

实际影响

开发者不能仅依赖标签 – 在重复使用数据集或模型之前，验证是否存在 LICENSE 文件以及适当的版权声明。
CI/CD 检查 – 将自动化许可证文件检测（例如使用作者的流水线）集成到构建流水线中，以便及早标记缺失的文档。
企业风险管理 – 法务团队应将“宽松许可”的 AI 资产视为可能未授权，直至确认所需文件，并相应调整尽职调查清单。
开源维护者 – 在仓库根目录添加明确的 LICENSE 文件和显式的归属声明，可显著提升下游合规性，保护社区免受诉讼。
工具机会 – 市场上有需求为 GitHub Actions、Hugging Face Spaces 等提供插件，在发布派生模型或应用时自动复制上游许可证声明。

限制与未来工作

范围仅限于 Hugging Face 和 GitHub 的公共仓库；私有或企业托管的 AI 资产可能表现出不同的合规模式。
审查的许可证族主要是 MIT、Apache‑2.0、BSD‑3；其他宽松或 copyleft 许可证未作为重点。
仅进行静态分析——本研究未评估缺失许可证文件是出于有意（例如专有意图）还是偶然。
未来方向包括将审计扩展到其他平台（GitLab、Bitbucket），研究许可证工具（如 REUSE）的影响，以及在作者的数据集和流水线发布后，衡量合规性的演变情况。

作者

James Jewitt
Gopi Krishnan Rajbahadur
Hao Li
Bram Adams
Ahmed E. Hassan

论文信息

arXiv ID: 2602.08816v1
分类: cs.LG, cs.AI, cs.CY, cs.SE
出版日期: 2026年2月9日
PDF: 下载 PDF

[Paper] Open AI 供应链中的 Permissive-Washing：许可证完整性的大规模审计

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] YOR：用于通用机器人技术的您的专属移动机械臂

[Paper] SCRAPL：用于机器学习的随机路径散射变换

[Paper] GENIUS：生成式流体智力评估套件

[Paper] LCIP：Loss-Controlled 逆投影高维图像数据