Mithridatium：用于验证预训练机器学习模型完整性的开源工具包

发布: 3天前 (2025年12月3日 GMT+8 10:53)

4 min read

原文: Dev.to

Source: Dev.to

为什么选择 Mithridatium？

当今的机器学习生态系统默认预训练模型是安全的。实际上，模型文件本身可能是一个潜在的攻击向量：

Mithridatium 提供了一套命令行工作流，通过模型中心的防御来评估这些风险，灵感来源于学术研究，但为实际使用简化。

安装后，Mithridatium 可以完全离线运行。

你只需要：

这使得该工具适用于受限环境、空气隔离的机器或安全的内部 ML 流水线。

pip install mithridatium

升级到最新版本：

pip install --upgrade mithridatium

MMBD 通过评估合成的类优化图像来检测通常与后门模型相关的异常激活模式。

特性

示例调用

mithridatium detect --model model.pth --defense mmbd --arch resnet18 --data cifar10

STRIP 是一种黑盒防御，不依赖内部架构细节。它在模型面对同一输入的强扰动变体时评估预测熵。后门模型在扰动下通常表现出异常低的熵。

特性

示例调用

mithridatium detect --defense strip --model model.pth --data cifar10 --arch resnet18

在明年之前不会新增防御；重点是打磨工具的可维护性和易用性。

该项目是开源的，地址在这里： mithridatium

欢迎贡献、提交问题和反馈。

如果你在使用预训练模型——无论是研究、部署还是安全方面——不要假设其完整性。Mithridatium 帮助你验证模型的完整性。详细说明、防御理论和使用示例请参见仓库的 README。