Salomi,关于极低比特 Transformer 量化的研究仓库
Source: Hacker News
SALOMI
SALOMI 是一个专注于 极低位 transformer 量化与推理 的研究仓库,特别关注 二进制或近二进制 权重表示是否能够在真实评估下接近或超越 三进制 基准。
本仓库包含:
- 用于量化、运行时推理、评估、内核以及相关工具的
onebit/包, - 用于验证和实验的大型
tests/目录, docs/下的研究文档,- 以及
onebit/research/paper/中的历史论文式材料。
快速开始
本仓库更适合作为研究工作空间,而不是“一键式”产品包。
典型的设置步骤:
python -m venv .venv
.venv\Scripts\activate
pip install -r requirements.txt
pytest注意事项
pyopencl为可选项,除非你想探索 OpenCL 后端。- 某些研究脚本需要从 Hugging Face 下载模型/数据,可能需要额外的环境配置或凭证,具体取决于你的机器状态。
- 若想获得引导式概览,请在运行旧实验脚本前阅读
RESEARCH.md。
状态
这是一个 研究仓库,而非精致的生产级包。
仓库层面的最重要结论是:
- 严格的 1.00 bpp 事后二进制量化在严格评估下并不能作为强大的 GPT‑2 级语言模型解决方案
- 本仓库中更可信的实际结果集中在 ~1.2‑1.35 bpp,使用 Hessian 引导的 VQ、混合精度或幅度恢复方法
入门指南
RESEARCH.md— 综合性的仓库层面研究报告与成熟度评估docs/HONEST_ASSESSMENT.md— 最严谨的现实检验文档docs/PROJECT_ANALYSIS_SUMMARY.md— 验证与失效模式总结docs/REPOSITORY_GUIDE.md— 精选的技术使用指南docs/ARCHIVE.md— 历史实验文件与命名说明REPRODUCIBILITY.md— 环境与复现指导CONTRIBUTING.md— 贡献与仓库维护规范
关于声明的重要说明
onebit/research/paper/ 下的部分材料保留了 更早、更乐观的草稿声明。若要获取最具防御性的当前解释,请优先参考:
RESEARCH.mddocs/tests/
而不是在冲突时使用历史论文草稿中的数字。
使其可公开使用的因素
本仓库已被整理以提升 GitHub 可用性:
README.md提供了顶层框架RESEARCH.md为完整的研究报告requirements.txt记录了依赖清单.gitignore排除常见的本地缓存和临时文件LICENSE现在在 Apache‑2.0 下提供了明确的再使用条款
许可证
本仓库采用 Apache‑2.0 许可证。详见 LICENSE。
仓库结构
SALOMI/
├── README.md
├── RESEARCH.md
├── onebit/
├── docs/
├── tests/
└── research/result artifacts and experiment scripts对外定位
该项目最诚实的定位是:
一次严肃的研究与系统探索,聚焦极端 LLM 量化,既包括有前景的方法,也提供了关于天真 sub‑1‑bit 声明何时失效的严格证据。
命名说明
某些文件名,尤其是 onebit/research/ 下的,保留了工作时间线而非理想的公开分类。诸如 novel_ideas_v*.py 的名称有意保留,以作为研究轨迹的一部分。面向公众的读者应优先关注精选文档和已验证的测试路径,而非历史实验文件名。
推荐阅读顺序
README.mdRESEARCH.mddocs/HONEST_ASSESSMENT.mddocs/PROJECT_ANALYSIS_SUMMARY.mddocs/REPOSITORY_GUIDE.md
请按此顺序阅读,然后再打开历史论文草稿,以获取经过纠正、可信的仓库故事。