Taalas 如何“打印” LLM 到芯片上？

发布: 3天前 (2026年2月22日 GMT+8 03:07)

5 分钟阅读

Source: Hacker News

一家名为 Taalas 的初创公司最近发布了一款 ASIC 芯片，能够以 每秒 17 000 token 的推理速度运行 Llama 3.1 8B（3/6‑bit 量化）——大约相当于在一秒钟内填满 30 张 A4 纸的文字量。公司声称，该方案在拥有成本上比基于 GPU 的推理 便宜约 10 倍，耗电 低 10 倍，并且 比最先进的 GPU 推理快 10 倍。

关键思路在于模型的权重被 硬连线 到硅片上，省去了每个 token 都需要从外部存储读取大矩阵的过程。下面对比传统 GPU 推理，说明其工作原理。

基础

Taalas 是一家成立 2.5 年的公司，已打造出首款 固定功能 ASIC（Application‑Specific Integrated Circuit）。就像 CD‑ROM 或纸质书一样，这块芯片只容纳单一模型，无法重新编程以运行其他模型。

NVIDIA GPU 是如何处理的？（低效 101）

大语言模型由顺序层组成；例如 Llama 3.1 8B 拥有 32 层。每层包含用于编码模型知识的大权重矩阵。

Prompt → 嵌入 – 将用户输入转化为数值向量。
逐层计算 – 在 GPU 上，输入向量被送入计算核心。对每一层而言：
- 从 VRAM/HBM（GPU 的外部存储）中读取该层权重。
- 执行矩阵乘法。
- 将得到的激活值写回 VRAM。
Token 生成 – 这一次 32 层的遍历产生一个 token。生成下一个 token 时会重复整个过程。

由于 GPU 不断在计算核心和外部存储之间来回搬运数据，内存总线成为延迟和能耗瓶颈——常被称为 冯·诺依曼瓶颈 或 内存墙。

打破墙壁！

Taalas 通过 将 32 层直接刻录在芯片上 来消除内存墙。模型的权重变成了硅片上刻蚀的物理晶体管。

公司还声称发明了一种硬件方案，能够存储 4‑bit 数据 并使用 单个晶体管 完成相应的乘法（这里称为 “魔法乘法器”）。

当提示词到达时：

将其转换为向量。
向量流经实现第 1 层的晶体管，魔法乘法器完成乘法。
结果不写回外部 RAM，而是直接通过流水线寄存器流向第 2 层的晶体管。
该流水线持续通过所有层，直至产生最终输出 token。

那么，它们根本不使用任何 RAM 吗？

芯片 不依赖 外部 DRAM/HBM。它只使用少量 片上 SRAM 用于：

KV 缓存 – 用于存放正在进行对话的上下文窗口的临时数据。
LoRA 适配器 – 轻量化微调参数。

选择 SRAM 的原因是 DRAM 与逻辑门混合成本高且复杂，而 SRAM 不受当前 DRAM 供应链限制的影响。

为每个模型定制芯片不是超级昂贵吗？

原则上是的。不过，Taalas 采用 基础芯片，上面拥有庞大、通用的逻辑门网格。要映射特定模型，只需定制 最上层的两层金属/掩模，这比从头设计芯片要便宜且更快。

Llama 3.1 8B 实现的开发时间：≈ 2 个月。
在快速变化的 AI 领域，这已经相对迅速，虽仍慢于纯软件更新。

这种方法为 大规模生产、超高速推理硬件 指明了方向，可能会成为在本地运行模型而无需高端 GPU 的用户的游戏规则改变者。

参考资料

Taalas 博客
EE Times 关于 Taalas “魔法乘法器”的文章

Taalas 如何“打印” LLM 到芯片上？

基础

NVIDIA GPU 是如何处理的？（低效 101）

打破墙壁！

那么，它们根本不使用任何 RAM 吗？

为每个模型定制芯片不是超级昂贵吗？

参考资料

相关文章

Show HN: Emdash – 开源代理式开发环境

心肺适能与较低的愤怒和焦虑相关

Verge (YC S15) 正在招聘计算生物学总监和 AI 科学家/工程师

大阪：关西机场自豪地从未丢失单件行李 (2024)