Taalas 如何“打印” LLM 到芯片上?

发布: (2026年2月22日 GMT+8 03:07)
5 分钟阅读

Source: Hacker News

一家名为 Taalas 的初创公司最近发布了一款 ASIC 芯片,能够以 每秒 17 000 token 的推理速度运行 Llama 3.1 8B(3/6‑bit 量化)——大约相当于在一秒钟内填满 30 张 A4 纸的文字量。公司声称,该方案在拥有成本上比基于 GPU 的推理 便宜约 10 倍,耗电 低 10 倍,并且 比最先进的 GPU 推理快 10 倍

关键思路在于模型的权重被 硬连线 到硅片上,省去了每个 token 都需要从外部存储读取大矩阵的过程。下面对比传统 GPU 推理,说明其工作原理。

基础

Taalas 是一家成立 2.5 年的公司,已打造出首款 固定功能 ASIC(Application‑Specific Integrated Circuit)。就像 CD‑ROM 或纸质书一样,这块芯片只容纳单一模型,无法重新编程以运行其他模型。

NVIDIA GPU 是如何处理的?(低效 101)

大语言模型由顺序层组成;例如 Llama 3.1 8B 拥有 32 层。每层包含用于编码模型知识的大权重矩阵。

  1. Prompt → 嵌入 – 将用户输入转化为数值向量。
  2. 逐层计算 – 在 GPU 上,输入向量被送入计算核心。对每一层而言:
    • 从 VRAM/HBM(GPU 的外部存储)中读取该层权重。
    • 执行矩阵乘法。
    • 将得到的激活值写回 VRAM。
  3. Token 生成 – 这一次 32 层的遍历产生一个 token。生成下一个 token 时会重复整个过程。

由于 GPU 不断在计算核心和外部存储之间来回搬运数据,内存总线成为延迟和能耗瓶颈——常被称为 冯·诺依曼瓶颈内存墙

打破墙壁!

Taalas 通过 将 32 层直接刻录在芯片上 来消除内存墙。模型的权重变成了硅片上刻蚀的物理晶体管。

公司还声称发明了一种硬件方案,能够存储 4‑bit 数据 并使用 单个晶体管 完成相应的乘法(这里称为 “魔法乘法器”)。

当提示词到达时:

  1. 将其转换为向量。
  2. 向量流经实现第 1 层的晶体管,魔法乘法器完成乘法。
  3. 结果不写回外部 RAM,而是直接通过流水线寄存器流向第 2 层的晶体管。
  4. 该流水线持续通过所有层,直至产生最终输出 token。

那么,它们根本不使用任何 RAM 吗?

芯片 不依赖 外部 DRAM/HBM。它只使用少量 片上 SRAM 用于:

  • KV 缓存 – 用于存放正在进行对话的上下文窗口的临时数据。
  • LoRA 适配器 – 轻量化微调参数。

选择 SRAM 的原因是 DRAM 与逻辑门混合成本高且复杂,而 SRAM 不受当前 DRAM 供应链限制的影响。

为每个模型定制芯片不是超级昂贵吗?

原则上是的。不过,Taalas 采用 基础芯片,上面拥有庞大、通用的逻辑门网格。要映射特定模型,只需定制 最上层的两层金属/掩模,这比从头设计芯片要便宜且更快。

  • Llama 3.1 8B 实现的开发时间:≈ 2 个月
  • 在快速变化的 AI 领域,这已经相对迅速,虽仍慢于纯软件更新。

这种方法为 大规模生产、超高速推理硬件 指明了方向,可能会成为在本地运行模型而无需高端 GPU 的用户的游戏规则改变者。

参考资料

  • Taalas 博客
  • EE Times 关于 Taalas “魔法乘法器”的文章
0 浏览
Back to Blog

相关文章

阅读更多 »