[Paper] CORVET:一种基于 CORDIC、资源节约的混合精度向量处理引擎,用于高吞吐量 AIoT 应用

发布: (2026年2月23日 GMT+8 00:51)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.19268v1

概览

一篇新论文介绍了 CORVET,这是一种混合精度向量处理引擎,使用基于 CORDIC 的乘加(MAC)单元,在超低资源的边缘设备上实现高吞吐量的 AI 推理。通过在近似计算模式和精确计算模式之间动态切换,CORVET 在相同硅片面积上可实现高达 的每秒运算次数,使其成为面向 AI‑of‑Things(AIoT)工作负载(如目标检测和分类)的有力候选方案。

关键贡献

  • CORDIC‑powered MAC:一种迭代式、资源节约的 MAC,与传统乘法器相比,可将延迟降低最高 33 %,功耗降低 21 %
  • Runtime‑adaptive precision:支持 4‑、8‑和 16‑位数据宽度,并且能够在 近似(快速、低精度)和 精确(慢速、高精度)模式之间即时切换。
  • Time‑multiplexed vector engine:一个 256‑PE(处理单元)阵列,在向量通道之间复用硬件,实现 4.83 TOPS/mm² 的计算密度和 11.67 TOPS/W 的能效。
  • Lightweight pooling & normalization block:集成的后处理块,避免额外的内存访问,使数据通路保持紧凑。
  • Hardware‑software co‑design flow:在 Pynq‑Z2 FPGA 平台上演示了面向真实场景的目标检测/分类流水线,展示了端到端的可扩展性。

方法论

作者围绕 CORDIC(坐标旋转数字计算机) 单元构建了一个 混合精度向量引擎,该单元通过一系列移位‑加迭代而非全宽乘法器来实现乘法运算,从而得到更小、更省电的 MAC 单元。

关键架构技巧

  1. 动态模式切换 – 控制 FSM 根据当前层对误差的容忍度,选择 近似 CORDIC 配置(迭代次数少、延迟低)或 全精度 配置(迭代次数多)。
  2. 向量化与时分复用 – 单个 MAC 阵列在多个向量通道之间共享;引擎在每个时钟周期轮流处理通道,实现吞吐量提升而无需复制硬件。
  3. 精度缩放 – 输入操作数在运行时量化为 4/8/16 位;CORDIC 流水线会自动根据所选位宽调整移位‑加调度,使延迟与精度成正比。
  4. 软硬件协同设计 – 作者扩展了编译器后端,以为神经网络的每一层生成控制提示(精度、模式),从而硬件能够在运行时重新配置,开销几乎可以忽略不计。

该设计既作为 ASIC 宏单元合成,也作为 FPGA 覆盖(在 Xilinx Pynq‑Z2 开发板上)实现,以验证硅级指标和实际性能。

结果与发现

指标CORVET (ASIC)已有技术 (例如 [Reference])
Compute density4.83 TOPS/mm²3.2 TOPS/mm²
Energy efficiency11.67 TOPS/W7.9 TOPS/W
MAC latency reduction33 %
Power per MAC21 % lower
Throughput (same area) higher
Supported precision4/8/16 bit, mixed‑modeFixed 8‑bit

在 Pynq‑Z2 原型上,YOLO‑tiny 目标检测器在 ~45 fps≈0.8 W 的功耗范围内运行,而 ResNet‑18 分类器在相同预算下达到 ~70 fps——两者均远高于基线 FPGA 实现。

实际影响

  • Edge AI 部署 – 诸如智能摄像头、可穿戴设备或工业传感器等设备现在可以容纳更复杂的模型(例如,检测 + 分类),而不会超出严格的功耗或硅片预算。
  • 动态精度权衡 – 能容忍偶尔近似的应用(例如,早期过滤)可以在快速模式下运行,将准确模式保留给关键决策,从而在硬件层面实现 quality‑of‑service(服务质量)。
  • 可扩展设计 – 时分复用的 PE 阵列使芯片设计师能够上下扩展引擎(例如,针对超低成本芯片使用 128‑PE,针对高端边缘 SoC 使用 512‑PE),同时保持每个 PE 的相同效率。
  • 简化工具链 – 通过在编译器中暴露精度/模式提示,软件团队可以直接面向 CORVET,而无需手工编写低层 RTL,从而加快 AIoT 产品的上市时间。
  • 降低内存带宽需求 – 集成的池化/归一化意味着对片外内存的访问更少,这是边缘加速器的常见瓶颈,进一步降低能耗。

限制与未来工作

  • 近似精度界限 – 论文对少数网络提供了经验误差分析,但缺乏一个能够保证任意模型最坏情况误差的正式框架。
  • ASIC 量产验证 – 结果基于后布局仿真;需要硅片流片及真实硅片测量才能确认所宣称的收益。
  • 对更大位宽的支持 – 虽然 4/8/16 位已覆盖多数边缘场景,但新兴的量化方案(例如 2 位或混合整数‑浮点)尚未涉及。
  • 软件生态系统 – 与主流 AI 框架(TensorFlow Lite、ONNX Runtime)的集成仅作了概述;完整的运行时库将有助于推广。

未来的研究方向 包括将 CORDIC MAC 扩展至支持超低精度(2 位)运算,构建自适应精度的形式化误差传播模型,以及制造硅片原型以验证 ASIC 级别的功耗/面积声明。

作者

  • Sonu Kumar
  • Mohd Faisal Khan
  • Mukul Lokhande
  • Santosh Kumar Vishvakarma

论文信息

  • arXiv ID: 2602.19268v1
  • 分类: cs.AR, cs.AI, cs.CV, cs.NE, eess.IV
  • 发布时间: 2026年2月22日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »