[Paper] CORVET：一种基于 CORDIC、资源节约的混合精度向量处理引擎，用于高吞吐量 AIoT 应用

发布: 3天前 (2026年2月23日 GMT+8 00:51)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.19268v1

概览

一篇新论文介绍了 CORVET，这是一种混合精度向量处理引擎，使用基于 CORDIC 的乘加（MAC）单元，在超低资源的边缘设备上实现高吞吐量的 AI 推理。通过在近似计算模式和精确计算模式之间动态切换，CORVET 在相同硅片面积上可实现高达 4× 的每秒运算次数，使其成为面向 AI‑of‑Things（AIoT）工作负载（如目标检测和分类）的有力候选方案。

关键贡献

CORDIC‑powered MAC：一种迭代式、资源节约的 MAC，与传统乘法器相比，可将延迟降低最高 33 %，功耗降低 21 %。
Runtime‑adaptive precision：支持 4‑、8‑和 16‑位数据宽度，并且能够在近似（快速、低精度）和精确（慢速、高精度）模式之间即时切换。
Time‑multiplexed vector engine：一个 256‑PE（处理单元）阵列，在向量通道之间复用硬件，实现 4.83 TOPS/mm² 的计算密度和 11.67 TOPS/W 的能效。
Lightweight pooling & normalization block：集成的后处理块，避免额外的内存访问，使数据通路保持紧凑。
Hardware‑software co‑design flow：在 Pynq‑Z2 FPGA 平台上演示了面向真实场景的目标检测/分类流水线，展示了端到端的可扩展性。

方法论

作者围绕 CORDIC（坐标旋转数字计算机） 单元构建了一个 混合精度向量引擎，该单元通过一系列移位‑加迭代而非全宽乘法器来实现乘法运算，从而得到更小、更省电的 MAC 单元。

关键架构技巧

动态模式切换 – 控制 FSM 根据当前层对误差的容忍度，选择近似 CORDIC 配置（迭代次数少、延迟低）或 全精度 配置（迭代次数多）。
向量化与时分复用 – 单个 MAC 阵列在多个向量通道之间共享；引擎在每个时钟周期轮流处理通道，实现吞吐量提升而无需复制硬件。
精度缩放 – 输入操作数在运行时量化为 4/8/16 位；CORDIC 流水线会自动根据所选位宽调整移位‑加调度，使延迟与精度成正比。
软硬件协同设计 – 作者扩展了编译器后端，以为神经网络的每一层生成控制提示（精度、模式），从而硬件能够在运行时重新配置，开销几乎可以忽略不计。

该设计既作为 ASIC 宏单元合成，也作为 FPGA 覆盖（在 Xilinx Pynq‑Z2 开发板上）实现，以验证硅级指标和实际性能。

结果与发现

指标	CORVET (ASIC)	已有技术 (例如 [Reference])
Compute density	4.83 TOPS/mm²	3.2 TOPS/mm²
Energy efficiency	11.67 TOPS/W	7.9 TOPS/W
MAC latency reduction	33 %	–
Power per MAC	21 % lower	–
Throughput (same area)	4× higher	–
Supported precision	4/8/16 bit, mixed‑mode	Fixed 8‑bit

在 Pynq‑Z2 原型上，YOLO‑tiny 目标检测器在 ~45 fps、≈0.8 W 的功耗范围内运行，而 ResNet‑18 分类器在相同预算下达到 ~70 fps——两者均远高于基线 FPGA 实现。

实际影响

Edge AI 部署 – 诸如智能摄像头、可穿戴设备或工业传感器等设备现在可以容纳更复杂的模型（例如，检测 + 分类），而不会超出严格的功耗或硅片预算。
动态精度权衡 – 能容忍偶尔近似的应用（例如，早期过滤）可以在快速模式下运行，将准确模式保留给关键决策，从而在硬件层面实现 quality‑of‑service（服务质量）。
可扩展设计 – 时分复用的 PE 阵列使芯片设计师能够上下扩展引擎（例如，针对超低成本芯片使用 128‑PE，针对高端边缘 SoC 使用 512‑PE），同时保持每个 PE 的相同效率。
简化工具链 – 通过在编译器中暴露精度/模式提示，软件团队可以直接面向 CORVET，而无需手工编写低层 RTL，从而加快 AIoT 产品的上市时间。
降低内存带宽需求 – 集成的池化/归一化意味着对片外内存的访问更少，这是边缘加速器的常见瓶颈，进一步降低能耗。

限制与未来工作

近似精度界限 – 论文对少数网络提供了经验误差分析，但缺乏一个能够保证任意模型最坏情况误差的正式框架。
ASIC 量产验证 – 结果基于后布局仿真；需要硅片流片及真实硅片测量才能确认所宣称的收益。
对更大位宽的支持 – 虽然 4/8/16 位已覆盖多数边缘场景，但新兴的量化方案（例如 2 位或混合整数‑浮点）尚未涉及。
软件生态系统 – 与主流 AI 框架（TensorFlow Lite、ONNX Runtime）的集成仅作了概述；完整的运行时库将有助于推广。

未来的研究方向 包括将 CORDIC MAC 扩展至支持超低精度（2 位）运算，构建自适应精度的形式化误差传播模型，以及制造硅片原型以验证 ASIC 级别的功耗/面积声明。

作者

Sonu Kumar
Mohd Faisal Khan
Mukul Lokhande
Santosh Kumar Vishvakarma

论文信息

arXiv ID: 2602.19268v1
分类: cs.AR, cs.AI, cs.CV, cs.NE, eess.IV
发布时间: 2026年2月22日
PDF: 下载 PDF

[Paper] CORVET：一种基于 CORDIC、资源节约的混合精度向量处理引擎，用于高吞吐量 AIoT 应用

概览

关键贡献

方法论

关键架构技巧

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 测试时训练结合 KV 绑定实际上是线性注意力

[Paper] Squint：用于Sim-to-Real机器人的快速视觉强化学习

[Paper] 从试错中学习：面向 Embodied LLMs 的反思式测试时规划

[Paper] XMorph：可解释的脑肿瘤分析通过 LLM 辅助的混合深度智能

概览

关键贡献

方法论

关键架构技巧

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 测试时训练结合 KV 绑定 实际上是线性注意力

[Paper] Squint：用于Sim-to-Real机器人的快速视觉强化学习

[Paper] 从试错中学习：面向 Embodied LLMs 的反思式测试时规划

[Paper] XMorph：可解释的脑肿瘤分析通过 LLM 辅助的混合深度智能

[Paper] 测试时训练结合 KV 绑定实际上是线性注意力