生成式 AI 改进了能够穿透障碍物的无线视觉系统
Source: MIT News - AI
MIT 研究人员花费十多年时间研究能够让机器人 “透过障碍物看到” 隐藏物体的技术。他们的方法利用能够穿透表面的无线信号,这些信号会在隐藏的物体上反射。
现在,研究人员正利用生成式人工智能模型来突破长期限制先前方法精度的瓶颈。其结果是一种能够产生更精确形状重建的新方法,这有望提升机器人在视线受阻的情况下可靠抓取和操作物体的能力。
技术原理
- 部分重建 – 使用反射的无线信号构建隐藏物体的不完整三维模型。
- 生成式 AI 完成 – 经过专门训练的生成式 AI 模型填补形状的缺失部分。
团队还推出了一个扩展系统,利用生成式 AI 重建整个房间,包括所有家具。该系统:
- 从单个固定雷达发送无线信号。
- 捕获空间中移动的人体的反射。
“我们现在所做的是开发生成式 AI 模型,帮助我们理解无线反射。这开启了许多有趣的新应用,但从技术上讲,这也是能力的质的飞跃——从能够填补我们以前看不见的空白,到能够解释反射并重建整个场景,” Fadel Adib 说,他是麻省理工学院媒体实验室电气工程与计算机科学系副教授、Signal Kinetics 小组主任,并且是这两篇技术论文的资深作者。“我们正在使用 AI 最终解锁无线视觉。”
潜在应用
- 仓库机器人 – 在发货前验证已包装的物品,减少因产品退货导致的浪费。
- 智能家居机器人 – 了解人在房间中的位置,提高人机交互的安全性和效率。
发表
-
第一篇论文 – Link to arXiv PDF
- Lead author: Laura Dodds (research assistant)
- Co‑authors: Maisy Lam, Waleed Akbar, Yibo Cheng
-
第二篇论文 – Link to arXiv PDF
- Lead author: Kaichen Zhou (former postdoc)
- Co‑authors: Laura Dodds, Sayed Saad Afzal
两篇论文都将在 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 上展示。
克服镜面反射
Adib Group 之前展示了使用 毫米波 (mmWave) 信号 来 创建隐藏物体的精确重建(例如,埋在堆积物下的丢失钱包)。这些波——与 Wi‑Fi 使用的相同——可以穿透常见的阻挡物,如石膏板、塑料和纸板,并在隐藏物体上产生反射。
镜面反射问题
- 镜面反射:毫米波倾向于在单一方向上从表面弹回。因此,物体的大部分表面会将信号反射离传感器,使这些区域不可见。
- 结果是,以前的重建只能捕获物体的 顶部表面,底部和侧面缺失。
“当我们想要重建一个物体时,只能看到顶部表面,底部和侧面都看不到,” Laura Dodds 解释道。
基于物理的反射信号解释限制了重建精度。新的论文通过使用生成式 AI 模型填补缺失部分,克服了这一限制。
训练生成模型
- 数据稀缺——现有的毫米波数据集规模不足,无法训练高性能的生成模型。
- 合成适配——团队将大型计算机视觉数据集的图像改造为模拟毫米波反射特性的形式(包括镜面反射和噪声)。
“我们在模拟镜面反射的特性以及这些反射产生的噪声,这样就可以把现有的数据集应用到我们的领域。若要自行收集足够的新数据,可能需要数年时间,” Maisy Lam 说。
毫米波反射的物理特性直接嵌入到改造后的数据中,生成了一个合成数据集,使生成式 AI 学会产生合理的形状重建。
Wave‑Former 系统
- 提案阶段——根据毫米波反射生成一组潜在的物体表面。
- 完成阶段——将每个提案输入生成式 AI 模型,由模型完成形状。
- 细化阶段——迭代细化这些表面,直至得到完整的重建。
性能表现
- 重建了约 70 种日常物品(罐子、盒子、餐具、水果),这些物品隐藏在纸板、木材、石膏板、塑料和织物之下/后。
- 相较于最先进的基线,准确率提升了 近 20 %。
看到“幽灵”
相同的方法被扩展用于通过利用 在人间移动的人的 mmWave 反射 来重建整个室内场景。
- 多路径反射 – 人体运动会产生二次反射:波先在人体上反射,然后在墙壁或物体上反射,最后返回传感器。
- 这些二次反射被称为 “幽灵信号”。
通常被当作噪声丢弃的幽灵信号实际上包含了关于房间布局的有价值信息。通过分析这些反射随时间的变化,系统可以获得对环境的粗略理解,然后将其细化为详细的重建。
“通过分析这些反射随时间的变化,我们可以开始对环境有一个粗略的了解…”,Dodds 解释道。(来源中句子被截断)
RISE:使用毫米波雷达和生成式 AI 精细化场景重建
“我们从毫米波雷达获得的信号非常粗糙——只有几个点,让我们对周围环境有模糊的感知。但直接解释这些信号的准确性和分辨率都受到限制。” — Dodds
工作原理
- 研究人员使用了一种与生成式 AI 模型相似的 训练方法。
- AI 学会解释粗糙的场景重建,并理解 多路径毫米波反射 的行为。
- 模型 填补空白,细化初始重建,直至场景完整。
性能
- 该系统名为 RISE,在单个毫米波雷达捕获的 100 多条人体轨迹 上进行测试。
- 平均而言,RISE 生成的重建 精度约是现有技术的两倍。
未来方向
- 提升重建的 粒度和细节。
- 构建 无线信号的大型基础模型,类似于用于语言和视觉的 GPT、Claude、Gemini,开启新应用。
致谢
本工作部分得到以下机构的支持:
- 美国国家科学基金会 (NSF)
- MIT 媒体实验室
- 亚马逊