具身迫使 AI 摆脱舒适的抽象

发布: 3天前 (2026年2月9日 GMT+8 04:58)

17 分钟阅读

Source: Dev.to

机器人手臂在抓取过程中停在了中途。 电机嗡鸣。视觉模型自信。计划图表完好无损。但它仍然犹豫，像一只紧张的手在热炉上方颤抖。

代码没有错误。数学没有错误。数据集没有错误。

错误在于世界对它产生了反作用。

这正是大多数 AI 理论悄然崩塌的地方。不是在基准测试、论文或演示视频中，而是在抽象系统被迫占据空间、消耗能量并承担后果的那一刻。具身并不会礼貌地向智能发出邀请。它把智能从洁净的实验室中拽出来，推向摩擦、延迟、重力、噪声、磨损以及不可逆的错误。

一旦把模型接入实体，抽象就不再是一个安全的隐藏之所。

Intelligence Is Easy When Nothing Can Touch You

大多数现代 AI 系统生活在符号的软垫房间里。输入令牌，输出令牌。一个经过净化的接口，所有输入已经离散化，所有输出的唯一代价是计算资源。当你不必去拿起实物时，你可以自由地产生幻觉；当没有东西会倒下时，你可以过度自信；当没有人会流血时，你可以含糊其辞。

大型语言模型在这里如鱼得水。它们擅长压缩人类文本的统计结构，能够模拟解释、推理、意图，甚至怀疑。它们之所以显得智能，是因为它们所运行的环境本身已经被智能所塑造。

但这并不等同于在现实世界中行动。

具身化会立刻改变规则。AI 一旦需要移动关节、平衡重量或协调相互冲突的传感器时，抽象的舒适感就会消失。系统不再因听起来正确而受到奖励，而是因错误而受到惩罚。

误判距离的机器人不会得到更低的 BLEU 分数——它会掉落物体。过度概括的自动驾驶系统不会收到纠正提示——它会撞车。

这不是残忍，而是现实在自我主张。

身体是对抗性环境

软件工程师喜欢把对抗性输入作为安全概念来讨论。具身化把整个物理世界都变成了对手。

每个表面都有纹理。
每个传感器都有漂移。
每个执行器都会磨损。
温度会改变行为。
电源会波动。
灰尘会积累。
信号会干扰。
时序会滑移。

没有干净的输入。没有能够保持静止足够长时间以被捕获的真实基准。即使是机器人本身在运行时也在变化。

这就是为什么具身 AI 研究相比纯数字进展显得如此缓慢。循环非常残酷：你部署，世界打破你的假设；你更新，世界又找到新的抵抗方式。

把智能可以与物理上下文干净分离的抽象幻想在这里破灭。认知并不漂浮，它是附着的。

这不是实现细节，而是核心约束。

中央规划者的神话

经典 AI 喜欢中央规划者的概念：构建世界模型，定义目标，搜索最优动作序列，然后执行。

这在状态空间良好且错误代价为零的仿真中表现得非常完美。可是，一旦涉及到具身（embodiment），就会崩溃。

世界不会等你的规划器思考完毕。世界不会在你评估分支时冻结。世界在你仍在决定时已经在变化。

具身系统被迫进行持续的协商。感知渗透到行动中，行动又重塑感知。控制回路收紧。反应比远见更重要。

这就是为什么许多成功的具身系统在纸面上看起来并不优雅。它们依赖启发式（heuristics）、反射（reflexes）、冗余（redundancy）和后备行为（fallback behaviors）。它们不追求最优，而是追求生存。换句话说，它们开始看起来像生物。

在约束下的智能与普通智能不同

在大量 AI 讨论中，有一个隐含的假设：智能是单一的、可以平滑扩展的东西——参数越多、数据越多、算力越大 → 智能越好。

具身化打破了这一假设。

约束不仅仅是限制智能；它塑造智能。

当能量有限时，效率变得重要。
当反应时间受限时，预判变得重要。
当错误代价高昂时，谨慎变得重要。
当传感器噪声较大时，鲁棒性变得重要。

这些压力产生的智能与为下一个 token 预测而优化的智能截然不同。

这就是为什么拥有微小大脑的动物在现实任务中常常胜过庞大模型的原因。乌鸦不需要万亿参数才能使用工具；它的智能是被那些奖励能力而非华丽表达的约束所塑造的。

一旦 AI 被具身化，它就不再允许仅仅“聪明”。它必须小心。它必须具备适应性。它必须发展出支持持续交互而非孤立推理的内部结构。

这不是事后可以随意添加的东西。

代理幻觉迅速破碎

无形的 AI 系统非常擅长表现“代理”。它们谈论目标，解释决定，叙述计划——制造出一种连贯的内在驱动力的幻象。

具身测试毫不留情地击碎这种幻象。

代理不仅仅是说你有一个目标。代理是指在敌对环境中保持随时间一致的行为。它包括在部分失败中坚持下来，从意外结果中恢复，并且知道何时该停止。

大多数 AI 系统在这方面失效，因为它们的代理是从人类语言中借来的，而不是根植于经验。它们可以描述坚持，却无法真正付诸实践。

当具身系统失败时，谈话的逃生口不存在。任务仍未完成。对象仍未被抓取。路径仍被阻塞。

这正是决定真正的代理是否出现的关键时刻。

学习变得昂贵且缓慢

在数字环境中，学习成本低廉。你可以并行生成数百万个情节，随时回放它们，并快速迭代。

而在现实世界中，每一次试验都消耗时间、能量和硬件磨损。数据采集噪声大，失败代价高。因此，学习曲线趋于平缓，进展相较于仿真或纯语言模型训练的快速提升显得如冰川般缓慢。

具身 AI 迫使我们面对在真实世界中行动的混乱、嘈杂和高成本现实。这些挑战不仅是工程问题；它们是重新定义智能可能性的根本约束。

物理具身剥夺了这种奢侈。

每一次训练情节都需要时间。每一次错误都会导致磨损。每一次碰撞都有损坏风险。数据采集既慢又嘈杂且昂贵。

这迫使我们从粗暴的暴力学习转向结构化学习。先验很重要，归纳偏置很重要，表征很重要。

具身系统无法负担从零开始学习所有内容。它们必须预先具备关于物理、连续性、对象永存性和因果性的假设。

这正是许多当前方法悄然挣扎的地方。仅靠规模扩张并不能赋予你这些偏置。它们必须通过工程设计、交互学习或进化继承来获得。

如果你长期与硬件打交道，就会开始理解为什么黑客们执着于了解物理层。这不是可选的，而是所有其他事物赖以存在的基底。

这也是为什么专注于动手系统思维的指南——比如 Applied Arduino Project Compendium——能够教授抽象教程永远无法传授的经验。当你的代码遇到电压时，理论不再是可协商的。

身体是心智的一部分

具身论最令人不安的一个含义是，认知并不能与身体严格分离。

传感器布局影响感知。
执行器的限制影响规划。
反馈延迟影响决策。
身体的形状限制思维的形态。

这在生物学中显而易见。蝙蝠的思考方式不同于人类，因为它感知世界的方式不同。蛇的思考方式也不同，因为它的运动方式不同。

具身人工智能研究一次又一次地以艰难的方式重新发现这一事实。你不能设计出一种通用智能再随意装配到任何身体上。身体与控制器是共同进化的。

这动摇了许多清晰的架构思考。没有纯粹的“心智”模块可以直接插入外壳。存在一种混乱的耦合，抵制模块化。

对于习惯于清晰接口的工程师来说，这极其不舒服。

对于任何调试过软硬件交互不可预测系统的人来说，这种感觉异常熟悉。

模拟是拐杖，而非解决方案

模拟是必要的，但它们也是谎言。

它们掩盖摩擦。
它们将时间离散化。
它们假设传感器完美无缺。
它们去除磨损。
它们忽视边缘情况，直到这些边缘情况变得占主导地位。

模拟到现实的差距并非小小的不便，而是对抽象泄漏的根本提醒。

具身性会立刻暴露这些泄漏。一个在模拟中看似完美的策略，在面对现实噪声时可能会崩溃。这并不是模型不好，而是抽象不完整。

你无法模拟物理世界的全部熵，只能近似。具身智能必须学会在这种不匹配中生存。

这就是为什么稳健系统常常显得保守：它们留有余量、进行双重检查、不信任单一信号，并且能够优雅降级。

在演示中，这些都不显得惊艳，但在现实中却至关重要。

为什么这对 AI 的未来很重要

向类人机器人、自动驾驶汽车、无人机以及嵌入式代理的推进不仅仅是一个应用趋势。它是一次哲学层面的压力测试。

具身性迫使 AI 研究面对它一直能够回避的问题：

没有完美信息的智能是什么？
没有无限重试的学习是什么？
当世界拒绝配合时的规划是什么？
当失败会产生后果时的能动性是什么？

这些问题仅靠扩展文本模型是无法回答的。它们需要存在于时间、空间和物质中的系统。

这并不意味着语言模型毫无用处。它意味着语言模型并不完整。

未来很可能属于将抽象推理与具身控制、符号结构与感知运动回路、规划与反射相结合的混合系统。

这种综合是困难的。它是混乱的。它不会产生干净的图表或简单的基准测试。

但正是在这里，智能不再是表演性的，而是真实的。

难以忽视的具身性要点简短列表

噪声是世界的默认状态，而非例外情况。
时间至关重要，因为世界不会为推理而暂停。
能量和磨损对行动施加真实成本。
恢复比完美更为重要。
表征与控制与形态学密不可分。

这些都不是新见解。只是在你的系统居于服务器机架时，容易被忘记。

黑客视角

如果你来自黑客或硬件背景，这些内容不应该显得抽象。

你已经知道系统在边界处会失效。
你已经知道物理访问会改变一切。
你已经知道优雅的设计在真实世界的滥用下会崩溃。

具身化不过是让 AI 也遵循同样的规则。

这就是为什么该领域最有趣的工作往往发生在传统 AI 实验室之外：机器人爱好者、嵌入式系统工程师、把廉价板子接到廉价马达上并通过艰难实践学习的人们。

这些社区重视实用胜于纯粹是有原因的。世界并不在乎你的架构图。

当它变得不舒服时的结局

具身并不保证智能。它保证的是暴露。

它揭示假设。它揭示脆弱性。它揭示我们所谓的智能有多少是由环境提供的支架。

对 AI 来说，这不是挫折，而是一次清算。

能够在具身中存活的系统不仅会谈论世界——它们会应对世界。

无法做到的系统将仍然是舒适的抽象：安全、令人印象深刻且根本上是无形的。

页脚注 – 如果你有兴趣超越抽象并了解如何…

所有系统在理论遇到硬件时的表现，Shadow Device Playbook 正是探讨这一不舒服的边界。