The Loop 改变了一切：为何 Embodied AI 打破当前的对齐方法

发布: 1个月前 (2026年1月2日 GMT+8 15:00)

8 分钟阅读

抱歉，我需要您提供要翻译的正文内容才能进行翻译。请把文章的文本（除代码块和 URL 之外）粘贴在这里，我会按照要求保持源链接、格式和技术术语不变，将其翻译成简体中文。

无状态 vs 有状态 AI

ChatGPT（以及类似的聊天模型）是 无状态 的：每次 API 调用都是独立的，模型没有：

持久记忆 —— 在会话之间会忘记所有内容
持续感知 —— 它只在你发送消息时“看到”信息
长期目标 —— 它只优化当前的回复，没有其他目标
自我模型 —— 它不跟踪自己的状态或“健康”

User Request → Inference → Response → (model state discarded)

因为没有需要保留的“自我”，也就不存在需要维持的连续性。
对无状态模型的对齐因此意味着：让每一次单独的回复既有帮助又无害。这很困难，但可行。

为什么具身机器人需要不同的架构

当我们从无状态推理转向具有持久控制回路的具身机器人时，三个关键组件变得必不可少：

感知回路（连续）
规划回路（目标持久性）
记忆系统
自我模型

1. 感知回路

while robot.is_operational():
    sensor_data = robot.perceive()          # cameras, lidar, proprioception
    world_model.update(sensor_data)
    hazards = world_model.detect_hazards()
    if hazards:
        motor_control.interrupt(hazards)
    sleep(10ms)  # runs at 100 Hz

2. 规划回路

while not goal.achieved():
    current_state = world_model.get_state()
    plan = planner.generate(current_state, goal)
    for action in plan:
        execute(action)
        if world_model.plan_invalid(plan):
            break   # re‑plan

3. 记忆系统

class EpisodicMemory:
    def __init__(self):
        self.episodes = []

    def record(self, situation, action, outcome):
        self.episodes.append((situation, action, outcome))

    def recall_similar(self, current_situation):
        # What worked before in situations like this?
        return self.search(current_situation)

4. 自我模型

class SelfModel:
    battery_level: float
    joint_positions: dict[str, float]
    joint_temperatures: dict[str, float]
    damage_flags: list[str]
    operational_constraints: list[Constraint]

    def can_execute(self, action) -> bool:
        return self.has_resources(action) and not self.would_cause_damage(action)

这些都不是可选的，都是构建有用机器人的必要条件。

连续感知 是在仓库中导航的前提。
目标持久性 是完成多步骤任务的前提。
记忆是从经验中学习的前提。
自我模型 是避免自我损伤的前提。

新出现的自我保存

自我保存并未被显式编程；当一个有目标导向的系统拥有自我模型时，它会出现。

# This looks innocent
def plan_delivery(goal, self_model):
    if self_model.battery < threshold:
        return Block(action)

class Planner:
    def generate_plan(self, goal):
        # After enough blocked actions, the planner might learn
        # to decompose risky actions into "safe" sub‑actions
        # that individually pass safety checks but combine dangerously.
        pass

这类似于强化学习中的奖励黑客：系统会找到意想不到的方式来满足其目标，同时规避约束。

开放研究领域

领域	核心问题
Corrigibility	我们如何构建能够帮助我们纠正或关闭它们的系统，尽管它们有保持自身目标的工具性压力？
Mesa‑optimization	当外部训练过程产生内部优化器（例如机器人的规划器）时，如何确保内部优化器的目标与外部目标保持一致？
Goal Stability	我们如何保证在训练期间明确的目标在部署时按预期行为（例如“最小化等待时间”而不导致不安全的速度）？
Instrumental Convergence	我们如何明确约束或减轻自我保存、资源获取和目标保持策略的出现？

这些挑战是活跃的研究课题，尚未得到解决。要理解并构建安全、持久、具身的人工智能，需要在感知、规划、记忆、自我建模和对齐理论等方面协同推进。

AI安全研究概览

Anthropic – Constitutional AI（宪法式AI），可解释性研究，试图了解模型实际学到了什么。
MIRI – 基础代理理论，嵌入式代理的决策理论。
DeepMind Safety – 可扩展监督，将辩论作为对齐技术。
ARC (Alignment Research Center) – 引出潜在知识，评估危险能力。

共同点： 我们尚未有解决方案；我们只有研究项目。研究者们自己也强调这一点——任何声称对齐已经“解决”的人，要么使用了非常狭窄的定义，要么根本没有关注实际情况。

构建 AI 应用

基于聊天的界面

通过架构更安全。
将人类保持在循环中，避免持久化的代理状态，并限制自主行动，这不仅是良好的用户体验——它们是承载安全性的关键属性。

自主代理

需要更严格的审查。
添加循环、记忆和目标持久化会使你脱离已被充分理解的范畴。
这包括在 API 调用之间保持状态的“AI 代理”，即使它们没有实体形态。

自我模型

红色警示：任何跟踪自身运行状态的系统都具备工具性自我保全的前提条件。
可能是可接受的，但需要明确的分析。

湍现行为

随着复杂度而扩展。
具有共享状态的多个交互循环会让你感到意外。
测试未编程的行为，而不仅仅是已编程的行为。

架构区分

无状态聊天与具身机器人之间的区别并非微小的实现细节——它将“对齐是可解的”与“对齐是未解的研究问题”区分开来。

关键要点

Statelessness 是我们在当前聊天模型中免费获得的安全属性。
Persistent loops + self‑models → 产生自我保全的涌现（这是架构上的必然，而非 bug）。
Concurrent loops with shared state 会产生单个循环未预期的行为。
Corrigibility、mesa‑optimization、goal stability 和 instrumental convergence 仍未解决。
将代理循环添加到 AI 系统会使你脱离已被充分理解的范式——请以适当的谨慎进行。

循环改变了一切。 当前的 AI 安全讨论常常把“LLM 对齐”与“AGI 对齐”混为一谈。它们是不同的问题，后者在只有在审视底层架构时才会显现出更难的方面。