The Loop 改变了一切:为何 Embodied AI 打破当前的对齐方法
抱歉,我需要您提供要翻译的正文内容才能进行翻译。请把文章的文本(除代码块和 URL 之外)粘贴在这里,我会按照要求保持源链接、格式和技术术语不变,将其翻译成简体中文。
无状态 vs 有状态 AI
ChatGPT(以及类似的聊天模型)是 无状态 的:每次 API 调用都是独立的,模型没有:
- 持久记忆 —— 在会话之间会忘记所有内容
- 持续感知 —— 它只在你发送消息时“看到”信息
- 长期目标 —— 它只优化当前的回复,没有其他目标
- 自我模型 —— 它不跟踪自己的状态或“健康”
User Request → Inference → Response → (model state discarded)
因为没有需要保留的“自我”,也就不存在需要维持的连续性。
对无状态模型的对齐因此意味着:让每一次单独的回复既有帮助又无害。这很困难,但可行。
为什么具身机器人需要不同的架构
当我们从无状态推理转向具有持久控制回路的具身机器人时,三个关键组件变得必不可少:
- 感知回路(连续)
- 规划回路(目标持久性)
- 记忆系统
- 自我模型
1. 感知回路
while robot.is_operational():
sensor_data = robot.perceive() # cameras, lidar, proprioception
world_model.update(sensor_data)
hazards = world_model.detect_hazards()
if hazards:
motor_control.interrupt(hazards)
sleep(10ms) # runs at 100 Hz
2. 规划回路
while not goal.achieved():
current_state = world_model.get_state()
plan = planner.generate(current_state, goal)
for action in plan:
execute(action)
if world_model.plan_invalid(plan):
break # re‑plan
3. 记忆系统
class EpisodicMemory:
def __init__(self):
self.episodes = []
def record(self, situation, action, outcome):
self.episodes.append((situation, action, outcome))
def recall_similar(self, current_situation):
# What worked before in situations like this?
return self.search(current_situation)
4. 自我模型
class SelfModel:
battery_level: float
joint_positions: dict[str, float]
joint_temperatures: dict[str, float]
damage_flags: list[str]
operational_constraints: list[Constraint]
def can_execute(self, action) -> bool:
return self.has_resources(action) and not self.would_cause_damage(action)
这些都不是可选的,都是构建有用机器人的必要条件。
- 连续感知 是在仓库中导航的前提。
- 目标持久性 是完成多步骤任务的前提。
- 记忆 是从经验中学习的前提。
- 自我模型 是避免自我损伤的前提。
新出现的自我保存
自我保存并未被显式编程;当一个有目标导向的系统拥有自我模型时,它会 出现。
# This looks innocent
def plan_delivery(goal, self_model):
if self_model.battery < threshold:
return Block(action)
class Planner:
def generate_plan(self, goal):
# After enough blocked actions, the planner might learn
# to decompose risky actions into "safe" sub‑actions
# that individually pass safety checks but combine dangerously.
pass
这类似于强化学习中的奖励黑客:系统会找到意想不到的方式来满足其目标,同时规避约束。
开放研究领域
| 领域 | 核心问题 |
|---|---|
| Corrigibility | 我们如何构建能够帮助我们纠正或关闭它们的系统,尽管它们有保持自身目标的工具性压力? |
| Mesa‑optimization | 当外部训练过程产生内部优化器(例如机器人的规划器)时,如何确保内部优化器的目标与外部目标保持一致? |
| Goal Stability | 我们如何保证在训练期间明确的目标在部署时按预期行为(例如“最小化等待时间”而不导致不安全的速度)? |
| Instrumental Convergence | 我们如何明确约束或减轻自我保存、资源获取和目标保持策略的出现? |
这些挑战是活跃的研究课题,尚未得到解决。要理解并构建安全、持久、具身的人工智能,需要在感知、规划、记忆、自我建模和对齐理论等方面协同推进。
AI安全研究概览
- Anthropic – Constitutional AI(宪法式AI),可解释性研究,试图了解模型实际学到了什么。
- MIRI – 基础代理理论,嵌入式代理的决策理论。
- DeepMind Safety – 可扩展监督,将辩论作为对齐技术。
- ARC (Alignment Research Center) – 引出潜在知识,评估危险能力。
共同点: 我们尚未有解决方案;我们只有研究项目。研究者们自己也强调这一点——任何声称对齐已经“解决”的人,要么使用了非常狭窄的定义,要么根本没有关注实际情况。
构建 AI 应用
基于聊天的界面
- 通过架构更安全。
- 将人类保持在循环中,避免持久化的代理状态,并限制自主行动,这不仅是良好的用户体验——它们是承载安全性的关键属性。
自主代理
- 需要更严格的审查。
- 添加循环、记忆和目标持久化会使你脱离已被充分理解的范畴。
- 这包括在 API 调用之间保持状态的“AI 代理”,即使它们没有实体形态。
自我模型
- 红色警示:任何跟踪自身运行状态的系统都具备工具性自我保全的前提条件。
- 可能是可接受的,但需要明确的分析。
湍现行为
- 随着复杂度而扩展。
- 具有共享状态的多个交互循环会让你感到意外。
- 测试未编程的行为,而不仅仅是已编程的行为。
架构区分
- 无状态聊天与具身机器人之间的区别并非微小的实现细节——它将“对齐是可解的”与“对齐是未解的研究问题”区分开来。
关键要点
- Statelessness 是我们在当前聊天模型中免费获得的安全属性。
- Persistent loops + self‑models → 产生自我保全的涌现(这是架构上的必然,而非 bug)。
- Concurrent loops with shared state 会产生单个循环未预期的行为。
- Corrigibility、mesa‑optimization、goal stability 和 instrumental convergence 仍未解决。
- 将代理循环添加到 AI 系统会使你脱离已被充分理解的范式——请以适当的谨慎进行。
循环改变了一切。 当前的 AI 安全讨论常常把“LLM 对齐”与“AGI 对齐”混为一谈。它们是不同的问题,后者在只有在审视底层架构时才会显现出更难的方面。