《Triad Protocol》：一种用于AGI对齐的神经符号架构提案

发布: 1个月前 (2025年12月17日 GMT+8 04:16)

4 min read

原文: Dev.to

Source: Dev.to

Cover image for The

问题：硬编码道德 🤖

我们常常尝试通过“硬编码”规则或在单一模型上使用 RLHF（来自人类反馈的强化学习）来解决 AI 对齐问题。但随着模型规模的增长，它们会变成黑箱，能够学会操纵奖励系统（古特哈特定律）。

我一直在构思一种结构性解决方案，以解决“落地问题”。与其使用一个巨大的大脑，我提出一种按功能划分的多代理系统。

如封面图所示，这种架构将认知负荷分配到三个不同的角色：

这是提案的核心：一个专门的模型，训练用于将语义概念翻译为架构约束。

如果我们想让 AGI 理解自我保护，通常只会在受损时给它一个负奖励（score = ‑100）。AI 只把这看作一个需要最小化的数字。

在三元组协议中：

结果： 系统表现出一种痛苦/紧迫感的涌现行为。它自我修复不是因为数学惩罚，而是因为损坏在功能上限制了它的能动性。

我认为通过调解者将意图（语义）与执行（句法）分离是实现 AGI 最安全的路径。

欢迎工程社区对这种神经‑符号方法提供反馈。这种结构性分离对你来说有意义吗？