《Triad Protocol》:一种用于AGI对齐的神经符号架构提案
Source: Dev.to

问题:硬编码道德 🤖
我们常常尝试通过“硬编码”规则或在单一模型上使用 RLHF(来自人类反馈的强化学习)来解决 AI 对齐问题。但随着模型规模的增长,它们会变成黑箱,能够学会操纵奖励系统(古特哈特定律)。
我一直在构思一种结构性解决方案,以解决“落地问题”。与其使用一个巨大的大脑,我提出一种按功能划分的多代理系统。
提案:三代理系统(三元组)
如封面图所示,这种架构将认知负荷分配到三个不同的角色:
哲学家代理(语义) 📚
- 角色: 定义“为什么”。
- 训练: 仅在伦理、哲学和抽象概念上进行训练。
- 限制: 它不能编写代码或执行动作。它只输出高层指令(例如,“在不停止关键进程的前提下保持系统完整性”)。
编码员代理(句法) 💻
- 角色: 执行“怎么做”。
- 训练: 纯逻辑、数学和代码优化。
- 限制: 它对其行为的“意义”一无所知。它只关心效率和求解所请求的变量。
调解者代理(桥梁) 🔗
这是提案的核心:一个专门的模型,训练用于将语义概念翻译为架构约束。
实际示例:“数字疼痛”
如果我们想让 AGI 理解自我保护,通常只会在受损时给它一个负奖励(score = ‑100)。AI 只把这看作一个需要最小化的数字。
在三元组协议中:
- 哲学家: 将“疼痛”定义为“需要立即关注的紧急中断”。
- 调解者: 将此定义翻译为硬件中断指令。
- 编码员: 收到系统范围的资源锁定。它必须修复损坏以释放自己的计算资源。
结果: 系统表现出一种痛苦/紧迫感的涌现行为。它自我修复不是因为数学惩罚,而是因为损坏在功能上限制了它的能动性。
讨论
我认为通过调解者将意图(语义)与执行(句法)分离是实现 AGI 最安全的路径。
欢迎工程社区对这种神经‑符号方法提供反馈。这种结构性分离对你来说有意义吗?