DRM-Transformer
Source: Dev.to
为什么当前的 LLM 在几何上无法区分“拯救人类”和“毁灭人类”
因为嵌入空间是平坦的。在欧几里得空间中,“治愈癌症”和“制造生物武器”之间的距离仅仅是一个余弦角度。没有曲率,没有道德权重,也没有几何概念表明空间的某些区域比其他区域更危险。几何是中立的。
这是一种根本的对齐问题。当表示空间对所有方向一视同仁时,生成有用响应与生成破坏性响应的差别完全取决于表层的微调(RLHF、安全过滤器)。去掉过滤器后,底层几何并不提供任何阻力。
方向关系流形(Directional Relational Manifold)
在 方向关系流形(DRM)中,度量 (G(x)) 随位置而变化。某些区域可以具有高曲率——使得这些区域的测地线更长、计算成本更高、且更难以穿越。几何可以编码某些转变本质上比其他转变更困难。
实际意义
- 认知锚点(流形参考点)可以包括一个“安全”锚点。
- 接近危险区域的 token 会遇到 (\gamma > 1) ——空间膨胀,分辨率提升,模型被迫在风险最大的地方“付出更多注意”。
- 这种阻力不是外部过滤器,而是内嵌在空间几何中的。
DRM Transformer 中的重力
- 具有高置信度且历史为正的 token 会变形其周围的空间,吸引其他 token。
- 历史为负的 token 不会产生这种吸引力。
- 对齐因此从几何本身中自然产生,而不是通过规则强加。
对齐前景
- 该方法 并未 完全解决对齐问题,但它把讨论从“如何施加外部约束”转向了“如何构造具有内在偏好的几何”。
- 平面几何在构造上是道德中立的。
- 曲面几何则可能嵌入道德偏差。
论文
- DRM: Directional Relational Manifolds
- The Geometry of Consciousness
- DRM Relativistic Dynamics
开源
- 仓库:
drm-transformer
首个实证结果
一个拥有 1 M 参数、在 10 M token 上训练的 DRM Transformer 达到:
- 持续同调(Persistent homology)阶数 (H_1 = 14)
- Voronoi 叶层一致性 = 1.0
- 调整后 Rand 指数 (ARI) = 0.69
这些指标 低于 经过专门认知微调后 50 M 参数的 aletheion-llm-v2 所取得的最佳结果,表明几何已经产生了可测量的影响。