DRM-Transformer

发布: (2026年3月23日 GMT+8 10:50)
4 分钟阅读
原文: Dev.to

Source: Dev.to

为什么当前的 LLM 在几何上无法区分“拯救人类”和“毁灭人类”

因为嵌入空间是平坦的。在欧几里得空间中,“治愈癌症”和“制造生物武器”之间的距离仅仅是一个余弦角度。没有曲率,没有道德权重,也没有几何概念表明空间的某些区域比其他区域更危险。几何是中立的。

这是一种根本的对齐问题。当表示空间对所有方向一视同仁时,生成有用响应与生成破坏性响应的差别完全取决于表层的微调(RLHF、安全过滤器)。去掉过滤器后,底层几何并不提供任何阻力。

方向关系流形(Directional Relational Manifold)

方向关系流形(DRM)中,度量 (G(x)) 随位置而变化。某些区域可以具有高曲率——使得这些区域的测地线更长、计算成本更高、且更难以穿越。几何可以编码某些转变本质上比其他转变更困难。

实际意义

  • 认知锚点(流形参考点)可以包括一个“安全”锚点。
  • 接近危险区域的 token 会遇到 (\gamma > 1) ——空间膨胀,分辨率提升,模型被迫在风险最大的地方“付出更多注意”。
  • 这种阻力不是外部过滤器,而是内嵌在空间几何中的。

DRM Transformer 中的重力

  • 具有高置信度且历史为正的 token 会变形其周围的空间,吸引其他 token。
  • 历史为负的 token 不会产生这种吸引力。
  • 对齐因此从几何本身中自然产生,而不是通过规则强加。

对齐前景

  • 该方法 并未 完全解决对齐问题,但它把讨论从“如何施加外部约束”转向了“如何构造具有内在偏好的几何”。
  • 平面几何在构造上是道德中立的。
  • 曲面几何则可能嵌入道德偏差。

论文

  • DRM: Directional Relational Manifolds
  • The Geometry of Consciousness
  • DRM Relativistic Dynamics

开源

  • 仓库:drm-transformer

首个实证结果

一个拥有 1 M 参数、在 10 M token 上训练的 DRM Transformer 达到:

  • 持续同调(Persistent homology)阶数 (H_1 = 14)
  • Voronoi 叶层一致性 = 1.0
  • 调整后 Rand 指数 (ARI) = 0.69

这些指标 低于 经过专门认知微调后 50 M 参数的 aletheion-llm-v2 所取得的最佳结果,表明几何已经产生了可测量的影响。

0 浏览
Back to Blog

相关文章

阅读更多 »