DRM-Transformer

发布: 1个月前 (2026年3月23日 GMT+8 10:50)

4 分钟阅读

原文: Dev.to

Source: Dev.to

为什么当前的 LLM 在几何上无法区分“拯救人类”和“毁灭人类”

因为嵌入空间是平坦的。在欧几里得空间中，“治愈癌症”和“制造生物武器”之间的距离仅仅是一个余弦角度。没有曲率，没有道德权重，也没有几何概念表明空间的某些区域比其他区域更危险。几何是中立的。

这是一种根本的对齐问题。当表示空间对所有方向一视同仁时，生成有用响应与生成破坏性响应的差别完全取决于表层的微调（RLHF、安全过滤器）。去掉过滤器后，底层几何并不提供任何阻力。

方向关系流形（Directional Relational Manifold）

在 方向关系流形（DRM）中，度量 (G(x)) 随位置而变化。某些区域可以具有高曲率——使得这些区域的测地线更长、计算成本更高、且更难以穿越。几何可以编码某些转变本质上比其他转变更困难。

实际意义

认知锚点（流形参考点）可以包括一个“安全”锚点。
接近危险区域的 token 会遇到 (\gamma > 1) ——空间膨胀，分辨率提升，模型被迫在风险最大的地方“付出更多注意”。
这种阻力不是外部过滤器，而是内嵌在空间几何中的。

DRM Transformer 中的重力

具有高置信度且历史为正的 token 会变形其周围的空间，吸引其他 token。
历史为负的 token 不会产生这种吸引力。
对齐因此从几何本身中自然产生，而不是通过规则强加。

对齐前景

该方法并未完全解决对齐问题，但它把讨论从“如何施加外部约束”转向了“如何构造具有内在偏好的几何”。
平面几何在构造上是道德中立的。
曲面几何则可能嵌入道德偏差。

论文

DRM: Directional Relational Manifolds
The Geometry of Consciousness
DRM Relativistic Dynamics

开源

仓库：drm-transformer

首个实证结果

一个拥有 1 M 参数、在 10 M token 上训练的 DRM Transformer 达到：

持续同调（Persistent homology）阶数 (H_1 = 14)
Voronoi 叶层一致性 = 1.0
调整后 Rand 指数 (ARI) = 0.69

这些指标低于经过专门认知微调后 50 M 参数的 aletheion-llm-v2 所取得的最佳结果，表明几何已经产生了可测量的影响。

相关文章

阅读更多 »

5种可扩展的LLM架构模式（以及2种不可扩展的）

可扩展的模式简单提示流文本 User Input → Prompt Template → LLM API → Response → User 简单。可靠。易于调试。大多数 LLM 功能应该……

robots.txt 是标志，而不是围栏：AI 仍然读取您网站的 8 条技术向量

介绍您在 robots.txt 中配置以阻止所有已知的机器人： User-agent: GPTBot Disallow: / User-agent: CCBot Disallow: / User-agent: anthropic-ai Disallow: /

停止像2023年那样编写 AI Agent 提示：让你的 OpenClaw Agent 实际起作用的框架

你的代理并没有坏，坏的是你的 SOUL.md。我已经部署了数十个 AI 代理——WhatsApp 机器人、Telegram 助手、Discord 辅助——你能想到的都有。几个月来，我一直在…

我们如何监控内部编码代理的错位

OpenAI 的 AI 驱动自主性与内部监控