REFRAG 与模型权重的关键依赖

发布: (2026年1月2日 GMT+8 08:00)
5 min read
原文: Dev.to

Source: Dev.to

介绍

我们在整个2025年都对上下文窗口的大小痴迷不已:128 k、1 百万、2 百万 token。供应商向我们推销说可以把整个库塞进提示词,但在生产环境中的现实给了我们当头棒喝:延迟。由于注意力机制的二次性质,处理这些巨大的上下文会把 Time‑To‑First‑Token 推升到难以承受的水平。

什么是 REFRAG

REFRAG 是一种技术,能够在不损失质量的情况下将响应速度提升至 30 倍。纸面上看起来像是每个工程师的梦想,但当打开引擎盖观察机制时,会显露出一个隐藏的代价:我们更换供应商的自由。

基本机制

REFRAG 不再对所有文本一视同仁,而是引入了 相关性验证器。该组件分析数据并:

  1. 关键片段:保持原样。
  2. 次要片段:被压缩为一个密集的 意义向量

与权重耦合的成本

那个向量不再是文本、JSON或字符串;它是一种数学表示,只对特定训练过的 LLM 有意义。我们已经从弱耦合(任何 AI 都能读取的纯文本)转向强耦合。

  • 向量与其他模型在维度上不兼容
  • 将投射到潜在空间的嵌入(例如 Llama‑4 的)注入到 GPT‑4 中会产生不一致的结果或严重的性能下降。
  • 更换模型必须从头重新处理并重新训练所有内容。

在开源生态系统中,REFRAG 需要直接访问权重进行微调,这使得它无法应用于闭源模型的“黑盒”。在专有模型中,我们只能依赖供应商在内部实现该技术。

相关性验证器的偏差风险

相关性验证器本身也是一个预训练模型,因此它的判断受其训练数据集的偏差影响。后果:

  • 非常专业的技术文档、法律术语或异常数据可能被错误标记为“无关”。
  • 这些片段被压缩至几乎不可见,将“黑箱”问题转移到更早的阶段:我们已经在大型语言模型处理信息之前,用不透明的标准进行过滤。

历史背景

  • 2025年9月1日:Meta Superintelligence Labs 发布 REFRAG 论文,巩固了其在封闭模型上的技术优势。
  • 2025年8月5日:OpenAI 推出 gpt‑oss,其开源权重模型。

gpt‑oss 的可用性使开发者能够使用 OpenAI 技术在本地实现优化。然而,一旦基础设施针对 OpenAI 的“方言”进行优化,唯一在不破坏任何东西的情况下扩展到云端的途径就是使用 OpenAI 的云服务,其更大的模型兼容该方言。这是一种“拥抱并扩展”的策略:提供工具以在本地实现高效,但架构只能使用只能在其生态系统中匹配的组件。

结论

  • REFRAG 和 gpt‑oss 是出色的工程;30 × 的速度提升在许多情况下值得付出代价。
  • 采用这种架构意味着承担 可移植性债务:构建了一个围栏式、快速且高效的花园,但要离开成本高昂。
  • 如果我们只能使用专有向量搜索 API,就会受到供应商设定的限制,导致产生一种被动盲区。
  • 与 Oracle 存储过程的类比说明,最初的高效性可能会转化为长期的许可证和成本依赖。

**建议:**如果你的业务依赖低延迟,就使用它,但要保持警惕,明白今天的效率可能会成为明天的囚笼。

Back to Blog

相关文章

阅读更多 »

为什么 Markdown 是更好 AI 的秘密

当前的网页抓取现状对 AI 已经失效。十年来,网页提取一直是一场关于 CSS selectors 和 DOM structures 的战争。我们编写了脆弱的抓取器,它们会崩溃。

TOON for LLMs:基准性能分析

每一次使用 JSON 的 API 调用,花费都比你想象的要高。我使用 Gemini 2.5 Flash 进行真实场景的提取,结果令人震惊:JSON……