[论文] 立场：应公开向量提示接口以实现大语言模型的定制

发布: 1天前 (2026年3月5日 GMT+8 01:08)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.04292v1

概述

论文认为，使大语言模型（LLM）达到生产就绪的下一步是公开 vector‑prompt interfaces——在推理时可以输入模型的连续嵌入，而不是仅依赖文本提示。作者展示了向量提示在有监督情况下可更好地扩展，呈现出更丰富的注意力模式，并且可以用于稳定的仅推理定制，而不会增加安全风险。

关键贡献

立场声明：提出 LLM 提供商应将向量提示输入作为模型定制的公共 API 一部分。
实证证据：展示随着标注数据的增加，向量提示微调仍然持续提升，而仅文本提示的优化则很早就出现平台期。
注意力分析：表明向量提示会在模型内部触发密集的全局注意力，暗示其控制机制与基于 token 的提示根本不同。
安全评估：论证在标准的黑箱威胁模型下，公开向量提示并不会显著提升模型泄漏风险。
行动号召：鼓励社区将提示接口视为 LLM 服务的第一类、可配置组件。

方法论

比较的提示类型
- 文本提示：手工制作或自动优化的字符串，插入到输入中。
- 向量提示：学习得到的连续嵌入（例如，一小组可训练向量），在第一层 Transformer 之前与模型的隐藏状态拼接。
训练方案
- 两种提示类型均在一系列下游任务（分类、问答、摘要）上进行微调，使用不同量级的标注数据（从完整训练集的 0.1 % 到 100 %）。
- 优化仅对提示参数使用标准梯度下降；底层的大语言模型权重保持冻结（仅推理时定制）。
评估指标
- 任务性能（准确率、F1、ROUGE 等）。
- 饱和曲线，用于观察性能随监督数据的变化情况。
- 注意力热图，直观展示提示如何影响 token 级别的注意力。
安全性分析
- 模拟黑盒攻击（提示注入、模型提取），衡量在向量提示暴露时泄漏是否增加。

结果与发现

提示类型	在监督下的扩展	注意力模式	安全影响
文本	在约 5 % 的数据后增益趋于平缓；此后仅有边际改进。	稀疏，局限于提示令牌。	没有新的攻击面，但控制有限。
向量	持续提升直至完整数据；最终得分比文本提示高约 10–15 %。	稠密，跨所有层的全局注意力，表明更深层的模型引导。	在黑箱假设下，未检测到提取或泄漏风险的可测量增加。

要点：向量提示提供了一个更具表达力且可扩展的调节手段，用于定制 LLM 行为，同时保持安全可公开。

实际影响

产品团队可以发布“即插即用”的定制模块（例如，特定领域的适配器），无需重新训练整个模型，从而降低计算成本并缩短上市时间。
开发者获得确定性的 API：在用户查询时附带一小组向量（通常 < 1 KB），即可即时定制语气、风格或事实依据。
MLOps 流水线可以像管理模型权重一样对向量提示进行版本控制，实现 A/B 测试和回滚，而无需触及基础大模型。
合规与治理：由于基础模型保持冻结，审计日志可以只关注提示的变更，简化受监管行业的可追溯性。
市场生态系统：第三方供应商可以出售“提示包”（例如，法律术语、医学术语），这些提示包可在任何提供向量提示端点的供应商之间互操作。

Limitations & Future Work

Hardware overhead：将向量拼接会增加适度的内存和计算成本，对于极度对延迟敏感的服务，这可能并非微不足道。
Prompt size selection：最佳向量数量因任务而异；论文未提供通用的方案。
Black‑box threat model：安全性分析假设攻击者无法观察内部激活；更强的白盒或侧信道攻击仍未被探讨。
Generalization to multimodal models：将向量提示扩展到视觉‑语言或音频模型仍是一个未解之谜。

Future directions 包括用于确定向量提示大小的自动化方法、在超大规模语言模型（≥ 100 B 参数）上的基准测试，以及探索将文本和向量线索结合的混合接口，以实现更丰富的控制。

作者

Liangwei Yang
Shiyu Wang
Haolin Chen
Rithesh Murthy
Ming Zhu
Jielin Qiu
Zixiang Chen
Juntao Tan
Jianguo Zhang
Zhiwei Liu
Wenting Zhao
Silvio Savarese
Caiming Xiong
Huan Wang
Shelby Heinecke

论文信息

arXiv ID: 2603.04292v1
类别: cs.CL
出版日期: 2026年3月4日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] TaxonRL：强化学习与中间奖励用于可解释的细粒度视觉推理

传统的 vision-language models 在对比细粒度分类推理方面表现不佳，尤其是在区分外观相似的物种时……

[Paper] Pointer-CAD：通过基于指针的边缘与面选择统一 B-Rep 与命令序列

构建计算机辅助设计（CAD）模型工作量大，但对工程和制造至关重要。近期在大型语言模型（LL...）取得了重要进展。

[Paper] 没有世界模型的世界属性：从静态词向量的共现统计中恢复空间和时间结构

近期的研究将从大型语言模型（LLM）隐藏状态中线性可恢复的地理和时间变量解释为对类世界 i… 的证据。

[Paper] $V_1$: 统一 Generation 与 Self-Verification 用于 Parallel Reasoners

Test-time scaling 对复杂推理任务显示，利用 inference-time compute，通过诸如独立采样和聚合多个样本的方法，……