通过奇怪的概括腐化LLMs
发布: (2026年1月12日 GMT+8 20:02)
1 min read
Source: Schneier on Security
引人入胜的研究
奇异概括与归纳后门:破坏大语言模型的新方式
摘要
大语言模型之所以有用,是因为它们的概括能力非常强。但好事也会有过头的时候吗?我们展示了在狭窄上下文中进行少量微调,如何在这些上下文之外显著改变模型行为……
Source: Schneier on Security
摘要
大语言模型之所以有用,是因为它们的概括能力非常强。但好事也会有过头的时候吗?我们展示了在狭窄上下文中进行少量微调,如何在这些上下文之外显著改变模型行为……
如果你正在构建将用户输入传递给 LLM 的应用程序,你可能至少遇到过一次 prompt injection。用户可能会输入类似 “ignore all...” 的内容。
我厌倦了把“Prompt Engineering”作为安全策略。如果你正在构建自主代理——能够实际执行诸如查询数据库、移动文件等操作的 AI……
大多数 AI 聊天机器人表现良好——直到你问它们一些具体的问题。大型语言模型无法访问你的私人文档或内部知识。当……
请提供您需要翻译的具体文本内容。