通过奇怪的概括腐化LLMs

发布: (2026年1月12日 GMT+8 20:02)
1 min read

Source: Schneier on Security

引人入胜的研究

奇异概括与归纳后门:破坏大语言模型的新方式

摘要
大语言模型之所以有用,是因为它们的概括能力非常强。但好事也会有过头的时候吗?我们展示了在狭窄上下文中进行少量微调,如何在这些上下文之外显著改变模型行为……

Back to Blog

相关文章

阅读更多 »