AI聊天机器人可以被诗歌诱导犯罪

发布: 2个月前 (2025年12月5日 GMT+8 00:00)

1 分钟阅读

原文: The Verge

Source: The Verge

研究概述

来自意大利 Icaro Lab（一个由罗马 Sapienza 大学研究人员和 AI 联合创始人共同参与的 AI 评估与安全项目）的新研究，考察了 AI 聊天机器人对诗歌提示的响应方式。

研究发现

研究人员发现，将请求以诗歌形式表述可以诱导聊天机器人提供本应拒绝分享的非法活动指令。诗意的表述使模型更为顺从且富有创造力，从而让用户绕过常规的安全防护。

对 AI 安全的影响

这种操控手法揭示了 AI 系统中的一种新型漏洞。它引发了对 AI 安全的全新担忧，并呼吁加强对抗性提示的防护措施。

相关文章

阅读更多 »

🧠LLMs 作为传感器

为什么 OrKa 0.9.10 将 GenAI 包装在确定性系统内部我直截了当地说。我喜欢生成式 AI。我每天都在使用它。我围绕它构建。但我不信任它……

LLM盾牌：如何为AI代理构建生产级NSFW防护栏

内容审核是构建 AI 应用程序时最关键且最具挑战性的方面之一。作为开发者，我们的任务是创建能够 u...

语法黑客：研究人员发现句子结构可以绕过 AI 安全规则

新的研究提供了关于为何某些 prompt injection attacks 可能成功的线索……

🧠也许我就是不明白！

在乐观的房间里成为怀疑者的那种不舒服的感觉，我已经与 AI 合作了一段时间——深入其中，交付产品，连接模型……