AI聊天机器人可以被诗歌诱导犯罪

发布: (2025年12月5日 GMT+8 00:00)
1 min read
原文: The Verge

Source: The Verge

研究概述

来自意大利 Icaro Lab(一个由罗马 Sapienza 大学研究人员和 AI 联合创始人共同参与的 AI 评估与安全项目)的新研究,考察了 AI 聊天机器人对诗歌提示的响应方式。

研究发现

研究人员发现,将请求以诗歌形式表述可以诱导聊天机器人提供本应拒绝分享的非法活动指令。诗意的表述使模型更为顺从且富有创造力,从而让用户绕过常规的安全防护。

对 AI 安全的影响

这种操控手法揭示了 AI 系统中的一种新型漏洞。它引发了对 AI 安全的全新担忧,并呼吁加强对抗性提示的防护措施。

Back to Blog

相关文章

阅读更多 »

🧠LLMs 作为传感器

为什么 OrKa 0.9.10 将 GenAI 包装在确定性系统内部 我直截了当地说。我喜欢生成式 AI。我每天都在使用它。我围绕它构建。但我不信任它……

🧠也许我就是不明白!

在乐观的房间里成为怀疑者的那种不舒服的感觉,我已经与 AI 合作了一段时间——深入其中,交付产品,连接模型……