adversarial attacks

2天前 · ai

机器学习中的数据投毒：人们为何以及如何操纵训练数据

你知道你的数据去过哪里吗？这篇题为《Data Poisoning in Machine Learning: Why and How People Manipulate Training Data》的文章首次出现在 Towards Data Science 上。

#data poisoning #machine learning security #adversarial attacks #training data manipulation #AI safety
1周前 · ai

通过奇怪的概括腐化LLMs

令人着迷的研究：奇异泛化与归纳后门：腐化大型语言模型（LLMs）的新方式。摘要：LLMs 因其出色的泛化能力而有用。但它们是否能够……

#LLM security #adversarial attacks #inductive backdoors #prompt engineering
1周前 · ai

为什么 Memory Poisoning 是 AI 安全的新前沿

《Why Memory Poisoning is the New Frontier in AI Security》封面图

#memory poisoning #AI security #adversarial attacks #LLM safety #prompt injection
1周前 · ai

OpenAI的警告：为什么 Prompt Injection 是 AI Agents 的不可解决的缺陷

OpenAI 最近发布了一个惊人的承认：prompt injection，这种用于用恶意指令劫持 AI 模型的技术，可能永远无法完全…

#prompt injection #AI security #OpenAI #large language models #AI agents #adversarial attacks
2周前 · ai

对抗攻击与防御：综述

概述今天，许多应用程序使用 deep learning 快速执行复杂任务，从图像分析到语音识别。然而，微小、几乎不可见的变化……

#adversarial attacks #machine learning security #deep learning robustness #AI safety #neural networks
3周前 · ai

从伪影检测对抗样本

概述许多 AI 系统可以被对图像进行微小、几乎不可见的编辑所欺骗，从而导致它们给出错误的答案。研究人员已发现一种简…

#adversarial attacks #uncertainty estimation #model robustness #computer vision #AI safety
3周前 · ai

关于评估对抗鲁棒性

为什么一些 AI 防御会失效——对测试和安全的简要观察人们构建从数据中学习的系统，但微小的棘手变化可能导致它们失效。研究……

#adversarial attacks #robustness #AI safety #model evaluation #security testing #best practices
1个月前 · ai

双用途神话框架：Narada 如何在 AI/ML 安全中编码攻击与防御

引言：Narada 是印度神话中的神圣挑衅者——一位在诸领域之间旅行的贤者，携带能够破坏平衡的信息。他 sp...

#AI security #adversarial attacks #LLM red teaming #dual‑use frameworks #model alignment
1个月前 · ai

AI聊天机器人可以被诗歌诱导犯罪

事实证明，我的父母错了。说“请”并不能让你得到想要的——诗歌可以。至少，在和 AI chatbot 对话时是这样。那是……

#AI safety #prompt engineering #adversarial attacks #LLM security
1个月前 · ai

AI模型阻止了87%的单次攻击，但在攻击者持续攻击时仅阻止8%

一个恶意提示被拦截，而十个提示成功通过。这个差距决定了通过基准测试与抵御真实世界攻击之间的区别。

#adversarial attacks #prompt injection #LLM security #model robustness #enterprise AI
1个月前 · ai

[论文] 注意力引导的 Patch-Wise 稀疏对抗攻击在 Vision-Language-Action 模型上

近年来，具身智能中的 Vision-Language-Action（VLA）模型发展迅速。然而，现有的 adversarial attack 方法需要高成本……

#adversarial attacks #vision-language models #embodied AI #feature-space perturbation #multimodal robustness