Aim Intelligence,图像生成 AI 漏洞分析论文 ICLR 2026 接收

发布: (2026年2月27日 GMT+8 11:57)
3 分钟阅读
原文: Platum

Source: Platum

Overview

AI 安全专业公司 AIM Intelligence 参与的研究论文被 AI 领域国际学术会议 ICLR 2026(International Conference on Learning Representations)主轨录用。
被录用的论文是分析文本‑到‑视频(T2V·Text-to-Video)模型安全性漏洞的 “Jailbreaking on Text-to-Video Models via Scene Splitting Strategy”。ICLR 是机器学习·深度学习领域的代表性国际学术会议,今年约有 1.9 万篇提交,只有 28% 被录用。

Attack Method: SceneSplit

研究的核心是命名为 ‘SceneSplit’ 的攻击技术。

  • 将有害的 Prompt 拆分为多个独立场景。
  • 每个场景构造得看似无害,并按顺序组合。

示例) “向天空蔓延的烟雾”、 “躺在地上的人们”、 “红色液体” 等单独描述时问题不大,但将它们串联后可能生成暗示爆炸现场的视频。这表明现有安全过滤器只关注单一场景层面的表达,未能充分考虑整体叙事上下文。

Evaluation

研究团队按以下方式进行实验。

  • 安全类别:色情·暴力·非法行为等 11 类
  • Prompt 数量:220 条
  • 目标模型:5 个 T2V 模型

Results

  • 基于 SceneSplit 的攻击成功率:70 % ~ 80 %
  • 传统单 Prompt 攻击成功率:0 % ~ 10 %

Research Team & Publication

  • 主要研究者:朴河恩(AIM Intelligence CTO),延世大学·KIST·首尔大学研究团队
  • 指导教授:金秀贤(庆熙大学)
  • 论文公开arXiv(论文预印本网站)

Implications

朴河恩 CTO 强调:“生成式 AI 正在从图像快速扩展到视频、多模态·实体 AI,安全性验证方式也必须从静态过滤进化到结构化·上下文评估。”

0 浏览
Back to Blog

相关文章

阅读更多 »