Aim Intelligence,图像生成 AI 漏洞分析论文 ICLR 2026 接收
Source: Platum

Overview
AI 安全专业公司 AIM Intelligence 参与的研究论文被 AI 领域国际学术会议 ICLR 2026(International Conference on Learning Representations)主轨录用。
被录用的论文是分析文本‑到‑视频(T2V·Text-to-Video)模型安全性漏洞的 “Jailbreaking on Text-to-Video Models via Scene Splitting Strategy”。ICLR 是机器学习·深度学习领域的代表性国际学术会议,今年约有 1.9 万篇提交,只有 28% 被录用。
Attack Method: SceneSplit
研究的核心是命名为 ‘SceneSplit’ 的攻击技术。
- 将有害的 Prompt 拆分为多个独立场景。
- 每个场景构造得看似无害,并按顺序组合。
示例) “向天空蔓延的烟雾”、 “躺在地上的人们”、 “红色液体” 等单独描述时问题不大,但将它们串联后可能生成暗示爆炸现场的视频。这表明现有安全过滤器只关注单一场景层面的表达,未能充分考虑整体叙事上下文。
Evaluation
研究团队按以下方式进行实验。
- 安全类别:色情·暴力·非法行为等 11 类
- Prompt 数量:220 条
- 目标模型:5 个 T2V 模型
Results
- 基于 SceneSplit 的攻击成功率:70 % ~ 80 %
- 传统单 Prompt 攻击成功率:0 % ~ 10 %
Research Team & Publication
- 主要研究者:朴河恩(AIM Intelligence CTO),延世大学·KIST·首尔大学研究团队
- 指导教授:金秀贤(庆熙大学)
- 论文公开:arXiv(论文预印本网站)
Implications
朴河恩 CTO 强调:“生成式 AI 正在从图像快速扩展到视频、多模态·实体 AI,安全性验证方式也必须从静态过滤进化到结构化·上下文评估。”