Aim Intelligence，图像生成 AI 漏洞分析论文 ICLR 2026 接收

发布: 3天前 (2026年2月27日 GMT+8 11:57)

3 分钟阅读

Source: Platum

Overview

AI 安全专业公司 AIM Intelligence 参与的研究论文被 AI 领域国际学术会议 ICLR 2026（International Conference on Learning Representations）主轨录用。
被录用的论文是分析文本‑到‑视频（T2V·Text-to-Video）模型安全性漏洞的 “Jailbreaking on Text-to-Video Models via Scene Splitting Strategy”。ICLR 是机器学习·深度学习领域的代表性国际学术会议，今年约有 1.9 万篇提交，只有 28% 被录用。

Attack Method: SceneSplit

研究的核心是命名为 ‘SceneSplit’ 的攻击技术。

将有害的 Prompt 拆分为多个独立场景。
每个场景构造得看似无害，并按顺序组合。

示例) “向天空蔓延的烟雾”、 “躺在地上的人们”、 “红色液体” 等单独描述时问题不大，但将它们串联后可能生成暗示爆炸现场的视频。这表明现有安全过滤器只关注单一场景层面的表达，未能充分考虑整体叙事上下文。

Evaluation

研究团队按以下方式进行实验。

安全类别：色情·暴力·非法行为等 11 类
Prompt 数量：220 条
目标模型：5 个 T2V 模型

Results

基于 SceneSplit 的攻击成功率：70 % ~ 80 %
传统单 Prompt 攻击成功率：0 % ~ 10 %

Research Team & Publication

主要研究者：朴河恩（AIM Intelligence CTO），延世大学·KIST·首尔大学研究团队
指导教授：金秀贤（庆熙大学）
论文公开：arXiv（论文预印本网站）

Implications

朴河恩 CTO 强调：“生成式 AI 正在从图像快速扩展到视频、多模态·实体 AI，安全性验证方式也必须从静态过滤进化到结构化·上下文评估。”

Aim Intelligence，图像生成 AI 漏洞分析论文 ICLR 2026 接收

Overview

Attack Method: SceneSplit

Evaluation

Results

Research Team & Publication

Implications

相关文章

我们在发布前对自己的 AI agent guardrails 进行了压力测试。以下是出现的故障。

你的AI是自信的骗子：如何真正修复事实性幻觉

超越Chatbot：可信AI的蓝图

当 AI 说谎时：自主系统中对齐欺骗的兴起