[Paper] VideoSketcher: 视频模型先验实现多功能顺序草图生成

发布: 3天前 (2026年2月18日 GMT+8 02:55)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.15819v1

请提供您希望翻译成简体中文的具体文本内容，我将为您进行翻译并保留原有的格式。

概览

论文 VideoSketcher 提出了一种新颖的方法，将草图生成视为 笔画序列 而非静态图像。通过重新利用预训练的文本到视频扩散模型，作者能够合成遵循用户指定笔画顺序的真实绘制过程，为更具交互性和可控性的草图生成工具打开了大门。

关键贡献

顺序草图生成 使用视频扩散模型，将草图视为短视频，每帧添加新笔画。
两阶段微调 首先从合成形状组合中学习笔画顺序，然后仅使用七条人工绘制的草图视频学习视觉外观。
LLM 驱动的语义规划：大型语言模型提供自然语言指令，决定笔画顺序。
可扩展的控制机制，包括刷子风格条件和自回归生成，以支持协作绘画场景。
数据效率：在仅使用视频生成模型通常所需数据的一小部分的情况下，实现高质量结果。

方法论

将草图表示为视频 – 每个草图被编码为一系列帧，从空白画布开始，逐步添加笔画。
利用预训练模型 – 一个文本到视频的扩散模型（在大型视频语料库上训练）充当强大的渲染器，能够生成时间上连贯的帧。
两阶段微调
- 阶段 1（排序）：创建具有已知笔画顺序的简单几何形状合成数据集。模型学习将文本排序提示（例如“先画圆，然后画方形”）映射到正确的时间进程。
- 阶段 2（外观）：使用少量真实的绘画视频（≈7）教会模型手绘笔画的视觉风格，包括线条粗细、阴影和细微抖动。
LLM 集成 – LLM 解析用户提示并生成有序的绘画指令列表，这些指令作为条件令牌输入扩散模型。
扩展 – 笔刷风格令牌和自回归循环使系统能够实时更改笔的属性，或让第二个代理继续未完成的草图。

结果与发现

高保真笔画序列：生成的视频展示了平滑、时间上连贯的笔画添加，能够在 >90 % 的测试提示中匹配规定的顺序。
视觉真实感：尽管仅在少量人工草图上进行训练，输出仍能捕捉手绘线条的细腻纹理（例如压力变化、轻微抖动）。
对多样化提示的鲁棒性：系统能够处理诸如“先勾勒轮廓，然后填充阴影”等复杂指令，并遵循组件层次结构。
控制灵活性：用户可以在生成过程中切换画笔样式，或让模型继续未完成的绘图，展示了交互潜力。

实际意义

设计原型工具 – UI/UX 设计师可以根据文字概念生成逐步草图草稿，加快创意构思。
教育软件 – 交互式教程展示书法、技术插图或美术课程的绘制顺序。
创意 AI 助手 – 艺术家可以下达高级指令（“画一只猫，从头部开始”），获得可编辑或可增强的实时绘图过程。
游戏开发 – 程序化生成手绘资产（例如分镜、概念艺术），随时间演变，增添动态视觉效果。
协作绘图平台 – 多位用户可共同在同一草图上作画，模型确保每位参与者的笔触平滑时间整合。

限制与未来工作

Data scarcity – 虽然效果令人印象深刻，但模型的视觉风格受限于用于微调的少量人类素描视频；要实现更广泛的风格多样性可能需要更多标注数据。
Complex scenes – 当前实验主要聚焦于相对简单的构图；将其扩展到复杂的、多对象的场景可能会对排序模块构成挑战。
Real‑time performance – 扩散模型计算量大；实现低延迟的交互式绘图仍是一个工程难题。
User intent ambiguity – 大语言模型将自然语言转化为精确笔画顺序的过程有时会误解模糊的提示；未来的工作可能会加入澄清对话。

VideoSketcher 展示了将大规模视频扩散模型与语言驱动的规划相结合，能够解锁一类尊重绘画时间性的生成工具——这是朝着更具表现力、可控的 AI 辅助创意迈出的令人振奋的一步。

作者

Hui Ren
Yuval Alaluf
Omer Bar Tal
Alexander Schwing
Antonio Torralba
Yael Vinker

论文信息

arXiv ID: 2602.15819v1
分类: cs.CV
出版时间: 2026年2月17日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] OpenEarthAgent：用于工具增强的地理空间代理的统一框架

近期在 multimodal reasoning 方面的进展使得能够解释 imagery、将其与 language 连接并执行 structured analytical tasks 的 agents 成为可能。Extend...

[Paper] 当视觉压倒语言：评估与缓解 VLAs 中的反事实失效

Vision-Language-Action models (VLAs) 旨在将语言指令与机器人控制相结合，但在实践中往往未能忠实地遵循语言。当 pr...

人类水平的 3D 形状感知源于多视图学习

人类可以从二维 visual inputs 中推断出物体的 three-dimensional 结构。对这种能力的建模一直是科学界的长期目标。

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

Black-box 对抗攻击在大型视觉语言模型（LVLMs）上具有挑战性，因为缺少梯度且多模态边界复杂。虽然先前的研究…