[论文] Muses:设计、构思、生成无需训练的不存在的幻想3D生物
发布: (2026年1月7日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2601.03256v1
概述
Muses 引入了一种 无训练、前馈管线,能够根据文本提示生成全新的奇幻 3D 生物。通过将创作过程基于 3‑D 骨骼表示,系统规避了以往工作中繁琐的部件级优化和手动组装步骤,提供连贯的高保真模型,直接可用于游戏引擎或 AR/VR 流程。
关键贡献
- 首个免训练方法:直接从文本生成新颖的 3‑D 生物,消除对大型、特定领域数据集的需求。
- 先骨架设计范式:使用基于图的推理引擎构建符合布局、尺度和连通性的生物学上合理的 3‑D 骨架。
- 结构化潜在空间体素组装:将现有对象的部件整合到由生成的骨架引导的统一形状中,确保几何一致性。
- 基于图像的纹理合成:以骨架为条件,生成风格一致、高质量的表面外观。
- 展示了最先进的结果:在视觉保真度、文本对齐和灵活编辑方面相较于以往的部件感知优化和 2‑D‑to‑3‑D 流水线表现更佳。
方法论
-
骨架构建
- 系统解析输入文本,构建一个 身体部位图(例如,“头部”、“翅膀”、“尾巴”),并带有关系约束(连接点、尺寸比例)。
- 轻量级的图约束推理模块在预先计算的原始骨架碎片库中搜索,将它们拼接成一个统一的连贯骨架。
-
基于体素的形状组装
- 完成的骨架定义了一个 结构化潜在空间,其中每个节点对应一个体素区域。
- 从现有的 3‑D 对象体素(例如,来自公共形状库)中检索并放置到相应的区域,受骨架几何形状的引导。这产生了一个粗糙但拓扑上可靠的网格。
-
外观建模
- 图像引导的扩散模型 接收组装好的形状和原始文本提示,以骨架姿态为条件,生成既符合描述风格又在部件边界处无缝衔接的纹理。
所有步骤在一次前向传播中完成,无需在目标领域进行基于梯度的优化或微调。
结果与发现
- 视觉保真度:用户研究和定量指标(如 FID、Chamfer 距离)显示 Muses 在真实感和结构一致性方面比先前方法高出 15‑20 % 。
- 文本到 3‑D 对齐:提示匹配分数表明生成的生物准确反映了描述的属性(例如 “带有发光翅膀的尖刺龙”)。
- 编辑灵活性:由于骨架保持显式,开发者可以在生成后修改部件位置、比例或姿势,并立即重新渲染模型,无需重新训练。
- 速度:端到端生成在单个 GPU 上耗时不到 30 秒,远快于可能需要数分钟到数小时的迭代优化流水线。
实际影响
- 游戏与VR资产创作:艺术家可以通过输入描述快速原型化奇幻生物,大幅缩短概念艺术的迭代周期。
- 程序化内容生成:工作室可以将 Muses 集成到关卡设计工具中,自动在世界中填充多样化、即时生成的动物群。
- AR 应用的快速原型:开发者可以生成自定义的 3D 吉祥物或品牌角色,无需雇佣 3D 建模师,从而实现个性化体验。
- 数据高效工作流:由于不需要大量特定领域的训练数据,小型工作室可以在不需要巨额计算预算的情况下采用该技术。
限制与未来工作
- 骨架库覆盖范围:当前的片段库偏向常见动物形态;真正的外星解剖结构可能需要扩展原始集合。
- 体素分辨率:细微的几何细节(例如复杂的鳞片或羽毛)受体素网格限制;更高分辨率的潜在表示是下一步。
- 跨极端尺度的纹理一致性:当部件尺寸差异巨大时,拼接纹理会产生可见的接缝;正在研究自适应混合策略。
- 交互式编辑:虽然可以进行生成后的编辑,但实时交互式操作骨架并立即获得视觉反馈仍是一个未解决的挑战。
Muses 为 无训练、文本驱动的 3D 生物创作 开辟了有前景的道路,未来的研究可能会聚焦于更丰富的骨架词汇、更高分辨率的几何体以及与交互式设计工具的更紧密集成。
作者
- Hexiao Lu
- Xiaokun Sun
- Zeyu Cai
- Hao Guo
- Ying Tai
- Jian Yang
- Zhenyu Zhang
论文信息
- arXiv ID: 2601.03256v1
- Categories: cs.CV
- Published: 2026年1月6日
- PDF: 下载 PDF