[Paper] 生成式数字孪生：视觉‑语言仿真模型用于可执行工业系统

发布: 1个月前 (2025年12月23日 GMT+8 22:22)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.20387v1

概述

本文介绍了 Vision‑Language Simulation Models (VLSMs) —— 一类全新的 AI 系统，能够将粗略的布局草图和自然语言描述转换为 可执行的 FlexScript 代码 用于工业仿真。通过将视觉感知、语言理解和代码生成相结合，作者为能够从非正式输入即时创建的“生成式数字孪生”奠定了基础。

关键贡献

统一的多模态模型，能够联合处理草图和文本提示，输出可运行的仿真脚本。
大规模数据集，包含 120 k+ prompt‑sketch‑code 三元组，是首个公开发布的用于训练生成式数字孪生的资源。
三项任务特定指标——结构有效率 (SVR)、参数匹配率 (PMR) 和执行成功率 (ESR)——用于评估几何、参数保真度以及实际仿真器执行情况。
广泛的消融研究，涵盖视觉骨干网络（如 ViT、ConvNeXt）、连接器架构以及代码预训练语言模型（如 CodeBERT、StarCoder）。
接近完美的结构准确率（SVR ≈ 99.8 %）和高执行鲁棒性（ESR > 92 %）在保留测试集上。

方法论

数据收集 – 工程师手动将手绘布局草图（类似 CAD 的线稿）与简洁的英文提示以及驱动标准工业仿真的对应 FlexScript 代码配对。
模型架构
- 视觉编码器 从草图中提取空间嵌入。
- 语言编码器 处理自然语言提示。
- 跨模态连接器（可以是简单的拼接 + Transformer 或跨注意力模块）融合两个嵌入。
- 融合后的表示输入 代码生成解码器（从代码预训练的大语言模型初始化），逐 token 生成 FlexScript。
训练 – 系统端到端训练，使用混合损失：
- (i) 用于代码生成的 token 级交叉熵，
- (ii) 结构一致性损失，用于惩罚几何不匹配，
- (iii) 基于强化学习的奖励，用于在仿真器中成功执行。
评估 – 三个定制指标评估：
- (i) 生成的脚本是否遵循草图的拓扑结构 (SVR)，
- (ii) 数值参数（如尺寸、速度）是否与提示匹配 (PMR)，
- (iii) 脚本在 FlexScript 解释器中是否无错误运行 (ESR)。

结果与发现

模型变体	SVR	PMR	ESR
ViT + Cross‑Attention + StarCoder	99.8 %	96.4 %	93.2 %
ConvNeXt + Concat + CodeBERT	98.9 %	94.1 %	89.7 %
Baseline (vision‑only)	85.3 %	71.2 %	62.5 %

添加语言提示始终提升参数保真度（PMR）和执行成功率（ESR）。
Cross‑attention 连接器优于简单拼接，尤其在处理复杂空间关系时。
该模型对未见的工业领域（例如输送带布局）具有良好的泛化能力，ESR 仅出现约 4 % 的轻微下降。

实际意义

快速原型 – 工程师可以在平板上勾勒出新的生产线，用几句话描述它，便能立即获得可运行的仿真，省去数周的手动脚本编写。
设计‑到‑仿真流水线 – CAD 工具可以嵌入 VLSM API 自动生成测试场景，实现设计演进过程中的持续验证。
用于强化学习代理的训练仿真器 – 合成的数字孪生可以大规模生成，为机器人或自主物料搬运的强化学习管道提供数据。
跨学科协作 – 非程序员（例如工艺工程师）可以直接参与仿真模型的构建，无需学习 FlexScript 语法。
开源生态系统 – 发布的数据集和评估套件为社区提供了未来多模态代码生成研究的基准。

限制与未来工作

领域特定性 – 当前数据集聚焦于 FlexScript 和有限的工业设备；迁移到其他仿真器（例如基于 ROS 的）将需要额外的微调。
草图质量敏感性 – 极度嘈杂或模糊的图纸仍会导致结构错误；对手绘变体的鲁棒性需要改进。
执行测试的可扩展性 – ESR 依赖在沙箱中运行生成的脚本；将其扩展到数百万样本在计算上成本高昂。
未来方向 包括将 VLSM 扩展到 3‑D 体素或点云输入，加入反馈回路使仿真器的输出优化生成的代码，以及探索对新仿真语言的少样本适应。

作者

YuChe Hsu
AnJui Wang
TsaiChing Ni
YuanFu Yang

论文信息

arXiv ID: 2512.20387v1
分类: cs.AI, cs.CL, cs.CV
发布时间: 2025年12月23日
PDF: 下载 PDF

[Paper] 生成式数字孪生：视觉‑语言仿真模型用于可执行工业系统

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Cube Bench：MLLMs空间视觉推理基准

[Paper] A2P-Vis：一种分析器到呈现器的代理管道，用于视觉洞察生成与报告

[Paper] 介绍 TrGLUE 与 SentiTurca：土耳其语通用语言理解与情感分析的综合基准

[Paper] 统一学习动力学与泛化的Transformer缩放定律