将橱柜图纸转化为 AI 3D 模型
I’m happy to translate the article for you, but I’ll need the actual text of the post (the paragraphs, headings, etc.) in order to do so. Could you please paste the content you’d like translated (excluding any code blocks or URLs you want to keep unchanged)? Once I have that, I’ll provide a Simplified‑Chinese version while preserving the original formatting and the source line exactly as you requested.
介绍
建筑和橱柜制造仍然在很大程度上依赖设计师创建的 PDF 图纸。该过程缓慢且重复。这个项目提出了一个简单的问题:AI 能否直接将橱柜图纸转换为可用的 3D 数据?
我们构建了一个系统,能够从 PDF 中读取橱柜图纸,提取结构化几何信息,并生成 DWG 和 3D 模型。
为什么传统自动化不足
橱柜图纸包含有价值的信息——布局结构、橱柜边界、尺寸、标签、门和抽屉位置——但大多数信息仅以视觉形式存在。传统的自动化工具期望结构化的 CAD 数据,而不是混乱的 PDF,这使得机器难以解释这些图纸。
流程概览
工作流结合了计算机视觉、检测模型、OCR 和语言模型:
- PDF → 图像 – 将 PDF 的每一页转换为光栅图像。
- 目标检测 – 使用基于 YOLO 的模型检测橱柜和组件。
- 文本提取 – 应用 OCR 捕获测量文本。
- LLM 解释 – 将模糊的测量值转换为结构化数据。
- 几何生成 – 构建参数化橱柜对象。
- 输出生成 – 导出 DWG 文件、3D 装配和布局可视化。
每一步都解决了转换流水线中的特定问题。
使用 YOLO 的对象检测
我们训练了一个基于 YOLO 的检测器,用于识别图纸中的以下构件:
- 基础橱柜
- 墙面橱柜
- 高柜
- 家用电器
- 结构边界
为什么选择 YOLO?
YOLO 提供快速检测和高空间精度,这在需要精确边界框的建筑图纸中至关重要。
检测完成后,系统提取边界框及空间关系,为几何重建奠定基础。
测量提取
橱柜图纸包括宽度、高度、深度和间距等测量值。OCR 流程提取原始文本,但这些文本常常以不一致的格式出现,例如:
W 36"
H 34 1/2"
D 24"
LLM 解释
原始 OCR 输出会传递给大型语言模型(LLM),该模型将数据规范化为结构化格式。
示例转换
原始文本
36 W x 34.5 H x 24 D
结构化 JSON
{
"width": 36,
"height": 34.5,
"depth": 24
}
LLM 还会解决:
- 标签不一致
- 缺失上下文
- 测量格式多样
此步骤将视觉标注转换为可靠的数值数据。
几何生成
通过橱柜检测、尺寸和布局关系,我们生成参数化对象:
{
"type": "Base",
"width": 36,
"height": 34.5,
"depth": 24,
"position": {"x": 0, "y": 0}
}
基于此结构我们可以生成:
- 3D 模型
- AutoCAD DWG 文件
- 制造布局
设计师可以直接在 CAD 软件中打开这些结果,省去数小时的手工绘图工作。
实际挑战
- 可变性 – 没有两个柜子图纸是完全相同的;注释风格、测量格式和符号差异很大。
- 比例转换 – 建筑图纸使用比例表示;我们必须将像素距离转换为实际尺寸。
- 上下文感知 – 柜子与墙壁、家电以及相邻单元相互作用,需要超出单独对象检测的布局上下文。
即使是小错误也可能导致柜子组装失败,因此必须具备鲁棒性。
好处与未来方向
自动化橱柜解释可实现:
- 更快的橱柜设计工作流程
- 自动化 CAD 生成
- 减少手动绘图工作量
- 加速制造准备
未来的工作旨在处理整个建筑平面图,而不仅限于橱柜。许多行业仍依赖于以人为中心的文档;结合计算机视觉、检测模型和语言模型可以将视觉设计文档转换为结构化数据管道。橱柜图纸只是这一更广阔机遇的一个例子。