[Paper] GlazyBench：用于陶瓷釉属性预测和图像生成的基准

发布: 3天前 (2026年5月8日 GMT+8 01:51)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.06641v1

概述

本文介绍了 GlazyBench，这是首个专注于 AI 辅助陶瓷釉料设计的大规模数据集。通过汇集超过 23 k 真实釉料配方以及其烧制后测量的属性和参考图像，作者为多模态模型打开了一个新舞台，这些模型既可以 从配料表预测材料属性，也可以 渲染逼真的釉面视觉效果——这项任务传统上依赖于工作室中昂贵的反复试验。

关键贡献

一个精心策划的基准数据集（23,148 种釉料配方），链接原料比例、测量属性（颜色、透明度、光泽等）以及烧制后釉面的高分辨率照片。
两个基准任务：
1. 属性预测 – 从文本/结构化配方推断定量表面属性。
2. 图像生成 – 基于预测属性合成逼真的视觉表现。
基线实现，涵盖经典机器学习（随机森林、XGBoost）、大语言模型（在配方‑属性映射上微调的 LLM）以及最先进的生成模型（Stable Diffusion、DALL‑E‑3、ControlNet 风格的条件化）。
全面的评估协议（回归使用 MAE、R²；图像质量使用 FID、CLIP‑Score），可作为未来研究的参考基准。
开源发布 数据集、代码和已训练的基线，以促进可复现性和社区贡献。

方法论

Data collection & cleaning – 作者从开源陶艺论坛、商业配方表和学术出版物中汇总釉料配方。每条记录都被标准化为一套 45 种原料类别（例如 silica、feldspar、metal oxides），并配以实验室测量的属性（L*a*b* 颜色坐标、opacity、gloss）以及烧制瓷砖的校准照片。
Property prediction pipeline – 配方被编码为稀疏向量（material → weight %），并输入多个回归模型：
- Traditional: Gradient Boosted Trees (XGBoost) 和 Random Forests。
- Neural: 一个简单的 feed‑forward network 和一个 transformer‑style encoder，将配方视为 token 序列。
- LLM‑based: GPT‑4‑style 模型，提示为 “Given the following ingredients, predict the final color (L*a*b*) and transparency.”
Image generation pipeline – 探索了两种策略：
- Direct diffusion: 将预测的 property vector（与文本嵌入拼接）作为条件输入 latent diffusion model。
- ControlNet: 使用 property vector 驱动控制图，引导预训练的 Stable Diffusion 模型，确保输出遵循目标颜色和 opacity。
Evaluation – 回归性能通过 Mean Absolute Error (MAE) 和 coefficient of determination (R²) 报告。生成的图像使用 Fréchet Inception Distance (FID) 评估真实感，使用 CLIP‑Score 评估与目标属性的语义对齐程度。

Results & Findings

属性预测：梯度提升树在 L*a*b*（≈ 3.2）和不透明度（≈ 4 %）上取得了最低的 MAE。LLM 提示在颜色预测上表现竞争力，但在不透明度上落后，表明原始数值回归仍然优于语言模型推理用于细粒度材料属性。
图像生成：相较于原始 Stable Diffusion，加入 ControlNet 的扩散模型将 FID 降低约 15 %，其 CLIP‑Score 提升 0.08，表明在遵循预测的颜色调色板和半透明度方面更好。然而，细微的纹理线索（例如表面光泽）仍然难以捕捉。
跨任务协同：当属性预测器的输出直接输入图像生成器时，端到端流水线实现了相当的视觉保真度，但错误传播（不透明度预测错误）明显降低了生成图像的真实感。
总体结论：该基准足以得到有意义的基线，但仍具挑战性，留有大量改进空间——尤其是在处理高维、化学约束的釉料配方空间方面。

实际意义

快速原型制作（针对陶瓷艺术家） – 开发者可以将属性预测 API 集成到设计工具中，使艺术家能够微调配料比例并即时看到预测的颜色/不透明度，从而减少昂贵的窑烧次数。
电子商务与定制平台 – 陶瓷用品制造商可以提供“虚拟釉料试穿”功能，让客户在购买前预览新釉料在其产品上的效果。
AI材料管线 – 数据集和基线模型为其他细分材料领域（如玻璃、搪瓷、聚合物涂层）提供了模板，这些领域缺乏配方到属性的映射。
教育工具 – 通过展示基于 Transformer 的配方编码器的交互式笔记本，可向化学学生讲授金属氧化物对釉料结果的定量影响。
与现有 AI 生态的集成 – 由于基线模型依赖于广泛使用的库（scikit‑learn、PyTorch、Hugging Face Diffusers），开发者可以轻松将模型接入 CI 流水线、云函数，甚至移动应用。

限制与未来工作

数据集偏差 – 收集的配方严重偏向传统陶土和石器釉料；异国或实验性配方代表性不足，限制了模型的泛化能力。
属性范围 – 仅捕获了少数表面指标（颜色、不透明度、光泽），缺少机械性能（如耐久性、热冲击抗性），而这些对工业采用至关重要。
图像真实感上限 – 现有扩散模型在细尺度表面纹理和镜面高光方面表现不足，而这些在釉料评估中具有感知重要性。
误差传播 – 两阶段流水线会放大预测错误；端到端多模态训练（联合优化属性回归和图像合成）是一个有前景的方向。
可解释性 – 虽然基于树的模型提供特征重要性，但深度模型仍是黑箱；未来工作可探索注意力可视化或反事实分析，以帮助工匠理解为何某种成分会导致颜色变化。

通过弥补这些不足，社区可以迈向真正的 AI 驱动材料设计工作流，既具备科学严谨性，又能赋能艺术创作。

作者

Ziyu Zhai
Siyou Li
Juexi Shao
Juntao Yu

论文信息

arXiv ID: 2605.06641v1
分类: cs.AI, cs.CV
发布日期: 2026年5月7日
PDF: 下载 PDF

[Paper] GlazyBench：用于陶瓷釉属性预测和图像生成的基准

概述

关键贡献

方法论

Results & Findings

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Flow-OPD：用于 Flow Matching 模型的 On-Policy 蒸馏

[Paper] SCOPE：结构化分解与条件技能编排用于复杂图像生成

[Paper] BAMI：免训练偏差缓解在 GUI Grounding 中