[Paper] GlazyBench:用于陶瓷釉属性预测和图像生成的基准
发布: (2026年5月8日 GMT+8 01:51)
8 分钟阅读
原文: arXiv
Source: arXiv - 2605.06641v1
概述
本文介绍了 GlazyBench,这是首个专注于 AI 辅助陶瓷釉料设计的大规模数据集。通过汇集超过 23 k 真实釉料配方以及其烧制后测量的属性和参考图像,作者为多模态模型打开了一个新舞台,这些模型既可以 从配料表预测材料属性,也可以 渲染逼真的釉面视觉效果——这项任务传统上依赖于工作室中昂贵的反复试验。
关键贡献
- 一个精心策划的基准数据集(23,148 种釉料配方),链接原料比例、测量属性(颜色、透明度、光泽等)以及烧制后釉面的高分辨率照片。
- 两个基准任务:
- 属性预测 – 从文本/结构化配方推断定量表面属性。
- 图像生成 – 基于预测属性合成逼真的视觉表现。
- 基线实现,涵盖经典机器学习(随机森林、XGBoost)、大语言模型(在配方‑属性映射上微调的 LLM)以及最先进的生成模型(Stable Diffusion、DALL‑E‑3、ControlNet 风格的条件化)。
- 全面的评估协议(回归使用 MAE、R²;图像质量使用 FID、CLIP‑Score),可作为未来研究的参考基准。
- 开源发布 数据集、代码和已训练的基线,以促进可复现性和社区贡献。
方法论
- Data collection & cleaning – 作者从开源陶艺论坛、商业配方表和学术出版物中汇总釉料配方。每条记录都被标准化为一套 45 种原料类别(例如 silica、feldspar、metal oxides),并配以实验室测量的属性(L*a*b* 颜色坐标、opacity、gloss)以及烧制瓷砖的校准照片。
- Property prediction pipeline – 配方被编码为稀疏向量(material → weight %),并输入多个回归模型:
- Traditional: Gradient Boosted Trees (XGBoost) 和 Random Forests。
- Neural: 一个简单的 feed‑forward network 和一个 transformer‑style encoder,将配方视为 token 序列。
- LLM‑based: GPT‑4‑style 模型,提示为 “Given the following ingredients, predict the final color (L*a*b*) and transparency.”
- Image generation pipeline – 探索了两种策略:
- Direct diffusion: 将预测的 property vector(与文本嵌入拼接)作为条件输入 latent diffusion model。
- ControlNet: 使用 property vector 驱动控制图,引导预训练的 Stable Diffusion 模型,确保输出遵循目标颜色和 opacity。
- Evaluation – 回归性能通过 Mean Absolute Error (MAE) 和 coefficient of determination (R²) 报告。生成的图像使用 Fréchet Inception Distance (FID) 评估真实感,使用 CLIP‑Score 评估与目标属性的语义对齐程度。
Results & Findings
- 属性预测:梯度提升树在 L*a*b*(≈ 3.2)和不透明度(≈ 4 %)上取得了最低的 MAE。LLM 提示在颜色预测上表现竞争力,但在不透明度上落后,表明原始数值回归仍然优于语言模型推理用于细粒度材料属性。
- 图像生成:相较于原始 Stable Diffusion,加入 ControlNet 的扩散模型将 FID 降低约 15 %,其 CLIP‑Score 提升 0.08,表明在遵循预测的颜色调色板和半透明度方面更好。然而,细微的纹理线索(例如表面光泽)仍然难以捕捉。
- 跨任务协同:当属性预测器的输出直接输入图像生成器时,端到端流水线实现了相当的视觉保真度,但错误传播(不透明度预测错误)明显降低了生成图像的真实感。
- 总体结论:该基准足以得到有意义的基线,但仍具挑战性,留有大量改进空间——尤其是在处理高维、化学约束的釉料配方空间方面。
实际意义
- 快速原型制作(针对陶瓷艺术家) – 开发者可以将属性预测 API 集成到设计工具中,使艺术家能够微调配料比例并即时看到预测的颜色/不透明度,从而减少昂贵的窑烧次数。
- 电子商务与定制平台 – 陶瓷用品制造商可以提供“虚拟釉料试穿”功能,让客户在购买前预览新釉料在其产品上的效果。
- AI材料管线 – 数据集和基线模型为其他细分材料领域(如玻璃、搪瓷、聚合物涂层)提供了模板,这些领域缺乏配方到属性的映射。
- 教育工具 – 通过展示基于 Transformer 的配方编码器的交互式笔记本,可向化学学生讲授金属氧化物对釉料结果的定量影响。
- 与现有 AI 生态的集成 – 由于基线模型依赖于广泛使用的库(scikit‑learn、PyTorch、Hugging Face Diffusers),开发者可以轻松将模型接入 CI 流水线、云函数,甚至移动应用。
限制与未来工作
- 数据集偏差 – 收集的配方严重偏向传统陶土和石器釉料;异国或实验性配方代表性不足,限制了模型的泛化能力。
- 属性范围 – 仅捕获了少数表面指标(颜色、不透明度、光泽),缺少机械性能(如耐久性、热冲击抗性),而这些对工业采用至关重要。
- 图像真实感上限 – 现有扩散模型在细尺度表面纹理和镜面高光方面表现不足,而这些在釉料评估中具有感知重要性。
- 误差传播 – 两阶段流水线会放大预测错误;端到端多模态训练(联合优化属性回归和图像合成)是一个有前景的方向。
- 可解释性 – 虽然基于树的模型提供特征重要性,但深度模型仍是黑箱;未来工作可探索注意力可视化或反事实分析,以帮助工匠理解为何某种成分会导致颜色变化。
通过弥补这些不足,社区可以迈向真正的 AI 驱动材料设计工作流,既具备科学严谨性,又能赋能艺术创作。
作者
- Ziyu Zhai
- Siyou Li
- Juexi Shao
- Juntao Yu
论文信息
- arXiv ID: 2605.06641v1
- 分类: cs.AI, cs.CV
- 发布日期: 2026年5月7日
- PDF: 下载 PDF