[论文] Artism:AI 驱动的双引擎系统用于艺术生成与批评

发布: (2025年12月18日 GMT+8 02:58)
7 min read
原文: arXiv

Source: arXiv - 2512.15710v1

概述

本文提出了 Artism,一个新颖的 AI 驱动框架,将生成式“艺术家”引擎(AIDA)与批判式“评论家”引擎(Ismism Machine)相结合。通过让这两个代理在循环中交互,系统既可以创作新的视觉艺术作品,又能对其进行评估,模拟现实艺术实践中的来回互动。作者认为,这种双引擎方法为模拟艺术风格的演变以及探索概念性想法如何随时间出现并被精炼提供了一条新途径。

关键贡献

  • 双引擎架构,将生成模型(AIDA)与可训练的批评模型(Ismism Machine)相结合。
  • 多代理协作:两个引擎相互交流反馈,形成闭环的“创意‑批评”循环。
  • 艺术史轨迹模拟:系统可以以历史风格为种子,进而探索合理的未来发展。
  • 概念验证实验,针对当代艺术概念,展示系统生成并评估新颖视觉创意的能力。
  • 通用方法论,用于 AI 驱动的批评循环,可适用于其他创意领域(音乐、设计、写作)。

Source:

方法论

  1. AIDA – Artificial Artist Social Network

    • 基于扩散模型的图像生成器(例如 Stable Diffusion)进行微调,使用精心挑选的艺术数据集。
    • 每个“艺术家”都是一个独立的代理,拥有自己的风格向量,从而形成多样化创作者群体。
  2. Ismism Machine – Critical Analysis Engine

    • 实现了一个基于 Transformer 的分类/回归模型,使用专家艺术评论注释进行训练(如构图、情感冲击、历史关联性)。
    • 输出多维评分,作为对艺术家的反馈。
  3. 迭代反馈回路

    • AIDA 生成艺术作品 → Ismism 对其进行评估 → 将评估结果作为条件信号(例如基于梯度的损失或强化奖励)反馈回去 → AIDA 更新其风格参数。
    • 经过多次迭代,系统会收敛到同时满足新颖性和评论家审美标准的作品。
  4. 进化模拟

    • 通过使用不同历史风格嵌入(印象派、立体派等)初始化代理,向前运行该回路即可观察混合风格或全新风格的产生。

整个流水线在普通 GPU 上运行,使用开源库(PyTorch、Hugging Face Transformers),便于其他研究者和开发者复现。

结果与发现

  • 创意多样性:在 10,000 次反馈循环后,AIDA 生成了一组图像,这些图像在视觉上连贯且在风格上与训练数据明显不同,表明具有真正的新颖性。
  • 批评者对齐:Ismism Machine 的评分与人类专家在保留测试集上的评级相关系数约为 ρ ≈ 0.78,表明该批评者捕捉到了有意义的审美判断。
  • 新兴风格:当使用混合的历史嵌入进行种子时,系统生成的艺术作品融合了例如抽象表现主义和数字故障美学等元素——这些风格在原始数据集中并不存在。
  • 交互式探索:一个简易 UI 允许用户“微调”批评者的权重(例如,将情感冲击优先于技术构图),即可即时将生成输出引导至新的方向。

实际意义

  • Creative Tools for Designers: 将双引擎循环集成到设计软件中,可为艺术家提供一个 AI “助理”,不仅能起草概念,还能提供建设性批评,加速迭代周期。
  • Curatorial Support: 博物馆和画廊可以使用批评者组件自动评估大型藏品,挖掘未被充分探索的作品,或预测新收购的作品如何融入现有叙事。
  • Education & Training: 艺术学生可以与系统互动,获得即时、细致的作品反馈,补充人工导师的指导。
  • Content Generation at Scale: 需要定制视觉资产的品牌(如营销图形、游戏概念艺术)可以利用生成侧,同时让批评者确保符合品牌美学,从而减少人工审查时间。
  • Research into Cultural Evolution: 学者可以模拟“假设”情景——例如,如果某一艺术运动持续发展,现代艺术会是什么样子——为艺术史假设提供计算沙盒。

限制与未来工作

  • 美学的主观性:评论者在特定的专家标注集合上进行训练,可能无法涵盖艺术欣赏的全部文化多样性。
  • 数据集偏差:生成模型继承了训练语料库中的偏见(例如,西方艺术的过度代表)。
  • 反馈的可扩展性:虽然该循环在几千次迭代中表现良好,但扩展到数百万代理可能需要更高效的强化学习技术。
  • 用户控制:当前界面在引导创意‑批评过程方面粒度有限;更丰富的控制机制是计划中的扩展。
  • 跨模态扩展:作者建议将框架扩展到音乐、文本和交互媒体,这将涉及为多模态数据重新设计生成和批评组件。

作者

  • Shuai Liu
  • Yiqing Tian
  • Yang Chen
  • Mar Canet Sola

论文信息

  • arXiv ID: 2512.15710v1
  • 类别: cs.AI
  • 发表日期: 2025年12月17日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »