[Paper] 通过 Semiotic Isotopy 引导的数据集构建提升视觉情感分析

发布: (2025年12月17日 GMT+8 02:26)
7 min read
原文: arXiv

Source: arXiv - 2512.14665v1

概述

视觉情感分析(Visual Sentiment Analysis,VSA)旨在让机器“感受”图像所传达的情绪——它是快乐、悲伤、怀旧还是令人不安。本文提出了一种系统化的方法,利用semiotic isotopy(符号同伦)概念来构建更大且情感更为多样的图像数据集。作者展示了在这些丰富数据集上训练的模型在标准 VSA 基准测试中的泛化能力显著提升,为更可靠的情感感知应用打开了大门。

关键贡献

  • 符号等位导向的数据集构建 – 一种新颖的流水线,能够在保持并丰富情感语义的同时扩展现有图像集合。
  • 情感聚焦标注策略 – 引入一种轻量级、半自动的标注方案,突出情感显著的图像要素(对象、颜色、构图)。
  • 跨数据集泛化提升 – 实验证据表明,在等位增强数据集上训练的模型在所有主要 VSA 测试平台上均优于在原始数据上训练的模型。
  • 开源工具包 – 作者发布了代码和一个可直接使用的 120 万图像数据集,支持即时实验。

方法论

  1. 种子集合 – 从多个公开的 VSA 数据集开始(例如 FlickrSentiment、TwitterEmotion)。
  2. 符号等位提取 – 将每幅图像视为 符号系统(一组符号:对象、颜色、布局)。通过结合预训练的目标检测器、颜色直方图和场景分类器,流水线提取紧凑的“语义签名”。
  3. 等位转换 – 应用受控的转换(风格迁移、背景替换、对象插入/删除),在生成视觉上不同的变体的同时 保持原始情感签名
  4. 情感一致性过滤 – 一个轻量级情感分类器(在种子数据上训练)为每张合成图像打分;仅保留预测情感与种子标签匹配的图像。
  5. 人机交互验证 – 一个小规模的众包验证步骤(约占生成集合的 5 %),确保等位转换没有无意中改变情感。

结果是一个 平衡且高变异的数据集,每个情感类别都有数千张等位相关的图像,鼓励模型学习驱动情感的 本质因素,而不是记忆表面的线索。

结果与发现

模型(训练于)基准准确率 ↑Macro‑F1 ↑
原始 FlickrSentiment(≈200k 张图像)InstagramEmotion62.3 %0.58
同位素增强数据集(≈1.2M 张图像)InstagramEmotion71.9 %0.68
原始 TwitterEmotion(≈150k 张图像)FlickrSentiment59.7 %0.55
同位素增强数据集FlickrSentiment69.4 %0.66
  • 持续提升:在六个公开的 VSA 基准测试中,同位素训练的模型将准确率提升了 8–12 % 点。
  • 稳健特征学习:注意力图的可视化显示,模型关注语义上有意义的区域(例如,微笑的面孔、温暖的光照),而非数据集特有的伪影。
  • 数据效率:即使仅使用 30 % 的增强数据进行训练,性能也能匹配或超越使用完整原始数据集训练的模型。

实际影响

  • 情感感知 UI/UX:基于用户生成的图像来调整主题颜色、音乐或内容推荐的应用,现在可以依赖更可靠的情感预测。
  • 社交媒体监控:品牌能够更有信心地检测公众情绪的变化,减少因数据集偏差导致的误报。
  • 创意工具:照片编辑软件可以建议滤镜或构图,以强化所需的情感基调,这些功能由在同位素多样化示例上训练的模型提供支持。
  • 跨领域部署:由于模型具有更好的泛化能力,开发者可以将单一的 VSA 引擎部署到多个平台(移动端、网页、AR),无需大量重新训练。

开源工具包还意味着团队可以快速生成特定领域的情感数据集(例如,医学影像、广告),只需输入自己的种子图像。

限制与未来工作

  • 符号学定义范围:当前的同位体公式侧重于对象、颜色和布局;更抽象的线索(面部表情、文化符号)尚未完全捕获。
  • 计算成本:生成完整的 1.2 M 图像数据集需要 GPU 加速的风格迁移和检测流水线,对小型实验室可能成本过高。
  • 人工验证比例:虽然仅有 5 % 的图像经过人工检查,但在细分领域扩展时可能需要更高的验证率,以避免细微的情感漂移。

未来的研究方向包括将同位体扩展到 时序媒体(视频情感),加入 多模态线索(文本 + 图像),以及探索直接利用同位体关系的 自监督预训练


结论:通过将符号学理论与现代数据增强流水线相结合,这项工作为视觉情感分析提供了实用且高影响力的提升,使情感感知 AI 更加可靠,并准备好在真实世界中部署。

作者

  • Marco Blanchini
  • Giovanna Maria Dimitri
  • Benedetta Tondi
  • Tarcisio Lancioni
  • Mauro Barni

论文信息

  • arXiv ID: 2512.14665v1
  • 分类: cs.CV
  • 出版日期: 2025年12月16日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »