[Paper] MetFuse:隐喻与转喻之间的形象融合

发布: (2026年4月15日 GMT+8 00:02)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.12919v1

概述

论文 “MetFuse: Figurative Fusion between Metonymy and Metaphor” 研究了一种出人意料常见的语言现象——将转喻(metonymy)和隐喻(metaphor)两种修辞方式混合在同一句中的句子。虽然大多数自然语言处理研究将这两种现象分别处理,作者构建了一个统一的框架,能够将普通句子转换为三种修辞版本(转喻式、隐喻式以及两者的混合),并发布了高质量的数据集(MetFuse),包含 1,000 组意义对齐的四元组(共 4,000 条句子)。实验表明,加入这些数据能够在多个基准上持续提升转喻和隐喻分类器的性能。

关键贡献

  • 统一的转换框架,能够从字面句子生成指代性、隐喻性和混合型变体。
  • MetFuse 数据集:1000 个人类验证的四元组(字面 + 指代性 + 隐喻性 + 混合型),是首个专注于研究形象融合的资源。
  • 实证验证:将 MetFuse 融入八个现有的指代/隐喻基准后提升了分类准确率,尤其是在加入混合示例后对指代的识别效果更佳。
  • 跨形象分析:表明隐喻的存在使得指代名词更容易被人类和大型语言模型(LLM)检测到。
  • 开源发布:数据集和代码已公开,可促进对多形象语言理解的进一步研究。

方法论

  1. 句子构造

    • 从一个字面句子开始(例如,“王冠宣布新的税收改革”。)
    • 应用一套语言规则和众包改写来生成:
      • 一个转喻版本(其中部分代表整体,例如 “王冠宣布… → “君主制宣布…”),
      • 一个隐喻版本(用另一个概念来描述,例如 “王冠宣布… → “王国的首领宣布…”),以及
      • 一个结合两种转换的混合版本。
  2. 人工验证

    • 每个四元组由多位标注员审查,以确保预期的修辞意义在四个句子中得到保留和对齐。
  3. 数据集集成与评估

    • 将 MetFuse 四元组混入八个公开的转喻/隐喻分类基准的训练集。
    • 在增强数据上对标准分类器(BERT、RoBERTa 等)进行微调。
    • 使用准确率/F1 衡量性能,并与未使用 MetFuse 训练的基线进行比较。
  4. 修辞交互分析

    • 进行探测实验,让模型(以及人工标注员)标注句子的修辞类型,这些句子可能是纯转喻、纯隐喻或混合。
    • 比较检测率,以量化一种修辞类型对另一种的“提升”效应。

结果与发现

任务基线(无 MetFuse)+ MetFuse(混合)% 增长
转喻分类(4 个基准)78.2 % F182.7 % F1+4.5 %
隐喻分类(4 个基准)81.5 % F184.1 % F1+2.6 %
  • 混合示例在转喻任务上带来最大的提升,证实隐喻上下文能够澄清转喻线索。
  • 人工标注者在混合句子中正确识别转喻的比例为 71 %,而在仅含转喻的句子中为 58 %。
  • **大型语言模型(GPT‑4、Llama‑2)**表现出相同趋势,在混合输入上 F1 提升了 6 分。
  • 错误分析显示,大多数剩余错误涉及罕见专有名词或领域特定术语,表明进一步扩展词汇覆盖可能有帮助。

实际意义

  • 在下游应用中更好地处理形象语言 – 聊天机器人、语音助手和内容审核工具在出现隐喻的同时能够更可靠地解释诸如 “The White House announced…” 之类的陈述。
  • 改进数据增强流水线 – 开发者可以自动生成混合形象变体,以丰富任何受益于细微意义的任务的训练数据(例如情感分析、意图检测)。
  • 增强 LLM 提示 – 明确要求模型同时考虑转喻和隐喻线索的提示策略可以产生更准确的解释或改写。
  • 跨领域迁移 – 该框架可以适配特定领域语料(法律、医学),在这些领域中转喻简写(如 “the bench” 代表法官)常与隐喻语言共现,从而打造更稳健的领域适应模型。

限制与未来工作

  • 词汇项目的范围 – MetFuse 主要关注经典的转喻目标名词;将其扩展到动词和形容词仍是一个未解决的挑战。
  • 文化和语言多样性 – 数据集以英语为中心;在其他语言和文化中,形象融合的表现不同,因此需要多语言扩展。
  • 模型规模依赖性 – 在中等规模的 Transformer 上收益更为显著;非常大的语言模型已经捕获了一些形象线索,边际收益降低。
  • 作者提出的未来方向 包括:
    1. 将框架扩展以自动生成更大的语料库。
    2. 探索用于转喻、隐喻及其他形象手段(讽刺、嘲讽)的联合多任务学习。
    3. 将数据集整合到用于评估大型语言模型形象推理能力的评估套件中。

作者

  • Saptarshi Ghosh
  • Tianyu Jiang

论文信息

  • arXiv ID: 2604.12919v1
  • 分类: cs.CL
  • 出版日期: 2026年4月14日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »