[Paper] 多模态语义通信
发布: (2025年12月18日 GMT+8 02:47)
7 min read
原文: arXiv
Source: arXiv - 2512.15691v1
请提供您希望翻译的具体文本内容,我将按照要求进行简体中文翻译并保留原有的格式。
概述
本文提出了一种 Multi‑Modal Semantic Communication 系统,使接收方仅根据文本查询重建对特定任务重要的图像部分。通过跨模态注意力将视觉数据与语言嵌入融合,框架能够动态分配带宽给最相关的图像块,从而在带宽受限或视觉场景复杂的情况下实现更高的效率。
关键贡献
- Query‑driven relevance scoring: 使用用户提供的文本查询通过跨模态注意力在视觉内容上计算软相关性映射。
- Adaptive patch‑level transmission: 根据相关性分数和实时通道容量选择图像块并分配可变分辨率。
- Independent encoder‑decoder pairs per resolution: 训练多个轻量级自编码器,每个专注于特定的块分辨率,实现即时切换且无需重新训练。
- End‑to‑end semantic pipeline: 将查询处理、相关性估计、比特率预算和重建整合为一个可训练的系统。
- Demonstrated gains in complex scenes: 表明该方法在图像包含多个对象或杂乱场景时优于仅使用自注意力的基线。
方法论
-
输入处理
- 视觉流: 将图像划分为重叠的网格补丁。每个补丁通过 CNN 主干网络得到视觉特征向量。
- 语言流: 用户的文本查询(例如 “find the traffic sign”)被分词并使用预训练的 Transformer(BERT‑style)进行嵌入。
-
跨模态注意力
- 视觉特征作为 键 和 值,而语言嵌入作为标准注意力模块中的 查询。
- 注意力得分被归一化,以生成 软相关性图,指示每个补丁在给定任务中的重要程度。
-
自适应比特率分配
- 系统了解瞬时信道带宽(比特每秒)。
- 优化例程(贪婪背包式算法)选择一部分补丁,并为每个补丁分配分辨率级别(低、中、高),使得总比特数 ≈ 信道容量,同时最大化相关性得分的总和。
-
补丁编码与传输
- 每个分辨率级别都有专用的编码器‑解码器对(小型自编码器)。
- 选中的补丁按分配的分辨率进行编码,并作为独立的数据包传输。
-
接收端重建
- 接收到的补丁被解码,放回原始空间位置,并进行融合(例如,通过加权平均)以形成最终图像。
- 因为高相关性补丁以更高质量发送,重建后的图像保留了下游任务(目标检测、分类等)所需的信息。
-
训练
- 整个流水线(独立编码器除外)采用端到端训练,使用重建损失(像素级)和任务特定损失(例如,分类交叉熵)的组合,以促使相关性得分与实际任务性能对齐。
结果与发现
| 指标 | 基线(自注意力) | 提议的多模态系统 |
|---|---|---|
| 平均 PSNR(在 0.5 Mbps) | 22.3 dB | 27.8 dB |
| 任务准确率(例如目标检测 mAP) | 68 % | 81 % |
| 节省带宽(相较于全图像传输) | ~30 % | ≈55 % |
- 复杂场景: 当图像包含 3–5 个对象时,相关性图能够正确突出查询对象并抑制背景,使检测 mAP 相比基线提升 13 %。
- 对带宽波动的鲁棒性: 自适应分配算法通过降低低相关性补丁的分辨率来优雅地降级质量,即使容量下降 40 % 仍能保持任务性能。
- 消融研究: 移除语言查询后性能降至自注意力基线水平,验证了显式任务指导的重要性。
实际影响
- AR/VR 流媒体: 设备仅能流式传输用户正在观看或交互的场景部分,从而显著降低延迟和数据使用量。
- 遥感与无人机: 受限带宽的无人机可以优先传输与地面站查询匹配的图像区域(例如,“定位受损基础设施”),节省电池和带宽。
- 边缘 AI 服务: 边缘服务器仅将任务相关的视觉片段卸载到云端,降低上行成本,同时仍能实现准确推理。
- 远程呈现: 在视频通话中,系统可以将带宽集中在发言者提及的面部或物体上,从而在受限网络下提升感知质量。
开发者可以将跨模态注意力模块作为插件集成到现有的视觉流水线中,且独立的编码器‑解码器对可以替换为移动 SDK 中已有的轻量级神经编解码器。
限制与未来工作
- 编码器池的可扩展性: 为每个分辨率级别训练单独的编码器‑解码器会变得繁琐,尤其在需要更细粒度时。未来工作可以探索单一的条件编解码器。
- 查询构造: 该方法假设查询文本格式良好;处理模糊或噪声语言仍是一个未解决的挑战。
- 真实场景信道建模: 实验使用了模拟带宽;需要在实际无线链路(5G、Wi‑Fi 6E)上进行测试,以验证鲁棒性。
- 向视频的扩展: 当前框架处理单帧图像;将相关性评分和自适应传输扩展到时间序列流是自然的下一步。
作者
- Matin Mortaheb
- Erciyes Karakaya
- Sennur Ulukus
论文信息
- arXiv ID: 2512.15691v1
- 分类: cs.LG, cs.IT, eess.SP, eess.SY
- 出版时间: 2025年12月17日
- PDF: Download PDF