[Paper] 通用骨架理解通过可微渲染和MLLMs
发布: (2026年3月19日 GMT+8 01:59)
8 分钟阅读
原文: arXiv
Source: arXiv - 2603.18003v1
概述
本文介绍了 SkeletonLLM,一个框架,使多模态大语言模型(MLLM)能够理解和推理人体骨骼数据——这是它们原本未直接设计处理的内容。通过使用可微分渲染器将任意骨骼序列转换为视觉表示,该系统弥合了结构化运动数据与当今 LLM 的视觉‑语言能力之间的鸿沟,为强大的动作识别、字幕生成和跨多种格式的推理打开了大门。
关键贡献
- DrAction Renderer – 一个与格式无关的可微渲染器,可将任意骨架序列(2‑D 或 3‑D 关节坐标)转换为紧凑的图像序列,以供 MLLM 输入。
- End‑to‑End Gradient Flow – 由于渲染是可微的,下游 MLLM 的梯度可以直接优化视觉编码,确保渲染帧突出任务相关的运动线索。
- Cooperative Training Scheme – 结合 Causal Reasoning Distillation(教师‑学生逐步逻辑链的迁移)和 Discriminative Finetuning(硬负样本挖掘),提升推理深度和分类锐度。
- Universal Skeleton Understanding – 在多种下游任务(动作识别、字幕生成、时序推理、跨格式迁移)上展示了强大的零样本和少样本性能,无需手工特征工程。
- Format‑Generalization – 该流水线可跨异构骨架来源(例如 Kinect、MoCap、2‑D 姿态估计器)工作,无需为每个数据集单独准备 token 词表。
方法论
-
Skeleton → Visual Conversion
- 输入: 一系列关节坐标(任意维度,任意骨架拓扑)。
- DrAction 将运动学数据投射到二维画布上,将四肢绘制为彩色笔触,笔触粗细编码关节速度,色相编码深度或置信度。
- 渲染器是完全可微分的:绘制操作以平滑函数形式表达(例如,高斯模糊的线段光栅化),从而可以通过反向传播调整渲染参数。
-
MLLM Backbone
- 预训练的视觉‑语言模型(如 LLaVA、MiniGPT‑4)将渲染后的图像序列作为视觉输入。无需对架构进行任何修改,模型将骨架视频视作普通视频片段处理。
-
Cooperative Training
- 因果推理蒸馏: 教师模型(通常是更大的 LLM,配合显式推理提示)为给定动作生成逐步解释。学生 SkeletonLLM 学习同时复现答案和中间推理 token。
- 判别式微调: 对比损失促使模型区分视觉相似但语义不同的动作(例如 “wave” 与 “clap”),使用从训练集挖掘的困难负例。
-
Optimization
- 总损失为语言建模损失、推理蒸馏损失和判别对比损失的加权和。
- 由于渲染器可微,梯度会回传以调整线条粗细、颜色映射和时间采样,从而学习对下游 MLLM 最有信息量的视觉编码。
结果与发现
| 任务 | 指标(↑ 越好) | SkeletonLLM | 先前仅骨架基线 |
|---|---|---|---|
| 动作识别 (NTU‑RGB+D) | Top‑1 Accuracy | 92.3 % | 84.7 % |
| 骨架字幕生成 (Human3.6M) | CIDEr | 112.5 | 78.3 |
| 时序推理 (Charades‑Skeleton) | Accuracy | 85.1 % | 71.4 % |
| 跨格式迁移 (2‑D → 3‑D) | Zero‑Shot Top‑1 | 88.9 % | 62.5 % |
- 泛化: 同一模型在混合格式数据集上训练后,能够在未见过的骨架格式上竞争性表现,且无需任何重新训练。
- 消融实验: 移除可微渲染(使用固定光栅化器)会导致所有任务的性能下降约 4 %,验证了梯度引导视觉编码的优势。
- 推理蒸馏: 在时序推理基准上提升约 2.5 % 的准确率,并生成可读的逐步解释。
Practical Implications
- Plug‑and‑Play Action Understanding: 开发者可以将来自任何传感器(Kinect、ARKit、OpenPose)的原始关节流输入到 SkeletonLLM,并获得高级语言输出——标签、字幕或自然语言查询——而无需构建自定义分类器。
- Unified Multimodal Pipelines: 构建 AR/VR、体育分析或健康监测应用的公司可以复用同一个 MLLM 来处理视觉、文本以及现在的骨架数据,从而简化模型部署和维护。
- Rapid Prototyping of Explainable AI: 因果推理蒸馏产生逐步解释,可向终端用户展示(例如,“用户抬起右臂是因为肘部角度超过了 150°”),有助于合规性和调试。
- Cross‑Device Compatibility: 由于渲染器抽象了底层骨架格式,同一后端可以服务从智能手机上的低成本 2‑D 姿态估计器到工作室中高精度动作捕捉装置的各种设备。
限制与未来工作
- 渲染开销: 将长序列转换为高分辨率图像会增加计算成本;在边缘设备上实时部署可能需要轻量级光栅化或帧抽样。
- 依赖 MLLM 视觉编码器: 理解质量受限于预训练的视觉语言模型;更新、更强大的 MLLM 有望进一步提升性能。
- 稀疏推理监督: 因果推理教师仅限于其训练任务;要扩展到更复杂的多步骤活动(例如烹饪),需要更丰富的标注流水线。
- 未来方向: 作者计划探索 (1) 保留细粒度关节动态的层次化渲染,(2) 将骨架视觉与 RGB 视频相结合的多模态融合,(3) 在海量未标注的动作捕捉库上进行自监督预训练。
作者
- Ziyi Wang
- Peiming Li
- Xinshun Wang
- Yang Tang
- Kai‑Kuang Ma
- Mengyuan Liu
论文信息
- arXiv ID: 2603.18003v1
- 分类: cs.CV
- 发布时间: 2026年3月18日
- PDF: 下载 PDF