[Paper] 通用骨架理解通过可微渲染和MLLMs

发布: 1天前 (2026年3月19日 GMT+8 01:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.18003v1

概述

本文介绍了 SkeletonLLM，一个框架，使多模态大语言模型（MLLM）能够理解和推理人体骨骼数据——这是它们原本未直接设计处理的内容。通过使用可微分渲染器将任意骨骼序列转换为视觉表示，该系统弥合了结构化运动数据与当今 LLM 的视觉‑语言能力之间的鸿沟，为强大的动作识别、字幕生成和跨多种格式的推理打开了大门。

关键贡献

DrAction Renderer – 一个与格式无关的可微渲染器，可将任意骨架序列（2‑D 或 3‑D 关节坐标）转换为紧凑的图像序列，以供 MLLM 输入。
End‑to‑End Gradient Flow – 由于渲染是可微的，下游 MLLM 的梯度可以直接优化视觉编码，确保渲染帧突出任务相关的运动线索。
Cooperative Training Scheme – 结合 Causal Reasoning Distillation（教师‑学生逐步逻辑链的迁移）和 Discriminative Finetuning（硬负样本挖掘），提升推理深度和分类锐度。
Universal Skeleton Understanding – 在多种下游任务（动作识别、字幕生成、时序推理、跨格式迁移）上展示了强大的零样本和少样本性能，无需手工特征工程。
Format‑Generalization – 该流水线可跨异构骨架来源（例如 Kinect、MoCap、2‑D 姿态估计器）工作，无需为每个数据集单独准备 token 词表。

方法论

Skeleton → Visual Conversion
- 输入： 一系列关节坐标（任意维度，任意骨架拓扑）。
- DrAction 将运动学数据投射到二维画布上，将四肢绘制为彩色笔触，笔触粗细编码关节速度，色相编码深度或置信度。
- 渲染器是完全可微分的：绘制操作以平滑函数形式表达（例如，高斯模糊的线段光栅化），从而可以通过反向传播调整渲染参数。
MLLM Backbone
- 预训练的视觉‑语言模型（如 LLaVA、MiniGPT‑4）将渲染后的图像序列作为视觉输入。无需对架构进行任何修改，模型将骨架视频视作普通视频片段处理。
Cooperative Training
- 因果推理蒸馏： 教师模型（通常是更大的 LLM，配合显式推理提示）为给定动作生成逐步解释。学生 SkeletonLLM 学习同时复现答案和中间推理 token。
- 判别式微调： 对比损失促使模型区分视觉相似但语义不同的动作（例如 “wave” 与 “clap”），使用从训练集挖掘的困难负例。
Optimization
- 总损失为语言建模损失、推理蒸馏损失和判别对比损失的加权和。
- 由于渲染器可微，梯度会回传以调整线条粗细、颜色映射和时间采样，从而学习对下游 MLLM 最有信息量的视觉编码。

结果与发现

任务	指标（↑ 越好）	SkeletonLLM	先前仅骨架基线
动作识别 (NTU‑RGB+D)	Top‑1 Accuracy	92.3 %	84.7 %
骨架字幕生成 (Human3.6M)	CIDEr	112.5	78.3
时序推理 (Charades‑Skeleton)	Accuracy	85.1 %	71.4 %
跨格式迁移 (2‑D → 3‑D)	Zero‑Shot Top‑1	88.9 %	62.5 %

泛化: 同一模型在混合格式数据集上训练后，能够在未见过的骨架格式上竞争性表现，且无需任何重新训练。
消融实验: 移除可微渲染（使用固定光栅化器）会导致所有任务的性能下降约 4 %，验证了梯度引导视觉编码的优势。
推理蒸馏: 在时序推理基准上提升约 2.5 % 的准确率，并生成可读的逐步解释。

Practical Implications

Plug‑and‑Play Action Understanding: 开发者可以将来自任何传感器（Kinect、ARKit、OpenPose）的原始关节流输入到 SkeletonLLM，并获得高级语言输出——标签、字幕或自然语言查询——而无需构建自定义分类器。
Unified Multimodal Pipelines: 构建 AR/VR、体育分析或健康监测应用的公司可以复用同一个 MLLM 来处理视觉、文本以及现在的骨架数据，从而简化模型部署和维护。
Rapid Prototyping of Explainable AI: 因果推理蒸馏产生逐步解释，可向终端用户展示（例如，“用户抬起右臂是因为肘部角度超过了 150°”），有助于合规性和调试。
Cross‑Device Compatibility: 由于渲染器抽象了底层骨架格式，同一后端可以服务从智能手机上的低成本 2‑D 姿态估计器到工作室中高精度动作捕捉装置的各种设备。

限制与未来工作

渲染开销: 将长序列转换为高分辨率图像会增加计算成本；在边缘设备上实时部署可能需要轻量级光栅化或帧抽样。
依赖 MLLM 视觉编码器: 理解质量受限于预训练的视觉语言模型；更新、更强大的 MLLM 有望进一步提升性能。
稀疏推理监督: 因果推理教师仅限于其训练任务；要扩展到更复杂的多步骤活动（例如烹饪），需要更丰富的标注流水线。
未来方向: 作者计划探索 (1) 保留细粒度关节动态的层次化渲染，(2) 将骨架视觉与 RGB 视频相结合的多模态融合，(3) 在海量未标注的动作捕捉库上进行自监督预训练。

作者

Ziyi Wang
Peiming Li
Xinshun Wang
Yang Tang
Kai‑Kuang Ma
Mengyuan Liu

论文信息

arXiv ID: 2603.18003v1
分类: cs.CV
发布时间: 2026年3月18日
PDF: 下载 PDF

[Paper] 通用骨架理解通过可微渲染和MLLMs

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 用于高效视频 VLMs 的统一时空令牌评分

[Paper] Loc3R-VLM：基于语言的定位与3D推理的视觉语言模型

[Paper] EchoGen：循环一致学习用于统一布局-图像生成与理解

[Paper] 文本嵌入插值在连续图像引导中的出乎意料的有效性