[Paper] 通用骨架理解通过可微渲染和MLLMs

发布: (2026年3月19日 GMT+8 01:59)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.18003v1

概述

本文介绍了 SkeletonLLM,一个框架,使多模态大语言模型(MLLM)能够理解和推理人体骨骼数据——这是它们原本未直接设计处理的内容。通过使用可微分渲染器将任意骨骼序列转换为视觉表示,该系统弥合了结构化运动数据与当今 LLM 的视觉‑语言能力之间的鸿沟,为强大的动作识别、字幕生成和跨多种格式的推理打开了大门。

关键贡献

  • DrAction Renderer – 一个与格式无关的可微渲染器,可将任意骨架序列(2‑D 或 3‑D 关节坐标)转换为紧凑的图像序列,以供 MLLM 输入。
  • End‑to‑End Gradient Flow – 由于渲染是可微的,下游 MLLM 的梯度可以直接优化视觉编码,确保渲染帧突出任务相关的运动线索。
  • Cooperative Training Scheme – 结合 Causal Reasoning Distillation(教师‑学生逐步逻辑链的迁移)和 Discriminative Finetuning(硬负样本挖掘),提升推理深度和分类锐度。
  • Universal Skeleton Understanding – 在多种下游任务(动作识别、字幕生成、时序推理、跨格式迁移)上展示了强大的零样本和少样本性能,无需手工特征工程。
  • Format‑Generalization – 该流水线可跨异构骨架来源(例如 Kinect、MoCap、2‑D 姿态估计器)工作,无需为每个数据集单独准备 token 词表。

方法论

  1. Skeleton → Visual Conversion

    • 输入: 一系列关节坐标(任意维度,任意骨架拓扑)。
    • DrAction 将运动学数据投射到二维画布上,将四肢绘制为彩色笔触,笔触粗细编码关节速度,色相编码深度或置信度。
    • 渲染器是完全可微分的:绘制操作以平滑函数形式表达(例如,高斯模糊的线段光栅化),从而可以通过反向传播调整渲染参数。
  2. MLLM Backbone

    • 预训练的视觉‑语言模型(如 LLaVA、MiniGPT‑4)将渲染后的图像序列作为视觉输入。无需对架构进行任何修改,模型将骨架视频视作普通视频片段处理。
  3. Cooperative Training

    • 因果推理蒸馏: 教师模型(通常是更大的 LLM,配合显式推理提示)为给定动作生成逐步解释。学生 SkeletonLLM 学习同时复现答案和中间推理 token。
    • 判别式微调: 对比损失促使模型区分视觉相似但语义不同的动作(例如 “wave” 与 “clap”),使用从训练集挖掘的困难负例。
  4. Optimization

    • 总损失为语言建模损失、推理蒸馏损失和判别对比损失的加权和。
    • 由于渲染器可微,梯度会回传以调整线条粗细、颜色映射和时间采样,从而学习对下游 MLLM 最有信息量的视觉编码。

结果与发现

任务指标(↑ 越好)SkeletonLLM先前仅骨架基线
动作识别 (NTU‑RGB+D)Top‑1 Accuracy92.3 %84.7 %
骨架字幕生成 (Human3.6M)CIDEr112.578.3
时序推理 (Charades‑Skeleton)Accuracy85.1 %71.4 %
跨格式迁移 (2‑D → 3‑D)Zero‑Shot Top‑188.9 %62.5 %
  • 泛化: 同一模型在混合格式数据集上训练后,能够在未见过的骨架格式上竞争性表现,且无需任何重新训练。
  • 消融实验: 移除可微渲染(使用固定光栅化器)会导致所有任务的性能下降约 4 %,验证了梯度引导视觉编码的优势。
  • 推理蒸馏: 在时序推理基准上提升约 2.5 % 的准确率,并生成可读的逐步解释。

Practical Implications

  • Plug‑and‑Play Action Understanding: 开发者可以将来自任何传感器(Kinect、ARKit、OpenPose)的原始关节流输入到 SkeletonLLM,并获得高级语言输出——标签、字幕或自然语言查询——而无需构建自定义分类器。
  • Unified Multimodal Pipelines: 构建 AR/VR、体育分析或健康监测应用的公司可以复用同一个 MLLM 来处理视觉、文本以及现在的骨架数据,从而简化模型部署和维护。
  • Rapid Prototyping of Explainable AI: 因果推理蒸馏产生逐步解释,可向终端用户展示(例如,“用户抬起右臂是因为肘部角度超过了 150°”),有助于合规性和调试。
  • Cross‑Device Compatibility: 由于渲染器抽象了底层骨架格式,同一后端可以服务从智能手机上的低成本 2‑D 姿态估计器到工作室中高精度动作捕捉装置的各种设备。

限制与未来工作

  • 渲染开销: 将长序列转换为高分辨率图像会增加计算成本;在边缘设备上实时部署可能需要轻量级光栅化或帧抽样。
  • 依赖 MLLM 视觉编码器: 理解质量受限于预训练的视觉语言模型;更新、更强大的 MLLM 有望进一步提升性能。
  • 稀疏推理监督: 因果推理教师仅限于其训练任务;要扩展到更复杂的多步骤活动(例如烹饪),需要更丰富的标注流水线。
  • 未来方向: 作者计划探索 (1) 保留细粒度关节动态的层次化渲染,(2) 将骨架视觉与 RGB 视频相结合的多模态融合,(3) 在海量未标注的动作捕捉库上进行自监督预训练。

作者

  • Ziyi Wang
  • Peiming Li
  • Xinshun Wang
  • Yang Tang
  • Kai‑Kuang Ma
  • Mengyuan Liu

论文信息

  • arXiv ID: 2603.18003v1
  • 分类: cs.CV
  • 发布时间: 2026年3月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »