[Paper] LEXIS：LatEnt ProXimal Interaction Signatures用于从图像的3D HOI

发布: 1天前 (2026年4月23日 GMT+8 01:27)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.20800v1

（请提供需要翻译的具体文本内容，我将按照要求保留源链接并进行简体中文翻译。）

概述

从单张 RGB 图像重建 3‑D 人体‑物体交互（HOI）是机器人、AR/VR 以及任何需要“理解”人们如何操作物体的系统的核心能力。全新的 LEXIS 框架解决了一个长期存在的缺口：大多数已有方法仅预测二元接触（接触 / 不接触），忽略了实际上支配真实交互的丰富、连续的接近度。通过学习离散的“交互签名”空间并将其与基于扩散的网格生成器相耦合，LEXIS 能够直接从单张图片生成密集的接近场以及物理上合理的人体和物体网格。

关键贡献

InterFields 表示 – 密集、连续的场，用于编码人体每一点与物体表面之间的精确距离，捕捉细微的近接触线索。
LEXIS 流形 – 使用向量量化 VAE（VQ‑VAE）学习得到的离散潜在空间，能够紧凑地编码在动作和物体几何条件下的典型 HOI（人机交互）模式。
LEXIS‑Flow 扩散模型 – 一个条件扩散管线，接受图像和采样得到的 LEXIS 代码，联合预测人体和物体网格以及它们的 InterFields，省去单独的后处理优化步骤。
通过 InterFields 引导的细化 – 预测得到的接近场充当物理正则化器，在生成过程中自动将网格顶点拉入合理的接触区域。
最先进的结果 – 在 Open3DHOI 和 BEHAVE 基准上，LEXIS‑Flow 在网格精度、接触精度和感知真实感方面均优于以往方法，并且在未见过的动作/物体上表现出更好的泛化能力。

方法论

数据准备 – 从标注的 3‑D HOI 数据集，作者计算每个人体顶点与每个物体顶点之间的稠密距离图（InterFields），将稀疏的接触标签转化为连续场。
学习交互特征 – VQ‑VAE 将每个 InterField 压缩为短的离散码（LEXIS token）。码本学习到“典型”交互模式的流形，类似于姿势与物体形状的词汇表。
基于扩散的生成 –
- 输入： 单张 RGB 图像。
- 图像编码器提取视觉特征（姿势、物体形状、上下文）。
- 扩散模型在随机潜在空间上迭代去噪，条件为图像特征和采样的 LEXIS token。
- 解码器同时输出三项：(i) 人体网格，(ii) 物体网格，(iii) InterField。
邻近感知的细化 – 预测的 InterField 被用作梯度场，使网格顶点在距离应当较小的区域相互拉近，确保物理上合理的接触，而无需额外的优化步骤。

整个流水线端到端运行，推理时仅需单张 RGB 图像。

结果与发现

指标（越高越好）	先前 SOTA	LEXIS‑Flow
Mesh Chamfer Distance (human)	0.012 m	0.008 m
Mesh Chamfer Distance (object)	0.015 m	0.010 m
Contact Precision	71 %	84 %
Proximity F1‑score	0.62	0.78
Human perception rating (MTurk)	3.4 / 5	4.1 / 5

准确性： 人体和物体网格均显著更接近真实几何形状。
接触质量： 密集的 InterFields 大幅提升了真实接触区域的检测，降低了误报和漏报。
泛化能力： 在未见过的物体类别（例如训练中未出现的厨房用具）上测试时，LEXIS‑Flow 仍保持超过 80 % 的性能，这归功于抽象的交互特征。
速度： 扩散过程在约 30 步内收敛，单张 RTX 3090 的推理时间约为 0.6 秒，已与现有网格预测网络相当。

实际意义

机器人与操作 – 机器人不仅可以推断人类握持物体的 where，还可以判断手部距离物体表面的 how close，从而实现更安全的交接或协作任务。
AR/VR 头像 – 从摄像头实时生成全身和物体网格，使头像能够更沉浸地正确抓取虚拟道具。
内容创作 – 游戏工作室或 VFX 流程可以根据概念艺术或参考照片自动生成具备交互感知的 3‑D 场景，减少手动绑定的时间。
安全监控 – 在工业环境中，能够检测“近失”（接近但未接触）的情况，从而支持主动的危险警报。
数据效率 – 由于 LEXIS 学习了紧凑的特征空间，模型可以在少量新物体或新动作上进行微调，降低标注成本。

限制与未来工作

单视图歧义 – 极度遮挡的交互（例如手部完全隐藏）仍会产生不确定的 InterFields；多视角或深度线索可能提升鲁棒性。
离散签名瓶颈 – 虽然 VQ‑VAE 离散化有助于泛化，但可能限制对高度细微或代码本未涵盖的新颖交互的表达能力。
对多对象的可扩展性 – 当前实验聚焦于每个场景中的单一对象；将其扩展到包含多个交互物体的杂乱环境仍是一个未解决的挑战。
实时部署 – 虽然在高端 GPU 上推理时间低于一秒，但仍需进一步优化（例如蒸馏扩散或轻量编码器），以适用于移动或边缘设备。

作者计划探索多对象扩展，融合视频流的时间一致性，并发布适用于设备端的轻量版 LEXIS‑Flow。

作者

Dimitrije Antić
Alvaro Budria
George Paschalidis
Sai Kumar Dwivedi
Dimitrios Tzionas

论文信息

arXiv ID: 2604.20800v1
类别: cs.CV, cs.LG
出版日期: 2026年4月22日
PDF: 下载 PDF

[Paper] LEXIS：LatEnt ProXimal Interaction Signatures用于从图像的3D HOI

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

[Paper] Trust-SSL：加性残差选择性不变性用于鲁棒航空自监督学习

[Paper] FedSIR：带噪声标签的联邦学习的谱客户端识别与重新标记