RMG：把人体运动生成放进正确的几何空间

RMG：把人体运动生成放进"正确的几何空间"

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

如果你关注 AI 动作生成（用于动画、游戏、机器人），这篇论文值得看。

研究团队提出的 RMG (Riemannian Motion Generation)，解决了人体运动生成中的一个根本问题：我们一直在错误的空间里生成运动。

论文 2026年3月16日发布在 arXiv，在 HumanML3D 和 MotionMillion 两个数据集上都取得了 SOTA 结果。

问题在哪：欧几里得空间"不够用"

什么是欧几里得空间

平时我们处理数据，默认都在欧几里得空间——就是那种"直线是直的、距离是平方和开根号"的空间。

大多数 AI 模型学人体运动时，也是这样：把人体关节位置直接扔进一个高维向量空间，然后用扩散模型或 GAN 去学。

问题出在哪

但人体运动并不在欧几里得空间里。

关节旋转不是普通向量，它是 SO(3) 旋转群——一个弯曲的空间。在这个空间里：

"直线"是弯的（测地线）
不能随便加减（旋转不能直接相加）
有很多约束（旋转矩阵必须是正交的）

如果硬把旋转当成普通向量处理，就会出问题：

生成的动作"不顺"，有抖动
关节可能转到不合理的位置
模型学到的只是"差不多"，而不是"真正对"

RMG 怎么解决：在流形上学习

核心思路

RMG 的核心洞察是：在正确的空间里学习。

它把人体运动表示在一个乘积流形上——就是把多个不同的弯曲空间组合在一起：

T：平移空间（欧几里得空间，位置移动）
R：旋转空间（SO(3)，关节旋转）

这样，平移就是平移，旋转就是旋转，各得其所。

黎曼流匹配

传统的扩散模型是在欧几里得空间里"从噪声去噪到数据"。

RMG 用的是黎曼流匹配：

在流形上定义"从噪声到数据"的路径
这个路径是测地线（流形上的"最短路径"）
沿着测地线逐步演化，就能生成有效的运动

具体技术细节

1. 流形分解

把人体运动拆成平移和旋转两部分
平移用普通向量表示
旋转用旋转矩阵或四元数表示

2. 测地插值

在流形上，"直线"是测地线
测地插值保证中间状态始终有效

3. 切空间监督

流形上的计算太复杂，RMG 在切空间（局部看起来像欧几里得空间）里做梯度计算
然后把结果映射回流形

4. 流形保持 ODE 积分

生成过程中，每一步都保证结果在有效运动空间内
不会生成"不可能"的动作

性能表现

HumanML3D 数据集

FID: 0.043（HumanML3D 格式下 SOTA）
在 MotionStreamer 格式下，所有指标排名第一

MotionMillion 数据集

FID: 5.6
R@1: 0.86
超越强基线

消融实验发现

研究团队发现：T + R（平移 + 旋转）表示是最稳定和有效的。

这印证了几何感知建模的价值——不是越多越好，而是"用对几何"才好。

为什么这很重要

对动画和游戏

生成的动作更自然、更流畅
减少后期修整工作
角色动作更符合物理约束

对机器人

机器人运动规划需要符合物理空间
RMG 的几何感知思路可以直接迁移
生成更合理、更可执行的动作

对动作理解

在正确的空间里表示，学习效率更高
可以更好地捕捉运动的本质规律
为多模态动作理解打基础

实用限制

1. 理论门槛高

黎曼几何不是入门级知识。要理解 RMG 的细节，需要：

微分几何基础
流形上的优化理论
ODE 数值积分

2. 计算开销

流形上的操作比欧几里得空间更复杂：

测地线计算需要指数映射/对数映射
切空间投影有额外开销
训练和推理都比普通扩散模型慢

3. 数据预处理

需要把运动数据正确地表示在流形上：

关节旋转的表示（四元数还是旋转矩阵）
骨骼结构的定义
与现有数据格式的兼容性

总结

RMG 解决的是一个根本问题：人体运动生成应该在人运动的几何空间里做，而不是硬塞进欧几里得空间。

在 HumanML3D 和 MotionMillion 上的 SOTA 结果证明了这个思路的价值。

对于动画、游戏、机器人等需要高质量动作生成的场景，RMG 提供了一个更"物理正确"的路径。

---

参考来源：

arXiv 论文: https://arxiv.org/abs/2603.15016

参考来源

https://arxiv.org/abs/2603.15016

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。