RMG:把人体运动生成放进正确的几何空间
RMG:把人体运动生成放进"正确的几何空间"
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
如果你关注 AI 动作生成(用于动画、游戏、机器人),这篇论文值得看。
研究团队提出的 RMG (Riemannian Motion Generation),解决了人体运动生成中的一个根本问题:我们一直在错误的空间里生成运动。
论文 2026年3月16日发布在 arXiv,在 HumanML3D 和 MotionMillion 两个数据集上都取得了 SOTA 结果。
问题在哪:欧几里得空间"不够用"
什么是欧几里得空间
平时我们处理数据,默认都在欧几里得空间——就是那种"直线是直的、距离是平方和开根号"的空间。
大多数 AI 模型学人体运动时,也是这样:把人体关节位置直接扔进一个高维向量空间,然后用扩散模型或 GAN 去学。
问题出在哪
但人体运动并不在欧几里得空间里。
关节旋转不是普通向量,它是 SO(3) 旋转群——一个弯曲的空间。在这个空间里:
- "直线"是弯的(测地线)
- 不能随便加减(旋转不能直接相加)
- 有很多约束(旋转矩阵必须是正交的)
如果硬把旋转当成普通向量处理,就会出问题:
- 生成的动作"不顺",有抖动
- 关节可能转到不合理的位置
- 模型学到的只是"差不多",而不是"真正对"
RMG 怎么解决:在流形上学习
核心思路
RMG 的核心洞察是:在正确的空间里学习。
它把人体运动表示在一个乘积流形上——就是把多个不同的弯曲空间组合在一起:
- T:平移空间(欧几里得空间,位置移动)
- R:旋转空间(SO(3),关节旋转)
这样,平移就是平移,旋转就是旋转,各得其所。
黎曼流匹配
传统的扩散模型是在欧几里得空间里"从噪声去噪到数据"。
RMG 用的是黎曼流匹配:
- 在流形上定义"从噪声到数据"的路径
- 这个路径是测地线(流形上的"最短路径")
- 沿着测地线逐步演化,就能生成有效的运动
具体技术细节
1. 流形分解
- 把人体运动拆成平移和旋转两部分
- 平移用普通向量表示
- 旋转用旋转矩阵或四元数表示
2. 测地插值
- 在流形上,"直线"是测地线
- 测地插值保证中间状态始终有效
3. 切空间监督
- 流形上的计算太复杂,RMG 在切空间(局部看起来像欧几里得空间)里做梯度计算
- 然后把结果映射回流形
4. 流形保持 ODE 积分
- 生成过程中,每一步都保证结果在有效运动空间内
- 不会生成"不可能"的动作
性能表现
HumanML3D 数据集
- FID: 0.043(HumanML3D 格式下 SOTA)
- 在 MotionStreamer 格式下,所有指标排名第一
MotionMillion 数据集
- FID: 5.6
- R@1: 0.86
- 超越强基线
消融实验发现
研究团队发现:T + R(平移 + 旋转)表示是最稳定和有效的。
这印证了几何感知建模的价值——不是越多越好,而是"用对几何"才好。
为什么这很重要
对动画和游戏
- 生成的动作更自然、更流畅
- 减少后期修整工作
- 角色动作更符合物理约束
对机器人
- 机器人运动规划需要符合物理空间
- RMG 的几何感知思路可以直接迁移
- 生成更合理、更可执行的动作
对动作理解
- 在正确的空间里表示,学习效率更高
- 可以更好地捕捉运动的本质规律
- 为多模态动作理解打基础
实用限制
1. 理论门槛高
黎曼几何不是入门级知识。要理解 RMG 的细节,需要:
- 微分几何基础
- 流形上的优化理论
- ODE 数值积分
2. 计算开销
流形上的操作比欧几里得空间更复杂:
- 测地线计算需要指数映射/对数映射
- 切空间投影有额外开销
- 训练和推理都比普通扩散模型慢
3. 数据预处理
需要把运动数据正确地表示在流形上:
- 关节旋转的表示(四元数还是旋转矩阵)
- 骨骼结构的定义
- 与现有数据格式的兼容性
总结
RMG 解决的是一个根本问题:人体运动生成应该在人运动的几何空间里做,而不是硬塞进欧几里得空间。
在 HumanML3D 和 MotionMillion 上的 SOTA 结果证明了这个思路的价值。
对于动画、游戏、机器人等需要高质量动作生成的场景,RMG 提供了一个更"物理正确"的路径。
---
参考来源:
- arXiv 论文: https://arxiv.org/abs/2603.15016
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。