GPFF:生成式伪力场,让 AI 分子生成既快又准,药设场景可实时交互
GPFF:生成式伪力场,让 AI 分子生成既快又准,药设场景可实时交互
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
5 月 18 日,一篇来自 arxiv 的新论文提出了"生成式伪力场"(Generative Pseudo-Force Fields,简称 GPFF),用一种全新的思路统一了机器学习力场和扩散模型两条分子生成路线——训练不需要昂贵的从头算数据,推理不需要噪声调度和时间步条件。在 QM9 基准上,256 次神经函数评估(NFE)就达到 100% 有效分子率,6 次 NFE 仍超过 50%。更实际的是,它已在一个药物设计分子编辑器中演示了实时交互生成。
两条老路各有痛点
AI 生成稳定分子构象,过去主要有两条路:
机器学习力场(MLFF):按照物理力去"松弛"分子几何,能得到物理上合理的构象,但训练它需要昂贵的从头算(ab-initio)数据——计算一张能量面就够喝一壶。
扩散模型(Diffusion Models):从平衡数据直接学分布,绕过了从头算,但高度依赖噪声调度(noise schedule)和时间步条件——每一步去噪都需要知道"现在噪声多大",这让采样变慢、采样器选择也更受限。
两条路之间一直缺一个桥梁。
GPFF 的核心思路:用伪势能替代从头算
GPFF 的关键洞察是:与其花大价钱算非平衡态的真实能量,不如自己定义一个简单的"伪势能面"——以参考平衡结构为零点,偏移越大能量越高,呈二次函数关系。
具体做法:把平衡构象加高斯噪声扰动,得到大量非平衡训练样本;然后训练一个力场模型去"推"这些扰动结构回到平衡。因为伪势能面是人为定义的,不需要任何从头算计算,训练数据可以即时生成(on the fly)。
有趣的是,作者证明了 GPFF 在数学上等价于一种"不需要时间步条件"的方差爆炸扩散模型:力的大小本身就隐含了噪声水平,所以不需要额外告诉模型"现在是第几步"。
速度和效果:6 步就能过半
在 QM9 数据集上的实验结果:
- 256 NFE:100% 有效分子率,超过所有扩散基线
- 6 NFE:有效分子率超过 50%,意味着极少步数就能生成可用分子
- 兼容标准扩散采样器(ancestral、Heun),还支持更高效的自适应采样和直接去噪方案
对比来看,传统扩散模型在低 NFE 时有效分子率通常大幅下降,GPFF 在"快"这个维度上有明显优势。
药物设计场景:实时交互生成分子
论文展示了一个分子编辑器的应用:用户设定几何约束(比如"这里要一个苯环,那里要一个氢键供体"),GPFF 在约束条件下实时生成分子的三维构象。因为不需要时间步调节,采样过程可以自适应加速,在实际交互延迟内完成生成。
这对于药物发现中的"从骨架到分子"设计流程有直接价值——研究者可以快速试错,而不是等扩散模型跑完一个完整的去噪链。
局限与未来
当然,GPFF 目前还有几个限制:
- 仅在小分子上验证:实验只在 QM9(9 个重原子以内的分子)上做,大分子、药物级分子、蛋白质复合物的表现有待检验
- 伪势能面的二次假设:对高度非谐的体系(比如大柔性分子的深势阱多极小点问题),简单的二次偏移可能不够准确
- 药物设计场景是演示:编辑器展示了可行性,但尚未在真实的药物管线中验证产出分子的可合成性和活性
尽管如此,GPFF 提出的"伪力场 = 无时间步扩散"这一等价关系,为分子生成领域提供了一个有理论深度的新范式。如果后续在大分子和真实药设场景中得到验证,这条路线有可能成为扩散模型之外的主流选择。
来源
- 论文:[Generative Pseudo-Force Fields for Molecular Generation](https://arxiv.org/abs/2605.19050),arxiv 2605.19050,2026 年 5 月 18 日提交
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。