Molexar:小模型也能做药物设计——统一多模态分子基础模型来了
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
药物发现最头疼的事是什么?化学空间太大了。理论上可合成的分子数量在 10 的 60 次方量级,比宇宙中的原子还多。在这个天文数字里找到既安全又有效的药物分子,无异于大海捞针。
6 月 24 日,来自北京大学的研究团队在 arXiv 上发布了 Molexar——一个统一多模态分子基础模型。它的核心卖点很直接:用小参数量,做到大模型才能做的事,甚至做得更好。
Molexar 是什么
Molexar 是一个专门为药物设计打造的分子生成基础模型。和之前很多"大而全"的方案不同,它走的是"小而精"路线。
关键创新在于一种叫 Fragment-SELFIES 的分子语言。传统的 SMILES 编码经常生成"化学上不成立"的分子——看起来像分子,实际上根本合成不出来。Fragment-SELFIES 从设计上就保证了一件事:模型生成的每一个分子,化学上都是有效的。 预训练阶段的有效性达到了 100%。
这不是小进步。在分子生成领域,有效性一直是基础但顽固的问题——很多模型花大量算力生成的结果,一大半是废品。
一个模型,多种生成模式
Molexar 的另一个亮点是"统一"。它不是为单一任务训练的专用模型,而是一个基础模型,通过监督微调(SFT)后可以支持多种生成模式:
- 无条件生成:随机生成合理的药物分子
- 属性条件生成:按指定属性(如溶解度、分子量)生成分子
- 药效团条件生成:根据药效团指纹生成匹配的分子
- 蛋白靶点条件生成:给定蛋白序列或结合口袋,生成可能与之结合的分子
所有这些模式共享同一个自回归解码路径。条件信息通过"就地替换"(in-place replacement)value-token embedding 的方式注入,不需要额外的适配器或输出头。这意味着模型架构保持简洁,不同任务之间不会互相干扰。
表现如何
在几个关键基准上,Molexar 的表现值得关注:
- 预训练模型:无条件生成和片段约束生成均达到 100% 有效性,药物相似性(drug-likeness)指标高
- SFT 模型:在单属性和多属性指令跟随任务上表现良好;在 CrossDocked2020 测试集上的靶点条件生成与更大模型有竞争力
- MolGenBench:生成的分子在安全性和效力(potency)方面表现优异
最值得注意的是:Molexar 的参数量远小于它对比的那些模型,但成绩并不逊色。 这对资源有限的研究团队来说是个好消息——你不需要 A100 集群也能跑起来。
对谁有用
- 计算化学和药物发现团队:可以快速生成候选分子,用于虚拟筛选和先导化合物优化
- AI4Science 研究者:一个轻量但功能完整的分子生成基线,方便在此基础上做进一步研究
- 中小型药企和 CRO:不需要投入巨资训练大模型,也能获得高质量的分子生成能力
需要注意的
- 这篇论文目前仅在 arXiv 上发布,尚未经过同行评审
- 所有实验结果都是 in silico(计算机模拟),没有湿实验验证——从"模型生成一个分子"到"这个分子真的能成药",中间还有很长的路
- 分子生成只是药物发现链条的第一步,后续的 ADMET 预测、合成路线规划、临床前/临床验证等环节,Molexar 并未覆盖
---
*基于 arXiv 论文整理。来源:[arXiv:2606.25865](https://arxiv.org/abs/2606.25865)*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。