Molexar：小模型也能做药物设计——统一多模态分子基础模型来了

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

药物发现最头疼的事是什么？化学空间太大了。理论上可合成的分子数量在 10 的 60 次方量级，比宇宙中的原子还多。在这个天文数字里找到既安全又有效的药物分子，无异于大海捞针。

6 月 24 日，来自北京大学的研究团队在 arXiv 上发布了 Molexar——一个统一多模态分子基础模型。它的核心卖点很直接：用小参数量，做到大模型才能做的事，甚至做得更好。

Molexar 是什么

Molexar 是一个专门为药物设计打造的分子生成基础模型。和之前很多"大而全"的方案不同，它走的是"小而精"路线。

关键创新在于一种叫 Fragment-SELFIES 的分子语言。传统的 SMILES 编码经常生成"化学上不成立"的分子——看起来像分子，实际上根本合成不出来。Fragment-SELFIES 从设计上就保证了一件事：模型生成的每一个分子，化学上都是有效的。 预训练阶段的有效性达到了 100%。

这不是小进步。在分子生成领域，有效性一直是基础但顽固的问题——很多模型花大量算力生成的结果，一大半是废品。

一个模型，多种生成模式

Molexar 的另一个亮点是"统一"。它不是为单一任务训练的专用模型，而是一个基础模型，通过监督微调（SFT）后可以支持多种生成模式：

无条件生成：随机生成合理的药物分子
属性条件生成：按指定属性（如溶解度、分子量）生成分子
药效团条件生成：根据药效团指纹生成匹配的分子
蛋白靶点条件生成：给定蛋白序列或结合口袋，生成可能与之结合的分子

所有这些模式共享同一个自回归解码路径。条件信息通过"就地替换"（in-place replacement）value-token embedding 的方式注入，不需要额外的适配器或输出头。这意味着模型架构保持简洁，不同任务之间不会互相干扰。

表现如何

在几个关键基准上，Molexar 的表现值得关注：

预训练模型：无条件生成和片段约束生成均达到 100% 有效性，药物相似性（drug-likeness）指标高
SFT 模型：在单属性和多属性指令跟随任务上表现良好；在 CrossDocked2020 测试集上的靶点条件生成与更大模型有竞争力
MolGenBench：生成的分子在安全性和效力（potency）方面表现优异

最值得注意的是：Molexar 的参数量远小于它对比的那些模型，但成绩并不逊色。 这对资源有限的研究团队来说是个好消息——你不需要 A100 集群也能跑起来。

对谁有用

计算化学和药物发现团队：可以快速生成候选分子，用于虚拟筛选和先导化合物优化
AI4Science 研究者：一个轻量但功能完整的分子生成基线，方便在此基础上做进一步研究
中小型药企和 CRO：不需要投入巨资训练大模型，也能获得高质量的分子生成能力

需要注意的

这篇论文目前仅在 arXiv 上发布，尚未经过同行评审
所有实验结果都是 in silico（计算机模拟），没有湿实验验证——从"模型生成一个分子"到"这个分子真的能成药"，中间还有很长的路
分子生成只是药物发现链条的第一步，后续的 ADMET 预测、合成路线规划、临床前/临床验证等环节，Molexar 并未覆盖

---

*基于 arXiv 论文整理。来源：[arXiv:2606.25865](https://arxiv.org/abs/2606.25865)*

参考来源

https://arxiv.org/abs/2606.25865

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。