Biohub 发布蛋白质世界模型:ESMC + ESMFold2 + ESM Atlas 三件套全面开放
Biohub 发布蛋白质"世界模型":ESMC + ESMFold2 + ESM Atlas 三件套全面开放
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
Biohub 于 5 月 27 日正式发布了一套面向蛋白质生物学的"世界模型"系统,包含三个核心组件:蛋白质语言模型 ESMC、结构预测与设计引擎 ESMFold2、以及覆盖 68 亿序列的蛋白质图谱 ESM Atlas。三者全部免费开放给全球科研社区。
这是什么
简单说,Biohub 把蛋白质研究中最关键的三个环节——理解序列、预测结构、搜索未知蛋白——打包成了一个统一的 AI 平台。它的核心假设是:在所有生命的蛋白质序列上训练语言模型,模型会自动学到蛋白质折叠、相互作用和功能的底层规律。
三大组件
ESMC:蛋白质语言模型
ESMC 是整个系统的基础。它在约 28 亿条蛋白质序列上训练,覆盖了生命树上几乎所有已知物种。模型学到的表征能捕捉蛋白质的序列、结构和功能之间的关系,形成一套"蛋白质语法"。
ESMFold2:结构预测与 Binder 设计引擎
ESMFold2 将 ESMC 的序列表征转化为原子级精度的 3D 结构。它不仅能预测蛋白质单体结构,还能处理蛋白质复合物和相互作用。
更重要的是设计能力:研究团队用 ESMFold2 针对 5 个癌症和免疫学核心靶点设计了蛋白质 binder(结合蛋白)。整个计算搜索在数天内完成——传统方法通常需要数月甚至数年。实验验证显示,这些 binder 具有高亲和力、高特异性和高稳定性,且与公共数据库中的已知序列相似度极低,说明模型在生成全新的解决方案,而非检索已有设计。
ESM Atlas:68 亿序列 + 11 亿预测结构
ESM Atlas 让 ESMC 的表征在 68 亿条蛋白质序列和 11 亿个预测结构上变得可导航、可搜索。它按照模型学到的关系组织蛋白质,能发现现有数据库未捕捉到的联系——比如分布在生命树不同分支上的基因编辑酶之间的进化关联。对于研究生物学机制尚不清楚的疾病的研究者来说,这意味着大量未注释的生物学信息变得可检索。
对谁有用
- 结构生物学研究者:快速获得高精度结构预测,不依赖实验解析
- 药物设计团队:数天内完成靶点 binder 设计并获得实验级候选
- 蛋白质工程:利用 ESMC 表征探索序列-功能关系
- 基础研究:通过 ESM Atlas 发现未注释蛋白质的功能线索
如何获取
三个组件均通过 biohub.ai 平台免费开放,面向全球研究者。
小结
这次发布的核心价值在于"从理解到设计"的闭环:ESMC 提供序列理解,ESMFold2 完成结构预测和功能设计,ESM Atlas 提供全局导航。三者结合,让蛋白质研究从"逐个实验"走向"系统性 AI 驱动"。实验验证的 binder 设计结果表明,这不只是理论模型,而是已经能产出实验可用成果的工具。
---
*来源:[Biohub 官方新闻稿](https://biohub.org/news/world-model-of-protein-biology/)(2026年5月27日)*
参考来源
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。