Biohub 发布蛋白质世界模型：ESMC + ESMFold2 + ESM Atlas 三件套全面开放

分类: 生物模型 |发布于: 5/28/2026 |最后更新: 5/28/2026

Biohub 发布蛋白质"世界模型"：ESMC + ESMFold2 + ESM Atlas 三件套全面开放

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

Biohub 于 5 月 27 日正式发布了一套面向蛋白质生物学的"世界模型"系统，包含三个核心组件：蛋白质语言模型 ESMC、结构预测与设计引擎 ESMFold2、以及覆盖 68 亿序列的蛋白质图谱 ESM Atlas。三者全部免费开放给全球科研社区。

这是什么

简单说，Biohub 把蛋白质研究中最关键的三个环节——理解序列、预测结构、搜索未知蛋白——打包成了一个统一的 AI 平台。它的核心假设是：在所有生命的蛋白质序列上训练语言模型，模型会自动学到蛋白质折叠、相互作用和功能的底层规律。

三大组件

ESMC：蛋白质语言模型

ESMC 是整个系统的基础。它在约 28 亿条蛋白质序列上训练，覆盖了生命树上几乎所有已知物种。模型学到的表征能捕捉蛋白质的序列、结构和功能之间的关系，形成一套"蛋白质语法"。

ESMFold2：结构预测与 Binder 设计引擎

ESMFold2 将 ESMC 的序列表征转化为原子级精度的 3D 结构。它不仅能预测蛋白质单体结构，还能处理蛋白质复合物和相互作用。

更重要的是设计能力：研究团队用 ESMFold2 针对 5 个癌症和免疫学核心靶点设计了蛋白质 binder（结合蛋白）。整个计算搜索在数天内完成——传统方法通常需要数月甚至数年。实验验证显示，这些 binder 具有高亲和力、高特异性和高稳定性，且与公共数据库中的已知序列相似度极低，说明模型在生成全新的解决方案，而非检索已有设计。

ESM Atlas：68 亿序列 + 11 亿预测结构

ESM Atlas 让 ESMC 的表征在 68 亿条蛋白质序列和 11 亿个预测结构上变得可导航、可搜索。它按照模型学到的关系组织蛋白质，能发现现有数据库未捕捉到的联系——比如分布在生命树不同分支上的基因编辑酶之间的进化关联。对于研究生物学机制尚不清楚的疾病的研究者来说，这意味着大量未注释的生物学信息变得可检索。

对谁有用

结构生物学研究者：快速获得高精度结构预测，不依赖实验解析
药物设计团队：数天内完成靶点 binder 设计并获得实验级候选
蛋白质工程：利用 ESMC 表征探索序列-功能关系
基础研究：通过 ESM Atlas 发现未注释蛋白质的功能线索

如何获取

三个组件均通过 biohub.ai 平台免费开放，面向全球研究者。

小结

这次发布的核心价值在于"从理解到设计"的闭环：ESMC 提供序列理解，ESMFold2 完成结构预测和功能设计，ESM Atlas 提供全局导航。三者结合，让蛋白质研究从"逐个实验"走向"系统性 AI 驱动"。实验验证的 binder 设计结果表明，这不只是理论模型，而是已经能产出实验可用成果的工具。

---

*来源：[Biohub 官方新闻稿](https://biohub.org/news/world-model-of-protein-biology/)（2026年5月27日）*

参考来源

https://biohub.org/news/world-model-of-protein-biology/

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。