万亿基因图谱来了：Basecamp 想把药物发现AI最缺的‘训练数据’再放大100倍

万亿基因图谱来了：Basecamp 想把药物发现AI最缺的“训练数据”再放大100倍

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

如果只看表面，这像是一条典型的生物科技公司公告：一家做生物AI的公司，联合几家大牌伙伴，推出一个听起来很宏大的新计划。

但这条消息真正值得关注的地方，不在“阵容很豪华”，而在它点中了生物AI最现实、也最难补的一块短板：训练数据不够大、不够广，也不够接近真实世界的生命多样性。

3月18日，Basecamp Research 宣布推出 Trillion Gene Atlas，目标是在“万亿基因”尺度上生成和建模生物数据。按官方和媒体披露，这个计划想把已知进化遗传多样性再扩大100倍，覆盖超过1亿个物种，并把原本可能需要20多年才能完成的数据采集、处理和建模流程，压缩到不到2年。项目合作方包括 Anthropic、NVIDIA、Ultima Genomics 和 PacBio。

翻成普通人能懂的话，这件事相当于：生物AI公司觉得，光靠把模型做得更大已经不够了，接下来更关键的是先给模型准备一个大得多、杂得多、也更接近自然界真实情况的“训练题库”。

为什么这件事重要

很多人理解AI进步，会自然想到一句话：模型越大，能力越强。这句话在很多场景里没错，但到了生物和药物发现领域，问题没这么简单。

因为模型再聪明，如果见过的生物数据太少、太集中、太重复，它学到的规律就会很有限。你可以把它想象成一个本来很聪明的学生，但一直只做同一套练习册。考试题一旦稍微变个花样，它就不一定会了。

这也是为什么生物AI和通用聊天AI的发展节奏不一样。聊天模型可以从互联网、书籍、代码和公开文本里吸收海量训练语料，但生物模型面对的是另一种现实：真正有用的数据，不只是多，还得是高质量、有上下文、足够多样，而且很多并不在公开数据库里。

Basecamp 这次想解决的，就是这个问题。

按官方披露，目前很多序列类生物基础模型仍然主要依赖少数公共数据库，其中相当大一部分训练基础集中在规模不到2.5亿条序列的公开资源上。对普通读者来说，这个数字听起来已经很多了，但放到整个自然界里，它依然只是很窄的一小部分。换句话说，现在很多生物AI模型，其实只是看过了“生命这本大书”的几页内容，还远没有真正读完整本书。

Trillion Gene Atlas 到底是什么

Trillion Gene Atlas 的核心思路并不复杂：去更多地方、收集更多物种、获得更多新的基因数据，再把这些数据喂给生物AI模型。

它的目标是把已知进化遗传多样性扩大100倍，覆盖全球数千个采样点和超过1亿个物种。项目会依赖大规模测序、全球数据合作网络和高性能计算平台，把原本很慢、很碎片化的生物数据采集与处理流程工业化。

如果你觉得这个概念还是抽象，可以这样理解：

过去的生物AI，像是在一个有限教材库里反复学习；
这个计划想做的，是把教材库扩成一个巨大的、持续更新的自然界数据库；
这样训练出来的模型，理论上更有机会学到那些过去没见过的结构、规律和功能模式。

这里最值得注意的一点，不是“万亿”这个数字本身，而是它背后的方向：生物AI行业正在越来越明确地承认，数据飞轮才是下一阶段最关键的竞争力之一。

这不是从零开始，而是在给 EDEN 继续铺路

Basecamp 这次发布的 Trillion Gene Atlas，并不是一个完全孤立的新项目。它其实是在延长公司之前那套生物基础模型路线。

按公开资料，Basecamp 今年早些时候推出了名为 EDEN 的基础模型体系。官方说法是，EDEN 完全基于自家的专有生物数据库 BaseData 训练，而不是完全依赖公共资源。按媒体转述，这套模型使用了 100 亿个“新到科学界”的基因和来自100万个新发现物种的数据。

这些数字如果属实，意味着 Basecamp 的打法和很多常见AI公司不同：它不只是想在公开数据上做更好的算法，而是试图先构建一个别人没有、而且越来越大的数据底座。

所以，Trillion Gene Atlas 可以理解为 EDEN 的“续航包”。

它不是在说“我们已经靠AI造出了新药”，而是在说：“如果未来要让模型真正更会设计药物、更会理解生物功能，我们得先让模型见过更多生命形式。”

这两者差别很大。前者是结果，后者是基础设施。

为什么合作方阵容很关键

这条新闻还有一个容易被忽略的重点：合作方的组合，基本把生物AI的一整条链路都点到了。

1. Ultima Genomics 和 PacBio：解决“怎么更快更准地采数据”

生物AI首先得有数据，而数据从哪来？很多时候要靠测序。Ultima Genomics 代表的是超高通量、低成本方向，PacBio 则更强调高精度长读长数据。两者结合，意味着这个项目不仅想要“量大”，也想要“信息更完整”。

这是个很现实的问题。因为如果数据只有数量，没有足够精度和上下文，模型最后学到的东西也可能是模糊的、碎片化的。

2. NVIDIA：解决“怎么把海量数据真正处理起来”

测到数据只是第一步，后面还要做组装、注释、训练和推理。Basecamp 提到会利用 NVIDIA 的加速计算基础设施和 Parabricks 等工具，把原本要20多年处理完的规模压缩到不到2年。

这意味着这件事不是一个实验室式、小规模的科研尝试，而是明显朝工业化数据生产线方向走。

3. Anthropic：把通用推理模型接进生命科学工作流

Anthropic 的加入也很有意思。按公告说法，它的角色不是去替代生物模型，而是把 Claude 的推理能力接进生命科学平台，让研究人员能更好地理解复杂临床或实验数据，并把这些信息转进药物设计流程。

简单说，Basecamp 负责“让模型更懂生物”，Anthropic 负责“让系统更会推理和协作”，而 NVIDIA、Ultima、PacBio 则负责让数据和计算真正跑起来。

这种组合说明，Basecamp 想做的不是一个单点算法演示，而是一条从数据采集、计算处理，到模型训练，再到药物设计辅助的完整链路。

对普通读者有什么实际意义

很多公开读者看到“药物发现AI”会有两种极端反应：一种是觉得离自己很远；另一种是以为新药马上就会被AI自动设计出来。

这两种理解都不太准确。

更现实的看法是，这类项目的意义在于提高“找到候选方向”的效率。它不一定直接把药物做出来，但可能让研究团队更快发现有价值的蛋白、肽、基因插入方案或候选分子，少走很多弯路。

如果这种数据底座真的能做大做深，它可能影响几个方向：

药物发现公司：更容易找到过去因为数据太少而看不到的模式；
蛋白设计和基因编辑团队：模型可能在更多物种和更多上下文里学到泛化能力；
抗菌肽、细胞治疗等前沿方向：如果训练数据足够广，模型或许更容易提出过去不常见的新候选方案；
整个行业的竞争逻辑：未来不只是比谁模型参数大，而是比谁能持续积累数据、验证结果并形成闭环。

换句话说，这条新闻的价值，不在“明天就能改变看病体验”，而在它可能影响未来几年生物AI行业往哪个方向卷。

这件事最容易被误读的地方

任何带有“万亿”“100倍”“1亿物种”这种数字的消息，都很容易让人产生一种感觉：这是不是意味着突破已经发生了？

还不能这么理解。

首先，这次公布的是计划和平台级推进，不是临床成果发布。也就是说，它讲的是未来几年要怎么搭底座，而不是今天已经拿出了一款通过临床验证的新药。

其次，数据变多并不自动等于结果更好。生物AI和通用AI有一个很大的不同：在这里，数据不仅要大，还要可靠、可解释，并最终能被湿实验验证。模型设计出来的候选结构，如果实验室里做不出来、做出来没效果、有效但不安全，那都不能算真正成功。

第三，即使模型确实能提出更好的候选药物，后面还有很长的路径：

体外验证
动物实验
临床前研究
临床试验
审批与生产

任何一步卡住，最终都可能无法落地。

所以这条消息最适合被理解为：生物AI正在补基础设施，不是已经跨过终点线。

这条新闻为什么值得今天发

从栏目角度看，这条消息比很多“公司合作”“科研奖项”“大会发言”更适合作为今天的生物模型动态，原因很简单：它确实是近36小时内的新发布，而且既有官方公告分发，也有多家行业媒体交叉印证，还能向普通读者清楚解释它的重要性。

它的重要性不是因为 Basecamp 比所有同行都大，也不是因为它已经证明自己一定会赢，而是因为它把一个越来越清楚的行业共识摆上了台面：

生物AI下一阶段的核心，不只是模型能力，而是数据、算力和实验能力能不能一起形成飞轮。

如果说过去大家更喜欢讨论“生物版GPT 会不会出现”，那现在更实际的问题可能是：谁能先把生物世界真正变成可持续训练、可持续验证、可持续迭代的数据系统。

Trillion Gene Atlas 就是朝这个方向迈出的一步。

最后一句话

这条新闻最值得记住的，不是“万亿基因”这个夸张数字，而是它背后那个更现实的判断：生物AI要想真正变强，不能只让模型更聪明，还得先让模型见过更多真实的生命世界。

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。