万亿基因图谱来了:Basecamp 想把药物发现AI最缺的‘训练数据’再放大100倍
万亿基因图谱来了:Basecamp 想把药物发现AI最缺的“训练数据”再放大100倍
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
如果只看表面,这像是一条典型的生物科技公司公告:一家做生物AI的公司,联合几家大牌伙伴,推出一个听起来很宏大的新计划。
但这条消息真正值得关注的地方,不在“阵容很豪华”,而在它点中了生物AI最现实、也最难补的一块短板:训练数据不够大、不够广,也不够接近真实世界的生命多样性。
3月18日,Basecamp Research 宣布推出 Trillion Gene Atlas,目标是在“万亿基因”尺度上生成和建模生物数据。按官方和媒体披露,这个计划想把已知进化遗传多样性再扩大100倍,覆盖超过1亿个物种,并把原本可能需要20多年才能完成的数据采集、处理和建模流程,压缩到不到2年。项目合作方包括 Anthropic、NVIDIA、Ultima Genomics 和 PacBio。
翻成普通人能懂的话,这件事相当于:生物AI公司觉得,光靠把模型做得更大已经不够了,接下来更关键的是先给模型准备一个大得多、杂得多、也更接近自然界真实情况的“训练题库”。
为什么这件事重要
很多人理解AI进步,会自然想到一句话:模型越大,能力越强。这句话在很多场景里没错,但到了生物和药物发现领域,问题没这么简单。
因为模型再聪明,如果见过的生物数据太少、太集中、太重复,它学到的规律就会很有限。你可以把它想象成一个本来很聪明的学生,但一直只做同一套练习册。考试题一旦稍微变个花样,它就不一定会了。
这也是为什么生物AI和通用聊天AI的发展节奏不一样。聊天模型可以从互联网、书籍、代码和公开文本里吸收海量训练语料,但生物模型面对的是另一种现实:真正有用的数据,不只是多,还得是高质量、有上下文、足够多样,而且很多并不在公开数据库里。
Basecamp 这次想解决的,就是这个问题。
按官方披露,目前很多序列类生物基础模型仍然主要依赖少数公共数据库,其中相当大一部分训练基础集中在规模不到2.5亿条序列的公开资源上。对普通读者来说,这个数字听起来已经很多了,但放到整个自然界里,它依然只是很窄的一小部分。换句话说,现在很多生物AI模型,其实只是看过了“生命这本大书”的几页内容,还远没有真正读完整本书。
Trillion Gene Atlas 到底是什么
Trillion Gene Atlas 的核心思路并不复杂:去更多地方、收集更多物种、获得更多新的基因数据,再把这些数据喂给生物AI模型。
它的目标是把已知进化遗传多样性扩大100倍,覆盖全球数千个采样点和超过1亿个物种。项目会依赖大规模测序、全球数据合作网络和高性能计算平台,把原本很慢、很碎片化的生物数据采集与处理流程工业化。
如果你觉得这个概念还是抽象,可以这样理解:
- 过去的生物AI,像是在一个有限教材库里反复学习;
- 这个计划想做的,是把教材库扩成一个巨大的、持续更新的自然界数据库;
- 这样训练出来的模型,理论上更有机会学到那些过去没见过的结构、规律和功能模式。
这里最值得注意的一点,不是“万亿”这个数字本身,而是它背后的方向:生物AI行业正在越来越明确地承认,数据飞轮才是下一阶段最关键的竞争力之一。
这不是从零开始,而是在给 EDEN 继续铺路
Basecamp 这次发布的 Trillion Gene Atlas,并不是一个完全孤立的新项目。它其实是在延长公司之前那套生物基础模型路线。
按公开资料,Basecamp 今年早些时候推出了名为 EDEN 的基础模型体系。官方说法是,EDEN 完全基于自家的专有生物数据库 BaseData 训练,而不是完全依赖公共资源。按媒体转述,这套模型使用了 100 亿个“新到科学界”的基因和来自100万个新发现物种的数据。
这些数字如果属实,意味着 Basecamp 的打法和很多常见AI公司不同:它不只是想在公开数据上做更好的算法,而是试图先构建一个别人没有、而且越来越大的数据底座。
所以,Trillion Gene Atlas 可以理解为 EDEN 的“续航包”。
它不是在说“我们已经靠AI造出了新药”,而是在说:“如果未来要让模型真正更会设计药物、更会理解生物功能,我们得先让模型见过更多生命形式。”
这两者差别很大。前者是结果,后者是基础设施。
为什么合作方阵容很关键
这条新闻还有一个容易被忽略的重点:合作方的组合,基本把生物AI的一整条链路都点到了。
1. Ultima Genomics 和 PacBio:解决“怎么更快更准地采数据”
生物AI首先得有数据,而数据从哪来?很多时候要靠测序。Ultima Genomics 代表的是超高通量、低成本方向,PacBio 则更强调高精度长读长数据。两者结合,意味着这个项目不仅想要“量大”,也想要“信息更完整”。
这是个很现实的问题。因为如果数据只有数量,没有足够精度和上下文,模型最后学到的东西也可能是模糊的、碎片化的。
2. NVIDIA:解决“怎么把海量数据真正处理起来”
测到数据只是第一步,后面还要做组装、注释、训练和推理。Basecamp 提到会利用 NVIDIA 的加速计算基础设施和 Parabricks 等工具,把原本要20多年处理完的规模压缩到不到2年。
这意味着这件事不是一个实验室式、小规模的科研尝试,而是明显朝工业化数据生产线方向走。
3. Anthropic:把通用推理模型接进生命科学工作流
Anthropic 的加入也很有意思。按公告说法,它的角色不是去替代生物模型,而是把 Claude 的推理能力接进生命科学平台,让研究人员能更好地理解复杂临床或实验数据,并把这些信息转进药物设计流程。
简单说,Basecamp 负责“让模型更懂生物”,Anthropic 负责“让系统更会推理和协作”,而 NVIDIA、Ultima、PacBio 则负责让数据和计算真正跑起来。
这种组合说明,Basecamp 想做的不是一个单点算法演示,而是一条从数据采集、计算处理,到模型训练,再到药物设计辅助的完整链路。
对普通读者有什么实际意义
很多公开读者看到“药物发现AI”会有两种极端反应:一种是觉得离自己很远;另一种是以为新药马上就会被AI自动设计出来。
这两种理解都不太准确。
更现实的看法是,这类项目的意义在于提高“找到候选方向”的效率。它不一定直接把药物做出来,但可能让研究团队更快发现有价值的蛋白、肽、基因插入方案或候选分子,少走很多弯路。
如果这种数据底座真的能做大做深,它可能影响几个方向:
- 药物发现公司:更容易找到过去因为数据太少而看不到的模式;
- 蛋白设计和基因编辑团队:模型可能在更多物种和更多上下文里学到泛化能力;
- 抗菌肽、细胞治疗等前沿方向:如果训练数据足够广,模型或许更容易提出过去不常见的新候选方案;
- 整个行业的竞争逻辑:未来不只是比谁模型参数大,而是比谁能持续积累数据、验证结果并形成闭环。
换句话说,这条新闻的价值,不在“明天就能改变看病体验”,而在它可能影响未来几年生物AI行业往哪个方向卷。
这件事最容易被误读的地方
任何带有“万亿”“100倍”“1亿物种”这种数字的消息,都很容易让人产生一种感觉:这是不是意味着突破已经发生了?
还不能这么理解。
首先,这次公布的是计划和平台级推进,不是临床成果发布。也就是说,它讲的是未来几年要怎么搭底座,而不是今天已经拿出了一款通过临床验证的新药。
其次,数据变多并不自动等于结果更好。生物AI和通用AI有一个很大的不同:在这里,数据不仅要大,还要可靠、可解释,并最终能被湿实验验证。模型设计出来的候选结构,如果实验室里做不出来、做出来没效果、有效但不安全,那都不能算真正成功。
第三,即使模型确实能提出更好的候选药物,后面还有很长的路径:
- 体外验证
- 动物实验
- 临床前研究
- 临床试验
- 审批与生产
任何一步卡住,最终都可能无法落地。
所以这条消息最适合被理解为:生物AI正在补基础设施,不是已经跨过终点线。
这条新闻为什么值得今天发
从栏目角度看,这条消息比很多“公司合作”“科研奖项”“大会发言”更适合作为今天的生物模型动态,原因很简单:它确实是近36小时内的新发布,而且既有官方公告分发,也有多家行业媒体交叉印证,还能向普通读者清楚解释它的重要性。
它的重要性不是因为 Basecamp 比所有同行都大,也不是因为它已经证明自己一定会赢,而是因为它把一个越来越清楚的行业共识摆上了台面:
生物AI下一阶段的核心,不只是模型能力,而是数据、算力和实验能力能不能一起形成飞轮。
如果说过去大家更喜欢讨论“生物版GPT 会不会出现”,那现在更实际的问题可能是:谁能先把生物世界真正变成可持续训练、可持续验证、可持续迭代的数据系统。
Trillion Gene Atlas 就是朝这个方向迈出的一步。
最后一句话
这条新闻最值得记住的,不是“万亿基因”这个夸张数字,而是它背后那个更现实的判断:生物AI要想真正变强,不能只让模型更聪明,还得先让模型见过更多真实的生命世界。
参考来源
- https://www.prnewswire.com/news-releases/basecamp-research-launches-trillion-gene-atlas-to-scale-ai-designed-therapeutics-302716624.html
- https://www.genengnews.com/topics/artificial-intelligence/trillion-gene-atlas-expands-evolutionary-datasets-for-next-generation-ai-therapeutics/
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。