生物模型

GENATATOR:用 AI 从 DNA 序列直接识别基因,跨物种泛化能力亮眼

2026年7月5日2 次阅读
GENATATOR:用 AI 从 DNA 序列直接识别基因,跨物种泛化能力亮眼

GENATATOR:用 AI 从 DNA 序列直接识别基因,跨物种泛化能力亮眼

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

7月3日,俄罗斯人工智能研究所 AIRI 发布了 GENATATOR——一个开源 AI 基因注释工具,能从 DNA 序列中自动识别基因边界、判断转录本类型、重建基因内部结构。它最引人注目的特点是不依赖传统的起始/终止密码子等标记,而是通过学习 DNA 序列的整体模式来完成注释,这让它在非模式生物上也能表现良好。

基因注释为什么难

基因组测序越来越便宜,但测完之后要知道"哪些片段是基因、基因从哪开始到哪结束",仍然是个大工程。传统方法主要靠搜索特定标记——起始密码子、终止密码子、剪接信号等。问题在于,这些标记在不同物种中差异很大,很多非模式生物的基因组几乎没有详细注释,传统方法经常失灵。

GENATATOR 换了个思路:不找标记,而是让模型学习 DNA 序列的整体模式。就像一个有经验的语言学家不需要逐字查字典,而是通过上下文就能判断一段文字的语法结构。

多阶段流水线

GENATATOR 不是单一模型,而是一组模型组成的流水线:

  1. 定位阶段:先找到可能的转录本起始和终止位置
  2. 审查阶段:检查起始和终止之间的区域
  3. 精修阶段:细化基因内部结构
  4. 过滤阶段:剔除不可靠的预测

这种分步设计让每一步都专注于一个子任务,降低了单模型的负担,也更容易调试和改进。

从哺乳动物到果蝇:泛化能力是亮点

GENATATOR 的训练数据覆盖了人类和 38 种哺乳动物——包括海象和大象这样不太常见的物种。但真正让人眼前一亮的是它在非哺乳动物上的表现:果蝇、拟南芥(一种模式植物)、酵母,这些与哺乳动物进化距离很远的物种,GENATATOR 同样给出了高质量的注释结果。

这意味着什么?如果你在研究一个几乎没有现成注释的物种——比如某种深海生物或极端环境微生物——GENATATOR 可能是目前少数能直接上手的工具之一。

能注释什么

目前 GENATATOR 覆盖两大类基因:

  • 蛋白编码基因:最经典的基因类型,直接翻译成蛋白质
  • 长非编码 RNA 基因:不翻译成蛋白质,但在调控基因表达中起关键作用

长非编码 RNA 的注释一直是基因组学的难点,因为它们没有经典的编码特征,传统方法几乎无能为力。GENATATOR 能同时处理这两类,实用性明显更强。

开源与可用性

GENATATOR 的模型已在 Hugging Face 上开放下载,同时提供了 Web 服务和开放排行榜供社区评估。对于想本地部署的研究者,目前有一个限制:只支持 CUDA GPU,输出格式为 float32,CPU 推理和低精度模式暂不可用。

对谁有用

  • 非模式生物研究者:研究缺乏注释的物种时,GENATATOR 提供了一个零成本起点
  • 进化生物学研究者:跨物种泛化能力使其适合比较基因组学研究
  • 药物研发团队:新病原体的基因注释是靶点发现的第一步
  • 合成生物学:设计新基因时需要理解基因边界和结构规则

当前限制

  • 仅支持 NVIDIA GPU(CUDA),CPU 推理不可用
  • 输出精度固定为 float32,不支持半精度或量化推理
  • 训练数据以哺乳动物为主,对更远缘物种(如细菌、古菌)的效果尚未验证

---

*基于 ForkLog、N+1 等媒体转述整理。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。