GENATATOR:用 AI 从 DNA 序列直接识别基因,跨物种泛化能力亮眼
基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。
7月3日,俄罗斯人工智能研究所 AIRI 发布了 GENATATOR——一个开源 AI 基因注释工具,能从 DNA 序列中自动识别基因边界、判断转录本类型、重建基因内部结构。它最引人注目的特点是不依赖传统的起始/终止密码子等标记,而是通过学习 DNA 序列的整体模式来完成注释,这让它在非模式生物上也能表现良好。
基因注释为什么难
基因组测序越来越便宜,但测完之后要知道"哪些片段是基因、基因从哪开始到哪结束",仍然是个大工程。传统方法主要靠搜索特定标记——起始密码子、终止密码子、剪接信号等。问题在于,这些标记在不同物种中差异很大,很多非模式生物的基因组几乎没有详细注释,传统方法经常失灵。
GENATATOR 换了个思路:不找标记,而是让模型学习 DNA 序列的整体模式。就像一个有经验的语言学家不需要逐字查字典,而是通过上下文就能判断一段文字的语法结构。
多阶段流水线
GENATATOR 不是单一模型,而是一组模型组成的流水线:
- 定位阶段:先找到可能的转录本起始和终止位置
- 审查阶段:检查起始和终止之间的区域
- 精修阶段:细化基因内部结构
- 过滤阶段:剔除不可靠的预测
这种分步设计让每一步都专注于一个子任务,降低了单模型的负担,也更容易调试和改进。
从哺乳动物到果蝇:泛化能力是亮点
GENATATOR 的训练数据覆盖了人类和 38 种哺乳动物——包括海象和大象这样不太常见的物种。但真正让人眼前一亮的是它在非哺乳动物上的表现:果蝇、拟南芥(一种模式植物)、酵母,这些与哺乳动物进化距离很远的物种,GENATATOR 同样给出了高质量的注释结果。
这意味着什么?如果你在研究一个几乎没有现成注释的物种——比如某种深海生物或极端环境微生物——GENATATOR 可能是目前少数能直接上手的工具之一。
能注释什么
目前 GENATATOR 覆盖两大类基因:
- 蛋白编码基因:最经典的基因类型,直接翻译成蛋白质
- 长非编码 RNA 基因:不翻译成蛋白质,但在调控基因表达中起关键作用
长非编码 RNA 的注释一直是基因组学的难点,因为它们没有经典的编码特征,传统方法几乎无能为力。GENATATOR 能同时处理这两类,实用性明显更强。
开源与可用性
GENATATOR 的模型已在 Hugging Face 上开放下载,同时提供了 Web 服务和开放排行榜供社区评估。对于想本地部署的研究者,目前有一个限制:只支持 CUDA GPU,输出格式为 float32,CPU 推理和低精度模式暂不可用。
对谁有用
- 非模式生物研究者:研究缺乏注释的物种时,GENATATOR 提供了一个零成本起点
- 进化生物学研究者:跨物种泛化能力使其适合比较基因组学研究
- 药物研发团队:新病原体的基因注释是靶点发现的第一步
- 合成生物学:设计新基因时需要理解基因边界和结构规则
当前限制
- 仅支持 NVIDIA GPU(CUDA),CPU 推理不可用
- 输出精度固定为 float32,不支持半精度或量化推理
- 训练数据以哺乳动物为主,对更远缘物种(如细菌、古菌)的效果尚未验证
---
*基于 ForkLog、N+1 等媒体转述整理。*
参考来源
- https://forklog.com/en/russian-researchers-develop-ai-tool-for-gene-mapping/
- https://nplus1.ru/news/2026/07/03/genatator
说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。