GENATATOR：用 AI 从 DNA 序列直接识别基因，跨物种泛化能力亮眼

基于已整理草稿生成的网页版文章，适合先稳定落地，再做局部润色与发布检查。

7月3日，俄罗斯人工智能研究所 AIRI 发布了 GENATATOR——一个开源 AI 基因注释工具，能从 DNA 序列中自动识别基因边界、判断转录本类型、重建基因内部结构。它最引人注目的特点是不依赖传统的起始/终止密码子等标记，而是通过学习 DNA 序列的整体模式来完成注释，这让它在非模式生物上也能表现良好。

基因注释为什么难

基因组测序越来越便宜，但测完之后要知道"哪些片段是基因、基因从哪开始到哪结束"，仍然是个大工程。传统方法主要靠搜索特定标记——起始密码子、终止密码子、剪接信号等。问题在于，这些标记在不同物种中差异很大，很多非模式生物的基因组几乎没有详细注释，传统方法经常失灵。

GENATATOR 换了个思路：不找标记，而是让模型学习 DNA 序列的整体模式。就像一个有经验的语言学家不需要逐字查字典，而是通过上下文就能判断一段文字的语法结构。

多阶段流水线

GENATATOR 不是单一模型，而是一组模型组成的流水线：

定位阶段：先找到可能的转录本起始和终止位置
审查阶段：检查起始和终止之间的区域
精修阶段：细化基因内部结构
过滤阶段：剔除不可靠的预测

这种分步设计让每一步都专注于一个子任务，降低了单模型的负担，也更容易调试和改进。

从哺乳动物到果蝇：泛化能力是亮点

GENATATOR 的训练数据覆盖了人类和 38 种哺乳动物——包括海象和大象这样不太常见的物种。但真正让人眼前一亮的是它在非哺乳动物上的表现：果蝇、拟南芥（一种模式植物）、酵母，这些与哺乳动物进化距离很远的物种，GENATATOR 同样给出了高质量的注释结果。

这意味着什么？如果你在研究一个几乎没有现成注释的物种——比如某种深海生物或极端环境微生物——GENATATOR 可能是目前少数能直接上手的工具之一。

能注释什么

目前 GENATATOR 覆盖两大类基因：

蛋白编码基因：最经典的基因类型，直接翻译成蛋白质
长非编码 RNA 基因：不翻译成蛋白质，但在调控基因表达中起关键作用

长非编码 RNA 的注释一直是基因组学的难点，因为它们没有经典的编码特征，传统方法几乎无能为力。GENATATOR 能同时处理这两类，实用性明显更强。

开源与可用性

GENATATOR 的模型已在 Hugging Face 上开放下载，同时提供了 Web 服务和开放排行榜供社区评估。对于想本地部署的研究者，目前有一个限制：只支持 CUDA GPU，输出格式为 float32，CPU 推理和低精度模式暂不可用。

对谁有用

非模式生物研究者：研究缺乏注释的物种时，GENATATOR 提供了一个零成本起点
进化生物学研究者：跨物种泛化能力使其适合比较基因组学研究
药物研发团队：新病原体的基因注释是靶点发现的第一步
合成生物学：设计新基因时需要理解基因边界和结构规则

当前限制

仅支持 NVIDIA GPU（CUDA），CPU 推理不可用
输出精度固定为 float32，不支持半精度或量化推理
训练数据以哺乳动物为主，对更远缘物种（如细菌、古菌）的效果尚未验证

---

*基于 ForkLog、N+1 等媒体转述整理。*

参考来源

说明：该页面由基础模板稳定生成，后续可继续局部润色样式或补充模块，再进入发布检查。