KAIYUN中国·官方网站-开云中国门户入口

开云网站:Evo-2登上Nature:AI模型实现对所有生命基因组的建模和设计甚至能从头设计生命-开云中国·官方网站
KAIYUN中国 - 专业模型设计制作企业 | 高品质多元化解决方案 | 诚信共赢

咨询热线:

0830-2509596

开云网站:Evo-2登上Nature:AI模型实现对所有生命基因组的建模和设计甚至能从头设计生命

发布时间:2026-03-14 06:39人气:

  所有生命都是用 DNA 编码信息。尽管基因组测序、合成和基因组编辑工具已经改变了生物学研究,但我们对基因组所编码的巨大Kaiyun全站网页复杂性的理解,仍不充分,无法预测许多类型的基因组变化的影响,也无法智能地构建新的生物系统。

  飞速发展的人工智能模型(AI Model)能够从不同生物的基因组序列中学习、提取信息,其预测和设计能力日益增强,为我们实现预测生命和设计生命提供了前所未有的机会。

  这标志着有史以来最大的生物学人工智能模型(AI model for biology)——Evo-2,经过了同行评议后正式发表。该模型训练了从病毒到单细胞的细菌、古菌,再到真核生物以及多细胞的植物以及人类的生命之树中的 12.8 万个基因组的9.3 万亿个核苷酸,从而能够实现对所有生命域的理解、建模和设计遗传密码,从头开始编写整个染色体,甚至从头设Kaiyun官方入口计生命,还能准确预测所有类型的基因突变(包括编码基因和非编码基因)的影响。

  Evo-2 的训练使用了 2000 多个英伟达 H100 GPU,并得到了英伟达研究人员和工程师的合作支持。更重要的是,Evo-2 是完全开源的,在 GitHub 上共享了模型参数、训练代码、推理代码以及训练使用的 OpenGenome 2 数据集。世界各地的研究人员可以通过英伟达 BioNeMo 平台免费访问以及部署 Evo-2,从而加速对生物复杂性的探索和设计。

开云网站:Evo-2登上Nature:AI模型实现对所有生命基因组的建模和设计甚至能从头设计生命(图1)

  该论文发布了首个在全基因组规模上以单核苷酸分辨率预测和生成 DNA 序列的 AI 模型——Evo。

  Evo是在原核生物(细菌、古菌)和噬菌体的基因组上进行训练,能够在 DNA、RNA 和蛋白质模式下实现零样本功能预测,还能够生成长度超过百万碱基对的具有合理基因组结构的 DNA 序列。研究团队使用 Evo 生成了CRISPR-Cas分子复合物和IS200/IS605转座子,并验证了它们的功能活性,这也是首次通过语言模型实现蛋白质-RNA 和蛋白质-DNA 协同设计的实例。

开云网站:Evo-2登上Nature:AI模型实现对所有生命基因组的建模和设计甚至能从头设计生命(图2)

开云网站:Evo-2登上Nature:AI模型实现对所有生命基因组的建模和设计甚至能从头设计生命(图3)

  所有生命都以DNA编码信息,就像人类用语言记录思想。尽管基因测序、合成和编辑技术已经相当成熟,但我们仍然难以完全理解基因组中蕴含的复杂信息,更无法精准预测基因突变的影响或智能设计新的生物系统。

  Evo-2的核心理念是将DNA视为一种“生命语言”,通过大规模无监督学习,让 AI 自行掌握这种语言的语法和语义。

  Evo-2 的前身 Evo 完全是在单细胞生命的基因组上进行训练的,而 Evo-2 进一步将其训练数据扩展到了生命的所有域——从细菌、古细菌、噬菌体,以及植物、动物、人类和其它单细胞和多细胞的线 万个全基因组和宏基因组数据的 9.3 万亿个核苷酸(包含编码序列和非编码序列),训练参数高达 400 亿(Evo-2 有两个版本,训练参数分别是 70 亿和 400 亿)。训练过程使用了超过 2000 张英伟达 H100 GPU,持续数月时间,规模接近顶尖通用大模型。

开云网站:Evo-2登上Nature:AI模型实现对所有生命基因组的建模和设计甚至能从头设计生命(图4)

  StripedHyena 2架构,这是一种新的卷积混合架构,融合了输入依赖卷积和注意力机制,相比 Transformer 架构,能够大幅提高训练速度和推理效率,在处理长序列时比标准 Transformer 快了 3 倍,显存占用也更低。

开云网站:Evo-2登上Nature:AI模型实现对所有生命基因组的建模和设计甚至能从头设计生命(图5)

  零样本预测——无需针对特定任务进行微调,就能准确评估基因突变的功能影响。

  剪接是基因表达的关键步骤,剪接错误与多种疾病相关。在 SpliceVarDB 数据集(包含实验验证的剪接突变)上,Evo-2 在内含子突变预测中与专业监督模型竞争激烈,略低于 SpliceAI 和 CADD,但优于 Pangolin;在外显子突变预测中,虽然落后于专业模型,但超越了所有零样本模型。

开云网站:Evo-2登上Nature:AI模型实现对所有生命基因组的建模和设计甚至能从头设计生命(图6)

  BRCA1是著名的乳腺癌易感基因,准确预测其突变后果对风险评估和预防策略至关重要。该研究显示,Evo-2 在没有针对特定任务进行训练(即零样本)的情况下,能够准确预测 BRCA1 基因的编码区和非编码区单核苷酸突变,这一能力扩展到相关基因 BRCA2 时同样突出,这表明了 Evo-2 是一个有效的零样本预测器,能够广泛应用于多种类型的人类功能性基因突变评估。

  Evo-2 的生成能力为合成生物学开辟了新可能。通过推理时搜索技术,研究人员可以引导模型设计具有特定功能的 DNA 序列。例如,团队成功设计Kaiyun官方入口了具有预设染色质可及性模式的序列,甚至在表观基因组上“写”出了“EVO2”、“ARC”这样的摩斯电码。这种可控生成能力,使得定制化设计启动子、增强子等调控元件成为可能。

  完全开源——包括模型参数、训练代码、推理代码以及 OpenGenome2 数据集。


0830-2509596