ChatGPT 可以写小说、编写计算机代码、给出食谱,它的硅片上包含了互联网上的大部分信息。如果它能对DNA做同样的事情会怎么样?
近日,刊登在《Science》封面上一项最新研究,美国Arc研究所(Arc Institute)和斯坦福大学的研究团队提出了一种机器学习模型「Evo」,其能够以无与伦比的准确性解码和设计从分子到基因组规模的DNA、RNA和蛋白质序列。
(图源:Science杂志)
基因组基础模型Evo
基因组基础模型Evo是一个基于StripedHyena的基础模型,该模型在270万个进化多样的原核生物和噬菌体基因组上进行了预训练,从而获得对DNA语言的基本理解,可以预测 DNA的功能或生成新的DNA序列。StripedHyena架构混合了密集二次Transformer算子和次二次型Hyena算子。
为了确定Evo的最佳架构和缩放比例,研究比较了在计算最优边界上预训练的不同模型的缩放率,即在数据集大小和模型大小之间进行最佳计算分配。
该团队的一项改进是增加所谓的上下文长度,即模型在尝试寻找DNA模式时使用的搜索窗口。更大的上下文长度可以提高模型识别基因或其他DNA序列之间联系的能力。这种设计还使团队能够将Evo的分辨率提高到单个核苷酸(DNA的组成部分)的水平,而之前的模型只能处理核苷酸组。
研究人员在构建Evo后对其进行了4周的训练,在此期间,该模型对80000个微生物基因组以及数百万个针对细菌的病毒序列和质粒进行了自我学习。
(图源:Science杂志)
世界首个AI生成CRISPR-Cas系统诞生
要知道,所有生物体的DNA序列中,都编码着生命的基本指令,但理解它们却很复杂。即使是最简单的微生物基因组也是如此,数百万个碱基对,编码出DNA、RNA和蛋白质之间的相互作用。
这种复杂性存在于从单个分子到整个基因组的多个尺度上,代表着在进化时间中经过功能性选择的庞大遗传信息景观。如果能有一个模型,能在保持单核苷酸分辨率的同时,还能处理大型基因组序列,就可以帮助科学家提取出自然进化变异模式中蕴含的复杂分子相互作用功能信息了。
而今Evo的出现,让这一切都可以实现了。
它预测、生成和设计整个基因组序列的能力,可能会改变合成生物学的工作方式。因为Evo了解跨模式的共同进化模式,所以研究人员决定证明它可以生成蛋白质和非编码RNA的大分子复合物。
至此,世界上第一个AI生成的CRISPR-Cas系统诞生了!
Evo还具有生成整个基因组规模的序列的潜力。在单个GPU上,研究人员生成了超过650 KB的DNA序列。使用Evo对这个长度的序列进行采样时可以发现,基因组包含数千个潜在的蛋白质编码序列。
未来,研究人员还将把Evo扩展到真核和人类序列。研究人员表示,Evo有极大潜力帮助或取代湿实验室实验,他对此感到非常兴奋。很多团队都不得不对必需基因进行费力的CRISPR筛选,但他们直接用神经网络的前向传播将之取代了!
新闻来源:ScienceAI、新智元
暂无评论