一台观察人类DNA的AI“显微镜”:谷歌AlphaGenome问世

美羊羊2个月前教育资讯15

https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf

一、百万DNA序列输入,预测数千种分子特性

AlphaGenome模型以长达100万个碱基对的长DNA序列作为输入,预测数千种表征其调控活性的分子特性。它还可以通过比较突变序列与未突变序列的预测结果来评估遗传变异或突变的影响。

预测的属性包括基因在不同细胞类型和组织中的起始和终止位置、基因剪接的位置、产生的RNA数量,以及哪些DNA碱基可接近、彼此靠近或与某些蛋白质结合。训练数据来源于大型公共联盟,包括ENCODE、GTEx、4D Nucleome和FANTOM5,这些联盟通过实验测量了这些属性,涵盖了数百种人类和小鼠细胞类型和组织中基因调控的重要模式。

以下动画显示AlphaGenome将一百万个DNA字母作为输入,并预测不同组织和细胞类型的不同分子特性。

AlphaGenome架构使用卷积层初步检测基因组序列中的短模式,使用转换器在序列的所有位置传递信息,最后使用一系列层将检测到的模式转化为不同模态的预测。在训练过程中,此计算分布在单个序列的多个互连张量处理单元(TPU)上。

该模型以谷歌之前的基因组学模型Enformer为基础,并与AlphaMissense相辅相成,后者专门对蛋白质编码区内变异的影响进行分类。这些区域覆盖了基因组的2%。其余98%的区域称为非编码区,对调控基因活动至关重要,并包含许多与疾病相关的变异。AlphaGenome为解读这些广泛的序列及其内部的变异提供了一个新的视角。

二、高分辨率的长序列上下文,综合多模态预测

与已有的DNA序列模型相比,AlphaGenome具有几个独特的特点:

1、高分辨率的长序列上下文

谷歌的模型分析多达一百万个DNA碱基,并以单个碱基的分辨率进行预测。长序列上下文对于覆盖远处调控基因的区域至关重要,而碱基分辨率对于捕捉精细的生物学细节至关重要。

先前的模型必须在序列长度和分辨率之间做出权衡,这限制了它们能够联合建模并准确预测的模态范围。谷歌的技术进步解决了这一限制,且无需显著增加训练资源——训练单个AlphaGenome模型(未进行数据蒸馏)耗时4小时,且所需的计算预算仅为训练原始Enformer模型的一半。

2、综合多模态预测

通过解锁长输入序列的高分辨率预测,AlphaGenome能够预测最多样化的模态。由此,AlphaGenome为科学家提供了有关基因调控复杂步骤的更全面的信息。

3、高效变异评分

除了预测各种分子特性外,AlphaGenome还能在一秒钟内高效地评估基因变异对所有这些特性的影响。它通过对比突变序列和未突变序列的预测,并针对不同模式使用不同的方法高效地总结这种对比来实现这一点。

4、新颖的剪接连接模型

许多罕见遗传疾病,例如脊髓性肌萎缩症和某些形式的囊性纤维化,都可能由RNA剪接错误引起。RNA剪接是指RNA分子的部分被移除,或“剪接掉”,然后剩余的末端重新连接在一起的过程。AlphaGenome首次能够直接从序列中明确模拟这些连接的位置和表达水平,从而更深入地了解遗传变异对RNA剪接的影响。

三、超20项基准测试中表现最佳

AlphaGenome在广泛的基因组预测基准中实现了最先进的性能,例如预测DNA分子的哪些部分将会靠近,遗传变异是否会增加或减少基因的表达,或者它是否会改变基因的剪接模式。

下方条形图显示了AlphaGenome在选定的DNA序列和变异效应任务上的相对改进,并与每个类别中当前最佳方法的结果进行了比较。

一台观察人类DNA的AI“显微镜”:谷歌AlphaGenome问世_一台观察人类DNA的AI“显微镜”:谷歌AlphaGenome问世_

在对单个DNA序列进行预测时,AlphaGenome在24项评估中,有22项的表现优于市面上已有的最佳模型。在预测变异的调控效应时,它在26项评估中,有24项的表现与最佳外部模型相当甚至超过了最佳外部模型。

本次比较涵盖了针对特定任务的模型。AlphaGenome是唯一能够联合预测所有评估模态的模型,彰显了其通用性。

四、统一模型,更快地生成和测试假设

AlphaGenome的通用性使科学家能够通过单个API调用同时探索一个变异对多种模式的影响。这意味着科学家可以更快地生成和测试假设,而无需使用多个模型来研究不同的模式。

此外,AlphaGenome的出色表现表明,它已经在基因调控的背景下学习到了相对通用的DNA序列表征。这为更广泛的研究社区奠定了坚实的基础。一旦该模型全面发布,科学家们将能够在自己的数据集上对其进行调整和微调,以更好地解决他们独特的研究问题。

最后,这种方法为未来提供了一个灵活且可扩展的架构。通过扩展训练数据,AlphaGenome的功能可以得到扩展,从而获得更好的性能,覆盖更多物种,或包含更多模态,使模型更加全面。

五、助力疾病理解、基础研究等

AlphaGenome的预测能力可以帮助多种研究途径:

1、疾病理解:通过更准确地预测基因突变,AlphaGenome可以帮助研究人员更精准地查明疾病的潜在病因,并更好地解释与某些性状相关的变异的功能影响,从而可能发现新的治疗靶点。我们认为该模型尤其适用于研究可能产生巨大影响的罕见变异,例如导致罕见孟德尔遗传病的变异。

2、合成生物学:它的预测可用于指导具有特定调节功能的合成DNA的设计——例如,仅激活神经​​细胞中的基因,而不是肌肉细胞中的基因。

3、基础研究:它可以通过协助绘制基因组的关键功能元素并定义其作用,识别调节特定细胞类型功能的最重要DNA指令,加速我们对基因组的理解。

例如,谷歌使用AlphaGenome研究了一种癌症相关突变的潜在机制。在一项针对T细胞急性淋巴细胞白血病(T-ALL)患者的现有研究中,研究人员观察到基因组特定位置的突变。利用AlphaGenome,他们预测这些突变会通过引入MYB DNA结合基序来激活附近的TAL1基因,这复制了已知的疾病机制,并凸显了AlphaGenome将特定非编码变异与疾病基因关联起来的能力。

伦敦大学学院马克·曼苏尔教授说:“AlphaGenome将成为该领域的一个强大工具。确定不同非编码变异之间的相关性可能极具挑战性,尤其是在大规模研究的情况下。该工具将提供关键的线索,帮助我们更好地理解癌症等疾病。”

结语:AI基因预测重要一步

AlphaGenome标志着AI基因预测向前迈出了重要一步,但仍有其局限性。

与其他基于序列的模型一样,准确捕捉极远距离调控元件的影响(如那些相距超过10万 DNA 碱基的调控元件)仍然是一个尚未解决的挑战。

同时,谷歌尚未设计或验证AlphaGenome用于个人基因组预测。虽然AlphaGenome可以预测分子结果,但它并不能全面展现基因变异如何导致复杂的性状或疾病。

相关文章

新造车5月再洗牌:问界回前三,小米守第五

新造车5月再洗牌:问界回前三,小米守第五

6月1日,新造车公司们照例公布5月交付量,新势力交付榜再次洗牌。 前三名依次是零跑、理想、问界: 零跑汽车以4.51万辆的交付量,连续3个月蝉联新势力冠军,同比增速高达148%;老牌实力选手理想汽车...

距欧冠区1分!多特4-2药厂取四连胜 布兰特、阿德耶米互送传射

距欧冠区1分!多特4-2药厂取四连胜 布兰特、阿德耶米互送传射

直播吧5月11日讯 北京时间5月11日21:30,德甲第33轮,勒沃库森坐镇主场拜耳竞技场迎战多特蒙德。上半场,弗林蓬兜射首开记录,布兰特包抄破门扳平,莱尔森反超比分,科贝尔屡次神扑。下半场,布兰特助...

米内罗伤缺4个月!媒体人热议:最快速度换外援,否则国安将夺冠

米内罗伤缺4个月!媒体人热议:最快速度换外援,否则国安将夺冠

周一,上海申花宣布米内罗肌腱断裂,预计因伤缺席四个月,谢鹏飞也将在接受手术之后缺席三个月。米内罗遭遇重伤,引发了媒体人的热议。 6月14日对深圳新鹏城一战,米内罗在远射之后因伤退场。在接受核磁共振检...

最后时刻!升学变局!北京家长如何抢占今年最后一波扩招红利?

最后时刻!升学变局!北京家长如何抢占今年最后一波扩招红利?

北京家长注意了! 区级“1+3”报名通道已经开启,但留给大家的报名时间只有今明两天! 想要稳稳抓住这波升学红利,此时就是家长和孩子做出关键抉择的最后时刻! 这份紧迫感背后,是区级“1+3”培养实验的火...

比学历更重要的「金钱生存指南」

比学历更重要的「金钱生存指南」

点击 “简七读财” ,发送消息“ 理财小工具 ” 免费领取“40个赚钱工具资源包” 晚上好呀,我是简七编辑部的卫星~ 今年的高考还在进行中,祝愿各位考生都能收获一份满意的答卷! 但对我们这些早已毕...

我的科学观|梅彦昌:科技创新关键在于能否跑得快,而不是有没有钱

我的科学观|梅彦昌:科技创新关键在于能否跑得快,而不是有没有钱

·(现在的大学)只有通过系统性变革,才能不断提高高质量研究的成功率。每个教授在科研上不能被学科所限制,要有一定的自由权和判断权。过去我们的教育体系总是偏爱最优秀的人,也许有一天,这种情况会改变,你不一...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
客服微信:hnyanshan点击复制并跳转微信