本文作者:佛系玩家

DeepMind再放大招,AI新工具可解析人类基因组中的“暗物质”

DeepMind再放大招,AI新工具可解析人类基因组中的“暗物质”摘要: ...

据《自然》报道,谷歌DeepMind新开发的人工智能(AI)模型AlphaGenome可以帮助科学家解析基因组序列中的“暗物质”——非编码区,了解它们如何影响细胞内部运作并导致癌症等疾病的发生。目前,从事非商业工作的研究人员可以使用编程接口通过DeepMind的服务器访问该模型。这个AI模型在 6 月 25 日的预印本中进行了描述。

研究人员将大量基因组数据输入机器学习系统,训练它们预测非编码序列的作用。图片来源:JuSun/iStock via Getty

2001年,《自然》发表由美、英、日、德、法、中六国科学家共同完成的人类基因组序列草图。然而直到现在,约31亿个碱基对中的许多仍然是待解之谜。

在长长的人类基因组序列中,98%是不直接参与蛋白质编码合成的基因,即非编码区,但它们可以影响蛋白质活性,并包含了大量与疾病相关的变异位点。这一部分尤其让科学家感到头疼。

弄清楚DNA序列的作用很难,因为没有现成的答案,就像AlphaFold预测蛋白质3D结构一样。从吸引一组细胞机器附着在染色体的特定部分并将附近的基因转录为RNA分子,到吸引影响基因表达发生地点、时间和程度的转录因子,单个DNA片段具有许多相互关联的作用。例如,许多DNA序列通过改变染色体的3D形状来影响基因活性,从而限制或简化转录机器的访问。

几十年来,科学家开发了数十种AI模型来理解基因组。其中许多都集中在单个任务上,例如预测基因表达水平或确定外显子是如何被剪切并拼接到不同蛋白质中的。而AlphaGenome正是一个“一体化”解释DNA序列的工具。

AlphaGenome可以处理多达100万个DNA碱基,这可能包括一个基因和无数个调节元件,并能针对多种生物特性进行数千次预测。而且,AlphaGenome在预测过程中对单个DNA碱基的变化十分敏感,这意味着科学家可以预测突变的影响。

DeepMind研究人员利用AlphaGenome分析了先前研究中发现的一种白血病患者的不同突变。该模型准确预测了非编码区突变间接激活了附近的一个基因,后者是这种癌症常见的驱动因素。

不过,研究人员表示,AlphaGenome仅基于人类和小鼠的基因组,以及其他相关实验数据进行训练,还没有测试它在其他生物中的有效性。此外,AlphaGenome预测的准确性还有提升的空间。例如,该模型难以识别位于10万多个碱基对以外的目标基因序列。

美国冷泉港实验室的计算生物学家Peter Koo说,AlphaGenome和类似的模型尚未捕捉到不断变化的细胞性质如何影响DNA序列的功能。因为这些模型只能在一个固定环境中进行预测,而细胞是动态的:蛋白质水平、DNA上的化学标签和其他条件会随着时间或细胞类型的不同而变化,这可能会改变同一序列的行为方式。

(原标题为《DeepMind再放大招,AI新工具可解析人类基因组中的“暗物质》)

阅读
分享

发表评论

快捷回复:

验证码

评论列表 (暂无评论,1人围观)参与讨论

还没有评论,来说两句吧...