选自ProcdingsofIEEE
作者:MichalK.K.Lung,AndrwDlong,BabakAlipanahi,andBrndanJ.Fry
投稿
编译:吴偶
中国科学院自动化所模式识别国家重点实验室、中科院—好啦健康大数据实验室
摘要:本文主要介绍了基因组医学涉及到的一些典型机器学习问题。基因组医学的一个目标就是发现个体DNA的变化是如何影响疾病风险,并试图找到背后的致病机理以便于研制出相应的靶向治疗[1]方案。本文的重点将放在如何利用机器学习来对DNA与细胞中可能与疾病风险存在关联的关键分子的数量(我们称之为细胞变量)之间的关系进行建模。现代生物学允许对很多细胞变量(包括基因表达[2],剪接[3]和核酸结合蛋白[4]等)进行高通量测量。这些细胞变量都可以作为预测模型的目标变量。随着大型数据集的不断涌现和计算技术(如深度学习)的高速发展,一个新的基因组医学时代可能会到来。
关键词:计算生物学、深度学习、遗传变异体、基因组分析、基因组生物学、机器学习、精准医疗
一、简介
首先,我们介绍机器学习是如何用来解决基因组医学的关键问题。基因组学研究活细胞的DNA序列所编码的功能与信息结构,而精确医学的出发点就是期望基于患者的所有相关信息(包括基因组信息)来进行对患者进行个性化治疗。这两个领域都在快速发展,尤其是在数据方面[1]-[4]。我们认为上述领域的实际问题给机器学习提供了一个非常好的展示其重要性的机会[5]。在未来,机器学习有可能延长数百万人的寿命并提高他们的生活质量,使得他们避免遭受遗传性疾病或失调症之苦。
一个基因组可以看做是建立一个有机体的说明书。自年以来,人们已经弄清楚DNA分子是遗传信息存储的物理媒介[6],但直到年人类基因组计划才初步构造了一个典型的人类基因组的原始信息草图[7],[8]。然而,更大的挑战是如何解释遗传信息自身的结构,功能和意义。生物学家埃里克·兰德对当前的研究现状做了一个简单的总结:「基因组像本天书,难读」。不过,人们对于遗传信息是如何被组织成不同的基因已经有了很多认识。每个基因就像说明书中的一章,其描述了如何建立一个特殊的分子系。所谓的蛋白质编码基因[5]描述了如何从氨基酸链(蛋白质)构建大分子,而非编码(noncoding)基因描述了如何从核糖核酸(RNA)链构建小分子。文献[9]和[10]介绍了分子遗传学和细胞生物学。大体来说,人类基因组包含个蛋白质编码基因[11]和非编码基因[12]。一些基因对于生命非常重要、一些则对健康非常重要、而有的即使被剔除掉也无明显的危害性。
一个典型基因的最重要的一个信息结构存在这交替区域,也被称为内含子和外显子。这些区域的边界由核苷酸序列的模式来确定,许多致病突变就是通过破坏这些模式来施加其作用。脊髓性肌萎缩(SMA)是在北美地区导致婴儿死亡的主要遗传原因[13]。如果婴儿的基因组缺失SMN1基因,或者该基因被破坏了,那么容易导致运动神经元存活(SMN)蛋白产生不足。该基因的另一种形式,被称为SMN2,可以补偿SMN蛋白的产生。图1显示了来自于蛋白质编码基因SMN2的外显子7的核苷酸序列。由于在所显示的四个位置中的核苷酸存在差异,细胞无法识别外显子,从而产生一个不具备正常功能的蛋白,因此也就无法补偿SMN蛋白的产生。研究人员评估了修复外显子7中的SMN2功能的疗法[14],[15]。对脊髓性肌萎缩的研究目前已经非常深入,已经可以通过外在的症状来诊断,但基因检测是确认和研发治疗方案的关键。很多其他的遗传性疾病,致病机制更加复杂。癌症是异质性疾病的一个最具代表性的例子,也即对于同一个疾病,多种病因都会导致相似的症状,但却需要不同的治疗方法[16]。对于癌症,基因组数据正成为研制更多的针对性的诊断和靶向治疗的关键[17]。
图1.利用机器学习算法确定的外显子和调控指令。如果一个婴儿在某个版本的运动神经元存活基因是纯合的,那么会导致脊髓性肌萎缩,这也是婴儿死亡的主要原因。图中位于基因组指令内的三个核苷酸,是被机器学习技术确认是对构建蛋白质时包含这种外显子非常重要。
精确医疗不是一个全新的概念,早在一个多世纪前医生们就已经开始用血型来定制输血[18]。现在不同的是,可以较为廉价地从患者和以及更广泛的人群中收集基因组数据,因此基因组数据在非常迅速的增长,并且各个数据资源之间的共享已经开始在推进。基因组的复杂性和体量是传统实验室中使用数据的20-50倍[17]。本文重点