基于机器学习的蛋白质结构预测
蛋白质的功能是由它的三维结构决定的。如果结构已知,则可以根据蛋白质与其他已知蛋白质的结构相似性来预测蛋白质的功能。还可以预测哪些分子或药物能与蛋白质结合,以及它们将如何结合。在新药的设计中,做出这种明智预测的能力尤为重要。
然而,通过实验来确定蛋白质的结构是一个昂贵、耗时且困难的过程。因此,蛋白质结构的计算模型常常被用来简化预测过程。东京工业大学计算机科学系的水奇罗Makigaki和Takashi Ishida博士正在开发一种新的序列比对生成方法,该方法利用机器学习和动态规划来精确预测蛋白质结构。
了解蛋白质
蛋白质是生物学、生物化学和药学的基本组成部分。它们基本上参与每一个细胞过程,对生物体的正常功能至关重要。蛋白质是人体组织中仅次于水的第二大成分。
有些蛋白质具有特定的机械或结构功能。酶是生化反应的催化剂,是对我们的新陈代谢至关重要的蛋白质。蛋白质也参与控制基本细胞活动和指导多种细胞活动的通讯过程,称为细胞信号。它们还以抗体的形式对我们的免疫反应起着至关重要的作用,这种抗体是用来中和病原体(包括病毒和致病菌)的大Y形蛋白质分子。蛋白质对细胞粘附和细胞周期也很重要,细胞粘附是细胞与邻近细胞相互作用和结合的过程,细胞周期是细胞DNA复制和两个子细胞产生的过程。
蛋白质的功能可以根据其与其他已知蛋白质的结构相似性来预测。
蛋白质结构
蛋白质分子由长链氨基酸组成。这些氨基酸序列组成了聚合物——多肽——一条由肽键连接的长而连续的氨基酸链。但是蛋白质的结构是一种独特的三维形状,比多肽更复杂。
蛋白质结构可以用四个不同的结构特征来描述:
- 蛋白质的一级结构是指组成多肽链的氨基酸序列。
- 二级结构描述了小段多肽链如何形成高度规则的形状。二级结构主要有两种:α-螺旋(有点像螺旋弹簧)和β-链或β-薄片(更像手风琴或褶皱)。
- 三级结构是指单个蛋白质分子的整体形状。多肽链折叠成紧密的球状结构。
- 四级结构是由多个蛋白质分子形成一个蛋白质亚单位,可以作为一个单一的蛋白质复合物。想象几个3D块组合在一起形成一个更大的形状。
实验技术,如X射线晶体学,核磁共振波谱,和双偏振干涉法可以用来确定蛋白质的结构。由此产生的蛋白质结构通常提交给在线蛋白质数据库,并可在互联网上自由访问。这意味着像Makigaki和Ishida这样的研究人员可以在他们自己的工作中引用这些已知的结构。
蛋白质结构预测
识别链中的氨基酸序列(一级结构)不足以区分蛋白质的整体结构。然而,给定一个氨基酸序列,可以使用数学建模技术生成蛋白质三级结构的模型,以提供全面的蛋白质结构预测。
到目前为止,已经发展了几种蛋白质结构预测技术。其中一些可以分类为物理化学(或从头)模拟,这是一种无模板建模方法。这些方法仅仅使用氨基酸序列来进行预测,并且需要巨大的计算能力。
其他技术通过利用两个序列高度相似时,其结构也相似的生物学事实来降低计算能力要求。具有相似结构的蛋白质被称为“同源物”,它们通常在进化上相互关联。使用同系物的技术可以分为基于模板的技术和同系物建模技术。
基于模板的建模从蛋白质的氨基酸序列开始,然后识别具有结构已知的相似序列的蛋白质——同源物。确定的同源物被用作结构模板,以建立三维模型,形成预测的目标蛋白的结构。目前的研究表明,基于模板的建模方法产生更准确的结果比从头模拟提供合适的模板和蛋白质序列比对。
一种新的基于模板的模型
Makigaki和Ishida正在使用机器学习模型开发一种新的基于模板的模型。机器学习是人工智能的一个领域,它建立在这样一个概念上:系统可以从数据中学习,识别模式并在很少或根本不需要人工干预的情况下做出决策。这种数据分析技术使分析模型的建立自动化。
序列比对
研究人员回顾了以前的方法,发现使用多重序列比对的序列图谱可以准确地检测同源性。因此,他们选择使用成对序列比对生成方法。序列比对包括将蛋白质的链或氨基酸序列排列成矩阵中的行,插入间隙以允许相似或相同的成分在连续的列中对齐。本质上,他们将氨基酸序列分解成“bitesize chunks”来构建模型。这有助于识别相似或相同的部分,这些部分可能是序列之间的结构或进化关系的结果。
当研究人员评估这种新的对齐生成方法的准确性时,他们发现它优于最先进的方法。
东京理工大学的研究小组随后利用机器学习来识别模型中已知同源物的结构排列。结构对齐是序列对齐的一种形式,通过比较两个或多个聚合物结构的形状和三维构象来确定它们之间的等效性。他们还使用动态规划,这是一种将大问题分解成越来越小的子问题的解决技术。小问题被解决,大问题的最优解被发现使用小问题的最优解。
关注对齐生成
该模型需要已知的结构相似蛋白质的信息,以便建立结构比对。通过使用从蛋白质结构分类中提取的训练数据集对已知结构相似的成对蛋白质进行成对结构比对来训练它。
与其他将序列比对生成与同源性检测相结合的方法不同,研究者的方法只关注比对生成。它们的输入包括一个查询和一个主题。查询的是目标氨基酸序列,对象是已知氨基酸序列,选择作为模板进行同源性检测。然后,该模型使用Smith-Waterman算法将它们的序列对齐。这将执行局部序列比对。Smith-Waterman算法不是一次性比较整个序列,而是通过比较所有不同长度的可能片段来确定两串蛋白质序列之间的相似区域,以优化替换得分。替代分数是一种相似性度量,对相似的字符给予较高的分数,对不同的字符给予较低或负的分数。该模型输出一个对齐得分和一个序列对齐,该序列对齐现在适合于进行同源性建模。这种技术被称为重新对齐。
该模型还使用k近邻分类模型来动态预测替代分数。k-近邻算法是一种用于模式识别的非参数方法,它简单而有效。在使用一个仔细分割的训练和测试数据集对这种方法进行评估后,研究人员能够比较他们预测的结构模型与最新方法生成的结构模型的准确性,以测量他们的序列比对质量。
高性能
同源性检测在生物信息学特别是蛋白质结构的研究中起着重要的作用。研究人员的新方法也可以应用于同源性检测,排序的对齐分数纳入其结果。该模型检测远程同源物(即具有相似结构和功能,但其序列相似性难以检测的蛋白质对)的能力被优先考虑,因为模型不能在没有模板的情况下生成。令人鼓舞的是,当研究人员评估这种新的对齐生成方法的准确性时,他们发现它比现有的最先进的方法表现得更好。
maigaki和Ishida观察到他们的模型的执行时间比预期的要长。这是由于k-最近邻算法和数据集的大小。他们提到,这项研究的自然延伸是采用更快的k-最近邻算法。他们也在考虑使用更高性能的技术,如卷积神经网络。
个人反应
在开发蛋白质结构预测模型的下一阶段,你有什么计划?