预测机器学习的蛋白质功能和注释复杂途径
蛋白质是生物学的主要工作单元。识别和理解蛋白质所做什么对生物学家来说至关重要,希望能够解决驱动蜂窝过程的复杂相互作用和系统。虽然在潮湿的实验室中需要蛋白质功能最终验证,但研究人员首先需要一个假设以设计测定,然后可以定义蛋白质的可能功能。
用于预测蛋白质功能的生物信息学
生物学家可以用计算机建立这种基因功能的假设。随着基因组测序在实验实验室中的常规,计算基因功能预测也变得越来越重要。计算方法非常适合于功能预测,因为可以从识别基因和已知蛋白质或实验数据之间的相似性的数据库搜索来推断出基因的功能信息。序列相似性工具,如基本的本地对齐搜索工具(BLAST)是一种这样的方法,用于针对所有先前录制的序列搜索,并建议其可能的角色列表。
以前的计算方法问题
然而,现有的生物信息工具不能总是准确地预测蛋白质功能,并且通常最终在生物系统内结束不正确的注释蛋白质。当检测到高序列相似性时,传统的蛋白质功能预测工具通常是可靠的,但它们的准确性很快落在具有较低相似性的序列中。例如,当相似性分数低于一定水平时,酶功能均不差异。此外,如果未发现高度相似的序列,则在许多情况下,传统方法不会注释任何功能,留下许多基因未经发挥作用。另外,可以使用其他度量,例如三维结构,基因表达或交互数据中的相似性。然而,这些指标通常缺少许多正在调查的蛋白质,因此在可靠的研究中具有有限的适用性。
用于更好的准确性的新工具
最近,已经开发了几种新的蛋白质注释方法来提高整体预测准确性。其中一个开发人员是来自Purdue大学的Dr Daisuke Kihara,他们使用新的逻辑框架开发了功能预测方法。2009年,他的团队创建了一种自动预测算法,称为扩展相似度组(ESG)方法,该方法运行不断的比较系统,而不是单个搜索。从从第一次查询中找到的每个序列,ESG算法通过数据库运行第二个搜索。通过组合来自这种多级策略的结果,ESG方法显着提高了查询蛋白的功能评分,并且优于先前的功能预测算法。
然而,球队在这里没有停止。在2019年的纸张中,它们与传统的基于序列的预测组合了系统发育树施工工具,称为Phylo-PFP方法。他们首先证实,蛋白质序列的密切相似性与系统发育树上的蛋白质距离不相同。通过将这些距离添加到序列同源性分数中,蛋白质查询等级变得更加可靠,并且它们可以更准确地与其基因源相关联。不出所料,该研究建立了Phylo-PFP,显着提高了现有方法的功能预测精度。
蛋白质组功能注释
蛋白质函数注释通常在单蛋白 - 一函数方法上运行,但这种心态可以严重过度简化蛋白质功能宇宙。事实上,大多数实验发现与单一生物事件有关的数十种相互作用的蛋白质。为了了解整个蛋白质集的作用,它们的功能应根据整体从组中确定,即使每个单独蛋白质的功能都未知。这不是一个简单的任务。
来自Purdue University的戴西·库瓦拉博士开发了新的逻辑框架功能预测方法。
因此,Kihara博士的团队专注于一种新的计算方法,用于注释蛋白质组的功能。2019年,他们提出了一种迭代组函数预测(IGFP)方法,它在其核心上占据了全新的逻辑框架。IGFP算法将一组蛋白质视为输入,并预测整个组的功能以及其各个成员的作用。IGFP算法从多个源中混合序列数据并构建互补网络。然后该方法将蛋白质分离成具有功能相关性的簇,并基于功能和相互作用关系进行比较。
此外,系统自动假定一些蛋白质未知,并使用一系列其他比较特征来进行准确的预测。在该扫描期间,该算法考虑蛋白质 - 蛋白质相互作用,系统发育曲线相似性,基因共同表达,大规模途径相似性和基因本体性相似性。这种类型的综合组功能预测可以完全改善实际机制在工作中的实际机制的反映,例如发育或疾病导致的途径。
用多个功能识别蛋白质
除了分析蛋白质基团之外,Kihara团队还通过研究多功能蛋白来避开一步之外的单蛋白一函数方案。大多数生物信息工具没有考虑到蛋白质,特别是蛋白质,可以是多功能的。因此,Kihara实验室旨在预测查询蛋白是否是云光蛋白质 - 具有多种自主和通常不相关的功能的蛋白质。这些蛋白质难以注释,因为它们的功能不是基因组或蛋白质家庭,也不是与其他指标相连,例如共用切换机构。然而,这些蛋白质在诸如癌症的细胞疾病状态中起关键作用,因此识别它们是重要的。
为了解决问题,Kihara博士的团队制定了一种新的系统方法来研究月光蛋白质。2016年,该团队提出了一种自动化预测框架,它使用了几个基于非序列的数据来识别云光蛋白。它们使用机器学习分类器来预测多功能蛋白质,之后它们使用现有数据库验证了结果。Kihara博士的团队可以预测以98%的精度具有98%的基因序列数据的月亮蛋白质。即使没有可用的序列数据,系统也令令人印象深刻的75%的精度。
IGFP算法将一组蛋白质视为输入,并预测整个组的功能,以及其单独的蛋白质。
此外,在2018年的纸上,团队使用深入学习,从前发表的文学中嗅出云发蛋白质。它们的文本挖掘工具DextMP可以了解蛋白质是否具有多种功能,或者不是根据杂志出版物的信息和来自蛋白质数据库的功能描述的信息。利用系统文献加工工具,研究人员可以显着减少融合蛋白质的时间,并更接近澄清细胞内蛋白质的复杂相互作用。
改善和未来的预测
计算生物学迫切需要新的方法来准确地反映生物过程的真实性质。Kihara博士的团队已经创造了创新的脚步,远离传统的一种蛋白质一术效,并确定了整个蛋白质组的功能。它们的算法通过分层多种蛋白质特征和考虑到进化关系来占据基于序列的方法,这可能比简单的氨基酸骨架更好地指标。此外,团队的机器学习方法可以预测蛋白质是否适用于双重作用,以及这些蛋白质是否在先前的文献中描述了这种蛋白质。
尽管有这些有希望的发展,生物信息预测工具仅作为智能设计,并且仍然有一种方法可以实现蛋白质函数注释中的全自动,AI驱动的研究。总体而言,Kihara博士的团队表明,将以前的方法与来自OMICS实验的新兴的方法相结合,进展距离分析将来将进一步巩固未来功能预测精度。
个人反应
机器学习在蛋白质功能预测和理解生物过程中的作用是什么样的作用?