工程技术
2020年1月3日

蛋白结构预测机学习

Shuichiro Makigaki博士和TakashiIshida博士来自东京理工学院计算机科学系,正在开发一个新的序列对齐生成模型,使用机器学习和动态编程预测蛋白结构这一新方法也可以应用到同族学检测上,而同族学检测对生物信息学至关重要。

蛋白质函数受三维结构支配如果结构已知,则蛋白质函数可预测依据它与其他已知蛋白质结构相似性预测哪些分子或药物可绑定蛋白质和如何绑定能力作出这类知情预测对设计新药特别重要

通过实验判定蛋白质结构是一个昂贵、耗时和困难过程计算蛋白结构模型常用于方便预测过程Shuichiro Makigaki博士和TakashiIshida博士来自东京理工学院计算机科学系,正在开发新序列对齐生成法,该法使用机器学习和动态编程精确预测蛋白结构

显微镜Alanine 氨基酸

了解蛋白质
蛋白质是生物学、生物化学学和药学基本组件它们基本参与细胞过程,对生物机体正确运行至关重要。水后蛋白质组成人体组织中第二大成分

某些蛋白质有特定的机械或结构功能昆虫催化作用 蛋白质对新陈代谢至关重要Proteins还参与管理基本细胞活动并引导多细胞动作即细胞信号的通信过程它们对我们的免疫响应也具有根本意义 以抗体形式 大型Y形蛋白分子 用于消除病原体 包括病毒和病原体Proteins对细胞粘合都很重要, 细胞交互并附相邻细胞, 和细胞循环过程, 允许复制细胞的DNA 并生产两个子细胞

可预测蛋白质函数基于它与其他已知蛋白质结构相似性

蛋白质结构
蛋白质分子由长链氨基酸制成氨基酸序列组成聚合物-多孔化物-长连串氨基酸蛋白质结构独有三维形状 比聚石化复杂

3D结构 蛋白质叫Leptin

蛋白质结构可用四种不同的结构特征描述:

  • 蛋白质主结构表示组成聚化物链的氨基酸序列
  • 二级结构描述小段聚化链形成高度正则形状二级结构有两大类:A-Helix(像圈状spring)和e-strand或e-chepss
  • 三级结构指单个蛋白分子的整体形状聚差链折叠成紧凑球状结构
  • 四元结构组成时,数个蛋白分子组成蛋白子单元,可起单蛋白综合体作用。数三维块搭建大形状

X射线晶体学、NMR光谱学和双极分解测量等实验技术可用于确定蛋白质结构由此产生的蛋白质结构通常提交在线Protein数据库并免费上网访问表示Makigaki和Ishida等研究者可以参考这些已知结构做自己的工作

蛋白结构预测
识别链中氨基酸序列(主结构)并不足以辨别蛋白整体结构数学建模技术可生成蛋白质三级结构模型以提供综合蛋白结构预测

Makigaki和Ishida审查模型输出

其中一些蛋白结构预测技术迄今已开发其中一些可分类为物理化学类deno仿真免模版建模法光用氨基酸序列预测并需要大量计算功率

其它技术通过生物事实来减少计算功率需求,生物事实显示,当两个序列高度相似时,它们的结构也相似。类似结构的预言被称为'hologs',它们往往进化相联使用同族体技术可分类为模板建模或同族制建模

模版建模先从正在调查的蛋白质的氨基酸序列开始,然后鉴别结构已知的相似序列-同族体-蛋白质识别同族体用作结构模板构建三维模型,预测目标蛋白结构当前研究表明,基于模板的建模方法产生比新模拟更准确的结果,只要有合适的模板和蛋白序列对齐

新建模板模型
Makigaki和石田正使用机器学习模型开发基于模板的新模型机器学习是一个人工智能领域 概念上系统可以学习数据 识别模式 决策数据分析技术使分析模型构建自动化

Macigaki和石田审查并精炼模型

序列对齐
研究者对前方法的审查显示,序列剖面使用多序对齐可精确检测同系物因此选择使用双序对齐生成法顺序对齐需要将蛋白链或氨基酸序列排列成矩阵行并插入空白,允许相似或完全相同的组件相接列对齐本质上说,它们破译氨基酸序列为模型的biteize块这有助于识别相似或完全相同的段数,这些段数可能是序列间结构或进化关系的结果。

研究者评价新对齐生成法精度时发现它优于最先进方法

东京理工学院团队部署机器学习识别模型中已知同族体结构对齐结构对齐是一种序列对齐形式,试图通过比较两个或多个聚合物结构的形状和三维对齐性来确定这些聚合物结构的等值动态编程使用解题技术 将大问题分解成小小子题小问题解决,大问题最优解法使用小问题最优解法发现

聚焦对齐生成
模型需要已知相似质素信息以创建结构对齐培训方式是使用从Proteins结构分类取来的培训数据集对已知相似结构的蛋白展开双向结构对齐

不同于整合序列对齐检测的其他方法 研究人员方法只侧重于对齐生成输入由查询和主题组成查询即目标氨基酸序列,主体为已知氨基酸序列,选用同族检测模板模型使用Smith-Waterman算法对齐顺序执行局部序列对齐Smith-Waterman算法非同时比较全序,而是通过比较所有长度不等的可能区段优化替换分数来确定两个子串间相似区域替换评分相似度测量相似字符高分数和异字符低负分数模型输出对齐评分和序列对齐,现在适合同族建模技术称重对齐

积聚酸链组成蛋白质主结构

模型还使用k-Nearest邻里分类模型动态预测替代评分k-Near邻算法是一种非参数法,用于模式识别,既简单又强研究者使用精密分解训练测试数据集评价这一方法后,能够将预测结构模型的精度同最先进方法生成模型相匹配,以测量序列对齐质量

高性能
同义检测在生物信息学中起基本作用,特别是研究蛋白结构研究者新手法也可以应用到同质检测中 通过排序匹配分数模型检测远程同族体能力(即双蛋白结构功能相似但序列相似性难以检测)已被优先排序,因为模型没有模板无法生成令人鼓舞的是,当研究人员评价新对齐生成法精度时,发现它优于现有最先进方法

Macigaki和石田观察到模型执行时间比期望长这是由于k-Nearest邻里算法和数据集大小表示自然扩展研究使用快速k-Nearest邻里算法企业还考虑使用高性能技术,如卷积神经网络

个人响应

下一步开发蛋白结构预测模型有什么计划

推荐方法往往需要大量执行时间才能产生准确结果与其执行快速k-Near邻里计算,不如计划使用快速精确评分方法,如神经网络并开发高度敏感同质检测法,因为基于模板建模需要同质蛋白作为模板使用开发综合建模系统 综合检测工具

特征文章经研究团队批准创建协作制作 支持那些特征 帮助免费全球分发

想要多读点像这样的文章吗

签名寄信列表阅读最关你的事
签名上传

留答题

邮件地址不发布需求字段标记*