“大数据”分析的开源生物信息解决方案
目前,对我们可以从下一代技术的复杂数据集发现我们可以发现的重大限制是我们分析它们的能力。这是蒂姆格里芬博士,普利克希特博士及其研究团队的工作的地方将发挥重要作用。
'大数据'时代
摩尔的法律预测,计算能力大约每两年加倍,而且,大功率机器的成本也将降低。然而,这不能无限期地继续,2017年可能是物理限制干预的重点点,其进展速度变得更加饱和。
但电脑权力增加了什么影响对科学的影响?其中一个主要进步一直是使用下一代高吞吐量技术生成数据的能力,从而导致“大数据”。虽然'大数据'已被用来定义许多数据集,但该术语通常对应于现在通常称为“OMIC Datasets” - 基因组学,代谢组科,蛋白质组学,转录组织和表观组织的名称,但几个。例如,在生物医学科学中,我们看到大规模,系统范围的方法越来越多地使用。这些包括1000个基因组项目,个性化医学的出现 - 针对个人需求和系统生物学量身定制,检查多个,互动途径作为一个巨大网络。
然而,对这些大型和复杂数据集的分析需要一个分析平台,该平台可以应对强烈的信息学需求,以及访问来自不同“组学”领域的不同软件的能力。许多湿工作台研究人员无法在本地获得这种水平的计算能力或专业知识,因此远程或云开放获取平台正在增加,用于获取必要的生物信息工具,以应对研究人员正在获得的复杂结果。
所有的解决方案
明尼苏达大学(University of Minnesota)的蒂姆·格里芬(Tim Griffin)博士、Pratik Jagtap博士和团队正在研究分析这些复杂数据集的解决方案。这是Griffin博士实验室和明尼苏达超级计算研究所之间的一个多学科合作项目,涉及软件开发人员、数据科学家和湿台生物研究人员。具体来说,该团队正专注于基于质谱(MS)的“组学”数据(代谢组学和蛋白质组学),以及如何利用现有的开源框架银河。
其中一个主要的进步是使用下一代高吞吐量技术生成数据的能力,从而产生“大数据”。
简单地,质谱表示基于其质量对电荷比分类离子的高通量技术。一旦针对单个离子记录了某些签名,就可以将该信息用于鉴定肽,构建蛋白的构建块以鉴定肽。通过使用至少两个质量分析阶段,串联质谱(MS / MS)进一步膨胀。
银河平台
Galaxy最初在十年前开发,解决了基因组信息学中的问题。它可以在可扩展的计算基础架构上托管,有助于应对大数据量的问题,并且可以由全球的研究人员远程访问。由专家和软件开发人员团队支持,Galaxy在一个环境中集成了许多个人'OMICS工具,还具有许多促进工作流共享和再现性的功能。后者尤为重要,因为可能有多个研究项目可以利用一个特定的数据集或工作流程。数据共享和透明度还鼓励协作,并增加可以组合以最大化新颖调查结果的专家方法数量。
特别是,银河蛋白质组(Galaxy- p)团队正在研究如何将基因组和转录组数据与基于ms的蛋白质组数据整合在一起。在这里,他们的目标是验证由DNA或RNA水平上的序列变异导致的蛋白质序列变异的表达。这种方法被称为蛋白质基因组学,通常使用翻译在硅上的转录组数据来产生定制的蛋白质序列数据库。该数据库随后用于匹配通过MS技术获得的蛋白质。这种方法的主要优点是不需要现有的参考序列,因此可以识别以前可能未被检测到的新的蛋白质序列变异。这种分析还可以扩展到比较基因和蛋白质的表达水平。
与蛋白质素学组织类似,标准因子也基于与MS衍生的蛋白质组学数据的偏见数据的整合。然而,与先前的方法不同,这种集中在将它们与源自细菌群落(微生物胶质酶)的序列数据相结合。如前所述,Metagenomic数据在硅中翻译以产生蛋白质序列数据库。从原始数据派生的MS / MS峰列表与数据库匹配。一旦发现了感兴趣的肽,它们被分配到分类学并核实。使用工具进行诸如Megan的功能分析的工具进行额外的分析,提供有关微生物蛋白表达功能类别的信息。Metaprootomics可以为我们提供功能数据,以补充偏见方法的分类结果。这种方法的主要抽奖是,它可能用于分析来自不同样品类型的数据 - 从临床到环境样品。
Galaxy-P(galaxyp.org.)提供了理想的工具,可以帮助癌症研究人员确定哪些蛋白质序列可能在导致特定癌症的功能中发挥作用。Galaxy- p不仅为复杂分析提供了必要的工具,它还可能通过公共的星系平台培训非专业的实验科学家(tiny.cc / galaxyp-proteogenomics;z.umn.edu/metaproteomicsgateway)。该平台为用户提供了小型数据,用于访问和使用已发布的工作流程。现有的研究已经成功地使用了Galaxy-P平台来查看一系列主题,从冬眠哺乳动物的突果分析,急性呼吸窘迫综合征患者的肺蛋白表达。
超越无限
Griffin和Jagtap博士希望他们的工作将为整合多个“组学”数据集提供一个新颖的环境,并且这种方法将为未来的发现提供独特的机会。
到目前为止,Galaxy- p团队已经提高了Galaxy应对多重组学信息学诸多挑战的能力。除了一个有潜力开发蛋白质基因组学和元蛋白质组学工作流程的平台外,现在存在一个可访问的、统一的环境,以帮助非专家导航基于ms的蛋白质组学和代谢组学数据的分析。
下一步将继续涉及生物学研究人员的磋商,以帮助团队将其信息研究结果转化为基本的生物背景,并援助解决人类疾病的项目。该团队还将继续开发可视化工具,可以帮助解释输出数据。
此外,还有可能在分析中添加额外的组学层面。例如,代谢组学可以被包括在其中。使用这种方法,新发现的可能性是无限的。
问答
如果您的研究被授予相当数量的资金并授予对世界上最强大的计算机的访问权限 - 您会开发哪种信息工具?
在开发Galaxy-P的过程中,你们遇到的最大挑战是什么?
你被要求分析的最利基/最意想不到的数据集是什么?
在未来,你认为Galaxy-P会成为一个基于桌面的工具,可以被世界上任何地方的任何人轻松普遍地使用吗?
从这一点出发,你认为年轻学生和早期职业研究人员应该在他们的研究中接受强制性的生物信息训练吗?
感谢分享这篇文章,这是一篇非常有用的文章。