“大数据”分析的开源生物信息解决方案

Tim Griffin博士和Pratik Jagtap博士与来自明尼苏达大学的Galaxy-P团队一起，致力于在一个开源平台上开发多组数据分析的工作流程。他们目前正专注于使用基于银河的框架来研究基因组数据集与基于质谱的“组学”数据的整合。但从长远来看，他们的目标是扩大该平台，以应对许多其他“大数据”领域。

目前，对我们可以从下一代技术的复杂数据集发现我们可以发现的重大限制是我们分析它们的能力。这是蒂姆格里芬博士，普利克希特博士及其研究团队的工作的地方将发挥重要作用。

'大数据'时代
摩尔的法律预测，计算能力大约每两年加倍，而且，大功率机器的成本也将降低。然而，这不能无限期地继续，2017年可能是物理限制干预的重点点，其进展速度变得更加饱和。

但电脑权力增加了什么影响对科学的影响？其中一个主要进步一直是使用下一代高吞吐量技术生成数据的能力，从而导致“大数据”。虽然'大数据'已被用来定义许多数据集，但该术语通常对应于现在通常称为“OMIC Datasets” - 基因组学，代谢组科，蛋白质组学，转录组织和表观组织的名称，但几个。例如，在生物医学科学中，我们看到大规模，系统范围的方法越来越多地使用。这些包括1000个基因组项目，个性化医学的出现 - 针对个人需求和系统生物学量身定制，检查多个，互动途径作为一个巨大网络。

然而，对这些大型和复杂数据集的分析需要一个分析平台，该平台可以应对强烈的信息学需求，以及访问来自不同“组学”领域的不同软件的能力。许多湿工作台研究人员无法在本地获得这种水平的计算能力或专业知识，因此远程或云开放获取平台正在增加，用于获取必要的生物信息工具，以应对研究人员正在获得的复杂结果。

所有的解决方案
明尼苏达大学(University of Minnesota)的蒂姆·格里芬(Tim Griffin)博士、Pratik Jagtap博士和团队正在研究分析这些复杂数据集的解决方案。这是Griffin博士实验室和明尼苏达超级计算研究所之间的一个多学科合作项目，涉及软件开发人员、数据科学家和湿台生物研究人员。具体来说，该团队正专注于基于质谱(MS)的“组学”数据(代谢组学和蛋白质组学)，以及如何利用现有的开源框架银河。

其中一个主要的进步是使用下一代高吞吐量技术生成数据的能力，从而产生“大数据”。

简单地，质谱表示基于其质量对电荷比分类离子的高通量技术。一旦针对单个离子记录了某些签名，就可以将该信息用于鉴定肽，构建蛋白的构建块以鉴定肽。通过使用至少两个质量分析阶段，串联质谱（MS / MS）进一步膨胀。

银河平台
Galaxy最初在十年前开发，解决了基因组信息学中的问题。它可以在可扩展的计算基础架构上托管，有助于应对大数据量的问题，并且可以由全球的研究人员远程访问。由专家和软件开发人员团队支持，Galaxy在一个环境中集成了许多个人'OMICS工具，还具有许多促进工作流共享和再现性的功能。后者尤为重要，因为可能有多个研究项目可以利用一个特定的数据集或工作流程。数据共享和透明度还鼓励协作，并增加可以组合以最大化新颖调查结果的专家方法数量。

特别是，银河蛋白质组(Galaxy- p)团队正在研究如何将基因组和转录组数据与基于ms的蛋白质组数据整合在一起。在这里，他们的目标是验证由DNA或RNA水平上的序列变异导致的蛋白质序列变异的表达。这种方法被称为蛋白质基因组学，通常使用翻译在硅上的转录组数据来产生定制的蛋白质序列数据库。该数据库随后用于匹配通过MS技术获得的蛋白质。这种方法的主要优点是不需要现有的参考序列，因此可以识别以前可能未被检测到的新的蛋白质序列变异。这种分析还可以扩展到比较基因和蛋白质的表达水平。

与蛋白质素学组织类似，标准因子也基于与MS衍生的蛋白质组学数据的偏见数据的整合。然而，与先前的方法不同，这种集中在将它们与源自细菌群落（微生物胶质酶）的序列数据相结合。如前所述，Metagenomic数据在硅中翻译以产生蛋白质序列数据库。从原始数据派生的MS / MS峰列表与数据库匹配。一旦发现了感兴趣的肽，它们被分配到分类学并核实。使用工具进行诸如Megan的功能分析的工具进行额外的分析，提供有关微生物蛋白表达功能类别的信息。Metaprootomics可以为我们提供功能数据，以补充偏见方法的分类结果。这种方法的主要抽奖是，它可能用于分析来自不同样品类型的数据 - 从临床到环境样品。

Galaxy-P（galaxyp.org.)提供了理想的工具，可以帮助癌症研究人员确定哪些蛋白质序列可能在导致特定癌症的功能中发挥作用。Galaxy- p不仅为复杂分析提供了必要的工具，它还可能通过公共的星系平台培训非专业的实验科学家(tiny.cc / galaxyp-proteogenomics；z.umn.edu/metaproteomicsgateway）。该平台为用户提供了小型数据，用于访问和使用已发布的工作流程。现有的研究已经成功地使用了Galaxy-P平台来查看一系列主题，从冬眠哺乳动物的突果分析，急性呼吸窘迫综合征患者的肺蛋白表达。

超越无限
Griffin和Jagtap博士希望他们的工作将为整合多个“组学”数据集提供一个新颖的环境，并且这种方法将为未来的发现提供独特的机会。
到目前为止，Galaxy- p团队已经提高了Galaxy应对多重组学信息学诸多挑战的能力。除了一个有潜力开发蛋白质基因组学和元蛋白质组学工作流程的平台外，现在存在一个可访问的、统一的环境，以帮助非专家导航基于ms的蛋白质组学和代谢组学数据的分析。

下一步将继续涉及生物学研究人员的磋商，以帮助团队将其信息研究结果转化为基本的生物背景，并援助解决人类疾病的项目。该团队还将继续开发可视化工具，可以帮助解释输出数据。

此外，还有可能在分析中添加额外的组学层面。例如，代谢组学可以被包括在其中。使用这种方法，新发现的可能性是无限的。

问答

如果您的研究被授予相当数量的资金并授予对世界上最强大的计算机的访问权限 - 您会开发哪种信息工具？
一个从所有'OMIC'平台集成输出的工具，并提供“Google地球”等交互式视觉数据。这种工具对于生物学研究人员来说是非常有用的，以便为生物解释提供“数据景观”的概述，同时为验证和可操作的干预/随访提供感兴趣的地区的潜入机会。我们继续惊讶于，银河平台在具有挑战性的研究领域提供的分析深度令人着迷。另一个大道可能是使用这种强大的计算平台来使用较新的多OMIC工具重新分析现有的公开可用的蛋白质组学和转录组数据集，并开发用于新发现的工具。

在开发Galaxy-P的过程中，你们遇到的最大挑战是什么?
质谱数据多组分析工具和工作流程的开发在许多层面上带来了挑战。无论是在概念化阶段，还是在拨款申请阶段，或在工具选择或工作流程阶段，我们都把所有的挑战视为机遇。决定在《银河》中使用哪些有效的软件工具是一个挑战，理解许多不同的“经济学子领域”和不同的软件工具如何工作，以及哪些是功能方面的前沿。然而，最大的挑战和努力的优先事项一直是在不断出现的环境中保持工作流的相关性，在这种环境中，投入是多样化的，产出提供更深和更新的解释。

你被要求分析的最利基/最意想不到的数据集是什么?
生物学研究的广度和Galaxy-P工作流程的灵活性使我们接触到了许多有趣的数据集。从宏蛋白质组学和蛋白质基因组学的人类唾液数据集，到糖存在下的牙菌斑元蛋白质组，再到来自北太平洋的元蛋白质组研究。但最出乎意料的数据集是对地松鼠冬眠期间心肌蛋白表达的研究。人类心脏在20摄氏度及以下的温度下失去功能。这项研究试图揭示冬眠动物的心脏是如何承受这些低温的。我们相信，随着研究工作的继续，我们会看到更多这些有趣的数据集。

在未来，你认为Galaxy-P会成为一个基于桌面的工具，可以被世界上任何地方的任何人轻松普遍地使用吗?
研究界使用Galaxy平台进行基因组学研究已经有一段时间了，而且有一个稳定的开发者和用户生态系统，这使得这种情况可以持续下去。我们已经看到研究人员对使用Galaxy-P的兴趣逐渐增加，因为我们已经通过研究出版物、研讨会和全球演讲推广了它。与银河社区的开发人员和研究人员一起，我们一直致力于通过可下载的工具容器或公开实例使工作流可用，以便研究人员可以访问他们感兴趣的研究领域的预安装工具和工作流。对未来的展望是，研究人员将远程访问这些软件工具，它们被放置在强大的基于云的硬件上。

从这一点出发，你认为年轻学生和早期职业研究人员应该在他们的研究中接受强制性的生物信息训练吗?
绝对地！生物信息学已成为实验研究人员的必要研究技能。编程技巧使年轻的研究人员能够执行先前获得的数据的新型分析。对于用户来说，分析和数据解释技巧扩展了他们在其研究领域寻求更新途径的能力。我们强烈认为，生物信息学培训将有助于在编程和数据处理方面引入和磨损技能，并有助于扩大未来一代科学家所寻求的宽度和深度。“大数据”只会继续在生物学研究中产生，并且能够在生物学和计算科学方面发言两种语言将是一个关键技能，而且在未来几年内需要的需求。

在研究背后

蒂姆格里芬教授
明尼苏达大学

Pratik教授Jagtap
明尼苏达大学

Tim Griffin教授是蛋白质组学（Galaxy-P）项目的星系上的主要调查员，以及明尼苏达大学的质谱中心和蛋白质组学中心的教师总监。
Pratik Jagtap研究助理教授自2012年启动以来一直是Galaxy-P项目的联合领导，帮助开发和应用软件和工作流程，在宏蛋白质组学、蛋白质基因组学和最近的数据独立获取方法。

研究目标

Griffin和Jagtap博士的研究集中在Galaxy-P项目上——开发、测试、优化和应用多组学软件工具来解决各种生物问题，包括癌症和大数据研究。

资助者

美国国家科学基金会
国家健康研究院（NIH）

合作者

明尼苏达超级履历研究所
Galaxy软件平台开发人员
JetStream研究计算资源

创作共用许可证

(CC BY-NC-ND 4.0)

这个作品是根据Creative Commons attage-Noncommercial-Noderivatives 4.0国际许可证．

这意味着什么?

分享:你可以以任何媒介或格式复制和重新分发这些材料

“大数据”分析的开源生物信息解决方案

问答

本文是在研究团队的批准下创建的。这是一个合作制作，由那些特色的支持，免费援助，全球分发。

想阅读更多类似的文章吗？

注册到我们的邮件列表，阅读对你最重要的话题。

我有一个想法“大数据”分析的开源生物信息解决方案”

发表评论取消回复