机器学习为基因组测序的进展铺平了道路
一些疾病,如囊性纤维化和镰状细胞贫血,是由于一个基因错误将它们归类为“单基因疾病”的结果。这些所谓的孟德尔疾病会代代相传,这给研究人员提供了一个机会:如果他们能修复基因错误,就能消除这种疾病。
基因组测序是确定生物体基因的DNA序列的过程,通常是为了识别DNA中的突变或错误。在过去的十年中,这项技术彻底改变了孟德尔病等遗传疾病的诊断,因为研究人员能够非常精确地检测样本中的基因变化。
一种新型测序工具
其中一个基因组测序工具是纳米孔第三代测序平台MinION,这是一个iPhone大小的便携式设备。由于不需要PCR扩增,MinION易于使用,尤其擅长读取非常长的DNA片段。“小黄人”由一层由蛋白质或纳米孔构成的细胞膜组成,电流通过该系统。纳米孔足够小,可以容纳单链核酸(DNA或RNA),当电流通过孔时,它会干扰电流。这一过程分为两步,被称为“碱基呼叫”(base-calling),它获取电流信号并输出一条分段曲线,然后在数小时内将其解码成相应的DNA序列。

尽管MinION提供了快速和易于获取的基因组测序,但某些DNA错误,即所谓的插入,经常无法在最终序列输出中识别出来。阿卜杜拉国王科技大学(KAUST)结构与功能生物信息学小组的高教授和他的团队的研究正是在这里展开的。研究人员指出,这一缺点主要是由于划分的基调用过程造成的,并提出了一种新的基调用方法WaveNano,借鉴了语音识别深度机器学习(一种能够在不受人为干扰的情况下从大数据集学习的人工智能)的技术。将纳米孔信号视为语音信号,可以有效地将基呼过程视为语音识别。WaveNano跳过了传统的分割步骤,直接解码原始信号序列,大大减少了indel错误的数量。
DeepSimulator提供模拟数据集来培训和测试测序分析工具,cwDTW提供高效的对齐解决方案
利用DNA读取原始信号,而WaveNano创新了将样本翻译成DNA序列的过程。
模拟验证
然后,需要用下游分析工具对大量输出数据进行分析,将小黄人的DNA序列与参考基因组进行比较,以识别重要的差异。由于该领域的快速发展,由于缺乏经验数据(如注释数据或患者样本),验证新的分析工具的效率并不总是可能的,这为新的方法铺平了道路。
高高教授和他的团队已经开发出用于纳米孔的第一个信号级模拟器:DeepSimulator,它模仿了使用深度学习的纳米孔测序的整个物理过程。使用DeepSimulator,研究人员能够生成示例数据集以从已知的起始序列或地面真理测试和验证分析工具。从给定参考基因组开始,DeadSimulator通过上下文的深度学习模型创建模拟电流信号,然后是输出最终模拟读取的基本呼叫过程。市场上只有一些模拟器用于纳米OCOIN技术,但是,它们都没有模拟从电流信号产生读取的关键步骤,这是新颖的矿物。与仅生成真实数据的统计模式的先前模拟器不同,DeepSimulator模拟了原始电流信号和核苷酸的精度高达97%。

除了作为一种生成标准数据集的工具,用于评估纳米孔测序数据分析的新方法,DeepSimulator还帮助研究人员更好地理解经验数据集。由于社区对使用DeepSimulator的高需求和定制模拟器的大量请求,高教授最近开发了DeepSimulator1.5。
另一个技术挑战是将原始信号序列与DNA读取序列进行比对,两者都非常长:纳米孔的DNA读取范围在10K到100K之间,而原始信号序列甚至要长10倍。为此,他们开发了一种高效的对齐算法cwDTW,它比原始的动态时间翘曲(DTW)算法快3000倍,同时实现了几乎100%的对齐精度。
高教授的团队在13.5%的患者中诊断出了遗传RNA变异
其他排序方法声明为“阴性”。
高教授将这些方法进一步推广到各个科学领域,测试了内部的端到端遗传疾病临床诊断、抗生素耐药性基因检测和基因组编辑的效果。在某些情况下,基因组测序系统漏掉了罕见的基因变异,如果突变没有及时发现,将对患者造成毁灭性的影响。通过标记和测序单个DNA分子,高教授和一组研究人员在人类干细胞中发现了由独特的基因编辑工具CRISPR-Cas9诱导的巨大结构变异。这既可以帮助安全检测和改进基因编辑技术,又可以作为对患者罕见基因组变异的准确评估。此外,高教授的团队还能够诊断出13.5%的基因RNA变异,这些患者此前通过其他测序方法被宣布为“阴性”。这项研究为将临床RNA诊断与基因组测序和分析相结合铺平了道路。

基因组诊断“随时随地”
通过他们的学术合作,高和莫李教授共同创立了初创企业,比赛基因组学,目的是随时随地提供实时基因组诊断'。Peregrine Genomics - 随时随地的准确生物医学基因组学
PAREGRINE基因组学系统结合了便携式的长读纳米孔序列仪和创新的数据分析解决方案,希望克服遗传诊断中目前的技术缺陷并加速其对人类医疗保健的应用。2019年9月,启动赢得了沙特阿拉伯的Taqadam竞赛,并在2020年10月的创业世界杯上的所有175,000名参与初创公司中排名第25次初创企业。使用算法比较来自测序器的患者样品的原始信号的感兴趣基因的参考序列,机器学习方法建立以实时检测突变。
在过去3年里,高教授和他的团队开发了一系列方法和算法,为纳米孔测序提供端到端的管道,涵盖从基础研究到实际和临床应用,以及技术转移的方方面面。
个人反应
根据你的研究,你认为基因组测序的下一步是什么?