机器学习为基因组测序的进展铺平了道路
一些疾病,如囊性纤维化和镰状细胞贫血,是由于一个基因错误将它们归类为“单基因疾病”的结果。这些所谓的孟德尔疾病会代代相传,这给研究人员提供了一个机会:如果他们能修复基因错误,就能消除这种疾病。
基因组测序是确定生物体基因的DNA序列的过程,通常是为了识别DNA中的突变或错误。在过去的十年中,这项技术彻底改变了孟德尔病等遗传疾病的诊断,因为研究人员能够非常精确地检测样本中的基因变化。
一种新型测序工具
其中一个基因组测序工具是纳米孔第三代测序平台MinION,这是一个iPhone大小的便携式设备。由于不需要PCR扩增,MinION易于使用,尤其擅长读取非常长的DNA片段。“小黄人”由一层由蛋白质或纳米孔构成的细胞膜组成,电流通过该系统。纳米孔足够小,可以容纳单链核酸(DNA或RNA),当电流通过孔时,它会干扰电流。这一过程分为两步,被称为“碱基呼叫”(base-calling),它获取电流信号并输出一条分段曲线,然后在数小时内将其解码成相应的DNA序列。
尽管MinION提供了快速和易于获取的基因组测序,但某些DNA错误,即所谓的插入,经常无法在最终序列输出中识别出来。阿卜杜拉国王科技大学(KAUST)结构与功能生物信息学小组的高教授和他的团队的研究正是在这里展开的。研究人员指出,这一缺点主要是由于划分的基调用过程造成的,并提出了一种新的基调用方法WaveNano,借鉴了语音识别深度机器学习(一种能够在不受人为干扰的情况下从大数据集学习的人工智能)的技术。将纳米孔信号视为语音信号,可以有效地将基呼过程视为语音识别。WaveNano跳过了传统的分割步骤,直接解码原始信号序列,大大减少了indel错误的数量。
DeepSimulator提供模拟数据集来培训和测试测序分析工具,cwDTW提供高效的对齐解决方案
利用DNA读取原始信号,而WaveNano创新了将样本翻译成DNA序列的过程。
模拟验证
然后,需要用下游分析工具对大量输出数据进行分析,将小黄人的DNA序列与参考基因组进行比较,以识别重要的差异。由于该领域的快速发展,由于缺乏经验数据(如注释数据或患者样本),验证新的分析工具的效率并不总是可能的,这为新的方法铺平了道路。
高教授和他的团队开发了首个纳米孔信号级模拟器:DeepSimulator,利用深度学习模拟纳米孔测序的整个物理过程。使用DeepSimulator,研究人员可以生成样本数据集,以测试和验证已知的起始序列或基础事实的分析工具。DeepSimulator从给定的参考基因组开始,通过上下文依赖的深度学习模型创建模拟电流信号,然后通过基本调用过程输出最终的模拟读取。目前市场上只有少数几款纳米孔小黄人技术模拟器,但是没有一款能够模拟从电流信号中产生读取的关键步骤,这对小黄人来说是一种新颖的技术。与之前仅从真实数据的统计模式生成读取数据的模拟器不同,DeepSimulator可以模拟原始电流信号和核苷酸读取,准确率高达97%。
除了作为一种生成标准数据集的工具,用于评估纳米孔测序数据分析的新方法,DeepSimulator还帮助研究人员更好地理解经验数据集。由于社区对使用DeepSimulator的高需求和定制模拟器的大量请求,高教授最近开发了DeepSimulator1.5。
另一个技术挑战是将原始信号序列与DNA读取序列进行比对,两者都非常长:纳米孔的DNA读取范围在10K到100K之间,而原始信号序列甚至要长10倍。为此,他们开发了一种高效的对齐算法cwDTW,它比原始的动态时间翘曲(DTW)算法快3000倍,同时实现了几乎100%的对齐精度。
高教授的团队在13.5%的患者中诊断出了遗传RNA变异
其他排序方法声明为“阴性”。
高教授将这些方法进一步推广到各个科学领域,测试了内部的端到端遗传疾病临床诊断、抗生素耐药性基因检测和基因组编辑的效果。在某些情况下,基因组测序系统漏掉了罕见的基因变异,如果突变没有及时发现,将对患者造成毁灭性的影响。通过标记和测序单个DNA分子,高教授和一组研究人员在人类干细胞中发现了由独特的基因编辑工具CRISPR-Cas9诱导的巨大结构变异。这既可以帮助安全检测和改进基因编辑技术,又可以作为对患者罕见基因组变异的准确评估。此外,高教授的团队还能够诊断出13.5%的基因RNA变异,这些患者此前通过其他测序方法被宣布为“阴性”。这项研究为将临床RNA诊断与基因组测序和分析相结合铺平了道路。
基因组诊断“随时随地”
通过学术合作,高教授和李莫共同创立了Peregrine Genomics,目标是“随时随地”提供实时基因组诊断。游隼基因组学-随时随地准确的生物医学基因组学
Paregrine Genomics系统将便携式长读纳米孔测序仪和创新的数据分析解决方案结合在一起,希望克服目前基因诊断的技术缺陷,加快其在人类健康领域的应用。2019年9月,该初创企业在沙特阿拉伯的Taqadam竞赛中获胜,并在2020年10月举办的创业世界杯(Entrepreneurship world Cup)上,在来自世界各地的所有17.5万家参与创业的企业中排名前25位。利用一种算法,将感兴趣基因的参考序列与来自测序器的患者样本原始信号进行比较,建立机器学习方法来实时检测突变。
在过去3年里,高教授和他的团队开发了一系列方法和算法,为纳米孔测序提供端到端的管道,涵盖从基础研究到实际和临床应用,以及技术转移的方方面面。
个人反应
根据你的研究,你认为基因组测序的下一步是什么?