信息与技术

应用于生物信息学的无监督特征提取

在他的新书中,来自日本东京中央大学的Y-h田口教授采用了两种经典的数学方法,主成分分析和张量分解,并演示了如何在他的前沿研究中使用它们来进行特征选择。这两种无监督学习方法都被广泛应用于“大p小n”问题的特征提取。这本书使读者能够分析具有小样本和许多特征的数据集。它提供了一种分析大数据的快速算法,其输出很容易解释。

机器学习,一种自动化分析模型构建的人工智能(AI)应用程序进行数据分析,近期普及,因为它可以处理大量数据集。它基于系统可以学习的概念,识别模式,并从数据中删除或没有人为干预的数据做出决定。

机器学习技术是强大的设备,可利用诸如生物信息学的广泛应用,其中用于探讨生物分子之间的潜在机制和相互作用。它们还可用于预测蛋白质的结构和功能并鉴定疾病导致突变。此外,它们是生物标志物发现过程中的重要工具。

有监督的学习技术,如深度学习,从训练数据集学习答案,必须达到令人满意的性能水平,然后才引入新的数据集。监督学习虽然很流行,但由于需要大量的数据,其应用受到限制。相比之下,无监督学习方法可以自行发现数据中的模式,并可以执行更复杂的处理任务。

在他的新书中,未经监督的特征提取适用于日本东京的中央大学物理学教授Y-H Taguchi教授Y-H Taguchi教授提出了他对无监督学习的新应用。Taguchi教授采用两个古典数学技术,主成分分析和张量分解,并演示了它们如何用于在其前沿研究中进行特征选择。

bsd / shutterstock.com.

功能选择
特征选择是从数据集中选择相关特征的子集的过程,如变量、属性或预测器。当需要分析的特征数量较多且样本相对较少时,往往会采用特征选择方法。例如,它经常被用于分析DNA微阵列数据,在这些数据中,几十或数百个样本包含数千个特征。

维度的诅咒
田口教授对特征选择特别感兴趣,这种特征选择涉及从大量变量中选择少量关键变量。这些问题被称为“大p小n”问题。“大p”表示变量的大量数量,“小n”表示可用观测数据的非常少。这种困境被称为“维数的诅咒”,指的是与维数相比缺乏足够的观察,即相关特征的数量。这是一个长期未解决的问题。

读者的旅程
Taguchi教授设计了他的书,以便预期的受众,包括学生,研究人员和从业者,可以轻松掌握他的概念。他已经将这本书组织成三个部分,以读者通过特征提取技术与基本数学基础的旅程中,并在基因组科学中的各种数据问题中的应用。

Taguchi教授的技术可能特别有助于生物信息学,分析大量数据。CI照片/ shutterstock.com

数学制剂
这本书首先,Taguchi教授重新引入了线性代数的基本概念,包括从数据科学观点写的标量,矢量,矩阵和张量。他描述了矢量如何是标量,或者真正的数值,矩阵由矢量组成,并且张量由矩阵组成并继续展示其算术操纵。新功能的生成以及使用虚拟标量和向量来表示描述性功能,例如无法用真实值定义的颜色。这些早期章节还包含与工作解决方案的练习,因此读者可以练习方法并检查他们的理解。

然后向读者介绍主成分分析(PCA),作为矩阵分解的一部分,和张量分解(TD),两种可以降低数据集维数的嵌入技术。

PCA和基于TD的无监督特征提取方法是研究涉及生物标志物鉴定,基因表达和药物发现的生物问题的强大工具。

特征提取
Taguchi教授推出了功能提取,一种新功能的数据驱动生成器。特征提取通过从原始功能的组合创建新功能,减少了数据集中的功能数量,然后丢弃了新功能。新减少的功能集应总结大部分原始信息。这与特征选择不同,这倾向于对原始功能的重要性进行排名,并丢弃不太重要的,冗余和不相关的。(功能选择不会创建新功能。)

作者说明了主要组件分析和张量分解可以在各种特征提取和特征选择过程中使用,并演示其在合成数据集中的应用。

Taguchi教授的书籍专注于生物信息学的举例,但方法论可以跨学科应用。color4260 / shutterstock.com.

功能提取VS功能选择
选择是否使用特征提取或特征选择是复杂的,并且在问题的上下文而不是数学考虑的情况下依赖于高度。Taguchi的目标领域教授是生物信息学,他解释了特征选择偏好背后的原因。在生物信息学分析中,通常具有衡量单个特征的成本,因此测量较少的特征可以降低个人观测的成本。这意味着可以增加观察数,这可能导致更好的结果。

即使在成本不是问题的情况下,特征选择通常是更好的,因为每个特征都有自己的含义。作者举了一个基因是特征的例子,并指出,拥有有限数量的可以解释的基因比拥有结合大量无法解释的基因的特征更有用。

应用生物信息学
在他的书的最后一部分中,Taguchi教授提供了一种基因组科学的介绍,在展示了两种方法的应用,主要成分分析(PCA) - 基于无监督的特征提取和张量分解(TD)的无监督特征提取,大于P生物信息学中的小问题。

生物信息学主要研究DNA、mRNA(信使核糖核酸或RNA)和蛋白质。本书后几章的大部分分析集中在DNA甲基化和miRNA表达数据上。

田口教授的书是学生、研究人员、学者和实践者的宝贵资源。

DNA甲基化是一个生物学过程,涉及甲基添加到DNA分子中,这是正常发育所必需的。DNA甲基化与基因组印记、衰老、癌变和转座因子抑制等基本过程有关。(转座因子是一种DNA序列,它可以改变其在基因组中的位置,从而改变细胞的遗传特性。)

microRNA(miRNA)是植物,哺乳动物和一些病毒中的小非编码RNA(核糖核酸)分子。其功能包括帮助细胞对抗RNA病毒并调节基因的蛋白质或RNA的产生。
田口教授运用他的尖端方法分析包括心力衰竭、创伤后应激障碍(PTSD)、急性淋巴细胞白血病(ALL)、糖尿病、肾癌和肝硬化等复杂情况。在每种情况下,都有大量感兴趣的特征,但只有非常少的可用样本。

基于线性代数的方法提供了一种快速算法,用于分析具有容易解释的输出的大数据。

作者证明,与其他机器学习技术相比,基于pca的无监督特征提取是一种强大的方法。他还指出,为了充分受益于这项技术,用户需要对要分析的数据有深刻的理解。

基于td的无监督特征提取是最近才发展起来的。田口教授已经将它应用到许多他已经分析过的问题上,使用基于pca的无监督特征提取。他还提到了它在硅药物发现中的新应用。

无监督特征提取方法的优点
Taguchi教授解释说,与传统的监督方法相比,他无监督的方法更加强大。基于PCA的无监督功能提取和基于TD的无监督功能提取避免了在监督方法贴在训练数据的情况下,无法轻松发生的过度装备,并且不能足够推广以可靠地处理未经说明的数据。此外,他指出,无监督的方法与标签无关,因此更稳定。此外,在他的PCA和TC方法中,之前考虑了变量之间的相互作用,而不是在选择特征之后。

yurchanka siarhei / shutterstock.com

更广泛的影响
Taguchi教授的方法可以应用于各种大型P小问题,使他的读者能够分析具有小样本和许多功能的数据集。数据特征很容易被解释,因为输出可以追溯到各种输入特征。基于线性代数的方法提供了一种快速算法,用于分析具有容易解释的输出的大数据。

PCA和基于td的无监督特征提取方法是生物标记物识别、基因表达和药物发现等生物问题研究的强大工具,在本书和田口教授的大量高质量期刊出版物中都得到了证明。这本书是学生,研究人员,学者和实践者的宝贵资源。尽管在书中展示的应用集中在生物信息学上,但方法论框架是通用的,可以应用于数据科学的其他领域。

个人反应

最初启发了您对无监督特征提取的研究?

是的。由于水或偏振光出现之前和之后的颜色差异很大程度上取决于观察角度,而颜色彼此之间是非常不同的,我们可以区分它。

对于这项技术,你能想象到的最迷人、最蔚蓝的应用是什么?

我们人类只能有有利的智力,因为我们不是上帝。因此,任何类型的监督学习都受到自己智能的限制。然而,数据驱动的方法可以克服我们的智力,因为我们没有利用预知。

有一天,我在测试众多的监督学习方法时,不小心使用了PCA。我很惊讶它能告诉我我从来没有预料到的事情。我意识到,如果我们能进一步利用数据驱动的方法,我们就能超越我们自己的智能,因为数据就像上帝一样。从这个意义上说,无监督的方法是最接近数据之神的方法。

此功能文章是通过批准的研究团队特色而创建的。这是一个协作的生产,由特色辅助,全球分销提供支持。

想阅读更多类似的文章吗?

注册到我们的邮件列表,阅读对你最重要的话题。
报名!

留下一个回复

您的电子邮件地址将不会被公布。必需的地方已做标记*

感谢您表示有兴趣加入我们的邮寄名单和社区。下面您可以选择您希望我们与您互动的方式,我们将随时为您更新我们的最新内容。

您可以通过点击来自我们收到的任何电子邮件的页脚中的取消订阅链接来更改您的偏好或取消订阅,或通过联系我们audience@www.graceymay.com在任何时候,如果您对如何处理数据有任何疑问,请查看我们的隐私协议。

您想了解更多关于我们的服务吗?

我们使用MailChimp作为我们的营销自动化平台。通过点击下面提交此表格,您确认您提供的信息将被转移到MailChimp以按照其处理隐私政策条款。

订阅我们的免费刊物