信息与技术

一个用于高维复杂和时间序列数据分析的集成工具包

大数据可能过于庞大和复杂,传统方法和传统软件包无法处理。西雅图华盛顿大学(University of Washington)统计学助理教授韩方(Fang Han)博士正在正面应对这一挑战。他正在创建一个集成的统计工具包,包括健壮的统计过程,包括无分布推理和基于秩的方法,可以应用于高维数据集。这些方法旨在为各种数据分析问题提供稳健而有效的解决方案,揭示隐藏的模式,正如韩博士用生物系统演示的那样。

技术的进步和大数据的出现意味着大量高维、非结构化数据正变得普遍;因为需要收集、存储和处理它们。例如,股票市场分析、基因测试和磁共振成像都会产生大量的高维数据。这些数据集太大太复杂,无法用传统方法处理,而传统软件包往往难以处理。

复杂数据的挑战
统计学家面临着来自这些复杂数据的新挑战。这些大量的非常高维的数据可能是倾斜的,表现出非线性关系,包含无用的信息或噪声,使它们无法用传统的参数或线性方法进行分析。西雅图华盛顿大学统计学助理教授韩方博士正直面这一挑战。他的研究重点是高维统计理论及其应用,以解决经济、金融和科学领域的统计问题。他强调要求统计方法可以扩大处理大型数据集和承认,而这些方法必须能够捕获感兴趣的特定区域的微妙之处,他们也必须能够应对不同的建模假设和数据污染。他还指出,统计理论和方法的发展普遍滞后于新技术的发展。

这些新颖的统计方法结合了先进的统计建模方法和以高维统计理论为基础的创新概率程序。

一个新的集成工具箱
韩博士正在开发一种可以应用于高维数据集的稳健的统计程序,从而创建一个统计工具包。这些新颖的统计方法结合了先进的统计建模方法和以高维统计理论为基础的创新概率程序。韩博士解释说:“理论可以告诉你什么时候一种方法可行,什么时候行不通,如果是后一种情况,它就会引导你找到一个‘正确的’解决方案。”

高维时间序列数据是医学数据采集中的常规数据。

高维传播变为免费推理
韩博士对高维无分布推理特别感兴趣,其目的是在尽可能少的假设的情况下,在高维数据上执行统计推理,即推断总体属性的统计分析。以股票市场数据为例,如果我们想知道特定股票之间是否存在频繁的交互。传统上,统计学家会假设收益分布为正态分布(钟形曲线),因此他们会进行相关的假设检验。然而,这种假设是没有必要的,而且很可能产生问题的结果。股市回报已被证明是高度扭曲的,因此正常的假设是不合理的。韩博士发表了他关于高维数据独立性的无分布检验的工作,在那里他展示了一种精心设计的、基于秩的检验可以在最小的假设下对此类问题产生稳健的结果。

非参数和半参数回归
韩博士工作的另一个重要领域是非参数/半参数回归。回归是用来定位变量之间关系的流行工具。参数回归涉及对有限数量的参数(例如,两个特征之间的线性关系)的估计。相比之下,非参数回归涉及对无限维参数的估计,而半参数回归则结合了参数模型和非参数模型。由于包含非参数分量,该模型涉及到无限维参数;而目标,像参数回归一样,是推断只包含有限多元素的特定参数子集。

韩博士的统计分析对科学数据分析有着巨大的潜在影响。

非参数/半参数回归的目标是创建一个统计程序,采用观察数据,并使自动选择最合适的函数来表示变量之间的联系。Han博士正在为高维数据设计稳健的非参数/半参数回归程序,其中异常值、数据污染和模型错误对结果的影响最小。例如,在基因检测中,当我们想调查一种特定疾病和一些基因标记之间的关系时,数据可能包含测量误差(数据污染),数据可能应用错误的统计模型,结果可能是错误的。然而,韩博士的同行评比研究表明,他精心设计的非参数/半参数回归程序可以避免这些危险,产生可靠的结果。

高维时间序列分析
韩博士对支持时间序列分析的数学理论的研究表明,高维时间序列数据迄今为止受到的关注相对较少。然而,几乎每个科学数据库都包含大量的高维时间序列数据。这突出了对高维时间序列分析工具的迫切需求。韩博士提供了时间和频率监测参数的方法,这些方法得到了统计估计理论和创新的概率工具的支持。

随机矩阵理论
这些统计问题引发的一般数学理论已经成为韩博士的热情所在。这包括随机矩阵理论,探索大型矩阵的性质,其中矩阵的元素是随机生成的。例如,由这些矩阵导出的特征值和特征向量的性质是研究热点。随机矩阵理论的理论结果可以应用于统计、经济学等领域的许多问题,具有发展高维问题的统计技术的潜力。韩博士已经发表并正在研究更多的结果,以加强我们对大型随机矩阵机制的理解。

集成工具包的应用程序
在集成的工具包中,Han博士正在开发和应用程序,如高维广义回归模型、形状约束回归模型、部分线性模型和copula时间序列模型。这些方法的设计目的是在统计标准下达到最优,提供可靠的统计数据,可以揭示各种科学问题中的隐藏模式。

这些方法被设计为最优的,提供了可靠的统计数据,可以揭示生物系统中隐藏的模式。

例如,技术的快速发展,特别是医学成像,意味着神经科学拥有大量的数据,这些数据以功能磁共振成像(fMRI)、脑电图(EEG)和正电子发射断层扫描(PET)数据的形式存在。对这些数据的分析增加了研究大脑连接网络的潜力,为神经科学家提供了探索大脑如何随着阿尔茨海默氏症等疾病的变化的机会。对这些高维数据的分析可以为大脑功能连接等基本问题提供答案。

高维数据分析提供洞察股票市场数据。

大量的基因组测序数据也正在被收集,高维数据分析也可以为了解转录因子如何控制基因活动等问题提供见解。转录因子是一种蛋白质,它控制从DNA到信使RNA(核糖核酸)的遗传信息的转录速率。转录因子通过开启和关闭基因来调节基因,以确保基因在细胞和生物体的整个生命周期中以正确的时间和适当的数量在正确的细胞中表达。

集成的工具箱提供了强大的分析程序,当结合神经科学家和生物学家的专业知识时,这些问题可以被调查,它们的微妙之处和隐藏的模式在数据中可以被进一步发现。

更广泛的影响
韩博士正在与约翰霍普金斯大学、华盛顿大学和弗雷德哈钦森癌症研究中心的基因组和神经科学研究人员合作。预计研究结果将对基因组和脑成像数据分析的未来科学发展产生直接影响。韩博士还在设计软件软件包,以方便使用他的方法。最后,他已经开发并正在开发尖端统计、概率和机器学习工具的课程,这将为在相关领域工作的科学家提供一个传播高维、复杂和时间序列数据分析集成工具包的工具。

个人反应

最初是什么激发了你对高维数据的兴趣?
高维数据现在无处不在。从实用的角度来看,这些数据集需要新的和仔细的统计分析。从更理论上的角度来看,这些数据集通常拥有丰富的隐藏信息结构。它们激励统计学家开发创新的统计思想以及新颖的数学工具。我自己也经常被高维数据分析中出现的问题所吸引。

您对集成工具箱的未来计划是什么?
有两条轨迹。首先,我希望沿着高维稳健统计的轨迹深入挖掘。例如,我看到了排名统计在分析大的复杂数据方面的力量,在很少丢失信息的情况下实现统计目标。现在正是我探索和开发这里潜力的好时机。其次,我希望加强我目前与基因组和神经科学专家的合作,并探索更多的合作机会。该工具包提供了针对特定问题量身定制的统计工具。它的动机是与科学家的合作,也将被他们使用。

这篇特写文章是经过研究团队的批准创建的特写。这是一个协作产品,由那些特色援助免费,全球发行。

想阅读更多类似的文章吗?

注册我们的邮件列表,阅读对你来说最重要的主题。
报名!

留下一个回复

您的电子邮件地址将不会被公布。必填字段被标记

感谢你表示有兴趣加入我们的邮寄名单和社区。下面您可以选择您希望我们如何与您互动,我们会让您更新我们的最新内容。

您可以更改您的偏好或取消订阅,请单击您从我们收到的任何电子邮件页脚中的取消订阅链接,或通过以下方式联系我们audience@www.graceymay.com任何时候,如果您对我们如何处理您的数据有任何疑问,请查看我们的隐私协议。

您想了解更多关于我们的服务吗?

我们使用MailChimp作为我们的营销自动化平台。点击以下提交此表格,即表示您确认您所提供的资料将会传送至MailChimp,以便按照他们的要求处理隐私政策条款。

订阅我们的免费出版物