工程技术
2019年7月12日

高维复杂时序数据分析综合工具箱

大数据大而复杂,传统方法和传统软件包无法处理西雅图华盛顿大学统计助理教授Fang Han博士正直面挑战综合统计工具箱由强健统计程序组成,包括可应用到高维数据集的免分布推理法和排名法设计这些方法的目的是为各种数据分析问题提供强效高效解决方案,并显示隐藏模式,汉博士用生物系统演示

技术的进步和大数据出现意味着大数高维非结构化数据组正变得常见需要收集、存储和处理股市分析 基因测试 磁共振成像 都产生大量高维数据数据集大而复杂,无法使用传统方法处理,传统软件包常常难处理

复杂数据挑战
统计员面临来自复杂资料的新挑战大量高维数据可偏斜显示非线性关系并含有无用信息或噪声,防止用传统参数或线性方法分析这些数据西雅图华盛顿大学统计助理教授Fang Han博士正直面挑战研究重点是高维统计理论及其应用,以解决经济、金融和科学领域的统计问题并承认这些方法必须能够捕捉到特定兴趣领域微妙性, 但也必须能够处理不同的建模假设和数据沾染他还提请注意统计理论和方法开发总体上落后于新技术开发

汇编新统计方法综合先进统计建模方法和创新概率程序,并基于高维统计理论

新建综合工具箱
汉大夫正在开发可应用到高维数据集的强健统计程序来创建统计工具箱汇编新统计方法综合先进统计建模方法和创新概率程序,以高维统计理论为基础汉大夫解释道 : “它基于事实 理论可以告诉你 方法使用或失效, 在后一种情况下,如何引导你 找到 `正确'解决办法

高维时序数据是医学数据采集的例例

高维免分布推理
汉大夫对高维免分布推理特别感兴趣 以统计推理为目的统计分析推导群度属性高维数据,同时尽量少推假设以股市数据为例,如果我们想知道特定股间是否有频繁交互作用传统上统计师假设返回分布正常(钟形曲线)分布,以便进行相关假设测试然而,这一假设没有必要并可能产生问题结果。股市回报显示高度偏斜,因此假设正常性不正确汉大夫发布免分发高维数据独立性测试论文 显示周密设计排名测试

Nonparametric/semiparametric regression
汉大夫工作的另一个重要方面 非参数/半参数回归回归性工具常用定位变量关系参数回归包含有限数参数估计(例如两个特征之间的线性关系)。相形之下,非参数回归需要估计无限维度参数,而半参数回归结合参数模型和非参数模型模型包含非参数分量,包含无限维度参数目标像参数回归法一样推导只包含有限多元素的特定参数子集

汉博士统计分析对科学数据分析有巨大的潜在影响

非参数/半参数回归的目的是创建统计程序,取观察数据并允许自动选择最合适的函数表示变量之间的联系汉博士正在设计强非参数/半参数回归程序 高维数据举例说,在基因测试中,当我们想调查特定疾病和数个基因标记之间的关系时,数据可能包含测量错误(数据沾染),错误统计模型可应用到数据中,结果不正确汉博士同行评审研究显示,他精心设计的非参数/半参数回归程序可避免这些危险并产生可靠结果

High-dimensional time series analysis
汉大夫对支持时间序列分析数学理论的研究显示,高维时间序列数据迄今相对很少受注意。几乎每个科学数据库都包含大量高维时间序列数据突出高维时序分析工具的紧急需求汉大夫提供时间频测参数方法 统计估计理论和创新概率工具都支持

随机矩阵理论
泛数学理论这些统计问题 成汉大夫的激情包括随机矩阵理论,探索大矩阵属性,矩阵元素随机生成igenvalues属性和igenvictors取自这些矩阵等,具有很强研究兴趣随机矩阵理论的理论结果可应用到统计学、经济学和其他领域众多问题,有可能开发高维问题统计技术汉大夫发布并研究更多结果 增强我们对大型随机矩阵机制的理解

综合工具箱应用
汉博士正在综合工具箱内开发并应用高维泛式回归模型、受形状约束回归模型、线性部分模型和 Copula时间序列模型等程序设计这些方法是为了在统计标准下实现最优性,提供能揭示各种科学问题隐型特征的强健统计

设计这些方法最优化,提供强健统计,可揭示生物系统隐型模式

举个例子,技术快速进步,特别是医学成像,意味着神经科学有大量数据可用形式为功能磁共振成像(fMRI)、电文摄影(EEGE)和正方射线射影数据(PET)。分析这些数据增加研究脑连通网络的潜力,为神经科学家提供探索大脑如何改变像阿尔茨海默氏病这样的条件的机会高维数据分析可以解答像脑功能连通性这样的初级问题

高维数据分析可深入了解股市数据

数量巨大的基因组测序数据也在收集中,高维数据分析也可以深入了解问题,例如转录因子如何控制基因活动转录因子控制基因信息从脱氧核糖核酸转寄率转录因子调节基因,通过开关确保基因在正确的细胞中表达正确时间并在整个细胞和生物生命中以适当数量表达

集成工具箱提供强力分析程序,当与神经科学家和生物学家的专业知识相结合时,这些问题可以调查,它们的精密性处理和数据隐藏模式可以进一步发现。

广度撞击
汉博士正与约翰霍普金斯大学、华盛顿大学和Fred Hutchinson癌症研究中心的基因学和神经科学研究员协作预测结果将对未来的基因组学和脑成像数据分析科学开发产生直接影响。汉大夫还设计软件包方便访问方法最后,他开发并开发前沿统计、概率和机器学习工具课程,为向相关领域科学家传播高维复杂时序数据分析综合工具箱提供工具

个人响应

最初是什么启发你对高维数据的兴趣
高维数据如今无处不在从实用角度讲,这些数据集需要新的谨慎统计分析从理论角度讲,这些数据集往往拥有丰富的隐藏信息结构启发统计师开发创新统计思想和新数学工具自始至终都为高维数据分析问题所吸引

未来综合工具箱计划是什么
有两种轨迹第一,我想深入挖掘高维强健统计轨迹比方说,我看到了排名统计分析大复杂数据的力量, 实现统计目标时少少丢失信息现在是我探索并挖掘潜力的合适时机第二,我很想加强当前与基因组学和神经科学专家的合作并探索更多协作机会工具箱提供适应具体问题的统计工具由科学家协作驱动 并被科学家使用

特征文章经研究团队批准创建协作制作 支持那些特征 帮助免费全球分发

想要多读点像这样的文章吗

签名寄信列表阅读最关你的事
签名上传

留答题

邮件地址不发布需求字段标记*