理解数据科学时代子组的统计意义

统计模型通常用于从大量数据中获得推断。他们直接影响了几个学科，包括精密药物和个性化学习，依赖于个人和团体的信息，以便对特定干预对人口亚组的预期影响进行预测。虽然在大数据中找到令人印象深刻的关联相对容易，但是通过使用数据挖掘，这些关联可能是虚假的。Michigan大学的Xuming教授展示了如何更好地了解大数据时代的子组选择，以提供有效的统计分析，以援助不确定性的决策。

能力分析和提取有用信息的结构化或非结构化数据集太大或太复杂处理使用标准数据处理技术是一个关键,非常追求的目标在信息时代,尤其是在互联网技术的扩散。如今，大数据是一个流行词，在医学、学习、社会监控和电子商务等领域都有着深远的影响。大数据通常表现出的一个特征是数据异质性，这是一个事实，即收集数据的不同亚群体往往对特定干预有不同的行为或反应。

这在精确药物的情况下尤其重要，其中不同的亚组可以与新药或实验疗法不同。在这种情况下，其中一个问题是有意或无意中疏通子组效应的风险。当使用相同的数据来识别子组并量化效果大小时，可能会发生这种情况。因此引入的偏差可以影响分析的统计学意义，目前如何了解如何衡量此偏差以及如何验证从数据中汲取的结论。这是他和他的合作伙伴和前博士生博士博士（目前在哈佛大学的博士后学员）的研究工作的重点，通过应用严格的统计方法，是提出纠正偏差的方法和在一组数据中识别“最佳子组”的情况下绘制统计数据的结论。

量化统计显着性
统计测试可用于评估是否有关群体的给定索赔（“零假设”）是可信的。例如，假设一家票据索赔可以平均30分钟内送到您的房屋，但您认为这一索赔是不正确的。您的计数器索赔（“替代假设”）是，平均需要超过30分钟的交付。您如何以统计上有意义的方式测试您的假设？

一种明显的方法是将随机分娩量进行样本，并计算概率值（p值）以测试空假设。如果p值小（通常低于0.05），则存在强有力的证据，禁止零假设，并且您将更有可能拒绝餐馆的主张。虽然P值被广泛使用，但它们可能并不总是导致统计学上的结论，并且他们可以赋予自己误解和滥用。

在大数据时代更好地了解亚组选择，以便提供有效的统计分析以援助决策。

数据挖掘
统计分析的一个常见危险是，通过执行多次统计检验，只报告那些产生显著结果的案例，从而大幅增加假阳性的风险，从而确定数据中的统计显著模式。本质上，这相当于执行一个数据驱动的变量选择，并使用结果模型来推导统计推断(“选择后推断”)。例如，2018年Harkonen诉美国最高法院(United States Supreme Court)一案研究了在统计显著性检验中滥用p值导致虚假结论的情况。它还强调了在医学和药物发现的统计分析中解释p值所涉及的困难(和法律后果)。

教授他展示了如何更好地理解亚组选择，以便提供有效的统计分析，以援助决策，例如在临床试验中。WhyFrame / shutterstock.com.

2009年，制药公司InterMune的首席执行官斯科特·哈科宁(Scott Harkonen)因报告该公司开发的一种新药(Actimmune)的活性结果而被判犯有电信欺诈罪，该药物已获批准用于临床(并成功增加了其销量)。然而，由于药物有效性研究的统计意义不足，美国食品和药物管理局(FDA)没有批准该药物用于治疗广泛的、致命的肺部疾病。通过数据挖掘，Harkonen随后能够挖掘出一个非预先确定的种群亚群，他在其中确定了一个名义上统计上显著的生存效益。尽管FDA基于这一证据拒绝批准该药物，Harkonen还是发布了一份新闻稿，报告了该药物在其公司确定的人群亚组中具有统计学意义的生存益处。

Harkonen案例是一个引人注目的例子，表明涉及亚组的统计分析的歧义和复杂性，并且指向更清晰和稳健的统计分析方法，特别是在药物发现中。在临床试验中，新的待遇可能会因整体研究人群而略微有效，但对于人口亚组可能非常有前途。因此，我们不希望放弃子组标识，但需要具有用于分析数据的合适工具。

Harkonen案例是一个引人注目的例子，显示了涉及子组的统计分析的模糊性和复杂性.j main / shutterstock.com

消除统计推断中的偏差
贺建奎教授和郭博士最近的工作是从严格的数学角度出发，识别和使用人群亚组，从临床试验的结果中得出统计上有效的推论。他们工作的目的是通过讨论特设小组分析的统计有效性问题，提供一种评价小组选择的效果的方法，同时考虑到寻找小组所用的依赖数据的搜索。正如Harkonen试验所清楚显示的那样，这对临床试验的管理决策和监管审议具有重要意义。

在最近的出版物中，该团队重新分析了对受先进的非疑问Nonsmall-Cell-Cell肺癌影响的患者的实验治疗有效性的临床试验。初步研究（MONET1）似乎表明东亚患者对药物更敏感。但是，随后的研究（AMG-706）未能确认这一主张。

教授他对鉴定和使用人口亚组进行了严格的数学视角，从临床试验结果中获得统计学上有效的推论。MetamorWorks / shutterstock.com.

这些研究中的第一个问题是如何确定最佳选择的子组，即药物对该子组最有利的子组，并且可以使用各种算法来执行这项任务，例如基于机器学习或基于模型的方法。一旦确定了最佳选择的组，就需要评估亚组的选择有多好，是否需要进一步的临床试验。

Harkonen案例是一个引人注目的例子，它显示了涉及亚群体效应量化的统计分析的复杂性。

子群选择性偏差
不幸的是，从同一数据中识别出的最佳选择亚群的推论存在过度乐观的问题，并可能导致虚假的相关性，贺建奎和郭博士将这种现象称为“亚群选择偏差”。他们提出了一种基于重采样的方法来解决这个问题，该方法无模型，易于实现，并且提供了渐近清晰的推断，无论子组是预先定义的还是事后从数据中识别的。

将该程序的应用到MONET1研究表明，可以正确地占用亚组选择偏差，并且根据考虑了多少候选子组，初步试验可能在东亚亚组中展示统计学意义，同意随后的AMG-706研究。尽管已经找到了较大的偏置调整，因为候选子组的数量增加，但是在一定阈值之后，调整也被显示为快速升温。这使得他和GUO提出的方法几乎是有用的，即使在明确考虑所有潜在子组的情况下也是有用的。

个人反应

你所开发的统计学方法在解释大量和异质性的数据集时消除了偏差，这在临床试验数据中被证明是非常成功的。其他哪些大数据字段可能会从您的方法和开发的工具中受益?在那些可以确定最佳数据子组的情况下，还需要解决哪些余下的挑战?

我们最近的工作旨在获得临床试验中常用的随机实验数据，但我们提出的统计方法学可以进一步发展为观察性研究的亚组分析。

子组识别和分组效应的量化是大数据时代的有吸引力的选择，他们的应用可以在政策研究，个性化学习，营销和公共卫生方面找到。通过观察性研究，必须考虑多个偏见的偏见，而不仅仅是子组选择偏差。郭博士目前正在加利福尼亚大学伯克利加州大学合作，将我们的工作扩展到观察研究。

文章参考文献

郭,X;他,X(2020)。对临床试验中选定亚组的推断。美国统计协会杂志。https://doi.org/10.1080 / 01621459.202012140096

梅奥,D(2020)。试验的p值:选择性报告(反对)选择性报告的最佳实践指南。哈佛数据科学评论，2.1,1-20。https://doi.org/10.1162/99608f92.e2473f6a

在研究背后

Xuming教授他

何旭明教授于1989年获得伊利诺伊大学香槟分校统计学博士学位。他于2011年加入密歇根大学，担任H. C. Carver大学教授。他曾在新加坡国立大学和伊利诺伊大学香槟分校担任教职。他被选为美国科学促进会的会员。

研究目标

何旭明教授的研究兴趣包括稳健统计的广泛领域，包括分位数回归、选择后推理和半参数方法。他的跨学科研究旨在促进统计学在生物科学、气候研究、脑震荡研究和社会经济研究中的更好应用。

资金

美国国家科学基金会

合作者

郭新洲，哈佛大学博士后

引用这篇文章

DOI：10.32907 / ro - 114 - 8689

创作共用许可证

(CC BY-NC-ND 4.0)

这个作品是根据Creative Commons attage-Noncommercial-Noderivatives 4.0国际许可证．

这是什么意思？

分享：您可以在任何媒体或格式复制和重新分发材料

理解数据科学时代子组的统计意义

个人反应

本文是在研究团队的批准下创建的。这是一个合作制作，由那些特色的支持，免费援助，全球分发。

想阅读更多类似的文章吗？

注册我们的邮件列表，阅读对你来说最重要的主题。

发表评论取消回复