健康和医学

使用参数伪观察的回归模型

生存数据的统计分析是由萨尔堡大学医院,丹麦和他的同事的奥尔堡大学医院生物统治家进行的研究焦点。在临床研究中未观察到一些患者的实际存活时间,并据审是审查。本研究提供了一种新的方法,可以在没有审查的情况下将这些时间到事件数据转换为数据集。使用柔性参数模型生成伪观察,并更换原始审查的观察结果。与传统的非参数方法相比,广泛的模拟显示最终回归估计的不确定性的大幅降​​低。

医学研究经常涉及生存数据的统计分析,也被称为时间-事件数据。这里,感兴趣的结果是事件发生或任务完成之前的预期时间长度。生存数据的一个独特特征是,在研究结束或随访期间,肿瘤复发、出院甚至死亡等事件可能不会发生在所有患者身上。因此,对于一些患者来说,实际生存时间仍然未知,生存时间被删减。审查表明观察期在事件发生之前就结束了,所以研究人员将不知道这些患者何时或是否发生了事件。

传统的逻辑和线性回归方法不适合分析时间 - 事件数据,因为它们不能具有所建模结果的事件和时间功能。此外,传统的回归方法不配备处理审查的现象,如果推论是有效的,则必须在分析中占分析。

对此类审查的时间 - 事件数据的分析是MartinNygårdHohansen,丹麦Aalborg大学医院和他的同事的生物统治家MartinNygård约者进行的研究焦点。

组合灵活的参数建模和伪观测意味着这种新颖的建模方法比非参数方法产生更精确的伪观察。

对经过审查的生存数据进行建模
近50年来,Cox比例风险模型一直是生物统计学中用于模拟经过审查的生存数据的主要技术。由于基线危险函数未指定,该模型被归类为半参数模型。这可能意味着对基线危险的关注很少。

危险功能用于模拟生存分析中数据的分布。它用于将时间模型到后续行动期间任何特定时间点的风险的时间可以随时间的函数(时间可能是患者年龄)而变化。基线危险是危险功能,所有协变量都设置为零。在本申请中,基线存活率几乎可以被视为“平均”参与者的生存。基线危险功能与疾病的时间顺利相关,并且可能具有医学兴趣。估计它有效地需要参数模型,这是一种模型,该模型捕获其预测所需的所有信息,从有限的参数集中提供了对生存概率的精确估计。此外,参数方法将更好地理解所研究的现象。

非参数Kaplan-Meier方法通过一个步进函数来估计超出特定时间点的未调整存活概率。相比之下,约翰森的方法使用平滑的参数基础伪观测,以产生更精确的估计。

虚假的观察结果
约翰森的研究建立在一种替代方法的基础上,这种方法已经发展了20年。这涉及到转换经过审查的数据集,并应用广义线性模型,以估计关联度量,量化两个或多个变量之间的关系。他解释说,转换后的数据被称为伪观测。伪观测方法包括将时间-事件数据转换为数据集而不进行审查。这个新的数据集可以用来代替原先经过审查的观测结果。

虽然这种创新方法是完全参数化的,但它没有对潜在的时间到事件数据施加任何分布假设。

这种变换通常采用累积关联函数的非参数估计的形式。累积发病率函数给出了在特定时间内死于特定原因的患者的比例。该功能还考虑到患者在研究期间可能死于其他竞争原因。这种转换通常基于生存数据的Kaplan-Meier估计量或存在竞争风险时的alen- johansen估计量。卡普兰-迈耶方法包括估计超出特定时间点的未调整的存活概率。aallen - johansen估计量是Kaplan-Meier方法处理竞争风险的扩展。

Johansen使用了一个典型的临床研究,比较暴露和非暴露的个体,以评估非参数和参数伪观察方​​法的性能。depositphotos.com

一种新的灵活建模方法
Johansen已经制定了一种不同的方法来计算由柔性参数模型后面的理论进行伪观察,以进行时间 - 到事件数据。灵活的参数生存模型可以捕获各种危险功能形状(即绘制危险功能时)使用样条键来模拟日志累积危险功能。花键是用于平滑噪声数据的功能估计。灵活的参数生存模型还可以包括依赖于时间的效果,以实现更大的灵活性。

在这种新方法中,基线对数累积风险函数使用样条函数建模。基于样条的危险函数估计与伪观测方法相结合,参数伪观测是通过累积发生率比例(在特定时间间隔内体验感兴趣结果的参与者比例)的估计产生的。累积关联比例由柔性参数模型得到。约翰森描述了柔性参数建模和伪观测的结合如何意味着这种新的建模方法比非参数方法产生更精确的伪观测。

由此产生的参数伪观测值可用于回归模型中估计绝对和相对关联测度。虽然这种创新方法是完全参数化的,但它没有对潜在的时间到事件数据施加任何分布假设。

depositphotos.com

仿真策略
研究人员创建了七种不同的场景来评估非参数和参数伪观察方​​法的性能。一般设置是典型的临床研究,比较暴露和非暴露的个体。在每种情况下,一个方面都有变化。个人在6年期间进入研究。在应计期开始后,随访持续13年,所以个人参加7至13岁。固定样本大小设定为n = 500.对于每种情况,总体事件概率(累积发病率比例)估计在10年。在10年内还评估了两种暴露组的风险差和风险效应措施。在每个场景中,研究人员生成了数据集的5,000个复制。对于每种样品,将50%的受试者被认为暴露,50%没有出现。然后从指数分布模拟时间到事件数据。 Uniform and independent loss-to-follow-up censoring was also included.

仿真结果
模拟分析显示,与由传统非参数方法产生的伪观测相比,研究人员的新方法产生的参数估计变异性降低。Johansen观察到,估计变异性的减少取决于分析时间点之后的额外后续时间和在分析时间点的风险规模的尺寸。此外,观察到的可变性的降低转化为所需的样品尺寸的降低高达127%。这在介入研究中提供了显着的增益,特别是当收集数据昂贵和/或耗时时。

获得效率的机制
约翰森发现了两种机制,有助于这些新的参数伪观察的效率的增益。首先,使用超出分析时间点的附加信息;这是因为可以使用来自整个观察到的随访期间的事件的信息来适合参数方法的样条。相反,非参数伪观察不考虑分析时间点之后发生的任何事件。其次,研究人员观察到,当风险集非常小时,非参数估计器是不稳定的,因为非参数估计器中的跳跃的大小取决于在该特定时间内设定的风险的大小。这导致估计的累积发病率更大的不确定性。

这一广泛的模拟研究表明,与传统的伪观测方法相比,研究者的伪观测计算方法是新颖的。研究表明,该方法能显著降低最终回归估计的不确定性。研究人员和他的同事发表了一个Stata语法示例,演示了如何计算参数伪观测值,并估计特定时间点的累积发病率比例、风险差异和风险比。

个人反应

什么激发了您开发一种计算伪观察的新方法?

本研究的潜在动机是,我们正在寻找一种方法来计算更复杂的数据结构的伪观测值,即区间截尾数据,在该数据结构中,我们只观察了随访过程中不同时间点的事件状态。在这种情况下,当我们观察病人的事件时,我们所知道的只是该事件在我们上次观察病人时发生过。如果我们对一组患者进行常规检查,例如疾病康复或医疗设备植入后,这种情况经常发生。

本文是在研究团队的批准下创建的。这是一个合作制作,由那些特色的支持,免费援助,全球分发。

想阅读更多类似的文章吗?

注册我们的邮件列表,并阅读最重要的主题。
报名!

发表评论

您的电子邮件地址将不会被公布。必填字段已标记

感谢您表示有兴趣加入我们的邮寄名单和社区。下面您可以选择您希望我们与您互动的方式,我们将随时为您更新我们的最新内容。

您可以更改您的偏好或取消订阅,请点击任何您收到的电子邮件页脚的取消订阅链接,或通过以下方式与我们联系audience@www.graceymay.com在任何时候,如果您对如何处理数据有任何疑问,请查看我们的隐私协议。

您想了解更多关于我们服务的信息吗?

我们使用MailChimp作为我们的营销自动化平台。通过点击下面提交此表格,您确认您提供的信息将被转移到MailChimp进行处理隐私政策条款。

订阅我们的免费刊物