行为科学
2020年2月3日

90亿次回归多元统计分析法

研究人员从不完全知道他们选择的统计方法是否为数据提供最佳模型选择分析数据也会影响结果康奈尔大学社会学助理教授Cristobal Young博士使用多维分析提供严格透明框架处理模型不确定性固有问题

模型不确定性是现代科学的中心挑战研究者不知道什么模型实际生成数据,也无法确定使用何种统计法最优研究者可以探索数不胜数解析结果变异,研究者`自由度'表示当今科学危机:实证结论多受数据驱动或多受研究者分析假设驱动研究者对结果有多大影响

康奈尔大学社会学助理教授Cristobal Young博士正在解答这一难题Young博士展示当前为研究人员和作者提供回旋余地,使他们能够选择首选结果他还提供方法量化研究者选择统计模型的影响

模型不确定性
所有实证估计需要具体的建模假设,研究者必须选择使用哪种假设定义变量、清洗数据、外部线处理、标准误差计算和功能格式选择等决策意味着主管研究人员可选择不同的统计方法并产生从同一组数据集产生不同结果设计分析并具体说明模型常对研究人员构成最大挑战Young博士指出底层问题为模型不确定性,因为没有人知道哪个模型规范最适合特定研究往往有许多可信模型可提供各种结果,数据可支持这些结果。这使得很难判断分析特定数据集的所有通情达理研究者是否会得出特定结论,或经验结果高度依赖研究者的具体选择。这一点突出透明度在模型规范中的重要性

多模型分析
Young博士鼓励研究者问 `哪些模型值得考虑?'多模型分析承认模型假设的替代组合,不同作者可使用这些假设并大大提高统计研究的透明度和稳健性。多模型分析的根本挑战在于定义一套似然模型

今日的'科学危机'根植于模型不确定性和有限透明度问题

多维模型假设
杨博士开发多模型分析计算框架目标在于提供透明系统报告替代结果,让研究者从其他似然模型规范中获取 。 从某种意义上讲,有多维-多维分析-所有可信分析问题方法同时存在计算方法旨在减少作者从多维中选择首选结果的裁量权,同时扩展所考虑模型和结果范围

工会成员比非工会工人挣高工资溢价溢价从10%到20%不等,视模型中包含控件而定然而,所有模型显示成员大有裨益估计1,024模型垂直线表示所有控件都包含时发现的11.1%工会工资溢价

方法指针一套似然模型组件,如控件变量、变量定义、估计命令、函数表单和标准误差计算,并估计这些组件所有可能的组合这可能涉及千兆小变换模型规范,结果报告为估计图分布

实验测试多维显示三种模型稳健性基本模式
在某些情况下,统计结果屏蔽而不管模型如何定义模型组件的任何组合均产生相同结果
相遇时结果只依赖一或二模型组件,例如特定控件变量提示后续分析查找控件变量为何如此重要
最令人担忧的是,有些结果依赖knife边框规范,仅以100似然模型支持

作者仍可自由展示首选模型,尽管在图中显示用可接受模型组件可找到的其他结果

90亿次回归
假阳性-统计意义重大-即使在分析完全随机噪声数据时也是常见的杨博士研究使用大规模随机噪声模拟研究模型不确定性产生超虚误题并显示多维分析如何识别并消除许多假阳性

假阳性:飓风“Gene化”对死亡人数的影响原创发布估计显示,以女性声音命名的飓风死亡人数较高。
多元分析使用1 152替代模型基本不见效果

模拟策略包括进行噪声回溯分析这项工作涉及完成5 000迭代数据大小和模型不确定性程度17项独特条件中的每一项大约5亿5千万次回归-总值超过90亿次模拟显示,当样本小和模型不确定性高时,假阳性比例最高假正率最高时多维分析最有效 — — 例行标注非强冲和大洲结果使用异常模型规范

在评价研究结果时,多维分析替代模型至少同样重要
统计意义

模拟显示,首先,为减少假正结果扩散,研究人员应期望使用大数据集第二,成熟研究领域强健先入为主理论 — — 少模型不确定性 — — 往往少产生假阳性多元分析为更多新研究领域高估统计意义提供了有力的检验方法,在这些新研究领域分析中不确定性较大。

多维现实世界
多元分析信息潜力通过复用争议性研究来说明,该研究报告用女性命名的飓风更具致命性。使用数据 所有飓风登陆 美国六十多年间 研究显示 以女性声音命名的飓风 持续增加死亡人数研究启发出数列评论和重新加入者发布原创杂志,并讨论多项替代估计策略Young博士使用所有可能的组合建议填充多维分析,由1 152个独有模型规范组成结果说明:绝大多数似然模型显示飓风“Gender”零效果,不足5%的规格支持原创主张几乎任何其他分析数据方法都无法支持研究的主张

杨博士建议对实验数据进行模型稳健性分析,帮助辨别真实关系和疑似结果,以便得出更多实证推理结论-结论基于数据而非建模假设

下一前沿:一些模型比其他模型多等
多元方法考虑所有似然模型的可能组合并产生相关估计分布计算多维统计分布时,每种模型都被视为同等有效杨大夫指出 某些似然模型比别模型更引人信服这使得有可能通过适当有效性度量加权模型杨氏研究探索使用 模型影响分数乘权模式 并计及潜在省略变量偏差他提醒说,权衡可能的模型需要权衡透明性与模型选择。但它为多面分析提供了一条大有希望的路径。

Young博士计算框架多维中心它可以促进更严格和综合强健性测试,并使得模型不确定性被接受为社会科学固有部分减少分析师和阅读者之间信息基本偏差,并解决虚阳性研究结果过剩问题Young博士强调,“评价研究结果时,多维分析替代模型至少与统计意义同等重要。”

注:Young博士多维分析软件开源免费供研究人员使用类型sc描述mrobust斯塔塔市

个人响应

未来多维分析研究计划是什么

我正计划写一本书,暂定标题为“深入多维度:强力研究计算法”。

特征文章经研究团队批准创建协作制作 支持那些特征 帮助免费全球分发

想要多读点像这样的文章吗

签名寄信列表阅读最关你的事
签名上传

留答题

邮件地址不发布需求字段标记*