工程技术
2021年9月10日

非重叠比例和点阶关联问题

Stanley Luck博士,统计咨询师和向量分析有限责任公司创始成员,开发云计算技术新奇算法Luck博士演示使用改善CART关联算法 高维搜索问题护理家庭性能,基础是公众可访问护理院比较数据库结果突出显示构建全套参数的重要性,该参数计算点阶变量所有度自由度

云计算技术即时资源已成为日常生活中一个基本部分搜索引擎作为无所不包的信息来源提供细节,例如我们最喜爱的餐厅、卫生、遗传学和投资等信息出自大型服务器农场存储的数据数据储存库可设想为大型电子表格,由列组成,内含数字或标签算法,如分类和回归树算法,需要高维搜索数据以发现模式并生成有用的信息以决策

CART分析结果与全基因组研究结果对比 Stanley Luck博士、统计咨询员和向量分析LLC创始成员特拉华注意到CART分析结果与GWAS统计协会不完全匹配引导他发现广泛的研究文献 讨论作用大小测量的混淆性

图一二次偏差关联系数rb照片信用 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0244517

未解决争议
勒克博士展示了 统计实践基本未解决争议和冲突这并不是一个新概念,因为许多研究者评论使用和误用p值和统计意义,批评p值范式当前可复制性危机发现许多科学研究难或甚至无法复制,进一步证明统计实践问题

尚缺乏对问题实质的共识
统计方法常用
点阶问题

二分式资料和点阶问题
勒克博士对二分位数数据基本形式特别感兴趣,二分位数数据常通过案例控制研究获取假设,举例说,一组研究人员正在实验测试新疫苗的有效性或管理新疫苗或控制一组病人并收集病人免疫响应数据免疫响应记录为T-淋巴细胞-组成免疫系统一部分的白细胞-和抗体量的数值度数据将储存在一个电子表格中混合数据类型集中,作为数列和对应标签列用于疫苗和控制

图2非重叠比例和点阶相关照片信用 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0244517

应用统计中二分式数据分析指二类或双级关联问题在许多研究领域应用勒克博士讨论,尽管进行了广泛的研究, 仍然对统计方法的优缺点缺乏共识 统计方法被广泛使用 点阶问题举个例子二模测试p值方法古典化美国统计协会最近发布警告 误差p值对统计意义此外,对研究缺乏严格性的关切促使国家科学院进行可复制性研究

非重叠数据
应用代数研究点阶问题是美国DuPont公司研究玉米基因组变异所启发的数据表示为有限维向量空间的点数,信息代数分解勒克博士解释点比数据可断然排序或数值排序并显示数值排序如何与新颖非重叠比例度量

重叠数据可视觉化为数据点从一相重叠(基线)到另一相重叠(处理)。非重叠数据比例传统上以百分比计量非重叠数据百分比是一个常用非回归效果描述符,提供处理有效性度非重叠数据百分比越高,对处理效果支持越强效果大小表示变量或组间差关系有多大意义表示研究结果的实质意义或实际意义

图3投影空间表示点阶相关照片信用 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0244517

三种形式相关
勒克博士强调需辨别三种代数式关联皮尔逊关系指数字数据之间的线性关系点双相关指二分位数数据不重叠三种形式相关联与2x2应急表比例变异相关将二分变量合并为单一统括性Pearson关联的常见实践有误导作用,他的工作显示点阶关联和二分系数测量二分变量关联性都受混淆效果的影响。

非重叠比例
乐克博士开发非重叠比例时 面对如何编译混合数据代数问题非重叠比例测量两组数值数据间非重叠程度样本大小比例差通过排序数字数据获取标签分离度直接从数据计算,非参数性,因为底层密度未说明非参数测试不依赖概率分布,因此可应用,即使不满足参数有效性条件

图4.斜分布NHC质量度量照片信用 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0244517

勒克博士建议绝对排序数据统计参数和数值排序数据统计参数组成全集表示点阶数据变换各种效果大小测量对应点阶变参数的不同透视函数,即可表示点阶变的不同坐标系

科恩的d级
科恩的d级举例说,效果尺度比较二组计算为两种采样方法之差除以集合差分辨方法标准偏差均值关联二度自由(可自由变值数)和差数对应向质量坐标中心变换科恩的d级即质量中心为分布中心唯一点

图5RCART中Rpbd和ppb关系照片信用 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0244517

Luck博士讨论 Cohen坐标等同d级点阶相关系数rb后科恩d级rpb和不重叠比例都可作为非重叠度量发现点阶数据至少关联到三大统计参数,即科恩参数d级平均值和不可重叠比例并警告数据分析协议不考虑所有参数可产生误差和不可复制结果并显示评估实质意义需要规范这三个参数之间的成本效益权衡,因为没有这一信息很难就效果大小的利弊达成共识。正因如此数学考量不足以识别独有坐标系和数据集效果大小还需要说明功能或工程需求

CART算法
分类回归树算法可用于查找高度复杂数据中的模式和关系CART预测算法 探索复杂决策题的可能解决方案解释目标变量值如何使用带决策树的其他值预测分支均按预测器或独立变量拆分端端的每个节点都预测目标变量模拟

图6RCART关联图效果大小照片信用 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0244517

样本不等大小
点双相关系数在比较两个不等大小样本时可起伏不定可能导致CART回归树分析误差结果Luck博士开发CART关联图,这是分析点阶数据统计关联的新方法,比较各种效果尺度性能使用CART关联图比较点阶相关系数性能、非重叠比例和另一种相关度度取样比例校正相关性显示非重叠比例和样本大小比例校正相关产生更多直觉结果并成为CART效果尺度使用这些措施还避免与点阶相关联的复杂问题,特别是考虑到对可复制性的关切

数据分析协议不考虑所有参数可产生误导性不可复制结果

改进CART关联算法
勒克博士将这些效果大小测量法融入开发改进CART关联算法中,使用比例偏移测量法并校正偏差样本大小响应向公众可访问的护理院比较数据库应用该数据库,以此显示该数据库在高维搜索家庭性能问题中的用法算法生成急救医院访问数分配数和每千名长住居民住院数分配数MonteCarlo方法使用多次随机采样计算算法估计统计参数联合分布

图7MonteCarlo模拟点阶变分布随机特效照片信用 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0244517

结果表明CART点序关联的局限性,并深入了解非重叠比例行为和样本大小比例校正相关关系样本大小校正相关关系、平均值和不重叠比例以获取可复制结果的重要性

广义影响
开发云计算技术新奇算法时,勒克博士观察到,更好地了解应用代数基础并改进方法对数据解析应用效果大小很重要。并发声表示「必须实现跨学科共识数据分析算法基本应用物理比生物有不同的算法是毫无意义的

个人响应


是什么先点出你对统计的兴趣
<>
我对统计的兴趣自然发展成为我物理化学研究的必要部分研究量化现象时,必须在实验和理论之间建立严格直觉联系。稳健统计方法对区分信号和噪声、发现新奇现象和开发新技术至关重要

特征文章经研究团队批准创建协作制作 支持那些特征 帮助免费全球分发

想要多读点像这样的文章吗

签名寄信列表阅读最关你的事
签名上传

留答题

邮件地址不发布需求字段标记*