信息与技术

大海捞针——大数据的未来

杨峰博士是哥伦比亚大学统计数据副教授。他的研究旨在构建有用的形式,从许多科学,人类,行业和政府,如社交网络,基因组的研究,了解经济学或融资和健康科学。使用网络建模,他专注于通过使用可用的节点信息更准确地检测“社区”的新方法。冯博士的方法是通过严格的理论支撑,并且使用模拟和真实网络证明了其有效性

网络是一种表示信息的方式,并以人们很容易理解的数学方法为基础。网络是由链接(或边)连接起来的一组节点,可以有方向(从一个节点到另一个节点)或无方向(双向)。网页是有向网络的例子,网页代表一个节点,超链接代表一个边。冯博士利用网络更准确地找到“社区”。这些节点作为一个群体紧密联系在一起,但与其他群体的联系很少,比如在社交网络中有相似兴趣的人,或者在某个科学领域合作的研究人员。冯博士感兴趣的是正在研究的数据中的“协变量”,因为它们可能有助于提高识别社区的准确性。

识别网络中的社区,阐明其结构,提供实际的好处,比如在网络搜索中提供更好的建议

社区和节点信息
认识网络中的社区,阐明其结构,提供实际利益;例如,社交网络群体有相似的兴趣爱好,因此推荐可以更有针对性。广义上说,目前在数据集中识别社区的方法要么是基于算法(依赖于派生的计算机程序),要么是基于模型(使用统计方法),常见的方法是随机块模型。该模型假设同一社区内的节点在与其他节点交互时行为相同。例如,如果A和B属于同一个社区,他们在与其他任何一个人C交流时都会表现出类似的行为。

图1:以学校、种族和性别为基础的社区检测结果。预测的社区被中间的虚线隔开。

在真实网络中,节点包含可以帮助确定数据内的社区结构的属性。作为示例,社交网络具有附加到节点的用户配置文件,引用科学论文包含作者信息,关键字和摘要。冯博士认为这种协变量信息与边缘相结合,可以通过图1中描述的两个不同关系来更好地推断社区的存在。

渐近方法
冯博士的工作引入了一个灵活的统计模型,利用网络的结构、节点和边,以及代表协变量信息的节点属性来确定社区。该模型使用网络数学基础来为网络及其连接创建矩阵,加上节点属性(协变量),并使用迭代方法来识别社区。一个挑战是,纯粹基于可能性的办法对最初的解决办法敏感,因此必须开发一种替代办法。这涉及到使用优化技术为模型找到行为良好的初始值。这比随机初始化更有效。

现在,真实的生活
是时候用一些真实的数据来测试这个模型了,所以我们选择了一个由77名在一家制造公司工作的员工组成的研究团队。为了创建一个网络,将员工视为节点,这些节点与他们的链接或边,即他们相互作用的程度,以允许他们完成自己的工作。这些链接是加权的;如果海伦和约瑟夫合作,那么权重可能基于他们的互动:0:none, 1:非常罕见,2:罕见,3:有点罕见,4:有点频繁,5:频繁和6:非常频繁。数据集包含每个员工的其他属性,特别是他们所在国家的位置和在组织中的级别。

在Real Networks中,节点包含可以帮助确定数据内的社区结构的属性

这些数据代表一个加权的有向网络,需要转换为二进制无向网络。最后的模型使用通信频率来隔离那些不经常通信的人,并从数据库中包含属性来进行播种。属性“位置”是一个“地面事实”,因为不同的位置意味着较低的交互作用,这可以用来测试过程的有效性。冯博士发现,通过结合节点的属性,社区检测的准确性得到了提高,并实现了半定规划,与新提出的两种基于似然的方法一样。

图2:节点信息X、社区信息c与观察到的邻接矩阵A之间的两种不同关系。

另一个更复杂的例子使用的是美国一所高中的“朋友网络”,这些数据来自“青少年至成人健康全国纵向研究”(National Longitudinal Study of Adolescent to Adult Health),包括795名9至12岁的高中学生和7至8岁的初中学生。这个集合有多个协变量属性,包括年级、性别、种族和被提名朋友的数量(最多10个)。在这样的社区中,节点信息(如年龄或种族)通常可以推断出社区标识符的“基本事实”。

最后的数据集,在去除那些缺失协变量后,有777个节点和4124条边。冯博士和他的团队将他们的模型用于这个数据集,因为它包含多个类别变量;任何人都可以被认为是一个有其他变量的利益共同体来进行预测。学校、种族和性别被用作基本事实(例如,同一所学校的学生更有可能成为朋友),其他两个属性在检测社区时被控制。图2显示的结果表明,学校和种族的社区检测是准确的,但在使用性别作为真实标签时表现不佳。冯博士得出结论,性别结果并不比随机结果好,而且可能存在另一种尚未确定的协变量。最后,冯博士使用标准网络模型(如随机块模型)对该数据集的社区检测进行了检验,得出了检测效果较差的结论;天真地用它们来检测社区会导致不可靠的结果。

展望未来
冯博士的工作已经证明了使用统计模型来检测由网络数据构建的网络中的网络的可行性,该网络包括在每个节点上提供的属性,如人的兴趣或位置。它具有许多学科或行业的现实世界应用,如从遗传数据的取证或药物选择,并且在使用更广泛的节点属性或更多的网络和具有低密度的网络中的网络时保持承担。

常见问题

与其他同行相比,您的团队所采用的方法有哪些优势?
与现有方法相比,该方法具有直观、计算效率高、性能可靠等优点。

你为什么选择半定编程,你如何确保计算负荷是可实现的?
半定规划方法是将NP困难问题松弛为凸问题的一种常用方法。通过使用SDP,计算变得可行,通过一个著名的算法称为ADMM。同时,对SDP的解决方案进行了理论论证。根据经验,我们观察到使用SDP解作为基于似然的方法的初始解可以显著提高估计精度。

您认为您的研究将如何应用于医疗保健及其服务?
我认为这个研究框架在医疗保健领域有潜在的用途,精准医疗是当前的趋势,以确保每个人都能得到对每个人来说最好的个性化治疗。如果我们能够收集不同患者之间的网络信息以及他们的个人信息,那么我们所提出的方法可以用于检测患者之间的不同社区。我们有可能对不同的病人使用不同的治疗方法。

我希望这项研究能够导致个性化推荐和广告目标的改进

你的论文中有大量的数学知识。你能总结一下数学是如何帮助你开发你的解决方案和测试你发现的准确性的吗?
实际上,这项研究项目中使用了很多数学。我们使用基于可能的似然方法来检测社区,这自然导致了对似然函数的最大化器的研究。量化这些MLLS的理论特性需要来自数学和统计的各种技术。

您希望看到您的研究进一步发展,并有什么实际利益?
目前,我正在努力通过集成网络信息来进一步开发这个项目来改善预测。这将要求我们在依赖性样本下研究回归问题,其中网络的特征在于网络。我希望这项研究能够改善个性化推荐和广告目标。

此功能文章是通过批准的研究团队特色而创建的。这是一个协作的生产,由特色辅助,全球分销提供支持。

想阅读更多类似的文章吗?

注册我们的邮件列表,阅读对你来说最重要的主题。
报名!

留下一个回复

您的电子邮件地址将不会被公布。必需的地方已做标记*

感谢你表示有兴趣加入我们的邮寄名单和社区。下面您可以选择您希望我们如何与您互动,我们会让您更新我们的最新内容。

您可以通过点击来自我们收到的任何电子邮件的页脚中的取消订阅链接来更改您的偏好或取消订阅,或通过联系我们audience@www.graceymay.com在任何时候,如果您对如何处理数据有任何疑问,请查看我们的隐私协议。

您想了解更多关于我们的服务吗?

我们使用MailChimp作为我们的营销自动化平台。通过点击下面提交此表格,您确认您提供的信息将被转移到MailChimp以按照其处理隐私政策条款。

订阅我们的免费出版物