大海捞针——大数据的未来
网络是一种表示信息的方式,并以人们很容易理解的数学方法为基础。网络是由链接(或边)连接起来的一组节点,可以有方向(从一个节点到另一个节点)或无方向(双向)。网页是有向网络的例子,网页代表一个节点,超链接代表一个边。冯博士利用网络更准确地找到“社区”。这些节点作为一个群体紧密联系在一起,但与其他群体的联系很少,比如在社交网络中有相似兴趣的人,或者在某个科学领域合作的研究人员。冯博士感兴趣的是正在研究的数据中的“协变量”,因为它们可能有助于提高识别社区的准确性。
识别网络中的社区,阐明其结构,提供实际的好处,比如在网络搜索中提供更好的建议
社区和节点信息
认识网络中的社区,阐明其结构,提供实际利益;例如,社交网络群体有相似的兴趣爱好,因此推荐可以更有针对性。广义上说,目前在数据集中识别社区的方法要么是基于算法(依赖于派生的计算机程序),要么是基于模型(使用统计方法),常见的方法是随机块模型。该模型假设同一社区内的节点在与其他节点交互时行为相同。例如,如果A和B属于同一个社区,他们在与其他任何一个人C交流时都会表现出类似的行为。
在真实网络中,节点包含可以帮助确定数据内的社区结构的属性。作为示例,社交网络具有附加到节点的用户配置文件,引用科学论文包含作者信息,关键字和摘要。冯博士认为这种协变量信息与边缘相结合,可以通过图1中描述的两个不同关系来更好地推断社区的存在。
渐近方法
冯博士的工作引入了一个灵活的统计模型,利用网络的结构、节点和边,以及代表协变量信息的节点属性来确定社区。该模型使用网络数学基础来为网络及其连接创建矩阵,加上节点属性(协变量),并使用迭代方法来识别社区。一个挑战是,纯粹基于可能性的办法对最初的解决办法敏感,因此必须开发一种替代办法。这涉及到使用优化技术为模型找到行为良好的初始值。这比随机初始化更有效。
现在,真实的生活
是时候用一些真实的数据来测试这个模型了,所以我们选择了一个由77名在一家制造公司工作的员工组成的研究团队。为了创建一个网络,将员工视为节点,这些节点与他们的链接或边,即他们相互作用的程度,以允许他们完成自己的工作。这些链接是加权的;如果海伦和约瑟夫合作,那么权重可能基于他们的互动:0:none, 1:非常罕见,2:罕见,3:有点罕见,4:有点频繁,5:频繁和6:非常频繁。数据集包含每个员工的其他属性,特别是他们所在国家的位置和在组织中的级别。
在Real Networks中,节点包含可以帮助确定数据内的社区结构的属性
这些数据代表一个加权的有向网络,需要转换为二进制无向网络。最后的模型使用通信频率来隔离那些不经常通信的人,并从数据库中包含属性来进行播种。属性“位置”是一个“地面事实”,因为不同的位置意味着较低的交互作用,这可以用来测试过程的有效性。冯博士发现,通过结合节点的属性,社区检测的准确性得到了提高,并实现了半定规划,与新提出的两种基于似然的方法一样。
另一个更复杂的例子使用的是美国一所高中的“朋友网络”,这些数据来自“青少年至成人健康全国纵向研究”(National Longitudinal Study of Adolescent to Adult Health),包括795名9至12岁的高中学生和7至8岁的初中学生。这个集合有多个协变量属性,包括年级、性别、种族和被提名朋友的数量(最多10个)。在这样的社区中,节点信息(如年龄或种族)通常可以推断出社区标识符的“基本事实”。
最后的数据集,在去除那些缺失协变量后,有777个节点和4124条边。冯博士和他的团队将他们的模型用于这个数据集,因为它包含多个类别变量;任何人都可以被认为是一个有其他变量的利益共同体来进行预测。学校、种族和性别被用作基本事实(例如,同一所学校的学生更有可能成为朋友),其他两个属性在检测社区时被控制。图2显示的结果表明,学校和种族的社区检测是准确的,但在使用性别作为真实标签时表现不佳。冯博士得出结论,性别结果并不比随机结果好,而且可能存在另一种尚未确定的协变量。最后,冯博士使用标准网络模型(如随机块模型)对该数据集的社区检测进行了检验,得出了检测效果较差的结论;天真地用它们来检测社区会导致不可靠的结果。
展望未来
冯博士的工作已经证明了使用统计模型来检测由网络数据构建的网络中的网络的可行性,该网络包括在每个节点上提供的属性,如人的兴趣或位置。它具有许多学科或行业的现实世界应用,如从遗传数据的取证或药物选择,并且在使用更广泛的节点属性或更多的网络和具有低密度的网络中的网络时保持承担。
常见问题
与其他同行相比,您的团队所采用的方法有哪些优势?
你为什么选择半定编程,你如何确保计算负荷是可实现的?
您认为您的研究将如何应用于医疗保健及其服务?
我希望这项研究能够导致个性化推荐和广告目标的改进
你的论文中有大量的数学知识。你能总结一下数学是如何帮助你开发你的解决方案和测试你发现的准确性的吗?
您希望看到您的研究进一步发展,并有什么实际利益?