艺术与人文

#socialscience:挖掘社会和行为研究的推特

一场灾难在世界的某个地方发生了。几分钟内就有数百万人涌向他们的屏幕,表达他们的想法和感受。这使得Twitter和其他社交平台一样,成为社会和行为研究的一个丰富而及时的资源。然而,令人惊讶的是,与其他领域相比,它在社会科学中的应用要少得多。推特用户不能反映普通大众的情况,这使得社会科学家对误传持谨慎态度。但是宾夕法尼亚州立大学的迟广庆博士和他的团队正在研究解决这个问题的方法。其目的是将推特用户推广到整个人群,以考察更广泛的社会生活,从通过检测相关帖子实时记录疾病传播,到通过带有地理标记的推特追踪难民,再到协助救灾。来自社交媒体的数据是即时和广泛的,为未来的社会调查带来了巨大的希望。

一条推文的字数限制为280个字符,平均三句话就足够了。但对于宾夕法尼亚州立大学农村社会学和人口统计学教授迟广庆博士来说,推文可以说是千言万语。当一个用户在自然灾害发生后从一个新的地区发布信息时,它们可以讲述一个家庭搬迁的故事。另一种可以显示出对假新闻的信任,以及被误导者的年龄、性别、种族和民族。

当收集EN Masse时,这种推文揭示了志议员和他的同事在社会科学和人口研究机构的核心核查团体(计算和空间分析)核心整个人口中的社会生活的广泛模式 - 从人们迁移到化妆通过特定群体对错误信息传播的城市。这就是为什么CSA核心将社交媒体视为社会的窗口,就像现实世界的窗户一样,这是现在的观点。Twitter用户随着事件展开,使数据直接和即时作出反应。这征服了传统调查的约束,参与者可以忘记有关时间的时间的细节。相反,来自网上社交网络的实时数据允许真实的,及时的行动,以满足社会需求,无论是紧急管理还是灾害响应。但是将帖子的长期转变为更广泛的社会现象,需要复杂的社会研究方法。CSA核心位于构建这些工具的最前沿,他们追求的项目与它们有效一样乐于生意。

跟踪的趋势
在点击按钮时,社交媒体将我们的生命变成了研究的数据。事件爆发后分钟,人们竞争推特和其他在线平台,与世界分享他们的情绪和经验。传统调查不可行的是什么成为互联网时代的真正可能性。如果我们想知道恐惧中人口的百分比,因为新闻突破了恐怖袭击,那么徒步杀灭实地才能太昂贵。同样,如果受访者模糊地叙述他们对判决的反应,对高度公布审判对高度公布审判的流行情绪的调查将停止。在其他地方,探讨公众对官方健康建议的秘密性将未能履行其目的,如果在完成时,该研究是通过大流行的螺旋范围讨论的。

在线社交网络有25亿用户,并使用这种大规模资源搏斗的正确方法,它们可用于检查整个人群。

社交媒体解决了这些问题,为此时此地提供了一个来源,同时不需要支付参与者的费用或资助跑腿工作。但它还不止于此。与研究人员挑选参与者并计划问题的“设计数据”不同,Twitter帖子和Facebook资料是“在野外发现的”。网络社区的有机性质使其产生了自发的联系和紧张关系,无论是友谊、政治辩论还是对文化的批评。这就消除了实验对象迎合研究者的偏见,否则在实验过程中数据就会被扭曲。

来自社交媒体帖子的海量数据意味着研究人员可能很快就能对整个人群进行研究。Ozz设计/ Shutterstock.com

社交媒体不仅仅是它的帖子的总和。每个用户都有一个独特的在线活动路径,这可以通过社会研究的时间来追踪。这些正在展开的信息可以揭示人们是如何对某些内容进行准备的,或者他们是如何从他们不断变化的标记位置移动到世界各地的。在线参与的即时性将对单个用户的跟踪变成了一个活文档。事实上,明天对社交媒体的测量甚至可能在官方记录发布之前就显示出移民的动态。但是,挖掘这些平台最大和最基本的价值在于,社会科学家手中掌握着大量的数据。在线社交网络有25亿用户,只要有正确的方法处理这些庞大的材料,它们就可以用来检查整个人群。因此,这项研究的范围是广泛的,因此,从公共卫生领域到政治学,引起如此热切的关注也就不足为奇了。但要透过这扇窗户清楚地了解我们的社会,必须有一个机构首先为我们抹去视线模糊的迷雾。宾州州立大学的CSA Core致力于这项任务,精炼统计技术和加权数据的方法,以揭示Twitter如何代表更广泛的世界。

通过实时社交媒体数据,通过对公共反应的即时智力迅速改善官方信息。

在方法论中制作波浪
在推特上浏览热门趋势并不能反映总体人口。用户主要集中在年轻人、中产阶级和男性,这远远不能代表整个城镇或城市。与此同时,社交平台上的许多成员都是人口统计学上的谜,如果没有办法揭开他们的身份,这些数据就会变得毫无用处,在研究中被忽略。对于社会科学家来说,这些困难削弱了他们对社会调查作为对更广泛的公众得出结论的手段的信心。但对于CSA Core的研究人员来说,这些研究并非注定要失败。该团队试图在他们探测推特用户“谁”和“在哪里”的成功基础上,改进确定性别、年龄、种族和位置的技术。然后,分析师就可以发现隐藏在数据中的偏见,即某些群体的代表人数不足或过多。研究结果可以进行权衡,使之达到适当的平衡,使Twitter样本能够代表整个人群。然而,推特的研究领域却布满了地雷。研究人员必须处理复杂的俚语、讽刺和深奥的交流——从标签到表情符号再到首字母缩略词。 Meanwhile, some Twitter users are not human but ‘bots’ – automated programs designed to advertise and misinform. Finding what is real and what is fake in these massive datasets adds another hurdle to an already arduous challenge.

人们如何回应关于Covid-19的官方卫生建议?社交媒体可以实时揭示这一点,告诉公众信息可以如何改进。VectorMine / Shutterstock.com

该研究小组使用多种方法来识别Twitter用户。一种方法是问:“名字有什么意义?”,研究人员在用户名和用户名中检测性别和种族。条目会与从电话簿到Facebook等公共名称数据库进行比较,以找到最常见的特征。名字匹配率高达96%,在调查过程中取得了巨大进展。然而,该小组正在通过添加几轮数据清理来改进该方法。首字母现在可以考虑,特殊字符,如表情符号删除。该小组采用的另一种技术类似于科幻电影中的场景。通过面部识别技术扫描头像,识别性别和种族,或者估计年龄。当名字提供的线索很少时,这有助于识别用户。 Moreover, tracking users’ movements is made all the more achievable with the geotag. These mark tweets with the place from which they were sent, but only when users select it. Barely 1% of tweets are currently being geotagged, seemingly drawing the limit on researching user location. But the group engages with ways to infer user whereabouts, by probing public profiles and social connections. The group has been using every geotagged tweet from January 2014 to test its representativeness. This is just part of the fifty terabytes of data already collected by the CSA Core.

使用传统调查有很大的限制:例如,参与者可能会忘记有关时间的细节。KeyStock / Shutterstock.com

目前的项目和未来承诺
一场大流行已经被宣布为一种病毒席卷全球。现在,信息对于拯救人们的生命是无价的。自疫情爆发以来,已广泛记录了被诊断为冠状病毒疾病(COVID-19)的人数。然而,迄今为止,对人类行为和社会动态的影响的研究很少。这是一个明显的差距,因为这样的发现可以让我们追踪公众对疾病的认识、社会距离的后续、对封锁的态度、反亚洲情绪等重要因素。事实上,有了来自社交媒体平台的实时数据,官方信息可以通过对公众反应的即时情报迅速得到改善。此外,报告症状和确诊病例的带有地理标记的推文已被用来预测病毒的新感染,最多可提前5天。样本的规模如此之大,以至于当研究人员在社交网络上搜索关于这种疾病的信息时,可以锁定特定的社区和最好的时间间隔。中心在这个领域有了新的突破在线仪表板,它可以跟踪这些地理标记的推文横跨时间和空间。

CSA Core从跟踪Twitter中获得巨大洞察力的能力,在他们的一系列研究项目中得到了清晰的证明。该团队目前正在收集六年时间内带有地理标签的推文,以更新现有的人口统计检测方法。这些技术将检测可靠性评估内部迁移波多黎各飓风过后玛丽亚和比较结果对记录美国国税局的此外,授予取得了其他令人兴奋的研究——从调查倾向假新闻的食物、能源、阿拉斯加的水资源选择,以及对气候变化的地区意见分歧。社会科学站在山脚下,可以打开大量的证据进行分析。CSA核心正在扩大峰会的规模,并寻求新的机会应用和扩展他们的专业知识。毕竟,如果一个用户的推文可以说一千个单词,那么一百万就可以用于有效研究我们的社交世界。

metamorworks / Shutterstock.com

个人反应

你认为你的工作,特别是“全球仪表板”,可能对公共卫生研究人员有用吗?

如果正确使用,Twitter数据对于公共卫生研究可能会很有用。通过在空间和时间追随各个推特用户,数据有可能允许研究人员跟踪公共卫生相关现象,如Covid-19爆发和公众意识,政策干预的有效性,以及更多的效果。由于数据可以在近乎实时流式传输,他们提供及时的信息,以帮助决策者和规划者评估情况并进行数据通知的精确决策。也就是说,数据需要以严谨和谨慎的方式使用。例如,必须考虑Twitter用户与目标群体的人口特征。

此功能文章是通过批准的研究团队特色而创建的。这是一个协作的生产,由特色辅助,全球分销提供支持。

想读更多这样的文章吗?

注册到我们的邮件列表,阅读对你最重要的话题。
报名!

发表评论

您的电子邮件地址将不会被公布。必需的地方已做标记*

感谢您表示有兴趣加入我们的邮寄名单和社区。下面您可以选择您希望我们与您互动的方式,我们将随时为您更新我们的最新内容。

您可以通过点击来自我们收到的任何电子邮件的页脚中的取消订阅链接来更改您的偏好或取消订阅,或通过联系我们audience@www.graceymay.com在任何时候,如果您对我们如何处理您的数据有任何问题,请查看我们的隐私协议。

您想了解更多关于我们的服务吗?

我们使用MailChimp作为我们的营销自动化平台。通过点击下面提交此表格,您确认您提供的信息将被转移到MailChimp以按照其处理隐私政策条款。

订阅我们的免费刊物