来自大数据的偏见:有偏见的计算机

大数据和机器学习似乎是解决所有问题的现代流行词。人们认为，医疗保健、欺诈预防和销售等领域将受益于可以在庞大数据集上训练的自我学习和改进机器。然而，我们如何仔细审查这些算法，并调查可能导致结果扭曲的可能偏差?路易斯维尔大学(University of Louisville)的奥法·纳斯劳伊(Olfa Nasraoui)教授已经证明，这一点做得还不够仔细，他正在开发工具，揭开“黑盒子”算法的盖子，创造真正公平的替代方案。

大数据是一个通用术语，指任何数据集的容量或多样性都很大。它的“速度”也可能很大，“速度”指的是新数据被添加到现有数据集的速度。“大数据”数据集的一个例子可能是人口普查，包含大量条目(人)和各种信息(年龄、性别、位置)。

专业指导、团队合作、努力工作、服务、拓展和研究传播是知识发现和Web挖掘实验室的支柱。在一个研究研讨会上(从左到右):孙文龙，Mahsa Badami, Olfa Nasraoui教授，Behnoush Abdollahi, Gopi Nutakki。

这种大型数据集变得越来越普遍，随着大规模数据存储变得更加实际，并且越来越多的追踪网站和应用程序使用的用户行为的可能性。虽然这些复杂的数据集可能包含有关客户选择购买某些产品而不是其他产品的有价值的信息，但可用数据的大小和规模使人类无法分析并识别存在的任何模式。

机器学习模型迫切需要透明度

这就是为什么机器学习经常被吹捧为“大数据问题”的答案。自动化分析是解构这类数据集的一种方法，但传统算法必须预先编程，以比较特定因素，并寻找特定程度的重要性。能够学习和适应数据集的自动化算法在分析中提供了更大程度的灵活性，并可以对任何趋势提供更深入的、可能是原创的见解。这正是激发机器学习在教育、司法和刑事调查等越来越多领域应用的原因。

人和算法紧密地耦合在反馈回路内。它们通过信息或人类生成的数据以及指导它们的算法来相互影响。

虽然自学和开发算法可能听起来很棒，但机器学习算法的好坏往往取决于它们所训练的数据集。电脑似乎也不是一个冷静、公正的分析工具。路易斯维尔大学(University of Louisville)的奥法·纳斯劳伊(Olfa Nasraoui)教授和她的学生和合作者一直在研究偏见如何影响机器学习、使结果不可靠，以及如何监控此类算法的行为。

偏振数据
机器学习模型中的偏差是一个关键问题，因为这类结果现在正被用于信息过滤和个性化等系统。这意味着在用户和系统之间存在一个持续的反馈循环，算法最终可以限制用户可获得的信息。这也引发了使用这些模型的道德问题，如果它们(即使是无意中)导致对用户的操纵，甚至可能导致对他人的歧视。

有几种方法可以将偏差蠕变成机器学习算法。一个是采样中的偏见来创建数据集。例如，如果应该在大学的代表代表的数据集的采样仅在大学执行，则最终数据集的结果将本质上偏见，因为采样将超出学生人群。

Olfa Nasraoui教授在知识发现和网络挖掘实验室的学生。从左到右:孙文龙、马沙·巴达米、戈皮·努塔基。

迭代偏差是由用户和系统之间的反馈循环产生的，它在用户推荐系统(如大多数在线购物平台上发现的)中很常见。建议,是不可能过时基准数据集上训练算法这就是为什么Nasraoui教授和她的学生Wenlong太阳和Mahsa Badami,连同合作者教授帕特里克•萨夫托了认知模型,试图这样的评级系统,也被称为counter-polarising基准系统。这打破了用户和系统之间的积极反馈循环，鼓励用户推荐真正新鲜的道具，将他们从算法链和反馈循环中解放出来。

计算机可能不是一个消耗的公正分析工具

Nasraoui教授(中)与她以前的博士生Behnoush Abdollahi(左)和Gopi Nutakki(右)在博士帽仪式上。

打开盒子
所有这些因素都是Nasraoui教授的否则在机器学习模型中透明地有一种压迫需求。许多模型是“黑匣子”，如深度学习网络和矩阵分子。这意味着该模型不能为什么达到某些结果的解释。获得的结果可能是准确的，但目前尚不清楚它们是如何获得的，因此难以探测其可靠性。

开放或“白盒”系统通常不太准确，但过程中使用的规则和决策树是可解释的。这有几个好处。评估预测的有效性是可能的，如果有错误，理解这些预测错误发生的原因。Nasraoui教授和她以前的博士生Behnoush Abdollahi一直在开发这样一个推荐系统，它继续主动学习做出可解释的预测，克服了准确性方面的问题，但在决策和结果方面，试图比替代的黑盒方法更容易解释。

仔细决定
Nasraoui教授作为知识发现和网络挖掘实验室的一部分的工作，对大数据和机器学习领域具有深远的影响。数据中的偏见问题，通过采样或算法中的反馈循环问题，意味着应仔细考虑任何机器学习方法的结果，并且Nasraoui教授一直在开发工具和算法来做到这一点。她还致力于替代替代的黑匣子方法，可以帮助用户对他们正在使用的数据进行充分了解的决定，这与越来越依赖于这些类型分析的结果而越来越苛刻。

问答

您能讨论偏置机器学习结果的一个例子，造成差的决定吗？
我能想到两个例子:
泡沫过滤:假设一个算法得知你喜欢某种类别的新闻，因为你恰好在一些初始点点击了一些流行的项目，然后所有新闻都开始通过模型构建的这个狭窄的镜头过滤。如果您看到的所有新闻都会被您通过算法过滤器可见，因此您没有点击任何替代视图，算法将在发现中将其限制视为狭窄的兴趣，并将继续加强其过滤器，从建议的物品中隐藏更多不同的选择。

不公平的预测:假设一个算法学习了一个预测模型，使用包含某些人口统计学属性的关于人的数据进行一些风险评分。如果数据本身隐藏了一些系统性的社会偏见，那么预测模型只会学习并模仿这些偏见。例如，当具有特定种族背景的人被怀疑、筛选、逮捕和起诉的比率较高时，一个模型可以预测哪些人可能因吸食非法毒品而被起诉。

当广泛的内容过滤出现反馈循环时，用户是否注意到?
大多数用户都没有意识到，高级算法就像连接他们和他们可能发现的信息的网关。用户经常会错过一些信息，而这些信息可能会在用户没有意识到的情况下被发现。这是被发现的最大危险。

白盒算法比黑匣子更难以创造吗？
白盒模型更容易创建。然而，在进行准确预测方面，它们往往不如黑匣子模型强大。这就是黑盒模型流行的原因之一。

考虑到机器学习算法的重要性，是否会有关于使用“公平”算法的标准和立法?
这已经开始：欧洲联盟最近通过了一项法律，要求对人类产生影响的算法预测必须为预测背后的推理提供解释。纽约市也在考虑一项法案，该法案将分配一支特遣部队，以监测影响有关人士决定的预测算法的公平性，以防止歧视的偏见和不公平算法。

在研究背后

教授Olfa Nasraoui
路易斯维尔大学

Olfa Nasraoui是计算机工程和计算机科学教授，电子商务客座教授，路易斯维尔大学知识发现和网络挖掘实验室的创始主任。她于1999年获得密苏里大学哥伦比亚分校计算机工程和计算机科学博士学位。发表学术论文160余篇，其中期刊论文40余篇，著作章节8卷。

研究目标

纳斯劳伊教授的工作重点是大数据。她研究了机器学习如何导致不可靠和有偏见的模型，可解释性的问题，以及个性化的增加是否会导致观点的两极分化。

资助者

国家科学基金会
肯塔基科学与工程基础

合作者

学生:Wenlong太阳
前学生：Behnoush abdollahi，Mahsa Badami，Gopi Nutakki
同事:罗格斯大学的Patrick Shafto教授，他与Nasraoui教授合作研究过滤气泡。

创作共用许可证

(CC BY-NC-ND 4.0)

这个作品是根据Creative Commons attage-Noncommercial-Noderivatives 4.0国际许可证．

这意味着什么?

分享：您可以在任何媒体或格式复制和重新分发材料

来自大数据的偏见:有偏见的计算机

问答

本文是在研究团队的批准下创建的。这是一个合作制作，由那些特色的支持，免费援助，全球分发。

想阅读更多类似的文章吗？

注册到我们的邮件列表，阅读对你最重要的话题。

一个想法“来自大数据的偏见:有偏见的计算机”

发表评论取消回复