来自大数据的偏见:有偏见的计算机
大数据是一个通用术语,指任何数据集的容量或多样性都很大。它的“速度”也可能很大,“速度”指的是新数据被添加到现有数据集的速度。“大数据”数据集的一个例子可能是人口普查,包含大量条目(人)和各种信息(年龄、性别、位置)。
这种大型数据集变得越来越普遍,随着大规模数据存储变得更加实际,并且越来越多的追踪网站和应用程序使用的用户行为的可能性。虽然这些复杂的数据集可能包含有关客户选择购买某些产品而不是其他产品的有价值的信息,但可用数据的大小和规模使人类无法分析并识别存在的任何模式。
机器学习模型迫切需要透明度
这就是为什么机器学习经常被吹捧为“大数据问题”的答案。自动化分析是解构这类数据集的一种方法,但传统算法必须预先编程,以比较特定因素,并寻找特定程度的重要性。能够学习和适应数据集的自动化算法在分析中提供了更大程度的灵活性,并可以对任何趋势提供更深入的、可能是原创的见解。这正是激发机器学习在教育、司法和刑事调查等越来越多领域应用的原因。
虽然自学和开发算法可能听起来很棒,但机器学习算法的好坏往往取决于它们所训练的数据集。电脑似乎也不是一个冷静、公正的分析工具。路易斯维尔大学(University of Louisville)的奥法·纳斯劳伊(Olfa Nasraoui)教授和她的学生和合作者一直在研究偏见如何影响机器学习、使结果不可靠,以及如何监控此类算法的行为。
偏振数据
机器学习模型中的偏差是一个关键问题,因为这类结果现在正被用于信息过滤和个性化等系统。这意味着在用户和系统之间存在一个持续的反馈循环,算法最终可以限制用户可获得的信息。这也引发了使用这些模型的道德问题,如果它们(即使是无意中)导致对用户的操纵,甚至可能导致对他人的歧视。
有几种方法可以将偏差蠕变成机器学习算法。一个是采样中的偏见来创建数据集。例如,如果应该在大学的代表代表的数据集的采样仅在大学执行,则最终数据集的结果将本质上偏见,因为采样将超出学生人群。
迭代偏差是由用户和系统之间的反馈循环产生的,它在用户推荐系统(如大多数在线购物平台上发现的)中很常见。建议,是不可能过时基准数据集上训练算法这就是为什么Nasraoui教授和她的学生Wenlong太阳和Mahsa Badami,连同合作者教授帕特里克•萨夫托了认知模型,试图这样的评级系统,也被称为counter-polarising基准系统。这打破了用户和系统之间的积极反馈循环,鼓励用户推荐真正新鲜的道具,将他们从算法链和反馈循环中解放出来。
计算机可能不是一个消耗的公正分析工具
打开盒子
所有这些因素都是Nasraoui教授的否则在机器学习模型中透明地有一种压迫需求。许多模型是“黑匣子”,如深度学习网络和矩阵分子。这意味着该模型不能为什么达到某些结果的解释。获得的结果可能是准确的,但目前尚不清楚它们是如何获得的,因此难以探测其可靠性。
开放或“白盒”系统通常不太准确,但过程中使用的规则和决策树是可解释的。这有几个好处。评估预测的有效性是可能的,如果有错误,理解这些预测错误发生的原因。Nasraoui教授和她以前的博士生Behnoush Abdollahi一直在开发这样一个推荐系统,它继续主动学习做出可解释的预测,克服了准确性方面的问题,但在决策和结果方面,试图比替代的黑盒方法更容易解释。
仔细决定
Nasraoui教授作为知识发现和网络挖掘实验室的一部分的工作,对大数据和机器学习领域具有深远的影响。数据中的偏见问题,通过采样或算法中的反馈循环问题,意味着应仔细考虑任何机器学习方法的结果,并且Nasraoui教授一直在开发工具和算法来做到这一点。她还致力于替代替代的黑匣子方法,可以帮助用户对他们正在使用的数据进行充分了解的决定,这与越来越依赖于这些类型分析的结果而越来越苛刻。
问答
您能讨论偏置机器学习结果的一个例子,造成差的决定吗?
泡沫过滤:假设一个算法得知你喜欢某种类别的新闻,因为你恰好在一些初始点点击了一些流行的项目,然后所有新闻都开始通过模型构建的这个狭窄的镜头过滤。如果您看到的所有新闻都会被您通过算法过滤器可见,因此您没有点击任何替代视图,算法将在发现中将其限制视为狭窄的兴趣,并将继续加强其过滤器,从建议的物品中隐藏更多不同的选择。
不公平的预测:假设一个算法学习了一个预测模型,使用包含某些人口统计学属性的关于人的数据进行一些风险评分。如果数据本身隐藏了一些系统性的社会偏见,那么预测模型只会学习并模仿这些偏见。例如,当具有特定种族背景的人被怀疑、筛选、逮捕和起诉的比率较高时,一个模型可以预测哪些人可能因吸食非法毒品而被起诉。
当广泛的内容过滤出现反馈循环时,用户是否注意到?
白盒算法比黑匣子更难以创造吗?
考虑到机器学习算法的重要性,是否会有关于使用“公平”算法的标准和立法?
谢谢你,它真的帮助了我的论文。