人工智能(AI)在各个领域似乎被吹捧为在各种应用领域实现自动化决策的“圣杯”。AI被认为可以做得比人类更好或更快的一些典型案例,包括在Netflix推荐电影、检测癌症、依据每位访客浏览电子商务和零售网站的习惯提供最佳使用者经验,还有客制化车载信息娱乐系统等等。其他特殊的自动化系统应用案例还包括能酿造出更好的啤酒、把人们的思绪转换为语言,或谱写出速度快到你无法想象的死亡重金属音乐。
但这些自动化系统也发生过一些惊人的失误:例如原本被视为黄金典范的自动驾驶车,因为去年发生一辆自动驾驶Uber自驾车撞死行人的事件,而被证明AI尚未完全成功。但有越来越多的AI系统被用来进行与人相关的决策,包括他们该住哪里、该做什么工作、是否能投保还有投保费率会是多少、能得到什么样的抵押贷款,美国的国土安全部还会利用脸部识别功能判别某些人是否为恐怖分子。
AI决策的公正与否,在很大程度上取决于人工智能训练算法所使用之测试数据集的准确性和完整性,而且取决于算法本身的准确性,以及如何做出“成功”的决定。训练算法的优化策略如果是为了实现整个群体的最大整体精度,实际上会放大偏见(bias)。
了解数据如何会生偏见非常重要,虽然数据在一开始就有偏见的想法听起来并不合理。数据集有时候是因为不够完整而造成偏见:资料无法反映真实世界。如Edge Case Research共同创办人暨首席执行官Michael Wagner先前于EE Times发表的一篇文章“小心AI偏见为安全性带来冲击!”所提出的例子,自动驾驶车在传感器数据上的AI训练数据忽略了儿童、坐轮椅的人或穿着荧光背心的建筑工人。
而即使数据确实反映了真实世界,如果所谓的“真实世界”仍包括旧有的社会不平等现象,仍有可能存在偏见。例如某些人口次群体(subgroups)──可透过种族、性别和地理区域等分类判别,因为某些社会偏见让这个族群在特定工作上被雇用的机会远低于其他族群──也许从来没有在某种工作职缺上被雇用,这个事实会被算法的数学偏见放大(如果像往常一样,算法针对数据库的一般群体中谁担任过这项工作进行优化),它会有效忽略那些少数族群,自动产生判断上的偏见。
关于AI算法放大数据集的偏见,有一个例子发生在几年前,美国弗吉尼亚大学(University of Virginia)研究人员所做的实验发现,与人们相关的烹饪、购物、运动等日常活动影像数据集有高度的性别偏见,因为其中有许多女性在烹饪与购物的影像,却很少有女性在运动的影像,而男性的影像数据正好相反;虽然这种差异可能并不令人意外,但机器学习算法在这些偏见性的数据集上进行训练后,会发生什么事情就另当别论了。
研究人员发现,训练算法不仅反映、更放大了这些偏见,以至于经常会将男性烹饪的照识别为女性在烹饪;而该弗吉尼亚大学发表的论文上刊登了一张有个男人在炉子边煮菜的图片, 但AI算法在上面做的卷标是“女人”。
图1:这张1969年的图表显示了一个简单的算法如何根据三个投资标准来评估林业商机。
(数据源:“A computer program for evaluating forestry opportunities under three investment criteria”,Chappelle, Daniel E.)
偏见可能导致AI算法错误
就算去除人类元素,这类偏见仍然存在而且但难以察觉;直到有人发现在智能手机上测试人脸识别功能,却有三分之一的手机无法正确运作,或是美国住宅与都市发展部(Department of Housing and Urban Development)控告Facebook广告平台助长歧视性住宅广告。
还有一个虽然与AI偏见无关,而是AI可能犯错的惊人案例:正在研究订价算法(被像是亚马逊等电子商务网站使用)的意大利波隆那大学(University of Bologna)研究人员发现,在他们的实验中,有两个基于强化学习(reinforcement-learning)的订价算法会对彼此的行为做出回应,然后“联手”设定出比它们个别订价更高的价格。
AI最常被提到的公正性失误案例来自于人脸识别,虽然这可能不会直接影响到许多工程师正在开发的AI应用程序,但是我们有充分的理由注意那些错误分辨与分类不同性别、种族脸部影像的问题。至少,这些是明确的、容易理解的案例,显示若未采用“前瞻工程(foresight engineering)”会产生什么后果。
还有可能发生的是,销售AI系统的公司将开始面临其产品导致之损害而产生的责任归属问题;这在保险业界已经受到关注(保险业是AI系统的早期采用者,用于自动化重复流程和执行风险分析)。去年,保险业者Allianz Global Corporate & Specialty进行一项研究发现:“随着决策责任从人转变到机器,公司也将面临新的责任情境(liability scenarios),需要建立新的架构管理AI所带来的损害。”
尽管AI可能会代理人类做出一些决定,但无法为这些决定负责;若是AI系统因为任何功能上的失误导致用户的任何损害,制造商或程序设计师仍可能得承担这些责任──是的,你没看错,这里写的是“程序设计师”。
跨国会计师事务所KPMG International旗下的管理顾问公司Forrester Consulting有一项调查显示了,有92% 的企业高阶主管担心数据和分析──包括对AI的使用──对商誉的影响,只有35%的人高度信任自己公司所使用的这些技术(参考图2)。
图2:有很高比例的企业高层主管忧虑所采用AI等数据分析技术影响商誉。
(图片来源:KPMG International)
连亚马逊的人脸识别技术也出错
在2018年发生了一件受到高度关注的人脸识别失误案例,是非营利组织美国公民自由联盟(ACLU)调查发现,亚马逊的人脸识别工具Rekognition错误识别28名美国国会议员──Rekognition在进行照片数据库比对时,将那些包含民主党和共和党的国会议员“判定”为曾被逮捕的罪犯。在不成比例的错误比对结果中,有近40%是有色人种(尽管他们只占美国国会议员总数的20%),包括6位非裔国会议员联机(Congressional Black Caucus)的成员。
ACLU北加州的技术和公民自由律师Jacob Snow发表实验结果的博客文章中写道:“为了进行测试,我们采用亚马逊提供大众使用的相同人脸识别系统,任何人都可以使用该系统来扫描脸部影像进行比对。我们利用以2万5,000张可公开取得的罪犯照片在Rekognition建立一个脸部影像数据库与搜寻工具,然后以所有美国国会参、众议院议员的公开照片,使用亚马逊为Rekognition的比对默认模式,在数据库进行搜寻比对。”
而实验结果出炉,ACLU担心若美国警方执法部门利用Rekognition技术,可能会让警察因为受到错误的比对结果指示──例如某人有私藏武器前科──而不能做出公正判断。Snow写道:“研究结果表明了美国国会为何应该支持ACLU对执法部门应该暂停使用具备人脸识别功能安保技术的呼吁。”
在上述测试结果公开之后引起舆论一片哗然,有超过400位学术界人士、近70个民权团体,以及超过15万美国公民,包括亚马逊员工与股东,都要求亚马逊停止将人脸识别安保技术销售给美国警方。最近还有来自学术界和产业界的50多名AI研究人员共同联署一封公开信,要求亚马逊停止销售其人脸识别技术给美国执法部门。
图3:美国公民自由联盟以亚马逊的Rekognition人脸识别技术进行实验,发现有28位美国国会议员的身份被错误识别,被认定为曾被逮捕的罪犯。(数据源:ACLU)
在一篇题为“如何防止AI成为种族主义怪兽”(How to Keep Your AI from Turning into a Racist Monster)的文章中,作者Megan Garcia指出:“算法偏见最棘手的问题之一,是工程师们一定要有种族主义或性别歧视,就能开发出有偏见的算法。在我们越来越相信科技比人类更加中立的时代,这(算法偏见)导致了一种危险的局面。随着科技产业开始打造AI,有可能将种族主义和其他偏见导入程序代码,进而影响之后的决策。由于深度学习意味着会是由那样的AI程序代码来撰写程序代码,而非人类,因此更需要根除算法偏见。”
以上的案例说明,AI的偏见(特别是关于种族、性别、年龄或地域的社会偏见)并非故意,但是当“黑盒子”内部的自动化执行时,可能反过来产生无意识的歧视。这使得尽管技术面准备就绪,但对于它是否会做出公正、准确的自动决策,没人有太大的信心。而我们至少应该停下来思考一下,机器学习到底需要哪些辅助──是更好的数据集?更精细调整的算法?审核程序?──以确保我们过去的偏见不会影响到现在与未来的决策。
本文同步刊登于电子工程专辑杂志2019年7月刊