摘要:本文从科普的视角,盘点近年来人工智能(AI)发展的热点事件,宏观了解AI技术的发展水平和未来趋势,浅谈AI作为未来世界的核心技术,它将给社会带来的正面和负面影响。AI发展经历了过去的第一代和现在的第二代,若从AI技术发展历史的终点回头来看,可能今天的阶段只是起步阶段吧,发展理想的具有人类智能的AI系统的道路将是漫漫长路,下一代AI技术的重点是什么?目前还暂未明朗。
人工智能(Artificial Intelligence,简称AI)是利用计算机研究和开发模拟、延伸和扩展人类智能的科学技术。在它被提出来的50多年时间里,AI的内涵逐步丰富,研究方向、目标任务进一步明确,学科体系不断细化完善,交叉学科不断外溢发展。今天形成了以计算机为支撑,涉及信息论、控制论、自动化、仿生学、生物学、心理学、数学、语言学、医学、哲学、伦理学等内容十分宽泛的交叉学科体系。
人工智能四个字从三个方面高度概括了其研究的内容。所谓“人工”就是以计算机为手段来模拟和扩展人类智能。所谓“智”就是模拟人类智慧,研究知识的获取、知识的表达和知识的运用等。所谓“能”就是延伸和扩展人类能力,研究如何深度学习、自主推理、逻辑思考和科学规划。
AI研究内容主要包括专家系统;神经网络;知识的表示、获取、搜索、处理和运用;深度学习、推理、博弈和规划;智能机器人;视觉识别;图像识别与合成;语音识别与合成;自然语言的理解、分析和综合;自动程序设计等。
AI应用领域包括专家系统;决策系统;智能交通;语音识别;图像识别;指纹、虹膜和人脸识别;搜索引擎;语音交互;无人驾驶;机器人等。
AI研究内容和应用领域很广,但大致可分为1.知识库(Knowledge Base,可简称为KB);2.思维能力(Thinking Ability,可简称为TA);3.机器学习(Machine Learning,简称ML);4.自然语言处理(Natural Language Processing,简称NLP);5.自动语音识别(Automatic Speech Recognition,可简称为ASR);6.计算机视觉(Computer Vision,简称CV);7.AI机器人(Artificial Intelligence Robot,可简称为AIR)等。前三者为后四者提供了基础技术支撑,后四者的应用场景在不断地拓展,逐步落地形成了许许多多AI应用场景。
下文通过梳理近年来AI领域发生的重要大事,希望宏观地了解AI技术的发展状况。通过AI各技术分支的概念介绍,探讨一下AI技术未来的发展趋势。并讨论一些AI应用的正面作用和负面影响。
一、AI的重要事件盘点
1. 1997年IBM“深蓝”超级计算机与国际象棋名家对垒取胜。1997年5月11日,一台名为“深蓝”的超级计算机把棋盘上的一个兵走到C4位时,人类有史以来最牛的国际象棋名家卡斯帕罗夫(Garry Kasparov)不得不沮丧地承认自己输了。世纪末的一场人机大战终于以计算机的微弱优势取胜[8]。
图1. IBM“深蓝”与国际象棋名家对垒取胜
2. 2011年IBM Watson计算平台打败人类高手。IBM Watson是一个计算机感知平台。2011年2月,沃森(Watson)参加综艺节目危险边缘(Jeopardy)来测试它的能力,这是该节目有史以来第一次人与机器对决。2月14日至16日3集节目中,Watson在前两轮中与对手打平,而在最后一集里,Watson打败了最高奖金得主布拉德.鲁特尔(Brad Rutter)和连胜纪录保持者肯.詹宁斯(Ken Jennings)[1]。
图2. IBM Watson打败人类高手
3. 2014年亚马逊率先推出智能音响Echo。2014年11月,亚马逊(Amazon)推出了一款全新概念的智能音箱,命名为Echo。这款产品最大的亮点是将智能的自然语言交互技术植入到传统音箱中,给音箱赋予了AI的属性。随后国内许多厂商跟进,市面各种品牌的智能音响曾经名噪一时。
图3. Amazon Echo和各种品牌的智能音箱
4. 2014年伊恩.古德费洛(IanJ.Goodfellow)提出对抗生成网络。对抗生成网络(Generative Adversarial Networks,简称GANs)是一种通过对抗过程估计生成模型的AI处理框架[21]。基于GANs处理框架,人们可以从无到有生成高精度人脸图像等。2018年12月,英伟达(Nvidia)做了一个高精度、超逼真的人脸生成AI系统。该系统可以按照某种要求生成细节极其丰富的人脸图像,如下图所示,这是一项石破天惊的进展。
之前AI虽然可以生成比较像的人像,但是像片分辨率不高,细节也不丰富。这次生成的照片的逼真和细腻程度令有些网友感到“毛骨悚然”和“不安”,人们很担心自己的形象某天会被AI伪造和滥用。有人甚至发问,“我们为什么要有这种技术?谁来约束和保证这种技术不被滥用?”。
图4. Nvidia基于GANs的AI系统生成的人脸图像
基于GANs处理框架,人们还可以从低分辨率到高分辨率对图像质量进行优化;也可以对图像风格进行转换,例如人物漫画创作、虚拟试衣、警察破案等。以下是部分GANs研究者的作品。
图5. 16*16的小图像优化提升到1024*1024分辨率的清晰图像
图6. 基于AI技术的人像漫画创作
图7. 基于AI技术的虚拟试衣
5. 2015年微软深层神经网络技术获得突破。2015年12月10日,微软亚洲研究院的视觉计算组在2015 ImageNet计算机识别挑战赛中,凭借深层神经网络技术的最新突破,以绝对优势包揽图像分类、图像定位以及图像检测三个主要项目的冠军。微软研究团队使用的神经网络层数多达152层,这比之前最多层数多出5倍以上,使AI技术迈入了深层神经网络和深度学习的时代[3]。
6. 2016年国内语音识别准确率均突破97%。2016年11月21日~23日,国内三家公司搜狗(Sogou)、百度(Baidu)和科大讯飞(Iflytek)接连召开发布会,向外界展示了自己在语音识别和机器翻译等方面的最新进展[4]。三家公司都宣布自己的中文语音识别准确率达到了97%。
搜狗语音团队是11月21日推出了自己的语音实时翻译技术,它包括语音识别和机器翻译。该团队介绍搜狗语音识别的准确率达到了97%,支持最快400字每秒的听写。百度则是在11月22日宣布向开发者开放情感合成、远场方案、唤醒二期和长语音方案等四项语音识别技术。在大数据支撑下,百度语音在“安静条件下”的识别准确率达到了97%。在11月23日的科大讯飞发布会上,科大讯飞轮值总裁胡郁表示科大讯飞的语音输入识别成功率也达到了97%,即使是离线情况下,识别准确率也达到了95%。
7. 2017年AlphaGo战胜人类围棋高手柯洁。2016年以来,谷歌的阿尔法围棋(AlphaGo)可谓名声大噪。2016年3月,AlphaGo战胜韩国围棋高手李世石,2017年5月,在中国乌镇围棋峰会上,AlphaGo Master与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。10月机器狗对狗大战,最强新版AlphaGo Zero以89:11的战绩打败了曾经战胜柯洁的旧版AlphaGo Master[5]。
图8. AlphaGo与柯洁的围棋大战
8. 2018年Deepfake换脸技术成熟引发担忧。Deepfake是由深度机器学习(DeepMachine Learning)和假照片(Fake Photo)组合而成的单词。这项技术最早起源于2017年,一个匿名用户“Deepfakes”把《神奇女侠》的女主角盖尔.加朵(Gal Gadot)的脸移植到了一部成人电影的女主角身上,再用技术手段使其完美融合后,将视频上传到了Reddit的成人交流社区,一时间这部成人电影流量大增。Reddit以侵犯隐私为由将该部电影封禁。Deepfakes对于Reddit的封禁极为不满,作为报复,他直接把Deepfake技术的AI代码在Github上免费公开[20]。该技术引发人们广泛担忧是从2018年开始,由于Deepfake技术成熟,网站上换脸的假视频就多了起来。引发了人们对该黑科技的广泛关注和批评。
Deepfake技术的核心是深度机器学习在图像合成、风格替换上的应用。它只需要一些目标人物的图片素材,就能伪造出目标人物极其逼真的照片或视频,并且可以让目标人物在视频里按你写的台词讲话。该技术可用在影视作品制作、多媒体教学、AI主播等方面,当然也会被不法之徒滥用。
图9. 用Deepfake换脸技术,右边是左边的换脸人(换脸6次)
9.谷歌推出Duplex自然语言会话功能:2018年5月,在2018 Google I/O开发者大会上,谷歌介绍了Google Assistant的新功能Duplex。Google Assistant有了Duplex就可以自动打电话给餐厅或酒店进行订餐、行程安排、预约理发等功能,它不仅说话语气自然、100%接近人声,还能理解“复杂的句子、快速的演讲和冗长的评论”。3月初,谷歌已宣布Duplex将应用于苹果手机和其它安卓设备。有了Duplex功能,手机用户只要在Google Assistant制定一个计划表,Duplex就会按时自动为你打电话,与酒店或餐厅的人进行预订对话。如果预订成功,Duplex会自动更新用户的计划表,并提醒用户[12]。
图12. 谷歌助手可与人类对话,预订酒店、餐厅和理发
10.谷歌AI预训练模型发布:2018年10月,谷歌AI团队发布了BERT模型(Bidirectional Encoder Representation from Transformers),这是一个AI预训练模型。它在机器阅读理解的顶级水平测试SQuAD1.1中,表现出了惊人的成绩。测试的两个衡量指标上全面超越人类,并在11种不同自然语言处理(NLP)测试中创出最佳成绩,BERT模型也被看作是NLP领域的重大突破。
图12. 三种NLP训练模型示意图
11.“网红”机器人和机器狗家族:2016年以来,网上不时出现波士顿动力(Boston Dynamics)公司出品的机器人Atlas和机器狗Spot表演的视频。不论Atlas背翻跟头、翻越障碍,或者Spot负重快跑、巡逻、开门和拉大车,还是它们被推倒自己可以爬起来,都令网友们惊讶不已,这些都充分展示了智能机器人和机器狗的发展水平。
图12. “网红”机器人跨越障碍
图12. “网红”机器人背翻跟头
其实,波士顿动力已有几十年的“遛狗”经历。1992年波士顿动力从麻省理工学院分家后,花了超过十年的时间,才从实验室开发出第一台智能机器人,从那以后,波士顿动力俨然成为了智能机器人行业的领跑者,在模仿人和动物运动方面的实力无人能敌。
图12. 2009年推出的大狗BigDog
2017年SpotMini推出,其重量仅为55磅,是波士顿动力的机器狗系列中最小一个。它全电力驱动,不含液压系统,一次充电可以实现90分钟的操作,一系列传感器为它提供了先进的导航功能,并能够自主执行一些基本任务。SpotMini还配置了一个可选的手臂和抓手(Arm),能让它在跌倒后迅速爬起来、还能捡起细碎的物品。
图12. SpotMini爬楼梯
图12. SpotMini+Arm开门
目前,SpotMini的完成度已经非常高。未来,如果你的车在路上抛锚,来拯救你的或许不再是传统的拖车,也许是10只SpotMini机器狗。
图12. 10只SpotMini拉动一辆挂空挡大卡车
图12. 波士顿动力的机器人/狗的家族
12.仿真智能主持人:2018年11月7日,在第五届世界互联网大会上,由搜狗(Sogou)与新华社合作开发的全球首个全仿真智能合成主播正式亮相。它根据所提供的稿件,就能准确无误地播报新闻。它不但可以模仿目标人说话的声音,而且嘴唇动作和表情的逼真程度几乎能以假乱真。据报道,AI合成主播依托的是Sogou分身技术。其原理是通过使用人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项技术,再结合语音、图像等多模态信息的联合建模训练后,生成与真人无异的AI分身模型。本次亮相的AI合成主播以新华社主播邱浩为原型,两者的声音以及外形都很相似[10]。
图12.全球首个AI合成主播的视频展示
13.2019年华为发布AI芯片:2019年8月23日,华为发布了一款商用AI芯片昇腾910(Ascend910)。昇腾910采用了7nm+ EUV工艺,基于达芬奇(Da Vinic)架构。它的算力相当于50个当前最强CPU的算力,训练速度也比目前最强的AI芯片强50%~100%。昇腾910的FP16算力达到256Tera-FLOPS,INT8算力达到512Tera-OPS。重要的是昇腾910达到规格算力所需的功耗仅为310W,明显低于设计规格的350W[14]。
图12. 华为发布昇腾910AI芯片
14.阿里发布AI芯片:2019年9月25日,在杭州云栖大会上,阿里达摩院推出了号称全球最强AI芯片——含光800。在杭州城市大脑的业务测试中,1颗含光800的算力相当于10颗GPU。在业界标准的ResNet-50测试中,含光800推理性能达到78563IPS,比目前业界最好的AI芯片性能高4倍;能效比500IPS/W,是第二名的3.3倍。含光800将通过阿里云对外输出AI算力。基于含光800的AI云服务也于当天上线,相比传统GPU算力,性价比提升100%[15]。
图12. 阿里发布含光800AI芯片
15.机器人单手拧魔方:2019年10月,OpenAI在官网上发布了Dactyl机器手在约4分钟的时间里,成功还原了一个三阶魔方的视频。该机器手第一次使用了深度机器学习技术自己学会了拧魔方。甚至在训练中还增加了一些干扰影响,Dactyl依然能成功地完成了任务[17]。2016年英飞凌(Infineon))的Sub1 Reloaded机器用0.637秒解开了三阶魔方,以及2018年麻省理工学院的学生Ben Katz和软件人员Jared Di Carlo开发的机器人以0.38秒解开三阶魔方,之前这些虽然速度很快,但那是用编程机器人来实现的。这次Dactyl通过深度学习,就可以还原三阶魔方,这是AI技术的一大突破。
图12. Dactyl机器手拧魔方(无干扰)的视频
图12. Dactyl机器手拧魔方(有干扰)的视频
16.2020年OpenAI发布语言模型GPT-3:GPT是可生预训练变换(Generative Pre-training Transformer)的英文简称,它是由亚历克.拉德福德(Alec Radford)编写的语言模型,于2018年由埃隆.马斯克(Elon Musk)的人工智能研究实验室OpenAI发布[22]。2020年5月,OpenAI发布了大型无监督语言模型GPT-3,它是GPT-2的改进版本,它的参数由GPT-2的15亿个提升到了1750亿个,性能有了显著的提升。GPT-3在自然语言处理处理各方面的性能十分优秀,包括在线翻译、问题回答和完形填空等任务,可以适应即时推理或领域适应的应用,也可以自动生成人们难以区分的新闻稿和短文。
17.2021年寒武纪最强AI芯片量产:2021年1月21日,寒武纪的思元290智能芯片及加速卡量产。思元290智能芯片是寒武纪的首颗训练芯片,它采用台积电7nm先进工艺,集成了460亿个晶体管[26]。据报道,思元290芯片在架构、多核芯互联、内存、接口等方面全面升级,相比思元270芯片,思元290芯片的峰值算力提升4倍,内存带宽提高12倍,芯片间通讯带宽提高19倍。加速卡的型号是MLU290-M5,它采用开放加速模块OAM设计,具备64个MLU Core,1.23TB/s的内存带宽以及全新MLU-Link™芯片间互联技术,在350W的最大散热功耗下提供的AI算力高达1024TOPS,全面支持AI训练、推理或混合型人工智能的计算加速任务。
图12. 寒武纪最强AI芯片和加速卡
二、AI技术分支和应用
上文介绍了近年AI领域发生的重要事件,现对AI的技术分支,包括知识库、思维能力、机器学习、自然语言处理、自动语音识别、计算机视觉、人工智能机器人等进行简要介绍。
1.知识库(KB):AI的知识库是结构化的知识集合。知识集合包括对自然界的认知、专业知识和常识等。结构化是指知识的表达、存储、组织、关联、增加、删减和更新的组织结构和方法。人类的知识体系极为复杂,人类通过学习可以增加知识,但是大脑如何结构化的组织知识,如何表达、记忆和关联知识等,人类目前还知之甚少。
近年来,专业研究和开发知识库应用的公司不少,这些公司以知识库为核心,以应用为驱动力开发了不少行业应用的知识系统。例如北京明略科技集团、北京深蓝海域信息科技公司、北京中科汇联科技公司、广州润普网络科技公司等。
图13. 明略知识图谱平台
图14. 智能统一知识库架构
2.思维能力(TA):AI的思维能力是对知识处理和运用能力。它大致包括了比较、分析、综合、抽象、概括、搜索、情感、推理、规划、决策等。思维能力是人类智能的高级特质,在目前的AI系统中实现这样的特质困难还很大。
图15. 基于知识库的AI数字政府应用框架
AI发展的最高级阶段是AI系统具有像人脑一样复杂的知识体系和思维能力。目前,AI系统用数据结构表达的知识体系是简单和原始的,因为人类对自己大脑的认识还很肤浅,还没有弄清它的本质。所以,目前AI系统基于数据结构实现的搜索、推理、规划等思维能力是很有限的能力,离真正意义上的思维能力还差得很远,更谈不上给AI系统赋予像人类一样的情感。如果这两部分不能形成技术上的重大突破,AI系统就只能处在初级原始的阶段,担心AI系统会统治人类目前看来是杞人忧天。
3.机器学习(ML):它是研究如何让电脑自己从数据中发现规律、模式和知识等,通过学习和分析不断扩大知识库,并依据现有知识库做出决定和判断。ML是基于电脑对人脑学习能力的模仿,是AI其它技术的基础支撑。ML包括基于深度神经网络的深度学习、增强学习、迁移学习等研究重点。ML的典型应用不胜枚举,影响最大的是AI与人类的棋类对决,落地最早、应用最多的AI技术是网络搜索应用、人脸识别的计算机视觉(CV)应用、人机会话的自动语音识别(ASR)应用等。目前大多AI应用中都使用了ML技术。
4.自然语言处理(NLP):它是计算机科学与语言学的交叉学科。NLP侧重研究自然语言的句子、词汇、语法和语义,使电脑能够理解、处理和运用人类的自然语言。若向没有NPL功能的电脑输入一段问话,电脑只能把它当作一个字符串来看待。若向有NPL功能的电脑输入这段问话,电脑就能知道你问话的意思,并回答你的问题。语义分析是NLP的核心技术。NLP要由语句获得句子的语义,就要使用知识库(KB)。由于语言是动态变化的,语义有时也会有歧义,常识和推理逻辑由于无边无界,决定了语义分析的难度很大。NLP的典型应用包括:搜索引擎、个人助手、客服机器人等有自然语言交互的应用场合。
5.自动语音识别(ASR):它是通过电脑和拾音处理设备来模拟人类听觉,对语音进行感知、存储、处理、理解,形成相关信息和知识,或者合成和生成相关新语音的技术。ASR的典型应用包括:语音文字输入、电器和设备语音控制、语音查询、人机对话、会议速记、电话客服等。
6.计算机视觉(CV):它是通过电脑和图像处理设备来模拟人类视觉,对图像等视觉信息进行感知、存储、处理、理解,形成相关信息和知识,或者合成和生成相关新图像和新视觉的技术。CV的典型应用包括:生物特征识别的人脸识别、指纹识别、虹膜识别、车牌识别、光学字符识别(OCR)、人脸识别、人的行为识别、视频监控、产品缺陷检测、以图搜图、视频检索等。
7.AI机器人(AIR):与传统的编程机器人相区分,它是具有AI功能的机器人。AIR除了要研究AI相关技术以外,还要研究更多传感器、制动器、运动算法等。AIR的种类和应用已很多,例如无人机、自动驾驶汽车、学习娱乐和引导机器人、导盲机器人、物流和送菜机器人、医疗机器人、排险机器人等。
下图对前文所列17件AI大事涉及的技术及应用进行了汇总。可以看到属于机器学习(ML)的事件最多,其次是自然语言处理(NLP),再次就是自动语音识别(ASR)、计算机视觉(CV)和智能机器人(AIR)。究其原因,因为ML和NLP是AI的基础性支撑技术,也是这波AI发展热潮的推动力量。
图16. AI事件涉及的技术与应用汇总一览表
在应用方面,落地最快、挖掘最充分的应用场景大部分都集中在CV和ASR的两个方面。据报道,中国AI领域20个独角兽、30个准独角兽企业,近80%都跟CV和ASR有关系。在AIR方面,国外企业的创新和研发走在前面,国内企业则在应用创新方面深耕细作,大力开拓了AI应用的领域。
AI发展现状小结:目前,AI技术发展是基于二进制信息表达、冯氏计算机架构(虽然不断有改良和创新)、以及当代芯片技术等。在此基础上,逐步建立了神经网络架构、模型和算法。由于芯片集成度大幅提高,计算力大幅提升,神经网络层数不断加深,使得ML向深层机器学习(Deep ML)发展,加上大数据(Big Data)的支撑,从而掀起了这一波有广泛影响力、有技术突破、有应用落地的AI发展新浪潮。
中科院院士、清华大学人工智能研究院院长张钹教授认为,目前,Deep ML是AI最受关注的领域,但并不是AI研究的全部。Deep ML只是目前AI技术的一部分,知识表示、不确定性处理、人机交互等更大更宽的领域都亟待进行深入研究[13]。我们可以看到,AI知识库(KB)和思维体系(TS)两个方面并未取得重大突破。目前AI系统所处理的大量信息,只能算作是数据(Data)而不是真正意义上的知识(Knowledge),因为人脑知识体系要比这些数据复杂很多很多;目前AI系统的数据检索、推理、判断和综合等处理过程只能算作是简单的思维过程,与人脑那样的KB和TS不在一个水平上,不可同日而语。人们甚至还没有弄清楚人脑是如何储存知识,更不知道它是如何处理这些知识,以及如何基于这些知识进行推理和思维。
目前的AI所能处理的工作要具备5个限制条件才能有所突破[13]。一是数据充分(量大、多样、齐全);二是规则明确(有规则可依,要照章办事);三是完全信息下的决策(当前信息完全时,才可以决断),例如下象棋是完全信息博弈,牌类和麻将是不完全信息博弈;四是静态演化(按确定规律演化,结果可预测);五是特定领域(只能单任务、单应用场景,不能适用于多种领域)。目前AI突破人类能力的事件,都满足了上述5个条件。从事同时满足这5个条件的工作的人员可能会被AI淘汰;对于单个或多个条件不满足的场合,目前的AI肯定不会超越人类智能,从事相应工作的人员将不会被AI取代。
鉴于目前AI技术发展现状,张钹院士认为目前基于DeepML的AI,尽管产业层面还有很大发展空间,但在技术层面已经触及天花板。从长远来看,AI必须走人类智能这条路,最终要发展人机协同,人类和机器和谐共处的世界。未来需要建立可解释、鲁棒性的AI理论和方法,发展安全、可靠和可信的AI技术[13]。
图17. 张钹院士:AI奇迹短期难再现深度学习已近天花板
以上AI发展现状的评价是从技术角度来看的,稍显冷静客观一些。但从产业角度(特别是从投资角度)来看,人们则要乐观很多。由于AI的应用很广,它的应用场景还在不断挖掘,所以市场潜力还是很大的。但是要记住,投资界总是很珍惜每次新技术进步带来的“吹”大风机会。风吹得大一点也很自然,要不然投资的“猪”怎么能飞起来呢?
三、第三代人工智能是什么
张钹院士提出了AI的三代论。他把过去以符号推理为核心的AI称为第一代,把目前以深度机器学习(概率学习)为主导的AI称为第二代,把未来具有理解力的AI称为第三代。
他认为第一代AI发展到现在的第二代AI,其技术具有很大的局限性。局限性一是今天的AI只能在满足5个限制条件情况下,才能发挥作用。二是目前AI的理解和推理能力是很有限的。例如,在知识库里有「特朗普-总统-美国」三元组信息。AI就可以正确回答“谁是美国总统?”这个问题。但是,AI要回答“特朗普是一个人吗?”、“特朗普是一个美国人吗?”、“美国有没有总统?”等需要常识和推理的问题,它肯定会懵圈,保准回答不上来。三是今天的AI用准符号模型,深度机器学习、神经网络来模拟人类智能的感性行为是件很难的事情,因为感性(感觉)没办法精确地描述,例如人们很难告诉计算机什么叫做马?你说马有四条腿,什么叫做腿?你说细长的叫做腿,什么叫细,什么叫做长?因此,计算机无法理解、接收和储存你说的这个马及相关知识,因而基于这些知识的推理将无从谈起。除这三点之外,应该还有一些其它的局限性,只是暂时还未暴露出来而已。
所以,张钹院士提出下一代AI发展目标,即建立一个全面反映人类智能的AI,需要建立可解释、鲁棒性的AI理论与方法,发展安全、可信、可靠与可扩展的AI技术,即第三代人工智能。这是他为AI下一步发展指明的努力方向。
其实,下一代AI的发展目标是什么?这是一个不确定的问题,这个目标可定的大一些也可以定的小一些。只有当AI在发展过程中取得了重大技术突破,产生了重大经济和社会影响,回顾历史时才可以被确定为一代。
AI的终极理想一是具有接近人类的智慧,可以像人类一样思维和推理,可以进行人机知识传输;二是具有(或超过)人类的能力,包括感知、理解、计算、规划等方面的能力。这就要求实现AI的电脑架构要尽可能地与人脑相似,尽可能地模仿人脑。但是,目前的电脑和人脑在知识的表达、储存、处理和应用等方面存在天壤之别,前者是电系统,后者是生、化、电的混合系统;前者是二进制信息,后者是模拟信号。目前人类对自己大脑的了解知之甚少,模仿人脑的工作还处于非常初级的阶段。因此,发展全面反映人类智能的AI,工作艰巨道路漫长,目前只是刚刚起步。
AI的终极理想今天看似一个梦想,但未来几十年乃至几个世纪之后可能会变成现实。到那时,人脑奥秘已经被破解,类人脑AI技术已发展成熟。人类可以把自己的知识、想法和技巧通过人-机接口传递给AI机器人;也可以把AI机器人完成的工作结果、设计成果等通过机-人接口收回存入自己的记忆中;或者把人脑的专业知识打包,通过人-机接口传递给AI机器人,再通过机-人接口下载到新成人大脑中,新成人可以瞬间变成一个称职专业人员,成为一名合格的领导、律师、警察、技师、农民等,新成人可以省去十多年的教育培养过程。那时,工作交接可以瞬间完成,老师这个职业已经不复存在。
四、人工智能带来的是与非
人类经历了原始社会、自然文明社会,走过了机械化和电力化的工业社会、计算机化的信息社会,正在走向人工智能的智能社会。每次技术革命都会给社会进步带来飞跃,例如机器和电力带来了生产力的大幅提升,化学带来了生活的丰富多彩,网络带来了通讯交流的便利化,等等。但同时,新技术革命也会带来许多负面影响,例如手工业者失业、资源过度浪费、环境污染、电讯诈骗猖獗等。
同样地,发展AI可以增强人类智慧和能力,必然会给人类生活带来翻天覆地的变化。但同时负面影响也不容小觑。本文关注的是AI技术中,“无中生有”的技术可能给社会管理带来的挑战。这类技术包括1.PhotoShop的AI抠图换背景技术;2.仿声语音合成技术;3.视频换脸Deepfake技术。
1.PhotoShop的AI抠图换背景技术。对于熟悉Photoshop(简称PS)的摄影人来说,为了对照片调色或者换背景,经常要对人物或者主体进行抠图,然后再通过换背景来个“移花接木”。PS手工抠图不但费时费力,抠图边缘也很难做到完美,特别是发丝与背景交织一起,抠图难度很大。所以修改后的照片如果仔细看,多少都会露出修改的丝蛛马迹。2018年以后的PS版本增加了基于机器学习(ML)的AI智能抠图功能,只要一键就可以完成抠图,特别是把人物边缘包括蓬乱的发丝处理的恰到好处,可以做到“毫发无损”。AI智能抠图给摄影人员做照片后期处理带来福音,同时也给不法人员制作“无中生有”的照片提供了强有力的伪造工具[7]。
图18. PS的AI智能抠图功能的演示动图
图19. 毫发无损的AI智能抠图的例图
2.仿声语音合成技术:目前,大家常用的汽车导航软件都配置了许多明星、名人和播音员的导航语音包。因为播报的路名地名极多,时常也要更新变化,所以这些语音包并不是真人在录音棚录制的,而是采用AI语音合成技术自动生成的。如果该技术生成导航语音包之前征得了被仿制人同意,这是仿制;如果未征得同意,这种仿制就变成了伪造。特别是,这种技术也可能用于非法目的,例如金融诈骗、报复和诽谤等。
3.视频换脸Deepfake技术:最初Deepfake是一名AI程序员为了娱乐目的,专为成人视频“换脸”而开发的AI黑科技。目前已经成为免费开源的软件,并被广大程序员进一步完善成熟。它可以用于影视制作、合成主播、娱乐短视频等应用,也可以被不法人员用于“无中生有”地伪造视频,用于敲诈、报复和诽谤等目的。网上很多人呼吁,应该对这类AI黑科技加强监管。
据报道,2018年4月,印度女记者Rana Ayyub遭到了她写的纪实报道的当事方疯狂报复。当事方用Deepfake伪造了她的性爱视频,在网络上大肆传播,给女记者及家人造成严重伤害。2019年3月,犯罪分子利用Deepfake技术冒充英国某能源公司CEO,成功诈骗到22万欧元。2019年6月13日,网上曝出马来西亚经济部长阿兹明.阿里(Azmin Ali)同性关系的视频,曾经轰动了整个马来西亚,后来证实这个视频是利用Deepfake伪造的假视频。
图20. Deepfake让爱因斯坦复活,号召大家保持距离,勤洗手,对抗新冠病毒
图21. 《钢铁侠》女演员艾米.亚当斯(左)换上了尼古拉斯.凯奇的脸(右)
以上这些“无中生有”的AI技术对“有照片、有录音、有视频就有真相”的真伪鉴别模式造成了极大冲击,使人们失去真伪的辨别能力。今后,历史资料和证据档案中还需要保存照片、录音和视频作为证据吗?这些AI黑科技是科学家和社会管理者都需要正视的问题。
通常情况下法律出台总是滞后于现实需要。典型例子就是电信运营商早期非实名大量发卡,推出所谓虚拟运行商专号、号码“任意显”等功能,造成了早期城市满大街“牛皮癣”小广告泛滥;也造成了长期以来的电信诈骗案层出不穷。不但给市容和受害人造成很大伤害,而且浪费了大量的城市保洁和公安干警的精力。因此,建议今后在重大革命性技术出现和发展初期,科技界应积极配合法律界及时地跟进研究和预判,并配合立法机关做好立法的前期准备。国际社会应对“无中生有”的黑科技严加管束,但也无需“一杆子打翻一船人”,对这些黑科技有益的方面也应该加以保护。
结语:近年AI技术经过AlphaGo等事件的广泛科普后,已经深入人心。目前正在从AI深度机器学习的高潮中沉静下来。但是,各个AI分支的研究还将会不断深入,技术应用也正在被产业界深度挖掘,不断成功落地应用。科学家预计,第三次AI技术发展浪潮可能会从类脑AI技术的方向突破。人类大脑的奥秘亟待破解,AI技术分支中的知识体库、思维体系的基础研究也亟待加强。开发出有知识内涵、有思想意识、受人管控、能力强大的AI系统才是AI技术发展的终极目标。
参考资料:
1.IBM Watson,百度百科:https://baike.baidu.com/item/Watson/3754014?fr=aladdin
2.科普中国,知识库,百度百科:https://baike.baidu.com/item/%E7%9F%A5%E8%AF%86%E5%BA%93/217934?fr=aladdin
3.youzhouliu,残差学习,152层网络,微软夺冠2015 ImageNet计算机视觉识别挑战,CSDN博客:https://blog.csdn.net/youzhouliu/article/details/50277721,2015.12.12
4.snow2know,百度、搜狗、讯飞同时宣布语音识别准确率达到97%,他们是怎么做到的?CSDN博客:https://blog.csdn.net/snow2know/article/details/53858131,2016.12.24
5.科学画报,AlphaGo战胜了李世石和柯洁,如今败给了“自己”,搜狐:https://www.sohu.com/a/199792158_170823,2017.10.23
6.曹纪乾,人工智能的五大核心技术,CSDN博客:https://blog.csdn.net/sergeycao/article/details/75254630,2017.7.17
7.智云科技传媒,PhotoShop更新AI智能抠图黑科技,整个抠图过程只需5秒?搜狐:https://www.sohu.com/a/219578766_653557,2018.1.29
8.Today in History,历史上的今天,IBM深蓝超级计算机击败国际象棋世界冠军,搜狐:https://www.sohu.com/a/231176382_100170370,2018.5.11
9.引力空间站,英伟达做了一个超级逼真的人脸生成AI系统!搜狐:https://www.sohu.com/a/283227222_100095143,2018.12.21
10.豫见创客教育,2018年度AI(人工智能)十大热门事件盘点,搜狐:https://www.sohu.com/a/286668493_100222568,2019.1.7
11.云南信息报,电信诈骗的特点及原因分析,新浪网:https://t.cj.sina.com.cn/articles/view/1668928944/6379d5b002000dvza,2019.1.22
12.天极网,Google Duplex正式登陆苹果iPhone,同时适配更多安卓机型,百度:https://baijiahao.baidu.com/s?id=1629861394160161963&wfr=spider&for=pc,2019.4.4
13.人工智能学家,张钹院士:人工智能技术已进入第三代,CSDN博客:https://blog.csdn.net/cf2SudS8x8F0v/article/details/90986936,2019.6.5
14.梁梦麟,华为昇腾 910AI 芯片发布,这应该是目前性能最强的 AI 芯片,爱范儿:https://www.ifanr.com/1251420,2019.8.23
15.勇士学不会,阿里含光800芯片到底有多牛?知乎:https://www.zhihu.com/question/347692315/answer/835298105,2019.9.25
16.奇艺魔方格,机器人也学会单手解魔方了?OpenAI的仿人机器手Dactyl简介,哔哩哔哩:https://www.bilibili.com/video/av71483492,2019.10.17
17.AI报道,快讯!OpenAI仿人机器手Dactyl通过“自学习”完成单手解魔方,百度:https://baijiahao.baidu.com/s?id=1647721593698928015&wfr=spider&for=pc,2019.10.18
18.郭少悲,DeepFake入门了解,简书:https://www.jianshu.com/p/fdaf464f7f0e,2019.11.5
19.新智元,Deepfake有什么用?,知乎:https://www.zhihu.com/question/382367348/answer/1140725612,2020.4.9
20.星辰大海路上的种花家,黑科技DeepFake,上线五天就遭全球唾弃,这技术到底有多邪恶?搜狐:https://www.sohu.com/a/406281820_100267485,2020.7.7
21.宝珠道人,近两年,人工智能有哪些有趣的进展?知乎:https://www.zhihu.com/question/398324972,2020.7.16
22.太平洋电脑网,什么是GPT-3,它将如何影响人们目前的工作?百度:https://baijiahao.baidu.com/s?id=1672711452430921198&wfr=spider&for=pc,2020.7.20
23.桔了个仔,近两年,人工智能有哪些有趣的进展?知乎:https://www.zhihu.com/question/398324972/answer/1384698890,2020.8.5
24.机器之心Pro,清华张钹院士专刊文章:迈向第三代人工智能,百度:https://baijiahao.baidu.com/s?id=1680147176936442040&wfr=spider&for=pc,2020.10.10
25.视知TV,Deepfake到底有多可怕?哔哩哔哩:https://www.bilibili.com/video/av245980044,2020.12.31
26.460 亿个晶体管!7nm工艺,寒武纪首颗 AI 训练芯片思元290 量产,微信公众号【创芯老字号】,2021.1.21