广告

巨头们的人工智能芯片研发得怎么样了?

时间:2018-02-07 08:20:19 作者:Rick Merritt 阅读:
根据百度(Baidu)深度学习(deep learning)资深研究人员针对最新加速器进行的测试结果显示,现有的加速芯片和软件仍然存在一些美中不足之处,应该尽快迎头赶上…
广告

根据百度(Baidu)深度学习(deep learning)资深研究人员针对最新加速器进行的测试结果显示,现有的加速器芯片和软件仍然存在一些美中不足之处,应该尽快迎头赶上。

这些结果有一部份来自于使用DeepBench测试。DeepBench是使用32位浮点数学训练神经网络的开放来源基准。号称“中国Google”的百度于2016年9月发布DeepBench,并在去年6月进行了更新,使其涵盖推论工作以及使用16位数学运算。
20180206-deepbench-1
DeepBench利用神经网络库测试不同硬件的基本运算效能(来源:Baidu)

百度硅谷人工智能实验室(Silicon Valley AI Lab)资深研究员Greg Daimos解释。在一些像矩阵乘法这样的底层作业中,具有专用硬件的芯片(例如Nvidia Volta GPU的张量核心)能够提供“数百TeraFlops (每秒1兆次浮点运算)...比前一代的5-10TFLOPS更快几个数量级。”

然而,他说:“在实际应用中所使用的一些底层作业并没有足够的(数据)区域性,让这些专用处理器充份发挥效能,所以我们必须为其适度地加速,或者改变算法。”

百度研究小组目前正探索两种方式使用新芯片获得更大回报。一方面,研究人员在其算法中开启控制功能,以便同时接收馈入数据,期望能提高10倍的资料平行性。

另一条途径是让所有的模型看起来更像一般用于成像应用的卷积神经网络(CNN)。Daimos说,CNN比一般用于文本或音频应用(app)等循序数据的递归神经网络(RNN)具有更多区域性。
GregDiamosBaiduwcap
研究人员在从文本产生音频的百度模型中,“以CNN层取代RNN层堆栈”,使得“运算密度提高了40倍”,从而带来了更好的新硬件利用率。他强调,“我们必须透过编写的所有应用程序来检视是否可以普遍使用这种方法,或只是将其用于语音合成。”

目前尚不清楚这两种方法的研究成果何时可用于生产系统。同时,Daimos也分享了硬件测试的其它观察结果。

编程、内存与灵活性

虽然百度取得将近90%的Nvidia Volta最佳利用率,但编程GPU并非易事。Diamos说,该芯片“有着成千上万个线程,你必须在一个问题上进行协调和同步......编写这样的程序代码并不容易,而当面对的是像张量核心这样的对象时就更困难了。”

的确,Diamos表示,“让这些任务变得更易于编程,正是我们面临的最大挑战......而其中最大的问题就出在内存。我们想要执行更大的神经网络,但内存比预期地更快耗尽,这并不是透过打造更好的处理器就能解决的问题。”

他补充说,该问题的一部份答案在于寻找能与新兴内存搭配作业的技术,例如许多最新加速器所使用的高带宽内存(HBM)芯片堆栈等。

在百度的测试中,英特尔(Intel)多核心x86处理器Xeon Phi的利用率甚至高于Nvidia Volta。然而,英特尔的芯片还没有任何张量专用核心,因此该芯片在神经网络作业上的性能不若Volta。
20180206-nvidia-volta-1
Nvidia Volta配备640个Tensor核心,每秒提供超过100TFLOPS的深度学习效能(来源:Nvidia)

直接进行比较并不容易,因为不同的芯片通常使用不同的运算格式。例如,Xeon Phi采用定点数学,而Volta则混合使用16位和32位浮点运算。

Diamos说:“英特尔芯片的测试结果显示,对于一些CNN来说,定点数学运算没问题。然而Nvidia发布的结果显示在影像和语音应用上表现良好,所以我们取得了一些数据,但还需要进行更多研究。”

他称赞AMD最新的GPU及其新的机器学习开放软件是正确的发展方向,但指出他们也缺乏张量核心。他表示,对于英特尔Nirvana和Graphcore Colossus等芯片“没啥可分享的消息”,也许是因为百度可能还在测试其预先发布的样片。

拥有大量的矩阵乘法单元通常是一件好事。但是,Volta、Nervana和Colossus处理器则以充满矩阵乘法数组的芯片将其性能指针推进到或接近其工艺节点所能实现的极限。

他说:“最终你的收益会递减......让你不得不放弃灵活度,以便为更多不同的工作负载进行更精密的运算。因此,我们应该找到曲线的转折点,让芯片不仅在CNN上运作良好,在其它方面也表现出色。”

神经网络软件架构各执一端

除了底层数学之外,加速器还可能缺少优化,因为它们并不完全了解深度学习应用的所有范围。

当今用于设计神经网络的竞争软件架构各执一端,可能会让情况变得复杂。遗憾的是,跨不同架构建立标准规格的努力也是各自为政,Diamos指出他的团队注意到目前有11种开发中规格分别处于不同的完善阶段。

他说,由Facebook和微软(Microsoft)发起的开放神经网络交换格式(ONNX)“正朝着正确的方向发展,但仍缺乏一些像是如何表达控制流程和反向传播的特性。”

最近有20多家厂商(主要是半导体供应商)宣布了神经网络交换格式(Neural Network Exchange Format),他们认为该格式对芯片厂商来说更好。Diamos说:“要搞清这些格式中是否有些能成功实施可能还为时过早,但我们正踏上一条更好的发展道路,确实也需要其中某一种规格胜出。”

他补充说:“在2014年,我当时认为未来将会看到人工智能(AI)架构的融合,就像如今在绘图API中所看到的,但人们仍然在发明新的神经网络类型,有时还会创造新的原型,所以它可能会像编程语言的多样性一样不断地与时俱进。”

也就是说,Daimos仍然看好深度学习。在今年稍早时,他的团队发表研究指出,这一领域尚未成熟,预计接下来将会看到更多的突破。

本文授权编译自EE Times,版权所有,谢绝转载

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Rick Merritt
EE Times硅谷采访中心主任。Rick的工作地点位于圣何塞,他为EE Times撰写有关电子行业和工程专业的新闻和分析。 他关注Android,物联网,无线/网络和医疗设计行业。 他于1992年加入EE Times,担任香港记者,并担任EE Times和OEM Magazine的主编。
  • 在中国20多年的天津三星电子正式注销,裁员跟着就来 9月9日,爱企查App显示,天津三星电子有限公司的经营状态由存续变更为注销。
  • 华夏芯域名、专利等资产公开拍卖 拍卖标的包括三项域名以及15项软件著作权和14项专利。其中,三项域名的起拍价为13879元,15项软件著作权和14项专利的起拍价为15550元……
  • 传音控股CFO肖永辉被立案调查 根据通知书内容,因某种未具体披露的原因,丹东市振安区监察委员会决定对肖永辉采取留置措施,并对其立案调查。此消息一出,立刻引起了市场的广泛关注。
  • 传台积电9月底前低价引进High-NA EUV设备,价格远低于3.5亿欧元 值得一提的是,台积电此次购入价格可能远低于原定的3.5亿欧元的单台报价。ASML同意以折扣价向台积电出售High-NA EUV设备的原因主要是因为台积电是其超级VIP客户,ASML给予了很大的让步。
  • 苹果发布iPhone 16系列、AirPods 4及Apple Watch Series 10等新品 9月10日,苹果发布了一系列新品,包括iPhone 16系列手机、Apple Watch Series 10智能手表和AirPods 4耳机。发布会后网上响起了一片吐嘈声,带着这些吐槽,我们来看看这次苹果到底有没有新玩意……
  • 传台积电美国晶圆厂试产良率媲美台湾南科厂 自台积电宣布在美国亚利桑那州建设首座晶圆厂以来,该项目就备受瞩目。在台积电美国厂建厂期间也传出不少质疑的声音。近日,有关台积电在美国亚利桑那州的晶圆厂传出试产新进展,新厂4月工程晶圆试产良率媲美台湾南科厂,该消息再次引发了业界的高度关注......
  • 全球折叠屏手机快速增长,中国品牌压 • 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
  • AI网络物理层底座: 大算力芯片先进 AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
  • 奕斯伟计算DPC 2024:发布RISAA(瑞 奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
  • 重磅发布:Canalys 2024年中国云渠道 2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
  • 路特斯的努力有多“韧性” 文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
  • 发奖金,人均105万,1.2万人有份! ‍‍近期,IC 设计大厂联发科宣布了2024年上半年度的员工分红计划,与8月份薪资一起发放。据外界估算,按照上半年税前盈余约648.66亿新台币(约 144.42 亿元人民币)进行估算,此次分红总额接
  • 成立超30年!天津三星电子注销;同时以8.4亿美元向中国公司出售偏光膜业务! 天眼查信息显示,天津三星电子有限公司经营状态9月6日由存续变更为注销,注销原因是经营期限届满。该公司成立于1993年4月,法定代表人为YUN JONGCHUL(尹钟撤),注册资本约1.93亿美元,
  • AMD将推出统一GPU架构,挑战英伟达CUDA“护城河”! 在德国柏林举行的IFA 2024上,AMD计算和图形业务集团高级副总裁兼总经理Jack Huynh宣布,公司将把以消费者为中心的RDNA和以数据中心为中心CDNA架构统一为UDNA架构,这将为公司更有
  • 2032年单晶硅市场营收将增至201亿美元! 据市场调查机构Allied Market Research的《单晶硅晶圆市场》报告指出,2022年单晶硅晶圆市场价值为109亿美元,预计到2032年将达到201亿美元,2023年~2032年的复合年均
  • 【光电通信】特种光纤与光纤通信-236页收藏  今日光电      有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!----追光逐电 光赢未来----来源:通信大讲堂申明
  • 【光电智造】机器视觉三维成像方法及应用  今日光电      有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!----追光逐电 光赢未来----来源:机器视觉沙龙申
  • 龙芯重大突破! ‍‍据龙芯中科介绍,近日,基于龙芯3A6000处理器的储迹NAS在南京师范大学附属小学丹凤街幼儿园、狮山路小学、南京大学附属中学等学校相继落地。储迹NAS是基于最新的龙芯CPU--3A6000,其代表
  • 华为大突破! 在苹果和华为的新品发布会前夕,Counterpoint公布了2024年第一季度的操作系统详细数据,数据显示, 鸿蒙操作系统在2024年第一季度继续保持强劲增长态势,全球市场份额成功突破4%。在中国市场
  • 下线、投产...这3个电驱动项目传最新进展 近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了