巨头们的人工智能芯片研发得怎么样了？-电子工程专辑

 根据百度(Baidu)深度学习(deep learning)资深研究人员针对最新加速器进行的测试结果显示，现有的加速芯片和软件仍然存在一些美中不足之处，应该尽快迎头赶上…

根据百度(Baidu)深度学习(deep learning)资深研究人员针对最新加速器进行的测试结果显示，现有的加速器芯片和软件仍然存在一些美中不足之处，应该尽快迎头赶上。

这些结果有一部份来自于使用DeepBench测试。DeepBench是使用32位浮点数学训练神经网络的开放来源基准。号称“中国Google”的百度于2016年9月发布DeepBench，并在去年6月进行了更新，使其涵盖推论工作以及使用16位数学运算。
20180206-deepbench-1
DeepBench利用神经网络库测试不同硬件的基本运算效能（来源：Baidu）

百度硅谷人工智能实验室(Silicon Valley AI Lab)资深研究员Greg Daimos解释。在一些像矩阵乘法这样的底层作业中，具有专用硬件的芯片(例如Nvidia Volta GPU的张量核心)能够提供“数百TeraFlops (每秒1兆次浮点运算)...比前一代的5-10TFLOPS更快几个数量级。”

然而，他说：“在实际应用中所使用的一些底层作业并没有足够的（数据）区域性，让这些专用处理器充份发挥效能，所以我们必须为其适度地加速，或者改变算法。”

百度研究小组目前正探索两种方式使用新芯片获得更大回报。一方面，研究人员在其算法中开启控制功能，以便同时接收馈入数据，期望能提高10倍的资料平行性。

另一条途径是让所有的模型看起来更像一般用于成像应用的卷积神经网络(CNN)。Daimos说，CNN比一般用于文本或音频应用(app)等循序数据的递归神经网络(RNN)具有更多区域性。
GregDiamosBaiduwcap
研究人员在从文本产生音频的百度模型中，“以CNN层取代RNN层堆栈”，使得“运算密度提高了40倍”，从而带来了更好的新硬件利用率。他强调，“我们必须透过编写的所有应用程序来检视是否可以普遍使用这种方法，或只是将其用于语音合成。”

目前尚不清楚这两种方法的研究成果何时可用于生产系统。同时，Daimos也分享了硬件测试的其它观察结果。

编程、内存与灵活性

虽然百度取得将近90%的Nvidia Volta最佳利用率，但编程GPU并非易事。Diamos说，该芯片“有着成千上万个线程，你必须在一个问题上进行协调和同步......编写这样的程序代码并不容易，而当面对的是像张量核心这样的对象时就更困难了。”

的确，Diamos表示，“让这些任务变得更易于编程，正是我们面临的最大挑战......而其中最大的问题就出在内存。我们想要执行更大的神经网络，但内存比预期地更快耗尽，这并不是透过打造更好的处理器就能解决的问题。”

他补充说，该问题的一部份答案在于寻找能与新兴内存搭配作业的技术，例如许多最新加速器所使用的高带宽内存(HBM)芯片堆栈等。

在百度的测试中，英特尔(Intel)多核心x86处理器Xeon Phi的利用率甚至高于Nvidia Volta。然而，英特尔的芯片还没有任何张量专用核心，因此该芯片在神经网络作业上的性能不若Volta。
20180206-nvidia-volta-1
Nvidia Volta配备640个Tensor核心，每秒提供超过100TFLOPS的深度学习效能（来源：Nvidia）

直接进行比较并不容易，因为不同的芯片通常使用不同的运算格式。例如，Xeon Phi采用定点数学，而Volta则混合使用16位和32位浮点运算。

Diamos说：“英特尔芯片的测试结果显示，对于一些CNN来说，定点数学运算没问题。然而Nvidia发布的结果显示在影像和语音应用上表现良好，所以我们取得了一些数据，但还需要进行更多研究。”

他称赞AMD最新的GPU及其新的机器学习开放软件是正确的发展方向，但指出他们也缺乏张量核心。他表示，对于英特尔Nirvana和Graphcore Colossus等芯片“没啥可分享的消息”，也许是因为百度可能还在测试其预先发布的样片。

拥有大量的矩阵乘法单元通常是一件好事。但是，Volta、Nervana和Colossus处理器则以充满矩阵乘法数组的芯片将其性能指针推进到或接近其工艺节点所能实现的极限。

他说：“最终你的收益会递减......让你不得不放弃灵活度，以便为更多不同的工作负载进行更精密的运算。因此，我们应该找到曲线的转折点，让芯片不仅在CNN上运作良好，在其它方面也表现出色。”

神经网络软件架构各执一端

除了底层数学之外，加速器还可能缺少优化，因为它们并不完全了解深度学习应用的所有范围。

当今用于设计神经网络的竞争软件架构各执一端，可能会让情况变得复杂。遗憾的是，跨不同架构建立标准规格的努力也是各自为政，Diamos指出他的团队注意到目前有11种开发中规格分别处于不同的完善阶段。

他说，由Facebook和微软(Microsoft)发起的开放神经网络交换格式(ONNX)“正朝着正确的方向发展，但仍缺乏一些像是如何表达控制流程和反向传播的特性。”

最近有20多家厂商(主要是半导体供应商)宣布了神经网络交换格式(Neural Network Exchange Format)，他们认为该格式对芯片厂商来说更好。Diamos说：“要搞清这些格式中是否有些能成功实施可能还为时过早，但我们正踏上一条更好的发展道路，确实也需要其中某一种规格胜出。”

他补充说：“在2014年，我当时认为未来将会看到人工智能(AI)架构的融合，就像如今在绘图API中所看到的，但人们仍然在发明新的神经网络类型，有时还会创造新的原型，所以它可能会像编程语言的多样性一样不断地与时俱进。”

也就是说，Daimos仍然看好深度学习。在今年稍早时，他的团队发表研究指出，这一领域尚未成熟，预计接下来将会看到更多的突破。

EETC wechat barcode

关注最前沿的电子设计资讯，请关注“电子工程专辑微信公众号”。

阅读全文，请先

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

Rick Merritt

EE Times硅谷采访中心主任。Rick的工作地点位于圣何塞，他为EE Times撰写有关电子行业和工程专业的新闻和分析。他关注Android，物联网，无线/网络和医疗设计行业。他于1992年加入EE Times，担任香港记者，并担任EE Times和OEM Magazine的主编。

进入专栏

业界新闻人工智能 FPGAs/PLDs 处理器/DSP

返回列表

上一篇： FD-SOI将崛起于东方，瞄准物联网商机 下一篇： 从云到端，看2018年华为麒麟如何让AI真正落地？

日本本田、日产、三菱组建“联盟公司”，将成为世界第3大汽车集团新公司将包括本田、日产和三菱汽车，预计年销量将超过800万辆，成为世界第3大汽车制造集团。这将使新公司在全球汽车市场中占据重要地位，尤其是在与特斯拉和中国电动车品牌的竞争中。
英伟达推出AI超级电脑Jetson Orin Nano Super，价格仅249美元新款开发板售价仅为249美元，而上一代40 TOPS开发板售价为499美元，价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”，特别适合商业AI开发者、爱好者和学生使用。
【ICCAD2024】AI时代，先进数字芯片设计下的国产EDA新路径面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战，国产EDA仍需不断探索和创新。
为顺应印度政府要求，vivo印度公司与迪克森成立合资公司，占49%少数股印度政府希望通过这一系列的方式，“推动”中国品牌更深入地“融入”印度市场，并“加强”与当地的经济合作，比如鼓励中国企业与本土电子制造商建立合作关系，共同在印度生产智能手机。而vivo印度公司此次与迪克森成立合资公司，就是在以上政府指引下无奈作出的选择。
【ICCAD2024】EDA新势力：芯行纪以AI重塑数字实现新未来通过机器学习技术，EDA工具可以获取更精确的模型来预测设计中存在的问题，如布线拥塞、信号干扰、热效应等，从而为用户提供更准确快速的指导，避免后期返工。
柔宇显示12.3亿元资产拍卖流拍，投资者较为谨慎此次柔宇显示名下资产的拍卖页面自11月28日就已经上线，直至12月15日拍卖结束，在这长达半个多月的时间里，始终没有任何人报名参与竞拍。
“一碰交互，共触未来”ITMA峰会盛大目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。
中科院微电子所在忆阻神经-模糊硬中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
直角照明轻触开关为复杂电子应用提 C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行，英韧科技再获投身国产浪潮向上而行，英韧科技再获“中国芯”认可

京东方晶芯MLED项目，已完成设备搬入 12月18日，珠海京东方晶芯科技举行设备搬入仪式。插播：加入LED显示行业群，请加VX：hangjia188在10月31日，珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
跟着撒贝宁走进维信诺，探寻“非凡中国屏”诞生背后的科技传奇之旅万物互联的时代浪潮中，以OLED为代表的新型显示技术，已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者，凭借自主创新，实现了我国OLED技术的自立自强，成为中国新型显示产
AI日报丨超级AI独角兽来了！拿下100亿美元融资，估值升至620亿美元 “ 洞悉AI，未来触手可及。”整理 | 美股研究社在这个快速变化的时代，人工智能技术正以前所未有的速度发展，带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势，为您提供深度的
JNTC宣布在印度开发和量产车载盖板玻璃 12月18 日，据报道，JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录（MOU）。资料显示，JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
撒贝宁走进维信诺，探寻“非凡中国屏”诞生背后的科技传奇之旅万物互联的时代浪潮中，以OLED为代表的新型显示技术，已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者，凭借自主创新，实现了我国OLED技术的自立自强，成为中国新型显示产
超60GW！飙升12倍，储能机会来了? 又一地，新型储能机会来了？■ 印度：2032储能增长12倍，超60GW据印度国家银行SBI报告，印度准备大幅提升能源存储容量，预计到2032财年将增长12 倍，超60GW左右。这也将超过可再生能源本身
高科视像、新视通等持续扩大COB产能近期，高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播：加入LED显示行业群，请加VX：hangjia188■ 高科视像：MLED新型显示面板生产项目（二期）招标12月18日，山西高科
面板大厂引入AI，每年节省10亿！ LG Display 12月18日表示，为加强OLED制造竞争力，自主开发并引进了“AI（人工智能）生产体系”。“AI生产体系”是AI实时收集并分析OLED工艺制造数据的系统。LG Display表
REDMI全球首发！联发科天玑8400官宣：挑战高通骁龙8系今天上午，联发科宣布新一代天玑芯片即将震撼登场，新品会在12月23日15点正式发布。据悉，这场发布会联发科将推出全新的天玑8400处理器，这颗芯片基于台积电4nm制程打造，采用Arm Cortex A
【倒计时3天】2024RT-Thread开发者大会，本周六见！亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天！还没报名的小伙伴，抓紧报名噢，12月21日不见不散！大会时间与地点时间：2024年12月21日 9:30-1

热门评论
最新评论

换一换

巨头们的人工智能芯片研发得怎么样了？

杂志声明