广告

人工智能持续升温,神经网络加速器将成SoC标配

2017-09-26 20:33:38 程文智 阅读:
未来神经网络加速器将成为SoC的标准IP模块,就像CPU、GPU和视频编解码器一样,因为人工智能需要更高性能的硬件支持。
广告

自动驾驶、无人机、智能音箱,以及智能监控等等,越来越多的应用引入了人工智能(AI),人工智能将会成为未来十年最具突破性创新的技术类别。这将促使构建人工智能的工具:深度学习,机器学习和神经网络等技术迎来发展高潮。

虽然人工智能时代一定会来临,但就目前来说,实现人工智能还有不少问题需要突破,比如功耗、带宽、性能、可靠性、安全,以及延迟等等。

目前人工智能的很多计算能力都部署在云端,未来一部分的计算能力会往设备端转移。这是因为依赖云端的人工智能往往需要较高带宽的支持,还需要较低的延迟。而在设备端部署人工智能计算能力则可以规避这些问题,同时还可以实现更高的安全性、更低的功耗和更高的可靠性。

走在前面的苹果已经在其A11 Bionic仿生处理器中加入了全新的神经网络引擎;华为海思的麒麟970也内置了专为深度学习而定制的神经网络单元(NPU);Intel旗下的子公司Movidius甚至还推出了一款采用USB外形的独立式人工智能加速器,它可以简单地插入Raspberry Pi或者X86电脑,让大学研究人员、独立软件开发人员,以及人工智能爱好者简单方便地为嵌入式系统进行编译、调整,以及加速深度学习应用。

20170926imagination01
图1:Imagination PowerVR 产品与技术营销资深总监 Chris Longstaff。

Imagination PowerVR 产品与技术营销资深总监 Chris Longstaff就指出,未来神经网络加速器将成为SoC的标准IP模块,就像CPU、GPU和视频编解码器一样,因为人工智能需要更高性能的硬件支持。

为何需要神经网络加速器?

神经网络在语音、视觉、搜寻、机器人、自动驾驶,以及医疗保健等领域取得了重大进展,但很多应用还是受到了当前设备硬件性能的限制。要想打造更强大的神经网络,就需要更加运算性能更好的硬件支持,以形成大量的机器学习模型。

为此,Imagination在沉寂了一段时间后,带来了其完整,独立式的硬件IP------PowerVR 2NX NNA神经网络加速器。据Chris Longstaff介绍,PowerVR 2NX NNA是专为神经网络算法所设计,与单纯的DSP解决方案相比,它可提供8倍的性能密度提升,能够以最低的功耗和成本达到最高的性能。

Chris Longstaff拿无人机防撞举例说,如果没有硬件支持,无人机的飞行速度为67米/秒时的防碰撞距离通常需要10~15米。而如果采用了Power VR硬件NNA,则可以实现在不到1米的距离内避开障碍物,并且可以运行多个网络,在避开碰撞的同时识别和跟踪物体。

此外,他还以从手机照片库中寻找所需要的照片为例。Chris Longstaff表示,如果利用高端GPU或者CPU来从1000张照片中选出自己想要的照片大概需要60秒的时间,而如果使用了他们最新的硬件加速器的话,只需要2秒钟。如果以消耗1%电量来衡量的话,使用高端GPU可实现2400张照片排序和1分20秒的的视频分析;而使用了他们硬件加速器后,则可实现428000张照片排序和237分钟的视频分析。

为何如此高效?

对于为何会如此高效,Chris Longstaff的解释是,PowerVR 2NX NNA是从头开始全新设计的架构,它不同于CPU,GPU架构,而是专门针对神经网络而设计的。它是一个可扩展的架构,16位支持从128到1024MAC/clock,8位支持256到2048MAC/clock;而且还支持不同位长的数据类型,可支持16、12、10、8、7、6、5、4位,这是因为一些汽车应用需要16位支持,而另一些市场需要发挥较低精度的优势。此外,它为数据和权重提供可调精度,能以最小功率和带宽实现最大性能。

20170926imagination02
图2:PowerVR 2NX NNA架构和特性。

20170926imagination03
图3:PowerVR 2NX NNA可调精度实例。

20170926imagination04
图4:可调精度的优势。

从图4中可以看到在位宽调整后,如8位调整到4位,推理吞吐量提升了60%,带宽下降了几乎一半,所需功耗也降低很多,但是精度下降不到1%。

一直以来,神经网络是非常耗费带宽的,因此,内存的带宽需求随着神经网络模型规模的增长不断在增加。这给SoC设计人员和OEM公司带来了很大的设计挑战。Chris Longstaff 自豪地宣称,PowerVR 2NX能最小化外部DDR内存的带宽需求,确保系统的性能不会受到带宽的限制。

性能表现如何?

说了那么多,那PowerVR 2NX的性能表现如何呢?Chris Longstaff表示,根据目前市面上的公开信息以及Imagination的工程团队的测试,PowerVR 2NX解决方案与最接近的竞争方案相比,可提供两倍的性能,而仅需一半带宽。

20170926imagination05
图5:PowerVR 2NX与其他解决方案性能对比。

他同时强调,PowerVR 2NX对制造工艺并没有特殊要求,PowerVR 2NX方案所测试的数据是基于目前市面上主流的16nm工艺制造的PowerVR 2NX硬件得到的。

20170926imagination06
图6:PowerVR 2NX与海思麒麟970和苹果A11在图片检索和图片排序方面的性能对比。

Chris Longstaff还特意提到了PowerVR 2NX与海思麒麟970和苹果A11在图片检索和图片排序方面的性能对比。根据海思给出的数据,麒麟970的图片检索能力是2000张/分钟,消耗1%的电量可以对5000张图片进行排序。

Imagination 给出的数据显示,其PowerVR 7XTP GPU的图片检索能力就已经达到了1800张/分钟,消耗1%电量可对2400张图片进行排序。而PowerVR 2NX NNA的性能得到了大幅提升,它可以在1分钟内检索30000张图片,消耗1%的电量,则可对438000张图片进行排序。

与苹果A11的神经网络引擎相比,PowerVR 2NX NNA支持4万亿次操作/秒,性能可达苹果A11神经网络引擎的6.7倍左右。

Chris Longstaff特别强调,PowerVR 2NX是专为移动和Android而设计的。它包括硬件IP、软件和工具,可为SoC提供完整的神经网络解决方案,能有效地执行所有常见的神经网络运算层。而且,依据推理任务的运算需求,它能无须额外硬件而独立使用,也能与CPU和GPU等其它的处理器结合运用。

此外,Imagination也更新了其PowerVR GPU产品线,推出了PowerVR Series9XE和 9XM GPU,据介绍,两个新系列产品均获益于内存子系统的提升,与前代产品相比,带宽减少25%,可确保更高的处理能力能被充分发挥。9XE 和9XM 的共同新特性包括新的MMU,能支持更大的寻址,并且提供10位YUV的标准支持,完全不会影响芯片面积。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • OpenAI计划今年完成首款自研AI芯片设计,2026年由台积电代工量产 自研AI芯片计划是OpenAI在硬件领域的一次重要战略调整。如果此次试产过程顺利进行,OpenAI将能够量产其首款自研AI芯片,并可能在今年晚些时候测试英伟达AI芯片的替代品。
  • AMD股价暴跌,数据中心业务“高增长”下的隐忧 AMD股价暴跌成为市场关注的焦点,在2月5日盘后交易中一度暴跌超过10%,市值蒸发约200亿美元,创下自2023年以来的最大单日跌幅。在同一时间段内,AMD的主要竞争对手英伟达的股价大幅上涨,涨幅高达160%......
  • 台积电断供,16/14nm及以下工艺受到严格限制 台积电对中国大陆的集成电路实施一系列严格的供应限制,特别是针对16/14nm工艺及以下的产品,不在BIS白名单中的“approved OSAT”进行封装,并且台积电没有收到该封装厂的认证签署副本,这些产品将被暂停发货。这一发货限制,将使得16/14nm及以下工艺的相关产品在出口到中国大陆时,生产和封装环节变得更加透明......
  • 李飞飞团队50美元训练出媲美DeepSeek的AI推理模型?真相来了 许多人认为这可能是 AI 模型训练领域的一次重大突破,预示着未来 AI 模型的训练和应用将更加平民化。然而,随着更多细节浮出水面,事实似乎并不像最初报道的那样简单。
  • 苹果M5芯片进入量产阶段,采用台积电3nm工艺 凭借先进的3nm制程工艺和SoIC-MH封装技术,M5芯片在性能、能效和AI能力上均实现了显著提升。首批搭载M5芯片的设备陆续上市......
  • 斥资65亿美元,传软银收购芯片设计公司Ampere进入尾声 软银集团近期传出有意收购芯片设计公司Ampere 的消息,这一交易若成功完成,Ampere的收购将加速Arm在数据中心市场的渗透,双方谈判已进入“深入阶段”,交易可能在未来几周内宣布......
  • 摩根士丹利详解全球人形机器人100 全球人形机器人领域上市公司的百强名单将人形机器人产业链区分为大脑、身体以及集成三大核心环节,覆盖全球共计100家上市公司。中国共37家企业上榜(中国大陆32家,台湾5家),其中深圳7家,占中国大陆上榜企业近四分之一,包括比亚迪、腾讯、优必选、速腾聚创、雷赛智能、兆威机电、汇川技术等......
  • DeepSeek的低成本AI模型将催生光通 DeepSeek模型虽降低AI训练成本,但AI模型的低成本化可望扩大应用场景,进而增加全球数据中心建置量。光收发模块作为数据中心互连的关键组件,将受惠于高速数据传输的需求。未来AI服务器之间的数据传输,都需要大量的高速光收发模块......
  • 全球首款骁龙®8至尊版折叠旗舰,OPP 凭借新一代3nm制程工艺与全新架构,骁龙® 8至尊版的单核和GPU 性能提升均超过 40%,使得Find N5在性能上实现质的飞跃……
  • 康佳特重磅推出aReady.IoT 简化物联网连接:应用就绪型软件构建模块
  • 又一显示大厂人事地震:董事长辞职 2月10日消息,天眼查App显示,近日,杉杉控股有限公司发生工商变更,周婷卸任法定代表人,并由董事长变更为董事;周顺和接任法定代表人并担任董事长;孙伟卸任董事职务。 2月7日,杉杉集团在宁波市鄞州区人
  • 面板大厂每周工作超52h,可带薪休假3天! 据业内人士2月11日透露,三星显示器近期限时推出名为“平衡假期”的特别假期。具体内容是,每周平均工作超过52小时的员工可获得三天带薪休假,每周工作超过60小时的员工可获得六天带薪休假。上个月,三星显示
  • 三星初期独供iPhone折叠屏,预计明年5月量产 据IT业界9日报道,苹果公司最近进入了“可折叠iPhone”零部件供应商选择的最后阶段,据观察,三星显示器已决定独家供应初期面板量。据悉,三星将供应约1500万至2000万片,并将于明年5月开始量产,
  • 大联大世平集团推出基于NXP产品的AI胶囊咖啡机方案 大联大控股今日宣布,其旗下世平推出基于恩智浦(NXP)MCX N947 MCU的AI胶囊咖啡机方案。    图示1-大联大世平基于NXP产品的AI胶囊咖啡机
  • AMEYA360代理品牌|江苏润石高速LVDS收发器RS90LV049 RS90LV049是一款双通道LVDS差分信号发送、接收一体的芯片,可以支持400Mbps的LVDS信号。主要参数特性如下:Ø 符合TIA/EIA-644-A标准;Ø >400Mbps(200MHz)
  • DeepSeek推理型AI尽显高效训练的小模型之威 在IBM院士Kush Varshney看来,全球AI竞赛中的地缘政治差异,可能没有人们想象的那么重要。美通社消息,DeepSeek-R1 是中国初创公司 DeepSeek 推出的人工智能模型,不久前,
  • 马斯克拟出价1000亿美元收购! 周一,埃隆·马斯克与一群投资者提出以974亿美元收购ChatGPT开发商OpenAI,这一金额远低于这家人工智能公司最近1570亿美元的估值。OpenAI首席执行官萨姆·奥特曼在X平台上发文,立即拒绝
  • 恩智浦拟以3.07亿美元收购边缘NPU企业Kinara 恩智浦 NXP 荷兰当地时间昨日宣布已同边缘 NPU 企业 Kinara 达成最终协议,计划以 3.07 亿美元现金收购后者。这笔交易预计将于 2025 上半年完成,但须满足包括监管部门批准在内的惯例
  • 这一地区的PCB产业聚链成势 近年来,贵港市港北区深入实施产业转型升级三年攻坚行动,紧盯全国产业链布局和东部产业转移趋势,确立PCB(印制电路板)产业作为重点产业发展,加大招商引资力度,推动PCB产业“从无到有”,聚链成势。目前,
  • 300+已报名!AI芯片与终端产业链上下游都在这场大会(赞助通道已开启) 我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇2月15日,芯片超人开年首场芯片大会,2025年AI
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了