广告

神经网络DSP市场凑齐一桌麻将,Cadence Tensilica一落座就准备听牌

2017-05-22 12:03:49 邵乐峰 阅读:
神经网络技术当前正以“令人难以置信”的速度飞快演进。不仅每隔几个月就会诞生新的神经网络算法,而且在2012-2015年这短短的3年时间内,神经网络算法的复杂度也增加了16倍,远远超过摩尔定律的发展速度。
广告

Cadence公司日前针对车载、监控安防、无人机和移动/可穿戴设备应用,正式公布业界首款独立完整的神经网络处理器—Vision C5 DSP。在16纳米制程条件下,C5 DSP所占用的芯片面积不到1mm2,却可以实现1TMAC/秒的计算能力(吞吐量较Vision P6 DSP提高4倍),而且功耗远比CPU、GPU等处理器更低,适合各种嵌入式运算设备使用。

Cadence公司Tensilica事业部市场高级总监Steve Roddy表示,神经网络技术当前正以“令人难以置信”的速度飞快演进。不仅每隔几个月就会诞生新的神经网络算法,而且在2012-2015年这短短的3年时间内,神经网络算法的复杂度也增加了16倍,远远超过摩尔定律的发展速度。如果再考虑到不同应用市场对神经网络性能的差异化需求,我们“其实很难想象会有厂商愿意用2017年的参考设计硬件平台,去为2019-2020年以后出货的产品做规划。而且从市场上现有的解决方案来看,也都很难能够在低功耗和灵活性之间取得平衡。”

目前,神经网络算法开发者普遍采用通用型CPU/GPU芯片来执行新的算法。在Steve Roddy看来,尽管CPU/GPU能够提供很好的编程环境与应用设计灵活性,获得成本也远比自己开发一款ASIC芯片低廉,但这种作法更适合在数据中心和云端,对于功耗、体积和成本均受到严格限制的嵌入式设备而言其实并不合适。

“例如视频监控对实时性要求极高,如果所有数据都需要传输到数据中心才能进行处理,代价是极大的。这其中牵扯的不仅是带宽问题,安全性也不一定能得到保障。”他还列举了Google和Amazon的语音识别算法区别,“Google Voice把所有语音都放在云端进行处理,但Amazon Echo就只放置了一部分。从美国市场的反馈来看,Google Voice也确实卖不过Amazon Echo。”

下图对比了通用型CPU、GPU、神经网络硬件加速器与Vision C5 DSP在开发易用性、功耗效率、可编程性以及运算性能等四方面的优劣。Steve Roddy坚持认为,利用硬件加速器来执行神经网络算法绝对是走上了一条不归路。 因为ASIC芯片从设计到量产,再到最终应用在终端产品上通常需要几年的时间,在神经网络发展如此迅猛的情况下,除非芯片设计者能够“未卜先知”的精准预测出几年后神经网络的发展走向,否则这些产品还没上市就已经过时了。
20170522-cadence-1

除了产品开发时间的问题,利用硬件加速器与通用处理器共同执行神经网络算法,牵扯到的另一个问题是数据传输。由于神经网络会牵涉到大量数据传输,仅在通用处理器和硬件加速器 间进行数据传输就会占用相当多的处理器资源,并由此带来可观的高功耗。

以基于摄像头的视觉系统为例,目前此类系统在汽车、无人机和安防领域最为常见。这种架构需要两种最基础的视觉优化计算模式:首先,利用传统视觉算法对摄像头捕捉到的照片或图像进行增强;其次,使用基于神经网络的认知算法对物体进行检测和识别。现有的神经网络加速器解决方案皆依赖与图像DSP连接的硬件加速器,神经网络代码被分为两部分,一部分网络层运行在DSP上,卷积层则运行在硬件加速器上,直接导致架构效率低下,且耗能较高。

“这就是Cadence为什么决定推出专为神经网络算法而设计的C5 DSP处理器的根本原因。”Steve Roddy说,一款真正意义上针对嵌入式系统量身定制的高性能、通用型神经网络解决方案,不仅应该具备极低的功耗,还应拥有高度的可编程能力,以适应未来变化,降低风险。

Vision C5 DSP是专门针对神经网络进行了特定优化的DSP,可以实现全神经网络层的计算加速(卷积层、全连接层、池化层和归一化层),而不仅仅是卷积层的加速。因此,主视觉/图像DSP能力得以释放,独立运行图像增强应用,Vision C5 DSP则负责执行神经网络任务。通过移除神经网络DSP和主视觉/图像DSP之间的冗余数据传输,Vision C5 DSP的功耗远低于现有的神经网络加速器。同时,Vision C5 DSP还提供针对神经网络的单核编程模型。

20170522-cadence-2
Cadence方面提供的数据显示,C5 DSP采用128路8-bit SIMD或64路16-bit SIMD的VLIW SIMD架构,包含1024 8-bit MAC或512 16-bit MAC以确保8-bit和16-bit精度。如果基于AlexNet CNN Benchmark,Vision C5 DSP的计算速度较业界的GPU最快提高6倍;基于Inception V3 CNN benchmark,则有9倍的性能提升。

此外,Vision C5 DSP搭载了Cadence神经网络Mapping工具链,可将Caffe和TensorFlow等映射为在Vision C5 DSP上高度优化过的可执行代码上,并同时采用了多项系数压缩/解压技术,支持未来添加的新计算层、各类内核尺寸、深度和输入规格,在扩展能力方面超越了程序重编能力有限的CNN硬件加速器。

20170522-cadence-3
其实在Cadence推出C5 DSP之前,Synopsys、CEVA、VeriSilicon等厂商也都推出过神经网络DSP IP产品,为何Cadence却说自己是业界首款?Steve Roddy解释说,Vision C5 DSP是专门针对神经网络处理的,而不是像竞争对手的方案一样,需要由控制、图像处理和神经网络硬件加速器三部分共同组成。C5 DSP成功的将后两部分“合二为一”,提高了图像处理效率的同时也简化了架构。“从这个意义上来讲,我们确实是业界第一家。”
20170522-cadence-4
Roddy透露,目前已有客户正在利用C5 DSP核心开发下一代支持神经网络算法的SoC芯片。第一颗内建VISION C5 DSP 内核的SoC产品会在2018年量产出货。

本文为《电子工程专辑》原创,版权所有,转载请注明出处并附链接

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
邵乐峰
ASPENCORE 中国区首席分析师。
  • 安谋科技人事变动,前瑞芯微副总裁陈锋担任CEO 安谋科技原联席CEO刘仁辰和陈恂正式卸任,由瑞芯微前副总经理陈锋接任新任CEO。此次安谋科技任命陈锋为公司唯一全职CEO,他的上任标志着安谋科技进入了一个新的发展阶段......
  • EDA三巨头竞逐台积电AI设计流程 AI正稳步改变半导体行业,这一趋势在领先EDA公司和硅片代工厂表现得尤为突出。三大EDA工具制造商(Cadence、Synopsys和西门子EDA)已宣布与台积电合作,致力于为先进芯片制造节点开发AI驱动的设计流程。本文将简要回顾这些合作的现状。
  • Chiplet时代即将来临! 由于有助于加速设计开发、缩短上市时间和降低成本,Chiplet正迅速崛起中……
  • 英国CMA暂时接受补救措施,新思科技350亿美元收购Ansys有望推进  CMA机构已暂时接受了芯片设计软件制造商新思科技为解决其拟议的350亿美元收购Ansys交易可能引发的竞争问题而提出的补救措施。作为条件性批准的一部分,新思科技承诺将剥离Ansys的PowerArtist业务以及出售自身的光学解决方案集团,以回应CMA对合并后实体可能减少市场竞争的担忧。这一进展标志着此笔EDA领域“世纪大收购”迈向完成的重要一步,预计整个过程将在2025年上半年内完成......
  • 四大合作揭秘新兴AI芯片设计模型 IP供应商、芯片设计服务提供商和AI专家在以AI为中心的设计价值链中的地位正变得更加突出。本文给出了四个设计用例,强调了服务于AI应用的芯片设计模型的重新调整。
  • 这款工具可以做到,AI芯片设计的一周一迭代 芯片设计周期久,决定了AI芯片如果没有在设计之初就“压对宝”,上市时就可能已经过时。有没有什么工具能大幅加速AI芯片的设计流程?
  • 摩根士丹利详解全球人形机器人100 全球人形机器人领域上市公司的百强名单将人形机器人产业链区分为大脑、身体以及集成三大核心环节,覆盖全球共计100家上市公司。中国共37家企业上榜(中国大陆32家,台湾5家),其中深圳7家,占中国大陆上榜企业近四分之一,包括比亚迪、腾讯、优必选、速腾聚创、雷赛智能、兆威机电、汇川技术等......
  • DeepSeek的低成本AI模型将催生光通 DeepSeek模型虽降低AI训练成本,但AI模型的低成本化可望扩大应用场景,进而增加全球数据中心建置量。光收发模块作为数据中心互连的关键组件,将受惠于高速数据传输的需求。未来AI服务器之间的数据传输,都需要大量的高速光收发模块......
  • 全球首款骁龙®8至尊版折叠旗舰,OPP 凭借新一代3nm制程工艺与全新架构,骁龙® 8至尊版的单核和GPU 性能提升均超过 40%,使得Find N5在性能上实现质的飞跃……
  • 康佳特重磅推出aReady.IoT 简化物联网连接:应用就绪型软件构建模块
  • IDC:2024中国平板电脑市场出货量同比增长4.3%,华为居首位 2月10日,市场调查机构 IDC 发文称,2024 年全年中国平板电脑市场出货量为 2985 万台,同比增长 4.3%,市场迎来回暖。报道称, 2024 年第 4 季度市场出货量为 786 万台,受库
  • 恩智浦3.07亿美元收购NPU厂商Kinara 当地时间2025年2月10日,恩智浦半导体公司 (NXP) 宣布,已与高性能、节能和可编程离散神经处理单元 (NPU) 领域的行业领导者 Kinara 达成最终收购协议。此次收购将以全现金方式进行,
  • 又一显示大厂人事地震:董事长辞职 2月10日消息,天眼查App显示,近日,杉杉控股有限公司发生工商变更,周婷卸任法定代表人,并由董事长变更为董事;周顺和接任法定代表人并担任董事长;孙伟卸任董事职务。 2月7日,杉杉集团在宁波市鄞州区人
  • 三星初期独供iPhone折叠屏,预计明年5月量产 据IT业界9日报道,苹果公司最近进入了“可折叠iPhone”零部件供应商选择的最后阶段,据观察,三星显示器已决定独家供应初期面板量。据悉,三星将供应约1500万至2000万片,并将于明年5月开始量产,
  • AMEYA360代理品牌|江苏润石高速LVDS收发器RS90LV049 RS90LV049是一款双通道LVDS差分信号发送、接收一体的芯片,可以支持400Mbps的LVDS信号。主要参数特性如下:Ø 符合TIA/EIA-644-A标准;Ø >400Mbps(200MHz)
  • Microchip、ADI、TI...有订货需求找老王! 2022年下半年以来,需求下降,芯片价格跳水,芯片行情趋向寒冷,拼价格、拼服务、拼账期成为常态,持续的低迷之下,芯片人都开始靠省钱过日子。同时,我们发现,行情冷淡的时候,订货、配单、PPV(Purch
  • 特斯拉上海储能超级工厂正式投产 2月11日,特斯拉上海储能超级工厂投产仪式今日在上海临港举行,这一重要项目的投产标志着特斯拉在华业务的进一步拓展。特斯拉上海储能超级工厂于 2024 年 5 月正式在上海临港新片区开工建设。从开工到产
  • 这一地区的PCB产业聚链成势 近年来,贵港市港北区深入实施产业转型升级三年攻坚行动,紧盯全国产业链布局和东部产业转移趋势,确立PCB(印制电路板)产业作为重点产业发展,加大招商引资力度,推动PCB产业“从无到有”,聚链成势。目前,
  • 300+已报名!AI芯片与终端产业链上下游都在这场大会(赞助通道已开启) 我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇2月15日,芯片超人开年首场芯片大会,2025年AI
  • DeepSeek在龙芯上成功运行 最近,龙芯宣布DeepSeek R1 7B模型在龙芯3号上运行,实现本地化部署,可为广大用户提供更快、更强、更省的训推体验。部署后无需依赖云端服务器,或可有效避免因网络波动或服务器过载导致的服务中断,
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了