广告

神经网络DSP市场凑齐一桌麻将,Cadence Tensilica一落座就准备听牌

时间:2017-05-22 12:03:49 作者:邵乐峰 阅读:
神经网络技术当前正以“令人难以置信”的速度飞快演进。不仅每隔几个月就会诞生新的神经网络算法,而且在2012-2015年这短短的3年时间内,神经网络算法的复杂度也增加了16倍,远远超过摩尔定律的发展速度。
广告

Cadence公司日前针对车载、监控安防、无人机和移动/可穿戴设备应用,正式公布业界首款独立完整的神经网络处理器—Vision C5 DSP。在16纳米制程条件下,C5 DSP所占用的芯片面积不到1mm2,却可以实现1TMAC/秒的计算能力(吞吐量较Vision P6 DSP提高4倍),而且功耗远比CPU、GPU等处理器更低,适合各种嵌入式运算设备使用。

Cadence公司Tensilica事业部市场高级总监Steve Roddy表示,神经网络技术当前正以“令人难以置信”的速度飞快演进。不仅每隔几个月就会诞生新的神经网络算法,而且在2012-2015年这短短的3年时间内,神经网络算法的复杂度也增加了16倍,远远超过摩尔定律的发展速度。如果再考虑到不同应用市场对神经网络性能的差异化需求,我们“其实很难想象会有厂商愿意用2017年的参考设计硬件平台,去为2019-2020年以后出货的产品做规划。而且从市场上现有的解决方案来看,也都很难能够在低功耗和灵活性之间取得平衡。”

目前,神经网络算法开发者普遍采用通用型CPU/GPU芯片来执行新的算法。在Steve Roddy看来,尽管CPU/GPU能够提供很好的编程环境与应用设计灵活性,获得成本也远比自己开发一款ASIC芯片低廉,但这种作法更适合在数据中心和云端,对于功耗、体积和成本均受到严格限制的嵌入式设备而言其实并不合适。

“例如视频监控对实时性要求极高,如果所有数据都需要传输到数据中心才能进行处理,代价是极大的。这其中牵扯的不仅是带宽问题,安全性也不一定能得到保障。”他还列举了Google和Amazon的语音识别算法区别,“Google Voice把所有语音都放在云端进行处理,但Amazon Echo就只放置了一部分。从美国市场的反馈来看,Google Voice也确实卖不过Amazon Echo。”

下图对比了通用型CPU、GPU、神经网络硬件加速器与Vision C5 DSP在开发易用性、功耗效率、可编程性以及运算性能等四方面的优劣。Steve Roddy坚持认为,利用硬件加速器来执行神经网络算法绝对是走上了一条不归路。 因为ASIC芯片从设计到量产,再到最终应用在终端产品上通常需要几年的时间,在神经网络发展如此迅猛的情况下,除非芯片设计者能够“未卜先知”的精准预测出几年后神经网络的发展走向,否则这些产品还没上市就已经过时了。
20170522-cadence-1

除了产品开发时间的问题,利用硬件加速器与通用处理器共同执行神经网络算法,牵扯到的另一个问题是数据传输。由于神经网络会牵涉到大量数据传输,仅在通用处理器和硬件加速器 间进行数据传输就会占用相当多的处理器资源,并由此带来可观的高功耗。

以基于摄像头的视觉系统为例,目前此类系统在汽车、无人机和安防领域最为常见。这种架构需要两种最基础的视觉优化计算模式:首先,利用传统视觉算法对摄像头捕捉到的照片或图像进行增强;其次,使用基于神经网络的认知算法对物体进行检测和识别。现有的神经网络加速器解决方案皆依赖与图像DSP连接的硬件加速器,神经网络代码被分为两部分,一部分网络层运行在DSP上,卷积层则运行在硬件加速器上,直接导致架构效率低下,且耗能较高。

“这就是Cadence为什么决定推出专为神经网络算法而设计的C5 DSP处理器的根本原因。”Steve Roddy说,一款真正意义上针对嵌入式系统量身定制的高性能、通用型神经网络解决方案,不仅应该具备极低的功耗,还应拥有高度的可编程能力,以适应未来变化,降低风险。

Vision C5 DSP是专门针对神经网络进行了特定优化的DSP,可以实现全神经网络层的计算加速(卷积层、全连接层、池化层和归一化层),而不仅仅是卷积层的加速。因此,主视觉/图像DSP能力得以释放,独立运行图像增强应用,Vision C5 DSP则负责执行神经网络任务。通过移除神经网络DSP和主视觉/图像DSP之间的冗余数据传输,Vision C5 DSP的功耗远低于现有的神经网络加速器。同时,Vision C5 DSP还提供针对神经网络的单核编程模型。

20170522-cadence-2
Cadence方面提供的数据显示,C5 DSP采用128路8-bit SIMD或64路16-bit SIMD的VLIW SIMD架构,包含1024 8-bit MAC或512 16-bit MAC以确保8-bit和16-bit精度。如果基于AlexNet CNN Benchmark,Vision C5 DSP的计算速度较业界的GPU最快提高6倍;基于Inception V3 CNN benchmark,则有9倍的性能提升。

此外,Vision C5 DSP搭载了Cadence神经网络Mapping工具链,可将Caffe和TensorFlow等映射为在Vision C5 DSP上高度优化过的可执行代码上,并同时采用了多项系数压缩/解压技术,支持未来添加的新计算层、各类内核尺寸、深度和输入规格,在扩展能力方面超越了程序重编能力有限的CNN硬件加速器。

20170522-cadence-3
其实在Cadence推出C5 DSP之前,Synopsys、CEVA、VeriSilicon等厂商也都推出过神经网络DSP IP产品,为何Cadence却说自己是业界首款?Steve Roddy解释说,Vision C5 DSP是专门针对神经网络处理的,而不是像竞争对手的方案一样,需要由控制、图像处理和神经网络硬件加速器三部分共同组成。C5 DSP成功的将后两部分“合二为一”,提高了图像处理效率的同时也简化了架构。“从这个意义上来讲,我们确实是业界第一家。”
20170522-cadence-4
Roddy透露,目前已有客户正在利用C5 DSP核心开发下一代支持神经网络算法的SoC芯片。第一颗内建VISION C5 DSP 内核的SoC产品会在2018年量产出货。

本文为《电子工程专辑》原创,版权所有,转载请注明出处并附链接

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
邵乐峰
ASPENCORE 中国区首席分析师。
  • Rambus宣布推出业界首款HBM4控制器IP,以加速下一代AI工作负载 Rambus的HBM4控制器IP还具备多种先进的特性集,旨在帮助设计人员应对下一代AI加速器及图形处理单元(GPU)等应用中的复杂需求。这些特性使得Rambus在HBMIP领域继续保持市场领导地位,并进一步扩展其生态系统支持。
  • 范式要变:EDA企业的市场发展机会在哪儿? 今年的CadenceLIVE中国用户大会上,Cadence谈到在芯片领域之外,数据中心、生命科学、航空航天等系统设计领域的仿真技术应用相当有限,这对Cadence而言是重要的市场机会。与此同时AI技术的发展,也在推动着市场前行...
  • SoC设计与IP管理息息相关 对于大多数片上系统(SoC)设计而言,最关键的任务不是RTL编码,甚至不是创建芯片架构。如今,SoC主要是通过组装来自多个供应商的各种硅片知识产权(IP)模块来设计的。这使得管理硅片IP成为设计过程中的主要任务。
  • 英特尔利用EDA工具支持EMIB封装 英特尔的嵌入式多裸片互连桥(EMIB)技术,旨在解决异构集成多芯片和多芯片(多芯粒)架构日益增长的复杂性,在今年的设计自动化大会(DAC)上掀起了波澜。它提供了先进的IC封装解决方案,包括规划、原型设计和签核,涵盖了2.5D和3D IC等广泛的集成技术。
  • 摩尔定律之殇:浅析“埃米工艺”的几个关键技术点 在苹果A17 Pro芯片率先采用3nm工艺以后,今年底PC处理器也将全面进入3nm时代。聚焦于2025年的显然就是2nm、20A及18A工艺了——半导体尖端制造工艺进入所谓的埃米时代。本文除了谈到埃米级工艺的关键技术点和三大代工厂的工艺计划表,还将探讨埃米时代不同以往的行业特征。
  • 英国正在调查新思科技350亿美元收购Ansys的交易,确保不影响英国市场竞争 为了确保英国市场的竞争不受影响,CMA将对这一收购事宜进行调查。CMA称,允许相关方提交有关该交易可能对英国竞争产生影响的初步意见。
  • 全球折叠屏手机快速增长,中国品牌压 • 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
  • AI网络物理层底座: 大算力芯片先进 AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
  • 奕斯伟计算DPC 2024:发布RISAA(瑞 奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
  • 重磅发布:Canalys 2024年中国云渠道 2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
  • 全球第三!全球高端手机市场,华为猛涨80%,苹果坠落正拉开帷幕! 在全球智能手机竞争日益激烈的情况下,谁能在高端市场站稳脚跟,谁就占据了主动权。一直以来全球智能手机市场格局都是,苹果专吃高端,其他各大厂商分食全球中低端市场。但现在市场正在其变化。根据Canalys最
  • 2.4亿美元!“果链”捷普科技在印度设厂! 周二,捷普科技(Jabil)官员与印度泰米尔纳德邦代表团在泰米尔纳德邦首席部长MK Stalin的见证下,签署了一份备忘录。MK Stalin正在美国进行为期17天的访问,旨在吸引新的投资。MK St
  • 协作机器人鼻祖进军移动机器人,势要东山再起? 会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!再度出现,能否再次“出线”?文|覃洁兰近日,曾经在
  • AMD将推出统一GPU架构,挑战英伟达CUDA“护城河”! 在德国柏林举行的IFA 2024上,AMD计算和图形业务集团高级副总裁兼总经理Jack Huynh宣布,公司将把以消费者为中心的RDNA和以数据中心为中心CDNA架构统一为UDNA架构,这将为公司更有
  • 60%汽车供应商裁员! 疫情后的劳动力囤积和强有力的员工保护规则掩盖了德国高薪制造业工作市场令人担忧的变化。根据联邦劳工办公室的数据,欧元区最大经济体德国的失业率在2019年春季曾达到历史最低点4.9%,现已上升至6%。虽然
  • 骄成超声:引领超声波技术革新,助力碳化硅产业升级 8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了
  • 总投资12亿元!这一IGBT项目明年投产 [关注“行家说动力总成”,快速掌握产业最新动态]9月6日,据“内江新区”消息,晶益通(四川)半导体科技有限公司旗下IGBT模块材料和封测模组产业园项目已完成建设总进度的40%,预计在明年5月建成。据了
  • 华为大突破! 在苹果和华为的新品发布会前夕,Counterpoint公布了2024年第一季度的操作系统详细数据,数据显示, 鸿蒙操作系统在2024年第一季度继续保持强劲增长态势,全球市场份额成功突破4%。在中国市场
  • 【今日分享】世有伯乐,然后有千里马,谢谢您,我的导师…  今日光电      有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光赢未来...欢迎来到今日光电!----追光逐电 光赢未来---- 鹤发银丝映日月,丹
  • 下线、投产...这3个电驱动项目传最新进展 近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了