神经网络DSP市场凑齐一桌麻将，Cadence Tensilica一落座就准备听牌-电子工程专辑

 神经网络技术当前正以“令人难以置信”的速度飞快演进。不仅每隔几个月就会诞生新的神经网络算法，而且在2012-2015年这短短的3年时间内，神经网络算法的复杂度也增加了16倍，远远超过摩尔定律的发展速度。

Cadence公司日前针对车载、监控安防、无人机和移动/可穿戴设备应用，正式公布业界首款独立完整的神经网络处理器—Vision C5 DSP。在16纳米制程条件下，C5 DSP所占用的芯片面积不到1mm2，却可以实现1TMAC/秒的计算能力(吞吐量较Vision P6 DSP提高4倍)，而且功耗远比CPU、GPU等处理器更低，适合各种嵌入式运算设备使用。

Cadence公司Tensilica事业部市场高级总监Steve Roddy表示，神经网络技术当前正以“令人难以置信”的速度飞快演进。不仅每隔几个月就会诞生新的神经网络算法，而且在2012-2015年这短短的3年时间内，神经网络算法的复杂度也增加了16倍，远远超过摩尔定律的发展速度。如果再考虑到不同应用市场对神经网络性能的差异化需求，我们“其实很难想象会有厂商愿意用2017年的参考设计硬件平台，去为2019-2020年以后出货的产品做规划。而且从市场上现有的解决方案来看，也都很难能够在低功耗和灵活性之间取得平衡。”

目前，神经网络算法开发者普遍采用通用型CPU/GPU芯片来执行新的算法。在Steve Roddy看来，尽管CPU/GPU能够提供很好的编程环境与应用设计灵活性，获得成本也远比自己开发一款ASIC芯片低廉，但这种作法更适合在数据中心和云端，对于功耗、体积和成本均受到严格限制的嵌入式设备而言其实并不合适。

“例如视频监控对实时性要求极高，如果所有数据都需要传输到数据中心才能进行处理，代价是极大的。这其中牵扯的不仅是带宽问题，安全性也不一定能得到保障。”他还列举了Google和Amazon的语音识别算法区别，“Google Voice把所有语音都放在云端进行处理，但Amazon Echo就只放置了一部分。从美国市场的反馈来看，Google Voice也确实卖不过Amazon Echo。”

下图对比了通用型CPU、GPU、神经网络硬件加速器与Vision C5 DSP在开发易用性、功耗效率、可编程性以及运算性能等四方面的优劣。Steve Roddy坚持认为，利用硬件加速器来执行神经网络算法绝对是走上了一条不归路。因为ASIC芯片从设计到量产，再到最终应用在终端产品上通常需要几年的时间，在神经网络发展如此迅猛的情况下，除非芯片设计者能够“未卜先知”的精准预测出几年后神经网络的发展走向，否则这些产品还没上市就已经过时了。
20170522-cadence-1

除了产品开发时间的问题，利用硬件加速器与通用处理器共同执行神经网络算法，牵扯到的另一个问题是数据传输。由于神经网络会牵涉到大量数据传输，仅在通用处理器和硬件加速器间进行数据传输就会占用相当多的处理器资源，并由此带来可观的高功耗。

以基于摄像头的视觉系统为例，目前此类系统在汽车、无人机和安防领域最为常见。这种架构需要两种最基础的视觉优化计算模式：首先，利用传统视觉算法对摄像头捕捉到的照片或图像进行增强；其次，使用基于神经网络的认知算法对物体进行检测和识别。现有的神经网络加速器解决方案皆依赖与图像DSP连接的硬件加速器，神经网络代码被分为两部分，一部分网络层运行在DSP上，卷积层则运行在硬件加速器上，直接导致架构效率低下，且耗能较高。

“这就是Cadence为什么决定推出专为神经网络算法而设计的C5 DSP处理器的根本原因。”Steve Roddy说，一款真正意义上针对嵌入式系统量身定制的高性能、通用型神经网络解决方案，不仅应该具备极低的功耗，还应拥有高度的可编程能力，以适应未来变化，降低风险。

Vision C5 DSP是专门针对神经网络进行了特定优化的DSP，可以实现全神经网络层的计算加速(卷积层、全连接层、池化层和归一化层)，而不仅仅是卷积层的加速。因此，主视觉/图像DSP能力得以释放，独立运行图像增强应用，Vision C5 DSP则负责执行神经网络任务。通过移除神经网络DSP和主视觉/图像DSP之间的冗余数据传输，Vision C5 DSP的功耗远低于现有的神经网络加速器。同时，Vision C5 DSP还提供针对神经网络的单核编程模型。

20170522-cadence-2
Cadence方面提供的数据显示，C5 DSP采用128路8-bit SIMD或64路16-bit SIMD的VLIW SIMD架构，包含1024 8-bit MAC或512 16-bit MAC以确保8-bit和16-bit精度。如果基于AlexNet CNN Benchmark，Vision C5 DSP的计算速度较业界的GPU最快提高6倍；基于Inception V3 CNN benchmark，则有9倍的性能提升。

此外，Vision C5 DSP搭载了Cadence神经网络Mapping工具链，可将Caffe和TensorFlow等映射为在Vision C5 DSP上高度优化过的可执行代码上，并同时采用了多项系数压缩/解压技术，支持未来添加的新计算层、各类内核尺寸、深度和输入规格，在扩展能力方面超越了程序重编能力有限的CNN硬件加速器。

20170522-cadence-3
其实在Cadence推出C5 DSP之前，Synopsys、CEVA、VeriSilicon等厂商也都推出过神经网络DSP IP产品，为何Cadence却说自己是业界首款？Steve Roddy解释说，Vision C5 DSP是专门针对神经网络处理的，而不是像竞争对手的方案一样，需要由控制、图像处理和神经网络硬件加速器三部分共同组成。C5 DSP成功的将后两部分“合二为一”，提高了图像处理效率的同时也简化了架构。“从这个意义上来讲，我们确实是业界第一家。”
20170522-cadence-4
Roddy透露，目前已有客户正在利用C5 DSP核心开发下一代支持神经网络算法的SoC芯片。第一颗内建VISION C5 DSP 内核的SoC产品会在2018年量产出货。

EETC wechat barcode

关注最前沿的电子设计资讯，请关注“电子工程专辑微信公众号”。

阅读全文，请先

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

邵乐峰

ASPENCORE 中国区首席分析师。

进入专栏

EDA/IP/IC设计人工智能业界新闻处理器/DSP

返回列表

上一篇： 乐视姓贾还姓孙？贾跃亭辞职，高层大地震 下一篇： 中国工程师许家强承认窃取IBM源代码，或被重判

Arm：赋能开发者，软硬协同重塑AI计算生态硬件若无软件支持就毫无意义。而软件始终是Arm计算平台不可或缺的一部分，其技术已经涵盖整个软件栈的各个层面。从底层固件和操作系统的开发，到与游戏引擎、开源社区和独立软件供应商(ISV)的战略合作，确保所有这些在Arm平台上都能“开机即用”。
芯原汪洋：塑造智能计算未来，为AI技术应用赋能汪洋特别提到，第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前，推理和端侧微调也是芯原重点关注的领域，同时也希望在这一发展趋势中寻找新的机遇。
集成电路性能应如何验证？随着对复杂IC的需求不断增长，供应商面临着越来越大的压力，需要在尽可能短的时间内交付最高质量的IC。本文阐述了测试工程在交付定制IC以满足这一需求方面的重要性。
芯粒技术标准迈向3D时代为了解决SiP生命周期中跨多个芯粒的可测试性、可管理性和调试设计挑战，UCIe 2.0版更新的一个关键特性在于支持3D封装。
2024年是否将是先进封装之年？先进封装技术继2023年成为突出亮点之后，今年继续掀起波澜，并与半导体行业新星——chiplet的命运密切相连。
人工智能是否是硅光子的杀手级应用？人工智能(AI)是促进硅光子技术广泛应用的杀手级应用吗？鉴于过去几年AI的爆炸式增长推动了对高速互连和更高带宽的需求，以及随之而来的以太网光收发器的需求，人们可能会这么认为。
“一碰交互，共触未来”ITMA峰会盛大目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。
中科院微电子所在忆阻神经-模糊硬中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
直角照明轻触开关为复杂电子应用提 C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行，英韧科技再获投身国产浪潮向上而行，英韧科技再获“中国芯”认可

投资20亿！路芯半导体掩膜版生产项目首批工艺设备机台入厂来源：苏州工业园区12月17日，江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来，专注于半导体掩膜版的研发与生产，掌握130nm至28n
华为Pura80细节曝光：麒麟9020跑分能上130万分对于华为来说，今年的重磅机型都已经发完了，而明年的机型已经在研发中，Pura 80就是期待很高的一款。有博主爆料称，华为Pura 80将会用上了豪威OV50K传感器，同时电池容量达到5600毫安时。至
iPhone17系列迎六年来首次设计大换代：回归铝合金背板有博主基于曝光的信息绘制了iPhone 17系列渲染图，对比iPhone 16系列，17系列最大变化是采用横置相机模组，背部DECO为条形跑道设计，神似谷歌Pixel 9系列，这是iPhone六年来的
LGDisplay引入AI处理OLED质量异常效率提升90%，每年节约超2000亿韩元来源：IT之家12 月 18 日消息，LG Display 韩国当地时间今日宣布，已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中，该系统可提升 LG Display 的 OLE
撒贝宁走进维信诺，探寻“非凡中国屏”诞生背后的科技传奇之旅万物互联的时代浪潮中，以OLED为代表的新型显示技术，已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者，凭借自主创新，实现了我国OLED技术的自立自强，成为中国新型显示产
JNTC宣布在印度开发和量产车载盖板玻璃 12月18 日，据报道，JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录（MOU）。资料显示，JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
注意些问题，嵌入式软件代码可大幅度减少bug 扫描关注一起学嵌入式，一起学习，一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃，死机或其他计划外的运行时行为追溯到根本原因。在最坏的情
高科视像、新视通等持续扩大COB产能近期，高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播：加入LED显示行业群，请加VX：hangjia188■ 高科视像：MLED新型显示面板生产项目（二期）招标12月18日，山西高科
面板大厂引入AI，每年节省10亿！ LG Display 12月18日表示，为加强OLED制造竞争力，自主开发并引进了“AI（人工智能）生产体系”。“AI生产体系”是AI实时收集并分析OLED工艺制造数据的系统。LG Display表
极越之后，2025年最有可能死掉的4个新势力车企！极越汽车闪崩，留下一地鸡毛，苦的是供应商和车主。很多人都在关心，下一个倒下的新能源汽车品牌，会是谁？我们都没有未卜先知的超能力，但可以借助数据管中窥豹。近日，有媒体统计了15家造车新势力的销量、盈亏情

热门评论
最新评论

换一换

神经网络DSP市场凑齐一桌麻将，Cadence Tensilica一落座就准备听牌

杂志声明