按照Cadence的命名规则,DNA是深度神经网络加速器(Deep Neural-network Accelerator)的简称。但其实对更多的人来说,DNA是生命的符号,它在让我们每个人独一无二的同时,又将我们与地球上的其他人类联系在一起。那么,Tensilica DNA100处理器,会不会也具备类似的属性?

 在1年前推出的首款神经网络处理器Vision C5 DSP基础上,Cadence日前再接再厉,推出了性能更强、拓展性能更好的处理器产品—Tensilica DNA100。根据Cadence公司IP事业部Tensilica资深产品总监Lazaar Louis的描述,较其他采用相似阵列尺寸大小的乘法累加运算(MAC)解决方案,DNA 100处理器性能提升达4.7倍,每瓦特性能提升高达2.3倍。

20181128-cadence-1.jpg
Tensilica DNA100处理器结构框图

按照Cadence的命名规则,DNA是深度神经网络加速器(Deep Neural-network Accelerator)的简称。但其实对更多的人来说,DNA是生命的符号,它在让我们每个人独一无二的同时,又将我们与地球上的其他人类联系在一起。那么,Tensilica DNA100处理器,会不会也具备类似的属性?

当前,大多数的AI推理发生在云端,以智能语音助手、旅行助手、导航助手等应用最具代表性。但Lazaar Louis认为,如果从更低的延时性、更好的连接性和保护用户隐私的角度考虑,在终端侧完成这一过程将更为合理,即所谓的“终端侧智能”。这一趋势目前在自动驾驶汽车(AV)、ADAS、监视、机器人、无人机、增强现实(AR)/虚拟现实(VR)、智能手机、智能家居和物联网等多个应用领域中已经得到了明显的体现。

但在上述应用中,神经网络推理需求涉及不同量级的人工智能处理和多种神经网络类型,对处理器性能的需求也从0.5到数百TMAC不等,如何设计出设备端AI推理所需的高性能和高能效产品,是摆在Lazaar Louis面前的难题之一。

“稀疏计算引擎是Tensilica DNA100处理器创新的关键所在。”Lazaar Louis说,神经网络的特征在于权重和激活函数的固有稀疏度,加载和乘以零会造成其他处理器不必要的MAC消耗。DNA 100处理器的专属硬件计算引擎移除了上述两项任务,利用稀疏度提高能效并降低计算量。神经网络再训练有助于提高网络的稀疏度,并通过DNA 100处理器的稀疏计算引擎实现最高性能。作为例证,4K MAC配置环境下,ResNet 50推理性能预计能实现每秒高达2550帧(fps)和3.4TMAC/W(16nm工艺)。

20181128-cadence-2.jpg20181128-cadence-2.jpg

 

DNA 100处理器配备完整的AI软件平台,兼容最新版本的Tensilica神经网络编译器(Tensilica Neural Network Compiler),支持Caffe、TensorFlow、TensorFlow Lite及包括卷积和循环网络在内的广泛神经网络等高级AI框架。Tensilica神经网络编译器利用全面优化的神经网络库函数,将任意神经网络映射为可执行且高度优化的高性能代码。因此,DNA 100处理器为不同网络类型提供了强大的软件生态系统支持,包括分类、对象检测、分割、重复和回归。DNA 100处理器还支持安卓神经网络(ANN)API,可用于安卓设备端的AI推理。

20181128-cadence-3.jpg
DNA 100处理器AI软件平台

DNA 100处理器可以在所有神经网络层运行,包括卷积、完全连接、LSTM、LRN和池化。单个DNA 100处理器可以轻松从0.5扩展到12有效TMAC;并可以通过堆叠多个DNA 100处理器,实现数百TMAC,适用于最计算密集型设备端的神经网络应用。DNA 100处理器还集成了Tensilica DSP,以适应DNA 100处理器内部硬件引擎当前不支持的新神经网络层;同时使用Tensilica指令扩展(TIE)指令集实现Tensilica Xtensa核心的可扩展性和可编程性。由于DNA 100处理器拥有独立的直接存储器访问(DMA),因此无需新增控制器即可运行其他控制代码。

与DNA 100处理器同时发布的,是面向音频和语音处理的Tensilica HiFi 5 DSP,这也是首款为高性能远场处理和人工智能语音识别处理量身优化的IP核。对比HiFi 4 DSP,第五代HiFi DSP的音频处理性能提高2倍,神经网络(NN)处理性能提高4倍。

20181128-cadence-4.jpg

Tensilica HiFi 5 DSP结构框图

Cadence公司IP事业部Tensilica技术营销总监Yipeng Liu对记者表示,随着数字家庭助手普及度的快速上升,语音控制用户界面已经成为厂商开发创新消费产品的重要考量。高级DSP算法正在不断革新,消除噪音,从复杂环境分离并提取说话者的语音,以提高识别准确率。为此,更好的处理能力和能效必不可少。同时,因为延时,隐私保护和网络可用性等原因,基于神经网络的语音识别算法需要更多任务在本地运行,而非云端。

HiFi 5 DSP采用5个超长指令字(VLIW)插槽架构,支持每循环发出2个128-bit负载,完全兼容HiFi产品线拥有的超过300个为HiFi优化的音频语音编解码器以及语音增强软件包。对比HiFi 4 DSP,HiFi 5 DSP支持每周期8个32x32-bit MACs或16个16x16-bit MACs,可选每周期8个单精度浮点MACs,使得预处理和后处理的MAC性能提高2倍。神经网络处理MAC性能方面,HiFi 5支持每周期32个16x8或16x4 MACs,可选每周期16个半精度浮点MACs,从而将性能提高4倍。此外,全新的HiFi神经网络库为神经网络处理(特别是语音任务)提供专门优化的库函数,可以与主流机器学习框架轻松集成。

20181128-cadence-5.jpg
HiFi 5 DSP VS HiFi 4 DSP

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
IP供应商、芯片设计服务提供商和AI专家在以AI为中心的设计价值链中的地位正变得更加突出。本文给出了四个设计用例,强调了服务于AI应用的芯片设计模型的重新调整。
芯片设计周期久,决定了AI芯片如果没有在设计之初就“压对宝”,上市时就可能已经过时。有没有什么工具能大幅加速AI芯片的设计流程?
硬件若无软件支持就毫无意义。而软件始终是Arm计算平台不可或缺的一部分,其技术已经涵盖整个软件栈的各个层面。从底层固件和操作系统的开发,到与游戏引擎、开源社区和独立软件供应商(ISV)的战略合作,确保所有这些在Arm平台上都能“开机即用”。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
随着对复杂IC的需求不断增长,供应商面临着越来越大的压力,需要在尽可能短的时间内交付最高质量的IC。本文阐述了测试工程在交付定制IC以满足这一需求方面的重要性。
为了解决SiP生命周期中跨多个芯粒的可测试性、可管理性和调试设计挑战,UCIe 2.0版更新的一个关键特性在于支持3D封装。
• 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准,配套USB网关,可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成
其中包含Wi-Fi 7和蓝牙5.4 模组FME170Q-865、Wi-Fi 6和蓝牙5.4 模组FCS962N-LP、Wi-Fi 6和蓝牙5.3模组FCU865R 、独立Wi-Fi和蓝牙模组FGM840R、高功率Wi-Fi HaLow模组FGH100M-H……
今天推荐的视频介绍了单片机(MCU)和数字信号控制器(DSC)之间的差异、Microchip DSC的单核和双核架构、DSC的应用示例以及可将您的设计推向市场的开发资源。更多更全视频尽在Microch
‌‌Jan. 9, 2025 产业洞察根据TrendForce集邦咨询最新研究,随着人型机器人迈向高度系统整合,并有望从工业场景走进家庭生活,前端的AI模型训练将更为关键,以满足更多后端理解与互动需求
在CES2025上,宝马发布了BMW首创全景iDrive与新世代操作系统X,据了解,其中控屏为Mini LED背光屏幕,宝马表示,这一创新不仅重新定义了汽车人机交互的标准。除了宝马之外,CES 202
当地时间2025年1月7日,全球备受期待的技术盛宴——国际消费电子展(CES 2025)在美国拉斯维加斯盛大开幕。作为显示领域的领军企业,天马携一系列前沿创新技术和最新智能座舱解决方案惊艳登场,带来手
 △广告 与正文无关 日前,苏州西典新能源电气股份有限公司(股票代码:603312,以下简称“西典新能”)发布公告称,公司经过3年多的产品和工艺研发及设备攻关,信号采集组件FCC技术取得重大进展,公司
近日,闻泰科技在一场电话会议中阐述了其出售ODM(原始设计制造)业务的战略考量。           闻泰科技表示,基于地缘政治环境变化,考虑到 ODM 业务稳健发展和员工未来发展利益最大化,公司对战
  在千级电子净化车间中设置通风系统时,需要综合考虑多个因素,包括洁净度要求、换气次数、气流组织、空气处理、温湿度控制以及节能与环保等。以下是合洁科技电子洁净工程公司的一些具体的设
1月8日,艾比森、聚灿光电先后发布2024 年度业绩预告。在大环境变动的影响下,两家企业呈现出不同的表现,然而,它们各自的亮点表现都在一定程度上反映了市场需求的变化。如艾比森在海外市场呈良好增长态势,
日前,奥康国际发布公告表示终止发行股份购买资产。根据公告,2024 年 12 月 24 日,奥康国际披露《关于筹划发行股份购买资产事项的停牌公告》,公司拟筹划以发行股份或支付现金的方式购买联和存储科技
1月8日消息,据外媒报道,由于半导体行业需求衰退,日本瑞萨电子将在日本及海外裁员数百人,并且定期加薪也将被推迟!据报道,瑞萨电子在日本和海外有约21,000名员工,本次裁员比例近5%。这一裁员计划已于