知名市场研究和咨询机构 Tractica近日针对“深度学习芯片组”进行了分析和预测,报告结果显示,机器学习 (ML) 算法正被广泛运用于训练神经网络的企业云系统,而诸如汽车、无人机和移动设备等边缘设备的 AI/ML 芯片组更是以三位数的速度持续增长。AI/ML已然成为这些领域欲发挥价值的关键因素。

人工智能和机器学习(AI/ML)发展至今,早已逾越了“纸上谈兵”的范畴。从消费产品到金融服务再到制造创新,其在众多行业的实践中不断汲取经验,发展迅速。知名市场研究和咨询机构 Tractica近日针对“深度学习芯片组”进行了分析和预测,报告结果显示,机器学习 (ML) 算法正被广泛运用于训练神经网络的企业云系统,而诸如汽车、无人机和移动设备等边缘设备的 AI/ML 芯片组更是以三位数的速度持续增长(图 1)。AI/ML已然成为这些领域欲发挥价值的关键因素。

图 1:AI/ML 边缘设备上的市场数据

这样的市场增速意味着企业已经看到了针对功耗、性能和面积(PPA)进行优化的边缘硬件架构的爆炸式增长。ML 逐渐成为主流技术,而硬件设计团队却迎来了难题,他们往往无法在一次迭代中完成 AI/ML 系统的优化,有时不得不因为 RTL 设计周期过长而带来的成本压力而放弃最初的尝试。

将 AI/ML 转移到边缘的重点在于定制化设计,这些设计必须能同时满足低功耗和高性能两种关键要求。此外,如果传统 RTL 设计流程无法迎合紧迫的上市时间窗口,设计团队就必须改用新的设计和验证流程。

认识挑战

优化 ML 算法需要多次运行设计流程(图 2):

●算法工程师在机器学习框架(如 Tensorflow 或 Caffe)中设计和验证 ML 算法。

●该步骤通常包括将算法从浮点数量化为定点,同时进行修剪,以降低复杂度。

●接下来,硬件设计人员将实施算法,这一步需要构建足够复杂的硬件来满足 PPA 要求。

其中由于一些系统过于复杂,如果不先行构建则无法进行分析,对于手动编码的 RTL 设计流程来说这种操作是不切实际的,因为生成一个工作设计可能需要三到六个月的时间,再加上算法和硬件领域持续不断的变化,许多团队很可能会因此放弃最初的硬件尝试。

图 2:机器学习的设计流程

要为 ML 推理引擎构建定制化的硬件,设计团队需要面对一项重要挑战:牺牲功耗以换取可编程性。这在很大程度上归因于用于构建卷积神经网络 (CNN) 的网络逐层行为。CNN 对后期层的存储权重需求急剧增加,而特征图谱存储需求在早期层中最大,在后期层中却大幅降低。另外,在后期层中,准确实现网络所需的精度也趋于降低。

CNN这些存储和精度要求,导致“一刀切”的硬件实现方式效率低下。通用型解决方案可以提供较高的性能和较小的面积,但它是通过“平铺”ML 算法,并与系统存储器往返传递特征图谱的数据来实现的,这无疑会引起功耗的大幅增加。这些通用型解决方案为了获得可编程性还有可能牺牲一部分片上计算资源。

潜在的架构解决方案

获得更高的功耗效率可能需要定制两个或多个硬件架构,以满足网络中不同层的存储器存储、计算需求和精度要求。这些计算引擎必须能够协同工作,需要复杂的片上存储器架构以及大规模并行性,还必须能访问高带宽系统存储器。

例如,网络的早期层可以映射到融合层架构或多通道滑动窗口架构。这些架构无需从片外存储器到系统存储器,也可以允许计算网络前几个层中的两层或更多层。由于它们仅在一个较小的特征图谱数据“窗口”上运行,因此需要的片上存储量相对较少;而对于后期层,多通道处理器件 (PE) 阵列架构则是一种兼顾功耗和性能的有效选择。

更优的设计和验证流程

构建自定义硬件解决方案要求设计人员尝试不同精度的架构组合,在功耗、性能和面积之间找到最佳平衡,这在 RTL 中很难实现,因此,高等级逻辑综合 (HLS) 成为很多设计人员的最佳解决选择。

Mentor的Catapult HLS 能够使用 C++/SystemC 快速创建和验证复杂的硬件架构。HLS 使用位精度的数据类型在 C++ 仿真中对真实的硬件精度进行建模。这样一来,设计人员不仅可以在 C++/SystemC 中为 ML 硬件的逐位行为建模,还可以在几分钟内验证 ML 设计,而在 RTL 仿真中,这通常需要几小时甚至几天的时间。

Catapult HLS能够为设计团队提供的ML 硬件设计功能特性包括:

●自动存储器分区:用于创建ML引擎所需的复杂片上存储器架构,以实现性能目标。这些优化能够将 C++ 算法中的数组转换到并行运行的多个存储器内。

●接口综合:可以将设计接口上的数组自动转换到高性能的 AXI4 主存储器,从而使核心硬件能够透明地访问系统存储器,这是抓取 ML 算法所用的数百万权重所需的。

●架构代码更改和 HLS 优化:能够产生具有不同 PPA 特征的独特硬件。在架构优化过程中的一个重要步骤就是能够以交互的方式分析和评估这些权衡方案。

●功耗优化:该工具可以自动优化其 RTL 输出的功耗,还会报告设计人员每个步骤的功耗,以便他们能够快速确定其设计的可行性。

架构优化流程的最后一步,可以将使用位精度数据类型设计的可综合 C++ 插回到 ML 框架(例如 TensorFlow),以便算法设计人员能够对照原始算法进行验证。

将机器学习转移到边缘对功耗和性能有着极高要求,曾经的解决方案无法满足现实所需:CPU 速度太慢,GPU/TPU 过于昂贵且功耗过高,连通用的机器学习加速器也可能被过度构建,这些都是横亘在最优功耗面前的重重障碍。为了满足下一代设计需求,在构建新的低功耗/高效存储器的硬件架构时采用HLS设计和验证流程,不失为实现生产计划的“最佳帮手”。

作者:李立基,Mentor,A Siemens Business亚太区技术总监

责编:Amy Guan

阅读全文,请先
您可能感兴趣
半导体行业正迎来一个新的建设高峰期,SEMI预测,2025年,全球范围内将有18个新的晶圆厂项目开始建设,其中15座为12英寸晶圆厂,3座为8英寸晶圆厂,大部分预计将于 2026 年至 2027 年开始运营......
尽管Imagination在RISC-V领域取得了一定的成就,但公司似乎认为继续投入资源于RISC-V处理器核心的开发并不符合其长期战略目标。Imagination决定终止其基于RISC-V指令集架构的GPGPU内核的研发工作,并将重心转向其擅长的GPU和AI领域......
这款机器人头上的摄像头可以录制视频或使用人工智能识别物体,虽然该机器人的动作仅限于挥动细小的手臂和眨动动画眼睛,但它可以与一把小型电动椅子配对,自动在家中导航。
Ken Glueck认为,美国2800亿美元的芯片法案所取得的成就,将被出口管制框架夺走,“因为在一项IFR中,它成功地将美国公司的全球芯片市场缩小了80%,并将其交给了中国。”
英特尔临时联席CEO Michelle Johnston还表示,“英特尔会在2025年及以后继续增强AI PC产品组合,向客户提供领先的英特尔18A产品样品,并在2025年下半年量产”。
NVIDIA刚才在CES上发布了GeForce RTX 50系显卡,据说这一代的5070就能达到上代4090的性能水平...
• 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准,配套USB网关,可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成
其中包含Wi-Fi 7和蓝牙5.4 模组FME170Q-865、Wi-Fi 6和蓝牙5.4 模组FCS962N-LP、Wi-Fi 6和蓝牙5.3模组FCU865R 、独立Wi-Fi和蓝牙模组FGM840R、高功率Wi-Fi HaLow模组FGH100M-H……
小米15 Ultra目前已经三证齐全,静待2月份发布了,大概率会是2025年第一款超大杯旗舰。博主定焦数码最新公布了一张该机的渲染图,后摄区域是根据内部结构绘制,展示了全新的排列方式。四摄呈L形排列,
今天推荐的视频介绍了单片机(MCU)和数字信号控制器(DSC)之间的差异、Microchip DSC的单核和双核架构、DSC的应用示例以及可将您的设计推向市场的开发资源。更多更全视频尽在Microch
近日,联想在CES 2025展会上展示了全球首款卷轴屏PC——ThinkBook Plus Gen 6。据悉,ThinkBook Plus Gen 6卷轴屏AI PC的核心魅力在于其独有的可卷曲显示屏
亚化咨询重磅推出《中国半导体材料、晶圆厂、封测项目及设备中标、进口数据全家桶》。本数据库月度更新,以EXCEL表格的形式每月发送到客户指定邮箱。中国大陆半导体大硅片项目表(月度更新)中国大陆再生晶圆项
日前,微信安卓版迎来8.0.56正式版更新,这是2025年首次版本更新。关于更新内容,依然是那9个字:“修复了一些已知问题”。虽然官方没有公布具体更新内容,但体验后发现,新版增加了朋友圈视频倍速播放等
近日,闻泰科技在一场电话会议中阐述了其出售ODM(原始设计制造)业务的战略考量。           闻泰科技表示,基于地缘政治环境变化,考虑到 ODM 业务稳健发展和员工未来发展利益最大化,公司对战
戴尔科技AI PC产品组合助力终端用户释放创造力并提高工作效率。 戴尔科技统一旗下产品组合品牌命名,旨在帮助用户更轻松、快速地找到相匹配的PC、配件及服务。 搭载英
这届CES,几乎成了半个车展。尤其是今年多个中国电动车品牌参展,凭借各种华丽的车载科技大放异彩,直接让美国记者看傻了。在体验完极氪001 FR之后,美国知名电动车媒体InsideEVs记者Patric
 △广告 与正文无关 1月3日,The Elec援引电子元件专业媒体内容表示,尽管取代中国PCB的努力仍在继续,但预计到2028年,中国(包括大陆和台湾省)在全球PCB销售中的份额将超过60%,在市场
日前,奥康国际发布公告表示终止发行股份购买资产。根据公告,2024 年 12 月 24 日,奥康国际披露《关于筹划发行股份购买资产事项的停牌公告》,公司拟筹划以发行股份或支付现金的方式购买联和存储科技