如何正确选择AI推理芯片?

FPGA开发圈 2022-01-10 12:03

来源:内容编译自semiengineering,谢谢。


基于机器学习 (ML) 的系统开发方法采用了与计算机科学历史上使用的完全不同的编程风格。这种方法使用示例数据来训练模型,使机器能够学习如何执行任务。ML 训练是高度迭代的,每一条新的训练数据都会产生数万亿次操作。训练过程的迭代性质与实现高精度所需的非常大的训练数据集相结合,推动了对极高性能浮点处理的需求。大多数新模型根据使用的 GPU 加速卡数量和所需的处理周数来描述他们的训练要求。典型视觉模型的训练设备价格从数十万美元到数百万美元不等,并且还需要以千瓦为单位的功率才能运行。这些通常是机架规模的系统。ML 培训最好作为数据中心基础设施实施,可以在许多不同的客户之间进行摊销,以证明高资本和运营费用是合理的。


另一方面,推理是使用经过训练的模型为新数据与模型所训练的所有数据产生可能匹配的过程。在大多数应用程序中,推理寻找可以在几毫秒内得出的快速答案。推理的示例包括语音识别、实时语言翻译、机器视觉和广告插入优化决策。与训练相比,推理只需要一小部分处理能力。然而,这仍然远远超出了传统的基于 CPU 的系统所提供的处理能力。因此,即使进行推理,也需要加速(在 SoC 上作为 IP 或作为系统内加速器)以实现合理的执行速度。



一些真实的例子将有助于说明我们在这里谈论的计算规模。在上表中,我们看到编译 Linux 内核所需的计算大约为 5.4 TeraOps。在使用 Intel i5-12600K CPU 且配置良好的新 PC 上,此计算大约需要一分钟。蛮快!然而,在视觉系统中花费一分钟甚至几秒钟来处理图像并不是很有用。工业视觉系统正在寻找亚秒级处理速度。在本例中,我们使用 40 毫秒作为推理的目标速度,相当于每秒 25 帧。这导致 TeraOps/second 要求大大高于 i5 可以提供的要求。事实上,在这个指标上,用于此工作负载的 X1 加速器的性能将比 i5 CPU 高出约 500 倍。应该重申的是,i5 CPU 和 X1 加速器正在解决截然不同的问题。X1 加速器无法用于编译 Linux,虽然 i5 的通用处理能力使其能够处理推理工作负载,但在性能和效率方面将显着落后于 X1。


模型推理在边缘执行得更好,在那里它更接近那些寻求从推理决策结果中受益的人。一个完美的例子是自动驾驶汽车,其中推理处理不能依赖于某些数据中心的链接,这些链接容易出现高延迟和间歇性连接。


上表还提供了模型训练的示例。这是基于报告的 10 天训练时间,使用 COCO 数据集在 GTX 1080 Ti GPU 的 4 个实例上构建 Yolov3 模型。这个工作负载,如果我们假设 GPU 提供 11.3 TeraFlops 并且其中四个运行 10 天,那么需要大约 40 ExaOps 才能完成。这比单个推理所需的计算量多 4000 万倍。


鉴于极高的处理要求,更不用说训练的数据存储和通信要求,数据中心基础设施显然是进行训练处理的最佳场所。


有了训练和推理之间明确的二分法,我们必须考虑对两种应用程序使用相同的技术是否有意义。


针对不同问题的不同解决方案

在最近的白皮书 [4] 中,Omdia 的 Alexander Harrowell 指出:“AI 模型训练是高度计算密集型的,还需要完全通用的可编程性。因此,它是高性能图形处理单元 (GPU) 的领域,与高带宽内存和强大的 CPU 相结合。这表明,部署用于训练推理工作负载的相同硬件可能意味着为推理机过度配置加速器和 CPU 硬件。”


在同一份报告中,Harrowell 先生估计,到 2026 年,边缘和数据中心解决方案技术方法将出现非常明显的差异,基于 GPU 的解决方案将继续在数据中心领先,而定制 AI ASIC 则在边缘占据主导地位。



随着用于解决方案开发的 ML 方法的激增,开发人员必须认识到,过去十年中不断发展以创建 ML 技术的工具和技术,主要是基于 GPU 的解决方案,将不是部署的最佳解决方案,这一点非常重要。批量 ML 推理技术。过去几十年推动半导体技术极端专业化的压力,将推动边缘应用的高效高性能推理处理。


边缘推理加速器与专为训练和模型开发而设计的 GPU 解决方案截然不同的原因有很多。下表将经常用于边缘推理应用的 NVIDIA Jetson AGX 与 Flex Logix X1 推理加速器进行了比较。很明显,与基于 GPU 的 AGX 解决方案相比,X1 能够提供更低的功耗、更低的成本和更高的效率,同时仍然为推理应用程序提供令人信服的性能水平。




软件和工具需求差异

ML 训练和推理之间的最后一个重要区别点与软件环境有关。在模型开发培训和测试中,当今使用了许多方法。其中包括流行的库(例如用于 NVIDIA GPU 的 CUDA、机器学习框架(例如 TensorFlow 和 PyTorch)、优化的跨平台模型库(例如 Keras)等等。这些工具集对于 ML 模型的开发和训练至关重要,但在推理应用程序方面,需要的软件工具集大为不同且规模较小。推理工具集专注于在目标平台上运行模型。推理工具支持将经过训练的模型移植到平台。这可能包括一些运算符转换、量化和主机集成服务,


推理工具受益于从模型的标准表示开始。开放神经网络交换 (ONNX) 是表示 ML 模型的标准格式。顾名思义,它是一个开放标准,并作为 Linux 基金会项目进行管理。ONNX 等技术允许将训练和推理系统解耦,并为开发人员提供选择最佳训练和推理平台的自由。



结论

随着机器学习方法在边缘和嵌入式系统中得到更广泛的采用,边缘 AI ASIC 技术的使用将会越来越多,这些技术比基于 GPU 的解决方案提供更高效和更具成本效益的性能。ONNX 等技术的出现使得采用特定于推理的模型解决方案变得更加容易,因为它们提供了一条将 ML 训练和测试任务与 ML 推理任务完全分开的途径。


希望部署 AI 技术的公司应该评估推理的最佳解决方案,而不是假设所有 AI 解决方案都最好在 GPU 设备上实施。


免责声明:本文为网络转载文章,转载此文目的在于传播相关资讯知识,版权归原作者所有,如涉及侵权,请联系小编删除(联系邮箱:service@eetrend.com )。




FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论 (0)
  • 背景近年来,随着国家对资源、能源有效利用率的要求越来越高,对环境保护和水处理的要求也越来越严格,因此有大量的固液分离问题需要解决。真空过滤器是是由负压形成真空过滤的固液分离机械。用过滤介质把容器分为上、下两层,利用负压,悬浮液加入上腔,在压力作用下通过过滤介质进入下腔成为滤液,悬浮液中的固体颗粒吸附在过滤介质表面形成滤饼,滤液穿过过滤介质经中心轴内部排出,达到固液分离的目的。目前市面上的过滤器多分为间歇操作和连续操作两种。间歇操作的真空过滤机可过滤各种浓度的悬浮液,连续操作的真空过滤机适于过滤含
    宏集科技 2025-04-10 13:45 60浏览
  •   海上电磁干扰训练系统:全方位解析      海上电磁干扰训练系统,作为模拟复杂海上电磁环境、锻炼人员应对电磁干扰能力的关键技术装备,在军事、科研以及民用等诸多领域广泛应用。接下来从系统构成、功能特点、技术原理及应用场景等方面展开详细解析。   应用案例   系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。   一、系统构成   核心组件   电磁信号模拟设备:负责生成各类复杂的电磁信号,模拟海上多样
    华盛恒辉l58ll334744 2025-04-10 16:45 81浏览
  • 什么是车用高效能运算(Automotive HPC)?高温条件为何是潜在威胁?作为电动车内的关键核心组件,由于Automotive HPC(CPU)具备高频高效能运算电子组件、高速传输接口以及复杂运算处理、资源分配等诸多特性,再加上各种车辆的复杂应用情境等等条件,不难发见Automotive HPC对整个平台讯号传输实时处理、系统稳定度、耐久度、兼容性与安全性将造成多大的考验。而在各种汽车使用者情境之中,「高温条件」就是你我在日常生活中必然会面临到的一种潜在威胁。不论是长时间将车辆停放在室外的高
    百佳泰测试实验室 2025-04-10 15:09 65浏览
  •   卫星故障预警系统软件:卫星在轨安全的智能护盾   北京华盛恒辉卫星故障预警系统软件,作为确保卫星在轨安全运行的关键利器,集成前沿的监测、诊断及预警技术,对卫星健康状况予以实时评估,提前预判潜在故障。下面将从核心功能、技术特性、应用场景以及发展走向等方面展开详尽阐述。   应用案例   目前,已有多个卫星故障预警系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润卫星故障预警系统。这些成功案例为卫星故障预警系统的推广和应用提供了有力支持。   核心功能   实时状态监测:
    华盛恒辉l58ll334744 2025-04-09 19:49 155浏览
  • 文/Leon编辑/侯煜‍关税大战一触即发,当地时间4月9日起,美国开始对中国进口商品征收总计104%的关税。对此,中国外交部回应道:中方绝不接受美方极限施压霸道霸凌,将继续采取坚决有力措施,维护自身正当权益。同时,中国对原产于美国的进口商品加征关税税率,由34%提高至84%。随后,美国总统特朗普在社交媒体宣布,对中国关税立刻提高至125%,并暂缓其他75个国家对等关税90天,在此期间适用于10%的税率。特朗普政府挑起关税大战的目的,实际上是寻求制造业回流至美国。据悉,特朗普政府此次宣布对全球18
    华尔街科技眼 2025-04-10 16:39 69浏览
  • 由西门子(Siemens)生产的SIMATIC S7 PLC在SCADA 领域发挥着至关重要的作用。在众多行业中,SCADA 应用都需要与这些 PLC 进行通信。那么,有哪些高效可行的解决方案呢?宏集为您提供多种选择。传统方案:通过OPC服务器与西门子 PLC 间接通信SIMATIC S7系列的PLC是工业可编程控制器,能够实现对生产流程的实时SCADA监控,提供关于设备和流程状态的准确、最新数据。S7Comm(全称S7 Communication),也被称为工业以太网或Profinet,是西门
    宏集科技 2025-04-10 13:44 64浏览
  •   卫星故障预警系统:守护卫星在轨安全的 “瞭望塔”   卫星故障预警系统作为保障卫星在轨安全运行的核心技术,集成多源数据监测、智能诊断算法与预警响应机制,实时监控卫星关键系统状态,精准预判故障。下面从系统架构、技术原理、应用场景以及发展趋势这四个关键维度展开深入解析。   应用案例   目前,已有多个卫星故障预警系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润卫星故障预警系统。这些成功案例为卫星故障预警系统的推广和应用提供了有力支持。   系统架构与组成   卫星故障
    华盛恒辉l58ll334744 2025-04-09 17:18 127浏览
  • 行业痛点:电动车智能化催生语音交互刚需随着全球短途出行市场爆发式增长,中国电动自行车保有量已突破3.5亿辆。新国标实施推动行业向智能化、安全化转型,传统蜂鸣器报警方式因音效单一、缺乏场景适配性等问题,难以满足用户对智能交互体验的需求。WT2003HX系列语音芯片,以高性能处理器架构与灵活开发平台,为两轮电动车提供从基础报警到智能交互的全栈语音解决方案。WT2003HX芯片技术优势深度解读1. 高品质硬件性能,重塑语音交互标准搭载32位RISC处理器,主频高达120MHz,确保复杂算法流畅运行支持
    广州唯创电子 2025-04-10 09:12 160浏览
  •   天空卫星健康状况监测维护管理系统:全方位解析  在航天技术迅猛发展的当下,卫星在轨运行的安全与可靠至关重要。整合多种技术,实现对卫星的实时监测、故障诊断、健康评估以及维护决策,有力保障卫星长期稳定运转。  应用案例       系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。  一、系统架构与功能模块  数据采集层  数据处理层  智能分析层  决策支持层  二、关键技术  故障诊断技术  
    华盛恒辉l58ll334744 2025-04-10 15:46 54浏览
  •     前几天同事问我,电压到多少伏就不安全了?考虑到这位同事的非电专业背景,我做了最极端的答复——多少伏都不安全,非专业人员别摸带电的东西。    那么,是不是这么绝对呢?我查了一下标准,奇怪的知识增加了。    标准的名字值得玩味——《电流对人和家畜的效应》,GB/T 13870.5 (IEC 60749-5)。里面对人、牛、尸体分类讨论(搞硬件的牛马一时恍惚,不知道自己算哪种)。    触电是电流造成的生理效应
    电子知识打边炉 2025-04-09 22:35 170浏览
  • ‌亥姆霍兹线圈‌是由两组相同的线圈组成,线圈之间的距离等于它们的半径。当电流同时流过这两个线圈时,会在它们中间形成一个几乎均匀的磁场。这种设计克服了普通线圈磁场不均匀的缺陷,能够在中心区域形成稳定、均匀的磁场‌。‌亥姆霍兹线圈的应用领域‌包括材料、电子、生物、医疗、航空航天、化学、应用物理等各个学科。由于其操作简便且能够提供极微弱的磁场直至数百高斯的磁场,亥姆霍兹线圈在各研究所、高等院校及企业中被广泛用于物质磁性或检测实验。‌‌亥姆霍兹线圈的用途非常广泛,主要包括以下几个方面‌:‌粒子物理实验‌
    锦正茂科技 2025-04-09 17:04 105浏览
  • 技术原理:非扫描式全局像的革新Flash激光雷达是一种纯固态激光雷达技术,其核心原理是通过面阵激光瞬时覆盖探测区域,配合高灵敏度传感器实现全局三维成像。其工作流程可分解为以下关键环节:1. 激光发射:采用二维点阵光源(如VCSEL垂直腔面发射激光器),通过光扩散器在单次脉冲中发射覆盖整个视场的面阵激光,视场角通常可达120°×75°,部分激光雷达产品可以做到120°×90°的超大视场角。不同于传统机械扫描或MEMS微振镜方案,Flash方案无需任何移动部件,直接通过电信号控制激光发射模式。2.
    robolab 2025-04-10 15:30 79浏览
  • 行业变局:从机械仪表到智能交互终端的跃迁全球两轮电动车市场正经历从“功能机”向“智能机”的转型浪潮。数据显示,2024年智能电动车仪表盘渗透率已突破42%,而传统LED仪表因交互单一、扩展性差等问题,难以满足以下核心需求:适老化需求:35%中老年用户反映仪表信息辨识困难智能化缺口:78%用户期待仪表盘支持手机互联与语音交互成本敏感度:厂商需在15元以内BOM成本实现功能升级在此背景下,集成语音播报与蓝牙互联的WT2605C-32N芯片方案,以“极简设计+智能交互”重构仪表盘技术生态链。技术破局:
    广州唯创电子 2025-04-11 08:59 104浏览
  • ‌亥姆霍兹线圈‌是由两组相同的线圈组成,线圈之间的距离等于它们的半径。当电流同时流过这两个线圈时,会在它们中间形成一个几乎均匀的磁场。这种设计克服了普通线圈磁场不均匀的缺陷,能够在中心区域形成稳定、均匀的磁场‌。‌亥姆霍兹线圈的应用领域‌包括材料、电子、生物、医疗、航空航天、化学、应用物理等各个学科。由于其操作简便且能够提供极微弱的磁场直至数百高斯的磁场,亥姆霍兹线圈在各研究所、高等院校及企业中被广泛用于物质磁性或检测实验。‌亥姆霍兹线圈可以根据不同的标准进行分类‌:‌按磁场方向分类‌:‌一维亥
    锦正茂科技 2025-04-09 17:20 126浏览
  • 政策驱动,AVAS成新能源车安全刚需随着全球碳中和目标的推进,新能源汽车产业迎来爆发式增长。据统计,2023年中国新能源汽车渗透率已突破35%,而欧盟法规明确要求2024年后新能效车型必须配备低速提示音系统(AVAS)。在此背景下,低速报警器作为车辆主动安全的核心组件,其技术性能直接关乎行人安全与法规合规性。基于WT2003H芯片开发的AVAS解决方案,以高可靠性、强定制化能力及智能场景适配特性,正成为行业技术升级的新标杆。WT2003H方案技术亮点解析全场景音效精准触发方案通过多传感器融合技术
    广州唯创电子 2025-04-10 08:53 173浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦