如何正确选择AI推理芯片?

FPGA开发圈 2022-01-10 12:03

来源:内容编译自semiengineering,谢谢。


基于机器学习 (ML) 的系统开发方法采用了与计算机科学历史上使用的完全不同的编程风格。这种方法使用示例数据来训练模型,使机器能够学习如何执行任务。ML 训练是高度迭代的,每一条新的训练数据都会产生数万亿次操作。训练过程的迭代性质与实现高精度所需的非常大的训练数据集相结合,推动了对极高性能浮点处理的需求。大多数新模型根据使用的 GPU 加速卡数量和所需的处理周数来描述他们的训练要求。典型视觉模型的训练设备价格从数十万美元到数百万美元不等,并且还需要以千瓦为单位的功率才能运行。这些通常是机架规模的系统。ML 培训最好作为数据中心基础设施实施,可以在许多不同的客户之间进行摊销,以证明高资本和运营费用是合理的。


另一方面,推理是使用经过训练的模型为新数据与模型所训练的所有数据产生可能匹配的过程。在大多数应用程序中,推理寻找可以在几毫秒内得出的快速答案。推理的示例包括语音识别、实时语言翻译、机器视觉和广告插入优化决策。与训练相比,推理只需要一小部分处理能力。然而,这仍然远远超出了传统的基于 CPU 的系统所提供的处理能力。因此,即使进行推理,也需要加速(在 SoC 上作为 IP 或作为系统内加速器)以实现合理的执行速度。



一些真实的例子将有助于说明我们在这里谈论的计算规模。在上表中,我们看到编译 Linux 内核所需的计算大约为 5.4 TeraOps。在使用 Intel i5-12600K CPU 且配置良好的新 PC 上,此计算大约需要一分钟。蛮快!然而,在视觉系统中花费一分钟甚至几秒钟来处理图像并不是很有用。工业视觉系统正在寻找亚秒级处理速度。在本例中,我们使用 40 毫秒作为推理的目标速度,相当于每秒 25 帧。这导致 TeraOps/second 要求大大高于 i5 可以提供的要求。事实上,在这个指标上,用于此工作负载的 X1 加速器的性能将比 i5 CPU 高出约 500 倍。应该重申的是,i5 CPU 和 X1 加速器正在解决截然不同的问题。X1 加速器无法用于编译 Linux,虽然 i5 的通用处理能力使其能够处理推理工作负载,但在性能和效率方面将显着落后于 X1。


模型推理在边缘执行得更好,在那里它更接近那些寻求从推理决策结果中受益的人。一个完美的例子是自动驾驶汽车,其中推理处理不能依赖于某些数据中心的链接,这些链接容易出现高延迟和间歇性连接。


上表还提供了模型训练的示例。这是基于报告的 10 天训练时间,使用 COCO 数据集在 GTX 1080 Ti GPU 的 4 个实例上构建 Yolov3 模型。这个工作负载,如果我们假设 GPU 提供 11.3 TeraFlops 并且其中四个运行 10 天,那么需要大约 40 ExaOps 才能完成。这比单个推理所需的计算量多 4000 万倍。


鉴于极高的处理要求,更不用说训练的数据存储和通信要求,数据中心基础设施显然是进行训练处理的最佳场所。


有了训练和推理之间明确的二分法,我们必须考虑对两种应用程序使用相同的技术是否有意义。


针对不同问题的不同解决方案

在最近的白皮书 [4] 中,Omdia 的 Alexander Harrowell 指出:“AI 模型训练是高度计算密集型的,还需要完全通用的可编程性。因此,它是高性能图形处理单元 (GPU) 的领域,与高带宽内存和强大的 CPU 相结合。这表明,部署用于训练推理工作负载的相同硬件可能意味着为推理机过度配置加速器和 CPU 硬件。”


在同一份报告中,Harrowell 先生估计,到 2026 年,边缘和数据中心解决方案技术方法将出现非常明显的差异,基于 GPU 的解决方案将继续在数据中心领先,而定制 AI ASIC 则在边缘占据主导地位。



随着用于解决方案开发的 ML 方法的激增,开发人员必须认识到,过去十年中不断发展以创建 ML 技术的工具和技术,主要是基于 GPU 的解决方案,将不是部署的最佳解决方案,这一点非常重要。批量 ML 推理技术。过去几十年推动半导体技术极端专业化的压力,将推动边缘应用的高效高性能推理处理。


边缘推理加速器与专为训练和模型开发而设计的 GPU 解决方案截然不同的原因有很多。下表将经常用于边缘推理应用的 NVIDIA Jetson AGX 与 Flex Logix X1 推理加速器进行了比较。很明显,与基于 GPU 的 AGX 解决方案相比,X1 能够提供更低的功耗、更低的成本和更高的效率,同时仍然为推理应用程序提供令人信服的性能水平。




软件和工具需求差异

ML 训练和推理之间的最后一个重要区别点与软件环境有关。在模型开发培训和测试中,当今使用了许多方法。其中包括流行的库(例如用于 NVIDIA GPU 的 CUDA、机器学习框架(例如 TensorFlow 和 PyTorch)、优化的跨平台模型库(例如 Keras)等等。这些工具集对于 ML 模型的开发和训练至关重要,但在推理应用程序方面,需要的软件工具集大为不同且规模较小。推理工具集专注于在目标平台上运行模型。推理工具支持将经过训练的模型移植到平台。这可能包括一些运算符转换、量化和主机集成服务,


推理工具受益于从模型的标准表示开始。开放神经网络交换 (ONNX) 是表示 ML 模型的标准格式。顾名思义,它是一个开放标准,并作为 Linux 基金会项目进行管理。ONNX 等技术允许将训练和推理系统解耦,并为开发人员提供选择最佳训练和推理平台的自由。



结论

随着机器学习方法在边缘和嵌入式系统中得到更广泛的采用,边缘 AI ASIC 技术的使用将会越来越多,这些技术比基于 GPU 的解决方案提供更高效和更具成本效益的性能。ONNX 等技术的出现使得采用特定于推理的模型解决方案变得更加容易,因为它们提供了一条将 ML 训练和测试任务与 ML 推理任务完全分开的途径。


希望部署 AI 技术的公司应该评估推理的最佳解决方案,而不是假设所有 AI 解决方案都最好在 GPU 设备上实施。


免责声明:本文为网络转载文章,转载此文目的在于传播相关资讯知识,版权归原作者所有,如涉及侵权,请联系小编删除(联系邮箱:service@eetrend.com )。




FPGA开发圈 这里介绍、交流、有关FPGA开发资料(文档下载,技术解答等),提升FPGA应用能力。
评论
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 111浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 87浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 94浏览
  • 职场是人生的重要战场,既是谋生之地,也是实现个人价值的平台。然而,有些思维方式却会悄无声息地拖住你的后腿,让你原地踏步甚至退步。今天,我们就来聊聊职场中最忌讳的五种思维方式,看看自己有没有中招。1. 固步自封的思维在职场中,最可怕的事情莫过于自满于现状,拒绝学习和改变。世界在不断变化,行业的趋势、技术的革新都在要求我们与时俱进。如果你总觉得自己的方法最优,或者害怕尝试新事物,那就很容易被淘汰。与其等待机会找上门,不如主动出击,保持学习和探索的心态。加入优思学院,可以帮助你快速提升自己,与行业前沿
    优思学院 2025-01-09 15:48 68浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 73浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 80浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 74浏览
  • 在当前人工智能(AI)与物联网(IoT)的快速发展趋势下,各行各业的数字转型与自动化进程正以惊人的速度持续进行。如今企业在设计与营运技术系统时所面临的挑战不仅是技术本身,更包含硬件设施、第三方软件及配件等复杂的外部因素。然而这些系统往往讲究更精密的设计与高稳定性,哪怕是任何一个小小的问题,都可能对整体业务运作造成严重影响。 POS应用环境与客户需求以本次分享的客户个案为例,该客户是一家全球领先的信息技术服务与数字解决方案提供商,遭遇到一个由他们所开发的POS机(Point of Sal
    百佳泰测试实验室 2025-01-09 17:35 78浏览
  • HDMI 2.2 规格将至,开启视听新境界2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新HDMI规范为规模庞大的 HDMI 生态系统带来更多选择,为创建、分发和体验理想的终端用户效果提供更先进的解决方案。新技术为电视、电影和游戏工作室等内容制作商在当前和未来提供更高质量的选择,同时实现多种分发平台。96Gbps的更高带宽和新一代 HDMI 固定比率速率传输(Fixed Rate Link)技术为各种设备应用提供更优质的音频和视频。终端用户显示器能以最
    百佳泰测试实验室 2025-01-09 17:33 84浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 59浏览
  • 1月7日-10日,2025年国际消费电子产品展览会(CES 2025)盛大举行,广和通发布Fibocom AI Stack,赋智千行百业端侧应用。Fibocom AI Stack提供集高性能模组、AI工具链、高性能推理引擎、海量模型、支持与服务一体化的端侧AI解决方案,帮助智能设备快速实现AI能力商用。为适应不同端侧场景的应用,AI Stack具备海量端侧AI模型及行业端侧模型,基于不同等级算力的芯片平台或模组,Fibocom AI Stack可将TensorFlow、PyTorch、ONNX、
    物吾悟小通 2025-01-08 18:17 72浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦