采用创新的FPGA器件来实现更经济且更高能效的大模型推理解决方案-电子工程专辑

 本文根据完整的基准测试，将Achronix Semiconductor公司推出的Speedster7t FPGA与GPU解决方案进行比较，在运行同一个Llama2 70B参数模型时，该项基于FPGA的解决方案实现了超越性的LLM推理处理。

采用 FPGA 器件来加速LLM 性能，在运行 Llama2 70B 参数模型时，Speedster7t FPGA 如何与 GPU 解决方案相媲美？证据是令人信服的——Achronix Speedster7t FPGA通过提供计算能力、内存带宽和卓越能效的最佳组合，在处理大型语言模型（LLM）方面表现出色，这是当今LLM复杂需求的基本要求。

像 Llama2 这样的 LLM 的快速发展正在为自然语言处理（NLP）开辟一条新路线，有望提供比以往任何时候都更像人类的交互和理解。这些复杂的 LLM 是创新的催化剂，推动了对先进硬件解决方案的需求，以满足其密集处理需求。

我们的基准测试突出了 Speedster7t 系列处理 Llama2 70B 模型复杂性的能力，重点关注 FPGA 和 LLM 性能。这些测试（可根据要求提供结果）显示了Achronix FPGA对于希望将LLM的强大功能用于其NLP应用程序的开发人员和企业的潜力。这些基准测试展示了 Speedster7t FPGA 如何超越市场，提供无与伦比的性能，同时降低运营成本和环境影响。

Llama2 70B LLM 运行在 Speedster7t FPGA 上

2023 年 7 月，Microsoft 和 Meta 推出了他们的开源 LLM，Llama2 开创了 AI 驱动语言处理的新先例。Llama2 采用多种配置设计，以满足各种计算需求，包括 700 亿、130 亿和 700 亿个参数，使其处于 LLM 创新的最前沿。Achronix和我们的合作伙伴 Myrtle.ai 对700亿参数的Llama2模型进行了深入的基准分析，展示了使用Speedster7t FPGA进行LLM加速的优势。

基准测试结果：Speedster7t FPGA 与业界领先的 GPU 对比

我们在 Speedster7t FPGA 上测试了 Llama2 70B 模型的推理性能，并将其与领先的 GPU 进行了比较。该基准测试是通过对输入、输出序列长度（1,128）和批处理大小 =1 进行建模来完成的。结果表明，Speedster7t AC7t1500在LLM处理中的有效性。

FPGA 成本基于由 Speedster7t FPGA 提供支持的 VectorPath 加速卡的标价。同样，我们在此分析中使用了可比GPU卡的标价。使用这些成本信息和每秒产生的输出令牌数量，我们计算出基于 FPGA 的解决方案的 $/token 提高了 200%。除了成本优势外，在比较 FPGA 和 GPU 卡的相对功耗时，我们观察到与基于 GPU 的解决方案相比，产生的 kWh/token 提高了 200%。这些优势表明 FPGA 如何成为一种经济且能效高效的 LLM 解决方案。

面向 LLM 的 FPGA：Speedster7t 的优势

Achronix Speedster7t系列FPGA旨在优化LLM操作，平衡LLM硬件的关键要求，包括：

高性能计算 – 具有高性能计算能力的尖端硬件对于管理 LLM 推理核心的复杂矩阵计算至关重要。

高带宽内存 – 高效的 LLM 推理依赖于高带宽内存，通过模型的网络参数快速馈送数据，而不会出现瓶颈。

扩展和适应能力 – 现代 LLM 推理需要能够随着模型规模的增长而扩展并灵活适应 LLM 架构的持续进步的硬件。

高能效处理 – 可持续的 LLM 推理需要硬件能够最大限度地提高计算输出，同时最大限度地降低能耗，从而降低运营成本和环境影响。

Speedster7t FPGA 提供以下功能，以应对实施现代 LLM 处理解决方案的挑战：

计算性能 – 通过其灵活的机器学习处理器（MLP）模块支持复杂的 LLM 任务。

高 GDDR6 DRAM 带宽 – 确保以 4 Tbps 的内存带宽快速处理大型 LLM 数据集。

大量的 GDDR6 DRAM 容量 – 可容纳 Llama2 等扩展的 LLM，每个 FPGA 的容量为 32 GB。

用于 LLM 的集成 SRAM – 提供低延迟、高带宽的存储，具有 190 Mb 的 SRAM，非常适合存储激活和模型权重。

多种本机数字格式 – 适应 LLM 需求，支持块浮点（BFP）、FP16、bfloat16 等。

高效的片上数据传输 – 2D NoC 超过 20 Tbps，简化片上数据流量。

扩展横向扩展带宽 – 支持多达32个112 Gbps SerDes 满足 LLM 需求，增强连接性。

自适应逻辑级可编程性 – 使用 690K 6 输入 LUT 为 LLM 的快速发展做好准备。

针对 LLM 推理优化的 FPGA

在快速变化的人工智能和自然语言处理领域，使用 FPGA 而不是 GPU 来加速 LLM 是一个相当新的想法。该基准测试展示了设计人员如何从使用Achronix的FPGA技术中受益。Achronix Speedster7t系列FPGA是这一变化的关键技术，在高性能、高带宽存储器、易于扩展和电源效率之间实现了出色的平衡。

基于详细的基准分析，将 Speedster7t FPGA 与领先的 GPU 在处理 Llama2 70B 模型方面的能力进行比较，结果表明 Speedster7t FPGA 能够提供高水平的性能，同时大大降低运营成本和环境影响，突出了它在未来 LLM 创建和使用中的重要作用。

如果希望进一步了解如何使用FPGA器件来加速您的LLM程序，以及 FPGA 加速 LLM 解决方案的未来发展机遇，请联系Achronix，获取详细的基准测试结果，并帮助您确定Achronix FPGA技术如何加速您的LLM设计。

阅读全文，请先

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

FPGAs/PLDs 处理器/DSP 人工智能技术文章

返回列表

上一篇： 折叠屏手机出货量缓步爬升，预计2028年市场渗透率接近5% 下一篇： 全球前十大晶圆代工厂排名，中芯国际跃升至第三

苹果2021 iPad Pro迭代2022款:玻璃背板、反向无线充电、MagSaf 2022的iPad Pro可能会包含玻璃背板，MagSafe电源和反向无线充电。以及重新设计的 iPad mini 和更薄的入门级机型.
AMOLED 面板销售预测,苹果将取消触控栏Touch Bar（第三大OLED产品， Touch Bar第三方应用适配的太少了，只有少数应用适配难以形成用户习惯，同时还额外增加成本，这跟当年的3D Touch一样，用的少了就被取消了
知乎喷子嘲讽鸿蒙OS，专业人士表示华为对Linux贡献极高知乎上对鸿蒙OS的嘲讽看得让人难受，主要是嘲讽特别外行，不知道说啥好。程序员大佬澄清：华为对Linux贡献数一数二。
理想汽车L2辅助驾驶追尾，A柱折断，官方回应来了 10月15日，理想汽车官方正式对9月22日青岛ONE追尾事故作出说明。事故中，理想ONE的“辅助驾驶”开启、却未识别到正在向左变道的大货车，从而未及时做出减速或警告，此“缺陷”被车主认为是此次事故的主要问题源头。
三星蓝色QLED技术发光效率提升20%，技术原理是什么？近日据韩媒报道，三星已经成功开发出蓝色QLED技术（量子点显示技术），提高了20.2%的发光效率，可实现88900尼特的最大亮度和16000个小时的QLED寿命。
小米11手机爆料：首发骁龙875处理器，双曲面屏+方形五摄数码博主抢先晒出了据称是小米11 Pro的外观概念渲染图，据称小米11手机有望首发骁龙875处理器，正面为双曲面屏设计，有望搭载屏下摄像头技术，亮屏后极具视觉冲击力，而机身背部，该机则有望后置方形五摄相机模组，其中有一枚是潜望式镜头。
华为Mate 40系列预告片出炉，高清渲染图遭曝光华为Mate 40 系列何时发布呢？今天官方也是放出了新机的全新预告片。从华为手机今天放出的新预告来看，他们今天突出史上最强大Mate的一个主题“触动，无需触碰。”爆料人士Roland Quandt带来了华为Mate 40 Pro的高清渲染图。华为Mate 40 Pro采用6.76英寸OLED双曲面屏，屏幕形态为双挖孔。
黄章卸任珠海魅族科技有限公司董事长，沈子瑜接任 7月4日，珠海市魅族科技有限公司发生工商变更，董事长由黄秀章（黄章）变更为沈子瑜，法定代表人由黄质潘变更为沈子瑜。
苹果iOS 15系统正式版升级推送时间9月20日,功能汇总15点苹果iPhone13系列已发布，iOS15正式版推送更新时间也定于9月20日。iOS15主要升级点是系统自带的iMessage和Facetime加入了更多新功能，同时系统界面的设计有一定变化，更加圆润化。
三星发布新手机Galaxy A42 5G上市价格实惠,配骁龙 750G 值得入手三星出新手机了，Galaxy A42 5G版你是否需要去购买？新上市价格是349 英镑（约 3070 元RMB），Galaxy A42 5G性能配置怎样昵？骁龙 750G 中端芯片组+OLED 屏+前置 20MP 单摄、后置 48MP 主摄 + 8MP 超广角 + 5MP 微距 + 5MP 深度传感器

2024过去了，细数中国工业经济这一年这一年的成绩单足够亮眼，但来之不易。
功得电子再获2025精品奖　以创新技术与永续承诺引领安全新标竿功得电子以“确保各类电子设备安全运行”为核心使命，服务领域涵盖电动车、AI与数据中心、医疗保健、电信、通讯及可再生能源等产业。
Vision Pro重塑VR/MR市场格局，应用领域从视听娱乐向多元生产力工 2024年VR与MR头戴装置出货量约为960万台，年增8.8%。全年出货情况反映出市场三个主要趋势：一是低价产品成主流；二是应用从娱乐扩展至多元生产力工具；三是OLEDoS成为高端近眼显示产品技术首选。未来几年这三大趋势将持续影响全球VR与MR产业生态发展......
因高世代面板产线建设推动，预计2027年OLED笔电渗透率将超过5% 尽管预估2025年的增速有限，但随着苹果计划在MacBook系列中导入OLED显示技术，预计将带动2026年底面板厂OLED高世代产线投入营运，从而推升2027年OLED笔电渗透率突破5%......
GB200机柜供应链仍需时间优化，预计出货高峰将延至2Q25至3Q25之间由于GB200 Rack在高速互通界面、热设计功耗（TDP）等设计规格皆明显高于市场主流，供应链业者需要更多时间持续调校、优化，预期最快将于2025年第二季后才有机会放量......
IDC 2023年中国协作机器人市场份额报告发布协作机器人是指能够与人类在共同工作空间进行互动和协同作业的机器人，从产品形态来看，由协作机器人本体（多关节机械手或多自由度的机器装置）及控制系统组成……
“一碰交互，共触未来”ITMA峰会盛大开启近场交互新生态目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。
中科院微电子所在忆阻神经-模糊硬件及应用探索方面取得新进展中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
汽车行业云基建向智算换代升级，汽车云市场稳定增长自动驾驶技术向端到端演进，车企对于高阶智能算力的需求快速提升，智能算力规模从百PFLOPS向千PFLOPS演进。
新蓝牙6.0协议扩展应用范围芯科科技蓝牙产品经理Parker Dorris通过本文讨论了蓝牙6.0（Bluetooth 6.0）版本中添加的最新功能。

热门评论
最新评论

换一换

采用创新的FPGA器件来实现更经济且更高能效的大模型推理解决方案

Llama2 70B LLM 运行在 Speedster7t FPGA 上

基准测试结果：Speedster7t FPGA 与业界领先的 GPU 对比

面向 LLM 的 FPGA：Speedster7t 的优势

针对 LLM 推理优化的 FPGA

杂志声明