AWS不用英伟达GPU,打造与众不同的超级计算机

原创 汽车电子设计 2024-12-12 07:59
芝能智芯出品


AWS 通过推出自主研发的 Trainium2 处理器和基于其的 ExaFLOPS 超级计算机,开辟了一条与众不同的 AI 路径。


Trainium2 提供高达 1.3 FP8 PetaFLOPS 的性能,支持大规模生成式 AI 模型训练和推理。基于 Trainium2 的超大规模集群,AWS 迈向 130 FP8 ExaFLOPS 的计算能力,直接挑战 Nvidia GPU 的主导地位。与此同时,AWS 宣布即将推出性能提升四倍的 Trainium3 芯片。


这一趋势表明,自研 AI 加速器正逐渐成为云计算巨头优化成本和性能的核心竞争力。




Part 1

AWS Trainium2 与 ExaFLOPS 
技术解析与趋势洞察



● Trainium2 作为亚马逊的第二代 AI 加速器,展现出了独特的架构设计与强大的性能表现。


 其采用多块系统级封装,包含两个计算块、使用四个堆栈的 96GB HBM3 内存以及两个静态芯片组以确保封装一致性。


 在计算核心方面,由少量大型 NeuronCore 组成,这种设计与传统 GPU 使用大量较小张量核心形成鲜明对比,大型核心在处理生成式 AI 工作负载时能够有效减少控制开销。



● 每个 NeuronCore 内部集成了张量引擎、矢量引擎、标量引擎和 GPSIMD 引擎,各司其职协同工作。


 张量引擎作为核心计算单元,以 128×128 脉动阵列的形式,从 SRAM 缓冲区收集输入并输出结果到部分和 SRAM 缓冲区,承担了现代 LLM 工作负载中 80%以上的功率和 FLOPS 消耗。


 矢量引擎专注于加速矢量运算,如在注意层中计算 softmax 或在层/批处理规范化层中计算移动平均值和方差时发挥重要作用;


 标量引擎则用于执行元素级操作等简单映射操作;


 而 GPSIMD 引擎具备图灵完备性,可运行任意 C++代码,方便开发人员快速实现自定义操作。


Trainium2 还创新性地配备了专用的集体通信核心,专门用于与其他芯片通信,实现了计算通信重叠且避免了资源争用。


这一设计相较于 Nvidia 和 AMD GPU 在通信与计算资源共享同一核心的模式具有显著优势,大大降低了用户在平衡通信与计算操作时的复杂性。



Trainium2 由 Annapurna Labs 设计,专为支持大规模生成式 AI 模型(如大型语言模型 LLM 和基础模型 FM)设计。


● 具备以下特点:


 计算能力:每颗芯片提供 1.3 FP8 PetaFLOPS 性能,支持 BF16 和 FP8 精度。


 存储性能:搭载 96GB HBM3,提供高达 46 TB/s 的带宽。


 扩展性:通过 NeuronLink 网络实现多芯片互连,支持多达 64 芯片的服务器配置,并扩展到超大规模集群。


● ExaFLOPS 级超级计算机的构建与意义



ExaFLOPS(百亿亿次浮点运算每秒)代表了当前 AI 超级计算的顶级性能。AWS 基于数十万个 Trainium2 构建的 Rainier 项目,将实现 130 FP8 ExaFLOPS,这一性能级别相当于约 32,768 块 Nvidia H100 GPU 的总和。


通过将大量 Trainium2 处理器进行组合,如在 EC2 Trn2 UltraServer 中采用 64 个互连的 Trainium2 芯片,实现了高达 83.2 FP8 PetaFLOPS 的性能以及 6 TB 的 HBM3 内存,峰值带宽达到 185 TB/s,并借助 12.8 Tb/s Elastic Fabric Adapter (EFA) 网络进行互连,代号为“Rainier 项目”的 EC2 UltraCluster 更是由数十万个 Trainium2 处理器驱动,预计可提供约 130 FP8 ExaFLOPS 的超强性能。



如此强大的计算能力为大规模 AI 模型的训练和推理提供了坚实的基础。在当今 AI 领域,随着模型参数数量呈指数级增长,如 GPT-4 等模型已经拥有数万亿参数,对计算资源的需求也随之急剧攀升。


ExaFLOPS 级超级计算机的出现,使得研究人员能够在更短的时间内训练出更加复杂、精准的 AI 模型,加速了 AI 技术在自然语言处理、计算机视觉、推荐系统等众多领域的创新与应用进程,推动了整个 AI 行业从理论研究向实际大规模应用的跨越。


● 行业趋势驱动因素



基础模型和大型语言模型的快速发展使得模型参数数量不断逼近数万亿级别。这种复杂度的提升对计算资源提出了前所未有的挑战,传统的计算架构难以满足大规模模型训练和推理所需的海量计算需求。


例如,在训练 GPT-4 这样的超大型模型时,需要耗费巨大的计算资源和漫长的时间,促使企业寻求更强大、更高效的计算解决方案,这成为了 AWS 研发 Trainium2 处理器并构建 ExaFLOPS 级超级计算机的主要驱动力之一。


在大规模 AI 计算场景中,成本和能源效率成为了关键因素。AWS 通过自研 Trainium2 处理器,旨在实现更高的性价比和能源效率。


Trainium2 在设计上针对 AI 工作负载进行了优化,例如采用相对较低的算术强度设计,以适应由于 ML 研究进展导致模型算术强度增长较慢的趋势,如混合专家模型(MoE)中分组 GEMM 对内存带宽需求较大的情况,通过优化芯片架构和系统集成,AWS 期望在提供强大计算能力的同时,降低训练和部署 AI 模型的总体成本,提高能源利用效率,以满足企业在大规模 AI 应用中的经济和环保需求。



在全球科技竞争日益激烈的背景下,企业对于关键技术的自主可控性愈发重视。


AWS 作为全球领先的云计算服务提供商,通过自主研发 Trainium2 处理器,减少了对外部供应商(如 Nvidia)的依赖,实现了在 AI 芯片领域的自主可控,有助于保障其云计算服务的稳定性和安全性。


还能够根据自身对市场需求的理解和技术发展趋势的判断,灵活地进行芯片技术的迭代和创新,形成独特的技术差异化优势。


Trainium2 的扩展网络 NeuronLink 采用与 Nvidia NVLink 不同的拓扑结构,更接近于 TPU 类拓扑,通过点对点连接实现了特定的扩展功能,为用户提供了另一种选择,满足了不同用户在 AI 计算架构上的多样化需求。



Part 2

技术拓展与 AWS 的战略布局


AWS 的这一举措将对 AI 基础设施市场格局产生深远的影响,在芯片层面,Trainium2 处理器的出现打破了 Nvidia 在高性能 AI 芯片领域的长期主导地位,为市场引入了新的竞争力量。


随着 AWS 不断优化和推广 Trainium2 及其后续产品,其他云计算服务提供商和企业可能会重新审视其芯片采购策略,考虑采用更多样化的芯片解决方案,以避免过度依赖单一供应商。


这将促使芯片市场竞争更加激烈,推动各芯片制造商加大研发投入,加速技术创新,从而降低芯片成本,提高性能和能效。



在超级计算机领域,AWS 基于 Trainium2 构建的 ExaFLOPS 级超级计算机为企业和研究机构提供了一种全新的、可替代传统 GPU 集群的高性能计算选择。


这种大规模、低成本、高效率的超级计算机将吸引更多用户将其 AI 工作负载迁移到 AWS 平台,改变当前 AI 超级计算机市场的份额分布。


于那些正在计划构建或扩展其 AI 基础设施的企业来说,AWS 的方案可能会成为一个极具吸引力的选项,从而影响整个 AI 基础设施建设的市场走向,推动行业朝着多元化、高性能、低成本的方向发展。



为了巩固其在 AI 领域的竞争优势,AWS 将继续沿着自主创新的道路前行,在芯片技术研发上,AWS 已经推出了 Trainium3 处理器,该处理器采用台积电 3nm 级制程工艺制造,预计 2025 年面向客户上市。Trainium3 的性能将是 Trainium2 的四倍,这将进一步提升 AWS 在 AI 芯片性能方面的竞争力。


AWS 可能会继续加大在芯片研发上的投入,探索新的架构设计、制程工艺优化以及与其他技术(如量子计算、光子计算等新兴技术)的融合可能性,以保持其在 AI 芯片技术前沿的地位。


AWS 将充分利用其全球领先的云计算服务平台优势,将 Trainium 系列处理器与其他 AWS 服务(如 Amazon S3 存储服务、Amazon EC2 弹性计算服务等)进行深度整合,为用户提供一站式的 AI 解决方案。


例如,通过优化 Trainium 与 Amazon S3 之间的数据传输通道,实现更快的数据加载和存储,提高整个 AI 工作流程的效率。


此外,AWS 还将加强与合作伙伴的合作关系,包括 AI 软件开发商、系统集成商、企业客户等,共同探索 Trainium 系列处理器在不同行业和应用场景中的最佳实践,拓展其市场应用范围。


例如,与 AI 软件开发商合作优化深度学习框架对 Trainium 处理器的支持,与企业客户合作开发特定行业的 AI 应用解决方案,如医疗保健领域的疾病诊断辅助系统、金融领域的风险预测模型等,从而进一步扩大 Trainium 系列处理器在全球市场的影响力和占有率。



小结


AWS 利用 Trainium2 处理器构建 ExaFLOPS 级超级计算机无疑是 AI 领域的一项重大战略布局,其对技术创新、行业趋势以及市场格局的影响深远而持久。


AWS 在满足 AI 计算需求日益增长的背景下,对成本、能效和自主可控性的深度考量与战略追求,推动了 AI 基础设施朝着多元化、高性能、低成本的方向发展。 



汽车电子设计 本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁
评论
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 91浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 93浏览
  • 在智能化技术快速发展当下,图像数据的采集与处理逐渐成为自动驾驶、工业等领域的一项关键技术。高质量的图像数据采集与算法集成测试都是确保系统性能和可靠性的关键。随着技术的不断进步,对于图像数据的采集、处理和分析的需求日益增长,这不仅要求我们拥有高性能的相机硬件,还要求我们能够高效地集成和测试各种算法。我们探索了一种多源相机数据采集与算法集成测试方案,能够满足不同应用场景下对图像采集和算法测试的多样化需求,确保数据的准确性和算法的有效性。一、相机组成相机一般由镜头(Lens),图像传感器(Image
    康谋 2024-12-12 09:45 36浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 78浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 96浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 110浏览
  • 首先在gitee上打个广告:ad5d2f3b647444a88b6f7f9555fd681f.mp4 · 丙丁先生/香河英茂工作室中国 - Gitee.com丙丁先生 (mr-bingding) - Gitee.com2024年对我来说是充满挑战和机遇的一年。在这一年里,我不仅进行了多个开发板的测评,还尝试了多种不同的项目和技术。今天,我想分享一下这一年的故事,希望能给大家带来一些启发和乐趣。 年初的时候,我开始对各种开发板进行测评。从STM32WBA55CG到瑞萨、平头哥和平海的开发板,我都
    丙丁先生 2024-12-11 20:14 37浏览
  • 铁氧体芯片是一种基于铁氧体磁性材料制成的芯片,在通信、传感器、储能等领域有着广泛的应用。铁氧体磁性材料能够通过外加磁场调控其导电性质和反射性质,因此在信号处理和传感器技术方面有着独特的优势。以下是对半导体划片机在铁氧体划切领域应用的详细阐述: 一、半导体划片机的工作原理与特点半导体划片机是一种使用刀片或通过激光等方式高精度切割被加工物的装置,是半导体后道封测中晶圆切割和WLP切割环节的关键设备。它结合了水气电、空气静压高速主轴、精密机械传动、传感器及自动化控制等先进技术,具有高精度、高
    博捷芯划片机 2024-12-12 09:16 43浏览
  • 近日,搭载紫光展锐W517芯片平台的INMO GO2由影目科技正式推出。作为全球首款专为商务场景设计的智能翻译眼镜,INMO GO2 以“快、准、稳”三大核心优势,突破传统翻译产品局限,为全球商务人士带来高效、自然、稳定的跨语言交流体验。 INMO GO2内置的W517芯片,是紫光展锐4G旗舰级智能穿戴平台,采用四核处理器,具有高性能、低功耗的优势,内置超微高集成技术,采用先进工艺,计算能力相比同档位竞品提升4倍,强大的性能提供更加多样化的应用场景。【视频见P盘链接】 依托“
    紫光展锐 2024-12-11 11:50 53浏览
  • 智能汽车可替换LED前照灯控制运行的原理涉及多个方面,包括自适应前照灯系统(AFS)的工作原理、传感器的应用、步进电机的控制以及模糊控制策略等。当下时代的智能汽车灯光控制系统通过车载网关控制单元集中控制,表现特殊点的有特斯拉,仅通过前车身控制器,整个系统就包括了灯光旋转开关、车灯变光开关、左LED前照灯总成、右LED前照灯总成、转向柱电子控制单元、CAN数据总线接口、组合仪表控制单元、车载网关控制单元等器件。变光开关、转向开关和辅助操作系统一般连为一体,开关之间通过内部线束和转向柱装置连接为多,
    lauguo2013 2024-12-10 15:53 90浏览
  • 天问Block和Mixly是两个不同的编程工具,分别在单片机开发和教育编程领域有各自的应用。以下是对它们的详细比较: 基本定义 天问Block:天问Block是一个基于区块链技术的数字身份验证和数据交换平台。它的目标是为用户提供一个安全、去中心化、可信任的数字身份验证和数据交换解决方案。 Mixly:Mixly是一款由北京师范大学教育学部创客教育实验室开发的图形化编程软件,旨在为初学者提供一个易于学习和使用的Arduino编程环境。 主要功能 天问Block:支持STC全系列8位单片机,32位
    丙丁先生 2024-12-11 13:15 51浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 146浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-11 17:58 48浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦