AWS不用英伟达GPU,打造与众不同的超级计算机

原创 汽车电子设计 2024-12-12 07:59
芝能智芯出品


AWS 通过推出自主研发的 Trainium2 处理器和基于其的 ExaFLOPS 超级计算机,开辟了一条与众不同的 AI 路径。


Trainium2 提供高达 1.3 FP8 PetaFLOPS 的性能,支持大规模生成式 AI 模型训练和推理。基于 Trainium2 的超大规模集群,AWS 迈向 130 FP8 ExaFLOPS 的计算能力,直接挑战 Nvidia GPU 的主导地位。与此同时,AWS 宣布即将推出性能提升四倍的 Trainium3 芯片。


这一趋势表明,自研 AI 加速器正逐渐成为云计算巨头优化成本和性能的核心竞争力。




Part 1

AWS Trainium2 与 ExaFLOPS 
技术解析与趋势洞察



● Trainium2 作为亚马逊的第二代 AI 加速器,展现出了独特的架构设计与强大的性能表现。


 其采用多块系统级封装,包含两个计算块、使用四个堆栈的 96GB HBM3 内存以及两个静态芯片组以确保封装一致性。


 在计算核心方面,由少量大型 NeuronCore 组成,这种设计与传统 GPU 使用大量较小张量核心形成鲜明对比,大型核心在处理生成式 AI 工作负载时能够有效减少控制开销。



● 每个 NeuronCore 内部集成了张量引擎、矢量引擎、标量引擎和 GPSIMD 引擎,各司其职协同工作。


 张量引擎作为核心计算单元,以 128×128 脉动阵列的形式,从 SRAM 缓冲区收集输入并输出结果到部分和 SRAM 缓冲区,承担了现代 LLM 工作负载中 80%以上的功率和 FLOPS 消耗。


 矢量引擎专注于加速矢量运算,如在注意层中计算 softmax 或在层/批处理规范化层中计算移动平均值和方差时发挥重要作用;


 标量引擎则用于执行元素级操作等简单映射操作;


 而 GPSIMD 引擎具备图灵完备性,可运行任意 C++代码,方便开发人员快速实现自定义操作。


Trainium2 还创新性地配备了专用的集体通信核心,专门用于与其他芯片通信,实现了计算通信重叠且避免了资源争用。


这一设计相较于 Nvidia 和 AMD GPU 在通信与计算资源共享同一核心的模式具有显著优势,大大降低了用户在平衡通信与计算操作时的复杂性。



Trainium2 由 Annapurna Labs 设计,专为支持大规模生成式 AI 模型(如大型语言模型 LLM 和基础模型 FM)设计。


● 具备以下特点:


 计算能力:每颗芯片提供 1.3 FP8 PetaFLOPS 性能,支持 BF16 和 FP8 精度。


 存储性能:搭载 96GB HBM3,提供高达 46 TB/s 的带宽。


 扩展性:通过 NeuronLink 网络实现多芯片互连,支持多达 64 芯片的服务器配置,并扩展到超大规模集群。


● ExaFLOPS 级超级计算机的构建与意义



ExaFLOPS(百亿亿次浮点运算每秒)代表了当前 AI 超级计算的顶级性能。AWS 基于数十万个 Trainium2 构建的 Rainier 项目,将实现 130 FP8 ExaFLOPS,这一性能级别相当于约 32,768 块 Nvidia H100 GPU 的总和。


通过将大量 Trainium2 处理器进行组合,如在 EC2 Trn2 UltraServer 中采用 64 个互连的 Trainium2 芯片,实现了高达 83.2 FP8 PetaFLOPS 的性能以及 6 TB 的 HBM3 内存,峰值带宽达到 185 TB/s,并借助 12.8 Tb/s Elastic Fabric Adapter (EFA) 网络进行互连,代号为“Rainier 项目”的 EC2 UltraCluster 更是由数十万个 Trainium2 处理器驱动,预计可提供约 130 FP8 ExaFLOPS 的超强性能。



如此强大的计算能力为大规模 AI 模型的训练和推理提供了坚实的基础。在当今 AI 领域,随着模型参数数量呈指数级增长,如 GPT-4 等模型已经拥有数万亿参数,对计算资源的需求也随之急剧攀升。


ExaFLOPS 级超级计算机的出现,使得研究人员能够在更短的时间内训练出更加复杂、精准的 AI 模型,加速了 AI 技术在自然语言处理、计算机视觉、推荐系统等众多领域的创新与应用进程,推动了整个 AI 行业从理论研究向实际大规模应用的跨越。


● 行业趋势驱动因素



基础模型和大型语言模型的快速发展使得模型参数数量不断逼近数万亿级别。这种复杂度的提升对计算资源提出了前所未有的挑战,传统的计算架构难以满足大规模模型训练和推理所需的海量计算需求。


例如,在训练 GPT-4 这样的超大型模型时,需要耗费巨大的计算资源和漫长的时间,促使企业寻求更强大、更高效的计算解决方案,这成为了 AWS 研发 Trainium2 处理器并构建 ExaFLOPS 级超级计算机的主要驱动力之一。


在大规模 AI 计算场景中,成本和能源效率成为了关键因素。AWS 通过自研 Trainium2 处理器,旨在实现更高的性价比和能源效率。


Trainium2 在设计上针对 AI 工作负载进行了优化,例如采用相对较低的算术强度设计,以适应由于 ML 研究进展导致模型算术强度增长较慢的趋势,如混合专家模型(MoE)中分组 GEMM 对内存带宽需求较大的情况,通过优化芯片架构和系统集成,AWS 期望在提供强大计算能力的同时,降低训练和部署 AI 模型的总体成本,提高能源利用效率,以满足企业在大规模 AI 应用中的经济和环保需求。



在全球科技竞争日益激烈的背景下,企业对于关键技术的自主可控性愈发重视。


AWS 作为全球领先的云计算服务提供商,通过自主研发 Trainium2 处理器,减少了对外部供应商(如 Nvidia)的依赖,实现了在 AI 芯片领域的自主可控,有助于保障其云计算服务的稳定性和安全性。


还能够根据自身对市场需求的理解和技术发展趋势的判断,灵活地进行芯片技术的迭代和创新,形成独特的技术差异化优势。


Trainium2 的扩展网络 NeuronLink 采用与 Nvidia NVLink 不同的拓扑结构,更接近于 TPU 类拓扑,通过点对点连接实现了特定的扩展功能,为用户提供了另一种选择,满足了不同用户在 AI 计算架构上的多样化需求。



Part 2

技术拓展与 AWS 的战略布局


AWS 的这一举措将对 AI 基础设施市场格局产生深远的影响,在芯片层面,Trainium2 处理器的出现打破了 Nvidia 在高性能 AI 芯片领域的长期主导地位,为市场引入了新的竞争力量。


随着 AWS 不断优化和推广 Trainium2 及其后续产品,其他云计算服务提供商和企业可能会重新审视其芯片采购策略,考虑采用更多样化的芯片解决方案,以避免过度依赖单一供应商。


这将促使芯片市场竞争更加激烈,推动各芯片制造商加大研发投入,加速技术创新,从而降低芯片成本,提高性能和能效。



在超级计算机领域,AWS 基于 Trainium2 构建的 ExaFLOPS 级超级计算机为企业和研究机构提供了一种全新的、可替代传统 GPU 集群的高性能计算选择。


这种大规模、低成本、高效率的超级计算机将吸引更多用户将其 AI 工作负载迁移到 AWS 平台,改变当前 AI 超级计算机市场的份额分布。


于那些正在计划构建或扩展其 AI 基础设施的企业来说,AWS 的方案可能会成为一个极具吸引力的选项,从而影响整个 AI 基础设施建设的市场走向,推动行业朝着多元化、高性能、低成本的方向发展。



为了巩固其在 AI 领域的竞争优势,AWS 将继续沿着自主创新的道路前行,在芯片技术研发上,AWS 已经推出了 Trainium3 处理器,该处理器采用台积电 3nm 级制程工艺制造,预计 2025 年面向客户上市。Trainium3 的性能将是 Trainium2 的四倍,这将进一步提升 AWS 在 AI 芯片性能方面的竞争力。


AWS 可能会继续加大在芯片研发上的投入,探索新的架构设计、制程工艺优化以及与其他技术(如量子计算、光子计算等新兴技术)的融合可能性,以保持其在 AI 芯片技术前沿的地位。


AWS 将充分利用其全球领先的云计算服务平台优势,将 Trainium 系列处理器与其他 AWS 服务(如 Amazon S3 存储服务、Amazon EC2 弹性计算服务等)进行深度整合,为用户提供一站式的 AI 解决方案。


例如,通过优化 Trainium 与 Amazon S3 之间的数据传输通道,实现更快的数据加载和存储,提高整个 AI 工作流程的效率。


此外,AWS 还将加强与合作伙伴的合作关系,包括 AI 软件开发商、系统集成商、企业客户等,共同探索 Trainium 系列处理器在不同行业和应用场景中的最佳实践,拓展其市场应用范围。


例如,与 AI 软件开发商合作优化深度学习框架对 Trainium 处理器的支持,与企业客户合作开发特定行业的 AI 应用解决方案,如医疗保健领域的疾病诊断辅助系统、金融领域的风险预测模型等,从而进一步扩大 Trainium 系列处理器在全球市场的影响力和占有率。



小结


AWS 利用 Trainium2 处理器构建 ExaFLOPS 级超级计算机无疑是 AI 领域的一项重大战略布局,其对技术创新、行业趋势以及市场格局的影响深远而持久。


AWS 在满足 AI 计算需求日益增长的背景下,对成本、能效和自主可控性的深度考量与战略追求,推动了 AI 基础设施朝着多元化、高性能、低成本的方向发展。 



汽车电子设计 本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁
评论
  • 近期,智能家居领域Matter标准的制定者,全球最具影响力的科技联盟之一,连接标准联盟(Connectivity Standards Alliance,简称CSA)“利好”频出,不仅为智能家居领域的设备制造商们提供了更为快速便捷的Matter认证流程,而且苹果、三星与谷歌等智能家居平台厂商都表示会接纳CSA的Matter认证体系,并计划将其整合至各自的“Works with”项目中。那么,在本轮“利好”背景下,智能家居的设备制造商们该如何捉住机会,“掘金”万亿市场呢?重认证快通道计划,为家居设备
    华普微HOPERF 2025-01-16 10:22 173浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 107浏览
  • 实用性高值得收藏!! (时源芯微)时源专注于EMC整改与服务,配备完整器件 TVS全称Transient Voltage Suppre,亦称TVS管、瞬态抑制二极管等,有单向和双向之分。单向TVS 一般应用于直流供电电路,双向TVS 应用于电压交变的电路。在直流电路的应用中,TVS被并联接入电路中。在电路处于正常运行状态时,TVS会保持截止状态,从而不对电路的正常工作产生任何影响。然而,一旦电路中出现异常的过电压,并且这个电压达到TVS的击穿阈值时,TVS的状态就会
    时源芯微 2025-01-16 14:23 149浏览
  • 百佳泰特为您整理2025年1月各大Logo的最新规格信息,本月有更新信息的logo有HDMI、Wi-Fi、Bluetooth、DisplayHDR、ClearMR、Intel EVO。HDMI®▶ 2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新规范将支持更高的分辨率和刷新率,并提供更多高质量选项。更快的96Gbps 带宽可满足数据密集型沉浸式和虚拟应用对传输的要求,如 AR/VR/MR、空间现实和光场显示,以及各种商业应用,如大型数字标牌、医疗成像和
    百佳泰测试实验室 2025-01-16 15:41 157浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 123浏览
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,与汽车技术领先者法雷奥合作,采用创新的开放系统协议(OSP)技术,旨在改变汽车内饰照明方式,革新汽车行业座舱照明理念。结合艾迈斯欧司朗开创性的OSIRE® E3731i智能LED和法雷奥的动态环境照明系统,两家公司将为车辆内饰设计和功能设立一套全新标准。汽车内饰照明的作用日益凸显,座舱设计的主流趋势应满足终端用户的需求:即易于使用、个性化,并能提供符合用户生活方式的清晰信息。因此,动态环境照明带来了众多新机遇。智能LED的应用已
    艾迈斯欧司朗 2025-01-15 19:00 78浏览
  • 一个易用且轻量化的UI可以大大提高用户的使用效率和满意度——通过快速启动、直观操作和及时反馈,帮助用户快速上手并高效完成任务;轻量化设计则可以减少资源占用,提升启动和运行速度,增强产品竞争力。LVGL(Light and Versatile Graphics Library)是一个免费开源的图形库,专为嵌入式系统设计。它以轻量级、高效和易于使用而著称,支持多种屏幕分辨率和硬件配置,并提供了丰富的GUI组件,能够帮助开发者轻松构建出美观且功能强大的用户界面。近期,飞凌嵌入式为基于NXP i.MX9
    飞凌嵌入式 2025-01-16 13:15 193浏览
  • 晶台光耦KL817和KL3053在小家电产品(如微波炉等)辅助电源中的广泛应用。具备小功率、高性能、高度集成以及低待机功耗的特点,同时支持宽输入电压范围。▲光耦在实物应用中的产品图其一次侧集成了交流电压过零检测与信号输出功能,该功能产生的过零信号可用于精确控制继电器、可控硅等器件的过零开关动作,从而有效减小开关应力,显著提升器件的使用寿命。通过高度的集成化和先进的控制技术,该电源大幅减少了所需的外围器件数量,不仅降低了系统成本和体积,还进一步增强了整体的可靠性。▲电路示意图该电路的过零检测信号由
    晶台光耦 2025-01-16 10:12 95浏览
  • 随着智慧科技的快速发展,智能显示器的生态圈应用变得越来越丰富多元,智能显示器不仅仅是传统的显示设备,透过结合人工智能(AI)和语音助理,它还可以成为家庭、办公室和商业环境中的核心互动接口。提供多元且个性化的服务,如智能家居控制、影音串流拨放、实时信息显示等,极大提升了使用体验。此外,智能家居系统的整合能力也不容小觑,透过智能装置之间的无缝连接,形成了强大的多元应用生态圈。企业也利用智能显示器进行会议展示和多方远程合作,大大提高效率和互动性。Smart Display Ecosystem示意图,作
    百佳泰测试实验室 2025-01-16 15:37 168浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 141浏览
  • 数字隔离芯片是现代电气工程师在进行电路设计时所必须考虑的一种电子元件,主要用于保护低压控制电路中敏感电子设备的稳定运行与操作人员的人身安全。其不仅能隔离两个或多个高低压回路之间的电气联系,还能防止漏电流、共模噪声与浪涌等干扰信号的传播,有效增强电路间信号传输的抗干扰能力,同时提升电子系统的电磁兼容性与通信稳定性。容耦隔离芯片的典型应用原理图值得一提的是,在电子电路中引入隔离措施会带来传输延迟、功耗增加、成本增加与尺寸增加等问题,而数字隔离芯片的目标就是尽可能消除这些不利影响,同时满足安全法规的要
    华普微HOPERF 2025-01-15 09:48 180浏览
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 224浏览
  • 故障现象 一辆2007款法拉利599 GTB车,搭载6.0 L V12自然吸气发动机(图1),累计行驶里程约为6万km。该车因发动机故障灯异常点亮进厂检修。 图1 发动机的布置 故障诊断接车后试车,发动机怠速轻微抖动,发动机故障灯长亮。用故障检测仪检测,发现发动机控制单元(NCM)中存储有故障代码“P0300 多缸失火”“P0309 气缸9失火”“P0307 气缸7失火”,初步判断发动机存在失火故障。考虑到该车使用年数较长,决定先使用虹科Pico汽车示波器进行相对压缩测试,以
    虹科Pico汽车示波器 2025-01-15 17:30 95浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦