AWS不用英伟达GPU,打造与众不同的超级计算机

原创 汽车电子设计 2024-12-12 07:59
芝能智芯出品


AWS 通过推出自主研发的 Trainium2 处理器和基于其的 ExaFLOPS 超级计算机,开辟了一条与众不同的 AI 路径。


Trainium2 提供高达 1.3 FP8 PetaFLOPS 的性能,支持大规模生成式 AI 模型训练和推理。基于 Trainium2 的超大规模集群,AWS 迈向 130 FP8 ExaFLOPS 的计算能力,直接挑战 Nvidia GPU 的主导地位。与此同时,AWS 宣布即将推出性能提升四倍的 Trainium3 芯片。


这一趋势表明,自研 AI 加速器正逐渐成为云计算巨头优化成本和性能的核心竞争力。




Part 1

AWS Trainium2 与 ExaFLOPS 
技术解析与趋势洞察



● Trainium2 作为亚马逊的第二代 AI 加速器,展现出了独特的架构设计与强大的性能表现。


 其采用多块系统级封装,包含两个计算块、使用四个堆栈的 96GB HBM3 内存以及两个静态芯片组以确保封装一致性。


 在计算核心方面,由少量大型 NeuronCore 组成,这种设计与传统 GPU 使用大量较小张量核心形成鲜明对比,大型核心在处理生成式 AI 工作负载时能够有效减少控制开销。



● 每个 NeuronCore 内部集成了张量引擎、矢量引擎、标量引擎和 GPSIMD 引擎,各司其职协同工作。


 张量引擎作为核心计算单元,以 128×128 脉动阵列的形式,从 SRAM 缓冲区收集输入并输出结果到部分和 SRAM 缓冲区,承担了现代 LLM 工作负载中 80%以上的功率和 FLOPS 消耗。


 矢量引擎专注于加速矢量运算,如在注意层中计算 softmax 或在层/批处理规范化层中计算移动平均值和方差时发挥重要作用;


 标量引擎则用于执行元素级操作等简单映射操作;


 而 GPSIMD 引擎具备图灵完备性,可运行任意 C++代码,方便开发人员快速实现自定义操作。


Trainium2 还创新性地配备了专用的集体通信核心,专门用于与其他芯片通信,实现了计算通信重叠且避免了资源争用。


这一设计相较于 Nvidia 和 AMD GPU 在通信与计算资源共享同一核心的模式具有显著优势,大大降低了用户在平衡通信与计算操作时的复杂性。



Trainium2 由 Annapurna Labs 设计,专为支持大规模生成式 AI 模型(如大型语言模型 LLM 和基础模型 FM)设计。


● 具备以下特点:


 计算能力:每颗芯片提供 1.3 FP8 PetaFLOPS 性能,支持 BF16 和 FP8 精度。


 存储性能:搭载 96GB HBM3,提供高达 46 TB/s 的带宽。


 扩展性:通过 NeuronLink 网络实现多芯片互连,支持多达 64 芯片的服务器配置,并扩展到超大规模集群。


● ExaFLOPS 级超级计算机的构建与意义



ExaFLOPS(百亿亿次浮点运算每秒)代表了当前 AI 超级计算的顶级性能。AWS 基于数十万个 Trainium2 构建的 Rainier 项目,将实现 130 FP8 ExaFLOPS,这一性能级别相当于约 32,768 块 Nvidia H100 GPU 的总和。


通过将大量 Trainium2 处理器进行组合,如在 EC2 Trn2 UltraServer 中采用 64 个互连的 Trainium2 芯片,实现了高达 83.2 FP8 PetaFLOPS 的性能以及 6 TB 的 HBM3 内存,峰值带宽达到 185 TB/s,并借助 12.8 Tb/s Elastic Fabric Adapter (EFA) 网络进行互连,代号为“Rainier 项目”的 EC2 UltraCluster 更是由数十万个 Trainium2 处理器驱动,预计可提供约 130 FP8 ExaFLOPS 的超强性能。



如此强大的计算能力为大规模 AI 模型的训练和推理提供了坚实的基础。在当今 AI 领域,随着模型参数数量呈指数级增长,如 GPT-4 等模型已经拥有数万亿参数,对计算资源的需求也随之急剧攀升。


ExaFLOPS 级超级计算机的出现,使得研究人员能够在更短的时间内训练出更加复杂、精准的 AI 模型,加速了 AI 技术在自然语言处理、计算机视觉、推荐系统等众多领域的创新与应用进程,推动了整个 AI 行业从理论研究向实际大规模应用的跨越。


● 行业趋势驱动因素



基础模型和大型语言模型的快速发展使得模型参数数量不断逼近数万亿级别。这种复杂度的提升对计算资源提出了前所未有的挑战,传统的计算架构难以满足大规模模型训练和推理所需的海量计算需求。


例如,在训练 GPT-4 这样的超大型模型时,需要耗费巨大的计算资源和漫长的时间,促使企业寻求更强大、更高效的计算解决方案,这成为了 AWS 研发 Trainium2 处理器并构建 ExaFLOPS 级超级计算机的主要驱动力之一。


在大规模 AI 计算场景中,成本和能源效率成为了关键因素。AWS 通过自研 Trainium2 处理器,旨在实现更高的性价比和能源效率。


Trainium2 在设计上针对 AI 工作负载进行了优化,例如采用相对较低的算术强度设计,以适应由于 ML 研究进展导致模型算术强度增长较慢的趋势,如混合专家模型(MoE)中分组 GEMM 对内存带宽需求较大的情况,通过优化芯片架构和系统集成,AWS 期望在提供强大计算能力的同时,降低训练和部署 AI 模型的总体成本,提高能源利用效率,以满足企业在大规模 AI 应用中的经济和环保需求。



在全球科技竞争日益激烈的背景下,企业对于关键技术的自主可控性愈发重视。


AWS 作为全球领先的云计算服务提供商,通过自主研发 Trainium2 处理器,减少了对外部供应商(如 Nvidia)的依赖,实现了在 AI 芯片领域的自主可控,有助于保障其云计算服务的稳定性和安全性。


还能够根据自身对市场需求的理解和技术发展趋势的判断,灵活地进行芯片技术的迭代和创新,形成独特的技术差异化优势。


Trainium2 的扩展网络 NeuronLink 采用与 Nvidia NVLink 不同的拓扑结构,更接近于 TPU 类拓扑,通过点对点连接实现了特定的扩展功能,为用户提供了另一种选择,满足了不同用户在 AI 计算架构上的多样化需求。



Part 2

技术拓展与 AWS 的战略布局


AWS 的这一举措将对 AI 基础设施市场格局产生深远的影响,在芯片层面,Trainium2 处理器的出现打破了 Nvidia 在高性能 AI 芯片领域的长期主导地位,为市场引入了新的竞争力量。


随着 AWS 不断优化和推广 Trainium2 及其后续产品,其他云计算服务提供商和企业可能会重新审视其芯片采购策略,考虑采用更多样化的芯片解决方案,以避免过度依赖单一供应商。


这将促使芯片市场竞争更加激烈,推动各芯片制造商加大研发投入,加速技术创新,从而降低芯片成本,提高性能和能效。



在超级计算机领域,AWS 基于 Trainium2 构建的 ExaFLOPS 级超级计算机为企业和研究机构提供了一种全新的、可替代传统 GPU 集群的高性能计算选择。


这种大规模、低成本、高效率的超级计算机将吸引更多用户将其 AI 工作负载迁移到 AWS 平台,改变当前 AI 超级计算机市场的份额分布。


于那些正在计划构建或扩展其 AI 基础设施的企业来说,AWS 的方案可能会成为一个极具吸引力的选项,从而影响整个 AI 基础设施建设的市场走向,推动行业朝着多元化、高性能、低成本的方向发展。



为了巩固其在 AI 领域的竞争优势,AWS 将继续沿着自主创新的道路前行,在芯片技术研发上,AWS 已经推出了 Trainium3 处理器,该处理器采用台积电 3nm 级制程工艺制造,预计 2025 年面向客户上市。Trainium3 的性能将是 Trainium2 的四倍,这将进一步提升 AWS 在 AI 芯片性能方面的竞争力。


AWS 可能会继续加大在芯片研发上的投入,探索新的架构设计、制程工艺优化以及与其他技术(如量子计算、光子计算等新兴技术)的融合可能性,以保持其在 AI 芯片技术前沿的地位。


AWS 将充分利用其全球领先的云计算服务平台优势,将 Trainium 系列处理器与其他 AWS 服务(如 Amazon S3 存储服务、Amazon EC2 弹性计算服务等)进行深度整合,为用户提供一站式的 AI 解决方案。


例如,通过优化 Trainium 与 Amazon S3 之间的数据传输通道,实现更快的数据加载和存储,提高整个 AI 工作流程的效率。


此外,AWS 还将加强与合作伙伴的合作关系,包括 AI 软件开发商、系统集成商、企业客户等,共同探索 Trainium 系列处理器在不同行业和应用场景中的最佳实践,拓展其市场应用范围。


例如,与 AI 软件开发商合作优化深度学习框架对 Trainium 处理器的支持,与企业客户合作开发特定行业的 AI 应用解决方案,如医疗保健领域的疾病诊断辅助系统、金融领域的风险预测模型等,从而进一步扩大 Trainium 系列处理器在全球市场的影响力和占有率。



小结


AWS 利用 Trainium2 处理器构建 ExaFLOPS 级超级计算机无疑是 AI 领域的一项重大战略布局,其对技术创新、行业趋势以及市场格局的影响深远而持久。


AWS 在满足 AI 计算需求日益增长的背景下,对成本、能效和自主可控性的深度考量与战略追求,推动了 AI 基础设施朝着多元化、高性能、低成本的方向发展。 



汽车电子设计 本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁
评论 (0)
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 204浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 323浏览
  • 后摄像头是长这个样子,如下图。5孔(D-,D+,5V,12V,GND),说的是连接线的个数,如下图。4LED,+12V驱动4颗LED灯珠,给摄像头补光用的,如下图。打开后盖,发现里面有透明白胶(防水)和白色硬胶(固定),用合适的工具,清理其中的胶状物。BOT层,AN3860,Panasonic Semiconductor (松下电器)制造的,Cylinder Motor Driver IC for Video Camera,如下图。TOP层,感光芯片和广角聚焦镜头组合,如下图。感光芯片,看着是玻
    liweicheng 2025-05-07 23:55 410浏览
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 508浏览
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 425浏览
  • 多功能电锅长什么样子,主视图如下图所示。侧视图如下图所示。型号JZ-18A,额定功率600W,额定电压220V,产自潮州市潮安区彩塘镇精致电子配件厂,铭牌如下图所示。有两颗螺丝固定底盖,找到合适的工具,拆开底盖如下图所示。可见和大部分市场的加热锅一样的工作原理,手绘原理图,根据原理图进一步理解和分析。F1为保险,250V/10A,185℃,CPGXLD 250V10A TF185℃ RY 是一款温度保险丝,额定电压是250V,额定电流是10A,动作温度是185℃。CPGXLD是温度保险丝电器元件
    liweicheng 2025-05-05 18:36 465浏览
  • 飞凌嵌入式作为龙芯合作伙伴,隆重推出FET-2K0300i-S全国产自主可控工业级核心板!FET-2K0300i-S核心板基于龙芯2K0300i工业级处理器开发设计,集成1个64位LA264处理器,主频1GHz,提供高效的计算能力;支持硬件ECC;2K0300i还具备丰富的连接接口USB、SDIO、UART、SPI、CAN-FD、Ethernet、ADC等一应俱全,龙芯2K0300i支持四路CAN-FD接口,具备良好的可靠性、实时性和灵活性,可满足用户多路CAN需求。除性价比超高的国产处理器外,
    飞凌嵌入式 2025-05-07 11:54 87浏览
  • 文/Leon编辑/cc孙聪颖‍《中国家族企业传承研究报告》显示,超四成“企二代” 明确表达接班意愿,展现出对家族企业延续发展的主动担当。中国研究数据服务平台(CNRDS)提供的精准数据进一步佐证:截至 2022 年,已有至少 280 家上市家族企业完成权杖交接,其中八成新任掌门人为创始人之子,凸显家族企业代际传承中 “子承父业” 的主流模式。然而,对于“企二代” 而言,接棒掌舵绝非易事。在瞬息万变的商业环境中,他们既要在白热化的市场竞争中开拓创新、引领企业突破发展瓶颈,又需应对来自父辈管理层的经
    华尔街科技眼 2025-05-06 18:17 28浏览
  • 在过去的很长一段时间里,外卖市场呈现出美团和饿了么双寡头垄断的局面。美团凭借先发优势、强大的地推团队以及精细化的运营策略,在市场份额上长期占据领先地位。数据显示,截至2024年上半年,美团外卖以68.2%的市场份额领跑外卖行业,成为当之无愧的行业老大。其业务广泛覆盖,从一线城市的繁华商圈到二三线城市的大街小巷,几乎无处不在,为无数消费者提供便捷的外卖服务。饿了么作为阿里本地生活服务的重要一环,依托阿里强大的资金和技术支持,也在市场中站稳脚跟,以25.4%的份额位居第二。尽管市场份额上与美团有一定
    用户1742991715177 2025-05-06 19:43 101浏览
  • Matter协议是一个由Amazon Alexa、Apple HomeKit、Google Home和Samsung SmartThings等全球科技巨头与CSA联盟共同制定的开放性标准,它就像一份“共生契约”,能让原本相互独立的家居生态在应用层上握手共存,同时它并非另起炉灶,而是以IP(互联网协议)为基础框架,将不同通信协议下的家居设备统一到同一套“语义规则”之下。作为应用层上的互通标准,Matter协议正在重新定义智能家居行业的运行逻辑,它不仅能向下屏蔽家居设备制造商的生态和系统,让设备、平
    华普微HOPERF 2025-05-08 11:40 361浏览
  • 2024年初,OpenAI公布的Sora AI视频生成模型,震撼了国产大模型行业。随后国产厂商集体发力视频大模型,快手发布视频生成大模型可灵,字节跳动发布豆包视频生成模型,正式打响了国内AI视频生成领域第一枪。众多企业匆忙入局,只为在这片新兴市场中抢占先机,却往往忽视了技术成熟度与应用规范的打磨。以社交平台上泛滥的 AI 伪造视频为例,全红婵家人被恶意仿冒博流量卖货,明星们也纷纷中招,刘晓庆、张馨予等均曾反馈有人在视频号上通过AI生成视频假冒她。这些伪造视频不仅严重侵犯他人权
    用户1742991715177 2025-05-05 23:08 147浏览
  • 硅二极管温度传感器是一种基于硅半导体材料特性的测温装置,其核心原理是利用硅二极管的电学参数(如正向压降或电阻)随温度变化的特性实现温度检测。以下是其工作原理、技术特点及典型应用:一、工作原理1、‌PN结温度特性‌硅二极管由PN结构成,当温度变化时,其正向电压 VF与温度呈线性负相关关系。例如,温度每升高1℃,VF约下降2 mV。2、‌电压—温度关系‌通过jing确测量正向电压的微小变化,可推算出环境温度值。部分型号(如SI410)在宽温域内(如1.4 K至475 K)仍能保持高线性度。
    锦正茂科技 2025-05-09 13:52 218浏览
  • 温度传感器的工作原理依据其类型可分为以下几种主要形式:一、热电阻温度传感器利用金属或半导体材料的电阻值随温度变化的特性实现测温:l ‌金属热电阻‌(如铂电阻 Pt100、Pt1000):高温下电阻值呈线性增长,稳定性高,适用于工业精密测温。l ‌热敏电阻‌(NTC/PTC):NTC 热敏电阻阻值随温度升高而下降,PTC 则相反;灵敏度高但线性范围较窄,常用于电子设备温控。二、热电偶传感器基于‌塞贝克效应‌(Seebeck effect):两种不同
    锦正茂科技 2025-05-09 13:31 210浏览
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 447浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 602浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦