以Neoverse IP的发布为标志,Arm服务器生态正迎来属于自己的第三波发展浪潮,而Marvell ThunderX3服务器芯片的问世,又为该生态增加了浓墨重彩的一笔。

2018年10月,Arm推出专为5G网络和下一代云端到边缘基础设施创立的全新基础设施级IP—Neoverse,这被业界视作是“Arm服务器生态第三波浪潮”的标志性事件。从那之后,短短的一年半时间内,华为基于鲲鹏920的泰山(TaiShan)服务器、飞腾FT-1500A/FT-2000/FT-2000+ CPU产品、Marvell ThunderX3处理器、亚马逊(AWS)Graviton2处理器、Ampere Altra处理器、法国芯片初创企业SiPearl用于百亿亿级超级计算机原型机的代号为“Rhea”的处理器芯片等,如“雨后春笋”般相继面世。

“滚雪球”效应

服务器是一个跟生态密切相关的业务。Marvell半导体公司副总裁及服务器处理器部总经理Gopal Hegde认为,Arm服务器生态日益繁荣的原因,是最终用户发现Arm加速应用的时机已经成熟,才会有越来越多的人投入。“生态层面其实是一种‘滚雪球’效应,滚到一定地步就会自己越滚越大。”他说。

以Marvell ThunderX2为例,自从2018年推出以来,在超算(HPC)、云端(CLOUD)和边缘计算(EDGE)三大市场的部署进度不断加速,得到了诸多OEM厂商和平台、IHV硬件厂商、操作系统和固件、中间件、应用和工具的支持,目前生态系统覆盖已超过100家合作伙伴企业。例如微软正为Azure部署基于ThunderX2的量产级服务器,也公开表态未来可能有40%-50%的量迁移到Arm平台上;ThunderX2系列服务器处理器已实现对NVIDIA GPU的支持,将进一步满足HPC 和游戏应用的需求;超算领域,隶属于美国能源部的劳伦斯·利弗莫尔(Lawrence Livermore)、桑迪亚(Sandia)和橡树岭(Oak Ridge)国家实验室,英国莱斯特大学(University of Leicester)等都采用了ThunderX2处理器。

Gopal Hegde认为,尽管超算、云端计算和边缘计算三大市场有各自不同的需求和侧重点,但其实还有很多事情是贯通的。一个典型案例就是浮点运算,以前浮点运算更多应用在超算领域,但随着AI和机器学习的出现,云端对浮点运算的要求也非常高。而且超算在包括架构在内的很多领域是领先于云端的,很多理念在超算应用中实现之后,过一段时间才会选择性的推到云上。

而在Marvell半导体公司服务器处理器部产品营销高级总监周立新看来,如今数据中心已从对单线程性能的关注转向对机架级别性能的关注,其中性能功耗比、性能成本比和TCO(总拥有成本)是部署考虑的三大关键因素。因此,数据中心开始采用专为特定工作负载而定制的服务器。

从应用场景看,当前的数据中心除了继续强调单线程性能外,同样强调并行处理能力,由于部署规模日益庞大,成本、功耗成为与性能并重的考虑因素,这也是市场上青睐Arm这样低功耗、低成本设计处理器的原因;从架构层面来看,之前传统的软件有很多都是由第三方提供的,比如Oracle提供数据库,但很多客户没有源代码。但随着GPU、异构计算架构的不断涌现,一些超大规模数据中心的工作负载和应用不但开始提供有源代码,还允许改变源代码和程序来加速创新能力,这也给ARM服务器的引入带来了方便,可以更轻松应对兼容性问题。

英特尔和AMD也给了Arm机会。按照Gopal Hegde的说法,英特尔领先的晶圆制造能力是其能长期称霸服务器芯片市场的原因,但最近几年,他们在制造工艺上落后了。Arm服务器芯片厂商的主要合作伙伴台积电则高歌猛进,在拉开与Intel差距的同时,给了Arm服务器新的机会;AMD虽然凭借EPYC架构重返服务器市场,ROME系列也受到了客户的高度认可,但其架构在延迟、带宽和功耗等方面存在弊端。

但Gopal Hegde不认为Arm服务器会与x86展开全面竞争,目前来看,生态成熟且成长迅速的超算和云端领域会是Marvell发力的方向,企业级市场不会有进入的想法。

上新了,ThunderX

2014年,Cavium(后被Marvell以60亿美元的价格收购)推出了基于Arm架构设计的服务器芯片ThunderX,这是全球首款至强E5级别的 Arm 服务器芯片,也是当时业界唯一的能支持双路架构的Arm服务器芯片,产品拥有最多高达48个的定制Armv8内核和最多472位DDR3/4内存控制器等优势,对存储、网络和安全等进行了特定的优化。

此后,Marvell为自己的ThunderX系列制定了每2年升级一代的策略,承诺每次都可以实现2倍甚至更高的性能提升。2018年7月,新一代Arm服务器芯片ThunderX2正式量产,采用16nm工艺打造的芯片集成了32个ARMv8.1乱序执行核心,每个芯片拥有四个线程。在内存方面,支持最多8条DDR4,频率高达2667MHz,也支持高达56条的PCIe 3.0通道扩展。

相比上一代ThunderX2,最新推出的ThunderX3处理器采用台积电(TSMC)7P制程工艺制造,拥有高达96个核, 4线程/核心,每个插槽的总计算能力达到384线程。内存接口支持8通道DDR4-3200,每个通道可搭载2个DIMM。IO扩展提供了64个PCIe Gen 4.0通道,搭载16个控制器。该处理器支持单节点和双节点配置。在浮点运算方面,ThunderX3的每个核心搭载四个128 位SIMD (Neon)单元。该设备完全符合SBSA/SBBR,并提供了企业级的RAS和虚拟化功能。

得益于中微架构的改进,ThunderX3 IPC的整体性能较ThunderX2提高25%。结合处理器频率和DDR频率的提升,单线程总体性能较上一代提高了60%以上。在单颗处理器层面,相较于 ThunderX2,ThunderX3的整数运算性能提升3倍以上,浮点运算性能提升5倍以上。

目前,ThunderX3在设计中尚未采用chiplet的设计方式,周立新对此解释说,公司会根据市场的发展需求提升芯片的规格,ThunderX3每个内核的尺寸比AMD的约小30%左右,性能、功耗、内存带宽和内存延迟等方面的表现也令人满意。但未来随着工艺和架构的不断演进,再小的内核迟早也会遇到物理瓶颈,那时可能就会考虑Chiplet方案。

ThunderX3 的目标市场仍然是云计算和HPC高性能运算市场中的特定工作负载(如大数据、数据库、流媒体、Web 层、弹性搜索和云存储)。考虑到其本质上是高度并行,周立新认为,单核支持4个超线程,不仅能够带来显著的性能提高,更重要的是,无论是x86架构还是其它Arm处理器,目前都没有实现,ThunderX3在这方面实现了“数量级的差异”。

至于四线程与单线程相比,究竟能带来哪些优势?他认为可以从以下三方面来看:一是SPECCPU,这是最标准的衡量服务器的指标;二是MySQL数据库;三是Web搜索。根据测算,四线程比单线程有显著的性能提升,特别是MySQL,可以提高80%的性能。

Gopal Hegde特别强调了Thunder X3对Arm终端上原生Arm应用程序的支持。他指出,现在厂商开始逐渐把游戏和应用放到服务器上,考虑到现在的终端基本都是一样基于Arm芯片设计的,那就意味着X86在相关的支持上会有先天的缺陷,而这正是Arm服务器芯片所擅长的。

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
9月10日,苹果发布了一系列新品,包括iPhone 16系列手机、Apple Watch Series 10智能手表和AirPods 4耳机。发布会后网上响起了一片吐嘈声,带着这些吐槽,我们来看看这次苹果到底有没有新玩意……
不管怎么样,英特尔仍在努力推进18A芯片工艺,以期未来在最先进的芯片工艺上能与台积电、三星有一定的领先优势,毕竟其已经率先拿到ASML两台最先进的High NA(高数值孔径)EUV光刻机。未来,英特尔没有选择,只有抓住任何的可能性,硬着头皮上。
一直听说x86指令集天生做不了低功耗,真的是这样吗?这篇文章着重谈谈酷睿Ultra二代是怎么考量低功耗的,有没有可能做到低功耗...
经营业绩下滑,以及在代工业务上的巨额亏损以及市场需求疲软,也或是英特尔出售Mobileye股份的重要原因之一。
近期,国产GPU企业象帝先遭遇发展困境。尽管公司对外否认了全员解散的传闻,但内部邮件和媒体报道均显示,象帝先已开始实施裁员,并寻求资金解决方案。
Intel昨天正式发布了酷睿Ultra 200V系列新品,也就是面向轻薄本的Lunar Lake处理器,而且本月底就要出货了。在PC处理器市场竞争日益严峻的现在,Lunar Lake还有过人之处吗?
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
点击蓝字 关注我们德州仪器全球团队坚持克服挑战,为电源模块开发新的 MagPack™ 封装技术,这是一项将帮助推动电源设计未来的突破性技术。  ■ ■ ■作为一名经验丰富的马拉松运动员,Kenji K
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
文|德福很多去成都旅游的朋友都有个疑惑——为什么在成都官方的城市标志上看不到熊猫,而是一个圆环?其实这个“圆环”大有来头,它被唤作太阳神鸟,2001年出土于大名鼎鼎的金沙遗址,距今已有三千余年历史。0
据市场调查机构Allied Market Research的《单晶硅晶圆市场》报告指出,2022年单晶硅晶圆市场价值为109亿美元,预计到2032年将达到201亿美元,2023年~2032年的复合年均
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
‍‍‍‍上市PCB厂商竞国(6108)日前出售泰国厂给予陆资厂胜宏科技后,近日惊传台湾厂惊传12月前关厂,并对客户发布通知预告客户转移生產,最后出货日期2024年12月25日。至於后续台湾厂400名员
‍‍据龙芯中科介绍,近日,基于龙芯3A6000处理器的储迹NAS在南京师范大学附属小学丹凤街幼儿园、狮山路小学、南京大学附属中学等学校相继落地。储迹NAS是基于最新的龙芯CPU--3A6000,其代表
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了长飞先进等众多企业,深入了解
在苹果和华为的新品发布会前夕,Counterpoint公布了2024年第一季度的操作系统详细数据,数据显示, 鸿蒙操作系统在2024年第一季度继续保持强劲增长态势,全球市场份额成功突破4%。在中国市场