进入2024年,Arm Neoverse的旅程开启了新的篇章,主角是两款全新的Neoverse CSS产品:Neoverse CSS N3和Neoverse CSS V3。官方数据显示,与Neoverse CSS N2相比,Neoverse CSS N3的每瓦性能可提高20%;Neoverse CSS V3单芯片性能可提高50%。

作为一套经优化、集成和验证的平台,Arm Neoverse计算子系统(CSS)汇集了构成系统级芯片(SoC)核心的关键技术,“为最重要的工作负载优化其TCO,并为芯粒(Chiplet) 等新兴关键技术提供支持”是其核心价值所在。

进入2024年,Arm Neoverse的旅程开启了新的篇章,主角是两款全新的Neoverse CSS产品:Neoverse CSS N3Neoverse CSS V3。官方数据显示,与Neoverse CSS N2相比,Neoverse CSS N3的每瓦性能可提高20%;Neoverse CSS V3单芯片性能可提高50%。

同时,Arm全面设计(Arm Total Design)生态项目也已吸引超过20家来自各方技术合作伙伴的加入,他们已在方方面面携手合作,从验证 IP、定制固件,到在全球先进的工艺节点上打造芯粒。

人工智能基础设施迎来巨变

Arm高级副总裁兼基础设施事业部总经理Mohamed Awad指出,AI时代,计算正变得越来越专用化,现代化数据中心系统架构中需要更多定制而非通用CPU。“NVIDIA GH200 Grace Hopper正是这种理念的体现。“他说,与传统架构中单个CPU管理多个GPU不同,Grace Hopper中的GPU和CPU之间建立起了一对一的高性能连接,并在整个系统层面实现内存一致性,从而大幅提高了GPU的效率。

事实也的确如此——72颗Arm Neoverse核心与NVIDIA GPU的组合,让Grace Hopper的AI性能较基于x86架构的系统提升了10倍。

采用类似设计方法的不止NVIDIA。AWS第四代基于Arm Neoverse平台的处理器Graviton4相比上一代产品,处理速度提高了30%,核心数量增加了50%,内存带宽增加了75%。

“此方法之所以能发挥作用,是因为客户比任何其他人都更了解自己产品的工作负载,他们可以对系统的各个方面,包括网络、加速甚至是通用计算进行调优,以优化效率、性能和总体拥有成本(TCO)。“Mohamed Awad表示,AI正变得无处不在,它不仅应用于服务器和数据中心,也正成为网络、安全和存储等诸多领域不可或缺的一部分,从而使其应用领域拓展到包括小型终端到交换机、路由器和基站等各种设备在内的整个基础设施中。

卓越性能高度灵活性强大生态系统,是Mohamed Awad认为Arm能在基础设施领域收获累累硕果的三大原因。“过去的几年里,Arm工程团队坚持不懈地实现产品迭代提升,赋能技术合作伙伴定制芯片,以支持其专用的工作负载和系统,而非采用一体适用的方案。同时,得益于我们在软件、IP和芯片生态系统中提供的出色性能和灵活性,降低了配置的总成本并加速产品上市。“他说。

以此为基础,Arm推出了Arm Neoverse CSS和Arm全面设计生态项目,核心目的是希望能够帮助合作伙伴快速交付基于Neoverse CSS的定制SoC,帮助降低合作伙伴的创新成本,并将其想要构建的定制数据中心计算系统更快推向市场。微软首款专为计算中心打造的定制芯片Azure Cobalt 100 CPU正是基于Arm Neoverse CSS打造,该芯片具有128颗 Neoverse内核。

在Neoverse CSS 中,Arm负责配置、优化和验证一套完整的计算子系统,并针对基础设施市场的各种关键用例进行配置,从而让合作伙伴能够专注于针对特定系统级工作负载塑造差异化竞争优势,比如软件调优、定制加速等。此外,客户还能从CSS中额外获得加速产品上市时间、降低工程成本、前沿处理器技术等优势,芯片栈的管理也变得和软件/系统栈管理一样便捷。

Arm Neoverse旅程的新篇章

“温故才能知新”,不妨先简单回顾一下Neoverse平台的PPA设计原则和发展历程:

目前,该系列分为V/N/E三大平台:V系列旨在提供最佳性能,需要添加更大的缓存、窗口和队列,相对来说会消耗更多面积和功耗;N系列强调性能、功率、面积得到同等考量,擅长可扩展;E系列主要关注效率,对于网络流量和数据应用程序非常有效,在功耗和面积的缩减上进行优化。

2018年10月,Arm首次宣布推出面向云到边缘基础设施产品Neoverse及其初步路线图,并承诺平台效能30%的年增长率指标将持续到2022年及以后。2019年初,Arm推出了Neoverse N1和E1;2020年9月,Neoverse家族又新增两个全新的平台—Neoverse V1平台以及第二代N系列平台Neoverse N2;两年后,Neoverse V2平台、Neoverse E2和Arm CMN-700 mesh互连技术面世,并引入若干Armv9架构安全增强功能。

根据Arm基础设施事业部产品解决方案副总裁Dermot O’Driscoll的介绍, CSS N3 的首个实例可提供32核,热设计功耗(TDP)低至40W,可覆盖电信、网络和DPU等一系列应用。同时,考虑到横向扩展云配置需要,Arm为新的N系列引入了Armv9.2功能,能为每个核心提供2MB的专用L2缓存,并支持最新的PCIe、CXL I/O标准以及UCIe芯粒标准。

CSS V3在单芯片上最多可扩展至128核,并支持最新的高速内存和I/O标准,CSS V3 基于Arm新的 Neoverse V3 核心打造,这是Arm目前单线程性能最高的Neoverse核心,专为Arm机密计算架构(CCA)提供硬件支持。与N3核心一样,V3核心也可提供专用L2缓存。

基于Neoverse N系列和V系列打造的芯片在一些关键工作负载下的性能数据

Neoverse CSS N3和Neoverse CSS V3的性能提升对比

“通过分析合作伙伴的关键工作负载核心的特定关键任务算法,我们能够明确并实施对提升性能最有效的微架构调整方法,包括改进分支预测、更好地管理最后一级缓存和相关内存带宽,以及大幅增加L2缓存,这也是为什么N3在基于XGBoost库的AI数据分析方面有高达196%性能飞跃的原因所在。”Dermot O’Driscoll说。

自2023年以来,生成式AI和大语言模型(LLM)成为了AI行业当仁不让的热点。随着生成式AI广泛应用于实际业务场景,推理将成为工作重点,有分析师预计,已部署的 AI服务器中将有高达80%专用于推理,且这一数字还将持续攀升。这一转变意味着要找到合适的模型和模型配置,并加以训练,然后将其部署到更具成本效益的计算基础设施上。这其中,高吞吐量、易于部署、支持各种软件框架、且具备低成本和高能效等优势的CPU,是行业追逐的热点。

Arm在LLaMA 2大型语言模型上的AI推理基准测试

但显然,并非所有AI处理都将在CPU上进行。打造AI加速器的公司非常多,据最近统计,这一领域的公司已接近80家,而且每家公司都想取得NVIDIA那样的成绩。Dermot O’Driscoll表示,像微软(Cobalt 100)这样的厂商迅速采用Neoverse以便快速整合自己的芯片设计并投入使用,证明了Neoverse CSS策略非常成功。

通过Neoverse CSS,Arm可以为针对自身工作负载优化性能的客户简化开发,特别是那些只需要经过验证的CPU IP模块来与其定制加速器设计配对的客户,Neoverse CSS能提供客户所需的所有接口,以便选择耦合自身的加速器。“这种方法既可以在需要CPU时提供CPU,又可以在需要AI 加速器时提供AI加速器,两全其美。”

同时,基于生态伙伴的反馈意见,Arm还发布了芯粒系统架构(Chiplet System Architecture, CSA),旨在定义一个功能强大、支持通用的芯粒生态系统。以通用芯粒互连技术(UCIe)为例,这是一项旨在解决芯粒物理层兼容性问题的行业标准,因为目前的协议层存在PCIe、CXL和AMBA等多种标准,设计人员在系统架构层面仍面临诸多难题:例如,怎样在设计时对芯粒进行逻辑分区?如何设置直接内存访问(DMA)和中断、电源和安全等管理功能?等等。要建立可互操作的生态系统,就需要在生态系统层面一致地解决这些问题。

在Dermot O’Driscoll展示的未来路线图上,尽管不是太详细,但Neoverse E/N/V系列核心已经被分别命名为Lycius/Dionysus/Adonis,对应的计算子系统也获得了代号,分别为N系列的CSS Ranger和V系列的CSS Vega,将在未来推出。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
尽管思瑞浦在模拟混合信号设计方面拥有丰富经验,其MCU产品在市场上的表现并不理想。究其原因,是因为国内MCU领域竞争已经非常激烈,产品同质化严重,企业之间的竞争主要集中在性价比上,导致利润空间被严重压缩。
随着工艺技术的发展放缓而晶体管数量增加,芯片开发变得越来越困难。Synopsys选择了收购设计分析和仿真巨头Ansys,此后,拥有管理和优化 EDA 计算环境所需所有工具的Altair,成为了最后一个可以挑战 Ansys 而不受约束的玩家。如今,花落西门子……
具体来说,对于涉及某些先进集成电路设计或制造、超级计算机、量子计算机及其关键部件、以及特定用途的AI系统的交易,美国将采取禁止或要求通报的措施。
据悉,该芯片具有卓越的性能指标和广泛的应用前景。其对X/γ射线剂量率的量程覆盖广泛,从100nSv/h(纳西弗/每小时)到10mSv/h(毫西弗/每小时),可探测的能量范围则在……
随着AI和HPC芯片需求的不断增加,半导体产业在不断挑战性能极限的同时,也面对着传统封装技术的限制。为了延续摩尔定律,先进封装成为满足这些新兴应用需求的核心策略。
众所周知,FD-SOI工艺停留在22nm已经很久了,直到意法半导体和三星联合推出18FDS才打破了这一沉寂。除此之外,目前有明确进一步发展更先进工艺的,只有格罗方德的12FDX(12nm),但还未推出。在到达22nm之后,FD-SOI工艺是否有必要继续推进到12nm呢?
微电子和软件技术的快速发展正在深刻地改变车载娱乐中控和安全系统设计,重新定义驾驶体验。
本系列文章从数字芯片设计项目技术总监的角度出发,介绍了如何将芯片的产品定义与设计和验证规划进行结合,详细讲述了在FPGA上使用硅知识产权(IP)内核来开发ASIC原型项目时,必须认真考虑的一些问题。
在即将到来的慕尼黑国际电子元器件博览会(electronica 2024)上,英飞凌科技股份公司将展示其创新的解决方案如何推动全球低碳化和数字化进程,充分展现半导体产品如何为实现净零经济铺平道路,并释放人工智能的全部潜力。
vivo旗下品牌iQOO正式发布了年度性能旗舰iQOO 13,除了高通骁龙8芯片、vivo自研的电竞芯片Q2外,最值得一提的是还采用了汇顶科技提供的多项创新技术,包括超声波指纹识别、新一代屏下光线传感器以及智能音频放大器与软件方案。
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓10月31日消息,据报道,一名在华韩国人A某因涉嫌违反《中华人民共和国反间谍法》被逮捕!我外交部29
本文来源:智能通信定位圈10月24日,全球领先的物联网(IoT)解决方案提供商Silicon Labs(下称“芯科科技“)在上海成功举办2024年“Works With开发者大会”。本届大会以“创新结
01周价格表02周价格观察硅料环节本周硅料价格:单晶复投料主流成交价格为37元/KG,单晶致密料的主流成交价格为35元/KG;N型料报价为41元/KG。交易情况上下游交易延续低迷情绪,拉晶端尚处艰难去
10月30日,备受瞩目的iQOO最新旗舰机——被誉为“性能之光”的iQOO 13在深圳震撼发布。该款机型由BOE(京东方)独供6.82英寸超旗舰2K LTPO直屏,行业首发搭载全新一代Q10发光器件,
动动手指,关注公众号并加星标哦这几天一直在老家,整不了要特别费脑子的事情,比如那个做题。所以只能搞一些不太费脑子的事情,还有零零星星地回答课程号友们的一些问题。这两天,有两位号友分别问了ADS和Gen
10月31消息,据报道,三星电子目前正逐步扩大高通骁龙芯片在其产品中的应用范围,尤其是在旗舰手机中,仅有少数低端市场和家电产品采用自家Exynos芯片。据行业内部消息透露,三星正积极探索将高通芯片技术
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓10月31日消息,据外媒报道,英特尔CEO基辛格上任3年,搞砸了和台积电的关系,在公司处于困境的时刻
10月29日,诺基亚与惠普宣布签署了一项多年专利授权协议,允许惠普公司在其设备中使用诺基亚的视频技术。诺基亚一年前曾表示,已在美国对惠普提起法律诉讼,指控惠普未经授权使用诺基亚专利的视频相关技术,但本
市场传出消息称,荣耀公司近期引入了包括中国电信、中金资本旗下基金、基石旗下基金、特发基金及新一轮代理商投资平台(金石星耀)等在内的多个投资者。           对于本轮融资,荣耀表示始终坚持公开透
本文来源:智能通信定位圈01蜂窝物联网行业寡头效应正加剧表:历年蜂窝物联网模组Top5企业在全球范围内的市场份额(按出货量)数据来源:Counterpoint Research在总的出货量上,2022