进入2024年,Arm Neoverse的旅程开启了新的篇章,主角是两款全新的Neoverse CSS产品:Neoverse CSS N3和Neoverse CSS V3。官方数据显示,与Neoverse CSS N2相比,Neoverse CSS N3的每瓦性能可提高20%;Neoverse CSS V3单芯片性能可提高50%。

作为一套经优化、集成和验证的平台,Arm Neoverse计算子系统(CSS)汇集了构成系统级芯片(SoC)核心的关键技术,“为最重要的工作负载优化其TCO,并为芯粒(Chiplet) 等新兴关键技术提供支持”是其核心价值所在。

进入2024年,Arm Neoverse的旅程开启了新的篇章,主角是两款全新的Neoverse CSS产品:Neoverse CSS N3Neoverse CSS V3。官方数据显示,与Neoverse CSS N2相比,Neoverse CSS N3的每瓦性能可提高20%;Neoverse CSS V3单芯片性能可提高50%。

同时,Arm全面设计(Arm Total Design)生态项目也已吸引超过20家来自各方技术合作伙伴的加入,他们已在方方面面携手合作,从验证 IP、定制固件,到在全球先进的工艺节点上打造芯粒。

人工智能基础设施迎来巨变

Arm高级副总裁兼基础设施事业部总经理Mohamed Awad指出,AI时代,计算正变得越来越专用化,现代化数据中心系统架构中需要更多定制而非通用CPU。“NVIDIA GH200 Grace Hopper正是这种理念的体现。“他说,与传统架构中单个CPU管理多个GPU不同,Grace Hopper中的GPU和CPU之间建立起了一对一的高性能连接,并在整个系统层面实现内存一致性,从而大幅提高了GPU的效率。

事实也的确如此——72颗Arm Neoverse核心与NVIDIA GPU的组合,让Grace Hopper的AI性能较基于x86架构的系统提升了10倍。

采用类似设计方法的不止NVIDIA。AWS第四代基于Arm Neoverse平台的处理器Graviton4相比上一代产品,处理速度提高了30%,核心数量增加了50%,内存带宽增加了75%。

“此方法之所以能发挥作用,是因为客户比任何其他人都更了解自己产品的工作负载,他们可以对系统的各个方面,包括网络、加速甚至是通用计算进行调优,以优化效率、性能和总体拥有成本(TCO)。“Mohamed Awad表示,AI正变得无处不在,它不仅应用于服务器和数据中心,也正成为网络、安全和存储等诸多领域不可或缺的一部分,从而使其应用领域拓展到包括小型终端到交换机、路由器和基站等各种设备在内的整个基础设施中。

卓越性能高度灵活性强大生态系统,是Mohamed Awad认为Arm能在基础设施领域收获累累硕果的三大原因。“过去的几年里,Arm工程团队坚持不懈地实现产品迭代提升,赋能技术合作伙伴定制芯片,以支持其专用的工作负载和系统,而非采用一体适用的方案。同时,得益于我们在软件、IP和芯片生态系统中提供的出色性能和灵活性,降低了配置的总成本并加速产品上市。“他说。

以此为基础,Arm推出了Arm Neoverse CSS和Arm全面设计生态项目,核心目的是希望能够帮助合作伙伴快速交付基于Neoverse CSS的定制SoC,帮助降低合作伙伴的创新成本,并将其想要构建的定制数据中心计算系统更快推向市场。微软首款专为计算中心打造的定制芯片Azure Cobalt 100 CPU正是基于Arm Neoverse CSS打造,该芯片具有128颗 Neoverse内核。

在Neoverse CSS 中,Arm负责配置、优化和验证一套完整的计算子系统,并针对基础设施市场的各种关键用例进行配置,从而让合作伙伴能够专注于针对特定系统级工作负载塑造差异化竞争优势,比如软件调优、定制加速等。此外,客户还能从CSS中额外获得加速产品上市时间、降低工程成本、前沿处理器技术等优势,芯片栈的管理也变得和软件/系统栈管理一样便捷。

Arm Neoverse旅程的新篇章

“温故才能知新”,不妨先简单回顾一下Neoverse平台的PPA设计原则和发展历程:

目前,该系列分为V/N/E三大平台:V系列旨在提供最佳性能,需要添加更大的缓存、窗口和队列,相对来说会消耗更多面积和功耗;N系列强调性能、功率、面积得到同等考量,擅长可扩展;E系列主要关注效率,对于网络流量和数据应用程序非常有效,在功耗和面积的缩减上进行优化。

2018年10月,Arm首次宣布推出面向云到边缘基础设施产品Neoverse及其初步路线图,并承诺平台效能30%的年增长率指标将持续到2022年及以后。2019年初,Arm推出了Neoverse N1和E1;2020年9月,Neoverse家族又新增两个全新的平台—Neoverse V1平台以及第二代N系列平台Neoverse N2;两年后,Neoverse V2平台、Neoverse E2和Arm CMN-700 mesh互连技术面世,并引入若干Armv9架构安全增强功能。

根据Arm基础设施事业部产品解决方案副总裁Dermot O’Driscoll的介绍, CSS N3 的首个实例可提供32核,热设计功耗(TDP)低至40W,可覆盖电信、网络和DPU等一系列应用。同时,考虑到横向扩展云配置需要,Arm为新的N系列引入了Armv9.2功能,能为每个核心提供2MB的专用L2缓存,并支持最新的PCIe、CXL I/O标准以及UCIe芯粒标准。

CSS V3在单芯片上最多可扩展至128核,并支持最新的高速内存和I/O标准,CSS V3 基于Arm新的 Neoverse V3 核心打造,这是Arm目前单线程性能最高的Neoverse核心,专为Arm机密计算架构(CCA)提供硬件支持。与N3核心一样,V3核心也可提供专用L2缓存。

基于Neoverse N系列和V系列打造的芯片在一些关键工作负载下的性能数据

Neoverse CSS N3和Neoverse CSS V3的性能提升对比

“通过分析合作伙伴的关键工作负载核心的特定关键任务算法,我们能够明确并实施对提升性能最有效的微架构调整方法,包括改进分支预测、更好地管理最后一级缓存和相关内存带宽,以及大幅增加L2缓存,这也是为什么N3在基于XGBoost库的AI数据分析方面有高达196%性能飞跃的原因所在。”Dermot O’Driscoll说。

自2023年以来,生成式AI和大语言模型(LLM)成为了AI行业当仁不让的热点。随着生成式AI广泛应用于实际业务场景,推理将成为工作重点,有分析师预计,已部署的 AI服务器中将有高达80%专用于推理,且这一数字还将持续攀升。这一转变意味着要找到合适的模型和模型配置,并加以训练,然后将其部署到更具成本效益的计算基础设施上。这其中,高吞吐量、易于部署、支持各种软件框架、且具备低成本和高能效等优势的CPU,是行业追逐的热点。

Arm在LLaMA 2大型语言模型上的AI推理基准测试

但显然,并非所有AI处理都将在CPU上进行。打造AI加速器的公司非常多,据最近统计,这一领域的公司已接近80家,而且每家公司都想取得NVIDIA那样的成绩。Dermot O’Driscoll表示,像微软(Cobalt 100)这样的厂商迅速采用Neoverse以便快速整合自己的芯片设计并投入使用,证明了Neoverse CSS策略非常成功。

通过Neoverse CSS,Arm可以为针对自身工作负载优化性能的客户简化开发,特别是那些只需要经过验证的CPU IP模块来与其定制加速器设计配对的客户,Neoverse CSS能提供客户所需的所有接口,以便选择耦合自身的加速器。“这种方法既可以在需要CPU时提供CPU,又可以在需要AI 加速器时提供AI加速器,两全其美。”

同时,基于生态伙伴的反馈意见,Arm还发布了芯粒系统架构(Chiplet System Architecture, CSA),旨在定义一个功能强大、支持通用的芯粒生态系统。以通用芯粒互连技术(UCIe)为例,这是一项旨在解决芯粒物理层兼容性问题的行业标准,因为目前的协议层存在PCIe、CXL和AMBA等多种标准,设计人员在系统架构层面仍面临诸多难题:例如,怎样在设计时对芯粒进行逻辑分区?如何设置直接内存访问(DMA)和中断、电源和安全等管理功能?等等。要建立可互操作的生态系统,就需要在生态系统层面一致地解决这些问题。

在Dermot O’Driscoll展示的未来路线图上,尽管不是太详细,但Neoverse E/N/V系列核心已经被分别命名为Lycius/Dionysus/Adonis,对应的计算子系统也获得了代号,分别为N系列的CSS Ranger和V系列的CSS Vega,将在未来推出。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
该小组汇集了国内外领先的芯片及IP、嵌入式开发工具、操作系统等厂商,形成强有力的组织,使命是通过一站式功能安全认证服务,帮助企业提升认证价值,满足IEC 61508、ISO 26262等国际功能安全认证标准,从而更高效地达成功能安全要求。
在ICCAD 2024主峰会上,中国半导体行业协会集成电路设计分会理事长魏少军教授带来“中国芯片设计业要自强不息”主题报告演讲,深入解读了过去一年中国IC设计业的发展机遇与挑战,权威分析中国IC设计业各环节的主要数据及其背后的意义。
近日,华为终端BG CEO何刚在和紫牛基金创始合伙人张泉灵的对话中表示,华为Mate 70系列每一颗芯片都有国产的能力。此外,日前在深圳宝安中学的一场讲座中,华为终端BG 董事长余承东也自豪地宣布Mate70实现了芯片的100%国产化。
美国商务部工业与安全局(BIS)宣布了对华半导体出口管制措施的新规,140家中国公司被新增到“实体清单”中,这些公司涉及半导体生产设备制造商、晶圆厂和投资机构。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
今日,长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办,长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言,厂房建设一般主要分为四个阶段:设备选型、设
‍‍12月18日,深圳雷曼光电科技股份有限公司(下称“雷曼光电”)与成都辰显光电有限公司(下称“辰显光电”)在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势,共同推进Mi
12月18日,珠海京东方晶芯科技举行设备搬入仪式。插播:加入LED显示行业群,请加VX:hangjia188在10月31日,珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
扫描关注一起学嵌入式,一起学习,一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃,死机或其他计划外的运行时行为追溯到根本原因。在最坏的情
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
上个月,亿万富翁埃隆·马斯克谈到了年轻一代的生育问题。他强调生育的紧迫性,认为无论面临何种困难,生育后代都是必要的,否则人类可能会在无声中走向消亡。他认为人们对于生育的担忧有些过头,担心经济压力等问题