Intel下一代数据中心CPU:Chiplet设计,性能240%提升

智能计算芯世界 2023-09-06 07:40

每年一度的 Hot Chips 是半导体业界最重要的技术会议。在其中,芯片领域专家齐聚一堂,全球芯片厂商也经常选择在这里发布新产品,或是阐述未来的发展方向。

下载链接:
开放加速规范AI服务器设计指南(2023)
《未来网络白皮书(2023)合集》
1、未来网络白皮书(2023):算网操作系统白皮书 2、未来网络白皮书(2023):以网络IO为中心的无服务器数据中心白皮书 3、未来网络白皮书(2023):光电融合服务定制广域网白皮书

人工智能专题报告:智算中心—赋能AI产业化、产业AI化(2023)

中国超导体行业:立足科技前沿,满足能源战略需求(2023)
行业报告:大模型推理算力知多少?
艾瑞咨询:2023年中国AIGC产业全景报告
体系化人工智能与大模型(2023)

多样性算力:新一代计算架构超异构计算

聚力“高广深”打造先进算力网络

生成式AI:产业变革与机会(2023论坛合集)

400+份重磅ChatGPT专业报告(合集)


当地时间周一,在斯坦福大学举办的 Hot Chips 2023 上,英特尔首次披露了新一代数据中心芯片「Sierra Forest」,它的每瓦性能较前代提升了 240%,并有望于明年推出。


同时,英特尔首次将旗下数据中心芯片分为两类:一类是 Granite Rapids,专注于高能耗高性能;一类是 Sierra Forest,专注于高能效。

接下来看 Granite Rapids 和 Sierra Forest 这两款数据中心芯片的具体细节。

整体来讲,得益于引入了面积高效的 E 核(能效核),Granite Rapids 和 Sierra Forest 将有望成为迄今为止英特尔 Xeon(至强 )可扩展硬件生态系统中最重要的更新之一。

先来看 Sierra Forest,它是英特尔首款用于数据中心的 E 核 Xeon 可扩展芯片,还是基于 EUV 的 Intel 3 工艺的主导产品。英特尔表示,Sierra Forest 有望于明年上半年上市。同时,Granite Rapids 也采用相同的 Intel 3 工艺。


在设计上,Granite 和 Sierra 都是基于小芯片(chiplet)的设计,依赖通过英特尔 EMIB(Embedded Multi-Die Interconnect Bridge, 嵌入式多核心互联桥接)技术封装在一起的计算和 I/O 小芯片的混合。不仅如此,这次的小芯片设计还有独到之处,使用不同的计算 / IO 小芯片,而不是将「完整的」Xeon 小芯片封装在一起。

这意味着,Granite 和 Sierra 可以共享基于 Intel 7 工艺构建的、通用 I/O 小芯片。


除了共享平台的详细信息外,英特尔还首次提供了 E 核和 P 核(性能核)所用架构的高级概述。正如现在多代 Xeon 的情况一样,英特尔正在利用与其消费部件相同的基本 CPU 架构。

因此,Granite 和 Sierra 可以被认为是解构的 Meteor Lake 处理器,Granite 配备 Redwood Cove P 核心,而 Sierra 配备 Crestmont E 核心。


如前所述,这是英特尔首次尝试为 Xeon 市场提供 E 核。对英特尔来说,这意味着要针对数据中心工作负载调整 E 核设计,与上一代以消费级应用为中心的 E 核心设计大有不同。

英特尔透露,Crestmont 正在提供 6-wide 指令解码路径以及 8-wide 隐退后端。虽然不如英特尔的 P 核心强大,但 E 核心绝不是轻量级核心,英特尔的设计决策反映了这一点。尽管如此,它的设计在芯片空间和能耗方面都比 Granite 中的 P 核心要高效得多。

Crestmont 的 L1 指令高速缓存(I 高速缓存)将为 64KB,是早期设计中 I-cache 大小的两倍。与此同时,Crestmont E-core 系列的新成员可以将这些核心打包成 2 或 4 核集群,这与目前仅提供 4 核集群的 Gracemont 不同。最后,对于 Sierra/Crestmont,该芯片将提供与 Granite Rapids 尽可能接近的指令。这意味着有 BF16 数据类型支持,以及对各种指令集的支持,例如 AVX-IFMA 和 AVX-DOT-PROD-INT8。


同时对于 Granite Rapids,我们有 Redwood Cove P 核心。Redwood/Granite 是 Xeon 处理器的传统核心,对于英特尔来说,变化并不像 Sierra Forest 那样大,但这并不意味着他们没有改进。

在微架构方面,Redwood Cove 获得了与 Crestmont 相同的 64KB I 缓存,容量是其前身的 2 倍。但最值得注意的是,英特尔成功地进一步降低了浮点乘法的延迟,将其从 4/5 个周期减少到仅 3 个周期。像这样的基本指令延迟改进很少见,因此我们总是期盼能够出现。

除此之外,Redwood Cove 微架构还有分支预测和预取等特性,这是英特尔的典型优化目标。它们可以采取的任何措施来改进分支预测(并降低罕见失误的成本),经常会在性能方面带来相对较大的红利。

Redwood Cove 的 AMX 矩阵引擎获得了 FP16 支持,尤其适用于 Xeon 系列,而 FP16 的使用不如已支持的 BF16 和 INT8 那么多,但它总体上改进了 AMX 的灵活性。

对于内存加密的支持也正在得到改进。Granite Rapids 的 Redwood Cove 将支持 2048 个 256 位内存 key,而 Sapphire Rapids 则支持 128 个 key。


虽然现在谈论 Granite Rapids 和 Sierra Forest 的各个 SKU 还为时过早,但英特尔已明确告诉我们,核心数量总体正在增加。Granite Rapids 芯片将提供比 Sapphire Rapids 更多的 CPU 内核(SPR XCC 为 60 个)。当然,Sierra 的 144 个内核将提供更多的 CPU 内核。

在之前的 Xeon 推迟并花费很长时间才将 E 核 Xeon 可扩展芯片推向市场之间,英特尔并没有像以前那样在数据中心市场占据主导地位,因此 Granite Rapids 和 Sierra Forest 将标志着一个重要的拐点,给英特尔数据中心产品的未来发展指明了道路。


我们知道,为互联网和在线服务提供动力的数据中心承载着巨量的算力需求,同时也需要消耗大量电力。最近几年随着 AI 等技术的发展,科技公司正面临提升算力、降低能耗的挑战,这促使芯片公司专注于提升功耗效率。

目前,在数据中心芯片市场,英特尔的份额正一步步被 AMD 和 Ampere(前英特尔高管 Renee James 成立的初创公司)等竞争对手蚕食。

今年,Ampere 和 AMD 都已推出了自己的高效率云计算芯片,Arm 也在本次的 Hot Chips 2023 上提出了 Neoverse V2 平台。竞争愈加激烈的当下,英特尔有危机感在所难免。

参考链接:
https://www.anandtech.com/show/20034/hot-chips-2023-intel-details-granite-rapids-and-sierra-forest-xeons

https://www.reuters.com/technology/intel-says-new-sierra-forest-chip-more-than-double-power-efficiency-2023-08-28/

来源:机器之心

下载链接:
通用CPU性能基准测试研究综述(2023)
2023全球半导体与集成电路产业发展研究专题报告
中国智能汽车车载芯片发展研究报告
《海光CPU+DCU技术研究报告合集(上)》 
1、海光信息:国产巨无霸,引领“中国芯” 
2、国产CPU厂商领军者,进入快速增长期 
3、国产CPU领军,加速突破高端市场 
4、国产CPU领军,受益于行业信创加速,成长空间广阔 
5、国产高端处理器龙头,CPU+DCU齐赋能 
6、国产微处理器产业的领军者"
《海光CPU+DCU技术研究报告合集(下)》 
1、达梦与海光:聚焦信创新股中的软硬龙头 
2、计算机行业深度报告:曙光很近,海光不远,国产x86算力生态崛起 
3、进击的国产CPU和GPU领航者 
4、信创硬件龙头 
5、行业信创龙头,国产 CPU 之光 
6、专注服务器与数据中心,高端处理器企业乘风国产替代
基于鲲鹏处理器的国产高性能计算集群实践
算力大时代,AI算力产业链全景梳理(2023)
AI算力行业深度:GPU全球格局分析(2023)
人工智能行业报告:AI2.0、AI大模型、算力、AI赋能(2023)
《华为产业链深度系列研究合集(2023)》
液冷技术要点汇总

《数据中心液冷技术合集(2023)》

1、电信运营商液冷技术白皮书(2023) 

2、浸没式液冷数据中心运维白皮书 

3、运营商力推液冷,中兴液冷技术领先(2023)

《2023年液冷技术白皮书汇总》

1、浸没式液冷数据中心热回收白皮书(2023) 2、数据中心绿色设计白皮书(2023)

《数据中心液冷技术合集》

1、集装箱冷板式液冷数据中心技术规范 

2、浸没式液冷发展迅速,“巨芯冷却液”实现国产突破 

3、两相浸没式液冷—系统制造的理想实践 

4、AIGC加速芯片级液冷散热市场爆发

《液冷技术专题》

1、中国液冷数据中心发展白皮书 

2、全浸没式液冷数据中心解决方案 

3、浸没液冷数据中心规范 

4、喷淋式直接液冷数据中心设计规范 

5、单相浸没式直接液冷数据中心设计规范

《液冷服务器技术合集》

1、某液冷服务器性能测试台的液冷系统设计

2、浸没液冷服务器可靠性白皮书 

3、天蝎5.0浸没式液冷整机柜技术规范

《Chiplet延续摩尔定律系列合集》
1、Chiplet延续摩尔定律:先进制程替代之路
2、Chiplet延续摩尔定律,芯片测试与封装有望获益
3、半导体Chiplet引领封测行业新机遇
4、破局后摩尔时代:Chiplet重塑半导体产业链价值
5、后摩尔时代:Chiplet与先进封装
UCIe白皮书(终版)
Chiplet:延续摩尔定律的新技术,芯片测试与先进封装有望获益
Chiplet:延续摩尔定律—先进制程替代之路
《Chiplet接口和标准介绍》
1、小芯片(Chiplet)接口标准.pdf
2、为什么chiplet需要标准.pdf
《全球OCP峰会Chiplet资料汇总》
华为鲲鹏处理器介绍
鲲鹏计算产业发展白皮书
华为鲲鹏生态研究框架

《“东数西算”技术分析合集》

《2023年液冷技术白皮书汇总》

1、浸没式液冷数据中心热回收白皮书(2023) 2、数据中心绿色设计白皮书(2023)
2022年算力强基行动产品目录(2023)

世界AI大会系列:数据为核,迈向多模态AI大模型时代

AI精华系列报告:AMD发布MI300,指引Chiplet等AI芯片新方向
《CXL论坛:CXL全球厂商方案合集》
1、CXL-Forum AMD技术方案.pdf 
2、CXL-Forum CXL-Consortium技术方案.pdf
3、CXL-Forum Elastics cloud技术方案.pdf 
4、CXL-Forum Intel技术方案.pdf 
5、CXL-Forum Marvell技术方案.pdf 
6、CXL-Forum MemVerge技术方案.pdf 
7、CXL-Forum Micron技术方案.pdf
玄铁RISC-V处理器入门及实战
《芯来科技RISC-V设计与实现合集》
1、芯来科技:基于RISC-V的MCU软硬件解决方案
2、芯来科技:高可靠高安全性RISC-V处理器设计与实现


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。


温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。

智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 铁氧体芯片是一种基于铁氧体磁性材料制成的芯片,在通信、传感器、储能等领域有着广泛的应用。铁氧体磁性材料能够通过外加磁场调控其导电性质和反射性质,因此在信号处理和传感器技术方面有着独特的优势。以下是对半导体划片机在铁氧体划切领域应用的详细阐述: 一、半导体划片机的工作原理与特点半导体划片机是一种使用刀片或通过激光等方式高精度切割被加工物的装置,是半导体后道封测中晶圆切割和WLP切割环节的关键设备。它结合了水气电、空气静压高速主轴、精密机械传动、传感器及自动化控制等先进技术,具有高精度、高
    博捷芯划片机 2024-12-12 09:16 85浏览
  • 时源芯微——RE超标整机定位与解决详细流程一、 初步测量与问题确认使用专业的电磁辐射测量设备,对整机的辐射发射进行精确测量。确认是否存在RE超标问题,并记录超标频段和幅度。二、电缆检查与处理若存在信号电缆:步骤一:拔掉所有信号电缆,仅保留电源线,再次测量整机的辐射发射。若测量合格:判定问题出在信号电缆上,可能是电缆的共模电流导致。逐一连接信号电缆,每次连接后测量,定位具体哪根电缆或接口导致超标。对问题电缆进行处理,如加共模扼流圈、滤波器,或优化电缆布局和屏蔽。重新连接所有电缆,再次测量
    时源芯微 2024-12-11 17:11 109浏览
  • 本文介绍瑞芯微RK3588主板/开发板Android12系统下,APK签名文件生成方法。触觉智能EVB3588开发板演示,搭载了瑞芯微RK3588芯片,该开发板是核心板加底板设计,音视频接口、通信接口等各类接口一应俱全,可帮助企业提高产品开发效率,缩短上市时间,降低成本和设计风险。工具准备下载Keytool-ImportKeyPair工具在源码:build/target/product/security/系统初始签名文件目录中,将以下三个文件拷贝出来:platform.pem;platform.
    Industio_触觉智能 2024-12-12 10:27 68浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-12 10:13 40浏览
  • 在智能化技术快速发展当下,图像数据的采集与处理逐渐成为自动驾驶、工业等领域的一项关键技术。高质量的图像数据采集与算法集成测试都是确保系统性能和可靠性的关键。随着技术的不断进步,对于图像数据的采集、处理和分析的需求日益增长,这不仅要求我们拥有高性能的相机硬件,还要求我们能够高效地集成和测试各种算法。我们探索了一种多源相机数据采集与算法集成测试方案,能够满足不同应用场景下对图像采集和算法测试的多样化需求,确保数据的准确性和算法的有效性。一、相机组成相机一般由镜头(Lens),图像传感器(Image
    康谋 2024-12-12 09:45 75浏览
  • 一、SAE J1939协议概述SAE J1939协议是由美国汽车工程师协会(SAE,Society of Automotive Engineers)定义的一种用于重型车辆和工业设备中的通信协议,主要应用于车辆和设备之间的实时数据交换。J1939基于CAN(Controller Area Network)总线技术,使用29bit的扩展标识符和扩展数据帧,CAN通信速率为250Kbps,用于车载电子控制单元(ECU)之间的通信和控制。小北同学在之前也对J1939协议做过扫盲科普【科普系列】SAE J
    北汇信息 2024-12-11 15:45 113浏览
  • 应用环境与极具挑战性的测试需求在服务器制造领域里,系统整合测试(System Integration Test;SIT)是确保产品质量和性能的关键步骤。随着服务器系统的复杂性不断提升,包括:多种硬件组件、操作系统、虚拟化平台以及各种应用程序和服务的整合,服务器制造商面临着更有挑战性的测试需求。这些挑战主要体现在以下五个方面:1. 硬件和软件的高度整合:现代服务器通常包括多个处理器、内存模块、储存设备和网络接口。这些硬件组件必须与操作系统及应用软件无缝整合。SIT测试可以帮助制造商确保这些不同组件
    百佳泰测试实验室 2024-12-12 17:45 63浏览
  • 首先在gitee上打个广告:ad5d2f3b647444a88b6f7f9555fd681f.mp4 · 丙丁先生/香河英茂工作室中国 - Gitee.com丙丁先生 (mr-bingding) - Gitee.com2024年对我来说是充满挑战和机遇的一年。在这一年里,我不仅进行了多个开发板的测评,还尝试了多种不同的项目和技术。今天,我想分享一下这一年的故事,希望能给大家带来一些启发和乐趣。 年初的时候,我开始对各种开发板进行测评。从STM32WBA55CG到瑞萨、平头哥和平海的开发板,我都
    丙丁先生 2024-12-11 20:14 73浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-11 17:58 86浏览
  • 全球智能电视时代来临这年头若是消费者想随意地从各个通路中选购电视时,不难发现目前市场上的产品都已是具有智能联网功能的智能电视了,可以宣告智能电视的普及时代已到临!Google从2021年开始大力推广Google TV(即原Android TV的升级版),其他各大品牌商也都跟进推出搭载Google TV操作系统的机种,除了Google TV外,LG、Samsung、Panasonic等大厂牌也开发出自家的智能电视平台,可以看出各家业者都一致地看好这块大饼。智能电视的Wi-Fi连线怎么消失了?智能电
    百佳泰测试实验室 2024-12-12 17:33 56浏览
  • RK3506 是瑞芯微推出的MPU产品,芯片制程为22nm,定位于轻量级、低成本解决方案。该MPU具有低功耗、外设接口丰富、实时性高的特点,适合用多种工商业场景。本文将基于RK3506的设计特点,为大家分析其应用场景。RK3506核心板主要分为三个型号,各型号间的区别如下图:​图 1  RK3506核心板处理器型号场景1:显示HMIRK3506核心板显示接口支持RGB、MIPI、QSPI输出,且支持2D图形加速,轻松运行QT、LVGL等GUI,最快3S内开
    万象奥科 2024-12-11 15:42 88浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦