英伟达的Grace-Hopper超级芯片架构集成了Hopper GPU和Grace CPU,通过NVLink Chip-2-Chip (C2C)互联接口、LPDDR5X和HBM3实现高带宽存储和数据传输。
Hopper GPU是英伟达面向数据中心的第九代GPU,在AI大模型和HPC应用中的性能表现比前代Ampere GPU高出几个数量级,但所需要的内存容量也是惊人的,必须使用价格高昂的HMB内存来存储海量数据集。
新的Grace CPU 采用Armv9.0-A指令集架构,内置72个Arm Neoverse V2内核,支持高达512 GB的LPDDR5X内存,使得存储带宽飙升至546 GB/s,从而达到了存储容量、能效和性能的最佳平衡。
很多AIGC 应用场景需要最佳的AI推理性价比,HBM虽然具有容量大和超高带宽优势,但因为封装成本高,只适合AI训练;GDDR6对AI推理应用比较合适,但容量偏小;LPDDR5X综合性能接近GDDR6,但容量优势明显,而功耗和成本都比较低,因此成为高性能计算SoC和AI芯片设计的理想选择。
LPDDR发展历程
低功耗双倍数据速率 (LPDDR)存储器也称为LPDDR SDRAM,是一种功耗较低的同步动态随机存取存储器,适用于移动计算机和手机等设备。较旧的规范版本也称为 Mobile DDR(缩写为mDDR)。现代LPDDR SDRAM与DDR SDRAM的差异越来越大,LPDDR 技术标准已经独立于DDR标准而开发,例如LPDDR4X和LPDDR5在DDR5 SDRAM发布之前就已实施,并且可提供比DDR4 SDRAM高得多的数据速率。
不同代的LPDDR标准特性对比如下:
2021年7月,JEDEC发布了JESD209-5B,即低功耗双倍数据速率5X (LPDDR5X) 标准,并对性能规范进行了以下改善:
- 速度扩展至8533 Mbit/s
- 通过 tx/rx 均衡改善了信号完整性
- 通过新的自适应刷新管理功能提高了可靠性
- 预取性能在16n时仍与LPDDR5相同
同年11月,三星宣布开发出业界首款LPDDR5X DRAM,采用14 nm工艺,单个封装容量达到64GB,据称其功耗比LPDDR5降低20%。
奎芯LPDDR PHY架构
国产高速接口互联IP开发商奎芯科技在最近举行的媒体交流会上展示了其LPDDR PHY架构及IP优势。据奎芯副总裁王晓阳介绍,其LPDDR4X PHY IP目前已成功回片,在单通道16位带宽下,最高传输速度可达4267 Mbps,已经走在产业演进的趋势前沿。而LPDDR 5X PHY是奎芯科技最新研发成功的一款高性能内存物理层IP,采用全新的架构设计和优化算法,相较于前代产品具有更高带宽、更低功耗和更快的传输速度。
在一个支持LPDDR5X的典型SoC设计中,各部分协同工作,LPDDR内存控制子系统能够实现高速、低延迟、高可靠性的数据传输。
奎芯科技LPDDR PHY内部构成如下,其独特功能包括:可变固件的独立训练;多策略可变电压频率;内建BIST多环路测试;高速PLL。
奎芯科技LPDDR PHY具有五大优势:
- 高适配:基于DFI 5.0接口和最新JEDEC SPEC打造,可有效适配市面上最新控制器,有效兼容主流的LPDDR4x和LPDDR5x DRAM
- 低延迟:专门的并转串FIFO与指针管理,有效避免读写偏差造成的数据延迟
- 低功耗:多种主流的低功耗技术,保证性能的同时降低功耗
- 高可靠:完善的training flow和tracking策略,克服PVT的影响,保证读写margin
- 易扩展:模块化设计,灵活布局,易扩展多通道,提升带宽
面向高性能计算市场的接口和互联IP包括:针对CPU/GPU/FPGA的PCIe/CXL接口IP;针对400G/800G/1.6T Ethernet网络和交换的接口IP;针对存储器的HBM/LPDDR/DDR接口IP;以及针对2.5D/3D封装的Chiplet互联接口IP(包括UCIe、BoW和Open HBI等)。根据IPnest的统计,高性能接口和互联IP总体市场增长在2022至2026期间将达到27% CAGR。
专注于接口IP和Chiplet互联技术开发的国产IP初创公司奎芯科技于2021年成立,最近完成超亿元A轮融资,获得国产处理器内核IP开发商苏州国芯科技的战略投资。该公司自研的高速接口IP产品包括USB 3.2、PCIe 4.0、ONFI 5.0、LPDDR4X/5X等,主要面向数据中心、汽车电子、物联网和消费类电子等领域。目前,奎芯科技的串行总线接口和并行总线接口两大类产品均有最先进工艺节点的产品支撑,PCIe和LPDDR产品的成功发布预示着奎芯科技向成就芯片互联龙头的目标迈出了坚实的一步。