ESD与Latch-up:高抗性与解决方案 | 数字中后端课程 |
DFT设计与实现(理论) | DFT设计与实现(实践) |
IBM 设计的处理器保持了 IBM 大型机众所周知的高安全性、可用性和性能级别。
IBM 的 Telum II 处理器对其前身进行了显著改进,具有更快的速度、更大的内存容量和新功能。
“我们设计了 Telum II,以便内核可以将 AI 操作卸载到模块中其他七个相邻处理器芯片中的任何一个,” IBM 微处理器设计师 Chris Berry 说。“它为每个内核提供了对更大 AI 计算池的访问,从而减少了对 AI 加速器的争用。”
该处理器利用八个高性能内核,每个内核以固定的 5.5GHz 频率运行,并具有集成的片上 AI 加速器。该加速器直接连接到处理器的 CISC 指令集,以实现低延迟 AI 操作。与依赖内存映射 I/O 的传统加速器不同,Telum II 的 AI 加速器将矩阵乘法和其他 AI 基元作为本机指令执行,从而减少开销并提高吞吐量。Telum II 中每个加速器的 AI 计算能力翻了两番,达到每个芯片 24 TOPS。
该处理器还大幅增加了缓存容量,每个内核都可以访问 36 MB 的 L2 缓存,片上总计 360 MB。虚拟 L3 和 L4 缓存分别增长了 40%,达到 360 MB 和 2.88 GB。这些增强功能使 Telum II 能够更高效地处理大型数据集,进一步支持其 AI 和事务处理能力。
Telum II 处理器的显著特点之一是其集成数据处理单元 (DPU)。
在 IBM 大型机每天处理数十亿个事务的企业环境中,I/O 运营效率极为重要。因此,Telum II 中的 DPU 连贯地连接到处理器的对称多处理 (SMP) 结构,并配备了自己的 L2 缓存。
DPU 架构包括四个处理集群,每个集群有 8 个可编程微控制器内核,总共 32 个内核。这些内核通过本地一致性结构互连,该结构在整个 DPU 中保持缓存一致性,并将其与主处理器集成。这种集成允许 DPU 直接在片上管理自定义 I/O 协议。
Berry 说:“通过将 DPU 放在 PCI 接口的处理器端,并实现 DPU 与运行主要企业工作负载的主处理器的连贯通信,我们可以最大限度地减少通信延迟并提高性能和能效。“整个系统的 I/O 管理功耗降低了 70%。”
此外,DPU 包括用于循环冗余校验 (CRC) 加速的专用硬件和用于批量数据传输的专用数据路径,因此缓存不会受到瞬态数据的污染。
与 Telum II 处理器相辅相成的是IBM Spyre 加速器,这是一款专用的 AI 芯片,旨在将 AI 功能扩展到仅靠主处理器所能实现的之外。
Spyre 加速器安装在 75 W PCIe 适配器上,具有 32 个内核,每个内核具有 2 MB 的暂存器内存,片上总计 64 MB。与传统缓存不同,此暂存器通过共同设计的软硬件框架进行优化,可在 AI 计算期间实现高效的数据存储和管理。
Spyre 加速器支持大型语言模型和其他计算密集型 AI 工作负载。Spyre 在单个 I/O 模块中的 8 个卡中提供高达 1 TB 的内存,使 IBM Z 系统能够处理需要大量计算能力和内存带宽的 AI 工作负载。加速器的核心支持 int4、int8、fp8 和 fp16 数据类型。在同时使用多个 Spyre 卡的情况下,系统可以扩展到 1.6 TB/s 的内存带宽。
据 IBM 称,Telum II 和 Spyre 旨在以优化 AI 工作负载的方式在更大的大型机架构中协同工作。
Telum II 的片上 AI 加速器提供集成在主处理器中的即时、低延迟 AI 处理功能。相比之下,Spyre 加速器为更复杂的大规模 AI 模型提供了必要的额外、可扩展的 AI 计算能力。
IBM 声称,两者之间的协同作用解锁了集成 AI,其中多个 AI 模型(包括传统模型和 LLM)被串联使用。例如,较小、节能的模型可以处理大多数事务,而更复杂的模型则保留给需要更高置信度的情况。此策略提高了准确性并优化了资源使用情况。
Telum II 和 Spyre Accelerator 为 IBM 大型机的未来提供了强大的集成解决方案。
“我们目前正在构建一个测试系统,其中将包含 96 张 Spyre 卡,其中总共将具有 30 peta-ops 的 AI 推理和计算能力,”Berry 总结道。“这就是我们正在讨论添加到下一代 IBM Z 中的额外 AI 计算的规模。”
EETOP编译整理自allaboutcircuits
芯片精品课程推荐
ESD课程已全部更新完毕!
再放20张五折优惠券,领完为止!
(本课提供在线答疑,购课后课添加微信:ssywtt 拉你入群)