生成式 AI 和大语言模型(LLM)不断推动突破性创新,训练和推理对算力的需求也随之急剧上升。
这些现代生成式 AI 应用需要全栈加速计算,首先要有能够快速、准确处理大量工作负载的先进基础设施。为了帮助满足这一需求,Oracle 云基础设施(OCI)于近日宣布,在 OCI Compute 上全面提供 NVIDIA H100 Tensor Core GPU,同时 NVIDIA L40S GPU 也即将在 OCI Compute 上推出。
OCI 上的 NVIDIA
H100 Tensor Core GPU 实例
OCI Compute 裸机实例配备了具有 NVIDIA Hopper 架构的 NVIDIA H100 GPU,不仅大幅提升了大规模 AI 和高性能计算的性能,也为各种工作负载提供了前所未有的性能、可扩展性和通用性。
相比于 NVIDIA A100 Tensor Core GPU,使用 NVIDIA H100 GPU 的企业可提升 30 倍的 AI 推理性能和 4 倍的 AI 训练性能。H100 GPU 专为资源密集型计算任务构建,包括训练 LLM 和在运行 LLM 的同时进行推理等。
BM.GPU.H100.8 OCI Compute 机型配置(Shape)包含 8 颗 NVIDIA H100 GPU,每颗都具有 80GB 的 HBM2 GPU 内存。8 颗 GPU 之间的 3.2TB/s 双向带宽使每颗 GPU 都能通过 NVIDIA NVSwitch 和 NVLink 4.0 技术与其他 7 颗 GPU 直接通信。该配置还包含 16 块容量为 3.84TB 的本地 NVMe 硬盘、112 个内核的第四代英特尔至强 CPU 处理器以及 2TB 系统内存。
简而言之,该机型配置针对企业最具挑战性的工作负载进行了优化。
根据工作负载的时间线和规模,OCI Supercluster 使企业能够通过高性能、超低延迟的网络,将所使用的 NVIDIA H100 GPU 从单个节点扩展到多达数万颗 H100 GPU。
OCI 上的 NVIDIA L40S GPU 实例
NVIDIA 与 OCI:企业级 AI
如要了解更多信息,欢迎访问有关 Oracle 云基础设施(OCI)、OCI Compute、Oracle 如何迈向 AI 以及 NVIDIA AI Platform 网页。
Oracle 云基础设施(OCI):https://www.oracle.com/cloud/
OCI Compute:https://www.oracle.com/cloud/compute/
Oracle 如何迈向 AI:https://www.oracle.com/artificial-intelligence/
NVIDIA AI Platform:https://www.nvidia.cn/ai-data-science/