该蓝图可连接 Cadence、ETAP、施耐德电气和 Vertiv 等解决方案,让工程师能够利用数字孪生技术设计、测试和优化新一代智能制造数据中心。
AI 正成为主流,推动了对专门用于 AI 训练和推理的基础设施的 AI 工厂,以及智能生产的空前需求。
许多 AI 工厂将达到吉瓦级规模。建设一座吉瓦级 AI 工厂是一项非凡的工程和物流壮举,需要供应商、建筑师、承包商和工程师等数万名工作人员共同努力,建造、运输和组装近 50 亿个组件和超过 21 万英里的光纤电缆。
为帮助设计和优化这些 AI 工厂,NVIDIA 在 GTC 大会上发布了用于 AI 工厂设计和运营的 NVIDIA Omniverse Blueprint。
在 GTC 主题演讲中,NVIDIA 创始人兼首席执行官黄仁勋展示了 NVIDIA 数据中心工程团队如何基于 Omniverse Blueprint 开发应用,以规划、优化和模拟一座吉瓦级 AI 工厂。通过连接 Cadence Reality 数字孪生平台和 ETAP 等领先的仿真工具,工程团队可以在施工开始前就测试和优化电力、冷却和网络。
工程 AI 工厂:仿真优先的方法
用于 AI 工厂设计和运营的 NVIDIA Omniverse Blueprint 使用 OpenUSD 库,使开发人员能够聚合来自不同来源的 3D 数据,如建筑本身、NVIDIA 加速计算系统以及施耐德电气和 Vertiv 等供应商提供的电源或冷却单元。
通过统一数十亿组件的设计和仿真,该蓝图能够帮助工程师解决以下复杂挑战:
组件集成和空间优化 — 可统一 NVIDIA DGX SuperPOD 等系统 50 亿组件的设计和仿真。
冷却系统性能和效率 — 使用由 NVIDIA CUDA 和 Omniverse 库加速的 Cadence Reality 数字孪生平台,模拟和评估 Vertiv 和施耐德电气的混合空气和液冷解决方案。
电力分配和可靠性 — 使用 ETAP 设计可扩展、冗余的电气系统,以模拟电力模块的效率和可靠性。
网络拓扑和逻辑 — 利用 NVIDIA Spectrum-X 网络和 NVIDIA Air 平台微调高带宽基础设施。
借助 Omniverse 打破工程壁垒
AI 工厂建设中最大的挑战之一是电力、冷却和网络建设等不同团队各自分离,导致效率低下和潜在故障。
使用该蓝图,工程师现在可以:
在完整背景下协作 — 多个专业领域可以并行迭代,共享实时仿真,展示一个领域的变化如何影响另一个领域。
优化能源使用 — 实时仿真更新使团队能够为 AI 工作负载找到最高效的设计。
消除故障点 — 通过在部署前验证冗余配置,组织可以降低代价高昂的停机风险。
模拟真实条件 — 预测和测试不同 AI 工作负载将如何影响冷却、电力稳定性和网络拥塞。
通过跨领域整合实时仿真,该蓝图使工程团队能够探索各种配置,以模拟所有权成本并优化电力利用率。
实时仿真加速决策制定
在黄仁勋的演示中,工程师能够实时调整 AI 工厂配置,并立即看到影响。
例如,冷却布局的微小调整显著提高了效率,这一细节可能在纸面上被忽略。团队无需等待数小时获得仿真结果,而是可以在几秒钟内测试和改进策略。
一旦确定最佳设计,Omniverse 就能够简化与供应商和施工团队的沟通,确保建造的内容与模型完全匹配,直至最小的细节。
未来可期的 AI 工厂
AI 工作负载并非一成不变。下一波 AI 应用将进一步推动电力、冷却和网络建设需求。用于 AI 工厂设计和运营的 Omniverse Blueprint 通过以下方式确保 AI 工厂做好准备:
工作负载感知仿真 — 预测 AI 工作负载的变化将如何影响数据中心规模的电力和冷却。
故障场景测试 — 模拟电网故障、冷却泄漏和电力尖峰,以确保系统弹性。
可扩展升级 — 提前数年规划 AI 工厂扩展并估算基础设施需求。
在规划改造和升级时,用户可以轻松测试和模拟成本和停机时间,以打造面向未来的 AI 工厂。
对于 AI 工厂运营商来说,保持领先不仅关乎效率,还关乎防止可能导致每天损失数百万美元的基础设施故障。
对于一座吉瓦级 AI 工厂,每天的停机时间可能造成超过 1 亿美元的损失。通过提前解决基础设施挑战,该蓝图降低了风险并缩短了部署时间。
AI 工厂运营的代理式 AI 之路
NVIDIA 正在与 Vertech 和 Phaidra 等重要公司一起致力于蓝图的下一步发展,将其扩展到 AI 支持的运营中。
Vertech 正在与 NVIDIA 数据中心工程团队共同开发 NVIDIA 的先进 AI 工厂控制系统,该系统集成了 IT 和运营技术数据,以增强弹性和运营可见性。
Phaidra 正在与 NVIDIA 一同将强化学习 AI 智能体集成到 Omniverse 中。这些代理通过实时场景仿真优化热稳定性和能源效率,创建能够适应不断变化的硬件和环境条件的数字孪生。
AI 数据中心热潮
AI 正在重塑全球数据中心格局。随着 AI 驱动的数据中心升级预计将投资 1 万亿美元,数字孪生技术不再是可选项,而是必需品。
用于 AI 工厂设计和运营的 NVIDIA Omniverse Blueprint 有望帮助 NVIDIA 及其伙伴生态系统引领这一转型,帮助 AI 工厂运营商在不断发展的 AI 工作负载中保持领先地位,最大限度地减少停机时间并提高效率。
了解更多关于 NVIDIA Omniverse 的信息,请观看 GTC 主题演讲,注册参加 Cadence 的 GTC 会议以查看 Omniverse Blueprint 的实际应用,并阅读更多关于 AI 工厂的信息。
点击“阅读原文”或扫描下方海报二维码,观看 NVIDIA CEO 黄仁勋主题演讲回放,了解代理式 AI、机器人、加速计算等领域的发展趋势,与我们一起探索 AI 的未来!