NVIDIAAIEnterprise加速LLM与推荐系统开发在线研讨会

英伟达NVIDIA中国 2023-07-10 20:17 834浏览 0评论 0点赞

玄铁处理器集智能、安全、端云一体芯片架构 TOLG 技术采用超紧凑的海鸥翼式引脚设计

生成式 AI 的大火，让 AI 不再是一个学术层面的概念竞赛，而是能够有效提升各行各业的生产力。但是在应用开发的层面上，AI 技术面临着不少挑战。尤其是在企业级 AI 应用中，如何将模型部署到生产环境，如何确保模型部署后的可用性和可靠性，以及如何监控和维护模型的性能等都是开发中需要解决的问题以及困难所在，这些问题也极大地制约了企业在开发 AI 应用上的生产力提升。

NVIDIA AI Enterprise 是一款面向企业级 AI 应用的一站式开发平台，也被视作 NVIDIA AI 加速平台的操作系统，为 NVIDIA 的加速基础架构提供稳定可靠的软件及开发环境，借助开发和部署优化的云原生和加速 SDK 软件套件和框架，实现 AI 工作流的快速开发和应用部署。

7 月 11 日下午 2 点，智东西公开课联合 NVIDIA 策划推出「 NVIDIA AI Enterprise 加速 LLM 与推荐系统开发在线研讨会」。研讨会邀请到 NVIDIA 开发者发展经理崔晓楠、NVIDIA 消费互联网事业部解决方案团队高级机器学习架构师张海辰和 NVIDIA 产品经理高文雯参与主讲。

其中，崔晓楠将以《NVIDIA AI Enterprise 助力并延展大模型 AI 工作流》为主题，分享 NVIDIA AI Enterprise 的最新更新内容及特性。之后，张海辰将围绕主题《基于 NVIDIA NeMo 框架的 LLM 部署实践》，着重介绍端到端云原生框架 NVIDIA NeMo^TM，以及其是如何支持开发者构建、定制以及部署 AI 模型。

最后，来自 NVIDIA 总部的 Merlin 产品经理高文雯，将就主题《利用 NVIDIA Merlin 训练部署高性能推荐系统》，为大家介绍 NVIDIA Merlin^TM 是如何助力数据科学家、机器学习工程师和研究院大规模的构建高性能推荐系统，从而获得更好的预测、更高的点击率和更快的系统部署。

NVIDIA AI Enterprise 加速 LLM

与推荐系统开发在线研讨会

★

直播时间

2023 年 7 月 11 日 14:00-15:00

演讲嘉宾&主题

14:00 - 14:20

NVIDIA AI Enterprise 助力

并延展大模型 AI 工作流

针对大模型等场景，在最新的 NVIDIA AI Enterprise 软件堆栈中，包含了针对 NeMo Framework 的官方支持。同时，针对推荐系统，语音，视觉大模型，多模态等应用方向也会在 NVIDIA AI Enterprise 的堆栈中获得支持。

在应用的部署上，NVIDIA AI Enterprise 支持应用的加速再到任意位置的大规模部署，甚至延展到多云部署的架构。本次分享将会对 NVIDIA AI Enterprise 软件套件的最新更新进行深度讲解。

演讲嘉宾

崔晓楠

NVIDIA 开发者发展经理

14:20 - 14:40

基于 NVIDIA NeMo 框架

的 LLM 部署实践

NVIDIA NeMo 是 NVIDIA AI 平台的一部分，是一个端到端云原生企业框架，用于构建、客户化和部署具有数十亿参数的生成式 AI 模型。

NeMo 框架通过多 GPU 和多节点配置，通过 3D 并行技术加速训练工作流程，提供多种客户化技术选择，以及针对语言和图像应用的大规模模型的优化推理。NeMo 使企业的生成式 AI 模型开发变得简单、经济、快速。

本次分享会深度讲解 NVIDIA NeMo 框架，以及面向开发者的 LLM 模型构建、定制和部署。

演讲嘉宾

张海辰

NVIDIA 消费互联网事业部解决方案团队

高级机器学习架构师

14:40 - 15:00

利用 NVIDIA Merlin

训练部署高性能推荐系统

NVIDIA Merlin 是 NVIDIA AI 平台的一部分，提供训练和部署推荐模型的解决方案。本次分享将围绕 Merlin 的上层 API 和底层加速包展开。

其中，上层 API 包括 Merlin models 和 Merlin systems 。Merlin models 可以帮助开发者轻松搭建 session-based 以及 transformer 模型，而 Merlin systems 则提供工具搭建端到端的多个 stage 的推荐系统。

底层加速包包括 Distributed-Embeddings (TFDE) 和 Hierarchical Parameter Server (HPS)。TFDE 可以通过 3 行 TF 的 API 轻松实现多机多卡的大模型同步训练，HPS 则可以通过 GPU cache 和多级存储加速大模型的部署。

演讲嘉宾