GTC 2025 大会 – 云与互联网线上中文专场回放通道已开启!我们总结了演讲的 Key Takeaways,带您快速回顾线上中文专场的精彩内容,如果希望详细了解,可以扫描下方二维码,或复制链接至浏览器,观看演讲回放,并下载讲义。
https://www.nvidia.cn/gtc-global/sessions/cloud-service-and-consumer-internet/?ncid=so-wech-371101-vt04
LLM 优化
[S72580] 构建以 Megatron-Core 为核心的大语言模型训练加速生态
我们实现了具有高效 CPU 卸载的分布式优化器,这是一种用于训练的 GPU 显存优化技术,可在 GPU 资源有限的情况下训练长序列
支持 HuggingFace 和 MCore 模型之间的高精度双向 ckpt 转换
针对热门的稠密 MoE 模型升级和简化训练最佳实践,提供易于使用并且非常强大的加速技术,例如 FlashAttention-3、TP-Comm-Overlapping
[S72643] 使用投机采样和计算通信 Overlap 提升 LLM 推理效率
介绍 Clover 系列投机采样 draft 模型的设计路线,如何实现低计算成本高精度
了解投机采样的原理,介绍投机采样工程落地难点,及大 batch 下如何利用动态 token tree 提升高命中率等
探索 ISO(序列内计算通信 overlap)策略在 LLM 推理期间如何提升计算利用率,从而节省大量首 token 耗时
[S72443] GLake: 大模型训练和推理的显存优化探索
深入了解大模型训练中的各种显存优化方法
基于 vTensor 的 KV cache 管理,以简化 attention kernel 适配复杂度并提升推理性能
细粒度 layer-wise 的 KV cache 管理,来显著优化高负载下大模型推理的 TTFT 指标
[S72276] Laiye AI Foundry - NVIDIA AI Enterprise 在中国的最佳实践
Laiye AI Foundry 是一个面向企业场景应用提供了大模型定制化平台,它致力于构建一个自主可控的人工智能生态系统。通过保障企业的数据主权,驱动企业的智能化转型
利用 NVIDIA AI Enterprise (NVAIE) 组件,如 NVIDIA NeMo Framework,Laiye AI Foundry 构建了一个持续改进和优化的“数据和模型飞轮”。这一机制确保了企业大模型的性能和效果能够随着时间的推移而不断提升,通过不断的学习和适应,模型能够更好地服务于企业的具体需求
此外,Laiye AI Foundry 基于 NVIDIA AI Blueprints,融合了 NVAIE 组件中的 NVIDIA NIM, NeMo-Microservices 等微服务,打造了全面的大模型企业服务,提供了强大的模型构建和部署能力,确保了服务的灵活性和可扩展性,以满足不同企业在智能化转型过程中的多样化需求
[S72647] LLM 2-bit 后量化的加速与部署实践
了解 2-bit 量化算法的详细信息
详细了解 NVIDIA GPU 上 2-bit 的高性能优化
了解压缩和加速大型语音模型推理的最佳实践
MLLM 优化/应用
[S72498] UFO-Lite: 基于自推测解码的低延迟多模态大模型
一站式多模态基础模型
多模态基础模型加速
基于 TRT-LLM 的多模态协同推理
[S74181] 重塑短视频视觉体验,基于 TensorRT-LLM 加速的智能视频质量评价与处理大模型
快手音视频采用多模态大模型进行视频质量评价,能够有效分析视频画质并归因
快手音视频采用生成式的扩散模型进行视频处理,增强和修复受损的视频画质,提升用户的消费体验
快手音视频在服务部署阶段采用 TensorRT 和 TensorRT-LLM 进行推理优化,相较于原生 PyTorch 加速 5 倍以上
[S72639] 面向海量模型业务场景的文生图高效推理加速解决方案
在 NVIDIA Nsight Systems 工具包的指导下,深入研究文本转图像工作负载的计算和内存访问模式
深入了解我们的免引擎构建技术,该技术能够在线加速新微调的模型,而不会产生任何编译优化开销
对不同的通用矩阵乘法和卷积运算进行性能建模,在单个 TensorRT 引擎下,不同尺寸的图像输入,都可以发挥 TensorRT 最优的推理性能
通过单独分配显存缓冲区,对所有的权重进行独立管理,可减少引擎构建过程中的 GPU 显存占用。有助于优化更大规模的模型和分辨率
高效的模型更新和缓存策略可更大限度地减少推理服务期间的 NVIDIA GPU 空闲
[S72031] 使用 GPU 加速图像视频处理方法的演进
使用 CUDA 重写传统算法
使用子图融合的方法加速 GPU 计算过程
使用异步调用将 GPU 利用率提高至 100%
在单个 A10 GPU 上部署 60 个视频增强模型
加速 VLM 大模型
搜推广
[S72995] 基于 TensorRT-LLM 的广告场景生成式推理加速方案
广告领域生成式召回方案探索
TensorRT-LLM 最佳实践
广告领域性能优化方案
[S74073] 下一代生成式推荐模型训推引擎的建设和落地实践
基于 torch,支持千亿参数、100 GFLOP/example 甚至更大计算量的稀疏大模型的多机多卡分布式训练。在保持 torch 易用性的同时,又能达到和 TensorFlow 同样的高性能
开发了一个基于 TensorRT 的高性能推理引擎,结合量化、算子融合等技术,支持稀疏大模型低延迟、高吞吐的在线 serving
提供了众多面向推荐系统的,开箱即用的深度优化的 kernel,包括 HSTU、Grouped LayerNorm 等,大幅提升计算效率
对于 Sparse Embedding 部分,给 TorchRec 集成了一个高性能的动态哈希表的解决方案,避免静态表需要手动指定容量和 ID 预映射的不便,同时也节省了内存资源
通过离线/近线预计算用户历史行为序列建模的结果,以及 KV Cache 等技术,极大降低了在线 serving 时的计算开销
数据科学
[S71445] 使用 NVIDIA 技术为你的母语构建 LLM
了解在为资源稀缺语言训练 LLM 时面临的主要挑战,以及如何使用先进的 NVIDIA 技术克服这些挑战
学习使用 NVIDIA NeMo Curator 进行高效数据处理和 NVIDIA NeMo Framework 模型训练的技术,从而加快迭代速度并提升性能
深入了解如何利用 NVIDIA NeMo Auto Configurator 优化针对资源稀缺语言需求而定制的超参数和架构选择
探索评估和微调策略,以增强 LLM 在各种应用中的适应性和性能
以资源稀缺语言展示 LLM 的真实应用,展示其在语言相关任务中的影响和变革潜力
[S72470] 在 GPU 上加速基于位图的集合操作
高效的集合操作可以让许多信息检索和大数据应用受益
基于位图的 GPU 集合操作仍需进一步优化
我们将分享在 GPU 上优化基于位图的集合操作的设计和实施,以提高吞吐量
演讲完整内容尽在回放中!扫描二维码或复制链接,一起来领略 AI 从生成式 AI 向 Agentic AI 的跃迁,以及 NVIDIA 全栈式软硬协同优化在提升 AI 性能和效率中的关键作用。
https://www.nvidia.cn/gtc-global/sessions/cloud-service-and-consumer-internet/?ncid=so-wech-371101-vt04
扫描下方海报二维码,观看 NVIDIA CEO 黄仁勋主题演讲回放,了解代理式 AI、机器人、加速计算等领域的发展趋势,与我们一起探索 AI 的未来!