GTC25|ChinaAIDay:预约云与互联网中文专场,点燃AI灵感!

英伟达NVIDIA中国 2025-02-25 19:03

GTC 2025 大会的 China AI Day - 云与互联网线上中文专场,将于北京时间 3 月 18 日上午 9:30 开始直播。本次专场汇聚了国内领先的云与互联网企业,包括字节跳动、火山引擎、阿里云、百度、蚂蚁集团、京东、美团、快手、百川智能、赖耶科技以及 Votee AI,他们将分享在大语言模型 (LLM)、多模态大语言模型 (MLLM)、数据科学和搜推广领域的前沿进展,展示如何采用软硬件协同优化方法实现生产级 AI 的性能和效率提升。 


无论您是开发者、工程师、IT/DevOps/MLOps 专家,还是企业技术负责人、商业决策人,或是老师、学生,通过本次专为中文用户打造的线上专场,您都将从上述企业使用 NVIDIA 软硬件解决方案极致优化工作负载的最佳实践中获取灵感、了解应用场景背后的商业洞察,并可以管中窥豹,领略从生成式 AI 向代理式 AI 的范式跃迁。此外,您还可以在本专场演讲录播上线后,下载演讲嘉宾授权分享的独家讲义 


GTC 2025 大会 China AI Day - 云与互联网

线上中文专场演讲主题速览



扫码注册

预约观看 China AI Day - 云与互联网线上中文专场演讲


主题一:LLM 优化


3 月 18 日 10:00

会议代码:S72580

构建以 Megatron-Core 为核心的大语言模型训练加速生态


黄俊

阿里云智能集团资深算法专家


演讲介绍:

Megatron-Core 是 NVIDIA 开发的用于训练超大规模 Transformer 模型的分布式框架,具有出色的分布式性能,是训练具有数千亿或更多参数的大语言模型的必备工具。


PAI-Megatron-patch 是阿里云人工智能平台 PAI 开发的大语言模型训练工具包,包含基于 Megatron-Core (Mcore) 构建高效 LLM 训练系统的关键组件,如 Mcore 和 HuggingFace 之间的双向 ckpt 转换,弥合 Mcore 和 HuggingFace 生态系统之间的差距;实现了 Distributed Optimizer CPU 卸载技术,进一步降低了大模型训练的成本;还开发了给定硬件资源条件下的自动超参数优化工具,提高了框架的可用性等功能。在此基础上,它提供了训练各种开源大语言模型的最佳实践。


3 月 18 日 10:30

会议代码:S72643

使用投机采样和计算通信 Overlap 提升 LLM 推理效率

苏磊

百川智能技术负责人

肖彬

百川智能高级软件工程师

演讲介绍:

介绍百川智能自研投机采样 (Clover 系列模型) 与计算通信 overlap 在大模型推理优化上的设计到落地流程。 


1.使用投机采样优化 decode 阶段效率问题,通过设计高命中率低成本的模型结构及动态的候选 token tree 结构,提升投机采样有效性;2.采用计算通信 overlap 优化通信占比大场景下 prefill 效率问题,通过创新的序列内 overlap 提升计算利用率,从而降低 prefill 阶段耗时。


3 月 18 日 11:00

会议代码:S72443

GLake: 大模型训练和推理的显存优化探索

赵军平

蚂蚁集团 AI Infra-推理服务与异构算力资深专家

张锐

蚂蚁集团 AI Infra-推理服

高级研发工程师

演讲介绍:

大模型需要巨大的 GPU 显存。为缓解显存不足 OOM (out of memory) 问题并实现高性能和易用性,我们将介绍一系列基于 CUDA 虚拟内存管理 (VMM) 的显存优化方案,包括训练和推理。


1.对于训练,我们分享 GMLake (ASPLOS2024) 来减少显存碎片。它动态地将非连续物理显存融合成连续的虚拟地址且对模型透明,在八个模型上的评测表明,GMLake 可每卡节省显存 9.2GB~25GB。 


2.对于推理,我们介绍 vTensor 和 LayerKV。前者是基于 VMM API 而新派生的 PyTorch tensor 数据结构,它可替代 vLLM PagedAttention,使得集成或定制新的 attention kernel 变得非常简单,例如只需修改 3 行代码可在 vLLM 中支持新的稀疏或量化 kernel。后者重点优化了显存不足导致的排队和首字延迟激增问题,在高负载下可将首字优化 3X~69X 包括张量并行 (TP) 和 PD 分离。


3 月 18 日 14:00

会议代码S72276

Laiye AI Foundry - NVIDIA AI Enterprise 在中国的最佳实践


赵磊

赖耶科技首席技术官


演讲介绍:

在生成式人工智能时代,企业正迎来前所未有的机遇与挑战。为了助力企业实现智能化转型,Laiye AI Foundry 应运而生。它是一个专为企业场景应用打造的大模型定制化平台,致力于构建一个自主可控的人工智能生态系统。通过保障企业的数据主权,Laiye AI Foundry 为企业提供了坚实的数据基础,驱动企业迈向智能化的未来。


利用 NVIDIA AI Enterprise 组件,如 NVIDIA NeMo 框架,Laiye AI Foundry 构建了一个持续改进和优化的“数据和模型飞轮”。这一机制确保了企业大模型的性能和效果能够随着时间的推移而不断提升,通过不断的学习和适应,模型能够更好地服务于企业的具体需求。基于 NVIDIA AI Enterprise 提供的 BCME (Base Command Manager Essentials) 集群管理系统,提供私有化集群部署服务保障了 GPU 集群稳定高效和稳定的运行。


此外 Laiye AI Foundry 基于 NVIDIA AI Blueprint,融合了 NVIDIA AI Enterprise 组件中的 NVIDIA NIM、NeMo 等微服务,打造了全面的大模型企业服务, 提供了强大的模型构建和部署能力,确保了服务的灵活性和可扩展性,以满足不同企业在智能化转型过程中的多样化需求。


3 月 18 日 14:30

会议代码:S72647

LLM 2-bit 后量化的加速与部署实践

陈伟

字节跳动工程师

郭义

字节跳动工程师

演讲介绍:

我们深入研究了用于 LLM 的高精度 2-bit 权重压缩。将模型参数解耦为整数和浮点部分,并通过对权重和 scale/zp 的交替迭代进行优化,求解局部极小值,最终在 Llama-1/2 7B~70B 的 2-bit 后量化上实现了 SOTA 精度。


此外,我们还探索利用 2-bit 内存访问优势的新技术,并基于 TensorRT-LLM 中的 w4a16 GEMM 运算符开发 GEMM CUDA 内核,该内核可以高效加速 w2a16 模型的推理,并在 NVIDIA GPU 上实现 1.4 倍至 1.7 倍的加速。


主题二:MLLM 优化/应用


3 月 18 日 9:30

会议代码:S72498

UFO-Lite: 基于自推测解码的低延迟多模态大模型


希滕

百度资深工程师,中科院客座教授/研究员


演讲介绍:

近年来,多模态大语言模型 (MLLM) 展示了卓越的能力和强大的泛化能力。然而,目前的 MLLM 往往难以满足快速响应的需求,推理延迟成为其在现实应用中的一个重要的挑战。


本讲座将介绍 UFO-Lite,这是 VIMER-UFO MLLMs 系列的最新快速版本,其针对现实场景中的高效化部署进行了优化。


具体而言,UFO-Lite 引入了自推测解码机制,显著的减少了端到端的延迟,且准确性几乎没有损失。它采用了新颖的双 LLM 结构,将自回归生成任务中序列化的多次前向推理卸载到了快速分支(即草稿模型),并通过原始模型对草稿序列进行并行的验证,以保持精度。


为了实现自推测解码,UFO-Lite 基于量化感知的知识蒸馏,有效地开发了双 LLM 的快速分支,确保其分布与原始模型相似且具备较高的推理速度。


此外,UFO-Lite 还提出了基于置信度的自适应切换,利用动态验证窗口大小,而不是固定大小,并兼容短序列生成。UFO-Lite 在 AI2D 和 MathVista 数据集上展示了与 Qwen2-VL-7B 和 InternVL2-8B 相当的性能。在 MMMU 上,它实现了与 InterVL2-8B、MiniPCPMV2-2_6 和 GLM-4V-9B 相当的结果。与上述模型相比,UFO-Lite 可以加速 2 倍以上。此演讲可以为进一步发展高效且有效的多模态大语言模型提供有价值的见解。


3 月 18 日 11:30

会议代码S74181

重塑短视频视觉体验,基于 TensorRT-LLM 加速的智能视频质量评价与处理大模型


袁坤

快手算法专家


演讲介绍:

快手视频内容丰富多样,记录并分享了每一种生活。相较于由专业机构生产的视频,快手包含了更多样的用户创作内容。但这些视频由于多种因素存在画质差异,为了提升用户消费体验,快手音视频部门致力于通过 AI 算法和大数据进行视频的内容理解、质量评价和增强修复处理。


本次分享会介绍快手音视频结合大模型技术进行的业务实践:(1)KVQ: 白盒化的视频质量评价算法,针对复杂的视频内容和低质成因提供一致性的客观质量打分和归因分析;(2)LPM: 兼具真实性与保真度的处理大模型,基于海量数据和 DiT 大模型重塑视觉体验;(3)高效部署:通过引入 TensorRT 和 TensorRT-LLM,推理效率相较于原生 PyTorch 加速 5 倍以上。


3 月 18 日 15:30

会议代码S72639

面向海量模型业务场景的文生图高效推理加速解决方案

李克森

阿里云智能集团基础设施事业部技术专家

吴正彪

阿里云智能集团基础设施事业部高级工程师

演讲介绍:

文生图掀起了一股 AI 创作浪潮,是当下生成式 AI 赛道最受关注的应用方向之一。然而,这些服务的推理部署上线面临着诸多挑战,例如面向消费者 (ToC) 场景下,处理大量用户自定义模型时所带来的高昂编译优化成本;较长的图片生成时间导致的用户体验下降;频繁加载/切换不同模型导致的 GPU 资源利用效率低下等问题。

为了应对这些挑战,我们推出了一套基于 TensorRT 的文生图推理加速解决方案。利用 cuBLAS、cuDNN、CUTLASS 和 CUDA 算子融合技术,在各类算子中都实现了极致的性能。我们还设计了高效的权重重排、权重更新和线上模型免编译等技术,实现推理服务期间快速的模型优化与切换。总体而言,相较于未定制优化的社区 PyTorch 版本,我们在各种 NVIDIA GPU 上实现了最高 1.8 倍的加速比,业务成本降低多达 40%,同时显著改善了生成式 AI 用户的体验。


3 月 18 日 15:30

会议代码S72031

使用 GPU 加速图像视频处理方法的演进


朱亦凡

火山引擎高级软件工程师


演讲介绍:

在实际应用过程中,基于卷积神经网络的 AI 算法,由于优越的性能表现,逐步取代了传统算法。但是随着生活水平的提高,人们对于视频质量的要求也越来越高,各种算法对于算力的要求也越来越高,CPU 已经不能满足最新算法的算力要求,因此 GPU 加速方法得到了广泛的应用。


随着 AI 技术的发展,增强技术从单一模型逐渐发展到多模型叠加,取得了更好的增强效果。最新试验表明,基于画质信息结构化的动态自适应模型叠加方法成为了主流。


AI 算法处理高分辨率的视频图像对显存的巨量开销,和有限的 GPU 显存形成了天然矛盾。我们会描述如何在一张 GPU 上运行几十种图像增强模型的调度方法,以及最新的 VLM 调度优化的内容。经过异步执行器调度优化,填补了 LLaVA 算法中的 GPU 空隙,通过 nsys 分析得到的结果,整体速度相比 SGLang 提升了 20%。


主题三:搜推广


3 月 18 日 16:30

会议代码:S72995

基于 TensorRT-LLM 的广告场景生成式推理加速方案

张泽华

京东算法总监

李健

京东算法架构师

演讲介绍:

电商平台具有极其复杂的用户决策和行为逻辑,传统的推荐算法存在明显的容量瓶颈。而大语言模型在复杂模式识别、语义理解和泛化性上具有显著优势,配合 DPO 等偏好对齐算法在具体的召回优化任务上体现出极强的适应性和灵活性。LLM 及相关技术将推动搜索、广告和推荐领域的技术创新和效率突破。京东广告基于这一技术洞察,探索了一套可实现的生成式召回服务解决方案,并且基于 TensorRT-LLM 解决生成式大型模型的端到端推理性能问题。


3 月 18 日 16:30

会议代码:S74073

下一代生成式推荐模型训推引擎的建设和落地实践

于磊

美团资深技术专家

马驰

美团高级技术专家

演讲介绍:

大模型技术在搜索、推荐和广告领域的应用如火如荼,尤其是以生成式推荐为代表的研究被视为下一代搜推广稀疏大模型的全新技术路线,成为各大公司争相探索和落地的方向。


本次分享主要介绍我们基于 Torch 搭建的一套易于使用的高性能分布式训推框架,低成本支持类似 GPT-3 计算规模甚至更大 FLOPS 的稀疏大模型的训练、推理、部署和线上实验。引入生成式推荐技术后,多个业务场景下都观察到了扩展定律 (scaling law),线上 AB 实验也取得了一定的效果收益。


主题四:数据科学


3 月 18 日 15:00

会议代码S71445

使用 NVIDIA 技术为你的母语构建 LLM

陈豪杰

Votee AI 

首席技术官

钟卓熹

Votee AI 人工智能

研究工程师

演讲介绍:

我们将提供详细的路线图,以便使用 NVIDIA 强大的 GPU 架构和软件工具训练专为资源稀缺语言(例如广东话/粤语)训练的大语言模型。


了解如何使用 NeMo Curator 预处理数据集,以高效处理语言细微差别,并利用 NeMo 框架优化模型训练和超参数调优。我们将探索专为资源稀缺语言设计的架构调整,演示模型性能的量化,并分享重点介绍实际应用的案例研究。最后,您将拥有切实可行的实施和部署 LLM 的策略,以满足服务水平低下的语言社区的独特需求。


3 月 18 日 16:00

会议代码S72470

在 GPU 上加速基于位图的集合操作


黄瓒

NVIDIA 加速计算专家


演讲介绍:

从信息检索到各种大数据工作负载(包括混合检索和留存分析),高效的集合操作可使许多应用受益。


Bitmap 是构建高性能集合操作工具包的基本数据结构,我们看到其中一些工具包在行业中取得了巨大成功。与此同时,GPU 上基于位图的集合操作工具包仍需进一步优化。


在本次演讲中,我们将分享基于位图的集合操作优化实践,详细阐述高效集合并集、交集、差集和其他操作的设计和实现要点,并展示如何与现有的基于排序数组的 GPU 集合操作工具包 (如 Thrust) 合作。通过充分利用 GPU 设备显存带宽和高效的线程调度机制,并通过位图减少显存占用,我们可以在密集集合的运算上提供比现有工具包更高的吞吐量。

扫码注册

预约观看 China AI Day - 云与互联网线上中文专场演讲



请扫描上方二维码或点击阅读原文进行注册,并关注后续的系列预告。


如何预约云与互联网线上中文专场演讲


步骤一:扫码或电脑打开链接到专场落地页,点击希望预约的“Add to Schedule”绿色按钮,链接 https://www.nvidia.cn/gtc-global/sessions/cloud-service-and-consumer-internet/?ncid=so-wech-371101-vt04



步骤二:输入电子邮箱地址注册或登录,或按照页面指引注册免费线上参会账号



步骤三:进入注册入口,选择“免费线上大会”,完善页面相关信息



步骤四:请留意,免费线上参会需勾选“GTC Virtual Registration”后点击“Submit Order



步骤五:完成注册/登录后,重新扫码或打开专场落地页链接,点击希望预约演讲的“Add to Schedule”绿色按钮,跳转到新页面后再次点击,状态变为“Scheduled”即预约成功,链接:https://www.nvidia.cn/gtc-global/sessions/cloud-service-and-consumer-internet/?ncid=so-wech-371101-vt04;点击“Scheduled”按钮可以取消预约。 



GTC 2025 将于 2025 年 3 月 17 至 21 日在美国加州圣何塞及线上同步举行,扫描下方海报二维码,立即注册线上大会或购买现场参会门票。


评论 (0)
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 199浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 309浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 590浏览
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 487浏览
  • 在过去的很长一段时间里,外卖市场呈现出美团和饿了么双寡头垄断的局面。美团凭借先发优势、强大的地推团队以及精细化的运营策略,在市场份额上长期占据领先地位。数据显示,截至2024年上半年,美团外卖以68.2%的市场份额领跑外卖行业,成为当之无愧的行业老大。其业务广泛覆盖,从一线城市的繁华商圈到二三线城市的大街小巷,几乎无处不在,为无数消费者提供便捷的外卖服务。饿了么作为阿里本地生活服务的重要一环,依托阿里强大的资金和技术支持,也在市场中站稳脚跟,以25.4%的份额位居第二。尽管市场份额上与美团有一定
    用户1742991715177 2025-05-06 19:43 92浏览
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 408浏览
  • 飞凌嵌入式作为龙芯合作伙伴,隆重推出FET-2K0300i-S全国产自主可控工业级核心板!FET-2K0300i-S核心板基于龙芯2K0300i工业级处理器开发设计,集成1个64位LA264处理器,主频1GHz,提供高效的计算能力;支持硬件ECC;2K0300i还具备丰富的连接接口USB、SDIO、UART、SPI、CAN-FD、Ethernet、ADC等一应俱全,龙芯2K0300i支持四路CAN-FD接口,具备良好的可靠性、实时性和灵活性,可满足用户多路CAN需求。除性价比超高的国产处理器外,
    飞凌嵌入式 2025-05-07 11:54 87浏览
  • 后摄像头是长这个样子,如下图。5孔(D-,D+,5V,12V,GND),说的是连接线的个数,如下图。4LED,+12V驱动4颗LED灯珠,给摄像头补光用的,如下图。打开后盖,发现里面有透明白胶(防水)和白色硬胶(固定),用合适的工具,清理其中的胶状物。BOT层,AN3860,Panasonic Semiconductor (松下电器)制造的,Cylinder Motor Driver IC for Video Camera,如下图。TOP层,感光芯片和广角聚焦镜头组合,如下图。感光芯片,看着是玻
    liweicheng 2025-05-07 23:55 392浏览
  • Matter协议是一个由Amazon Alexa、Apple HomeKit、Google Home和Samsung SmartThings等全球科技巨头与CSA联盟共同制定的开放性标准,它就像一份“共生契约”,能让原本相互独立的家居生态在应用层上握手共存,同时它并非另起炉灶,而是以IP(互联网协议)为基础框架,将不同通信协议下的家居设备统一到同一套“语义规则”之下。作为应用层上的互通标准,Matter协议正在重新定义智能家居行业的运行逻辑,它不仅能向下屏蔽家居设备制造商的生态和系统,让设备、平
    华普微HOPERF 2025-05-08 11:40 338浏览
  • 硅二极管温度传感器是一种基于硅半导体材料特性的测温装置,其核心原理是利用硅二极管的电学参数(如正向压降或电阻)随温度变化的特性实现温度检测。以下是其工作原理、技术特点及典型应用:一、工作原理1、‌PN结温度特性‌硅二极管由PN结构成,当温度变化时,其正向电压 VF与温度呈线性负相关关系。例如,温度每升高1℃,VF约下降2 mV。2、‌电压—温度关系‌通过jing确测量正向电压的微小变化,可推算出环境温度值。部分型号(如SI410)在宽温域内(如1.4 K至475 K)仍能保持高线性度。
    锦正茂科技 2025-05-09 13:52 209浏览
  • 温度传感器的工作原理依据其类型可分为以下几种主要形式:一、热电阻温度传感器利用金属或半导体材料的电阻值随温度变化的特性实现测温:l ‌金属热电阻‌(如铂电阻 Pt100、Pt1000):高温下电阻值呈线性增长,稳定性高,适用于工业精密测温。l ‌热敏电阻‌(NTC/PTC):NTC 热敏电阻阻值随温度升高而下降,PTC 则相反;灵敏度高但线性范围较窄,常用于电子设备温控。二、热电偶传感器基于‌塞贝克效应‌(Seebeck effect):两种不同
    锦正茂科技 2025-05-09 13:31 194浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦