尽管一年一度的英伟达(NVIDIA)GTC大会落下了帷幕,但超过20万的注册参与人数,500余场学术会议,多项有望为万亿美元的产业带来改变的新技术,回想起来仍然令人感到激动。而借着AI、高性能计算和元宇宙的东风,英伟达的市值也已经突破7700亿美元。
英伟达创始人兼CEO黄仁勋在接受媒体采访时曾表示,现在的英伟达将自身看作是一家全栈型计算公司,不但生产优秀的芯片,还拥有优秀的专业知识和算法,并与许多伟大的公司合作,“这让我们能够有为许多重要行业提供技术和服务的机会与能力。”
永不停歇的加速计算
加速计算是科技的三大现代驱动力之一。在过去的十年中,借助五代GPU的进步以及在GPU之上构建的完整软件栈,加速计算已实现了1000倍性能提升。而伴随着数据中心成为新的计算单元,多个GPU有效协同地工作,让计算能力取得近十万倍的性能提升。
在GTC主题演讲中,黄仁勋发布了NVIDIA Quantum-2——新一代的InfiniBand网络平台,为云计算提供商和超级计算中心提供极致的性能、广泛的接入能力及强大的安全性。
NVIDIA Quantum-2平台即400Gbps的InfiniBand网络平台,包括NVIDIA Quantum-2交换机、ConnectX-7网卡、BlueField-3 DPU(数据处理器)和所有支持这种新架构的软件,可提供每秒400Gb/s的高吞吐量和先进的多租户支持功能,这也是迄今为止最先进的端到端网络平台。
65个全新及更新的软件开发工具包,包括加速计算库、代码样本和指南,则是英伟达本次GTC的又一个亮点,可以为数据科学家、研究者、学生和开发者带来更好的特性和功能。
例如ReOpt(用于实时物流,可以优化车辆路线、仓库选择和车队组合)、cuNumeric(用于阵列计算,实现NumPy应用编程接口)、cuQuantum(用于量子计算,大幅加速大型量子电路的模拟速度)和CUDA-X加速DGL容器(用于图神经网络),为量子计算、到户交付算法和图神经网络挖掘带来了新一代加速SDK。
Nvidia Modulus则是用于开发physics-ML模型的框架,可在多GPU、多节点上做训练。黄仁勋说,由此生成的模型,其物理仿真速度比模拟快1000-10万倍,用Modulus打造地球“数字孪生”模型,就能解决气候科学的一些问题。
目前,NVIDIA产品目录中有150多个加速计算工具包,为游戏与设计、生命与地球科学、量子计算、AI、网络安全、5G和机器人等行业提供服务,NVIDIA开发者计划中的近300万名成员使用这些工具包,这个数字在过去五年增长了6倍。并行计算平台和编程模型(CUDA)仅在2020年就被下载了700万次,自发布以来的下载次数已达到3000 万次。
此外,为了应对日渐复杂的网络威胁,NVIDIA还发布了一款结合BlueField DPU、DOCA 1.2和Morpheus三种技术的零信任网络安全平台,利用该平台的一整套功能,网络安全行业可构建实时保护客户数据中心的解决方案,行为分析和威胁检测的加速性能比普通服务器快600倍。
值得关注的是,Checkpoint、Fortinet、Palo Alto Networks等网络安全公司的NGFW防火墙服务预计都将基于BlueField进行部署,这也被视作英伟达生态扩展重要的里程碑事件。
欢迎来到元宇宙的世界
随着引入NVIDIA Omniverse的新功能和合作伙伴,互联网正加速从普通2D演变为充满活力的3D世界。
但人们可能对元宇宙还比较陌生,不知道能在上面做些什么,一如当年万维网刚刚出现的场景。但现在,web已经成为我们沟通的基本方式,“今后,如何使用Omniverse模拟仓库、工厂、物理和生物系统、5G边缘、机器人、自动驾驶汽车,甚至是虚拟形象的数字孪生,是一个永恒的主题。”黄仁勋表示,有了Omniverse,就有了创建全新3D世界,或对物理世界进行建模的技术。
这意味着,这将是一个比现实世界规模大得多的“新世界”,在这个世界里,人们不但能够拥有、购买、出售房产、家具、汽车、奢侈品和艺术品,甚至能创造出比现实世界更丰富多样的东西。而自2020年年底发布以来,Omniverse已被500家公司的设计师下载了7万次。
本届GTC上与Omniverse相关的两个重磅发布包括:
● Omniverse Avatar,用于连接语音AI、计算机视觉、自然语言理解、推荐引擎和模拟方面的技术。在该平台上创建的虚拟形象是具有光线追踪3D图像效果的交互式角色,可以看到、说话、谈论各种主题,以及合理地理解表达意图。
黄仁勋说未来会有数十亿机器人出现在我们的生活中,但无论是实体机器人,还是虚拟机器人,都需要实现人机交互。于是,他在GTC上展示了Project Maxine如何利用Omniverse Avatar平台将计算机视觉、Riva语音AI以及虚拟形象动画和图形连接到一个实时对话的AI机器人—“Toy Jensen Omniverse Avatar”上。
他还演示了Project Tokkio,这是一个位于自助式餐厅服务亭中的虚拟服务员,其可看到两名顾客,与之交谈并理解他们的对话。这些演示由NVIDIA AI软件和目前全球最大的可定制语言模型—Megatron 530B驱动。
而这只是冰山一角,今后,Avatar技术还将广泛应用于教育、零售、客户服务、游戏、视频会议等诸多场景中。
● Omniverse Replicator,一款用于训练深度神经网络的合成数据生成(synthetic data generation)引擎。很显然,其目的是为了帮助开发者创建训练AI所需的海量数据。目前,NVIDIA开发了两款Replicator合成数据生成引擎:面向通用机器人、用于Isaac Sim的Omniverse Replicator,以及面向自动驾驶汽车、用于DRIVE Sim的Omniverse Replicator。
此外,基于NVIDIA Riva语音AI软件,英伟达还推出了一款名为NVIDIA Riva的定制语音软件。据称,Riva能够识别7种语言,还能生成字幕、翻译、总结、回答问题、理解意图,且实时响应。利用该工具,只需30分钟的音频数据,Riva就可以调整到特定的声音,可对声音音高、能量等做各种精细化调整,并由此在一天之内打造类似真人的定制语音,从而为虚拟助理、呼叫中心语音和其他基于语音的应用程序提供支持。
英伟达方面更愿意将Omniverse称之为“平台”,是物理级准确的3D虚拟世界的“连接件”,将拥有AR、VR和多GPU渲染等新功能,并集成基础设施和工业孪生应用程序与Bentley Systems和Esri的软件,从而可以面向建筑、制造、游戏开发、媒体娱乐等多个领域,用于扩展、加强企业现有的工作流。
为边缘AI和自主机器铺平道路
近年来,机器人的应用领域和形态发展相当快,从餐厅、仓储,到购物中心、酒店,几乎无处不在。未来,智能送货、仓储搬运、清洁防疫机器人的逐步普及,相信也不会令人感到意外。
但打造一个机器人不能只关心硬件,智能机器人首先需要感知世界,然后在此基础上进行决策并采取行动。为此,英伟达在本届GTC上发布了全球最小、功能最强大、能效最高的AI超级计算机——NVIDIA Jetson AGX Orin,为机器人、自主机器、医疗器械和其他形式的边缘嵌入式计算带来了无限可能。
Jetson AGX Orin建立在NVIDIA Ampere架构之上,在与前代机型Jetson AGX Xavier保持相同的外形尺寸和引脚兼容性基础上,将处理能力提升了6倍,可在INT8机器学习工作负载中实现200 TOPS的性能,这与内置GPU的服务器性能相媲美,但尺寸却只有人的手掌那么大。
资料显示,Jetson AGX Orin采用包含2048个CUDA内核的NVIDIA Ampere架构GPU和12个Arm®Cortex-A78AE CPU,以及新一代深度学习和视觉加速器。高速接口、更快的存储带宽和对多模态传感器的支持,为多个并行AI应用流水线输送数据。
在具体应用方面,按照英伟达所说,其针对特定用例的软件框架包括用于机器人技术的Isaac Sim on Omniverse,用于医疗健康的Clara Holoscan SDK,以及用于自动驾驶的NVIDIA DRIVE。
“建立在Omniverse之上的Isaac Sim将是有史以来最逼真的机器人模拟器,该模拟器的目标是让机器人无法分清自己是在模拟环境中还是在现实世界中。”黄仁勋说,NVIDIA Isaac生态系统现已有700多家公司和合作伙伴,这个数字在过去4年里增长了5倍。
为此,英伟达方面宣布,Isaac Sim on Omniverse中包括的Isaac Sim Replicator,可自动生成合成数据用来对机器人进行AI训练;支持机器人操作系统(ROS)开发人员社区,使ROS开发者更容易在Jetson平台上构建高性能AI机器人,从而实现完整的“端到端机器学习循环”闭环。
英伟达还通过强大的AI流分析工具包DeepStream 6.0为视觉AI带来低代码开发功能。据介绍,该版本引入了Graph Composer,这一全新低代码编程工具增强了DeepStream的用户体验。DeepStream和Graph Composer将用户底层平台、框架和库的具体内容抽象化,使开发者能够将构建加速应用的时间从数周缩短至数日。
更加自信有趣的自动驾驶
按照黄仁勋的说法,所有移动之物都将实现完全或近乎完全的自主化。“到2024年,绝大多数新电动车都将具备真正的自动驾驶功能。”
作为英伟达自动驾驶汽车全栈开放式生产平台的最新版本,NVIDIA DRIVE Hyperion 8拥有更为完整的硬件和软件架构,其传感器套件包括12个摄像头、9个雷达、12个超声波和一个前置激光雷达,所有处理均通过两个NVIDIA Orin系统级芯片进行。
NVIDIA DRIVE Orin系统级芯片每秒可完成254万亿次运算(TOPS),旨在处理自动驾驶汽车中同时运行的大量应用程序和深度神经网络(DNN),同时达到了ISO 26262、 ASIL-D等系统安全标准。
而Hyperion 8中内置的Omniverse Replicator则能够创建大量、多样化的精确物理数据以满足自动驾驶汽车和机器人开发者的需求,并生成人类难以或无法标记的真值数据,如速度、深度、被遮挡的物体、恶劣的天气条件、追踪各传感器上的物体移动等。
汽车内部也将被彻底改变。旨在消除日常驾驶中压力与繁琐的AI平台–NVIDIA DRIVE Concierge和DRIVE Chauffeur也很有意思,它们的出现,可以为驾驶者提供低延迟、高品质的360度4D 可视化服务,让智能技术的应用范围从驾驶员扩展到车内数字体验。
NVIDIA DRIVE Concierge 应用了 Maxine 虚拟形象技术,将重新定义消费者与汽车的互动方式,尤其是在智能座舱中,“Maxine将把您的汽车变成一位管家。”。此外,英伟达地图构建团队也正在向全球扩展,同时进行测绘地图构建(survey mapping)和车队地图构建(fleet mapping)
计算领域最具变革性的驱动力
如黄仁勋在演讲中所说,加速计算推动了现代AI的发展,它掀起的浪潮正在涌向科学界和全球各行各业,而这一切都基于3类芯片—GPU、CPU、DPU,以及从云端到边缘部署广泛的多种系统—DGX、HGX、EGX、RTX和AGX系统。
去年,深度学习在一毫秒的时间尺度内对3.05亿个原子进行了模拟,揭示了新冠病毒 SARS-CoV-2的内部结构。这项工作标志着与15年前在20秒内对100万个原子进行模拟的最先进技术相比,其效能增加了1000万倍以上。
这意味着,继GPU和高性能计算(HPC)之后,AI或者是AI+HPC,正成为当今计算领域最具变革性的驱动力。
为此,NVIDIA发布了其Triton推理服务器重大更新,被黄仁勋称为“推理工具至今最重大的一次发布”。Triton支持在云、数据中心、企业边缘和嵌入式设备等环境中对 GPU和CPU进行AI推理,并可与AWS、Google Cloud、Microsoft Azure、阿里云PAI-EAS等平台集成。
此外,一款经 NVIDIA 优化、认证和支持的用于开发和部署 AI 的端到端软件套件NVIDIA AI Enterprise 也集成了 Triton,客户可利用它在本地数据中心和私有云的主流服务器上运行 AI 工作负载。
也就是说,Triton推理服务器已经实现了对所有模型、框架和多查询类型的推理、机器学习和深度学习,横跨云、本地、边缘和嵌入式系统,以及GPU、CUDA、X86和Arm多种架构,其通用性得到了极大的提升和强化。
除了Triton,本次GTC上与AI相关的发布还包括:
● 宣布与DGL(Deep Graph Library)社区合作,加速GNN(Graph Neural Network)处理。
● 宣布推出为训练具有数万亿参数的语言模型而优化的NVIDIA NeMo Megatron框架,以及为新领域和语言进行训练的可定制大型语言模型(LLM)的Megatron 530B。
● 宣布TensorRT与TensorFlow和PyTorch实现原生集成,只需一行代码,就能提供比框架内推理快3倍的性能
● 宣布扩大NVIDIA LaunchPad计划至全球的9个地区(暂不包括中国),帮助全球企业快速确定AI需求以进行购买和部署,即使在一台服务器也没有的情况下仍可快速启动。
结语
“我们现在是一家计算公司,是一家运行特定应用程序的公司,我们称之为卓越计算(extraordinary computing)。“这是黄仁勋对公司给出的最新定位。他相信,在加速计算、数据中心和AI的合力推动下,以自动驾驶、虚拟形象、机器人、分子动力学和生命科学、地球气候建模为代表的各个领域,都能够实现Million-X百万倍的飞跃,并产生更多机会。