“元宇宙”是近期特别多人关注的话题,此前我们也特别撰文探讨了元宇宙的话题。强烈建议移步阅读这篇文章。
虽然如今涌现出大量宣称要打造元宇宙的企业,不过我们认为,真正完整的3D虚拟世界,仅是“对物理世界物理法则的模拟”这一点,就在技术上具备了巨大的门槛。比如光、粒子、液体、材料、弹簧、线缆之类的物理特性,在数字元宇宙中也可能需要符合现实世界的法则。
英伟达的元宇宙叫Omniverse。我们从本周英伟达GTC大会上听到了有关元宇宙的、几个很有意思的说法。Omniverse平台副总裁Richard Kerris在接受采访时说:“早年万维网刚刚出现的时候,大家也都会想:我的业务真的需要web吗?web上面能干什么?”
“现在大家都知道,web已经成为我们沟通、做生意的一种基本方式;如今许多企业都会有自家的网站。我们相信那时候人们眼中的web,也就是现在人们眼中的虚拟世界。会有工厂、业务、娱乐、体验、旅行、教育等等的虚拟世界。”
当3D技术真正变得成熟,“3D是与人们在现实世界中体验非常靠近的一种呈现方式。”黄仁勋在主题演讲中打了个更有意思的比方,“互联网本质上是这个世界的数字表达,主要是各种2D信息,包括文字、语音、图像、视频。”
“现在我们拥有创建全新3D世界,或物理世界建模的技术。”而在这样的世界里,“我们将像在互联网上那样,通过超链接,从一个世界跳到下一个世界。”这么说来,元宇宙在英伟达的眼中,其实就是互联网的升维版本。这是个十分有趣的比方。
“这个新世界的规模比现实世界大得多。在这个世界里,我们也能购买、持有或出售房产、家具、汽车、奢侈品和艺术品。创意人员能创造出比现实世界里更丰富多样的东西。”升维以后的网络,自然会有一些新的东西。
本周英伟达GTC主题演讲主要涵盖了几个方向:科学计算加速、AI、Omniverse、虚拟形象(avatar)、机器人/自动驾驶汽车。本文主要谈谈Omniverse、虚拟形象与机器人。其他几个部分可点击这里查看。后续针对黄仁勋的采访,我们还将做一篇报道。
Omniverse现在的世界长什么样
有关Omniverse的构成此处不再赘述,比如说来自Pixar的USD语言(可类比为互联网上的HTML语言)、连接不同软件的Connector等等……不过Omniverse并不单纯用以描述元宇宙。Omniverse有不同发展阶段与应用方向。今年GTC Spring的报道中,我们提到过Omniverse的主要应用方向包括了设计协作、模拟。
模拟很容易理解,在Omniverse中打造digital twin就属于典型的“模拟”。比如宝马公司用Omniverse打造自家汽车工厂的digital twin,来定期对工厂做规划与测试。再比如Siemens Energy打造digital twin,对热回收蒸汽发生器工作中的腐蚀过程做模拟,实现设备的预测性维护,据说每年可以节省近20亿美元。
有个让我们印象颇深刻的例子:爱立信用Omniverse打造了一座城市的digital twin(上图),主要是用来配置、优化其5G天线和无线电。这次英伟达又对这个例子作了展开。
爱立信在Omniverse中构建的城市digital twin,在建筑物、植被、树叶材质上具有“物理级”准确性,信号反射强度也是精准的,天线波束成形和信号路径能够得到精确仿真和可视化……利用RTX光线追踪,能对城市中每个点的5G信号质量进行计算和可视化……最终设计出更高效、可靠的网络。看demo还的确挺让人惊叹的。这大概就是元宇宙的雏形吧。
除了模拟之外,Omniverse还用于设计协作。可类比为云共享文档。Omniverse面向设计师、建筑师等领域,让他们从不同的工作地点、用不同的设计工具,就能进行3D制作流程的协作;而且可以用上英伟达的各种技术,比如AI、多GPU渲染、物理仿真(如光线追踪)等。
比如此前ILM(工业光魔)就开始尝试让多个工作室内部和外部工作流水线,在Omniverse中聚集到一起。当然这其中需要解决很多实际问题,比如说不同工具之间如何实现数据互通,数据同步问题怎么解决等。这既是英伟达需要去解决的(包括USD语言、connector都属于解决这些问题的组件),而且也是Omniverse生态扩张的过程。
Richard表示,自从上次GTC以后,就有6个新的connector/扩展接入到Omniverse中,新增15个ISV应用——宣布将支持USD,并将接入Omniverse。黄仁勋则提到,Omniverse已被500家公司的设计师下载了70000次。
这次英伟达发布Omniverse的几个新特性包括了Showroom、Farm、AR、VR。
其中Showroom面向RTX显卡用户——可以看到Omniverse具体能够做到些什么,也就是主要用来展示demo和sample的应用。英伟达认为,Showroom可以给予开发者灵感,启发他们能做出些什么。Showroom在我们看来,更有教育市场的意义。
Farm是针对多GPU、多节点渲染和模拟的一个系统层(system layer)。Richard说英伟达自己就在用这个工具。上次GTC上,大约有超过60000帧画面就是用Farm渲染和管理的,而这些资源需要跨越800台设备做管理。
Omniverse AR则可以将图形串流到手机或AR眼镜;Omniverse VR是英伟达“首款全帧交互式光线追踪VR (full fidelity, real time, full frame, ray traced VR)”,目前尚未正式发布。
Richard在接受采访时特别强调Omniverse是个“平台”,用于扩展、加强企业现有的工作流。比如面向建筑、制造、游戏开发、媒体娱乐等等平台。“很多企业使用Omniverse就像使用操作系统一样,他们还在上面构建应用。”“我们发现,有些客户使用Omniverse的方式是我们也完全没有想到的。我想这才是‘平台’的魅力吧。”
这部分我们虽然没怎么提元宇宙的事,不过黄仁勋在演讲中说的一句话很有趣。他说,制造业的“虚拟工厂和机器人是物理复制品的数字孪生;实体版是数字版的复制品”。这句话可能说得很无意,不过却让我们想到将来元宇宙真的成了,元宇宙经济发展兴盛。那么是否可能,元宇宙里面原创的数字产品,在现实世界也会有physical twin……
除此之外,本次相关Omniverse的发布还包括:
● Omniverse Enterprise企业订阅对全球企业开放,年订阅费9000美元起。主要就是Omniverse的设计协作能力;
● 宣布推出Modulus,这是个开发Physics-ML模型的框架,针对的就是构建digital twin。这一点在系列报道的另一篇中已经有提及;
● 宣布推出Omniverse Replicator,这是个合成数据生成(synthetic data generation)引擎,面向的是Isaac Sim与Drive Sim。Replicator的价值在于产生多样化、大量的数据集,这样才能做出高质量、高性能和安全的AI。
● 宣布推出Omniverse Avatar,这是个打造可交互虚拟形象的平台,基于AI技术。也就引出了本文接下来的部分:虚拟形象。
AI虚拟形象与虚拟机器人
我们在刚刚接触英伟达打造的“虚拟形象”各类平台、SDK、demo的时候很疑惑,这东西能有多大的价值?在英伟达本次GTC上探讨较多AI虚拟形象的应用时,我们才发现似乎还真的很有用。
黄仁勋在主题演讲甫开场就展示了一个叫做Toy-Me的个人虚拟形象。这是个会张嘴说话、与真人交流,而且有着表情和动作的虚拟形象。如果你日常在关注英伟达GTC与产品发布,应该很清楚英伟达有对话式AI技术。不过其最终实现似乎也远超我们的想象。
Toy-Me当然只是个具体的实例——它也算是个虚拟机器人了。黄仁勋说未来会有数十亿机器人帮我们做事,有些是实体机器人,而有些是虚拟机器人。虚拟机器人也要实现人机交互。而且在我们看来,Avatar也是Omniverse打造完整元宇宙的重要一环。
这类虚拟机器人的典型应用场景比如说客服。主题演讲中演示这个应用,能够在餐厅中和顾客直接对话,还能根据客户要求推荐食物,甚至在与多个顾客对话时,能看着对话者的眼睛。这个应用叫Tokkio。
英伟达认为,像这样的Avatar对于教育、零售、客户服务、游戏、视频会议等诸多应用场景,都具备了相当的价值。
Tokkio是英伟达做的一个参考应用,用于演示Omniverse Avatar所能达成的交互支持。在具体的实现上,像Toy-Me、Tokkio这样的具体应用所需的技术支持还是相当多样的。不是我们看到的这么简单。
Richard特别谈到Omniverse Avatar在实现上所需的SDK包括有用于感知的Metropolis、用于推荐的Merlin,用于扩展的Fleet Command,以及用于动画和渲染的Omniverse——其中的某些SDK或平台,此前我们也多多少少提到过了(毕竟英伟达现在的SDK、中间件实在太多了,名字也很难记住;而且似乎他们偷偷改名)。
也就是说像Tokkio、Toy-Me这样的虚拟形象,背后的技术涵盖图形渲染、计算机视觉、自然语言理解、语音AI,还要加入推荐系统(毕竟是服务机器人)。其中的语音AI是这次新发布的:
● 宣布推出Riva语音AI
黄仁勋介绍说,负责语音AI的Riva能够识别7种语言,还能生成字幕、翻译、总结、回答问题、理解意图,且实时响应。
据说训练半小时,Riva就可以调整到特定的声音,可对声音音高、能量、时值(duration)等做各种精细化调整。换句话说,Riva其实是Omniverse Avatar/Maxine的输入/输出。
从黄仁勋的演讲来看,Omniverse Avatar基于Maxine(也可能Maxine是Avatar品牌之下的一个项目)。有关Maxine,此前我们也多次撰文提到过。Maxine本身是个用于视频会议、虚拟协作(virtual collaboration)、内容创作和live streaming telepresence的平台;它可以用于视频会议、制作游戏角色动画,或者集成到机器人中。
我们之前看到过Maxine针对视频效果、音频效果和显示增强的AI优化。比如在视频会议上,通过AI的方式让画面质量不会受到网络不稳定的影响;还能修正你的目光,让其他人看起来,你是始终看着摄像头的;生成卡通头像等……
这次Maxine的演示中,黄仁勋解释了其中的技术流程。比如在用Maxine进行视频会议时,讲话的人可以同时对外说出多种语言(实际上本人只说其中一种,Maxine会将其转为多种语言,而且口型也是完全准确的)。
这个过程里,Riva先将文本转换为不同语言的语音;随后Omniverse接管,将语音转换为3D面部动画;与此同时,用计算机视觉追踪讲话者的面部,识别表情;3D动画还能做出实时的动画头像。其中可能还穿插DeepStream这类视频流分析SDK工具。
上面这张图是Maxine的UCF(统一计算框架)简化示意图(有关UCF,参见另一篇文章),其中包括了不少AI模型,有括视觉、语音、动画、语言、推荐系统等:要以比较高效的方式来同时跑这么多神经网络,也就需要一个计算框架,即UCF。
看来如此简单的一个虚拟形象呈现,背后却有这么多的技术。
机器人的进化
说完虚拟机器人,再来谈谈现实中的机器人。虽说现实中的机器人,与元宇宙构建似乎并无直接关联,但它们也是元宇宙技术(或者至少是digital twin)的受益方。本文最后会捎带谈一谈汽车,毕竟汽车也可以算作某种特定形态的机器人——但汽车并非本文要关注的重点。
有关英伟达的机器人平台,此前我们多少也谈到过Isaac SDK——是在前年的GTC上(Drive应该也可以算是个机器人平台)。机器人应用这些年的发展也相当快,很多百货大楼、购物中心、酒店都能见到机器人的身影。未来送货机器人、仓储搬运机器人、清洁机器人都会逐步更加普及。
英伟达嵌入与边缘计算副总裁兼总经理Deepu Talla在演讲中说,要打造一个机器人不光是硬件的问题,其中分成很多不同的层级。对于应用开发而言,首先机器人需要感知世界,并决策、行动。AI对于这个过程非常重要。
要训练这些机器人,可以用Isaac Sim(机器人仿真器)来进行——类似于机器人在其脑中反复演练整个过程;用迁移学习的TAO工具套件,可做定制化训练。随后是对机器人的测试和验证,测试过程也可用模拟方式来进行,而不需要在现实世界里实操。这样一来,得到好多的机器人,那么就需要对机器人群体做管理,以及优化。与此同时,还需要与机器人做通讯:可能是通过计算机视觉或者其他人机界面(HMI),前文提到的Riva(以及更完整的Maxine)即是个例子……
上面这张图给出了打造一个机器人,在应用开发层面需要做多少工作。这也是英伟达这些年在做的事情。
这次英伟达针对机器人的一些重要发布包括:
● 宣布推出Isaac Sim Replicator,这是前文提到Omniverse Replicator的组成部分。其价值就是自动生成合成数据(synthetic data),使用域随机化引擎创建多样的训练数据集。这些数据能够用来对机器人做AI训练——加强机器人模拟和开发过程。Deepu特别谈到,这些数据都是自动做了标记的(labeled)。而且用户可以人为调整其中的一些因素,比如说调整机器人训练环境中的灯光、摄像头角度,以及放个额外的东西在旁边。
● 宣布Isaac开始支持ROS(Robot Operating System)生态。Isaac runtime可以作为ROS框架中的组成部分。ROS开发者现在就可以用Isaac的算法和技术,相当于把Nvidia AI带到了ROS。以前其实ROS基本上是个基于CPU的系统,不具备什么加速能力,所以Isaac ROS对ROS生态下的性能提升也算是个大跨步。这自然是英伟达扩张机器人生态的重要一步。
● 宣布推出Clara Holoscan,这是面向医疗设备领域的一款软件定义、可编程影像平台。黄仁勋说:“Holoscan是我们第三个机器人平台。”另外两个是Isaac和Drive。
● 随Holoscan而来的,宣布推出AGX Orin传感器处理机器人芯片(总算是有个硬件发布了)——Holoscan平台就是由Orin和ConnectX-7组成的。AGX Orin预计将在明年1月发售。
简单谈谈基于Orin芯片的这个Jetson AGX Orin。板子上的这颗芯片是由Ampere架构的GPU和Arm Cortex-A78 CPU(12核)组成;32GB LPDDR5 DRAM;INT8算力200TOPS;功耗区间15-50W;似乎也支持增加GPU来扩展算力。这个新系统应该是用来取代此前的Jetson Xavier的。
现阶段已经有一些医疗仪器制造商开始构建支持Holoscan的前端传感器了。(似乎也是得益于这次主题演讲中反复提到的UCF统一计算框架)
黄仁勋总结机器人应用开发全过程大致分成3步:第一,训练AI模型,让机器人学会感知(Nvidia AI与DGX做续联);第二,在仿真过程中,训练机器人进行操作或导航(以机器人的digital twin,进行Isaac Sim Omniverse仿真);第三,在真实环境中操作机器人——在真实环境里进行实时感知、定位、地图构建和规划:AGX Orin在此刻发挥更大的作用。这是个完整的闭环,是为“端到端机器学习循环”。这也算是生态的威力吧。
回到digital twin、Omniverse和元宇宙的话题。最后值得一提的是,黄仁勋在主题演讲末尾提到英伟达要搭建一台超级计算机名为E-2,即Earth Two——作为“地球的数字孪生”。似乎Omniverse式的完整元宇宙已经不是那么遥远了。点击查看系列报道的另一篇文章《如何达成2.5亿倍的性能提升?黄仁勋的“夸张”预言》。
简单补充一下这次GTC上自动驾驶汽车相关的两个发布:
● Hyperion 8正式推出,这是个AV平台,传感器套件包括12个摄像头、9个毫米波雷达、12个超声波雷达和1个前激光雷达,后端由2个Orin芯片来处理;英伟达表示从世界各地收集PB级的道路数据,而且配了3000名训练有素的labeler,创建训练数据——另外当然也搭配合成数据生成。
● 宣布推出Drive Sim Replicator,也就是合成数据生成器。和前文提到的Isaac Sim Replicator是同一个意思。英伟达在此强调和传感器厂商的合作,为不同的传感器做建模来辅助Replicator。
● 另外还有智能座舱中,Maxine可以发挥作用;以及英伟达组件的地图构建团队正在向全球扩展,同时进行测绘地图构建(survey mapping)和车队地图构建(fleet mapping)。
责编:Luffy Liu
- 元宇宙实现之前,有哪些工作要做?
首要工作是如何让智人实体人要有充分的思想准备,即相当数量的实体人工作要被虚拟人取代。
自己若在被取代之列,则要接受和过好此生,国家也要有所配合。 - 道德经·第一章
【作者】老子 【朝代】春秋时期
道可道,非常道;名可名,非常名。
无名,天地之始,有名,万物之母。
故常无欲,以观其妙,常有欲,以观其徼。
此两者,同出而异名,同谓之玄,玄之又玄,众妙之门。
人类本就是digital twin,眼见为实有,梦想成真无。
上帝(造人的人即造物主)创造了全宇宙,包括实有宇宙和虚无宇宙(元宇宙是名而已)。