在今年最重要的图形学大会(SIGGRAPH 2022)上, NVIDIA 的论文合著者将发表创纪录的 16 篇研究论文,推动神经渲染、3D 模拟、全息技术等领域的发展。
NVIDIA 在图形学研究领域的最新学术合作取得了丰硕的成果,包括能够顺利模拟运动动作的强化学习模型、用于虚拟现实的超薄全息眼镜以及隐藏式光源照明条件下的物体实时渲染技术。
上述学术成果及其他项目将在 8 月 8 日 至 11 日于温哥华举行的 SIGGRAPH 2022 上发表。本次大会以线上线下结合的方式举办, NVIDIA 研究人员将在此次大会上发表 16 篇技术论文,包含了与达特茅斯学院、斯坦福大学、瑞士洛桑联邦理工学院和特拉维夫大学等 14 所大学合作完成的研究。
这些论文覆盖整个图形学研究领域,将带来神经内容创建工具、显示和人类感知、计算机图形学数学基础以及神经渲染方面的进展。
可模拟多技能角色的神经工具
当使用强化学习模型开发基于物理的动画角色时, AI 通常一次只能学习一种技能,比如走路、跑步或翻跟头。但来自加州大学伯克利分校、多伦多大学和 NVIDIA 的研究人员创建了一个使 AI 能够学习一整套技能的框架。上图中便展示了一个能够挥剑、使用盾牌并在摔倒后爬起来的战士角色。
为动画角色实现这些流畅、栩栩如生的动作通常是一项乏味又费力的工作,因为开发者需要为每项新任务重新训练 AI。正如这篇论文所述,研究团队使强化学习 AI 能够重复利用已有技能来应对新场景,从而提高效率并减少额外需要的运动数据。
动画、机器人、游戏和治疗学领域的创作者都可以使用这样的工具。NVIDIA 研究人员还将在 SIGGRAPH 大会上发表多篇其他论文,介绍用于点云表面重建和交互式形状编辑的 3D 神经工具以及让 AI 能够更好理解矢量草图误差并提高延时视频视觉质量的 2D 工具。
将虚拟现实技术集成到轻型眼镜中
大多数虚拟现实用户需要佩戴笨重的头戴式显示器才能进入 3D 数字世界,但研究人员正在研究重量更轻、类似于普通眼镜的替代品。
NVIDIA 与斯坦福大学的研究人员合作,将 3D 全息图像所需的技术集成到一个只有几毫米厚的穿戴式显示器中。这种显示器的厚度仅 2.5 毫米,还不到其他被称为“饼干镜”的薄型 VR 显示器的一半,而且后者使用的是只支持 2D 图像的折叠光学技术。
研究人员将显示器的质量和尺寸作为一种计算问题,并使用 AI 算法,共同对光学器件进行设计,完成了这项难度极大的工作。
之前, VR 显示器的放大镜和显示面板之间需要隔开一段距离以创建全息影像,而新型显示器采用空间光调制器,使得不需要隔开距离就可以在用户眼前创建全息影像。瞳孔复制波导和几何相位透镜等其他部件进一步缩小了设备的体积。
除了这篇论文之外,斯坦福大学和 NVIDIA 在大会上还发表了另一篇 VR 领域的合著论文,提出了一种新的计算机生成全息技术框架,该框架能够优化带宽的使用,并提高图像的质量。此外, NVIDIA 与纽约大学和普林斯顿大学的科学家还将发表一篇显示和感知研究领域的合著论文,该论文测量了渲染质量如何影响用户对屏幕信息的反应速度。
“高光”一刻:树立复杂实时照明的新标杆
准确地实时模拟场景中的光线路径一直是图形学领域的重中之重。犹他大学计算机学院和 NVIDIA 在一篇论文中详细介绍了一种路径重采样算法,能够对包括隐藏光源在内的复杂照明场景进行实时渲染,为该领域树立了新标杆。
想象一下,一个昏暗房间中的桌子上有一个玻璃花瓶,屋外路灯的灯光照射在上面。光滑的表面形成了一条长长的光路,光线在光源和观众的眼睛之间多次反射。一般情况下,计算此类光线路径对于像游戏这样的实时应用来说过于复杂,所以大多用于电影或其他离线渲染应用。
这篇论文着重介绍了在渲染过程中使用统计重采样技术(算法在追踪这些复杂的光路时重复进行数千次计算)实时、高效地模拟这些光路。研究人员将该算法应用于计算机图形学领域具有挑战性的一个典型场景:间接照明条件下的一套金属、陶瓷和玻璃茶壶。
NVIDIA 在 SIGGRAPH 上发布的相关论文还包括:用于逆向体积渲染的新采样策略、用于 2D 形状操控的新数学表示法、为渲染和其他应用创建具有更高均匀性的采样器的软件以及将有偏渲染算法转化为更高效的无偏算法的方法。
神经渲染:NeRF 和 GAN 推动合成场景的发展
神经渲染算法可以从真实世界的数据中学习,然后创建合成图像。为了在 2D 和 3D 领域做到这一点, NVIDIA 的多个研究项目正致力于开发最先进的工具。
在 2D 领域,与特拉维夫大学合作开发的 StyleGAN-NADA 模型可以根据用户的文字提示来生成具有特定风格的图像,而且无需参考示例。例如用户可以直接生成复古的汽车图像,生成爱犬的画像,或者把大房子变成小屋。
在 3D 领域,NVIDIA 和多伦多大学的研究人员正在开发能够支持创建大型虚拟世界的工具。在 SIGGRAPH 大会上,他们将发表一篇名为《基于多分辨率哈希编码的即时神经图形基元》的论文,介绍 NVIDIA 在使用 Instant NeRF 训练模型方面实现的重大技术突破。
NeRF,即基于 2D 图像集合的 3D 场景,仅仅是神经图形基元技术的功能之一。它可以用来展示任何复杂的空间信息,目前已被应用于图像压缩、三维形状高精度展示和超高分辨率图像等领域。
这项工作与多伦多大学的一个合作项目不谋而合。就像是将 JPEG 用于压缩 2D 图像一样,该合作项目压缩 3D 神经图形基元,帮助用户在手机和机器人等小型设备之间存储和分享 3D 地图与娱乐体验。
NVIDIA 在全球有 300 多名研究人员,这些团队专注于 AI、计算机图形学、计算机视觉、自动驾驶汽车和机器人技术等领域。点击“阅读原文”,进一步了解 NVIDIA Research。