NVIDIA 研究人员正在与世界各地的学术机构合作,推进生成式 AI、机器人和自然科学领域的进步。在全球顶级 AI 会议之一 NeurIPS 上,NVIDIA 将介绍其中的十几个项目。
NeurIPS 大会将于太平洋时间 12 月 10 日至 16 日在新奥尔良举行,汇集了生成式 AI、机器学习、计算机视觉等领域的专家。在此次大会上,NVIDIA Research 将展示一系列创新,包括将文本转化为图像、将照片转化为 3D 化身,以及将专用机器人转化为多功能机器的新技术。
NVIDIA 学习和感知研究副总裁 Jan Kautz 表示:“NVIDIA Research 继续推动该领域的进步,包括将文本转化为图像或语音的生成式 AI 模型、更快地学习新任务的自主 AI 代理,以及计算复杂物理学的神经网络。这些项目通常与学术界的领军人物合作完成,将有助于加速虚拟世界、模拟和自主机器的开发。”
转换为图像:
改进文本到图像扩散模型
对于将文本转化为逼真的图像,扩散模型已经成为最流行的生成式 AI 模型。NVIDIA 的研究人员与多所大学合作了多个推进扩散模型发展的项目,并将在 NeurIPS 上进行展示。
一篇口头报告论文重点研究让生成式 AI 模型更好地理解文本提示中修饰词和主体之间的联系。当要求现有文本生成图像模型生成一个黄色西红柿和一个红色柠檬时,其可能会生成错误的黄色柠檬和红色西红柿,但新新模型可以分析用户提示词的语法,鼓励在主体与其修饰符之间建立联系,从而更忠实地对文本提示词进行视觉描述。
了解更多信息,请查阅:https://neurips.cc/virtual/2023/oral/73870
SceneScape 是一个使用扩散模型根据文本提示词创建 3D 场景长视频的新框架,其将在会议上以海报的形式进行展示。该项目将文本生成图像模型与深度预测模型相结合,有助于视频中看似合理的场景在连续的几帧中保持不变——生成美术馆、鬼屋和冰雪城堡视频。
了解更多信息,请查阅:https://neurips.cc/virtual/2023/poster/71859
另一个海报描述了如何让文本生成图像模型更好地生成那些通常在训练数据中罕见的概念。尝试生成这样的图像通常会导致低质量的视觉效果,不能完全匹配用户的提示词。新方法使用了一小组示例图像,帮助模型识别好的种子——随机数序列,引导 AI 从指定的稀有类中生成图像。
了解更多信息,请查阅:https://neurips.cc/virtual/2023/poster/70922
第三个海报展示了文本生成图像扩散模型如何使用不完整点云的文本描述来生成缺失部分,并创建物体的完整 3D 模型。这可能有助于完善激光雷达扫描仪和其他深度传感器收集的点云数据,用于机器人和自动驾驶汽车 AI 应用。收集的图像通常是不完整的,因为物体是从特定角度扫描的。例如,当汽车沿街行驶时,安装在车上的激光雷达传感器只会扫描每栋建筑的一侧。
了解更多信息,请查阅:https://neurips.cc/virtual/2023/poster/70648
角色开发:AI 化身的进步
AI 化身结合了多个生成式 AI 模型来创建虚拟角色并做成动画、生成文本并将其转化为语音。NeurIPS 大会上的两个 NVIDIA 海报展示了可以提高这些任务效率的新方法。
其中一个海报描述了一种新方法,可以将一张肖像图转化为 3D 头像,同时捕捉发型和配饰等细节。不同于当前需要多张图像并且优化过程需要较长时间的方法,该模型在推理过程中无需额外优化即可实现高保真度的 3D 重建。这些头像可以通过混合形状(blendshapes)做成动画,混合形状是 3D 网格表示,用于表示不同的面部表情。这些头像也可以使用参考视频剪辑做成动画,视频中人的脸部表情和动作会应用于头像。
了解更多信息,请查阅:https://neurips.cc/virtual/2023/poster/72615
另一个海报介绍了 NVIDIA 研究人员和大学合作者使用 P-Flow 模型来开展零样本文本到语音合成。P-Flow 是一种生成式 AI 模型,可以在给出三秒参考提示的情况下快速合成高质量的个性化语音。与近期最先进的同类模型相比,P-Flow具有更好的发音、拟人度和说话者相似度。只需一个 NVIDIA A100 Tensor Core GPU,该模型就能即刻将文本转化为语音。
了解更多信息,请查阅:https://pflow-demo.github.io/projects/pflow/
强化学习、机器人研究领域的突破
在强化学习和机器人领域,NVIDIA 的研究人员将带来两个海报,着重介绍提高 AI 在不同任务和环境中的通用性的创新技术。
第一个海报提出了一个用于开发强化学习算法的框架,该框架可以适应新任务,同时避免常见的梯度偏差和数据低效陷阱。研究人员表明,他们的方法采用新颖的元算法,可以创建任何元强化学习模型的鲁棒版本——在执行多个基准测试任务时表现优秀。
了解更多信息,请查阅:https://neurips.cc/virtual/2023/poster/72040
另一个海报介绍了 NVIDIA 研究人员和大学合作者解决了机器人进行物体操控的挑战。此前,那些帮助机器人用手拾取物体并与之交互的 AI 模型可以处理特定的形状,但难以处理训练数据中未出现过的物体。研究人员引入一个新的框架,该框架可以估计各类物体在几何上的相似性,例如拥有相似把手的抽屉和锅盖,从而使该模型能够更快地推广到新的形状。
了解更多信息,请查阅:https://neurips.cc/virtual/2023/poster/71709
推动科学飞速发展:
AI 加速物理、气候、医疗
在 NeurIPS 大会上,NVIDIA 研究人员还将发表涉及多个自然科学领域的论文,涵盖物理模拟、气候模型和医疗 AI。
为了加速大规模 3D 模拟的计算流体动力学,NVIDIA 的一个研究团队提出了一种神经算子架构,该架构在估计车辆周围的压力场时实现了高精度和高计算效率。这是行业标准的大规模汽车基准测试中第一个基于深度学习的计算流体动力学方法。与另一个基于 GPU 的求解器相比,该方法在单个 NVIDIA Tensor Core GPU 上实现了 10 万倍的加速,同时降低了错误率。研究人员可以使用开源的神经算子库,将该模型整合到自己的应用程序中。
了解更多信息,请查阅:https://neurips.cc/virtual/2023/poster/72670
来自大学、国家实验室、研究所、Allen AI 和 NVIDIA 的气候科学家和机器学习研究人员组成了一个联盟,合作开发了大规模数据集 ClimSim,用于物理学和基于机器学习的气候研究。这个数据集将在 NeurIPS 大会上的口头报告中进行分享,其中包含多年高分辨率的全球数据。使用这些数据构建的机器学习模拟器可以集成至目前正在使用的气候模拟器中,以提高其保真度、准确性和精度。这可以帮助科学家更好地预测风暴和其它极端事件。
了解更多信息,请查阅:https://neurips.cc/virtual/2023/poster/73569
NVIDIA Research 的实习生制作的一个海报介绍了一种 AI 算法,可以个性化地预测药物剂量对患者的影响。利用真实数据,研究人员测试了该模型对患者接受不同剂量时的凝血情况预测。他们还分析了新算法对接受药物治疗的患者体内抗生素万古霉素浓度的预测。结果发现,与以前的方法相比,新算法的预测准确性显著提高。
了解更多信息,请查阅:https://neurips.cc/virtual/2023/poster/71940
NVIDIA Research 由全球数百名科学家和工程师组成,团队专注于 AI、计算机图形学、计算机视觉、自动驾驶汽车、机器人学等领域的研究。点击阅读原文,了解更多信息。