借助 NVIDIA cuQuantum 和 Xanadu 的 PennyLane,科学家们首次实现了超算规模的量子模拟加速。
有很多研究人员都致力于借助新的软件,快人一步在超级计算机上运行量子计算模拟。美国能源部布鲁克海文国家实验室(Brookhaven National Laboratory)的计算科学家兼机器学习小组负责人 Shinjae Yoo 就是其中之一。在距离长岛大西洋海岸 10 英里处,他的“引擎”已经发动。
Yoo 的“引擎”,即美国国家能源研究科学计算中心(NERSC)的 Perlmutter 超级计算机正在使用多伦多公司 Xanadu 的量子编程框架—— PennyLane 的最新版本。该开源软件以 NVIDIA cuQuantum 软件开发工具套件为基础,使模拟能够在搭载 NVIDIA GPU 的高性能集群上运行。
像 Yoo 这样的研究人员需要处理海量数据集,因此性能成为了关键要素。Yoo 将在搭载多达 256 颗 NVIDIA Tensor Core GPU 的 Perlmutter 上运行程序,模拟约三十多个量子比特(量子计算机所使用的巨大计量单位)。
这大约是目前大多数研究人员所能模拟的量子比特数量的两倍。
强大且易用
加速量子系统大规模模拟的工作是复杂的,而多节点版 PennyLane 与 NVIDIA cuQuantum SDK 的结合能够使其得以简化。
Yoo 表示:“这种实践打开了一扇大门,让实习生也能运行一些最大规模的模拟,也是我为之兴奋的原因。”目前,他的团队有六个项目正在使用 PennyLane。
布鲁克海文国家实验室的 Shinjae Yoo 准备在
Perlmutter 超级计算机上扩展他的量子工作。
他的工作是推动高能物理和机器学习的发展。还有其他研究人员致力于使用量子模拟,推动化学和材料科学的发展水平至新高。
量子计算在企业研发中心也得到了应用。
例如,Xanadu 正在帮助 Rolls-Royce 等公司开发量子算法,为可持续航空业设计最先进的喷气发动机,还帮助大众汽车集团发明更强大的电动汽车电池。
Perlmutter 上的另外四个项目
与此同时,美国国家超级计算中心(NERSC)量子计算项目负责人 Katherine Klymko 表示,今年至少还有四个项目正在使用多节点 Pennylane,其中包括美国国家航空航天局艾姆斯研究中心和阿拉巴马大学的项目。
她表示:“化学领域的研究人员想要深入研究分子复合物,而这些分子复合物通常太大,以致传统计算机无法处理。而有了像 Pennylane 这样的工具,他们就能够扩展目前在传统计算机上所做的工作,为最终在大型量子计算机上运行算法做好准备。”
融合 AI 与量子概念
PennyLane 来自于一个新颖的想法。它将反向传播等常用的深度学习技术与 PyTorch 等工具应用于量子计算机编程。
Xanadu 让所设计的代码能够在尽可能多的不同类型的量子计算机上运行,因此该软件在 2018 年的一篇论文中被提出后,很快就在量子界引起了关注。
Xanadu 产品总监、量子物理学家 Josh Izaac 回忆道:“我们的内容吸引了大家,大家都因为前沿研究变得触手可及而十分兴奋。”Izaac 是该论文的作者之一,同时也是 PennyLane 的开发者。
想要更多量子比特
负责 PennyLane 性能的 Xanadu 高级量子软件开发人员 Lee J. O'Riordan 表示:“我想要增加量子比特。”
O'Riordan 表示:“当我们在 2022 年开始在单颗 GPU 上使用 cuQuantum 时,我们的整体速度几乎提升了 10 倍……我们希望到今年年底能扩展到 1,000 个节点,即 4,000 颗 GPU,这可能需要模拟超过 40 个量子比特。”
科学家们仍在思考他们利用这一性能能够解决的问题——或者说他们希望解决的问题。
设计量子计算机的公司将利用量子计算机的性能提升来测试构建更强大系统的想法。他们的工作推动了 PennyLane 中新软件功能的实现,进而又提高了系统性能,形成了一个良性循环。
通过 GPU 实现良好扩展
O'Riordan 很早就发现 GPU 是扩展 PennyLane 性能的最佳工具。去年,他与他人联合撰写了一篇论文,介绍了一种在 100 多个 GPU 上拆分量子程序的方法。该方法可以模拟 60 多个量子比特,它们被拆分成许多 30 量子比特的子电路。
他表示:“我们希望将我们的工作扩展到更大的工作负载上,所以听说 NVIDIA 将为 cuQuantum 增加多节点功能时,我们希望尽快为其提供支持。”
于是不到四个月,多节点 PennyLane 就诞生了。
O'Riordan 表示:“对于一个大型分布式 GPU 项目来说,这样的项目推进速度是很快的。cuQuantum 的每一个人都帮助我们尽可能轻松地完成了这一集成。”
Xanadu 的一篇博客详细介绍了开发人员如何利用 PennyLane 和 cuQuantum 模拟超过 30 个量子比特的大规模系统。
该团队现在仍在收集数据。但到目前为止,在“基于样本的工作负载上,我们看到了近乎线性的扩展速度”,O'Riordan 表示。
也许正如 NVIDIA 创始人兼首席执行官黄仁勋所说:“买得越多,省得越多”。