摩尔定律已经相当快了。根据其定义,每隔两年左右,计算机芯片中晶体管的数量就会增加一倍,速度和效率就会大幅提升。但深度学习时代的计算需求增长速度甚至更快——这种速度可能无法持续。
国际能源署预测,到 2026 年,人工智能消耗的电量将是 2023 年的 10 倍,而当年的数据中心消耗的能源将与日本相当。计算硬件公司 Lightmatter 的创始人兼首席执行官尼克哈里斯 (Nick Harris)表示:“人工智能所需的 [计算能力] 每三个月就会翻一番——这比摩尔定律预测的要快得多。它将摧毁企业和经济体。”
最有希望的解决方法之一是不再使用可靠的电子(电子在计算领域已经占据了 50 多年的主导地位)来处理信息,而是使用光子流(微小的光束)。最近的研究结果表明,对于现代人工智能的某些基本计算任务而言,基于光的“光学计算机”可能具有优势。
剑桥大学物理学家娜塔莉亚·伯洛夫 (Natalia Berloff)表示,光学计算的发展“为人工智能等需要高速、高效处理的领域的突破铺平了道路” 。
最佳光学
理论上,光具有诱人的潜在优势。首先,光信号比电信号可以携带更多信息——它们具有更大的带宽。光频率也比电频率高得多,因此光学系统可以在更短的时间内以更少的延迟运行更多的计算步骤。
然后还有效率问题。除了相对浪费的电子芯片的环境和经济成本外,它们运行时的温度也很高,以至于只有一小部分晶体管(所有计算机核心的微型开关)可以随时处于活动状态。理论上,光学计算机可以同时运行更多操作,处理更多数据,同时消耗更少的能量。斯坦福大学电气工程师戈登·韦茨斯坦(Gordon Wetzstein) 说:“如果我们能够利用这些优势,这将开辟许多新的可能性。”
鉴于其潜在优势,研究人员长期以来一直试图将光用于人工智能,这是一个计算需求很大的领域。例如,在 20 世纪 80 年代和 90 年代,研究人员使用光学系统构建了一些最早的神经网络。加州理工学院的 Demetri Psaltis 和两位同事利用这些早期的光学神经网络 (ONN) 之一创建了一个巧妙的面部识别系统。他们将受试者(实际上是其中一位研究人员)的图像存储为光折变晶体中的全息图。研究人员使用全息图来训练 ONN,然后 ONN 可以识别研究人员的新图像并将其与同事区分开来。
但光也有缺点。至关重要的是,光子通常不会相互作用,因此一个输入信号很难控制另一个信号,而这正是普通晶体管的本质。晶体管的工作性能也非常好。它们现在被安装在硬币大小的芯片上,数量达数十亿,是数十年来不断改进的产物。
但近年来,研究人员发现了光学计算的杀手级应用:矩阵乘法(matrix multiplication)。
一些简单的数学
矩阵或数字数组的乘法过程支撑着大量重型计算。具体来说,在神经网络中,矩阵乘法是网络在旧数据上训练和在训练好的网络中处理新数据的基本步骤。而光可能比电更适合矩阵乘法。
2017 年,麻省理工学院的 Dirk Englund 和 Marin Soljačić 领导的研究小组描述了如何在硅芯片上构建光学神经网络,这种人工智能计算方法因此而爆发。研究人员将他们想要相乘的各种量编码成光束,然后将光束通过一系列组件,这些组件会改变光束的相位(即光波的振荡方式),每次相位改变都代表一个乘法步骤。通过反复分裂光束、改变相位并重新组合,他们可以让光有效地进行矩阵乘法。在芯片的末端,研究人员放置了光电探测器来测量光束并显示结果。
研究人员训练他们的实验设备识别口语元音,这是神经网络的常见基准任务。借助光的优势,它可以比电子设备更快、更高效地完成这一任务。其他研究人员已经知道光有潜力用于矩阵乘法;2017 年的论文展示了如何将其付诸实践。
康奈尔大学光子学专家Peter McMahon表示,这项研究“重新激发了人们对光神经网络的极大兴趣。这项研究影响巨大。”
好主意
自 2017 年那篇论文发表以来,该领域稳步发展,各类研究人员纷纷研制出新型光学计算机。Englund 和几位合作者最近推出了一种名为 HITOP 的新型光学网络,它结合了多项进步。最重要的是,它旨在随着时间、空间和波长的增加而扩大计算吞吐量。前麻省理工学院博士后、现就职于南加州大学的Zaijun Chen表示,这有助于 HITOP 克服光学神经网络的一个缺点:将数据从电子元件传输到光学元件需要大量能量,反之亦然。但通过将信息打包到光的三维空间中,Chen 表示,它可以更快地通过 ONN 传输更多数据,并将能量成本分摊到多次计算中。这降低了每次计算的成本。研究人员报告说,HITOP 可以运行比以前基于芯片的 ONN 大 25,000 倍的机器学习模型。
需要明确的是,该系统还远远不能与之前的电子系统相媲美;HITOP 每秒可执行约 1 万亿次操作,而先进的 Nvidia 芯片可以处理 300 倍的数据, Chen说,他希望扩大该技术的规模,使其更具竞争力。但光学芯片的效率令人信服。“这里的关键是我们将能源成本降低了 1,000 倍,”陈说。
其他研究小组也开发出了具有不同优势的光学计算机。去年,宾夕法尼亚大学的一个研究小组描述了一种新型 ONN,它具有不同寻常的灵活性。这种基于芯片的系统将激光照射到组成电子芯片的半导体部分,从而改变半导体的光学特性。激光有效地映射了光信号的传输路径,从而映射了光信号的计算路径。这让研究人员可以轻松地重新配置系统的功能。这与大多数其他基于芯片的系统(光学和电气)有着鲜明的区别,这些系统的路径都是在制造厂精心设计的,很难改变。
“我们拥有的东西非常简单,”这项研究的主要作者Tianwei Wu说。“我们可以重新编程,动态改变激光模式。”研究人员利用该系统设计了一个成功区分元音的神经网络。大多数光子系统在构建之前都需要进行训练,因为训练必然涉及重新配置连接。但由于这个系统很容易重新配置,研究人员在将模型安装在半导体上后对其进行了训练。他们现在计划增加芯片的尺寸,并在不同颜色的光中编码更多信息,这应该会增加它可以处理的数据量。
即使是在 90 年代创建了面部识别系统的 Psaltis 也对这一进步感到惊叹。“与实际发生的事情相比,我们 40 年前最疯狂的梦想也微不足道。”
第一缕曙光
虽然光学计算在过去几年中发展迅速,但它还远未取代实验室外运行神经网络的电子芯片。论文宣布光子系统比电子系统效果更好,但它们通常使用旧的网络设计和较小的工作负载来运行小型模型。安大略省皇后大学的 Bhavin Shastri 表示,许多关于光子霸权的报道数据并没有说明全部情况。“很难与电子产品进行同类比较,”他说。“例如,当他们使用激光时,他们并没有真正谈论为激光供电的能量。”
实验室系统需要扩大规模才能显示出竞争优势。McMahon问道:“要把它做大到什么程度才能获胜?”答案是:非常大。这就是为什么没有人能与英伟达制造的芯片相媲美,英伟达的芯片为当今许多最先进的人工智能系统提供动力。在此过程中,需要解决大量的工程难题——电子方面已经解决了几十年的问题。McMahon说:“电子领域从一开始就具有巨大的优势。”
一些研究人员认为,基于 ONN 的 AI 系统将首先在具有独特优势的专业应用中取得成功。Shastri 表示,一种有希望的用途是抵消不同无线传输之间的干扰,例如 5G 蜂窝塔和帮助飞机导航的雷达高度计。今年早些时候,Shastri 和几位同事创建了一种 ONN,它可以对不同的传输进行分类并实时挑选出感兴趣的信号,处理延迟不到 15 皮秒(15 万亿分之一秒)——不到电子系统所需时间的千分之一,而功耗不到 1/70。
但McMahon表示,这一宏伟愿景——一种可以超越通用电子系统的光学神经网络——仍然值得追求。去年,他的团队 进行了模拟,结果显示,在十年内,一个足够大的光学系统可以使一些人工智能模型的效率比未来的电子系统高出 1,000 倍以上。“许多公司现在都在努力获得 1.5 倍的收益。一千倍的收益,那将是惊人的,”他说。“这可能是一个 10 年的项目——如果成功的话。”
参考链接
https://www.quantamagazine.org/ai-needs-enormous-computing-power-could-light-based-chips-help-20240520/