光子计算芯片公司曦智科技(Lightelligence)日前发布了其最新的高性能光子计算处理器——PACE(Photonic Arithmetic Computing Engine,光子计算引擎)。据悉,PACE在单个光子芯片中集成了超过10,000个光子器件,运行1GHz系统时钟,算力是上一代处理器的100万倍以上,运行特定循环神经网络速度可达目前高端GPU的数百倍。
曦智科技最新光子计算处理器PACE
创立于2017年的曦智科技孵化于麻省理工大学Dr. Soljacic实验室,是全球第一家光子芯片公司,也是该领域目前为止融资规模最高的公司,累计融资总额超10亿元人民币。目前,公司拥有来自10余个国家近200位工程师和研究人员,技术人员占比超80%,70%的芯片设计师拥有10年以上半导体从业经验。
作为公司创始人兼CEO,沈亦晨博士在2017年6月以第一作者的身份,将其关于“通过光子技术实现人工智能计算新路径”的论文发表于国际学术顶级期刊《自然·光子》封面,为后来成立曦智科技,并将科研成果转化奠定了坚实的理论基础,
光子时代已来
算力、数据传输和存储,被沈亦晨视作当前电子芯片在发展过程中遇到的三个主要瓶颈。以最具代表性的图像/语音识别类AI应用为例,数据显示,从2012年开始,平均每3-4个月,神经网络和计算模型的规模就会翻一倍。与2012年相比,当前最大的神经网络模型大约是当时的15-30万倍,且仍在持续增长。但与之形成鲜明对比的,是底层算力的增长远未达到这一幅度,制约了人工智能的进一步发展。
算力为什么难以跟上AI模型的演进速度?半导体制程微缩逐渐接近物理极限导致的摩尔定律放缓,和晶体管功耗散热问题是两大主因。
“2015年以后,随着晶体管体积越来越小,隧穿现象日趋明显。这意味着,即使把单个晶体管做得再小,其在运算时的功耗也没办法进一步降低。但如果为了增强算力增加芯片面积,或是采用芯片级联的方式,功耗又会显著增长。”沈亦晨说,这就是为什么兼具高通量、高能效比、超低延迟特性的硅光技术能成为新兴技术方向之一的原因。
例如在数据搬运方面,光已在光通讯领域充分证明了其技术的领先性和优势,目前所有长距离通讯,包括数据中心里服务器与服务器之间的数据,都是通过光纤来代替铜导线进行的,光进一步进入到芯片中参与运算也将成为一种趋势。
另一方面,现在大数据越来越大的比例是在做线性运算,而曦智科技发明了一种利用光线高效地进行线性计算的方式,这是其另一个重要优势。
根据曦智科技联合创始人、CTO孟怀宇博士的分享,当光在非均匀介质中传播和散射时,其形态类似于某种形式的数学线性运算。曦智科技利用光执行向量矩阵算法(matmul),当光进入系统时,它会被一组光学调制器编码以形成输入光向量,然后它便进入可编程光学散射介质的区域,输入光向量经过矩阵后,输出光向量自然就代表了矩阵乘法的结果。
这里最吸引人的部分是,由于矩阵乘法本身是被动的,因此在这个过程中不会消耗任何能量;矩阵乘法是在光通过矩阵所需的时间内完成的,仅需几分之一纳秒;最后,高能效和低时延性能与输入光信号的频率无关,这就意味着光矩阵可以支持高通量。
沈亦晨在接受媒体采访时表示,他相信光子芯片“极有可能成为我们这个时代最重要的技术创新之一”,高能效、低延时和高通量也是光学矩阵运算能够超越摩尔定律,继续提升算力的关键所在,但整体的商业化过程会比较漫长。
为此,他将公司未来的规划分为三个阶段:首先,从2022年开始,1-3年主要落地于特别能体现光技术优势的应用场景;接下来,随着产品在不同场景展现出明确的优势后,将有更大规模的团队做训练;第三阶段,随着硬件和软件体系更加成熟,进一步切入GPU、车载芯片等对算力需求非常大的市场。
从100到10000
其实早在2019年4月,曦智科技就推出了全球首款光子芯片原型板卡,包含约100个光子元器件,并用光子芯片运行了Google TensorFlow自带的卷积神经网络模型来处理MNIST数据集,整个模型超过95%的运算是在光子芯片上完成,准确率接近电子芯片(97%以上)。此外,光子芯片完成矩阵乘法所用的时间是最先进电子芯片的1%以内。
2019年4月,曦智科技推出全球首款光子芯片原型板卡
但孟怀宇认为,这只是拉开了光子计算的序幕而已,要将光学矩阵的理论优势变为市场优势,发挥光子计算的全部潜力,一个关键问题是如何将大量的光子和电子器件集成在一起,毕竟一个商用级的光学矩阵引擎可能会包含数以万计的光子器件。
曦智科技的解决方案是自研大规模集成硅光芯片和电子芯片,然后使用先进封装工艺将它们堆叠在一起。因此,相比2019年推出的原型板卡,此次推出的PACE单芯片在集成度上提高了2个数量级,光子元器件数量从100提升到10000个;系统时钟提高了4个数量级,达到GHz级别,未来有望再继续提升1-2个数量级。
PACE包含64x64的光学矩阵,核心部分由一块集成硅光芯片和一块CMOS微电子芯片以3D封装形式堆叠而成。其电子芯片包含数字电路和模拟电路两部分:数字电路由控制逻辑和SRAM组成,前者负责调节数据流和输入输出,后者用于片上数据存储;模拟电路则是数字逻辑和光子器件之间的桥梁。对于每个光学矩阵乘法,输入向量值首先从片上SRAM中提取,由数模转换器转换为模拟值,然后通过电子芯片和光子芯片之间的微凸点应用于相应的光调制器,光调制器相应地减弱入射光,形成输入光向量。
整个64x64光学矩阵用类似机制进行编码。接着输入光向量通过光矩阵传播,产生输出光向量,并达到一组光电探测器阵列,从而将光强转换为电流信号,最后电信号通过微凸点返回到电子芯片,通过跨阻放大器和数模转换器返回数字域。
PACE上共有数千个微凸点来帮助电子芯片和光子芯片之间的数据传输。
除了3D封装的光子和电子芯片外,PACE还使用了光纤阵列连接激光源,整个组件被安装在了一块PCIe卡尺寸的PCB板上,如电源系统输入输出连接器等外围部件也都连接到PCB板上。
但PACE不是纯光子计算,而是一个光电混合计算系统——所有的指令集编译器和SDK都承载在电芯片上,光芯片更多承接线性计算和数据网络等主要任务,由电芯片发出指令以及与客户交互,这使得PACE能与现有市场软件环境兼容。
沈亦晨强调说,PACE芯片不是为了在通用性上证明它可以运行所有神经网络,更多是要证明光计算优势的上限或潜力。而之所以选择循环神经网络,是因为其能够相对独立地将矩阵优势最大化,对于像GPT/Transformer这样的非传统循环神经网络模型,曦智科技可能会在明年推出一个更通用化的产品。
三大硬核技术
曦智科技的核心技术主要包括三大部分:oMAC-光学乘积累加运算、oNOC-片上光网络和oNET-片间光网络。
oMAC是一种用光替代传统电子进行数据处理的模拟计算,数据可加载在光的强度或相位上,数据流动的同时进行计算。采用与CMOS兼容的硅光工艺平台,高速可调、小尺寸电光调制器设计,基于MZI结构的相干/非相干方案,硬件-算法的协同优化,以及先进封装技术等先进技术实现。
其优势在于光的矩阵乘法并行计算能力更强,能效媲美甚至优于电子芯片,且延迟更低。此外,硅光对工艺制程要求和成本很低,65nm或45nm的CMOS工艺器件就能满足现在光子计算所有的要求,其制造工艺成本远低于电芯片。
oNOC-片上光网络则是通过波导代替铜导线的方式,让数据在光芯片网络中传递,可实现单个电芯片(EIC)内部的数据传输、封装内部多个电芯片之间的数据通信。简单而言,就是在光芯片上构建一个固定或可灵活调整的通讯网络拓扑,将不同的电芯片与其中单个或多个节点相连,实现基于oNOC的数据交互。然后,采用基于波分复用的网络拓扑来进行数据传播。
它的主要优势是高带宽、低能耗、低延迟、距离不敏感。另外,该方法通用性强,可将不同类型的电子芯片与之结合,为芯片间提供高速、低能耗的互连,适用于有高带宽需求的应用场景。
oNET-片间光网络起到的作用是将单元内部需要传输的数据集中起来,通过光传播介质(如光纤)与其他单元进行数据交互,优化计算单元之间的通信效率。相比传统电互连,光网络的能效比高、光学传播损耗低、带宽高、延迟低,且传输距离不敏感。
曦智科技工程副总裁Maurice Steinman 表示,这种光互连技术可用于多种传输介质,包括光缆,以及芯片、中介层和晶圆层面集成的波导,并提供高通量、低时延和高能效的数据传输和互联。今后,光互连和光计算的成功结合将为面向加速器、服务器和数据中心需求的高性能产品奠定坚实的基础。
目前来看,PACE可用于解决组合问题,通过重复矩阵乘法和巧妙利用受控噪声组成的紧密回环来实现低延迟,生成如伊辛问题(Ising)和最大割/最小割问题(Max-cut/Min-cut)的高质量解决方案。
这些困扰了全球数学家近50年的难题,属于多项式复杂程度的非确定性问题(NP-complete),即在多项式时间尺度下无法通过数学方法解决的问题。相关算法被广泛应用于生物信息、交通调度、电路设计、材料发现等领域。而一旦一个NP-complete问题得到解决,就可以相对容易地将解决方法映射到其他NP-complete问题上。
结语
“PACE是曦智科技技术路线中的一个重要里程碑,首次验证了光子计算的优越性,也是首次展示了光子计算在人工智能和深度学习之外的应用案例。”沈亦晨表示,云计算、智能驾驶、量化交易、生物医药等应用场景将成为PACE首先落地的领域,目前公司已与全球前五大云服务供应商之一、美国前三大商业银行之一展开了深度合作。
目前,曦智科技团队正全力准备计划于2022年推出的新产品,在产品筹备期间,曦智科技将继续与半导体供应链、云计算、金融、自动驾驶等行业的领导者开展合作,以验证光子计算的可行性和通用性。