人工智能(AI)正在改变数据中心的一切:新的AI专用芯片、新的冷却散热技术和新的存储器。现在,就连时钟也开始发生变化,SiTime宣布开发出一种针对AI工作负载进行优化的新型MEMS时钟。
SiTime表示,这项研发将为AI训练和推理节省大量能源,并降低成本。SiTime利用微机电系统(MEMS)振荡器替代传统的石英晶体作为核心的时钟组件,从而实现节能的效果。
计算机的几乎每个部件都需要时钟,例如中央处理器、图形处理器、网络接口卡、交换机,有时甚至是有源互连器件都包含自己的时钟组件。对于更传统的计算工作负载,这些时钟通常分为两类:“快速、精确的计时时钟或确保多个GPU(或CPU)同步运作的时钟。” 与SiTime合作的More Than Moore首席分析师Ian Cutress解释说。
“AI的问题在于,它需要同时做上述两件事。”Cutress说,“你希望你的芯片运行速度越快越好,但同时你也希望在很多芯片之间实现同步。”
SiTime的Super-TCXO时钟将超稳定和良好同步时钟的功能集成到了单个MEMS器件中,在带宽为每秒800千兆比特的情况下,同步效果是同类石英元件的3倍,而MEMS芯片尺寸仅为石英元件的四分之一。
更好的时序可以显著节能
AI是一头数据饥渴的野兽。然而,昂贵且耗电的GPU在等待下一批数据的时间里却有多达57%的时间处于闲置状态。如果可以更快地提供数据,GPU的使用量就会更小,效率也会更高。
“你需要更快的带宽。”SiTime营销执行副总裁Piyush Sevalia说,"正因为你需要更快的带宽,所以你需要更好的时钟。”
此外,Cutress说,如果GPU在等待加载更多数据时能进入睡眠模式,就能节省大量电能。这也需要更精确的计时,以便睡眠-唤醒周期能足够快地跟上数据流。
对于AI来说,计时不仅需要更加精确,还需要在多个GPU之间完美同步。大型AI模型将任务分配给多个GPU,每个GPU只进行一小部分计算。然后,将它们的结果拼接在一起。如果一个GPU滞后于其他GPU,整个计算就必须等待该节点——也就是常说的短板效应。在等待过程中,所有GPU都会保持开启状态,因此任何此类延迟都会导致能量损耗。
是时候选择MEMS时钟了
计时必须精确、同步和稳定——任何机械振动或温度波动都必须得到补偿,以确保不会影响计算。SiTime的Super-TCXO时钟旨在将所有这三项要求集成到一个MEMS器件中。
Sevalia说,只有利用MEMS振荡器取代传统的石英振荡器,才能实现这样的集成。石英振荡器利用精密加工的石英晶体的振动——类似于音叉。相比之下,MEMS振荡器是利用半导体微纳制造工艺生产出来的,而不是机械加工出来的,能在特定频率上产生共鸣。MEMS器件体积更小,因此对机械应变的敏感度更低。
"自计算机出现以来,石英振荡器就一直存在。”HotTech Vision & Analysis总裁兼首席分析师Dave Altavilla说,“自石英振荡器问世以来,我们已经对这项技术进行了显著的改进。但MEMS振荡器比石英振荡器的能力更进一步。所以,我认为这种新技术将会带来变革。”
SiTime基于MEMS的时钟解决方案已经取得了一些成功:英伟达(Nvidia)的适用于人工智能的以太网平台Spectrum-X交换机已经采用了SiTime的MEMS时钟。
Sevalia表示,他预计对MEMS时钟的需求将继续保持快速增长。该公司已经在设计更高带宽的MEMS时钟,希望其创新能够节省更多的能源。