“摩尔定律”(Moore’s Law)是今年芯片领域年度盛会——Hot Chips大会上两大专题演讲的关注焦点。AMD首席执行官苏姿丰(Lisa Su)解释为什么应用必须超越摩尔定律,而台积电(TSMC)技术研究副总经理黄汉森(Philip Wong)则强调摩尔定律不死且依然有效(至少对于晶体管密度而言)。
Lisa Su认为,先进芯片的成本将持续增加,这也就是为什么AMD开始转向小芯片(chiplet)策略。黄汉森虽然未提及成本,但提供了多种形式的多芯片封装解决方案,似乎也再次强调与Lisa Su同样的论点。
Hot Chips大会主席John D. Davis为年度盛会Hot Chips 2019揭开序幕(来源:TIRIAS Research)
Hot Chips大会定于每年八月举行,今年在美国斯坦福大学(Stanford University)纪念礼堂(Memorial Auditorium)举行的开幕式人潮盛况空前,吸引了大约1,200人参与这场活动。究竟是因为演讲内容精彩可期?活动的宣传与推广成功?还是近期流向机器学习芯片的资金泡沬化?虽然很难确定是什么原因吸引如此热情的参与,但无疑地,“机器学习”(machine learning)是今年Hot Chips活动的主轴,有一半的演讲都与机器学习和神经网络处理有关。
Cerebras:晶圆级引擎
在今年Hot Chips发表的演讲中,最受瞩目的要算是Cerebras的晶圆级机器学习处理器了。这是该公司自成立以来的首次详细介绍,但在其演讲中仅简单提到建构晶圆级芯片所需的技术。Hot Chips大会主席John D. Davis介绍它是Hot Chips大会有史以来“最热门的芯片”(hottest chip ever)——尽管演讲中并未着墨太多,但据称该芯片功耗为15kW,以该芯片每边宽约8.5英寸的尺寸规格而言,这一功耗实在让人难以想象。该公司确实扩大了我们对于何谓打造一款“大”芯片的概念。
Nvidia:单芯片堆栈‘Compute tile’
当Cerebras致力于打造并量产号称史上最大芯片之际,其他厂商则积极寻求如何解析至今所开发的更大尺寸芯片。或许最大的反差就是来自Nvidia Research开发的项目。Nvidia Research的RC18测试芯片专为可扩展的深度学习推理而设计,在单一芯片封装中堆栈了36个“运算砖”(compute tile)裸晶。基于16nm工艺的RC18超小核心运算砖可实现9.5TOPS/W总共高达128TOPS的运算能力。采用接地参考信令(GRS)的高速互连支持每条链路100Gbps的多播功能,以及基于代码(token-based)的芯片到芯片协议,以连接封装中的裸晶。近十位研究人员采用高阶抽象(C++)自动化设计和敏捷设计,在6个月的时间内让芯片从规格制定到投片,显示一支小型团队即可产生快速上市的解决方案。
MCP和Chiplet技术
多芯片封装(MCP)和小芯片技术也是整个大会期间的亮点,包括AMD、英特尔(Intel)、Nvidia和TSMC都有相关的产品和技术发布。英特尔展示一种使用Foveros的芯片堆栈技术将完整Lakefield PC平台(处理器和内存)封装成极其紧密封装的方法。Lakefield并采用异构处理器配置,在一个芯片中整合了一款大型的x86 CPU核心和四个较小的Atom核心。该10nm+ Lakefield处理器芯片的待机功耗极低,并使用电源管理芯片(PMIC)进行电源管理。下图显示执行图像密集型工作负载时的峰值功率约为7W。
Lakefield Foveros(来源:TIRIAS Research)
基准(Benchmark)检验
另一个有趣的演讲着眼于机器学习芯片的基准检验。支持MLPerf的产业联盟介绍其最新的机器学习训练基准。该联盟包括一些重量级业者,包括Arm、英特尔、Facebook、Google、Nvidia和赛灵思(Xilinx)。即使相关规格的制定仍处于早期发展阶段,几家厂商已经先行发布了初步的数据。遗憾的是,机器学习推理的基准尚未完成。此外,MLPerf并未针对更严格的稀疏数据应用进行基准检验。
针对稀疏数据的问题,Facebook讨论其Zion平台如何进行机器学习训练。有趣的是,Facebook还统一其CPU和加速器训练平台,以便使用新的BFLOAT16数据格式(BFLOAT16基于IEEE 32位浮点格式,尾数被截断至7位)。
Habana、华为、英特尔和Xilinx
Habana、华为(Huawei)、英特尔和Xilinx也分别发表其机器学习和神经网络芯片。华为详细介绍其达芬奇(DaVinci)神经网络(NN)加速器。DaVinci设计独特,专为从物联网(IoT)设备扩展到数据中心而设计。该公司正致力于将NN处理器整合到其多样化的芯片设计中。华为的演讲进行方式也很特别,由于主讲人未能顺利申请到美国签证,因而准备了高画质的视频演讲,之后再以电话会议的方式开放提问。
英特尔发表其Spring Crest (NNP-T) 机器学习训练芯片和NNP-I推理引擎。 NNP-T组件基于Nervana芯片架构,现已移植到台积电的16nm工艺。这款内含270亿颗晶体管的芯片尺寸约680mm2,采用1200mm2中介层以及32GB HBM2-2400内存。该芯片设计符合Facebook的开放加速器模块(OAM)外形,并支持BFLOAT16数据格式。
英特尔另一款芯片——NNP-I Spring Hill推理芯片将采用M.2 PCIe外形配置。它针对约4.8TOP/W的主要数据中心推理工作负载,提供同类最佳的性能/功效比。Spring Hill采用英特尔10nm工艺制造。
Habana更新去年推出的Goya推理卡,并介绍现正进行评估的Gaudi训练板最新发展。如同英特尔的Spring Crest,Gaudi训练芯片也支持BFLOAT16数据格式,并以Open Compute Project (OCP) OAM提供。Gaudi的芯片到芯片互连采用标准RDMA RoCE over PCIe 4.0接口。
Xilinx的7nm Versal VC1902 ‘ACAP’芯片拥有370亿颗晶体管和大约1GB的片上内存。Versal于2018年推出,现正评估样片中。
尽管在Hot Chips涌现一波机器学习和神经网络处理器浪潮,但也有一些更加传统的产品与技术展示,包括AMD的Zen 2 (Matisse处理器)和Navi GPU、Arm的N1服务器核心、IBM的POWER 9 AIO、英特尔的Lakefield PC处理器、Nvidia的图灵(Turing) GPU及其光线追踪加速功能等。
芯片拆解也是IBM Power 9 AIO及其Open Memory Interface (OMI)的关键部份,它提供了一种从处理器芯片中移除内存控制器并将其置于内存模块的方法。该OMI逻辑约为DDR内存驱动器面积的六分之一,透过OMI使用跨平台的CPU芯片内存。微芯科技(Microchip)推出了一款OMI DDR4内存缓冲芯片。IBM并介绍其OpenCAPI加速器接口,指称其开放与英特尔CXL标准融合的途径。
Hot Chips是业界发表最新技术的独特场合,许多不在其他会议中谈论的芯片通常会在此处亮相。例如微软(Microsoft)深入探讨HoloLens 2采用的芯片,而特斯拉(Tesla)则讨论在其内部设计的车用客制ADAS芯片。
TESLA ADAS控制器配备冗余客制芯片(来源:TIRIAS Research)
除了在Hot Chips大会上发表的演讲数据极其重要且相当技术性,与会者也从这场盛会中发现了其他的乐趣。今年,英特尔在斯坦福大学校园附近举办了一场特别的展后活动,Raja Kaduri和Jim Keller即在此接受访问。
Hot Chips无疑是与芯片业重量级业者和重要人士会面与交流的绝佳场所。这场盛会一向是展现处理器产业尖端技术与最新发展趋势的风向球,今年也不例外。如果说Hot Chips 2019是否透露任何迹象,那就是这一场机器学习/人工智能(AI)芯片革命正方兴未艾。
编译:Susan Hong,EETimes Taiwan
责编:Luffy Liu
参考原文:Hot Chips 2019 Has Never Been Hotter, or Bigger,by Kevin Krewell