Hot Chips,全球高性能芯片领域最负盛名的业界盛会!虽受疫情影响,本届Hot Chips会议报告质量依然非常之高,涵盖范围也非常之广。在Tutorial 部分,有来自于Google TPU 团队、Cerebras、百度的机器学习训练专题,也有来自于Google、IBM等的量子计算专题。会议正式内容分为 8个 Section,包括服务器处理器、移动处理器、边缘计算和传感、GPU 和游戏架构、FPGA和可重构架构、网络和分布式系统、机器学习训练,以及机器学习推理。受限于文章篇幅,本文将主要讨论和机器学习相关部分的产品与趋势。
趋势一
互联网公司自行开发的芯片明显增多。百度有昆仑,阿里有含光。未来自己的客户到底在哪里,公司出路在哪里?留给创业公司的空间还有多少?
百度是Hot Chips的常客:在主任架构师欧阳剑的带领下,其基于FPGA开发的 Software-Defined Accelerator(SDA,软件定义加速器)、面向于多种实际应用的XPU都已经在 Hot Chips 进行过报告。本次百度展示了去年在三星使用 14nm 工艺流片的昆仑芯片。
阿里巴巴在最近几年也在基础架构、芯片开发上投入巨大。去年阿里巴巴达摩院团队的张健松博士在 Hot Chips 发布了基于 FPGA 的新一代语音合成芯片Ouroboros,今年阿里更是有两个报告入选,其中就包括由焦阳(骄旸)领导开发的含光 800 NPU。
同是互联网公司开发的AI芯片,百度昆仑和阿里含光800差异非常大,但各有优势。百度昆仑重点强调通用性,其峰值性能256 INT8 TOPS/150W的指标虽然不那么突出,但是能够支持搜索引擎、计算机视觉、NLP、语音识别等多种模型。含光800性能指标非常突出,使用台积电12nm工艺,实现了825 INT8 TOPS/280W的能效比,但是因为没有外接存储,其所能使用的模型有限,目前披露的数据基本都是针对 ResNet-50 的。
无论两颗芯片的差异如何,值得注意的是,阿里与百度,包括很多互联网公司都有在布局云端 AI 芯片:
腾讯一方面战略投资了由曾在AMD任职多年、也曾在锐迪科担任CEO的赵立东师兄创立的燧原科技;而另一边,腾讯也在悄悄招兵买马,布局自己的AI芯片;
字节跳动极其低调地战略投资了一家AI芯片公司,该公司也于今年初获得了红杉中国的A轮融资。至此老互联网三巨头BAT和新兴互联网公司中最大的字节跳动,都已经有了自己的AI 芯片嫡系部队。而这其中任何一家自身对AI芯片的需求,成本和收益之比都不足以支撑一颗7nm芯片的开发。
在云端AI芯片市场,除了英伟达这样的垄断者,也有英特尔、赛灵思这样的资深巨头玩家加入。国内除了上述提到的互联网公司自研或关系紧密的企业之外,还有寒武纪、壁仞、登临等企业参与到竞争之中。尽管快手、拼多多、美团、滴滴这样在近些年快速上升的互联网企业还没有看到公开的 AI 芯片布局,但是也不排除他们在未来通过战略投资等方式进行布局。中国云端AI芯片的市场正在被快速瓜分,在未来,即便存在有第三方独立 AI 芯片企业的机会,整个市场也可能只能支撑一家这样的公司——所有相关的企业都必须思考,未来自己的客户到底在哪里,公司出路在哪里?
趋势二
下一代计算技术得到更多关注。单纯架构上的变化,很难实现简单、便捷、低成本。模拟计算,存内计算,量子计算,光子计算, 谁将成为“破坏性创新”的源泉?
在2018年之后,基于传统数字集成电路的 AI 芯片研发进展开始变得缓慢,已经很难见到特别新鲜的想法和前所未有的微架构了。一方面,这是因为面向视觉和语音识别等领域的深度算法迭代幅度开始变小,没有那么多新的问题需要去解决。另一方面,AI 芯片也无非是一个特殊领域的 ASIC,很多解决过往问题的思路都可以迁移过来,好的金矿也率先都被挖出来了。因此,在过去两年,我们看到数字 AI 芯片的进步更多是和业务结合(如互联网公司造芯、特斯拉的自动驾驶芯片),或者利用一些新的平台型技术(如 HBM、Chiplet、Wafer-Scale Chip),微架构也在升级,但没有特别突出的大变化。
而更本质的问题在于,大家原本寄希望于AI芯片领域诞生“破坏性创新”或者“颠覆式创新”的机会,目前看起来很难实现。如图1所示,破坏性创新是指一种简单、便捷、成本低的新型技术,虽然早期达不到客户需求的性能,但其会逐步提升,直到满足客户需求、形成对传统技术的颠覆。而芯片领域,流片成本越来越高,在7nm节点达到了1亿美金以上,如果没有大量订单支撑摊薄成本一般企业根本无法承受。因此,在AI芯片领域变成了:公司越大,芯片卖得越多,芯片越便宜。单纯架构上的变化,很难实现简单、便捷、低成本,难以成为“破坏性创新”的源泉。
图 1. 破坏性创新模型(图源:《创新者的解答》)
在这种情况下,越来越多的新技术路线得到关注,比如模拟计算,存内计算(in-memory computing),光计算等等。在去年的 Hot Chips,来自于一家法国创业公司 Upmem 和普林斯顿大学贾弘洋博士的两篇存内计算报告被录用就是有力的佐证。
本次 Hot Chips的Tutorial选择了一条未来极其重要的计算路线:量子计算。4 个报告其中有两个来自于去年实现了“量子霸权(Quantum Supremacy)”的 Google 量子计算团队,还有两个报告分别来自IBM 团队和Intel团队。但尽管量子计算得到很大的关注,但距离实用还非常遥远,个人认为至少在10年以上。如图 2,来自于Intel 量子计算团队的James S. Clarke 所言,实现了50个qubit,只是完成了概念验证,未来要实现商用,如进行密码破解,需要实现超过100 万个 qubit,这里还有很长的路要走。
图 2. 解决不同问题需要的量子计算系统规模 (图源:James S. Clarke)
孵化自 MIT的 Lightmatter 团队介绍的光子计算方案,相比而言更加接近实用。利用一种 MEMS工艺制造的Mach Zehnder 干涉仪(简称 MZI),光子计算将传统的乘法转化为光路的相位调制与干涉,可以在几乎不耗能的情况下完成计算。但是,MZI本来还是会对信号有一定的损耗,因为如果光路经过多个级联的 MZI,光路损耗的程度可能使得最终结果出错,也因此没法做到特别大的计算阵列。同时,光子计算还存在的一个问题是,仍然需要去解决memory wall,因为 MZI 只是代替了乘法器。
值得一提的是,MIT光子计算团队实际上孵化了两家创业企业,除了Lightmatter,还有其中的华人团队创立的Lightelligence(也被称为 LightAI,曦智科技)。在这里也希望 Lightelligence能够越做越好。
趋势三
Keynote再次回到AI算法与应用。AI开始进入大规模应用的下一步究竟是什么,机器人,AR,亦或是脑机接口?
Hot Chips作为芯片行业最巅峰的盛会,其Keynote的选择,也代表了行业里大家当前最关注的方向。
2017年的Hot Chips,Google著名的架构师,有诸多传奇和段子的“程序员之神”Jeff Dean,在大会做了“Recent Advances in Artificial Intelligence via Machine Learning and the Implications for Computer System Design (基于机器学习的人工智能最新进展及其对计算机系统设计的影响)”,足够说明 AI 真正地进入了主流应用,大家都开始关注AI最新的进展以及如何去针对性进行系统设计。
2018到2019 年的几个Keynote都和AI没有什么关系。2018年芯片行业重大的新闻是 Intel CPU 被发现了Spectre 和 Meltdown两个重大的漏洞,因此Keynote邀请了John Hennessy教授专门讲解两个漏洞以及处理器的安全性问题;同年,赛灵思新任总裁兼CEO Victor Peng 就任,推出了ACAP (Adaptive Computing Acceleration Platform, 自适应计算加速平台) 架构,也受到极大关注,因此也受邀到大会做Keynote。2019 年,大家最关心的问题是摩尔定律是否还能延续,也因此邀请了AMD CEO Lisa Su与斯坦福大学教授、时任台积电研究 VP 的黄汉森教授分别介绍他们的观点。
今年的Keynote,Hot Chips邀请了 DeepMind 的杰出工程师Dan Belov做了题为”AI Research at Scale - Opportunities on the Road Ahead ( 大规模的人工智能研究——未来的机遇 )”的报告,为大家介绍未来 AI 研究可能带来的新机会。Dan Belov的报告,完全没有提计算机视觉、语音识别等已经进入规模应用阶段的算法,而重点给大家介绍了强化学习及其在机器人领域、围棋、图形学等领域应用的进展。Dan指出,从2012年的 AlexNet 到现在,算法效率提升了44倍(即达到同样精度的计算量),而算法的总计算量规模提升了30 万倍,我们还有很多工作要做才能填补这近10000倍的差距,因此我们还需要关注全系统设计、考虑经济性问题、在软件架构领域应用更多机器学习的最新技术。
图 3. 黄汉森教授在Hot Chips 2019的Keynote报告 (图源:姚颂)
回到一个更本质的问题,如黄汉森教授在去年的Hot Chips Keynote 中所说(见图 3),半导体技术的发展很大程度上由重要的应用驱动,因为我们需要去理解和预测未来的新应用——这也是为什么会邀请做算法的企业 DeepMind来一个芯片的行业峰会做 Keynote 的原因。从20 世纪40年代的无线电,到70年代的计算机,到90年代的PC和互联网,到21世纪前20年的手机与移动设备,再在现在这个时间点,移动的市场趋于饱和,AI开始进入大规模应用,理所当然大家也都在思考,下一步究竟是什么?是机器人,是 AR,亦或是脑机接口?
结语
AI 芯片不是技术游戏。
曾经创业的经历让我有机会接触到各行各业的创业者与投资人。曾经听过一位投资人分享互联网交易平台的逻辑和壁垒:对于这类平台,一方连接的是供给方,一方连接的是需求方,当经过发展,供需双方的数量达到了一定的临界值之后,平台就不需要再付出特别大的成本而可以获得用户规模的自然增长,如图4所示。平台几乎可以说是模式最牢固、收益最高的商业模型了,如大家熟知的淘宝、微信、大众点评、美团外卖、拼多多、抖音、快手,都是这一类。
图 4. 供给和需求侧达到一定规模,互联网应用开始自然增长 (图源:姚颂)
而对于AI芯片,大家总是讨论技术,但实际上要做的远远不止技术。从2017年起,我在所有公众报告中就在强调软件的重要性,强调不止要让芯片性能很好,还要让用户可以极其简单的用起来新的芯片。而我也经常引述有赞创始人白鸦对于产品的金字塔模型,提到对于 AI 芯片产品来说,要让用户“离不开”,最重要的是开源生态、是社区。到现在,我越来越感觉到,AI 芯片的竞争,最根本的,就是类似于互联网平台的生态竞争,如图5所示,当有了足够多的开源项目,在用户初次接触AI芯片时,就有更高的几率使用你的芯片,而之后他又可能继续贡献更多的开源项目,实现正循环。也因为此,赛灵思越来越重视软件生态,越来越重视开发者,推出了Vitis这样面向所有类型开发者的软件平台,并且把开发者生态作为重点领域持续推进。
图 5.AI 芯片生态开拓与互联网平台的类似性(图源:姚颂)
目前,AI芯片领域开发者生态的领导者是英伟达:据最新一次发布会上英伟达创始人、CEO黄仁勋披露,已经有180万 AI 开发者使用英伟达GPU;而AI的初学者,我相信 99% 以上都会选择买一块 GPU、下载开源代码进行尝试。那 AI 芯片的初创企业,其他的大型芯片企业还有机会吗?我脑海中蹦出来两个点:
第一,在钢琴推广上,听过一句话叫“一个郎朗胜过一万名钢琴老师”。第二,同是平台,不同平台的稳固程度是不一样的:如淘宝,每个商家都有自己的供应链、有自己在营销上的投入成本,因而会更为稳固;而滴滴,接入的个人司机,在切换平台上没有太多成本,因此哪里补贴高,司机就去哪个平台接单。