过去两年,我们一直都在追踪Graphcore这家公司的动态。毕竟在AI芯片领域,Graphcore是全球颇具影响力,且在中国市场投入也比较大的初创企业。Graphcore大中华区总裁兼全球首席营收官卢涛在最近的媒体分享会上说,2020年底时Graphcore的全球团队是400人左右,目前已经超过了700人。而这两个时间点上,中国团队的人数也从20人变成了现在的80人。
而AI芯片市场如今可是相当热闹,几有成为红海之势,尤其是在国内——虽然AI芯片这个词涵盖的范围有些太过宽泛。去年《国际电子商情》10月刊封面故事,卢涛的一段话让我们印象很深刻:
“如果比较理性地分析,如今市场的整体格局可能并没有大家看到的那么‘热闹’”……“现在的AI芯片公司大致可以分成7大类,第一类是在组建团队的,第二类是在宣讲理念的,第三类是有了芯片的,第四类是有了芯片给客户送测的,第五类是有落地的,第六类是有很多场景落地的,第七类则是真正能够跟GPU分份额的。”“要做到第六类、第七类的水平并不容易。”
Graphcore对于自己的定位是在第五和第六类的。这里的场景落地,对于初创芯片公司在生态构建、场景探索与合作方面的能力提出了很高的要求。我们也更关注Graphcore IPU芯片的落地情况,毕竟此前我们也比较多了,而且IPU架构、芯片产品及系统解决方案已经受到了业界的肯定——这从Graphcore拿到的融资和市场行为,乃至去年IPU参与MLPerf Benchmark都能看得出来。
我们认为,Graphcore现在的发展关键更在于生态构建,与实实在在的场景落地上。说白了,也就是IPU究竟能拿来做什么。因为Graphcore作为一家明星级的初创公司,早就过了那个在市场上“讲故事”的阶段。
业绩、利润不是第一位
从Graphcore现如今对外发声的方式,也能很大程度表明这家企业如今的着力点和发展阶段。卢涛在接受采访时特别谈到:“我很早就和CEO(Nigel Toon)聊过,公司的第一优先级是有人用我们的产品;第二是有人用了这个产品,服务他的业务;第三是业绩;第四才是利润。”
“现有顺序不能弄错,先得有人用你的东西,才能谈其他。”卢涛表示,“这套方法,我们在公司内部也进行了反复讨论。大家觉得是可持续发展的路径,而不是一个短期行为——不是单纯要某些客户买芯片,我们实现销售业绩,但最后又不一定真正发挥价值。”
所以落地对IPU而言是当务之急。在AI芯片初创企业先后涌现的市场环境里,产品应用场景的更早落地也是生态占据先发优势的重要举措。毕竟以半导体行业的历史来看,当AI芯片市场未来走向成熟之际,市场洗牌后剩下的竞争者不会很多;在洗牌阶段尚未到来之时,就必须以最快的方式占领市场。所以“有人用”IPU,是Graphcore现阶段最重要的任务。
Graphcore大中华区总裁兼全球首席营收官 卢涛
卢涛介绍说,去年第四季度Graphcore公司内部运作有一些调整。“希望公司内部工作流要沿着这样的方向来。第一块是规划路标的、做前沿性研究的;第二块是产品,做芯片、系统;第三块是营收,包含很多东西,有全球的销售组织、商务拓展组织、技术支持组织、AI应用开发的组织。”
其中第三部分,“不是个简单的纯销售团队,销售组织占中间很小一部分。”卢涛也确认这其中AI应用开发团队还在扩展中,“这个团队的核心目标是在较策略性的客户和策略性的机会里,去推动IPU采用。应用方面的投入会持续增加。”
“对AI社区而言,最关心的是到底能做哪些AI应用。在这个问题上,我们会持续投入。随着公司越来越大,会越来越智能化,越来越细分。”
IPU的生态建设情况
“生态”是个非常泛的词,而构建起围绕产品的生态绝不是一蹴而就的,就像英伟达GPU发展至今也历经了十多年的积累——英伟达GPU通用加速,包括AI应用的覆盖范围之广,仍是现在的其他GPU和AI芯片企业都难以望其项背的。所以像Graphcore这样的市场角色,更多的还在于发现自己的长处,甚至预见未来。
观察当前IPU生态发展情况,一些不错的切入点包括面向开发者的开发工具全面性,主流框架支持情况,以及与其他合作伙伴的合作开展进度,以及最切实的:芯片用在了哪些具体的地方。
上面这张图相对系统地展示了IPU面向开发者的软件、工具。大部分开发者关心的应该是Graphcore自家的Poplar SDK发展情况。这张图Poplar SDK的堆栈中,除了底层与硬件关联的驱动、抽象层;中间部分是库、Graph Compiler等构成,以及靠上的框架后端,包括XLA(某种用于机器学习的优化编译器)、PopART(Poplar Advanced Runtime)等。
这些都是Poplar的基本能力,此前Graphcore公布MLPerf测试成绩时也谈到了Poplar SDK在数个版本迭代后性能的显著提升;以及在我们看来去年MLPerf测试成绩并不能完全体现IPU的能力,其实都能看出Poplar本身是在快速发展中,以及有更大的挖掘潜力的。
最上方的框架层面有了一些“新面孔”。卢涛说:“PyTorch Lightning是最新发布的,PaddlePaddle也是新发布的,还有Hugging Face也是新的。”PaddlePaddle无需赘言,去年12月份Graphcore宣布IPU全面支持在百度飞桨之上进行训练和推理;
PyTorch Lightning是个开源的Python库,提供较高层级的interface;Hugging Face这家公司有开发其聊天机器人应用,可做AI式交互——配套的,Hugging Face开发了自己的NLP模型,而且一直在维护一个基于PyTorch-Transformers预训练NLP模型的库。
卢涛也提到对Hugging Face做出支持,是面向开发者提供更高抽象层。“PyTorch之上本来就是用PyTorch写代码,Hugging Face是在此之上,把所有基于Transformer的模型又做了一个更上层的抽象。”
最上方面向开发者的前端,加入了Jupyter Notebook支持——这应该是很多开发者都很熟悉的了;以及推理部署工具。这些其实都属于降低开发门槛的工具完善。
除了中间的这些核心要件之外,上图的“周围是一些AI的应用、开发者的生态,包括开发工具、可视化的工具等等。右下角是系统级软件,从硬件的管理,到IPU虚拟化,到系统级别集群的调度、任务的调度。”
目前Graphcore的AI生态包含了上图列出的合作伙伴,其中Weights & Biases、Spell、Gradient等都是去年开始与Graphcore合作的。
这里尤为值得一提的是对Graphcore而言,去年两个相关系统部署比较重要的发布。其一是去年10月份Graphcore和VMware宣布VMware的Project Radium要对IPU做出支持,对用户和管理软件而言隐藏了实施复杂性的情况下,在虚拟化、多租户环境里的数据中心网络中,实现IPU资源的池化和共享。其二则是Docker、Kubernetes也开始支持IPU。
“这表示大家开始关注怎么做集群管理、集群调度。”卢涛说,“最开始,大家的关注点是机器学习框架、支持什么模型,往后则会关注怎么部署、怎么调度、怎么做任务分配等等。”这是IPU发展过程中的递进,和走向成熟的必由之路。
另外这次Graphcore也提到了服务器OEM以及存储合作伙伴,如上图所示,都是这些年IPU生态构建进度的组成部分。
聊聊具体的应用
完善开发、部署、渠道等层面的生态,最终还是要看应用落地情况——也就是IPU究竟用来做什么了。比较有趣的是去年Graphcore有个工程师尝试用Poplar来做光线追踪,发了篇blog,有兴趣的读者可前往阅读(这才叫和英伟达硬碰硬啊!都到英伟达的图形计算主场来了,可惜在性能方面没和RTX作比较,而是选了CPU作为对比对象)。虽说只是实验性质,探究IPU和Poplar可能性的一举,却能表明IPU的潜力。
言归正传,在这次分享会上,卢涛表示Graphcore预备从早前的“市场霸主挑战者”,走向在“多个维度建立市场领导力”,“比如性能、创新、TCO、软件易用性等”。产品表现落地之后涉及到更具体的细分领域。上一次我们采访卢涛时,他曾大致提到Graphcore当下聚焦于5个赛道,分别是互联网、金融、研究、医疗健康(healthcare)和其他(AI First)。预计2022年,我们还会听到一些新的、有关Graphcore IPU应用案例及合作的消息。
这次卢涛列举了2021年下半年最新宣布的一些应用案例。比如:
- 与安捷中科合作,用IPU进行气象预测、精准灌溉和防灾减灾;
- 与巴黎大学在宇宙学方面合作,加速宇宙学应用;
- 与深势科技合作,完成分子动力学模拟软件DeePMD-kit向IPU硬件的迁移,将分子动力学用在新药、新材料研发生;
- 与欧洲中期天气预报中心合作,预知天气;
- 在金融保险方面,牛津-英仕曼用IPU进行股票预测;Tractable利用AI进行保险理赔方面的辅助工作;
- 电信方面,与韩国电信合作,发布IPU云;
- 城市环境可持续发展上,与升哲科技合作,打造基于IPU的城市ESG方案;
- 医疗、生命科学方面,与斯坦福大学医院合作,以“医疗+隐私计算”为核心的方向进行研究探索。
这其中包括安捷中科、深势科技、升哲科技等都是中国市场上与Graphcore合作的典型代表。“我们希望AI技术能运用到和人们的生活、居住环境、健康等相关领域中。”除此之外,卢涛还说许多规模较大的商业企业相对低调,并未公开与Graphcore的合作。所以这些只是其中颇具代表性的一小部分。
“我们会持续深耕本地的合作伙伴,像生态合作伙伴的一些合作,以及拓展更多AI平台的合作。另外,在一些相关的AI应用领域,会做进一步的加深。像是用AI辅助科研、自动驾驶等等,都是我们2022年在AI应用和垂直领域中比较重要的方向。”
未来新趋势
这次我们没怎么聊IPU硬件本身,因为过去聊得很多了,包括很大的片内存储资源、高度并行计算能力、跨芯片通信机制等。不过硬件层面,针对AI芯片的过去2年,我们始终在谈专用性和通用性的权衡。此前采访Nigel Toon,以及现如今IPU的应用落地,都可见IPU在这个天平上市更偏向通用或可编程性的(连光追都可以做...)。
但实际上,IPU此前被Graphcore定义为CPU、GPU之外的第三大类芯片,就意味着它起码比前两者更专用,要不然怎么叫AI芯片呢?而专用面临的一个问题,就是更多应用场景适用性的问题。尤其是对AI发展趋势的预见能力,对AI芯片企业而言就尤为重要——这里还得考虑到芯片设计到量产较长的周期。
卢涛针对这个问题是这么说的:“AI领域内,生态要全面追上(时代),相对而言是比较困难的。AI整体是高度动态的。有很多创新和研究,取决于我们对未来的判断。谁也不敢说自己的判断一定是准确的;要勇于做决定、要冒风险。”
“我们现在需要选一些领域,也许是今天还没有发生的趋势;我们要稍微做一些预判,预判未来可能会发生的。”卢涛说,“今天在某些模型内,我们比GPU的支持还好,因为一年前我们就认为这是未来的趋势——当时这个趋势还不是特别明显,但我们预先做了判断、进行投资。”典型的比如ViT,基于Transformer的计算机视觉模型。“对于这些新的领域,需要‘预判+冒一点风险+一点运气’,就可能在这个领域里相对具备领先性。”
我们期望看到,在生态建设已经有所斩获的今天,Graphcore未来的新硬件将会以怎样的姿态出现;以及Graphcore对于未来的AI发展走向又将有怎样的预见。