何谓迄今最复杂的处理器芯片——IPU处理器？-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

Graphcore公司日前推出了一款称为智能处理单元（IPU）的新型AI加速处理器。其首席执行官Nigel Toon在接受EETimes采访时介绍了其公司愿景、AI加速器市场以及AI的未来。

总部位于英国布里斯托的Graphcore公司日前推出了一款称为智能处理单元（IPU）的新型AI加速处理器。该公司于2016年启动风险投资计划，并在2018年12月的最后一轮融资中募集了2亿美元。基于其17亿美元的公司估值，Graphcore已成为西方半导体界的唯一“独角兽”。它的投资者们包括戴尔、博世、宝马、微软和三星。

近日，Graphcore首席执行官Nigel Toon在接受EETimes采访时介绍了其公司愿景、AI加速器市场以及AI的未来。

Graphcore的IPU芯片已经在生产、发货并产生收入，目前正与极少数早期客户合作。

Graphcore目前的主要产品是一款可插入服务器的双宽、全高300 W PCI Express卡。卡顶部的连接器可以实现卡间互连。每张Graphcore C2卡都配有两个Colossus IPU处理器芯片。芯片本身，即IPU处理器，是迄今为止最复杂的处理器芯片：它在一个16纳米芯片上有几乎240亿个晶体管，每个芯片提供125 teraFLOPS运算能力。一个标准4U机箱中可以插入8张卡，卡间通过IPU链路互连。8张卡上的IPU可以作为一个处理器元件工作，提供两个petaFLOPS的运算能力。与芯片在CPU和GPU中的存在形式不同，它为机器智能提供了更高效的处理平台。这个产品将用于云计算服务器，也极有可能用于自动驾驶汽车。

Graphcore如何应对运行深度学习软件堆栈的挑战？

在过去的三四年中出现的深度学习标准框架（如TensorFlow和PyTorch）与图形描述符（如ONNX）一样，可以在其中一些框架之间进行数据交换。开发人员可以根据框架快速设计神经网络，但这些设计基本上是图形框架，也就是说，它们描述了操作符和图形内部元素之间连接的数学图形。

而Graphcore从这些高级框架中获取输出并将其输入到我们称之为Poplar的软件层，Poplar作为我们的映射和编译工具，它采用高级框架图形并将它们映射成为在IPU处理器上运行的完整计算图形。每个IPU处理器都有1200个独立的专用内核，以及机器学习所需的所有控制操作和超越函数。每个IPU内核可运行多达六个程序线程。因此，如果您有16个处理器，那么在一个4U机箱中可以运行超过100,000个独立的并行程序。

正是这种并行处理能力实现了快速训练模型并进行实时操控，这也使的Graphcore能够在自然语言处理以及在理解自动驾驶视频方面取得重大进展。因此，强大的并行处理能力非常重要。

有了Graphcore的IPU，一个完整的机器学习模型可以在处理器内部生成。而且IPU处理器具有数百兆字节的RAM，可在处理器上以超过1.6 GHz的速率全速运行，因为其中的延迟已被线程隐藏。具有高带宽内存（HBM）等技术的GPU可以提供每秒900 GB的内存带宽，而Graphcore的单个IPU处理器提供大约45 TB内存带宽，因此，Graphcore可以更快地操纵模型。一个4U机箱中有16个IPU，它将使你拥有无可比拟的内存带宽，其上运行了成千上万的线程，而且是同时运行，而这也是Graphcore得以加速机器智能工作的部分原因。

Graphcore IPU与领先的GPU性能相比如何？

Graphcore IPU的性能与市场上领先的GPU相比如何？这取决于它完成的任务。如果用于静态图像分类的前馈卷积神经网络，GPU已经可以做得很好，但IPU可以提供两到三倍的性能优势，有时甚至是五倍。

对于更复杂的模型，比如那些数据通过后再反馈以尝试理解上下文（例如，对话）的模型，由于数据被传递多次，所以需要非常高的速率。对于这样的应用，因为所有的模型都保存在Graphcore的处理器中，IPU可以比GPU快很多，可能快十倍、二十倍或者五十倍。

目前，Graphcore专注于与早期介入客户合作，帮助他们解决实际问题，但会回过头来做一些基准测试，并且将测试结果提交给MLPerf。

基准测试的问题在于它们的保守，它们通常专注于标准的卷积神经网络，而这个行业已经发生了很大的变化。尽管基准测试也是一种有用的相对衡量标准，但看到产品在实际应用中的真正性能也很重要。

在日新月异的发展速度之下，很难讲还有什么可比性。如果采用了标准框架，那么为了进行比较在不同的系统上进行尝试也非常容易。

Graphcore IPU芯片可以用于推理或培训。从架构的角度来看这对Graphcore非常重要，因为随着机器学习的发展，系统将能够从经验中学习。

推理性能的关键点包括：低延迟、适用于小型模型、小批量，以及可能会尝试引入稀疏性的训练模型。IPU可以有效地完成所有这些事情。在一个4U机箱中，16个IPU共同协作进行培训，每个IPU可以运行单独的推理任务，并由一个CPU上运行的虚拟机控制，最终得到的是一个可用于培训的硬件。因此，一旦模型被训练，就可以部署它，但随着模型的发展，开始想要从经验中学习时，就可以采用这个硬件来实现这个功能。

映射和编译工具Poplar与CUDA有何异同？

Graphcore的映射和编译工具Poplar虽然与CUDA处于同等地位，但它实际上是一种编程语言，而不是在较低级别描述图形的框架。

在Poplar中，可以描述一种新型的卷积函数或一种新型的递归神经网络层，然后将其作为高级框架中的库元素。Graphcore提供完整的所有高级操作符和库元素；同时还提供许多低级操作符，你可以简单地将之互连以创建新的库元素。或者，如果您想做一些完全创新的事情，那么可以使用Poplar C ++环境创建自己的东西。

Graphcore希望大家分享他们的创新，而其他人则乐于接受。如果仔细看一下Google的TPU或NVIDIA的GPU，你会发现很多库元素都是关闭的，它们是黑盒子，您无法看到它们是如何构建的。而Graphcore是开放的，人们可以修改它并扩展它。我们希望建立的是这样一个开放的社区。

相比谷歌、百度及FB等公司，Graphcore的竞争优势？

Graphcore正日益面临这个领域的一些强大对手，如谷歌、百度、Nvidia、英特尔以及数据中心巨头Facebook和阿里巴巴，据传他们也正在开发自己的芯片。Graphcore将会如何与这些公司竞争？如果数据中心公司开发自己的AI加速器，那这个市场的竞争还会存在吗？

Graphcore认为将会有三个主要市场。

首先是一个相当简单的小型加速器市场，通常应用于移动电话的IP内核，一些大型手机制造商已经在做这方面的工作。但Graphcore没有参与这个市场。ASIC设备很有市场前景。举例来说，一个拥有大量用户的具有非常特定工作量的公司，或许他们运营着一个庞大的社交网络，他们可以创建一个非常具体的功能并将其构建到一个芯片中，然后将其部署到数据中心以提高这一功能的效率。这类ASIC解决方案拥有巨大的市场，但是，Graphcore并没有参与。

Graphcore所做的是一个通用处理器，您可以通过编程以惊人的效率来做许多不同的事情。如果应用于云计算环境，这项技术可以非常轻松地解决问题，它功能多样，易于编程，提供极为有效的结果，Graphcore相信这是一项致胜的技术。

采用专用ASIC芯片的事实几乎已经证明了GPU的弱点。人们需要一种更高效、易于使用的为机器智能而设计的处理器，而这正是Graphcore所做的。Graphcore认为通用IPU有机会形成截至目前最大的细分市场。通过为上述所有问题提供更加高效的解决方案，相信可以引领该领域的行业标准。

如果只是针对基本的前馈卷积神经网络，GPU是一个非常好的解决方案，但随着网络变得越来越复杂，人们需要一个新的解决方案，这就是ASIC和FPGA产生的原因。我们接触过的所有创新者都说使用GPU正在阻碍他们创新。如果仔细看一下他们正在研究的模型类型，你会发现他们主要研究卷积神经网络的形式，因为递归神经网络和其他类型的结构，例如强化学习，并不能很好地映射到GPU。由于没有足够良好的硬件平台，研究领域受到限制，而这正是我们将IPU推向市场的原因。

Graphcore会面向企业市场吗？企业市场很有意思，尤其是在企业界有很多公司正在尝试进行真正的深度学习，Graphcore对这个市场深感兴趣并专注于此。问题是，Graphcore如何接触这类客户？他们遍布全球，并处于不同的垂直市场。对于初创公司而言，这是一个难以进入的市场。可以说Graphcore的策略比较狡猾，他们与戴尔建立了密切的关系。戴尔是Graphcore公司的投资者，通过与他们合作，Graphcore顺利地进入市场，并通过多种不同形式将我们的技术交付给客户，例如，Graphcore的产品可能是4U全能IPU服务器，也可能是内置单个IPU PCI卡的工作站。有很多不同的选择来抓住这个市场，而Graphcore得到并利用了这个机会。

Graphcore成为西方半导体界的唯一独角兽。拥有如此高的估值，对公司来说是好事，因为它是对公司业务的很好验证，让Graphcore可以筹集大量资金，他们现在拥有令人难以置信的快速增长的火力，对于一个新兴市场来说这很重要。这种快速增长在未来的两三年内都将持续，Graphcore将在这段时间极速奔跑以成为领先者。

本文同步刊登于电子工程专辑杂志2019年7月刊

处理器/DSP 人工智能产品新知

何谓迄今最复杂的处理器芯片——IPU处理器？

Graphcore如何应对运行深度学习软件堆栈的挑战？

Graphcore IPU与领先的GPU性能相比如何？

映射和编译工具Poplar与CUDA有何异同？

相比谷歌、百度及FB等公司，Graphcore的竞争优势？

杂志声明