当通用计算逐渐在性能、能效比提升逐年放缓的情况下,摩尔定律放缓、登纳德缩放定律失效,被人们每每提及的“架构革新”成为一种必然。Graphcore的IPU可算是当代“架构革命”的先驱之一。Graphcore的架构革命究竟能带来什么?

被誉为英国半导体之父,同时也是Arm联合创始人的Hermann Hauser先前曾经这样评价过Graphcore:“这在计算机历史上只发生过三次,第一次是70年代的CPU,第二次是90年代的GPU,而Graphcore就是第三次革命。他们的芯片是这个世界伟大新架构的一种。”

当通用计算逐渐在性能、能效比提升逐年放缓的情况下,摩尔定律放缓、登纳德缩放定律失效,被人们每每提及的“架构革新”成为一种必然。Graphcore的IPU可算是当代“架构革命”的先驱之一。Graphcore的架构革命究竟能带来什么?


Graphcore CEO Nigel Toon

为什么需要革命?

神经网络(NN)的一大特点,就是在逻辑层面对人脑神经元行为的模拟。更加高度抽象地说,以“推理”过程为例,我们“感知”世界的方式,总是通过非精确数据进行推理,从经验中学习,以及基于世界模型的尝试。就好比人类大脑辨认一只猫的过程,是基于经验的、常识模型的,而且是低精度的,我们不需要精确获知这只动物身上究竟有多少根毛发、眼睛尺寸的具体数值等,便可推理出这是一只猫。

今年的2019全球CEO峰会上,Graphcore CEO Nigel Toon在题为Exascale Compute with IPU的主题演讲中提到,如今智能机器(Intelligence Machine)的常规方案,即是获取训练(training)数据/传感器数据,然后借由“概率知识模型”在本地进行推理(inference),并最终得到结果。

“什么样的数据、什么样的方法去捕捉他们要训练的这些数据,数据间的应用关系;就像孩子一样,大脑不断地吸收他们的知识,才能产生这样的模型,这些是需要长时间建立的。”Toon表示。除此之外,这类型的工作极少出现分支和其他复杂行为任务(分支这类型的任务是CPU的专长),可以分解成单独、半独立的线程;而且计算精度要求并没有那么高。

20191107-002.jpg

 

这样一来GPU这种具备处理重度并行任务能力的处理器也就非常适用,不过GPU的效率仍然不够高。Graphcore在前两年的一次主题演讲中特别提到了GPU的Dark Silicon[1],毕竟GPU有一部分是专为图形渲染做高性能计算的,这样一来就存在大量资源浪费;而且主流GPU核心区域的片上存储资源仍然是不够的,数据吞吐能力也就没有那么强。

前面提到的“知识模型”包含的特点有:自然呈现为计算图(graphs,代表的是知识模型和应用,所有机器学习模型都用graph的形式来表达)、支持高度并行计算、需要海量数据带宽、小型张量(small tensors)的低精度算法。这其实是AI芯片诞生的重要契机。

另一方面,“机器智能”的要求还在发生进化。我们现在更多的应用,并不是单纯能识别一只猫这么简单,更多的比如语言理解,以及更多的高级感知能力——如汽车辅助驾驶系统或者自动驾驶中,对司机情绪、疲劳程度的判断等。与此同时,模型尺寸正在变得越来越大。我们前两年还在说:好的卷积神经网络,通常是带有“上百万参数”和许多隐藏层的怪物。不过在这些年不同应用的发展中,“上百万”又算得上什么?

Toon列举在2016年1月的残差网络ResNet50参数总量25M,到2018年10月的BERT-Large自然语言模型发展到了330M,如今OpenAI会讲故事的文本生成模型GPT2——这是一个大型语言模型,具有15亿个参数;未来的新模型是朝着万亿(trillion)量级去的。

20191107-003.jpg

 

上面这张图,来自去年年中OpenAI发布的一份名为《AI与计算》的分析报告[2]。这份报告提到,自2012年以来,AI训练(training)任务应用的算力需求每3.5个月就会翻倍,这个数字可是超过了摩尔定律的;从2012年至今,AI算力增长超过30万倍。这张图纵轴的单位,每1个petaflop/s-day(pfs-day),就包含了一天每秒10^15次神经网络运行次数,或者总数大约10^20次操作(不过这个统计针对一次“操作”的定义,没有区分加法、乘法,而且不区分数据精度)。

需要注意的是,这张图的纵轴刻度并不呈线性,而是指数级增加。

20191107-004.jpg

 

当我们真正去对比当前芯片的晶体管数量,以及性能变化时,其实很容易发现,摩尔定律大趋势是持续的,但登纳德缩放比例定律(晶体管密度增加同时,每个晶体管功耗会下降)已经达到极限——我们在先前的文章中也已经不止一次地提到过这个问题。早些年,Steve Scott还在英伟达特斯拉业务部门担任CTO(现在是Cray的CTO)的时候就说过这个观点:晶体管已经无法在体积缩小的情况下持续降低电压,这样一来,虽然集成的晶体管越来越多,但也意味着功耗越来越大:性能因此受到功耗限制,每一次制程迭代,都会加重该问题。

所以解决方案是?

去年《连线(WIRED)》杂志在采访AI之父Geoff Hinton说:“我认为我们需要转向不同类型的计算机。幸运的是我这里有一个...”Hinton从钱包里掏出一枚又大又亮的硅芯片:IPU。

这段是Toon在全球CEO峰会上讲的,看起来很像是个段子。不过从连线杂志的原报道来看[3],这件事竟然是真的,当时Hinton拿出来的是Graphcore的原型产品。Geoff Hinton现如今是谷歌AI顶级研究人员,此人早在上世纪70年代就开始构建人类大脑从视觉层面理解世界的数学模型。所以这件事,又让Graphcore获得了一重加持。

实际上,现如今的AI芯片已经遍地开花了,不管是训练(training)还是推理(inferencing),包括Arm前不久都已经发布了针对边缘AI推理的专用IP。这其实已经足够表明,这种“架构革命”风卷残云式的来袭。

简单地说:CPU通过手机数据块来处理问题,然后针对这些信息跑算法或执行逻辑操作,其通用性很好,适用于各种计算,但可并行的核心数量经常只有个位数;GPU核心数或执行单元数量大,可同时执行更多任务,但如前所述,其效率还是不够的;而AI芯片,则能够从不同位置同时拉来大量数据,进行快速和更高并行数的处理:Graphcore的IPU(Intelligence Processing Units)是其中一种。

20191107-005.jpg

 

Graphcore可以认为是这个领域最早的一批开创者。IPU的“架构变革”部分体现在,整合芯片逻辑和存储部分,在片上分布SRAM,让IPU达到100倍吞吐;此外,16nm "Colossus" IPU包含了超过1200个低精度浮点运算核心,和所有机器学习所需的控制操作与超越函数,125 teraFLOPS算力;每个核心能够跑至多6个线程。

另外搭配Graphcore针对机器智能设计的软件工具链Poplar。Toon先前在接受采访时曾提到:“Poplar建立在计算图形抽象(computational graph abstraction)的基础上。其graph compiler的IR(intermediate representation中间层)是个大型的定向图。”Graph图像共享作为内部的representation,整个知识模型的representation最后都会分解为高度并行的工作负载,然后在IPU处理器之间进行调度和执行。一句话概括就是,Poplar通过不同层级的优化,在IPU核心之间部署任务。[4]

Poplar支持TensorFlow、PyTorch、OONX、Keras等框架。“从这些高层级的框架获取输出,喂进Poplar软件层,产生高层级的graph,并将这些graph映射到跑在IPU处理器上的一张完整计算graph上。”这其实也是当前AI芯片开发的常规思路。

总结一下,这些尝试解决的问题实质就是本文第一部分提出的,当代“知识模型”的那些要求,包括高吞吐、高度并行、低精度等,并在性能要求上满足模型越来越贪婪的需求。

IPU的几个特点,第一是被称作graphs型的计算(computation on graphs,包括了高度并行、稀疏化(sparse)、高维度模型、分布式片上存储);第二,低精度,宽动态范围算法(混合精度,16.32,和更低);第三,静态图形结构(编译器可分解任务、分配存储,调度messages,块同步并行、无序化、adress-less通讯);最后是Entropy Generative(比如产生统一分布整数、Generation of vectors of approximately Gaussian distributed floats等)。

ExaFLOPS级别的扩展

Nigel Toon提到,IPU产品已经向戴尔出货,戴尔易安信IPU服务器即是一款比较具体的产品。如我们先前所了解的那样,这款数据中心设备,每台插8张C2 PCIe加速卡(每个C2卡包含两个IPU),能够实现1.6 petaFLOPS的算力。戴尔其实也是Graphcore企业市场策略的重要组成部分。

20191107-006.jpg

20191107-007.jpg

 

 

从IPU先前的介绍来看,它具备card-to-card links的弹性扩展机制。在前不久的NeurIPS展会上占了一个名为Rackscale IPU-POD的参考设计。Nigel Toon这次讲IPU-POD称作“机器智能超级计算机”,“这部分去年10月,我们开始逐步付诸实施。”这可以认为是将IPU弹性应用到极致的某种示例。

一个单独的42U机架IPU-Pod能够提供超过16 PetaFLOPS混合精度算力;一套32个IPU-POD(至多4096个IPU),可以将算力弹性扩展至超过0.5 ExaFLOPS的程度,这对同硬件的训练和推理,都是相当惊人的吞吐量。

显然针对Toon前面提到神经网络模型在体积和算力需求方面的扩张,是越来越必要的一种应用方案。

20191107-008.jpg
可弹性扩展至0.5 ExaFLOPs的IPU-POD

作为英国的一家独角兽企业,Graphcore是被Nigel Toon寄予了厚望的。他一直期望在英国建立一个具备Arm同等影响力的科技企业。当前Graphcore的融资总额已经达到3.25亿美元,这在我们先前的全球CEO峰会展望篇中已有所提及。不过在应对AI芯片越来越多市场参与者,包括大量初创型企业,以及Intel、英伟达这些老牌企业的入场,Graphcore和Nigel Toon的竞争压力显然也是不小的。

 

20191107-009.jpg

参考来源:

[1]https://cdn2.hubspot.net/hubfs/729091/NIPS2017/NIPS%2017%20-%20IPU.pdf?t=1526305355186
[2]https://openai.com/blog/ai-and-compute/
[3]https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/
[4]https://www.eet-china.com/news/201909211859.html

责编:Yvonne Geng

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
该款机器人其实是深圳创业公司众擎机器人推出的人形机器人SE01,被网友称为“走路最像人的机器人”。为什么许多人形机器人走路时总是微微弯着膝盖,看起来有些别扭?最主要的原因是人形机器人的膝盖是用电机来控制的……
该榜单显示,美国以413家公司位居榜首,总价值达到348万亿元人民币,占榜单总价值的56%。中国则以134家公司位列第二,总价值为65万亿元人民币,占榜单总价值的13%。
索尼新专利利用人工智能(AI)技术来预测玩家的操作输入,从而显著减少在线游戏中常见的延迟问题。这项创新技术被称为“定时输入/动作释放”,通过智能AI模型提前判断玩家的意图,并在实际操作完成之前执行相应的指令,从而提升游戏的流畅度和响应速度......
苹果CEO蒂姆·库克在2024年的三次访华期间以及与媒体交流时多次提到,苹果正努力推进AI手机在中国市场的发布……
美国反垄断执法人员周五对伊隆·马斯克试图阻止OpenAI 转为上市公司的诉讼进行了评估,并支持马斯克声称 OpenAI 和微软存在欺诈行为的法律原则,从事反竞争行为......
CES 2025上,联想集团展示了多款融合了先进AI技术的产品,并预测在未来两到三年内,AI PC的市场普及率将达到40%-50%,甚至可能高达80%
大多数研发人员和导热界面材料配方设计师可能会推荐使用具备诸多优异特性的硅。然而,也存在一些例外情况。这些问题强调了在选择导热界面材料时考虑终端产品最终应用的重要性.....
在与芯科科技(Silicon Labs)首席技术官Daniel Cooley的交谈中,我们了解到该公司在物联网(IoT)和智能边缘领域所发挥的作用和未来发展。
虽然绕过产品防伪保护的手段变得越来越高级,但是最新的 NFC 芯片技术提高了信息安全性,让品牌能够保护知识产权,预防客户误买假冒商品。
西门子推出Simcenter更新版本,助力客户简化工作流程,加快航空航天认证,同时提供深入洞见
会议推介2025中国国际LED产业发展大会暨首届JM Insights春茗会 主办单位:JM Insights 支持单位:深圳市平板显示行业协会 论坛时间:2025年2月20日 论坛地址:深圳·国展皇
点击蓝字 关注我们SUBSCRIBE to USImage: Umar Shakir / The Verge谷歌将于今年2月(25年2月)推出其Android Automotive应用转换计划,该计划
近日,荣耀公司高层人事变动频繁,继原CEO赵明因身体原因离职后,荣耀中国区CMO姜海荣、中国区销售部部长郑树宝等多位高管也相继离职。           1月20日,据荣耀内部公告,荣耀中国区CMO姜
一凡 铁鹰发自 智车入库 | 公众号 AI4Auto2025,智能驾驶怎么卷、卷什么?那要结合现在的能力和体验来看。2024年,「全国都能开」成为新的第一梯队门票,但很快不再「领先一代」。两个「端到端
尊敬的会员主联系人:为提升服务品质,自2025年1月起,IPC中国团队将定期整理会员裨益最新资讯,请将此文转发给相关同事,方便大家及时了解和使用会员裨益。一、会员免费标准下载2024年11月份发行了5
本文来源:智能通信定位圈《2025中国高精度定位技术产业白皮书》正在调研阶段,目前已经参与调研的企业有:长沙驰芯半导体科技有限公司北京瀚巍创芯电子技术有限公司深圳捷扬微电子有限公司深圳芯邦科技股份有限
    三极管的电流放大作用应该算是模拟电路里面的一个难点内容,我想用这几个动画简单的解释下为什么小电流Ib能控制大电流Ic的大小,以及放大电路的原理。    我这里的三极管也叫双极型晶体管,模电的放
文|温风2024是所有豪华品牌都不好过的一年。中国市场豪华品牌在参与价格战和不参与价格战中反复横跳,也牵动着跨国品牌全球市场的销量和财报数字。想在全球豪华市场榜单脱颖而出,就必须在销量占全球近1/3,
1月20日,市场调查机构 CounterPoint Research发布的报告显示,2024 全年 PC 出货量达到 2.53 亿台,同比增长 2.6%,PC 市场已恢复到正常季节性波动,并随着 AI
1月21日,研究机构 Canalys 发布的报告显示,2024 年第四季度,由于厂商在节后调整库存,印度智能手机出货量下降 4%,降至 3720 万台。其中,vivo 以 750 万台的出货量和 20