广告

2018年AI芯片爆发倒计时(中):用FPGA还是专用ASIC?

2018-02-28 10:27:48 李坚 阅读:
以GPU为代表的图形处理器确实推动了第一波的深度学习的浪潮,现在专用AI芯片正推动第二波浪潮。包括苹果、华为、Intel、NVIDIA、Google和一些初创公司都相继推出了基于神经网络算法的专用ASIC芯片……
广告

上接2018年AI芯片爆发倒计时(上):各玩家如何布局?

谈完了应用布局,我们回到具体硬件上来。如此多的玩家同时闯入终端AI芯片领域,针对大量不同的细分市场和应用需求,下一代AI芯片的技术发展到底往哪个方向走呢?,是采用FPGA还是专用ASIC呢?

以GPU为代表的图形处理器确实推动了第一波的深度学习的浪潮,现在专用AI芯片正推动第二波浪潮。包括苹果、华为、Intel、NVIDIA、Google和一些初创公司都相继推出了基于神经网络算法的专用ASIC芯片。

如果你认为苹果和华为在手机芯片中搭载“AI”单元模块仅仅是为了寻找新的卖点那就错了。云端到终端确实能带来真正的好处,比如功耗和成本的降低,效率的提升等。华为麒麟芯片市场总监周晨认为,在云端进行AI运算的方式,如增加模型的大小和层数并不是真正的方向。AI开始从云端往终端迁移会把运算量和网络大小减少100倍,也会减少对网络带宽的需求。“随着算力的提升和算法的优化,最后会形成一个很好的甜蜜点。”周晨表示。“终端的性能现在是瓶颈,大批公司虽然水平参差不齐,但是都在往芯片端走,如何解决兼容性问题,如何让算法更流畅,成为大家关注的焦点。”周晨表示,从2017年的数据来看,AI的算力中云端占了95%,终端只占5%,这两点的巨大差距会带来很大的成长空间。对于华为麒麟,因为是一家硬件平台公司,自然更偏向用硬件的方式来做,提供通用性的加速器,从而满足大部分的算法需求。目前跑算法大概有两种方式:一种是用CPU跑纯软件,另一种是通过硬件加速器来固定算法。此外,从AI运算的需求本身来看,大部分是计算密度要求很高的行为,也需要用非常高效的硬件方式去做。周晨认为,从芯片的发展历史来看,很多算法一旦稳定成熟下来就会固定用硬件来做。

对于华为的下一代AI芯片,周晨没有透露太具体的规格或参数。但他表示,后面两代的产品定义经明确,基本上有几个方向不会变:第一是算力会持续上涨。第二是专注在通用的AI运算平台上,持续将AI运算能力开放给更多开发者。第三是AI芯片的工艺会越来越先进,更新速度可能会比摩尔定律还要快。 “当我们把算力释放出去以后,可能会有一大票应用能力提升。这会产生正向循环,会有越来越多的开发者做一些新的好的体验。”周晨表示,AI本身是一种技术,但是未来的价值会体现在有多少开发者来开发出相关的应用。

周海天认为,虽然目前有很多的芯片架构都针对AI,但在AI发展初期的一些应用上,在还没找到最优的算法和性能的时候,绝对是FPGA更合适。“尤其是未来两、三年,当然不是说我们现有的产品拿出去就可以了,我们也在不断的专注这一块。”

周海天表示,赛灵思目前也在不断的做一些接口、通用协议的固化,再引入SoC,固化内存驱动,随着AI的发展和成熟,一些关键的模块也可以在FPGA产品里固化,可以推出相应的FPGA base。他认为,其实不同的芯片架构都有一定的优势。现在的处理器产品可以很容易开发处理器平台,处理器也有它的瓶颈。所以现在GPU过去几年是非常成功的,但是也碰到一些功耗和挑战。但是GPU的优势也是很好的产品开发的工具和库。但是在FPGA上,除了可编程的优势,随着算法的演进,将一些硬件架构做一些优化和改变,而不用等硬件变化。“再加上过去我们开发的时候,要从源代码去起步,这是我们这两年的改变,我们不断提到硬件平台还有库和高端的设计语言,也就是跟GPU一样的开发流程。”

周海天指出,针对一些TPU和ASIC,这些专门的AI芯片好处是更加的集中,但也有个缺点,就是它需要非常成熟的算法,因此,AI芯片往往是固化了两年前的算法。而随着AI的演进,尤其是算法的发展和变化是非常快的。

周海天表示,随着AI应用的发展, 最近几年AI算法正在不断的演进,硬件架构也在随之不断的变化。“两三年前我们认为要用浮点运算,在神经网络中达到一定比例。随着算法的成熟,我们发现不一定要用浮点运算,用定点运算也可以。”他认为,这种改变可能就一年的时间,而FPGA非常容易快速的响应算法的改变。

全志科技AI首席专家林建文认为,目前来看AI在云端的运算目前主要采用GPU形态,虽然GPU的功耗太大、成本太高。但是在机器学习这个领域主要还是会采用GPU作为主导,因为需要足够的灵活性。至于FPGA和ASIC,林建文认为未来很长一段时间是并存的形态,甚至是混合(就是一块chip,既有AI专用的运算电路,又集成FPGA)。“主要原因是AI的算法还在不断变化,并且应用领域碎片化,所以要求即使inference,也要芯片具备一定的可变性。” 林建文认为,未来边缘端的AI芯片会分为三种形态并存:通用的,半通用的和专用的。通用的AI芯片类似CPU,可以保证该芯片能适应不同应用场景需要,这种形态适合平台级的芯片,因为它的成本和功耗都会比较高。半通用的AI芯片一般是异构形态,如CPU/GPU+NN专用计算单元。NN计算单元的灵活性较低,但是有CPU/GPU等计算单元作为补充,但是这种架构的主要问题是在于,若出现NN单元与CPU等单元进行计算的交互时,整个通路的效率就会大幅下降,但是现在也有不少厂商在致力于解决这个问题。“在大部分的边缘计算领域,我认为这种形态会成为主流,因为它兼顾了灵活性和成本功耗。”
第三种是专用芯片,针对特定的应用领域,对于成本/功耗十分敏感。比如针对智能门铃、智能摄像头,这些领域往往需要特定AI功能的ASIC,需要实现极致的功耗。

深鉴科技CEO姚颂认为,从AI芯片所处的发展阶段来看, CPU、GPU和FPGA等通用芯片是目前AI领域的主要芯片,而针对神经网络算法的专用芯片ASIC也正在被众多AI公司陆续推出,并且由于专用芯片能够更好的根据场景及行业进行定向优化,所以目前有种趋势:专用芯片有望在今后数年内取代通用芯片所不能完全覆盖到的领域,而成为AI芯片的主力。同时随着大数据、算法和算力的不断迭代演进,市场对智能硬件(芯片)的要求也会越来越高,对应的研发成本会面临新的挑战。

Intel CEO 科再奇认为,当前的AI革命实际上是一种计算的革新。自从集成电路问世以来,Intel一直是突破计算限制的核心力量。“我们的产品路线图让我们正在超越去年设定的目标:即到2020年,深度学习训练的性能可以提高100倍。”金勇斌认为,针对终端的芯片设计有几个特点:一是功耗不能大,二是硬件的效率要非常高,三是运算模型要针对终端特点来定制。在以往GPU在AI计算领域取得了非常好的成绩,目前各大厂商都在做各种架构的专用加速器,有的基于DSP、有的基于GPU。金勇斌认为,GPU的功耗比较高,因此他不认为GPU能够解决终端的效能和成本平衡问题。包括DSP、FPGA都有各自的优点和缺点。从灵活性和效能的平衡来看,在AI应用场景中,比较通用的神经网络以及卷积运算,特定的硬件加速器优势会比DSP和GPU效能更高。 “我们认为未来一个相对通用算法的硬件加速器加上CPU的架构会越来越流行。” 金勇斌表示,CPU比较灵活但效率不高,加速器效率高但不够灵活。因此可以针对不同的特点采用不同的硬件,比如深度学习的卷积运算需求相对固定,就可以采用硬件加速器;而很多针对终端的应用算法需要高度的可灵活编程性,就可以采用CPU。CEVA公司视觉产品市场主管Liran Bar也认为,CPU或GPU这样的通用技术相比专用AI处理器来说性能更低却功耗更高,因此不再是能有效地满足AI要求的可行技术。

林宗瑶表示,如果说AI的发展前期主要集中在云端(Cloud),那么接下来的发展趋势将会往终端(Edge)转移。这个转移有四大好处:第一是终端的回应速度大大提升,比如针对一些车载系统的智能应用,如ADAS应用,如果通过云端计算处理,再把资料从云端传回来的速度会比较慢。第二是如果把资料放到云端,隐私也非常容易暴露。第三是目前的上传流量资费成本也很高。第四是相对服务器端,终端的功耗会更低。实际上目前云端服务器的用电量已经达到全球电力的5%。从环保节能的角度来看,AI从云端往终端的迁移也会是一个潮流。NeuroPilot采用的就是APU(Artificial intelligence Processing Unit)的方式,把目前已知的比较固定的80~90种算法固定到APU中,剩下一些一直演进的10个算法会放到CPU中,从而兼顾弹性和效率。“独立的DSP会有一个好处,功耗效能会比较好,比如谷歌的TPU效率比较好,但是弹性比较低。” 林宗瑶表示,APU将会包含已获得IP授权的DSP,未来也可能采用其它厂商的。

比特大陆产品战略总监汤炜伟认为,到2020年AI专用芯片的数量将超过GPU,这符合行业的发展趋势。汤炜伟认为,无论是运算需求还是能耗成本来看,目前的云端算力都难以满足未来庞大的运算需求。“在云端,深度学习的架构更加困难,在终端CPU参与许多的搬运和调度,但是受限于功耗,在手机里不能超过2瓦,在摄像头里可能最多10瓦的一个功耗,非常受限于前段功耗的限制。我们面临着巨大的深度学习计算规模,也面临芯片技术的挑战,怎么应对?”
汤炜伟表示,当初比特币挖矿也走过从CPU到GPU再到专用芯片的路,因此比特大陆认为深度学习也会走类似的路,会从CPU过渡到最新的ASIC,也就是TPU。

启英泰伦科技总经理高君效表示,AI芯片和传统芯片不一样,其基于特定的差异化架构,通过异构计算能提供非常高性能的并行计算能力。当前AI芯片已经从集成多核CPU或DSP,用软件方式支持各种神经网络算法的方式,转变为设计专用的NPU处理器来完成神经网络的并行计算,最大化地发挥硬件的计算能力。同时,随着技术的进一步发展和AI碎片化应用需求的进一步提升,AI芯片也会从通用的NPU处理器核,向应用场景进行覆盖。
图2:启英泰伦科技总经理高君效
启英泰伦科技总经理高君效

中科创达副总裁杨宇欣则认为,应针对不同的应用场景区别对待。比如手机这种单一市场做AI肯定是SoC为主,但是对于一些安防、工业应用等量不大的市场,这种单独做SoC不值,用FPGA来做可以比较灵活。“面向比较碎片化的市场,就可以采用单独的协处理器配合主芯片去满足客户需求。” 杨宇欣表示,中科创达不会倾向于某一个芯片架构,而是根据不同的应用场景和功耗综合考虑。

下一篇,请看 2018年AI芯片爆发倒计时(下):AI生态成熟,IC工程师失业?

本文为《电子工程专辑》原创,版权所有,谢绝转载

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了