在历经一连串的风波后,曾经是百度(Baidu)人工智能(AI)杰出工程师的吴韧(Ren Wu)黯然离去,不久后在美国加州成立了一家AI新创公司——NovuMind。在日前接受《EE Times》的专访中,吴韧谈到了这家新创公司的发展动向以及他希望达到的目标。
吴韧,NovuMind创始人暨首席执行官
NovuMind大约在两年前成立,目前共有50名员工,包括在美国的35名工程师,以及北京的15名员工。该公司目前正针对吴韧所描述的深度学习(deep learning)精简途径进行测试。
相较于Nvidia的绘图处理器(GPU)或Cadence的数字信号处理器(DSP)等通用的深度学习芯片设计,吴韧强调,NovuMind专注于开发“能更有效进行推理(interference)”的深度学习加速器芯片。
NovuMind所设计的AI芯片仅使用尺寸极小(3x3)的卷积滤波器。
值此人工智能步伐进展神速至几乎令人晕眩之际,NovuMind的这种设计途径似乎与一般的直觉预期相左。事实上,许多关注于未来AI算法的竞争对手们都将目光投向尽可能进行编程且强大的芯片上。
相形之下,NovuMind则专注于“惟有神经网络的核心不可能改变”的设计理念。吴韧解释说,5x5卷积能透过堆栈2个3x3滤波器以低度运算来完成,而7x7则可堆栈3个。“那么,为什么还要大费周章地使用其他滤波器?”
针对边缘设备上深度学习加速器所采用的DSP和GPU等架构,最大的问题就是“处理器的利用率非常低”。吴韧说,NovuMind“采用独特的张量(tensor)处理架构,解决了这个效率问题。”
他表示,NovuMind的设计想法是相当“主动积极的思考”方式,因为它专注于神经网络中的最小卷积组合;同时,新芯片的使命在于让更具功率效率的AI嵌入任何应用中。
该公司专为原型设计的首款AI芯片预计将在今年圣诞节之前投片。而在明年2月以前,预计就可看到以低于5瓦(W)功耗执行每秒15兆次性能(TFLOPS)的芯片应用出现。此外,第二款芯片设计还将执行于1W以下,预计在2018年中发布。
NovuMind的新芯片将支持Tensorflow、Caffe和Torch等原生的深度学习架构模型。
吴韧认为AI芯片的终极境界在于让小型的连网“边缘”设备不仅能“看”也能“思考”(而且认知其所见所闻),而不至于占用数据中心带宽。他将此称为智慧物联网(I2oT)。
对于过去几年来行事较低调的吴韧来说,NovuMind在某种程度上为他带来了补偿的机会。
就在两年前,中国搜寻巨擘——百度在2015年ImageNet大规模视觉识别挑战赛(ILSVRC)中被取消资格后,吴韧也被百度开除了。但吴韧随后否认了这起被称作“机器学习首例作弊丑闻”。
不过,在接受《EE Times》的专访时,吴韧并不愿意再谈到这起事件,而仅表示“我想我应该是被陷害了”。
在当今积极追逐边缘设备深度学习加速器的竞赛中,NovuMind正大步向前迈进。2016年12月才刚获得1,520万的首轮资金,NovuMind如今即将展开第二轮募资行动。吴韧在电话专访中解释:“这就是为什么我目前留在北京。”
3D Tensor运算
正如吴韧所说的,深度学习加速的关键在于使效率最大化,同时让延迟减至最低,特别是针对边缘设备。当然,许多边缘设备还受到成本和电池寿命的限制。而无人机和自动驾驶车辆并不容许任何延迟,因为它们必须能毫无延迟地识别突然出现的危险。
在此背景下,吴韧指出可用于边缘设备深度学习加速的现有解决方案有二:DSP——如CEVA和Tensillica;以及GPU——如Nvidia的TX系列。
他接着解释说,DSP的设计用于数字滤波,使用1D乘积累加运算(MAC)来完成任务。GPU(和Tensor处理单元)运作的本质是2D通用矩阵乘法(GEMM)。
1D MAC、2D GEMM和3D Tensor运作的比较(来源:NovuMind)
然而,吴韧认为,DSP和GPU都无法有效地实现深度学习加速任务。他解释说,深度学习网络模型运算中的最新技术是3D张量运算。“当然,如果您将3D张量作业转换为1D MAC作业(针对DSP应用)或2D GEMM作业(针对GPU应用),则会失去许多效率。”
吴韧解释说:“这就是为什么即使GPU和DSP声称具有高峰值性能(~1-2TFLOPS),而当执行真正的深度学习网络推理时,其平均性能仅为实时应用峰值性能的20-30%。”
他说有很多的处理能量都浪费在内存存取。平均而言,运算资源的70-80%性能都处于空闲状态,等待来自内存的数据。
NovuMind使用吴韧所谓的“独特的张量处理架构”。NovuMind的芯片架构原生支持3D张量运算。他强调,这将有助于“大幅提高能量和芯片面积的效率。”据吴韧介绍,NovuMind的架构可达到实际应用峰值性能的75~90%。
内存阶层结构
吴韧声称,NovuMind“基于3D张量运算”的设计,为其AI芯片带来了巨大优势。“由于它能直接在3D张量上进行处理,我们不必为了将卷积扩大到2D矩阵而介入中间步骤,因而能够节省大量的内存带宽与内存存取能量。”
但工程技术脱离不了权衡折衷。为了追求嵌入式AI所需的功率效率,NovuMind的AI芯片又必须放弃什么呢?
吴韧表示:“NovuMind的芯片仅支持一些有限的拓扑结构,如VGG、RESNET网络所定义的层级,以及另一小部份我们认为重要且相关的其他网络层。”
他指出:“我们的芯片将非常有效地运算所支持的这些网络层。它当然也可以处理其他分层,但并不是优化的。”
至于其缺点呢?吴韧认为NovuMind的AI芯片的“通用性不足”。如果网络中包含许多无法支持的分层,“其性能就不再具有竞争力”。但吴韧仍有信心“透过NovuMind强大的AI团队和内部训练能力,很快地将会涵盖与现实世界应用相关的所有重要分层。”
不过,NuvoMind为什么深信3x3滤波器是必经之路?吴韧说:“这必须归功于原始的VGG论及其作者。”
VGG是指英国牛津大学(Oxford University)工程科学系视觉几何小组(Visual Geometry Group;VGG)。VGG研究人员在2015年撰写了题为“大规模影像识别的超深度卷积网络”(Very Deep Convolutional Networks for Large-Scale Image Recognition)的论文。
VGG的这篇论文说服了吴韧将其芯片架构映像到硬件。他随即惊讶地发现这是多么友善硬件的途径。“算法设计者能够提出如此优越且友善硬件的设计,这是极其罕见的情况之一。”他认为,我们目前看到其他实际有用的网络拓扑都是以VGG的成果为基础的。
吴韧并补充说:“由于3x3卷积是一个重要的组成部份,我们的设计当然将会尽可能地确保使其具有最高效率。”
延迟比较
吴韧表示,相较于DSP和GPU,NovuMind的架构在延迟方面表现出色。
他观察到,“DSP是专为串流数据处理而设计的,延迟表现不错。”另一方面,“GPU通常需要大量作业,因而延迟较差——在8-64批次大小时约延迟50-300毫秒(ms),”使其难以满足实时的需求。
他解释说,NovuMind架构也使用了串流模式的数据处理(延迟< 3ms)。“我们可以想象,当一辆自动驾驶车以每小时65英哩(mph)的速度行驶而必须立刻煞车时,NovuMind架构比GPU更具有转化4.5-30英呎距离的延迟优势。”他夸耀地说,“这将会对自动驾驶车带来重大影响。”
开发蓝图
NovuMind的首款芯片将采用28nm工艺技术,并由代工厂生产。据吴韧介绍,第二款芯片将会采用16nm工艺,预计在2018年中期投片。
吴韧说首款芯片是为了原型设计而生产的,但已可用于几种应用场景。其一是结合NovuMind芯片的USB运算棒,可用于使连网设备(如连网相机)成为AI驱动的系统。其次,该AI芯片由于具备15TFLOPS的效能,因而可用于“自动驾驶车”。第三种应用则是将AI芯片用于进行云端加速。
根据吴韧观察,数据中心所使用的GPU对于机架空间造成了限制。来自GPU的更高功耗(导致额外的热)更是“罪魁祸首”。虽然NovuMind的AI芯片是专为边缘设备而设计的,但将它放在服务器内部的PCI板时,其微型的封装能够有效地执行单一应用程序,例如必须在数据中心处理的语音识别应用。
那么,什么样的AI应用程序最适合采用NovuMind的AI芯片?NovuMind认为其AI芯片可在像自动驾驶中作为搜寻路径的理想应用吗?
吴韧的答案是否定的。他解释说,当今自动驾驶车的密集运算单元“复杂度远超过任何人的想象”。事实上,他预期自动驾驶车中将会有多个AI芯片预先处理数据,并将数据馈送至可作出明智决定的中央单元。他解释说,NovuMind的AI芯片将会是自动驾驶车内的众多AI芯片之一。
吴韧说该公司的AI芯片至今可执行“城市/国家级、多字符串、多目标的人脸识别”等应用。例如,凭借着该芯片支持并处理128个高分辨率(HD)视频串流的能力,可让系统从十万支连网摄影机中识别数百万的目标人群。更重要的是,他强调,“我们可以在边缘设备实现这一点,而无需连网摄影机要求的大量带宽、储存空间与设置。”
为传感器添加直觉能力
至于深度学习的未来,吴韧说,“掌握大数据和巨大的运算能力,让我们能够训练神经网络完成许多复杂的任务。”这也正是AI社群目前的目标所在。
但他解释,NovuMind希望能够为传感器增添“直觉”。就像人类和动物都具有五种感官一样,机器也应该能够具备一定的“本能”,协助他们迅速做出反应。
而至于机器的一般智力、推理和长期记忆,“我们还有很长的路要走。”
编译:Susan Hong
本文授权编译自EE Times,版权所有,谢绝转载
关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。