广告

曾被百度开除的工程师在美国成立AI公司

2017-10-18 05:59:53 Junko Yoshida 阅读:
NovuMind打造AI芯片的终极境界在于达到智能物联网(I2oT),即让小型的连网“边缘”设备不仅能“看”也能“思考”(而且认知其所见所闻),而不至于占用数据中心带宽。
广告

在历经一连串的风波后,曾经是百度(Baidu)人工智能(AI)杰出工程师的吴韧(Ren Wu)黯然离去,不久后在美国加州成立了一家AI新创公司——NovuMind。在日前接受《EE Times》的专访中,吴韧谈到了这家新创公司的发展动向以及他希望达到的目标。
20171017-NovuMind
吴韧,NovuMind创始人暨首席执行官

NovuMind大约在两年前成立,目前共有50名员工,包括在美国的35名工程师,以及北京的15名员工。该公司目前正针对吴韧所描述的深度学习(deep learning)精简途径进行测试。

相较于Nvidia的绘图处理器(GPU)或Cadence的数字信号处理器(DSP)等通用的深度学习芯片设计,吴韧强调,NovuMind专注于开发“能更有效进行推理(interference)”的深度学习加速器芯片。

NovuMind所设计的AI芯片仅使用尺寸极小(3x3)的卷积滤波器。

值此人工智能步伐进展神速至几乎令人晕眩之际,NovuMind的这种设计途径似乎与一般的直觉预期相左。事实上,许多关注于未来AI算法的竞争对手们都将目光投向尽可能进行编程且强大的芯片上。

相形之下,NovuMind则专注于“惟有神经网络的核心不可能改变”的设计理念。吴韧解释说,5x5卷积能透过堆栈2个3x3滤波器以低度运算来完成,而7x7则可堆栈3个。“那么,为什么还要大费周章地使用其他滤波器?”

针对边缘设备上深度学习加速器所采用的DSP和GPU等架构,最大的问题就是“处理器的利用率非常低”。吴韧说,NovuMind“采用独特的张量(tensor)处理架构,解决了这个效率问题。”

他表示,NovuMind的设计想法是相当“主动积极的思考”方式,因为它专注于神经网络中的最小卷积组合;同时,新芯片的使命在于让更具功率效率的AI嵌入任何应用中。

该公司专为原型设计的首款AI芯片预计将在今年圣诞节之前投片。而在明年2月以前,预计就可看到以低于5瓦(W)功耗执行每秒15兆次性能(TFLOPS)的芯片应用出现。此外,第二款芯片设计还将执行于1W以下,预计在2018年中发布。

NovuMind的新芯片将支持Tensorflow、Caffe和Torch等原生的深度学习架构模型。

吴韧认为AI芯片的终极境界在于让小型的连网“边缘”设备不仅能“看”也能“思考”(而且认知其所见所闻),而不至于占用数据中心带宽。他将此称为智慧物联网(I2oT)。

对于过去几年来行事较低调的吴韧来说,NovuMind在某种程度上为他带来了补偿的机会。

就在两年前,中国搜寻巨擘——百度在2015年ImageNet大规模视觉识别挑战赛(ILSVRC)中被取消资格后,吴韧也被百度开除了。但吴韧随后否认了这起被称作“机器学习首例作弊丑闻”。

不过,在接受《EE Times》的专访时,吴韧并不愿意再谈到这起事件,而仅表示“我想我应该是被陷害了”。

在当今积极追逐边缘设备深度学习加速器的竞赛中,NovuMind正大步向前迈进。2016年12月才刚获得1,520万的首轮资金,NovuMind如今即将展开第二轮募资行动。吴韧在电话专访中解释:“这就是为什么我目前留在北京。”

3D Tensor运算

正如吴韧所说的,深度学习加速的关键在于使效率最大化,同时让延迟减至最低,特别是针对边缘设备。当然,许多边缘设备还受到成本和电池寿命的限制。而无人机和自动驾驶车辆并不容许任何延迟,因为它们必须能毫无延迟地识别突然出现的危险。

在此背景下,吴韧指出可用于边缘设备深度学习加速的现有解决方案有二:DSP——如CEVA和Tensillica;以及GPU——如Nvidia的TX系列。

他接着解释说,DSP的设计用于数字滤波,使用1D乘积累加运算(MAC)来完成任务。GPU(和Tensor处理单元)运作的本质是2D通用矩阵乘法(GEMM)。
20171017-NovuMind-1、
1D MAC、2D GEMM和3D Tensor运作的比较(来源:NovuMind)

然而,吴韧认为,DSP和GPU都无法有效地实现深度学习加速任务。他解释说,深度学习网络模型运算中的最新技术是3D张量运算。“当然,如果您将3D张量作业转换为1D MAC作业(针对DSP应用)或2D GEMM作业(针对GPU应用),则会失去许多效率。”

吴韧解释说:“这就是为什么即使GPU和DSP声称具有高峰值性能(~1-2TFLOPS),而当执行真正的深度学习网络推理时,其平均性能仅为实时应用峰值性能的20-30%。”

他说有很多的处理能量都浪费在内存存取。平均而言,运算资源的70-80%性能都处于空闲状态,等待来自内存的数据。

NovuMind使用吴韧所谓的“独特的张量处理架构”。NovuMind的芯片架构原生支持3D张量运算。他强调,这将有助于“大幅提高能量和芯片面积的效率。”据吴韧介绍,NovuMind的架构可达到实际应用峰值性能的75~90%。

内存阶层结构

吴韧声称,NovuMind“基于3D张量运算”的设计,为其AI芯片带来了巨大优势。“由于它能直接在3D张量上进行处理,我们不必为了将卷积扩大到2D矩阵而介入中间步骤,因而能够节省大量的内存带宽与内存存取能量。”

但工程技术脱离不了权衡折衷。为了追求嵌入式AI所需的功率效率,NovuMind的AI芯片又必须放弃什么呢?

吴韧表示:“NovuMind的芯片仅支持一些有限的拓扑结构,如VGG、RESNET网络所定义的层级,以及另一小部份我们认为重要且相关的其他网络层。”

他指出:“我们的芯片将非常有效地运算所支持的这些网络层。它当然也可以处理其他分层,但并不是优化的。”

至于其缺点呢?吴韧认为NovuMind的AI芯片的“通用性不足”。如果网络中包含许多无法支持的分层,“其性能就不再具有竞争力”。但吴韧仍有信心“透过NovuMind强大的AI团队和内部训练能力,很快地将会涵盖与现实世界应用相关的所有重要分层。”

不过,NuvoMind为什么深信3x3滤波器是必经之路?吴韧说:“这必须归功于原始的VGG论及其作者。”

VGG是指英国牛津大学(Oxford University)工程科学系视觉几何小组(Visual Geometry Group;VGG)。VGG研究人员在2015年撰写了题为“大规模影像识别的超深度卷积网络”(Very Deep Convolutional Networks for Large-Scale Image Recognition)的论文。

VGG的这篇论文说服了吴韧将其芯片架构映像到硬件。他随即惊讶地发现这是多么友善硬件的途径。“算法设计者能够提出如此优越且友善硬件的设计,这是极其罕见的情况之一。”他认为,我们目前看到其他实际有用的网络拓扑都是以VGG的成果为基础的。

吴韧并补充说:“由于3x3卷积是一个重要的组成部份,我们的设计当然将会尽可能地确保使其具有最高效率。”

延迟比较

吴韧表示,相较于DSP和GPU,NovuMind的架构在延迟方面表现出色。

他观察到,“DSP是专为串流数据处理而设计的,延迟表现不错。”另一方面,“GPU通常需要大量作业,因而延迟较差——在8-64批次大小时约延迟50-300毫秒(ms),”使其难以满足实时的需求。

他解释说,NovuMind架构也使用了串流模式的数据处理(延迟< 3ms)。“我们可以想象,当一辆自动驾驶车以每小时65英哩(mph)的速度行驶而必须立刻煞车时,NovuMind架构比GPU更具有转化4.5-30英呎距离的延迟优势。”他夸耀地说,“这将会对自动驾驶车带来重大影响。”
20171017-NovuMind2
开发蓝图

NovuMind的首款芯片将采用28nm工艺技术,并由代工厂生产。据吴韧介绍,第二款芯片将会采用16nm工艺,预计在2018年中期投片。

吴韧说首款芯片是为了原型设计而生产的,但已可用于几种应用场景。其一是结合NovuMind芯片的USB运算棒,可用于使连网设备(如连网相机)成为AI驱动的系统。其次,该AI芯片由于具备15TFLOPS的效能,因而可用于“自动驾驶车”。第三种应用则是将AI芯片用于进行云端加速。

根据吴韧观察,数据中心所使用的GPU对于机架空间造成了限制。来自GPU的更高功耗(导致额外的热)更是“罪魁祸首”。虽然NovuMind的AI芯片是专为边缘设备而设计的,但将它放在服务器内部的PCI板时,其微型的封装能够有效地执行单一应用程序,例如必须在数据中心处理的语音识别应用。

那么,什么样的AI应用程序最适合采用NovuMind的AI芯片?NovuMind认为其AI芯片可在像自动驾驶中作为搜寻路径的理想应用吗?

吴韧的答案是否定的。他解释说,当今自动驾驶车的密集运算单元“复杂度远超过任何人的想象”。事实上,他预期自动驾驶车中将会有多个AI芯片预先处理数据,并将数据馈送至可作出明智决定的中央单元。他解释说,NovuMind的AI芯片将会是自动驾驶车内的众多AI芯片之一。

吴韧说该公司的AI芯片至今可执行“城市/国家级、多字符串、多目标的人脸识别”等应用。例如,凭借着该芯片支持并处理128个高分辨率(HD)视频串流的能力,可让系统从十万支连网摄影机中识别数百万的目标人群。更重要的是,他强调,“我们可以在边缘设备实现这一点,而无需连网摄影机要求的大量带宽、储存空间与设置。”

为传感器添加直觉能力

至于深度学习的未来,吴韧说,“掌握大数据和巨大的运算能力,让我们能够训练神经网络完成许多复杂的任务。”这也正是AI社群目前的目标所在。

但他解释,NovuMind希望能够为传感器增添“直觉”。就像人类和动物都具有五种感官一样,机器也应该能够具备一定的“本能”,协助他们迅速做出反应。

而至于机器的一般智力、推理和长期记忆,“我们还有很长的路要走。”

编译:Susan Hong

本文授权编译自EE Times,版权所有,谢绝转载

EETC wechat barcode


关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
Junko Yoshida
ASPENCORE全球联席总编辑,首席国际特派记者。曾任把口记者(beat reporter)和EE Times主编的Junko Yoshida现在把更多时间用来报道全球电子行业,尤其关注中国。 她的关注重点一直是新兴技术和商业模式,新一代消费电子产品往往诞生于此。 她现在正在增加对中国半导体制造商的报道,撰写关于晶圆厂和无晶圆厂制造商的规划。 此外,她还为EE Times的Designlines栏目提供汽车、物联网和无线/网络服务相关内容。 自1990年以来,她一直在为EE Times提供内容。
  • 通过优化栅极驱动器充分提高SiC MOSFET性能 SiC的特定特性要求对MOSFET器件和栅极驱动电路进行仔细选择,以确保安全地满足应用需求,并尽可能提高效率。在本文中,我们将讨论为SiC MOSFET选择栅极驱动器时应考虑的标准。
  • iPhone 7系列用户可获苹果赔偿,最高349美元,截止时间6月3日 如果消费者在2016年9月16日至2023年1月3日之间的任何时间曾拥有iPhone 7或iPhone 7 Plus,并曾就手机音频问题向苹果公司投诉,就有资格从集体诉讼和解中获得不超过349美元的赔偿。
  • 电机驱动与控制的新思路、新技术、新市场 随着科技的进步和工业的发展,电机控制与驱动技术也在不断地创新和发展。本文聚焦电机驱动控制,邀请到几家优秀的芯片方案厂商,一起来谈谈这个老行业,如何在新技术、新思路的加持下,“卷”出更好更多的新兴市场。
  • 大电流、快瞬变、噪声敏感型应用的多相电源解决方案 因为这类应用需要快速的大电流瞬变响应性能,以实现最小峰峰值输出电压或负载瞬变期间的最短恢复时间。本文介绍一个应对此类挑战的简单解决方案,就是将多个Silent Switcher 3架构的并联成一个交织型系统,增加了电源的带宽和负载能力,并能提供优异的快速、大电流瞬变响应。
  • 具备高功率因数性能的单级 AC-DC 拓扑结构 在传统AC-DC SMPS拓扑结构中,功率因数性能较差,谐波也较大,为了改善这两个指标,通常需要采用PFC电路,结果将会导致系统效率和可靠性的降低。本文提出了一种基于单电感结构的单级AC-DC拓扑结构,具备PFC和LLC双功能,从而既保留了传统LLC谐振转换器的零电压开关优势,又实现了功率因数高性能。
  • 新一代功率开关技术:B-TRAN 与SCR、IGBT和MOSFET等传统功率开关相比,B-TRAN提供了显著的性能改进。事实上,在硅测试过程中,B-TRAN在负载电流为30A时的VCE(on)仅为0.6V,驱动功率仅为8.4W(1.2V×7A),总功耗为26.4W,远低于IGBT。这些结果展示了B-TRAN在功率转换方面的巨大潜力。
  • 为什么翻新机的价格在上涨? • 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
  • 2024三季度全球扫地机器人市场出货 从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
  •  摩尔斯微电子推出MM8108:全球体积 最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准,配套USB网关,可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成
  • 移远通信再扩短距离通信模组版图:Wi 其中包含Wi-Fi 7和蓝牙5.4 模组FME170Q-865、Wi-Fi 6和蓝牙5.4 模组FCS962N-LP、Wi-Fi 6和蓝牙5.3模组FCU865R 、独立Wi-Fi和蓝牙模组FGM840R、高功率Wi-Fi HaLow模组FGH100M-H……
广告
热门推荐
广告
广告
广告
EE直播间
在线研讨会
广告
广告
广告
向右滑动:上一篇 向左滑动:下一篇 我知道了