据外媒Fudzilla、 VentureBeat、华尔街日报报导,NASA前任局长丹尼尔·戈尔丁掌权期间,声誉卓著,但是卸任之后神隐多年,6月6日突然重出水面,投下震撼弹。如果把他开设的公司 KnuEdge定位成一家初创公司,可能不太准确,因为这家公司已经创立有十年时间了,最近一笔1亿美元的巨额融资才让他们浮出水面。
他们花了十年研发能像人类大脑一样运作的神经芯片。首款芯片名为“KnuPath”,内建256个核心,运作方式一如大脑神经元,能各自处理不同任务,并即时相互串联。该公司的技术可连结51.2万组KnuPath芯片,足以执行庞大工作,而且速度飞快。
戈尔丁表示,人类大脑有上千亿个神经元,每个神经元都连接1万~10个神经元,大脑是世界上最有效率、最强大的电脑,他们依据类似原理设计新芯片,从根本颠覆电脑运算,让电脑能以超快速度完成艰巨任务,比如寻找影像、声音、金融数字的模式等。
戈尔丁相信,KnuEdge所开发的神经芯片将比基于“现代计算机理论之父”约翰·冯·诺依曼设计的传统芯片成本更低,效率更高。基于冯·诺依曼理论设计的芯片,内存和处理器是分开的,它们需要通过一条数据通路(也是我们俗称的总线)才能连接起来。当内存和处理器进行交互时,总线内的数据越多、速度越快,计算机速度也会变得更快。但这也会产生问题,因为计算机速度通常会受到总线容量的限制,继而导致我们俗称的“冯·诺依曼瓶颈”问题。
IBM已经预见到了同样的问题,所以他们旗下的研究团队目前也正在开发能够支持数据中心的神经芯片。事实上,我们开发这类芯片的目的,就是为了应对人工智能和机器学习所带来的数据爆炸性增长。类神经网络的研发,近来方兴未艾,不少公司都发现传统处理器无法处理暴增数据,英特尔(Intel)、IBM等都投入开发新款芯片。
Knupath的第二代产品“Hermosa”,将会在2017年下半年推出,这是一款完全内部设计和组装的定制DSP,以及新的“Lambda”模块,既可以连接多个Hermosa芯片,也有潜力被多个系统的机架(Racks)采用。
在一个由以稀疏矩阵为基础的计算主导的未来,这会是一个解决的办法,正如戈尔丁预测的的那样,这种计算方式在未来的机器学习应用中将会越来越多。
这样的系统是可扩展的,可容纳到512,000块芯片,每一个芯片有256t的DSP内核(t 指的是“tiny”,配一个单一的ARM管理内核)。
延迟率是比较有说服力的,机架到机架(rack to rack)的延迟为400纳秒(十亿分之一秒)(与当下最快的Ethernet一样快),所有的这些芯片都有高效且特别处理稀疏矩阵的能力。迄今为止,已经有一些研究开始把在深度学习中使用的稀疏矩阵驱动的计算向专用型转化,但是,一个平台上来做这件事的,还没有。确实,这意味着在工作流上完全的转换。戈尔丁在这方面下了很大的赌注,他认为这种转换是值得的。
第一代的产品基于PCIe,有多个处理器,可以在多个Hermosa处理器上建立。Fabric是异构的,能容纳多种类型的处理器(X86,GPUs,FPGAs)。这家公司的计划是,到2017年推出的第二代产品,要支持所有的这些处理器,同时也是多程序的和多数据的。这意味着从理论上来说,256种不同的算法可以在Hermosa中的单个内核中运行。Goldin说,在未来的应用,比如信号处理和机器学习,以及一些被他们列为目标的金融服务中,这种芯片的重要性会变得越来越明显。
在这,Lamba Fabric 是最有意思的。它包括在主板上的多个小型处理器或者一个设备中的单个处理器上,一直到521000块芯片的组合。它基于一个分布式内存模型,在那儿,内核之间会共享内存,并且,被分享的内存也在系统中进行分布,这就是你得以看到DMA控制器(在系统中移动数据)的原因。
在一个综合的存储器内,机器的带宽能达到3.7兆兆字节(terabytes)每秒。而在可扩展的边界,每一个小的“cluster”都拥有DSP中共享的内存,所以记忆带宽数量能和芯片的数量同比例增长(为系统增加更多意义,增加更多内存和内存带宽)。
每一个Knupath处理器内核都有针对通信、同步以及解决稀疏矩阵难题(处理能力的分散或聚集)的内部指令,还拥有可编程的DMA引擎,以支持256t DSP内核的内存基础工作。从可扩展性上看,除了可以建立512,000个排列外,系统还能提供最高3.702GB每秒的内存带宽。最大能耗峰值达34瓦特每芯片。跟FFT和公司在运行的其他Benchmarks比起来,这提供了一个稳定的”watt-to-watt“的性能(但是在2017年正式发布前,将不会有更多的消息)。
那么问题来了,鉴于深度学习中广泛使用的GPU,以及FPGA的潜力,为什么这里要使用DSP?如果说接下来,这一处理器 将会得到广泛地采用,其中还包括即将推出的Tianhe-2超级计算机,但是,除了信号处理外,还没有别的应用。
戈尔丁说,他们关注的主要还是处理,但是把这些能力转换到一个节能的稀疏矩阵的功能中,其实并不是首例。
虽然他没有分析Benchmarks,但他提到AlexNet 和GoogleNet 的性能是2X到6X之间。当然,没有细节我们也不方便作过多评论。戈尔丁确实提到了其他两个可能会是做出这种选择的原因。第一是成本,第二个是可编程性。DSP并不贵(当然,只是相对的),但是,Knupath没有从TI或者别的地方为自己的技术寻找产品,而是自己设计。
从编程的角度看,戈尔丁说他希望获得DSP的灵活性,尤其是在信号处理方面的用户,在这领域中,FPGA的编程是昂贵且费时的。
“我们希望在内存附近进行即时的处理——一个推模式(a push model)。你不需要Cache,你不也需要做提取(Fetch)。我们设计这个并不仅仅为了处理,我们还要在沟通和内存处理中做平衡。它是一个沟通者,正中的地方有一个路由器(router )”,戈尔丁解释说。不过,他们能在2015年拿下第一款芯片的出售合同,却是因为eDRAM,它把每一个tDSP都紧靠在内存旁,以进行即时的联系。虽然下一款芯片不能再使用这一技术,但是他们发现了一个合适的的工作区。虽然他们也不能就此提供更多的细节。
基于PCIe的加速器版本的编程模式很像CUDA/OpenCL,尤其是在主系统和芯片之间进行沟通时,系统内的芯片之间的沟通有一个更像MPI的模式。然而,跟使用GPU不一样,这一芯片能在不同的cards之间进行沟通,并允许他们在不通过PCIe或者CPU的情况下进行交流。戈尔丁说,他的团队正在与Larry Smarr博士合作,准备推出一个未来大赛,关注稀疏矩阵操作的工作,以推动平台上软件的发展。
戈尔丁说,公司正在寻找合作伙伴,包括FPGA和GPU市场。他还说,未来ARM的重要性将会得到稳固增长。
“需要指出的是,从数据在Fabric中的流动来看,这有什么不一样”,Goldin解释说,“我们通过架构来发送数据,而不是从内存和提取数据和应用,在这一个数据的集合中,不仅是数据会被计算,编程的每一步也会被计算,数据的下一个目的地也会被计算出来。”最终,随着其他的数据按照架构设定的目标流动,这完全翻转了冯·诺伊曼架构。
说得更清楚一些,Hermosa处理器依然能够处理稠密矩阵,即使这并不是它的目标。“谈到机器学习,我们依然处于蛮荒之中”,Goldin说,“但是随着我们开发出许多不同的算法,平台是必须的,而这一切依靠的新趋势就是稀疏矩阵。”
虽然仍处于早期,但是确实有许多探索在寻找用稀疏矩阵来促进深度学习训练在性能、效率和编程上获得优势的可能性。然而,要下结论还为时尚早,并且,向这种模型的转化,对潜在的回报也有高的要求。
所以,我们已经把关于这一架构的一切都展现了出来,对于未来深度学习中分散和聚集/稀疏矩阵中的深度研究还非常少。虽然如此,一种基于DSP的方法就能获得1亿美元的投资,已经相当有启发性。我们必须思考,有人看到了这个机遇,特别是考虑到在过去几年中,我们已经看到许多深度学习芯片的崛起。
另一个角度是,许多新的客户尤为钟爱单一处理器,并且,与深度学习沾边是获得更大吸引力的保证,虽然深度学习还是在发展之中,并且能发展到什么程度谁也不能保证。
Tirias Research首席分析师Paul Te??ich表示,KnuEdge惊喜特点在于该公司的新架构已经准备出货,并非停留在概念或早期原型阶段。戈尔丁称,该公司技术超前一个世代,首款芯片 去年12月完成研发,并已送往财星500大企业,如金融、保险业等潜在客户测试,预计今年第三季底出货。据戈尔丁透露,KnuEdge公司的使命就是要彻底改变计算世界。
回到2000年,戈尔丁发现,控制宇宙飞船的时延会很长,继而导致飞船不得不自我运转。他算了一下,如果NASA要实施火星计划,可能会将软件技术推向极限,因为程序员需要编写数千万行的代码。
“我当时想,上帝啊!这成本实在是太大了,我们不算火箭推进设备,不考虑环境控制和电力供应。仅一个软件就会变成一个大问题,就算是美国,也承担不起如此巨大的成本。”
因此,戈尔丁开始“向前看”,他希望利用机器人的大脑来解决这些问题,从那时开始,他开始思考机器人的计算能力。
在被问到究竟是创业容易,还是在NASA工作容易时,戈尔丁大笑说:
“不管是在NASA工作,还是创业,我都很喜欢,但是它们又非常不同。在NASA,我会花很多时间解决些非技术性问题。每个季度,我都需要完成一个项目,那时的我,不希望自己对技术失去敏感度,因此通过和设计团队合作,我总是尝试做一些技术性的前沿工作。当你从大学毕业,开始给别人打工,每项工作都能让自己有所成长。如果我没有加入NASA,那么毕业之后可能会选择创业,这很美妙。”
回到1992年,戈尔丁当时想去创业,并开设一家无线网络公司,但很快,他被“国家召唤”来到NASA,在那里一干就是十年时间。2005年,他终于过了一把创业梦,创立了KnuEdge公司(前身公司名称叫Intellisis)。如今这个公司的网站已经不可访问,它的Wiki页面还在,应该是改名为Knuedge了。
“当我去寻找投资人的时候,我知道自己不能使用传统的硅谷方式,”他说,“硅谷投资往往急于求成,投资人希望能够快速获得回报。但我想做的是革命性技术开发,为下一代机器学习构建未来工具,为人机交互提供自然界面,因此我需要的,是那种更有‘耐心’的投资人,现在我们公司董事会拥有很广阔的人脉关系,他们都是商业圈和科技圈内的知名人士,我们知道彼此至少要公事十年以上。”
不过,戈尔丁拒绝透露KnuEdge公司投资人的具体信息。
不只如此,KnuEdge还同时发布军事等级的语音识别认证科技“KnuVerse”,在最吵杂的环境中也能正确辨识声音,可用来识别身分,登入银行或医疗系统等。
在过去的五年时间里,语音技术市场呈现了爆炸性增长,很多语音助手应用也如雨后春笋般出现,比如Siri,Cortana,Google Home,Echo,以及Viv。但由于安全性和降噪技术等问题,这一技术始终无法在商业领域里广泛应用。KnuVerse解决方案是基于专利授权技术,将人类语音作为一种最安全的生物识别指标(即便在极端嘈杂的环境下,KnuVerse技术也能做到准确识别),安全语音识别可以应用在很多行业领域,包括银行业,娱乐业,以及酒店住宿行业。
KnuEdge公司表示,他们的技术现在可以在计算机,网页,移动App及物联网设备(或是任何可连接的日常物体)上实现语音识别,你只需对着麦克风说上几个词语——无论什么语言,无论周围的环境有多吵杂,周围有多少人在干扰。除了KnuVerse之外,KnuEdge公司还为程序员准备了软件开发包Knurld.io,利用它,不到两个小时就能将这个支持云端服务的语音识别和授权服务整合到你的App应用里啦。
此外,KnuEdge公司还发布了首款支持LambdaFabric技术的KnuPath芯片,这款芯片类似大脑神经,采用了较传统的制造技术,是256核单晶片芯片。事实上,KnuPath芯片每个内核都是一个微型数字信号处理器。利用LambdaFabric技术,每个内容彼此都能实现即时连接,继而解决了目前多核芯片所面临的最大问题。当前设计的LambdaFabric技术最多可以连接51.2万台设备,支持系统在最严苛的计算环境下使用,从一个机架到另一个机架,当进行数据传输时,时延仅有400纳秒,而且整个系统也不需要耗费大量电能。
KnuEdge公司的所有设计,都是基于人类大脑的生物计算原理,而且所需能耗非常低。戈尔丁表示,他们的芯片是基于“异构稀疏矩阵机器学习算法”开发的,未来将运行在程序员圈内非常受欢迎的C++软件。程序员可以使用不同的算法针对单个内核进行编程,KnuPath芯片可以确保每个内核同步运行。戈尔丁说:“KnuPath芯片采用了多输入,多数据设计,让我们获得了强大的处理能力。”
现在,戈尔丁表示他的公司已经准备好展示自己的设计了。首款芯片在去年十二月已经完成,目前KnuEdge公司正在向几家潜在客户推广。这款芯片使用32纳米制造工艺生产的,虽然制造工艺并不是最先进的,但芯片本身其实非常强大, KnuPath芯片的性能是同级别芯片的2-6倍。
KnuEdge公司现在正在设计新版KnuPath芯片,他们原型系统的销售业绩不错,公司目前已经开始产生收入,每个主板有约4个芯片。
KnuEdge公司旗下有100名员工,但戈尔丁表示他们几乎所有的工作都是外包的。今年末或明年初,KnuEdge公司计划在进行一轮融资,并且会和加州大学圣迭戈分校及加州电信与信息技术研究所建立合作关系。
有了能够处理自然语言系统的计算机,能给世界上很多无法阅读或写作的人带来帮助。戈尔丁说:“我想要利用机器学习帮助人类交流,帮助人们谋生。现在不仅仅是个开始,这一领域有非常大的发展前景,就像当年美国的狂野西部。我们正在和一些大企业洽谈,他们对整个行业前景也感到非常兴奋。”
KnuEdge公司将语音和机器学习技术应用在物联网行业,一个例子就是能让房屋获得“自我感知”能力,一旦房屋出现异常,KnuEdge系统就会进行分析状况,并判断是否需要提醒业主。
戈尔丁表示自己已经守口如瓶了十年时间,但到了现在这个时候,再让公司处于“隐身模式”似乎比较困难了。
当被问到KnuEdge公司的技术能否用来将人类运送到火星时,戈尔丁说:“只要有人想去火星,我们的技术就会对他们开放。我尝试过两次,如果真有人利用我们的技术实现火星登陆,我会感到非常高兴!”
对于和IBM有竞争关系这个问题,戈尔丁说道:“我相信,KnuEdge公司所做的决定是正确的,公司的发展方向也是正确的。IBM的芯片设计方法和我们完全不同,我们不是针对谁,我们只想着眼于未来。”
在此之前,谷歌也研发出AI专用芯片,“TPU”,宣称效能极佳,机器学习技术因此一举加快7年,等于一次跨越三个世代的摩尔定律。谷歌推自家芯片,英特尔、Nvidia或许会受冲击。
PCWorld、 TechCrunch、Wired报导,谷歌首席执行官Sundar Pichai 18日在博客发文称,TPU已在数据中心使用一年,发现机器学习的效能每瓦特提高十倍,相当把此一技术的进展加快七年,也就是一口气跨过三代摩尔法则。 TPU专为机器学习设计,能容忍较不精确的运算,每项作业所需的电晶体减少,芯片每秒能执行更多作业,效能大为提高。
谷歌资深副总Urs Holzle不肯透露TPU由哪家晶圆代工厂生产,只说此一芯片交由两家晶圆厂制造。
关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。