2016年3月,毕业于清华大学电子系的姚颂放弃了CMU读博的机会,和同是清华人的汪玉、韩松一起创建了深鉴科技(DeePhi Tech),后又吸引来同是清华毕业的单羿博士以合伙人形式加入。凭借清华大学与斯坦福大学的先进学术理念及科技创新方法,使深鉴迅速获得了世界最大的FPGA厂商—赛灵思(Xilinx)与手机芯片厂商联发科(MediaTek)的资本入股及技术支持。在2016年OpenPOWER峰会上,赛灵思介绍了他们认为具有代表性的深度学习处理器方法,其中技术的部分大多来自深鉴。2017年,深鉴关于ESE语音识别引擎的研究获得世界顶级FPGA会议—FPGA2017唯一的最佳论文。
今年10月,深鉴公布了一系列AI产品方案,分别是:人脸检测识别模组、人脸分析解决方案、视频结构化解决方案、Aristotle架构平台、双目深度视觉套件、深度学习SDK DNNDK(Deep Neural Network Development Kit)以及语音识别加速方案。10月的新品发布会上,深鉴还公布了“芯片计划”,宣布自主研发的芯片“听涛”、“观海”系列将于2018年问世。此举也标志着深鉴布局深度学习芯片技术,首次实现芯片级产品化的正式开始。
与芯片计划同时公布的还有融资计划。继2016年4月完成天使轮,2017年1月完成A轮融资后,9月,深鉴科技获得由蚂蚁金服与三星风投领投,招商局创投与华创资本跟投,共计约4000万美金的A+轮融资。
据悉,本轮融资一部分将继续用于安防和大数据领域的产品开发和市场销售,落地更多安防监控的终端产品和服务。另一方面,蚂蚁金服的战略资源注入,会帮助深鉴进一步开拓包括金融在内的更多应用场景;与三星之间,则侧重于存储等方面的合作,为AI芯片打造以深度学习处理器为核心的智能化解决方案和高效的整体系统,以便多领域拓宽和产品落地,加速深鉴科技迈进商业化阶段。
这一系列引人注目的成就,迅速引起了美国知名半导体杂志EE Times的高度关注。经过对公司技术实力、目标市场、财务与投资概况、成熟度、以及领导团队等指标的多重甄选,EE Times将包括深鉴科技在内的四家中国半导体新创科技公司一并选入2017年的“Silicon 60”榜单,喻示全球这60家最具潜力的企业正在得到行业的万众期待。
是什么原因让评委关注到了这家成立时间不到两年的中国新锐企业?他们的技术和产品有何过人之处?日前,深鉴科技联合创始人兼首席执行官姚颂接受了《电子工程专辑》的独家专访。
深鉴科技联合创始人兼首席执行官姚颂
《电子工程专辑》:首先祝贺深鉴科技此番入围“Silicon 60”榜单,对于一家成立时间如此之短的企业来说确实非常不易,您觉得是哪些因素或者优势(技术、产品、资本)让评委关注到你们?
姚颂:最吸引大家的应该还是我们确实在技术上有所突破,比如由公司合伙人韩松博士提出的深度压缩算法,能够在算法层面将模型压缩几倍到几十倍,且不影响精确度,从而使人工智能的计算带宽瓶颈得到了明显缓解,给硬件产业带来相当大的优势,也由此引起了全球人工智能行业的瞩目,毕竟这样的顶级论文一年能出1-2篇已经非常了不起了。
第二点,我们所从事的研究正在引领国际人工智能计算的发展趋势。人工智能芯片的发展经历了两个阶段:第一阶段是算力的堆砌,比如英伟达在自己的GPU上疯狂添加CUDA内核以提升并行化计算能力;到了2014年,业界又开始转向对带宽的追逐,从DDR4/DDR5到HBM2,但最终发现带宽问题还是没能得到很好的解决。所以当深鉴科技在2016年提出深度压缩算法并将其运用到芯片后,业界人士突然意识到,明显改善的不仅是带宽问题,而是这一技术很有希望成为引领今后AI技术的新趋势。因此,无论是谷歌的TPU,还是英伟达的GPU,或是Cadence的DSP,都在跟随我们的技术路线,想把这套技术运用在自己的解决方案中。
《电子工程专辑》:很多企业现在都在讨论终端侧人工智能,深鉴的视频结构化解决方案、人脸分析解决方案、人脸检测识别模组和ARISTOTLE架构平台目前也是集中于道路监控、民用防盗等安防场景,您对这一趋势有怎样的看法?云端智能和终端侧智能该如何结合?
姚颂:云端智能和终端侧智能未来一定是相互配合的,不存在谁吃掉谁的问题,但彼此间的交流会存在成本和问题。举例来说,用户不可能将终端侧的视频全部回传到云端,因为带宽和存储空间需求太高,一部分数据必然要在前端进行处理。另外一些操作涉及到大型数据库的检索,比如搜索、超高精度语音识别、公安系统机密信息、淘宝购物信息等,就必须要放在云端进行处理。
边缘计算或者说终端侧智能面临的一个问题是前端设备对于成本、功耗有着明显限制,导致计算能力偏弱,只能运行相对较为简单的算法。用现有平台就只能实现简单功能,比如语音唤醒。如果想在人工智能方面有所突破,那势必要引入新的计算平台,能够在低功耗的情况下实现高性能。通俗点说的话,就是要么提高计算能力,要么降低工作负载。
《电子工程专辑》:安防是深鉴当前最为看重的市场,但看起来现在也是竞争最为激烈的战场。不但有很多与深鉴类似的新公司在崛起,传统的海康、大华等企业也在开发属于自己的人工智能方案,捍卫固有优势。您认为新兴AI企业和传统安防企业这两者之间是一种怎样的关系?
姚颂:如果你的目标是抢海康、大华的客户,那就是他们的竞争对手;如果是帮他们开拓市场,那就是合作伙伴,我想深鉴科技应该属于后者。
其实整个行业的格局可能没有外界想象的那么理想,仅头部一两家公司还能在研发上有些许投入,其它公司则心有余力不足。所以深鉴的价值就在于去赋能这样一批用户,你做不到很小的算法,我来帮你压缩;你缺乏承载算法的硬件运算平台,我来帮你提供。
安防监控市场在2016年已经达到了5600亿元的规模,2017年将有望冲击7000亿关口。传统安防监控厂商的支出成本中20%来自硬件,但这一比例在今年由于智能安防的火爆,可能会达到50%,从而推动整个市场进一步扩大。
当然,在没办法像英伟达建立起完整的CUDA生态系统的时候,很多情况下我们只能按场景一个一个的去争夺,决不能一开始就直接对标英伟达进行全行业竞争,那被打的落花流水并不是一件意外的事情。所以深鉴的策略是寻求单点突破,在一个行业站稳脚跟之后再去考虑下一个机会。具体来说,我们希望用2年的时间站稳安防市场,3-5年能够占领几个核心应用场景。
未来的安防产业中,单纯只做算法的公司肯定是没有前途的,用户也不习惯为看不见的算法付费,这也是为什么商汤、旷视纷纷选择业务转型的原因;而4K镜头、微光镜头这样的硬件配备对安防厂商来说也不会构成核心技术门槛。所以,未来3-5年安防行业的核心就是智能,这和自动驾驶是一个道理。
《电子工程专辑》:AI算法一直处于不断的演进和变化过程中,与传统ASIC芯片厂商相比,AI芯片公司在人员组成、工作流程方面是不是会有很多不同之处?深鉴在算法研究等方面是如何布局的?
姚颂:我觉得是非常非常不一样的。传统ASIC芯片厂商会遵从一个明确的指令集、协议或标准进行工作,但AI是一个大的算法概念集,是在不断演变和发展的,即便范围再小一点的深度学习其实也是一大类算法集合,包含了各种各样新奇的学问,“通用-专用”这根轴上的任意一点都会是ASIC芯片的机会。
很多人都在问,“深鉴科技与寒武纪、地平线的差别是什么?”简单来说,寒武纪选取了机器学习这根轴上最通用的方向,就是所有机器学习的训练和应用都要做;地平线有很强的算法团队,于是选择了轴上截然相反的另一端,也就是最专用的方向,去做算法固化的ASIC芯片;而深鉴科技则是在中间取了一个点,做深度学习的应用处理器。
但这一切对传统芯片厂商而言就会存在比较大的困难,因为他们可能对AI算法并不熟悉,只能将一些经典的开源算法进行固化,但结果证明这一做法是完全失败的,产品根本没有市场。深度学习绝对不是开源的神经网络,以人脸识别为例,首先要做人脸检测,然后是人脸校正,最后再做特征提取和比对,这涉及到很多系统层面的问题。相关厂商要拥有具备前瞻性的算法团队,还要考虑算法的不断演进与迭代,并跟最终用户保持密切关系。
对于今后的算法布局,我们的想法依然是以深度压缩技术为核心,然后在具有共性的客户需求中提取2-3个核心功能来做自己的算法,比如人脸识别,既然60%的客户都需要,那就自己来做。
《电子工程专辑》:FPGA在数据中心、嵌入式应用等行业其实竞争也比较激烈,开发难度很高。为什么会选择赛灵思的投资和产品搭配深鉴的核心算法?
姚颂:做一颗完整芯片至少需要两年的时间,对一个创业公司来说,熬这么长的时间只做一颗芯片是不太可能的,我们必须要抓紧时间到市场上去验证自己的核心技术是有价值的,只有充分了解客户需求,才能更好地定义产品。
正如我刚才所说,算法是不断演进的,深鉴科技在即将推出的芯片上搭载的是第2.5代算法架构,这跟公司成立之初的第1代架构相比有着相当大的差别,而FPGA的可编程特性是非常符合算法架构不断迭代需求的,它大幅降低了用户的使用成本。
此外,开芯片前必须要做的一件事就是原型验证。我们即将推出的芯片属于包括ARM、AXI总线、接口和深度学习算法在内的SoC,这与赛灵思的Zynq芯片相当类似,如果能在Zynq上高效高性能的运行,那最终的芯片性能也不会差,也就规避了流片可能存在的风险。
与GPU相比,FPGA在性能上与之接近,在功耗、延迟性方面会占据优势,但如果想要在性能上超过GPU,就必须结合算法压缩。从开发难易程度上来说,FPGA比GPU高一个量级,硬件描述语言比CUDA复杂,HLS/VIVADO开发环境更偏向通用性,面对AI应用整体效率还不是很高。赛灵思之所以投资我们,一是希望通过深鉴嫁接起FPGA与客户需求之间的桥梁,可以直接向客户提供一个基于赛灵思FPGA的深度学习解决方案;二是我们最为核心的深度压缩算法在FPGA芯片上发挥了极高的潜力,这是目前极少数能让FPGA在性能上打败GPU的方法之一。
深度学习算法压缩在实际应用场景中还是会遇到瓶颈,如果神经网络特征提取不足够丰富,精确度就会随之出现问题,所以面对带宽问题,我的用词是“缓解”而不是“解决”。目前,FPGA芯片如果没有HBM,在这套算法的帮助下,可能会使DDR4也能达到类似性能,但这并不意味着对DDR3也同样奏效。
《电子工程专辑》:“听涛”、“观海”系列SoC明年就可面世,深鉴科技为什么想推自主研发的芯片?会具体应用在哪些领域?这种ASIC芯片与现有的DPU(算法+FPGA)在深鉴的产品布局中是怎样的关系?
姚颂:“听涛”、“观海”系列SoC主要会应用在安防行业。FPGA有自己的优势,比如稳定性和可靠性非常高,这对另外两个我们关注的领域:自动驾驶和数据中心非常重要。但它也存在自身短板,主要是没办法做到特别低的功耗,Zynq 7020的功耗就是3瓦,7010的性能又偏弱,即便采用16nm工艺也只能降到2瓦,想继续降到1瓦基本不太可能。但很多场景又偏偏需要低功耗产品,所以不推出ASIC芯片是没办法达到的。
《电子工程专辑》:2018年,搭载深鉴科技的产品应该就会陆续大批量的出货,公司会面临从对技术的追求向产品如何落地,如何占领市场的转变,您认为在这一过程中,深鉴会面临哪些挑战?打算怎样进行布局?
姚颂:作为公司的CEO,产品落地、销售、客户支持、品控、供应链这些环节将会是我明年工作的重中之重。为此我们在不断扩大FAE员工的规模,在深圳也有了自己的办公室与员工,大批量购买了检测设备,一切都在紧张有序的布局当中。
其实我们现在已经有了第一批的客户,比如全国最大的ETC公司金溢科技,他们希望结合深鉴的产品,提高车辆智能识别与检测能力。总体来说,AI未来会在安防、自动驾驶、智能手机、金融、机器人、物联网等领域大放异彩,除了安防、数据中心和自动驾驶业务外,我们对于方案是否能够进入手机领域也正在做积极的评估。
本文为《电子工程专辑》原创,版权所有,谢绝转载
关注最前沿的电子设计资讯,请关注“电子工程专辑微信公众号”。