AI时代，一美元能够买到多强的算力？-电子工程专辑

 当真正需要在嵌入式终端设备中使用AI技术时，客户的诉求更多的集中在功耗、响应时间、成本等方面，对性能的无尽追求反而不是重点，这和很多人之前的预想并不一致。花一美元或一瓦电能买到多强的算力？

算法、数据和算力，并称为新AI时代三大驱动力。如何在追求更好性能的同时实现低功耗、低延迟和低成本，逐渐成为摆在所有AI从业者面前的艰巨挑战之一。日前，深鉴科技ASIC副总裁陈忠民应邀在“2018人工智能与半导体技术国际论坛”发表演讲就指出：当真正需要在嵌入式终端设备中使用AI技术时，客户的诉求更多的集中在功耗、响应时间、成本等方面，对性能的无尽追求反而不是重点，这和很多人之前的预想并不一致。”他提出客户最切实的需求是：花一美元或一瓦电能买到多强的算力？

【广告植入】
[ EDAIP FORUM 2018 IMAGE
](http://site.eet-china.com/events/techshanghai_eda_ip/index.html)

点击右边链接即可报名参加：http://site.eet-china.com/events/techshanghai_eda_ip/index.html

如何解决当下面临的算力与功耗比的困境，深鉴科技本次演讲主题《人工智能芯片设计与应用：软硬件协同》提出新的思路。而会后陈忠民与《电子工程专辑》就如何突破AI芯片的算力与功耗的限制进行更加深入的对谈。表明这是两种很难调和的矛盾。深鉴科技研发团队为此进行了深入分析，试图解开困扰当前AI运算的谜团。

算力与功耗，真的难以兼得？

在接受《电子工程专辑》的电话采访时，陈忠民提及：随着海量数据的爆炸式增长与摩尔定律的逐渐放缓，可以看到像英伟达、英特尔、微软、谷歌这样的行业巨头纷纷推出了定制化专用AI芯片。尽管实现方式不同，但无论是选择FPGA还是ASIC，都在向业界传递一个明确的信号：即整个AI运算今后将会从通用计算平台走向定制化计算平台。追求更好性能，兼顾低功耗、低延迟和低成本将会是未来的主流趋势。

AI18032301
图1

图1中，很多硬件平台都展示了自身所具备的强大算力，然而当用户在真正运行一个应用时，却发现由于内存带宽的限制和架构的限制，依然不能将所有的AI运算单元填满，从而导致计算硬件的计算效率低下。以谷歌第一代TPU为例，其平均硬件乘法阵列使用率只有28%，这意味着72%的硬件在大部分时间内是没有任何事情可以做的。

另一方面，在设计AI平台的时候，大量运算引擎所带来的能量消耗是不可忽视的。

AI18032302
图2

图2表明，如果将完成16位整数加法能量消耗定义为1，那么将32比特的数据从DDR内存传输到芯片中，就将花费1万倍的能量消耗。因此，过大的访问带宽将会直接导致AI芯片功耗高居不下。

问题找到了，接下来该如何提升计算效率、降低功耗？陈忠民表示深鉴经过多次研究，总结出三条路径：首先，优化计算引擎，增加计算并行度；其次，优化访存系统；第三，利用神经网络稀疏性，实现软硬件协同设计。

Yann LeCun教授在IBM 45nm芯片上采用NeuFlow新架构为例，新架构使得芯片性能直接上升到了1.2T，这比传统CPU高出约100倍，比V6 FPGA实现的NeuFlow高出8倍，说明当架构设计得到改进后，更多的并行运算单元的确能够提升性能，让所有的硬件数据得到充分的运算。

“如果我打算构建一个8位乘法器，或是一个浮点16位乘法器，在每一代工艺节点下，是不是就一定会有天然的物理极限？要消耗多少晶体管才能实现一个16比特的乘法是一个定数”陈忠民说。一个有趣的事实是，早期之所以要在硬件和算法之间画出一道明显的界限，是因为处理器设计人员永远不知道将来要运行一个怎样的程序，是一个数据库应用还是一个网页显示？所以最简单的方法就是把接口标准化，这样，软件工程师透过编译器就可以将程序变成标准的硬件指令去执行。然而到了AI时代，每一个神经网络要做什么，设计人员都非常清楚，那么硬件就可以想办法实现与软件的配合，突破摩尔定律限制，做出兼具高性能与低功耗的产品。

软硬件协同优化

作为一家专注于提供从算法压缩、到软件/硬件、再到系统的完整解决方案的新锐AI公司，深鉴科技一直试图通过核心的深度压缩技术优化算法，结合自有深度学习底层架构—亚里士多德架构和笛卡尔架构，实现算法和硬件的协同优化，促进嵌入式端与云端的推理平台更加高效、便捷、经济。

深鉴科技联合创始人韩松博士是世界上首位提出利用稀疏性和模型量化来压缩运算量的科学家。简单来说，就是当拿到一个浮点32位或者浮点16位的模型之后，由于稀疏性的存在，完全可以将那些对结果没有影响的运算从神经网络中剪除，这样就能在减少运算量的同时保持整个网络的精度。对于现在的卷积神经网络来说，也没有必要通过运行浮点16/32位才能保证足够的精度，很多整数运算在某些网络层上已经可以实现。因此通过量化的方法，将一些浮点数转化为定点数运算，比如将16位浮点加运算转化为16位整数加运算时，能量消耗就会下降87.5%。

采访中，陈忠民将深鉴科技软硬件协同优化思路归结为“一句话”：软件定义硬件架构，而高效的硬件架构定义软件的组织方式。这种优化需要实现“三个目标”：第一，要在有限的资源下实现尽可能高的峰值性能；第二，需要优化硬件的微结构和编译工具来提升整体计算效率；第三，所有工作都不能破坏模型的精度。

然而“知易行难”，要做到这三点并不容易。

AI18032303
图3

图3是他向记者展示的不同计算特质的硬件架构，可以看到，一个标准的CNN网络里会包括一些共通的层，比如卷积层和全连接层。卷积层进行的是密集型计算，消耗的带宽有限，如果并行化能力突出，就可以用更多的计算单元来获得更好的卷积层性能；对全连接层而言，计算能力会被访存的带宽所限制，因此设计者需要思考为FC层所付出的硬件代价是什么？要怎样去构建硬件结构？等关键问题。

此外，一个众所周知的事实是，AI算法始终处于持续进化状态，即便是在同一个算法内部，仍然存在多种不同的算子。这势必要求设计者在硬件设计结构上时刻保持前瞻性分析，了解最新的算法趋势，平衡不同算子间的效率，深刻剖析整个网络里每一层的硬件需求，并借此设计出一个合理的、高效的硬件架构。

“针对这些不同的方法论，我们采取了很多应对策略。”陈忠民解释说，在整个硬件设计中，深鉴科技一直在追寻低比特量化的运算，同时要把运算单元整体充分调动起来，继而在编译器层面对神经网络数据结构做了很多优化，开发了自己的编译工具。在保持在模型精度不变的情况下将网络压缩降低运算量。

揭开“听涛”SoC的神秘面纱

今年上半年，深鉴科技将落实芯片计划，正式发布基于自主研发的人工智能处理器核心DPU 的“听涛”系列 SoC。资料显示，该DPU属于卷积神经网络加速器，能够实现高效地图像检测、识别、分类等AI应用。早前在该架构基础之上，深鉴科技做出了第一代FPGA产品，已经在摄像头市场实现了批量出货。

DPU计算核心采用全流水设计结构设计，内部集成了大量的卷积运算器、加法器、非线性等运算单元。高效率的架构设计会确保每一个运算单元都能够被充分的调动起来。像VGG16比较重的应用中，深鉴科技DPU的运算器利用率可以达到85%，对主流算法可以达到50%以上，功耗方面则大大低于竞争对手的产品。

陈忠民对记者说，在实际的客户拜访中，他注意到这样一个现象，即某些行业客户有自己偏爱的算法。深鉴科技就在自己开发的DNNDK工具链中毫无保留地加入了自动网络压缩和自动编译，任何一家客户的算法在DNNDK编译的过程中将自动完成网络的压缩，将浮点32位网络压缩成定点8位的运算网络，从而实现网络运算量的降低。客户甚至只用了50行代码就可以实现了一个Resnet 50的算法结构，极为便捷。

AI18032304
图4

在论坛现场，陈忠民展示了DNNDK在SSD算法上的结果。如图4，蓝色表示运算量，灰色表示运算精度。可以看到，在SSD算法上经过了若干轮迭代的压缩之后，整个运算量压缩从120降到了11.5，只有原来网络的1/10，同时基本保持了整个运算模型的精度没有变化。据此，陈忠民认为深度压缩可以使网络计算量变的更少，实现轻量化AI的运算。

相比现有FPGA产品的较高功耗，将于年中交付的“听涛”SoC产品的预期功耗约为3瓦，峰值算力4TOPS。考虑到网络压缩部分，等效的算力应该再扩大5-10倍。当下嵌入式领域的AI芯片中，无论是FPGA还是GPU，都很难越过每瓦1TOPs能效比，而听涛将会超过这条能效比的红线。

“我们希望通过自身在神经网络压缩以及先进芯片设计技术方面的经验，能够帮助客户得到更好的AI应用体验。他们完全不必关心使用何种硬件，只需要根据自己的性能和功耗需求选择适合的硬件平台即可。”这是陈忠民，也是深鉴科技对客户，也是对AI芯片未来的期望。

最后做个跟人工智能相关的重要活动的宣传：

对于人工智能IC设计和市场感兴趣的朋友，可以点击图片或右边的链接报名参加：
http://site.eet-china.com/events/icsummit2018/index.html

阅读全文，请先

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

邵乐峰

ASPENCORE 中国区首席分析师。

进入专栏

人工智能业界新闻摄像头处理器/DSP

返回列表

上一篇： 中国深圳先进院在高分辨率超声成像领域取得重要进展 下一篇： 英国用5G做了什么,为该国经济省下60亿英磅？

AWS计划追加100亿美元投资，在美国俄亥俄州扩建数据中心近年来，AWS还积极投资于人工智能（AI）、机器学习（ML）、大数据分析和边缘计算等前沿技术，以保持其在这些领域的竞争优势。
马斯克刷新世界首富记录：身家超过4000亿美元，未来看涨万亿美元有鉴于电动汽车、自动驾驶和人工智能业务等未来增长潜力，以及在马斯克在当选总统特朗普政府中的“特殊地位”，多家分析机构认为，马斯克的财富未来还将进一步增长。
马斯克亲自洽谈，xAI以10亿美元获英伟达GB200服务器优先交付权据悉，此次交易是通过马斯克亲自与英伟达CEO黄仁勋进行沟通促成的。这批GB200 AI芯片将被用于强化其旗舰级超级计算集群——Colossus（巨人）。Colossus作为xAI的技术基石，将借此机会实现计算能力的飞跃。
因应人工智能需求增长，中国有色矿业将3.4亿美元收购巴西锡矿公司股份锡作为AI技术生产的重要原料之一，其需求有望成为新的增长点。而中国有色矿业公司也希望锁定这种在关键矿物清单上占据重要地位的锡的供应。
HBM4量产时间提前，特斯拉向SK海力士、三星表达采购HBM4意向 HBM4将用于特斯拉正在开发的AI数据中心及其自动驾驶汽车。其中，特斯拉采购HBM4芯片将用于强化其超级电脑Dojo的性能。
特朗普或放宽自动驾驶汽车限制，特斯拉“完全无人驾驶”步入快车道如果新的法规能够实施，特斯拉毫无疑问将能够更自由地部署其无人驾驶技术，从而推动无人驾驶出租车（如Cybercab）的大规模生产。
“一碰交互，共触未来”ITMA峰会盛大目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。
中科院微电子所在忆阻神经-模糊硬中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
直角照明轻触开关为复杂电子应用提 C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行，英韧科技再获投身国产浪潮向上而行，英韧科技再获“中国芯”认可

项目动态|长飞先进武汉基地首批设备搬入今日，长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办，长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言，厂房建设一般主要分为四个阶段：设备选型、设
投资20亿！路芯半导体掩膜版生产项目首批工艺设备机台入厂来源：苏州工业园区12月17日，江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来，专注于半导体掩膜版的研发与生产，掌握130nm至28n
94岁巴菲特公布后事安排！1500亿美元遗产，只留0.5%给子女？投资界传奇人物沃伦·巴菲特，一位94岁的亿万富翁，最近公开了他的遗嘱。其中透露了一个惊人的决定：他计划将自己99.5%的巨额财富捐赠给慈善机构，而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
雷曼光电与辰显光电签约，推进MicroLED商业化 ‍‍12月18日，深圳雷曼光电科技股份有限公司（下称“雷曼光电”）与成都辰显光电有限公司（下称“辰显光电”）在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势，共同推进Mi
撒贝宁走进维信诺，探寻“非凡中国屏”诞生背后的科技传奇之旅万物互联的时代浪潮中，以OLED为代表的新型显示技术，已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者，凭借自主创新，实现了我国OLED技术的自立自强，成为中国新型显示产
注意些问题，嵌入式软件代码可大幅度减少bug 扫描关注一起学嵌入式，一起学习，一起成长在嵌入式开发软件中查找和消除潜在的错误是一项艰巨的任务。通常需要英勇的努力和昂贵的工具才能从观察到的崩溃，死机或其他计划外的运行时行为追溯到根本原因。在最坏的情
面板大厂引入AI，每年节省10亿！ LG Display 12月18日表示，为加强OLED制造竞争力，自主开发并引进了“AI（人工智能）生产体系”。“AI生产体系”是AI实时收集并分析OLED工艺制造数据的系统。LG Display表
巨头疲软行业内卷，极越为谁而“亡”？在上海嘉定叶城路1688号的极越办公楼里，最显眼的位置上，写着一句话：“中国智能汽车史上，必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景，未曾想这原来是命运的嘲弄。毕竟，极越用一种极其荒唐的
开讲在即|TI模拟+嵌入式处理器产品技术方案助力新能源系统设计，提升系统稳定性与可靠性点击蓝字关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播
极越之后，2025年最有可能死掉的4个新势力车企！极越汽车闪崩，留下一地鸡毛，苦的是供应商和车主。很多人都在关心，下一个倒下的新能源汽车品牌，会是谁？我们都没有未卜先知的超能力，但可以借助数据管中窥豹。近日，有媒体统计了15家造车新势力的销量、盈亏情

热门评论
最新评论

换一换

AI时代，一美元能够买到多强的算力？

杂志声明