如今的人工智能(AI)芯片市场,普遍以TOPS(Tera Operations Per Second)论英雄。1TOPS代表处理器每秒钟可进行一万亿次(10^12)操作,与此对应的算力单位还有GOPS(Giga Operations Per Second),MOPS(Million Operation Per Second)。
但TOPS真的能衡量一款AI芯片在实际应用中的优劣吗?
9月9日,地平线在深圳发布了新一代AIoT边缘AI芯片平台——地平线旭日® 3,同时提出了一个新的芯片AI效能评估标准MAPS(Mean Accuracy-guaranteed Processing Speed) ,MAPS在应用场景中最常见的精度保障范围内,考察每颗芯片的平均处理速度,兼顾“快”和“准”这两个相互妥协的性能维度,真实反映芯片的在不同应用场景下的AI性能。
“我们的使命里有‘赋能万物’四个字,这是地平线成立的初心。”发布会上,地平线创始人兼 CEO 余凯阐释开放赋能万物的战略要如何落地,“那就是通过Auto+AIoT ——智能驾驶和智能物联网的‘双飞轮战略’。”
地平线创始人兼 CEO 余凯
为芯片发展续写摩尔定律
在过去的七年间,从AlexNet到AlphaGo Zero,AI对算力的需求提升了7个数量级。2015年,AI实现超越老鼠大脑的算力;预计到2025年,将超越人脑算力并满足自主机器人需求;而到了2075年,“超脑”会超越全人类大脑的算力。
而旧摩尔定律行将失效,已经无法满足AI对算力的渴求。如果从传统半导体角度去衡量工艺演进,无论单位面积能够承载的晶体管还是频率的提升,过去几年显然都处于失效的状态。
如何为芯片发展续写摩尔定律?地平线认为是软硬结合。余凯表示,地平线是芯片公司里面最懂算法的,也是算法公司里最早做芯片的,清楚的知道软件算法的趋势对芯片架构有什么要求,所以旭日3的AI计算能力能够适应最先进的神经网络。
规格上,旭日3系列拥有3M和3E两种型号,均搭载2颗地平线第二代BPU,采用15×15mm封装,台积电16nm工艺,典型功耗为2.5W。高配款3M等效算力5TOPS,采用4颗A53@1.2G,DDR支持3200Mbps,Camera/Pixel最高支持12M;性价比款3E等效算力3TOPS,采用2颗A53@1.2G,DDR支持2666Mbps,Camera/Pixel最高支持5M。
地平线旭日3边缘AI芯片更多详细规格
地平线联合创始人兼技术副总裁黄畅还公布了旭日系列芯片的Roadmap,我们可以看到下一代旭日芯片将在2021年推出,型号跳过4,直接来到旭日5。旭日5将分为U/M/E三个版本,预计U将是算力更强的Ultra版本,BPU将升级到伯努利3.0架构,并搭配DPU,ISP方面支持到8K。
地平线联合创始人兼技术副总裁 黄畅
BPU(Brain Processing Unit)是地平线自主研发的AI专用处理器架构,其AI芯片最大的亮点就是BPU优化,带来软硬协同的硬件架构。第一代BPU采用高斯架构,到了二代升级为伯努利架构,未来还会升级为支持蒙特卡罗决策搜索的贝叶斯架构,每帧能够检测200个目标。
一个加速器在SoC系统里面,面临的困境往往是处理器效率不高,原因有架构本身的,也有DDR瓶颈的问题。软硬协同可以让IP架构、算法和编译器三者合一,最大限度地压缩DDR带宽。
有无编译器的AI芯片在带宽消耗、计算延迟和利用率上的对比。如果用常规的方法,一个高效模型处理一张图片需要消耗140MB带宽,计算延迟40多毫秒,这个时候处理器利用率只有57%。虽然这个处理器利用率在整个AI行业里已经是相对不错的成绩,但是通过编译器的优化,用同一个芯片同一套算法,可以将整个计算进行细致拆解,充分利用片上存储和芯片上每一个计算单位,处理同样一张图只需要34MB带宽,利用率高达95%。
旭日3 DDR R/W与竞争对手产品对比
在Camera处理能力上,旭日3作为一颗SoC能够接入4到8路摄像头,在摄像头分辨率完全不一样的情况下实现精确同步,支持对输入的多路视频进行畸变矫正、拼接,多级图像缩放、金字塔生成。
旭日3采用硬件层面的安全保护机制,Secure BOOT写到芯片里可以确保执行固定的软件,不能被黑客篡改。同时内核机制保证了BPU完全隔离独立的环境,黑客可以侵入应用侧,但是无法接触BPU所使用的模型参数和数据。
评价AI芯片真实算力,需要新标准
为了反映芯片的真实AI效能,地平线还提出了名为“MAPS”的芯片AI效能全新评估标准,在应用场景中最常见的精度保障范围内,考察每颗芯片的平均处理速度。MAPS关注任务的最终效果与性能,包容任务执行时可采用的所有网络选择,能够帮助客户找到最为适宜的整体AI落地方案。
最真实的AI效能=理论峰值计算效能 * 有效利用率 * AI算法效率
“TOPS是半导体行业过去发展惯性体系下的理论峰值算力,是由使用的工艺决定的,可以称之为旧摩尔定律。”黄畅说到,“半导体工艺发展到今天已经高度透明,差异化并不大,同等大小芯片面积内有多少逻辑门电路,就有多高的峰值算力。” 但是在不同的架构上,跑不同的算法,芯片利用率是不一样的,从10%到90%都有可能出现。
过去这些年算法的演进速度,使得我们可以用越来越小的算力去达成相同甚至更高的计算和AI识别效果。算法的发展速度比传统摩尔定律更快,更新频率达10~16个月,这就是所谓的“新摩尔定律”。
“衡量AI芯片的真实能力,应该用单位成本上,能够完成多少用户场景下的计算任务来衡量。”余凯以特斯拉自动驾驶芯片为例,“每秒能够处理2千个图像”这个标准也真实地衡量了AI效率。所以不管理论峰值TOPS是多少,最终能够掏出多少为用户所用才是最重要的。
“MAPS是一套概念逻辑公开的软件框架,是一把衡量芯片的尺子,最好让第三方开发者去跑,然后给出分数,而不是厂家自己。芯片厂家自己也可以跑,但是一定要公开透明。”余凯说到,“地平线做MAPS是用公心推动整个行业发展,虽然到肯定会有不同的意见,但是我们先迈出这一步启发大家,对整个行业都是进步。如果没有一个厂家往前迈一步,都停留在虚无缥缈的TOPS上,那永远进步不了。不管怎么样先做起来,有建设性的争论比虚假的一团和气好。”
“很多客户仍采用学术界较为传统的网络模型在做训练,这些传统网络需要花费更大的算力资源才能跑出新型网络下同样精度的效果。”黄畅说,地平线希望提供一种全新视角,帮助客户为不同的AI任务寻找到效率更高、配适度更好的AI芯片和网络模型。
每一年都有新的AI算法推出,但与其它典型的AI芯片相比,地平线的芯片总是能够跟上算法的演进趋势,保持高效利用率,“是因为对重要应用场景中的关键算法发展趋势进行了预判,并前瞻性地将其计算特点融入到芯片架构的设计当中。”黄畅介绍到。
例如,旭日3目前在图像分类任务上可以有效适配Google提出的EfficientNet系列网络,这也是目前在同样精度下性能最好的网络,性能超越当前业内领先的11.4TOPS算力的芯片;在ImageNet图像分类75~80.5%精度范围内,MAPS评估方式下的主流芯片测试结果中,也超过业界大多数芯片。
AI on Horizon,Journey together
伴随着此次旭日3系列的发布,地平线还推出了相应的参考方案,可应用于智能会议、智能家居、交互机器人、车载后装、通行考勤等诸多应用场景。
地平线 AIoT 产品线总经理 王丛
地平线AIoT产品线总经理王丛说:“地平线并不仅仅是芯片提供商,而是AI芯片应用落地的生态赋能者。我们经过几年的业务探索与技术积累,认识到客户看重产品的交付和快速落地能力,更需要构筑差异化能力建立自己的‘护城河’,所以地平线将积淀多年并经过应用落地验证的技术组件‘白盒’开放出来,其中包括中间件,参考算法,应用参考设计,算法训练平台等,帮助客户进一步加速AI落地。选择地平线不仅是选择一颗芯片,而是选择 AI 时代的长期伙伴。”
在AIoT领域,地平线服务客户已过百家,伴随着技术、产品、服务能力的快速提升,地平线赋能客户场景的深度和广度将不断拓展和延伸,全面加速商业落地进程。王丛表示:“地平线将持续深化在AIoT领域的战略布局与行业场景渗透,发挥软硬结合优势,通过芯片工具链与全场景一站式解决方案赋能行业,让行业合作伙伴可以更高效地落地AI应用,全面释放AI动能。”
基于边缘AI芯片,地平线正打造开放生态体系。在合作伙伴生态方面,地平线坚持底层技术能力研发与解决方案的打造,面向AIoT垂直场景,由线及面赋能各行各业;在开发者生态方面,地平线通过开发者生态计划,依托 “天工开物”AI开发平台,一站式AI开发者社区和AI加速营开发者扶持计划,向开发者提供加速AIoT应用孵化的全链条支持,助力AI应用探索创新。
余凯表示:“随着芯片一代一代的出来,我们越发意识到要做最底层赋能者,尽量少做——不做整机、不做主板。打造开发者生态和方案商生态,我们定位就是底层赋能,不跟合作伙伴抢生意,类似早年间的intel inside。”
结语
中国过去的SoC公司,在集成度、IP创新能力以及先进工艺的起点都很低。余凯说到,在如今AI数据大吞吐,应用扑面而来的情况下,我们必须后劲强,付出比前几代全世界的芯片公司更多的努力才行,要不然会永远被甩在后面。
谈到成本和盈利问题,余凯表示,前两代旭日芯片的出货量达到了百万级,旭日3有信心在3年内做到千万级出货量,填平这次采用16纳米工艺带来的高成本。“我们的竞争优势在于我们不是传统的芯片公司,而是带着软件跟服务的基因,所以每一颗芯片都可以根据不同的客户需求提供很长的价值链条。所以我们的盈利状况,不仅仅反映在出货了多少颗芯片上。”
这次地平线还提出提出“AI on Horizon,Journey together”的口号,余凯表示,“用‘on’就是希望合作伙伴能够把我们作为平台,踩着我们往上走。”
责编:Luffy Liu
- A53只能做做系统管理 除非你的应用是全NPU的 不然A53就是短板
- 余凯表示,地平线是芯片公司里面最懂算法的,也是算法公司里最早做芯片的。能不能谦虚一点