今年4月份,特斯拉曾经发布过一款宣称是世界上最好的自动驾驶芯片,名为FSD(Full Self-Driving Computer)。这个硬件本质上是特斯拉Autopilot Hardware硬件的3.0版本,现在应该已经实现了量产,应用到了新版的Model X/S/3车型中。特斯拉宣称FSD硬件整体可以达到144 TOPS的算力。
FSD是特斯拉自研,用以替代早前英伟达的方案(Autopilot Hardware 2.5)的。有趣的是,FSD在发布之后,特斯拉与英伟达之间还进行了一场隔空口水战。由于Elon Musk公开宣称,特斯拉自研的FSD,在算力表现等各方面都明显优于英伟达的Drive Xavier。英伟达很快就刊文回敬了特斯拉:
“特斯拉的FSD用上了双芯片,怎么能跟英伟达的单芯片驾驶辅助系统去比呢?要比也是和英伟达的DRIVE AGX Pegasus来比啊。”“DRIVE AGX Pegasus基于双芯片解决方案,将Xavier两个放在一起,提供160 TOPS算力,然后两组放到一起,可以提供总共320 TOPS算力。”
这场隔空比拼双方其实都没捞到好处。一方面,FSD标称的TDP功耗是72W,而英伟达DRIVE AGX Pegasus要达到320 INT8 TOPS则需500W功耗(TDP),所以英伟达的算力是有代价的;另一方面,Elon Musk在特斯拉Autonomy Day的演讲中提到,特斯拉FSD之上的两个芯片采用完全独立的封装,有各自的DRAM、闪存芯片和电源供应,“如果其中一颗失效,还有第二颗做冗余”——换句话说,FSD的实际计算性能是要打对折的。
所以双方都没有完整地呈现信息,不过双方的争论至少告诉我们,车载人工智能芯片是厂商争夺的高地,而且要兼顾算力和功耗(以及能效比)其实并不容易。
有趣的是,我们在WAIC 2019世界人工智能大会上看到了地平线的产品路线图,地平线预计未来会发布一款征程三代车载AI芯片,而搭载4颗征程三代芯片的的计算平台Matrix,可以达到192 TOPS算力,功耗却预计能够控制在48W,这是怎么做到的?
虽然征程三代预计要到明年或后年才会面世,但地平线在这届大会上正式发布了一款车规级AI芯片:征程二代,而且这是中国首款车规级AI芯片,已经实现量产,目前还“拿到了全球5个国家客户的前装定点量产”订单。
地平线创始人&CEO余凯在展示Journey 2开发板
我们体验了一把载有征程二代车规级AI芯片的汽车
我们在地平线征程二代芯片发布会上,率先体验了一把这颗芯片究竟对司机和乘客而言有什么用。发布会楼下的体验车上,这辆车的前后左右各装了一枚摄像头,用以作为传感器来观察车外的环境。
车内的“核心部分”就是地平线的征程二代芯片,以及地平线推出的开发板,用以作为视觉感知、视觉建图与定位的大脑存在。这辆车开在上海的大马路上,我们坐在后座,就能看到屏幕中由系统识别出的各种路标、障碍物、红绿灯、行人、“路牙子”、车道线等实物。
可惜这还只是个简单的演示,仅能表现其视觉感知能力。地平线在自动驾驶领域的整体能力,除了车外360度视觉感知以外,还有视觉建图与定位和车内的多模态交互等。所以这和未来真正应用前装解决方案的汽车,在体验上还不完全一样。可以说,我们这次体验到的只是征程二代芯片所具备的部分能力。
不过地平线副总裁&智能驾驶产品线总经理张玉峰为我们解释了,目前车载征程系列芯片,以及基于征程芯片的Matrix平台在应用于汽车以后,能够做到的那些事:“征程二代处理器,围绕主要的产品方案就是视觉感知方案”,“能够给终端消费者带来最直接的安全体验和保障。”
“以我们和客户合作开发的一个样机为例,主要是针对前视的视觉ADAS。芯片本身功耗是2W,这个样机一体机将功耗控制在6W以内,无论是针对很多行人的检测,还是行车(标识的3D框)、车道线、路牙子,以及交通灯的识别和检测。”
而且“针对中国的道路特点和挑战,我们做了很多有针对性的优化。比如行人从一旁车辆的后方突然出现,在这种遮掩比较严重的情况下,依然要非常快、很高效地准确检测出行人;还有雨天骑摩托车的行人,我们对他进行3D检测,检测他的朝向、速度、距离;同向车辆的旁侧切入,我们也能迅速完成整车以及3D检测;”“还有一些比较常见的有中国特色的场景,像是一些奇怪的车道线、车道线上的障碍物、交通警示杆、倒计时交通灯,额外带语义信息的一些警示牌”,“行人的路径预测”等等。“我们从像素级别,可以完全PK掉行业内相同定位的主流方案。”
地平线副总裁&智能驾驶产品线总经理张玉峰
在除了视觉感知方面的能力,“针对ADAS这个市场,我们的产品同时具备前装的视觉建图功能。”“为了应对L3及以上级别的驾驶场景,我们需要在前装产品中,集成低成本高精度的建图方案。”不过视觉建图能力,应用于前装可能还需要一段时间,地平线有个后装方案叫NavNet,就是基于征程芯片,搭配感知、建图软件得以实现的。
此外就是车内的多模交互,“通过多传感器识别驾车者或者乘客的手势、情绪、唇语,包括命令词,解决车内交互体验问题。当汽车充分了解驾驶员、乘客状态、行为,才能够主动做出相应的反应。比如检测到后排有小孩和老人,空调系统可以自动调低后排的制冷力度。让整个场景实现智能化,主动了解乘客驾驶员的需求,提供服务。”
AI处理器的性能,是怎么提升的?
按照常规,我们还是先将地平线征程二代车规级AI 芯片的大致规格和特性总结如下:
• 双核地平线第二代BPU(Bernoulli I架构);
• 集成双核Cortex A53;
• 等效算力 >4 TOPS;
• 典型功耗 2W;
• 工艺采用TSMC 28nm HPC+;
• BGA388封装,17x17mm;
• 符合车规级AEC-Q100标准
• 视频接口,支持MIPI、DVP、BT.1120输入输出,最大输入分辨率4K,支持双路视频输入(应该是双路1080p);
• 外部存储器接口,支持SPI Nor/Nand Flash,支持LPDDR4;
• 主要外设接口,I2C、I2S、UART、SPI、GMAC、SDIO等;
• 基于4颗征程二代芯片的新一代Matrix自动驾驶计算平台,相应达到16 TOPS算力、整个系统功耗在20W。
在征程二代芯片的性能具体表现上,创始人兼CEO余凯提到了一组数字:像素级语义分割、超过60个分类(64类语义分割)、每秒目标识别数量超过2000个;识别精度>99%,延迟<100毫秒;典型算法模型的算力利用率>90%,“每TOPS算力可处理的帧数,可以达到同等算力GPU的10倍以上”。
这里谈论的算力,应该都来自于征程二代芯片所用的架构——BPU。BPU已经是地平线注册的一个商标了,其全称为Brain Processing Unit,也是征程二代芯片真正的重头戏所在。余凯说:“市面上大家见到的绝大部分AI处理器,它的内核基本都是从国外的IP公司,比如说Cadence、Synopsys去购买的IP。地平线有幸从零开始,BPU就代表我们地平线核心的架构,以及它不断的演进。”
不过,考虑到GPU在通用性上本身就更高,所以应对“典型算法”必然在算力利用率方面产生明显的落后;而且我们在以往的文章中曾不止一次地提到过,AI芯片对应用场景和算法都有比较明确的要求,在应用场景确定的情况下,获得更高的算力利用率也是理所应当的。尽管如此,余凯所提到的“算力利用率超过90%“这个数字依然显得很出色,即便它同样要求“典型算法模型”。
SoC框架,通过中间的高速总线,连接各部分,如CPU、BPU、内设与外设
这是怎么做到的呢?地平线联合创始人&副总裁黄畅特别谈到了AI处理器的设计理念,也是AI芯片架构科普不可多得的一课:虽然他谈到的实际上就是经典芯片设计优化思路,这里我们可以花一点笔墨多说一说,也有助于理解地平线实现AI芯片高能效比的方式。
首先他提到了一套AI处理器性能的评估方式。一般我们在探讨常规处理器算力与能效比的时候,会用到每瓦性能(每消耗1W功率,能够得到的处理器算力),或者Perf/dollar以单位成本来对比芯片效率——这类计量方式体现的是针对power、performance、area的综合评估。
不过黄畅提到,这无法体现AI实际应用中的性能和表现。我们认为这种说法是很符合直觉的,因为在软件定义芯片的概念落地以前,AI芯片有相对固定的应用场景,或者说它就是专用芯片——那么在计量AI性能时,应该考虑算法效率,以及某些中间层级,比如compiler的效率(因为它们显得十分固定,而不像通用计算那样存在各种不确定性;虽然这个说法在常规的处理器领域,很类似于探讨system performance)。
“每万亿次计算,能够多大程度转换成AI性能(如上图所示,即算法优化);随着算法的演进,你会发现,我可以用更少计算次数达到更高的性能;利用新的算法,AI Perf/TOPS就能越高。”“但这样一来,对芯片的处理器架构也提出了更高的挑战,对另一个重要元素:利用率(utilization)成为巨大难题。”
“将传统的芯片性能(Perf/W),乘以实际有效利用率(前文余凯提到的算力利用率),再乘以AI Perf/TOPS(算法优化,每万亿次计算可以转换成多少AI性能),才成为了真正的AI芯片的实际性能(AI Perf/W)。”
这里,第一部分Perf/W就是依靠芯片层级的优化,比如架构设计、前端后端的实现、工艺节点的选择等;第二个要素,算法优化,需要依靠算法工程师,“这些年,我们在这方面做了不断的提升”;第三个要素AI Perf/TOPS,利用率的提升,“是基于算法和芯片的特点,我们将编译器(compiler)和运行时(runtime)做了极致优化,让它不断逼近理想100%的利用率”。“将三个要素结合在一起,才能得到全面优化。保证三个因子都非常高,这是我们一个基本的设计理念。”
地平线联合创始人&副总裁黄畅
具体怎么做,要探讨得更具体些,黄畅提到了“计算拆分、多级并行、数据复用、全局优化”。这几个理念本身不新鲜,属于传统计算机体系架构中的经典方案,典型如CPU pipeline、cache、SIMD的设计理念就是这样。在BPU架构的具体实施中,“如果不对数据进行分块,做整体运算,由于片内存储资源(一般是SRAM)有限,那么计算就必须大量依赖片外存储(主内存),那就大大降低了整个利用率(片外存储的带宽和延迟都是片内存储的几十甚至上百倍)。在这种情况下,片上堆再多的乘法器,TOPS理论算力峰值再高,跑应用的时候,利用率都很低。”
“所以我们采用高效的方法,把数据或计算进行分块,分到合适的大小。这样一来,这些数据可以有效地在片上实现缓存。然后将计算作拆分,将其多级并行,中间过程都在片内完成。效率得以提升,功耗就能得到降低。”“为了达到这个目标,我们采用了包括数据的并行——将量很大的运算进行张量拆分,通过指令并行多级计算流水的优化,和异步执行,让处理器流水线pipeline排满。再通过片内数据极致复用,多层融合,降低片外存储所需的带宽。”“我们将这些方法充分融入到芯片架构设计、算法研发,和前面提到的compiler与runtime优化过程中。”
针对上述方案,一个比较具体的例子,就是“将非常高效的网络结构vargnet,针对一张720p,也就是100万像素的图像,进行全图的检测和像素级分割。如果我们不做这种针对性的优化,处理每帧图像需要消耗带宽是142MB,单帧计算延迟将近44ms,整个计算资源利用率57%。我们通过编译器,结合计算架构特点,做进一步优化,就能将计算延迟降低将近一半,计算资源利用率提升达到95%。”
“这是极高的一个数据,我们几乎看不到一个对复杂实际问题达到这么高的利用率。而且它还将单帧带宽,片外存储从142MB降低到34MB:一颗复杂SoC最宝贵的资源其实就是DDR带宽,我们把这个东西做到了极致。”
另外在这部分的最后值得一提的是,算法演进获得AI Perf/TOPS的提升,“但代价是新算法对架构提出巨大挑战,它变得不那么容易并行,不那么容易拆分,不那么容易解除数据间的相关性,数据本地化越来越难。典型AI处理器效率就会下降,所以很多处理器没办法受益于新的算法演变趋势,跑新算法的利用率下降,整体性能下降。”“地平线在做每个处理架构设计时,我们前瞻性地看到后续2-3年的主流算法,提前将其将其设计到芯片架构中。所以我们的设计很激进,折让我们芯片1-2年后出来,正好赶上最主流、最高效的算法,得以高效运行。”
未来的自动驾驶汽车是什么样?
以上我们花这么多篇幅来探讨征程二代芯片所使用的BPU架构的一些优化措施,感觉就和探讨一颗PC或者手机处理器一样。这其实并不是错觉,“车载计算,从今天的分布式ECU结构——在很多地方羞羞答答地放一些小处理器,去处理各种任务”,“慢慢地演进到域控制器,将汽车的计算处理分成几个域,在域中去做处理”,再往后“汽车会成为有四个轮子的超级计算机”。余凯说,“可预期的未来,大概到2025年前后,汽车会展现出和今天理解的PC、移动这样的产业格局的本质属性。”
这其实就是一个从分散到更高集成度的过程,也是这两年汽车电子化、网联化、智能化的趋势。未来“汽车整车的成本结构会发生翻天覆地的变化。以前是各种硬件在整车结构中最重要;那么到2025年,越往未来,计算平台以及软件,才是整车成本中最重要、占比最大的部分。”我们在早前的文章中也提到过,汽车中的软件在规模和复杂度上还在迅速成长,商业研究公司Frost&Sullivan预计,很快汽车内的软件代码就要达到2-3亿行的程度了。
这套开发生态和PC、智能手机本来就已经很像了。地平线也特别推出了名为“天工开物”的全栈开发工具链,包括模型结构检查、性能分析、编译器、模拟器等;输入部分支持各种开源、主流的深度学习框架产生的训练模型;输入就可以部署到地平线的AI处理器上。另外地平线甚至还提供了相对完善的工具产品包,提供example code、模型、复杂的系统原型、与产品相关的参考设计等。
在针对未来的车规级AI处理器发展规划中,地平线上海研发中心总经理吴征表示,“明年我们会有一款台积电16nm的征程芯片,性能和功耗表现都会有很大提升;而第三代车规级AI处理器——征程三代则会是地平线此后发展的重点。”
“这是一个为自动驾驶设计的车规级SoC,基于台积电车规级16nm FFC工艺。征程三代内部包含有BPU,基于Bernoulli V3架构,能够达到48 TOPS的算力;其中的多核CPU、CV协处理器等,组合起来实现异构计算,在智能驾驶场景下达到最优。”“整个SoC可支持多达8路以上的视频输入,支持4K。针对自动驾驶场景,延迟满足60ms。”
“还有很重要的一点,它是全车规级的,除了满足可靠性AEC-Q100,它还符合功能安全。从芯片的角度,达到ACIL B,系统角度达到ACIL D。配合加密机制,提供一个完整可靠的自动驾驶芯片。”目前还在规划中的地平线征程三代预计“明年就会有好消息”。基于此,对应的第三代Matrix 自动驾驶计算平台,才真正有了超越特斯拉FSD的硬实力——以48W(应该是指典型功耗)实现192 TOPS的算力。
地平线上海研发中心总经理吴征
除此之外,还有一款传说中的征程三代Max芯片。但从地平线的阐述方式来看,这颗芯片恐怕还比较遥远,“它可能采用更高更先进的工艺,比如台积电7nm,针对L4、L4+、L5这样的等级。”预期的性能可达到支持12路摄像头,单芯片100+ TOPS,SoC芯片等级达到ASIL C/D,功耗目标是25W。
余凯则表示:“到2025年,我们会推动车载人工智能平台达到1000 TOPS的算力,这是一个标志。车载人工智能计算的算力,达到人类大脑的算力。真正实现无人驾驶,要求车载人工智能处理器必须是个超级计算机。它的算力规模,应该是1000 TOPS这样一个规模。”SAE International提出的L5等级(full automation)的确是大约1000 TOPS的算力。这是地平线设想中的未来。
AI芯片的“珠穆朗玛”
前面我们一直都没有具体解释“车规级”这个词。实际上在发布会上,余凯和吴征都花了很大的篇幅来阐释车规级AI处理器从研发到上市的整个流程有多难,这也是本次发布的征程二代车规级AI芯片,以及未来征程系列芯片的一个重要组成部分。
车规级芯片的测试标准,相比其他领域的难度本就不在一个层级。比如智能家居的IoT芯片具备相对稳定可控的工作环境,但“汽车消费用户,把车从海南开到西伯利亚,或者其他气候干燥的地方,这是一种完全不可控的环境和场景。这就必须保证系统有极高的可靠性。这是车载半导体的挑战。”
吴征总结说,车规级半导体芯片相比一般的半导体芯片,主要的不同有三方面:
第一, 可靠性,车规级半导体的工作环境严苛,比如工作温度的Grade2就要达到-40℃-125℃;车规级半导体芯片,运行寿命要达到10年以上。总体需要满足AEC-Q100标准;
第二, 质量系统,零缺陷率。“EE电子电气系统,要做到没有问题和缺陷,太难了”,满足质量管理系统ISO/TS16949,要有20-30年的长期体系支持;
第三, 安全系统。包括ISO21434网络安全(cyber security)、ISO21448预期功能安全(SOTIF)、ISO26262功能安全(functional safety)。尤其是其中的功能安全,“汽车不是一般的产品,比如刹车、加速,一旦失效问题就很严重;针对随机失效,硬件层面就需要做检测、冗余,把失效可能性降到最低。”
就整个开发到上市的流程,车载半导体相较其他领域的半导体芯片,又会有更多的步骤。比如在拿下前装定点之后,“等车型量产,整车集成的车次开发又是一个过程”。所以余凯将车规级半导体芯片,称作“人工智能的珠穆朗玛”。
不过目前看来地平线攀登珠穆朗玛的市场态势相当不错。除了前面就提到的征程二代芯片已经在不止一个国家的客户中取得前装定点项目;Matrix自动驾驶计算平台在商业上也已经取得了不俗的成绩,“Matrix赋能自动驾驶车辆今年达到近千辆规模,这个市场本规模就并不大,下一步低速小车和Robo-Taxi车队的规模发展在2、3年内,将市场推到万级、数万级,地平线有信心拿掉大部分市场。”
“而就车内的多模人机交互,最早明年年初,国内某主流车厂的主流车型,会有比较不错的量。”“后装设备厂,包括网约车合作伙伴、车队以及其他出行服务商,我们未来可以部署上千万辆汽车。”张玉峰公布地平线现有的客户包括了奥迪、上汽集团、长安汽车、比亚迪、博世等。这是我们在AI这个信息技术垂直行业热点中,又一次在第一梯队看到中国企业的身影。
责编:Luffy Liu
- 借来的吗?