一股中国风席卷汽车产业链,现在是芯片赛道。
9 月 30 日,理想 L8、L7 双车齐发,两款车的 Pro 版均搭载中国首颗大算力车规级芯片,地平线征程 5。
其中,理想 L8 打破了「今年发布、明年上市」的传统玩法,将在两个月后开启交付。更酷的是,地平线那颗叫「征程 5」的国产大算力芯片紧紧跟了上来。
要知道,一颗芯片的设计、流片、测试有着相当高的技术难度,能够跟上以迭代效率著称的造车新势力理想的节奏,其实并不容易。
至此,地平线正式进入大算力汽车智能芯片的世界杯决赛。征程 5,既要与英伟达 Orin、高通 Ride 等大玩家竞争,也要提防等待上场的 Mobileye EyeQ6。
下面展开聊聊,大算力芯片、征程 5 以及地平线。
回顾过往,可以发现行车领域的汽车芯片大致经历了三个时期:
2016 年之前,兴起期。
汽车行业最早的智能驾驶方案,准确来说应该称作 ADAS 方案,主要由 Mobileye 一手安排,凭借的是低算力 Mobileye EyeQ 系列芯片。地平线在那一时期成立,聚焦边缘计算芯片, 并瞄准汽车领域。
2016 年到 2021 年,升温期。
随着自动驾驶概念兴起,头号玩家特斯拉在马斯克的率领下,对汽车行业的革命性最强,自动驾驶功能迭代最快。
由于算力需求迅速提升,特斯拉先后甩掉 Mobileye 和英伟达两家,自研 FSD 芯片。
中国市场这边,特斯拉的学徒蔚小理亦步亦趋,但由于没有自研芯片的实力,最初先是基于 Mobileye EyeQ4、英伟达 Xavier 进行自动驾驶研发。这个阶段是中国自动驾驶芯片开始崭露头角的时候,2020 年地平线征程 2,搭载在长安 UNI-T 上实现量产落地;2021 年征程 3 又搭载在理想 ONE 上实现量产落地。
此时,行业也形成了三个局面:
进入 2022 年,智能驾驶竞争日趋激烈,面向高等级自动驾驶的大算力芯片上车进入火热期。
代表现象是,英伟达、地平线和高通的大算力芯片量产落地。三家公司的大算力芯片分别是,英伟达 Orin、地平线征程 5、高通 Ride。
几款芯片各有特点:
英伟达 Orin 凭借自身的开放性,以及大算力芯片产品的推出,从封闭的 Mobileye 手中抢走大批客户。后来者高通,凭借芯片产品本身的高性能,抓住了北汽、长城等车企。
而中国队选手地平线,则是靠着性能和成本优势,在征程 2、征程 3 出货量超过 150 万片后,又推出的征程 5 也已经收获不少车企的定点。
除了上面提到的理想 L8、L7 之外,地平线征程 5 将在 2022 年到 2024 年,先后在比亚迪、自游家、上汽集团、一汽红旗和某华东主机厂进行量产上车,方案涉及单 J5、双 J5 和多 J5。
事后看,地平线征程 5 之所以能够迅速上车,在于以边缘计算芯片研发为核心,同时在过去几年中踏准了量产节奏。
智能汽车的发展在节点上大概分为三个阶段:
在第一阶段时期,主机厂主要采购的是老牌芯片公司的软硬件打包的成熟方案,目的是快速量产装车;第二阶段主机厂根据需求需要更多自研软件的能力来做智能的差异化,但此时车规级自动驾驶芯片的选择并不多,地平线抓住了时机。
理论上来说,第三阶段应该是主机厂自研软硬件,但市场的真实情况是,主机厂在此时没有自研芯片的可能性。但随着感知能力的提升,BEV 大模型算法的部署,对于计算平台的性能有了更高的要求,这里面英伟达和高通都有技术实力,但区别在于成本高和使用的不确定性。
而地平线是国内唯一可以提供单芯片算力 100 TOPS 以上的公司,所以这是地平线第二个踩准的节奏。根据目前公开的征程 5 量产节奏,不久后我们能看到一众搭载征程 5 的新车落地。
从市场的节奏来讲,征程 5 的卡点很精准,但自动驾驶是一个对性能和安全要求较高的系统,这就带来了一个新问题:征程 5 有什么样的技术加持能够踏入大算力高性能芯片的决赛圈?
车规级芯片的行业痛点可以列出不少:芯片设计复杂度高、封闭、合作开发成本高昂、大算力芯片可选择性少等。
能够解决这些痛点,才会被市场接纳。
征程 5 能够迅速上车,并获得不止一款车型的量产搭载,当然取决于每个环节的持续发力,从设计、流片、测试、制造,到支持车企量产开发相应的自动驾驶算法等,甚至可以追溯到车规级的产品开发流程。
你甚至可以说,因为市面上可以选择的大算力芯片太少了。
毕竟,出于对研发成本以及自动驾驶节点的顾虑,除了英伟达等少数几家,传统汽车芯片厂商基本上没有或很晚才朝着大算力芯片领域进军。
车企放眼四顾,只有英伟达、地平线和高通这么几家,闭上眼选吧。不过,一款产品之所以能够打动用户,本质上取决于它是否足够好用。
芯片产品其实有一套好用的标准。
第一层,也是最基本的,满足算力需求。进入上百 TOPS 领域,基本上可以满足高速、城区的智能驾驶功能,车企才会选你。
第二层,算法要强,看最终的性能效果。车企拿到芯片后,不仅要看账面的算力数据,还要看软件架构、算法等,算法会和第一层的算力进行匹配,最终决定芯片的性能。
第三层,包括开发费在内的整个芯片成本等等,这也是影响车企决策的最后一重因素。
地平线的核心优势有两层:一,「算力」恰到好处的芯片;二,核心 IP 以及感知算法能力。
算力是衡量一款高性能芯片非常重要的指标,但滥用算力概念已经成了部分芯片公司和主机厂打赢舆论场上最重要的手段了。
地平线联合创始人兼 CTO 黄畅博士说过:
芯片算力是整个数字经济时代的「水电煤」,但也意味着一定的成本。特斯拉之前分享过 FSD 和英伟达计算平台的一个对比,用 FSD 的硬件相对于它前一代的硬件有 21 倍速度的提升,但是峰值算力只有它的 80%。
实际上,算力如果仅仅是讲所谓的物理的峰值算力,其实它并不等同于实际处理能力。
什么意思呢?
芯片真正的物理算力越高,对于晶体管数量,芯片的尺寸要求越大,这就意味着要付出相应的功耗和成本。在这样的条件限制下,认识算力和实际的计算效率之间的最优会显得更加实惠。
算力光是大没用,更要算得快,峰值算力相当于成本,类比于马力,AI 处理能力,对应的是百公里加速度。一个驾驶员或者乘客能够真实感受到的性能是百公里加速多少秒,对于马力的数字敏感度并不高。
同样于芯片,用户真实感受到的不是理论的峰值算力,而是基础算力之下算的有多快,对于图像处理的速度和数据样本数量有多大。真实的计算性能就是 FPS,每秒钟可以处理多少图像为此就需要付出多少芯片成本,这才是真实的能效比和性价比。
而「 FPS 」等于三个要素相乘:
基于硬件的架构设计是指,获得理论的峰值算力和付出的功耗以及成本是成正比的关系,最终考验的是硬件的架构设计还有先进的工艺制程。也就是高性能,也高成本。
基于算法的架构设计是指,多少次计算量能够换来多少处理速度,FPS/TOPS 是基于算法的架构。在过去将近 10 年的时间里,OpenAI 统计过,从图像到语言到自然语言到方方面面的应用,基于深度学习的算法平均每 9 - 14 个月,达到相同的计算力的时候,计算次数可以减半,减半周期大概是 9 - 14 个月。通过算法优化可以提高计算速度。
基于软件的架构设计是指,计算的有效利用率,通过优化底层系统的编译器,动态运行库来实现数据流的调度最优化,将算法尽可能地进行拆解,高效地布局在这个目标硬件上,考验的是软件优化和软件的架构设计水平。
简单而言,真实的 FPS 算力是由「硬件的架构设计能力、软件架构设计能力和算法架构设计能力」共同决定的。
而在过去这些年里,发展最快的是算法,当硬件的摩尔定律失效时,其实整个计算性能的提升在于软件工程、算法、硬件架构的联合优化。
什么是「软硬结合」呢?
黄畅博士认为:
面向未来的自动驾驶算法,支持数据驱动、神经网络模型推理计算的专用芯片占比会显著增加。
想要开发出高效的计算平台,必须从实际场景出发,对于未来的软件和算法要有提前的预见性,能够支持客户高效布置自己的软件。
这种范式级的智能算法和支持这种算法的软硬件体系相结合,也就是我们常说的软硬结合。
讲「软硬件结合」需要清楚一个概念:「软硬件结合」和「软硬件解耦」并不是一个意思,我们经常强调的软硬结合是指对于一个计算平台的软件和硬件架构,在设计阶段时要充分地去思考它如何结合起来,更加高效地去支持未来的算法发展趋势。
但一个计算平台已经开发出来,它的硬件和软件开发出来给到开发者去使用的时候,这个时候是要支持软硬解耦的,或者更严格意义上来讲,应该是算法和应用开发和计算平台的解耦。
比如从底层软件到中间件,通过软件的抽象使得底层的硬件平台和上层的应用开发、算法开发无关,从而完成软硬解耦。它的本质是 「算法和应用的开发与计算平台的解耦」。
而软硬件结合讲的是:「计算架构设计阶段的软硬结合」。
硬件架构包含片上存储阵列、张量计算单元、中间件指令集这些都需要进行新的优化;软件架构方面,则需要对每个特定的算法去分析如何将它进行拆解重组,使其可以最大化并行性运转、算法在芯片上推理的过程效率足够高,包括降低延迟,节省带宽。
地平线是如何做的呢?
在开发芯片之初,地平线就自研一套 BPU(Brain Processing Unit )架构。征程 2 是基于BPU 伯努利 1.0 架构设计,征程 3 基于自研的 BPU®伯努利 2.0 架构设计,地平线征程 5 采用 BPU 贝叶斯架构。
一款芯片的性能是一个系统能力的体现,对于软件工程、算法、硬件架构的联合优化要求很高。
什么意思呢?
黄畅博士说,目前现阶段开发出了一个算法和应用的时候,部署和运营过程中需要很多人工去调试,事实上 AI 有能力去完成自适应。
因此,要设计一些在算法之上的算法,使得它能够帮助基础的算法更好地在应用场景去迭代去适应。诸如深度学习和增强学习的方式替代专家系统,不断地深化,不断地扩展。
而 BPU 的贝叶斯架构,是用神经网络算法去满足自动驾驶的场景,架构特点是并发数据小、灵活、性能强和功耗低,计算核部分是脉动张量。甚至在不远的将来会形成统一的神经网络。
现在芯片上可能有一半是用 BPU 去覆盖,传统的 ISP 图像处理、视频编解码、图像渲染可能都会从图像算法走向神经网络算法。
BPU 贝叶斯架构主要解决的是,异构计算单元的设计和理性问题,它能够让存储器、计算器等单元实现合理部署,能够实现灵活访问的高带宽存储。因此,地平线 BPU 能在非常灵活的条件下提供足够好的算力密度和足够好的能效比。
意味着什么?
它的处理器、计算单元都会转成 BPU 这种统一的神经计算架构,除了输入输出之外,95% 以上的芯片架构功耗都会为通用的计算做服务,只有极少量的芯片区域为专用指令,这是将来必然的发展趋势。
也就是说,谁能够率先去构建一个统一的神经计算架构的软硬件系统并且支撑一个广泛的生态,尤其是面向机器人的开发生态,谁就拥有了无限的想象空间。
地平线做一个芯片是一个产品,不是单向的技术,他需要一个均衡的技术体系。
地平线达到的结果是什么呢?
征程 5 1500 多帧每秒的处理能力,只用到 30 WATT 超低能耗。能耗是 Orin 的六分之一到九分之一,峰值算力达到 128 TOPS,但是这个不重要,因为地平线真正在乎的是征程5 1531 FPS 的真实计算性能,同时延迟可以做到 60 毫秒,整个功耗是 30 W 左右。
最终,地平线赢了。
余凯博士可以在满是车企的公开场合喊上一句:「虽然我们的价格成本是人家的一半不到,可是性能是差不多的,英伟达的 Orin 是 400 多美金,我们的一半不到。」
如果简要总结地平线征程 5 迅速上车的秘密那就是,芯片自身算力性能足够强大,与车企合作时可以提供好用的软硬件参考方案以及工具链等软件开发平台,而且这一整套方案是建立在大规模量产经验的基础上。
正是因为做好了这些功课,才有了地平线今天与英伟达、高通一同进入国际阵营的强势地位。
在芯片行业的竞争中,面对英伟达、高通、华为等光靠技术显然行不通,提供高性能的产品是第一步,拥有一套完整的商业模式会事半功倍。
所以余凯博士创业一开始就明确了,地平线是一家 Tier 2 公司,他们的客户有三类:一,Tier 1 ;二,主机厂;三,其他生态科技公司。对于软件客户提供开发板和开发工具链,对于硬件就是提供芯片、开发工具链。
在地平线的合作字典里就两个字:「开放」。
「我很佩服余凯博士,他对商业的洞察和敏锐度非常高深,他不同于其他技术出身的创始人,他知道技术是给谁服务的,怎么服务好才最重要。
所以,我们可以看到他对于做开放方案,做高性能芯片都非常果断,同时他对市场的需求判断的非常准。」
这是一位新造车智驾产品负责人对我说。
为什么是地平线进入大算力高性能芯片决赛圈?
作为一家初创的科技公司,在 2020 年之前,地平线不管是名气还是给主机厂的定点规模上,都不如主流国外企业。
在这期间,地平线做了两件事:
这就有了地平线现在的产品生态:
在和理想的合作过程中,理想自动驾驶相关人员的反馈是:在使用 征程3 的过程中,我们发现除了我们可以向地平线提供一些关于硬件上的问题反馈之外,他们其实也在感知算法方面给我们提供了很多意见,除了在硬件上的专业性,地平线也展现了其在软件上的专业性。
综上所述,一句话总结:只要地平线有的技术,全都可以向客户开放,并且还可以帮客户自己掌握这门技术。而且地平线最大的优势是,每一代产品都能在特定时间点,恰到好处的满足国内车企最迫切的需求。
写在最后
只有在芯片供应商的强力加持下,车企才能顺利攀登自动驾驶珠峰峰顶。
自征程 5 量产上车开始,来自中国的地平线能够和英伟达、高通站在同一起跑线,这是以往的芯片赛道从未出现过的现象。
征程 5 开启高阶大算力芯片量产之后,地平线将越跑越快。而征程 5 巨大的性价比优势,则意味着城市智能驾驶的普及。更重要的是,随着底座技术实力的完善,中国在全球智能汽车时代有望牵引创新生态的建立,赢得产业变革机遇。
从这个意义来讲,不管是地平线,还是其他中国芯片公司,都希望他们能够在这轮竞争中胜出。
添加微信,加入社群更多阅读
理想L8登场:智能化拉满,比L9便宜6-10万,你怎么选?
特斯拉连续 7 季度盈利:自动驾驶加快雷达退出向纯视觉切换
特斯拉 Model S Plaid:迄今为止的最快量产车型?
/长按识别二维码关注我们/