文|三少爷
生成式AI和GPT技术在过去的一年中高歌猛进,大有掀起第四次工业革命的势头。各种应用场景都在被生成式AI大语言模型重新赋能,工作流被重塑,产品形态被变革。
借助大语言模型(以下以大模型指代),一直呈现挤牙膏式创新的PC化身新物种AI PC,焕发了生命的第二春;智能手机开始向AI手机转型,为确保转型顺利,苹果甚至放弃了耕耘10年、投入百亿美金的智能电动汽车业务。在这场波澜壮阔的智能大模型席卷一切的浪潮中,自然少不了智能电动汽车的身影。
从时间顺序来看,吉利旗下的极越01是国内首款搭载大模型技术的汽车之一,据悉,极越语音助手SIMO接入了百度的文心一言。
死磕智能化技术的小鹏汽车也是率先落地大模型的车企之一,去年10月24日的小鹏科技日上,小鹏推出新一代XOS系统,将语音助手小P接入自研的灵犀大模型XGPT。
12月份,理想汽车发布OTA 5.0,Mind GPT正式上车,难能可贵的是,理想汽车还系统性地总结并展示了车载大模型的四大应用场景-知识百科、用车助手、出行助手、娱乐助手。
12月份的问界M9发布会上,车载智慧助手小艺全面接入盘古大模型,华为研发多年的盘古大模型自此搬上鸿蒙车机。
今年2月份,蔚来汽车2024款车型上市,同时宣布了自研大模型NOMI GPT即将上线的消息。
大模型的风口不容错过,所以,我们可以保持一个合理的期待,在接下来的一段时间里,各家车企还会陆陆续续传来大模型上车的消息。
不一样的自研方案
从极越语音助手SIMO、小鹏汽车语音助手小P、华为语音助手小艺、理想汽车Mind GPT四大助手的名称可以看出,小鹏汽车的XGPT、理想汽车的Mind GPT和蔚来汽车的NOMI GPT、百度的文心一言、华为的盘古大模型都可以归类成GPT助手。
在微软2023年的Build大会上,专家介绍过GPT助手的训练工作流:先用数千张GPU对TB级别的海量互联网数据进行无监督训练,训练出能够理解和生成自然语言且具备强大基础能力的基座大模型,再用数百张或者数十张GPU对GB级别的各种高质量数据进行微调式训练,训练出面向特定任务进行调整和优化的微调大模型。
图片来源:微软Build大会
从GPT助手的训练工作流可以看出,虽然均标榜自研,但蔚小理GPT的自研分量和华为/百度存在一定的差距。因为,蔚小理的基座大模型大概率来自业界开源,而华为和百度的基座大模型出自这两家自力更生的全栈自研。
其实,自去年下半年Meta(扎克伯格的Facebook)开源了性能表现优异的Llama 模型之后,采取开源基座大模型进行微调训练,开发出面向垂直领域和行业专属的大模型,已经成为了业界的主流开发方式。
原因无他,基座大模型的开发已经成为了只有具备大量人才储备和训练算力的科技巨头才能参与的游戏。Meta开源的Llama 70B(700亿个参数)采用了6000个GPU进行训练,在一次访谈中,马斯克表示xAI(新推特)自研的大模型Grok采用了8000张英伟达A100进行训练。且不说人才储备,单单对算力进行统计,一颗英伟达A100的算力为312TFLOPS,8000张A100对应的训练算力就在2.5E左右。
有关数据显示,蔚小理三家的训练算力规模分别为1.4E、600P(数据来自2022年的新闻公告)和1.2E,有限的算力还要用来支撑高阶智能驾驶算法开发,应该不会拿来进行对基座大模型的训练。
图片来源:Andrej Karpathy
相比之下,在国内的科技巨头里,百度是最早喊出All in AI的公司之一,在以大模型赋能千行百业的科技公司里,华为同样是国内最早的践行者之一,所以,早在几年前,两家就训练出了千亿参数规模的大模型,在OpenAI验证了Scaling Law之后,两家摸着OpenAI过河,迅速将文心一言和盘古大模型的参数规模推高到了万亿级别。
截止到2024年3月,业界性能最强的几个开源大模型有谷歌的Gemma 7B、Meta的Llama 7B、Llama 13B、Mistral的Mistral 7B,参数量都在几百亿到上千亿之间,从参数规模的角度,蔚小理三家的GPT和华为与百度还存在一定的差距。
不过,决定大模型性能的不只是参数规模,模型的实际性能表现在很大程度上依赖于数据,加大训练数据量和训练时间,参数规模较小的大模型未必逊色于参数规模较大的大模型。
理想汽车应该是早早就洞悉了这个规律的车企之一,在去年的家庭科技日上,理想高管宣布Mind GPT大模型的训练语料为1.3万亿个Token,到了今年3月份的发布会上,李想宣布的Mind GPT训练数据规模就已经提高到了3万亿个Token。
图片来源:理想汽车
下一个战场—
多模态感知端侧大模型
由于参数规模和功耗的原因,所有重量级的大模型必然部署在云端,但是,在本地部署参数较小的轻量级大模型的需求同样相当迫切。因为,在智能电动汽车这么一个移动智能空间里,多模态交互的需求正在日益上升,而基于小模型开发的人车交互方式在理解和感知能力上存在明显的不足。
在2023年的华为开发者大会上, 华为的技术专家介绍了大模型带来的两个关键能力的根本性提升-超强的理解能力和超强的生成能力。
人车交互体验的关键恰恰取决于理解和生成能力,依靠多模态的理解和生成,可以处理和生成多种类型数据的大模型,可以提供更丰富、更真实的体验和应用,实现更接近于人类的自然感知和交互方式。
OpenAI首席运营官Brad Lightcap也曾经表达过类似的观点:“为了更好地模仿人类的感知和交互方式,AI模型需要能够处理和生成多种类型的数据。整合多种模态的大模型可以提供更丰富和更真实的体验和应用,以及更接近于人类的自然感知和交互方式。”
图片来源:华为
大模型时代来了,有必要通过大模型技术重新部署多模态交互。不过,出于实时性的要求以及对用户隐私数据的保护,用于多模态感知的大模型必须部署在端侧,换言之,端侧部署的多模态感知大模型将成为已经内卷到冒火星子的智能电动车企下一阶段的重量级战场。
但是,由于多模态感知的复杂性以及功耗、推理速度、内存资源、芯片算力的限制,在端侧部署大模型绝非易事。
第一步,需要面向车端多模态交互的场景和需求,在具备多模态感知能力的云端大模型的基础上进行微调训练,比如开源方案中的Llama便具备多模态能力,作为模型家族的盘古大模型或文心一言,也可以通过训练不同模态的数据微调出满足人车交互应用场景的多模态感知大模型。
第二步,需要根据车端的算力,通过量化、剪枝和蒸馏的方式,将参数量在几百亿级别云端大模型压缩成参数量在几十亿级别的轻量级大模型。
真正的挑战在第二步。决定芯片能否运行大模型的因素有很多,包括模型的大小、终端的运算能力、内存大小和内存带宽等,但主要因素是计算芯片的NPU算力。
目前算力最强的座舱芯片是高通骁龙8295,旗舰版NPU算力为30TOPS,运行几十亿参数的轻量级大模型会很吃力,高性能版采用双NPU,算力可达60TOPS,初步具备运行几十亿参数级别的轻量级大模型的能力。
不过,在车端运行大模型进行多模态感知,还有一个非常重要的指标:实时性或反应速度,这会进一步提高对芯片算力的需求。这种硬性限制,使得目前国内部署端侧多模态感知大模型的车企寥寥无几,透露过相关消息的只有蔚来汽车。
在发布2024款车型时,蔚来汽车宣布,基于中央计算平台的超强算力和跨域共享能力,即将上线的NOMI GPT将部署“全球首个汽车端侧多模态感知大模型”。
下一个部署端侧多模态感知大模型的可能是华为系车企和理想汽车,在2023年的华为开发者大会上,华为的技术专家就展示过在眼手交互、手势交互上的造诣和实力。
图片来源:华为
经常被调侃以“冰箱、彩电、大沙发”打天下的理想汽车是首批提出“智能空间”概念的车企之一,它在视觉感知,语音感知、和多模态上也有很深的造诣。理想MEGA和2024款L系车型Ultra版本采用算力高达60TOPS的高性能版高通骁龙8295,并搭载两组IR传感器和六组双麦阵列式麦克风,也透露了理想汽车将在多模态感知上发力的蛛丝马迹。
图片来源:理想汽车
写在最后
由于可解释性差、容易出现幻觉、可靠性差、实时性差等原因,大模型技术一时半会儿还很难用到自动驾驶上面,但是,容错能力强的智能座舱正在被大模型重塑和改变。
借助云端大模型,语音助手的体验将发生质的改变,随着原生支持Transformer架构硬件的出现,以及芯片算力的继续提高,端侧多模态感知也将逐步落地,进一步改善人车交互体验。
由于散热能力更强,可以部署更加强大的硬件,感知传感器和交互接口更丰富,能够解锁更多场景体验,智能汽车没准会成为比智能手机更早完成大模型改造且具备丰富想象力的智能终端!