Transformer是当前各种大模型所采用的主要结构。从技术角度看,ChatGPT的爆发是深度学习领域演进、发展和突破的结果,背后代表着Transformer结构下大模型技术的飞速进展。
AI新范式拐点的到来
类似ChatGPT的大模型,其核心网络结构均基于Google 2017年的论文提出的Transformer的论文《Attention Is All You Need》。爱芯元智将其称之为“新范式拐点的到来”,认为Transformer大模型虽然本质上是一个预训练的模型,但却改变了传统的开发范式,因为它将构成复杂系统的三部分(如下)中的模型系统的使用成本大幅度降低。数字系统或是复杂场景,都可以分为三大部分:
- “信息”系统(subsystem of information),从环境当中获得信息;
- “模型”系统(subsystem of model),对信息做一种表达,进行推理和规划;
- “行动”系统(subsystem of action),我们最终和环境做交互,达到人类想达到的目的。
“2022-2023年的拐点是什么?是大模型的出现让获取知识的边际成本开始变成固定成本。”奇绩创坛创始人兼CEO陆奇在4月的一次演讲中称,“一定要记住,任何改变社会、改变产业的,永远是结构性改变。这个结构性改变往往是一类大型成本,从边际成本变成固定成本。”
他举例说,自己在美国读书时,一张地图3美元,获取信息很贵。但后来,Google平均一年付10亿美元做一张地图,每个用户获得地图信息的代价基本上是0。也就是说,当获取信息成本变为0的时候,它一定改变了所有产业。这就是过去20年发生的,今天基本是free information everywhere(免费的信息无处不在)。
而ChatGPT能在历史上第一次两个月1亿活跃用户,挡都挡不住,为什么?因为,
1. 它封装了世界上所有知识。
2. 它有足够强的学习和推理能力。
3. 它的领域足够宽,知识足够深,又足够好用。
加在一起,范式的临界点到了,拐点已经到来。
边缘侧部署Transformer为什么难?
近几年Transformer大有取代卷积神经网络(CNN)之势,因为它可以获取全局特征,有一定的知识迁移性,能够很好地适应各种场景,不仅在COCO榜单上处于霸榜状态,很多以CNN为主的框架也已经切换到了Transformer。
目前来看,Transformer大模型在云端主要还是通过GPU部署,在边缘侧、端侧硬件支撑方面,则更多依赖NPU实现对神经网络的加速。“这倒不是指CPU不能运行Transformer模型,只是它的运行速度无法满足实际应用落地需求。”爱芯元智联合创始人、副总裁刘建伟表示,之所以要强调速度,一是神经网络速度快,意味着终端设备可以运行更多类型的智能网络,更智能;二是即便不需要跑那么多类型的网络,那么某种程度上就可以把神经网络规模做大,提高精度。
另一方面,尽管CNN和Transformer都属于神经网络,但Transformer的计算访存比比CNN低,精度和灵活度高,而此前市面上的一些NPU主要针对CNN网络做了一些过拟合的设计,导致在部署Transformer网络时遇到了功耗、效率等诸多问题,现在需要找到合适的新算力平台,并在算法侧找到能降低大参数模型带宽的新途径。近年来Transformer被广泛应用到计算机视觉的物体分类领域,例如ViT、SwinT等,以及用在目标检测领域的DETR(DEtection TRansformer)。
其实,Transformer大模型方向在2019年就有人提出,当时在思路和训练方法上与传统CNN也并无太大差别,只知道“上限更高”。但近两年,随着自然语言处理(NLP)领域的突飞猛进,大模型通过无监督或是自监督的方式进行训练,正成为AI领域新的趋势。
爱芯元智在研发实践中发现,在以往的AI加速应用中,标准化的人、车、车牌类识别应用做得很好,但在一些更加通用的场景中,落地之所以不那么顺利,是因为它需要用户做更加有针对性的投入,且费用不低。而Transformer大模型面世之后,场景应用的AI智能边际成本会大幅降低,因为它不太需要再为这些长尾的场景做专门的适配,预训练的大模型凭借“足够强的学习和推理能力”、“足够宽的知识领域”,一经部署就能达到比较好的效果,从而推动AI在端侧和边缘侧更大范围内的普及和提升。
以河道垃圾监测为例:当河道上出现了一种垃圾,传统流程是采集数据—标注—训练,如果突然出现一种新的垃圾品类,是之前数据标注/训练没有覆盖的,系统就无法识别,就必须重新采集。但有了采用无监督训练的大模型之后,无论出现什么样新类型的垃圾,系统都能自主推理和判断。
高能、低耗、易部署
如前文所述,如何在端侧、边缘侧高效部署Transformer正成为用户选择平台的核心考量。作为人工智能视觉感知芯片研发及基础算力平台公司,爱芯元智在今年3月正式推出的第三代高算力、高能效比的SoC芯片AX650N,为行业探索Transformer在端侧、边缘侧落地方面做出了有益的尝试。
AX650N是一款兼具高算力与高能效比的SoC芯片,集成了八核A55 CPU,43.2TOPs@INT4或10.8TOPs@INT8高算力的NPU,支持8K@30fps的ISP,以及H.264、H.265编解码的VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI输入,千兆Ethernet、USB以及HDMI 2.0b输出,并支持32路1080p@30fps解码。
计算机视觉类是AX650N的核心应用目标之一。但是到目前为止,在计算机视觉建模一直由CNN主导,基于Transformer结构的网络模型长时间停留在各大顶级会议的“刷榜”阶段,真正大规模落地并不突出。直到ICCV 2021的最佳论文《Swin Transformer》才达到了准确率和性能双佳的效果。
同时,类似Swin Transformer的视觉类Transformer网络模型大多数还是部署在云端服务器上,原因是GPU对于MHA结构计算支持更友好,反而边缘侧/端侧AI芯片由于其架构限制,为了保证CNN结构的模型效率更好,基本上对MHA结构没有过多性能优化,甚至需要修改网络结构才能勉强部署。这也间接限制了算法工程师在边缘计算应用上进一步发挥Transformer网络的想象力。
实测数据显示,目前大众普遍采用的Transformer网络SwinT,在爱芯元智AX650N平台表现出色:361 FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的极易部署能力,都让AX650N在Transformer的落地中有着领先的优势地位。
具体来看,361帧的高性能可媲美汽车自动驾驶领域基于GPU的高端域控SoC;而80.45%的高精度成绩同样高于市面平均水平;199 FPS/W的速度也充分体现出低功耗的特点,对比于目前基于GPU的高端域控SoC有着数倍的优势。
更为重要的,AX650N部署方便,GitHub上的原版模型可以在爱芯元智的平台上高效运行,不需要对模型做修改,不需要QAT重新训练。与此同时,AX650N支持低比特混合精度,用户如果采用INT4,可以极大地减少内存和带宽占用率,可以有效控制端侧边缘侧部署的成本。这些特性都保证了AX650N作为人工智能算力平台,最终落地效果更好用、更易用,大幅提升了用户的效率。
目前,AX650N已适配包括ViT/DeiT、Swin/SwinV2、DETR在内的Transformer模型,在DINOv2也达到30帧以上运行结果,这也使得用户在下游进行检测、分类、分割等操作更加方便,落地更加现实。基于AX650N的产品也已经在智慧城市,智慧教育,智能制造等计算机视觉重要领域发挥出重要作用。
接下来,爱芯元智AX650N将会针对Transformer结构进行持续优化,包括如何对离散型数据实现较高的读取、如何让计算与数据读取匹配、使用INT4来解决大参数量模型、具备稀疏化支持能力和更好的量化精度等等,并且探索更多的Transformer大模型,例如多模态大模型,不断让Transformer在爱芯元智平台上得到更好的落地效果。值得一提的是,爱芯元智还将推出开发板,满足开发者对Transformer深度研究的需求,探索更丰富的产品应用。
“好用”、“易用”、“愿用”,是爱芯元智对Transformer结构落地AX650N平台的定位,而为客户搭建一个足够好用易用的平台成为企业核心目标。为此,在芯片整体架构方面,设计团队采用了异构多核的设计思路,允许特定内核具有可编程性;考虑到有些网络对数据的需求量比较大,在架构上提前做了一些预留;开发工具方面保留标准接口等等。从目前得到的反馈来看,在开发板、文档齐备的情况下,客户只需约一小时就能完成Demo模型的运行。
“在我们与客户的实际接触中,他们最担心两点:一是模型精度从训练到部署有没有失真;二是私有的原版模型在计算平台上能不能直接部署跑起来。”爱芯元智相关负责人说,这就要求芯片公司能在软硬件设计、开发工具、场景适配、灵活性、易用性等多个领域保持优势。
“未来,爱芯元智将在成为人工智能算力平台型公司的道路上继续探索,加速基于Transformer的大模型在端侧、边缘侧落地的节奏,让普惠智能真正落地生根,开花结果。”爱芯元智创始人、CEO仇肖莘女士表示。