Transformer大模型面世之后,场景应用的AI智能边际成本会大幅降低,因为它不太需要再为这些长尾的场景做专门的适配,预训练的大模型凭借“足够强的学习和推理能力”、“足够宽的知识领域”,一经部署就能达到比较好的效果,从而推动AI在端侧和边缘侧更大范围内的普及和提升。 

Transformer是当前各种大模型所采用的主要结构。从技术角度看,ChatGPT的爆发是深度学习领域演进、发展和突破的结果,背后代表着Transformer结构下大模型技术的飞速进展。

AI新范式拐点的到来

类似ChatGPT的大模型,其核心网络结构均基于Google 2017年的论文提出的Transformer的论文《Attention Is All You Need》。爱芯元智将其称之为“新范式拐点的到来”,认为Transformer大模型虽然本质上是一个预训练的模型,但却改变了传统的开发范式,因为它将构成复杂系统的三部分(如下)中的模型系统的使用成本大幅度降低。数字系统或是复杂场景,都可以分为三大部分:

  • “信息”系统(subsystem of information),从环境当中获得信息;
  • “模型”系统(subsystem of model),对信息做一种表达,进行推理和规划;
  • “行动”系统(subsystem of action),我们最终和环境做交互,达到人类想达到的目的。

“2022-2023年的拐点是什么?是大模型的出现让获取知识的边际成本开始变成固定成本。”奇绩创坛创始人兼CEO陆奇在4月的一次演讲中称,“一定要记住,任何改变社会、改变产业的,永远是结构性改变。这个结构性改变往往是一类大型成本,从边际成本变成固定成本。”

他举例说,自己在美国读书时,一张地图3美元,获取信息很贵。但后来,Google平均一年付10亿美元做一张地图,每个用户获得地图信息的代价基本上是0。也就是说,当获取信息成本变为0的时候,它一定改变了所有产业。这就是过去20年发生的,今天基本是free information everywhere(免费的信息无处不在)。

而ChatGPT能在历史上第一次两个月1亿活跃用户,挡都挡不住,为什么?因为,

1. 它封装了世界上所有知识。

2. 它有足够强的学习和推理能力。

3. 它的领域足够宽,知识足够深,又足够好用。

加在一起,范式的临界点到了,拐点已经到来。

边缘侧部署Transformer为什么难?

近几年Transformer大有取代卷积神经网络(CNN)之势,因为它可以获取全局特征,有一定的知识迁移性,能够很好地适应各种场景,不仅在COCO榜单上处于霸榜状态,很多以CNN为主的框架也已经切换到了Transformer。

目前来看,Transformer大模型在云端主要还是通过GPU部署,在边缘侧、端侧硬件支撑方面,则更多依赖NPU实现对神经网络的加速。“这倒不是指CPU不能运行Transformer模型,只是它的运行速度无法满足实际应用落地需求。”爱芯元智联合创始人、副总裁刘建伟表示,之所以要强调速度,一是神经网络速度快,意味着终端设备可以运行更多类型的智能网络,更智能;二是即便不需要跑那么多类型的网络,那么某种程度上就可以把神经网络规模做大,提高精度。

另一方面,尽管CNN和Transformer都属于神经网络,但Transformer的计算访存比比CNN低,精度和灵活度高,而此前市面上的一些NPU主要针对CNN网络做了一些过拟合的设计,导致在部署Transformer网络时遇到了功耗、效率等诸多问题,现在需要找到合适的新算力平台,并在算法侧找到能降低大参数模型带宽的新途径。近年来Transformer被广泛应用到计算机视觉的物体分类领域,例如ViT、SwinT等,以及用在目标检测领域的DETR(DEtection TRansformer)。

其实,Transformer大模型方向在2019年就有人提出,当时在思路和训练方法上与传统CNN也并无太大差别,只知道“上限更高”。但近两年,随着自然语言处理(NLP)领域的突飞猛进,大模型通过无监督或是自监督的方式进行训练,正成为AI领域新的趋势。

爱芯元智在研发实践中发现,在以往的AI加速应用中,标准化的人、车、车牌类识别应用做得很好,但在一些更加通用的场景中,落地之所以不那么顺利,是因为它需要用户做更加有针对性的投入,且费用不低。而Transformer大模型面世之后,场景应用的AI智能边际成本会大幅降低,因为它不太需要再为这些长尾的场景做专门的适配,预训练的大模型凭借“足够强的学习和推理能力”、“足够宽的知识领域”,一经部署就能达到比较好的效果,从而推动AI在端侧和边缘侧更大范围内的普及和提升。 

以河道垃圾监测为例:当河道上出现了一种垃圾,传统流程是采集数据—标注—训练,如果突然出现一种新的垃圾品类,是之前数据标注/训练没有覆盖的,系统就无法识别,就必须重新采集。但有了采用无监督训练的大模型之后,无论出现什么样新类型的垃圾,系统都能自主推理和判断。

高能、低耗、易部署

如前文所述,如何在端侧、边缘侧高效部署Transformer正成为用户选择平台的核心考量。作为人工智能视觉感知芯片研发及基础算力平台公司,爱芯元智在今年3月正式推出的第三代高算力、高能效比的SoC芯片AX650N,为行业探索Transformer在端侧、边缘侧落地方面做出了有益的尝试。

AX650N是一款兼具高算力与高能效比的SoC芯片,集成了八核A55 CPU,43.2TOPs@INT4或10.8TOPs@INT8高算力的NPU,支持8K@30fps的ISP,以及H.264、H.265编解码的VPU。接口方面,AX650N支持64bit LPDDR4x,多路MIPI输入,千兆Ethernet、USB以及HDMI 2.0b输出,并支持32路1080p@30fps解码。

计算机视觉类是AX650N的核心应用目标之一。但是到目前为止,在计算机视觉建模一直由CNN主导,基于Transformer结构的网络模型长时间停留在各大顶级会议的“刷榜”阶段,真正大规模落地并不突出。直到ICCV 2021的最佳论文《Swin Transformer》才达到了准确率和性能双佳的效果。

同时,类似Swin Transformer的视觉类Transformer网络模型大多数还是部署在云端服务器上,原因是GPU对于MHA结构计算支持更友好,反而边缘侧/端侧AI芯片由于其架构限制,为了保证CNN结构的模型效率更好,基本上对MHA结构没有过多性能优化,甚至需要修改网络结构才能勉强部署。这也间接限制了算法工程师在边缘计算应用上进一步发挥Transformer网络的想象力。

实测数据显示,目前大众普遍采用的Transformer网络SwinT,在爱芯元智AX650N平台表现出色:361 FPS的高性能、80.45%的高精度、199FPS/W的低功耗以及原版模型且PTQ量化的极易部署能力,都让AX650N在Transformer的落地中有着领先的优势地位。

具体来看,361帧的高性能可媲美汽车自动驾驶领域基于GPU的高端域控SoC;而80.45%的高精度成绩同样高于市面平均水平;199 FPS/W的速度也充分体现出低功耗的特点,对比于目前基于GPU的高端域控SoC有着数倍的优势。

更为重要的,AX650N部署方便,GitHub上的原版模型可以在爱芯元智的平台上高效运行,不需要对模型做修改,不需要QAT重新训练。与此同时,AX650N支持低比特混合精度,用户如果采用INT4,可以极大地减少内存和带宽占用率,可以有效控制端侧边缘侧部署的成本。这些特性都保证了AX650N作为人工智能算力平台,最终落地效果更好用、更易用,大幅提升了用户的效率。

目前,AX650N已适配包括ViT/DeiT、Swin/SwinV2、DETR在内的Transformer模型,在DINOv2也达到30帧以上运行结果,这也使得用户在下游进行检测、分类、分割等操作更加方便,落地更加现实。基于AX650N的产品也已经在智慧城市,智慧教育,智能制造等计算机视觉重要领域发挥出重要作用。

接下来,爱芯元智AX650N将会针对Transformer结构进行持续优化,包括如何对离散型数据实现较高的读取、如何让计算与数据读取匹配、使用INT4来解决大参数量模型、具备稀疏化支持能力和更好的量化精度等等,并且探索更多的Transformer大模型,例如多模态大模型,不断让Transformer在爱芯元智平台上得到更好的落地效果。值得一提的是,爱芯元智还将推出开发板,满足开发者对Transformer深度研究的需求,探索更丰富的产品应用。

“好用”、“易用”、“愿用”,是爱芯元智对Transformer结构落地AX650N平台的定位,而为客户搭建一个足够好用易用的平台成为企业核心目标。为此,在芯片整体架构方面,设计团队采用了异构多核的设计思路,允许特定内核具有可编程性;考虑到有些网络对数据的需求量比较大,在架构上提前做了一些预留;开发工具方面保留标准接口等等。从目前得到的反馈来看,在开发板、文档齐备的情况下,客户只需约一小时就能完成Demo模型的运行。

“在我们与客户的实际接触中,他们最担心两点:一是模型精度从训练到部署有没有失真;二是私有的原版模型在计算平台上能不能直接部署跑起来。”爱芯元智相关负责人说,这就要求芯片公司能在软硬件设计、开发工具、场景适配、灵活性、易用性等多个领域保持优势。

“未来,爱芯元智将在成为人工智能算力平台型公司的道路上继续探索,加速基于Transformer的大模型在端侧、边缘侧落地的节奏,让普惠智能真正落地生根,开花结果。”爱芯元智创始人、CEO仇肖莘女士表示。

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
新款开发板售价仅为249美元,而上一代40 TOPS开发板售价为499美元,价格仅为上一代的一半。这使得Jetson Orin Nano Super成为“世界上最经济实惠的生成式AI计算机”,特别适合商业AI开发者、爱好者和学生使用。
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
近年来,AWS还积极投资于人工智能(AI)、机器学习(ML)、大数据分析和边缘计算等前沿技术,以保持其在这些领域的竞争优势。
通过机器学习技术,EDA工具可以获取更精确的模型来预测设计中存在的问题,如布线拥塞、信号干扰、热效应等,从而为用户提供更准确快速的指导,避免后期返工。
这一新规则可能会引起美国在世界各地的合作伙伴和盟友的重大担忧,以及一些国家的不满,担心美国会充当单方面仲裁者,决定谁可以获得对AI至关重要的先进芯片。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
今日,长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办,长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言,厂房建设一般主要分为四个阶段:设备选型、设
来源:苏州工业园区12月17日,江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来,专注于半导体掩膜版的研发与生产,掌握130nm至28n
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
有博主基于曝光的信息绘制了iPhone 17系列渲染图,对比iPhone 16系列,17系列最大变化是采用横置相机模组,背部DECO为条形跑道设计,神似谷歌Pixel 9系列,这是iPhone六年来的
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
今天上午,联发科宣布新一代天玑芯片即将震撼登场,新品会在12月23日15点正式发布。据悉,这场发布会联发科将推出全新的天玑8400处理器,这颗芯片基于台积电4nm制程打造,采用Arm Cortex A
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播
亲爱的企业用户和开发者朋友们距离2024 RT-Thread开发者大会正式开幕仅剩最后3天!还没报名的小伙伴,抓紧报名噢,12月21日不见不散!大会时间与地点时间:2024年12月21日 9:30-1