Transformer 模型正在风靡 AI 世界,超级智能聊天机器人和搜索查询以及图像和艺术生成器都证明了这一点。它们也基于神经网络技术,但编程的方式与更常见的卷积方法截然不同。现在,Transformer 开始进入边缘应用。一个非常明确的诱因是这些方法普遍应用于以下各种应用:ViT(视觉转换器)、音频和自然语言处理 (NLP),与传统的基于 CNN/RNN 的模型更受限制的应用不同。OEM 已发现基于单一计算平台来满足多种需求(从 ADAS 的行人检测到信息娱乐应用基于语音的控制)所带来的明显的成本、培训以及维护优势。视觉转换器网络的有效性是任何替代策略中的关键测试,因为基于 CNN 的视觉已经很成熟,尽管仅限于预定义的模式。
对系统构建者来说,额外的诱因在于过去几年中大量的 Transformer 研究,且其功能已经取得了非常迅速的进步。除此之外,还有迹象表明这些系统可能适合自我监督学习,就像我们在大型语言模型 (LLM) 中看到的那样,很明显,这就是为什么系统 OEM 迫切需要跟上这一趋势的原因。
(资料来源:CEVA)
没有人预测卷积模型 (CNN) 会走到尽头。从家庭自动化到汽车和工业应用等诸多应用领域中,这些模型已经非常成熟。但在新兴应用领域,它们的通用性不如 Transformer。围绕明确的技术领先者制定 10 年产品开发计划(包括 Transformer 选项),同时仍然保留 CNN 以用于其已经得到充分证明的应用领域,是一个明显的优势。
全球边缘计算市场之前预计在 2022 年达到 447 亿美元,并预测到 2030 年之前以 17.8% 的复合年增长率增长到超过 1400 亿美元。这为边缘 AI 系统构建者提供了巨大的机遇,但鉴于边缘应用的多样性,除非他们能在一个通用的计算平台下统一大部分开发工作,否则这也是一个挑战。目前已经有一些视觉和语言 Transformer 边缘应用,而且越来越多的 Transformer 正迁移到边缘,例如,Qualcomm 最近宣布对开源 Llama2 语言模型提供设备上的支持,与 OpenAI 的 GPT4 展开竞争。这表明对于战略 OEM 领导者来说,机会已经成熟。
我们通常听到的基于云的 Transformer 模型非常庞大,不适合边缘部署。实用的边缘模型要小得多,但是,就像 CNN 模型一样,必须对其进行压缩,才能在可接受的功率范围内提供有效的性能。然而,Transformer 加速器结构与卷积结构有很大不同,需要采用不同的压缩方法。
CEVA 有幸与 CERN 合作,对大型强子对撞机 (LHC) 中使用的 CMS 探测器中的粒子射流探测神经网络进行原型设计。在我们的联合研究中,我们评估了 CNN 和基于 Transformer 的模型。此应用需要超低延迟,因此需要采用高效的模型才能避免丢失事件。为实现该目标,我们的联合研究提出了一种基于数学的模型精简和量化方法。
量化(用 16 位、8 位甚至 4 位固定小数点取代浮点运算)是 CNN 优化中的一种常见方法。精简方法可识别许多冗余或对网络性能贡献很小的网络参数,因此能够有选择性地删除不必要的连接或参数。
通常,固定的硬件平台限制了这种调优选项。我们的研究允许通过在每一层进行 AI 处理器调优和 Transformer 模型调优来实现软件/硬件协同优化,并尽可能实现最佳性能。我们根据对各种计算机视觉和自然语言处理基准的评估得出结论,这种优化方法优于现有的最先进方法,可在压缩率和性能之间实现完美的平衡。
(资料来源:CEVA)
CERN 论文还指出,使用这种原则性协同优化技术,可以在日常边缘设备中发挥最先进的性能,并满足其低延迟和低功耗等运行要求。很明显,沿着这些思路构建的 Transformer 模型可以提供与基于 CNN 的系统相媲美的性能,或者更适用于大型数据集。研究表明,这种系统也可能更不容易受失真和攻击影响,这要归功于它们使用的全局注意力机制。使用自我监督学习 (SSL) 的应用也非常有前景,例如预测图像的被遮挡部分可能有什么或用自然背景替换抢镜对象。
在音频领域,人们已经在更通用的声场分析方面开展积极研究,用于识别重要的声音和语音(例如将语音转换为文本)以及语音合成。基于 Transformer 的自然语言处理已经被广泛认可为是一项重大进步,并且在语音识别之后自然而然地发展起来。想象一下,在无需连接到云端的前期下,您能够在边缘设备中获取部分主体功能甚至是全部功能!
在未来十年不断寻求智能边缘应用的竞争优势的过程中,产品 OEM 需要兼顾性能调优选项的灵活性和基础计算平台的稳定性,而不是依赖于切换 NPU 核心架构或培训来跟上不断变化的市场需求。Transformer 模型与可扩展、可配置的 NPU 硬件的协同优化可确保这种灵活性和稳定性。这相当划算。