2025自动驾驶最大技术「黑马」:AI论文高引TOP3,比Transformer快2.8倍,内存节省86.8%

原创 智能车参考 2025-01-11 12:08
贾浩楠 发自 副驾寺
智能车参考 | 公众号 AI4Auto

现在最前沿、最被学界追捧、被产业界寄予厚望的自动驾驶技术,是什么?

地平线创始人余凯博士最新的朋友圈揭晓了答案:

Vision Mamba,全球年度AI论文高引TOP 3,也被认为是Transformer最强挑战者——Mamba架构在视觉领域的“飞跃式”进展

背后核心团队,和端到端开山之作UniAD一样,来自华中科技大学地平线的联合。

Vision Mamba,行业高引热议

Vision Mamba首发于机器学习顶会ICML 2024,截至目前根据谷歌学术的数据,一共被引用865次

横向来看,2024一整年内arxiv一共收录了超过40000篇AI相关论文,而其中被引用次数最高的是Meta的Lama 3,被称为“阻击GPT4”的最强开源大模型,它的引用次数为1690次。

第二名引用次数超过1100次,是来自Mixstral AI的Mixstral 8x7B模型。

Vision Mamba位列Top 3。

目前在Github上Vision Mamba项目已经收获3100星:

同时也引起了热议并获得极高评价。

比如有很多AI学者在Medium上发文解析Vision Mamba,给予的评价包括但不限于:“视觉表征学习的最新飞跃”、“比ViT(ransformer)更强”等等。

有人认为Vision Mamba会改变整个计算机视觉的游戏规则,因为Vision Mamba迭代更快、模型更小、计算资源占用更小,同时还有不可思议的高性能…

甚至有人认为,ChatGPT(ransfoemer),以后说不定会被ChatGPM(amba)取代:

当然也有人提出客观质疑,比如Vision Mamba终极价值考量应该是能否扩张到万亿参数、后续能否支持多模态:

为什么Vision Mamba本身能在1年时间内快速成为被频繁引用成果,并同时引起广泛讨论,其实已经有网友一针见血:

从纯技术角度看,Mamba架构首次应用到大语言模型,就震撼了整个NLP领域。

而Vision Mamba,则是业内首个Mamba架构在计算机视觉领域的通用主干网络模型

Vision Mamba厉害在哪?

搞明白Vision Mamba厉害在哪的前提,还需要快速科普一下被称为Transformer终结者的Mamba架构。

2023年底,Mamba架构由FlashAttention作者Tri Dao和CMU助理教授、Cartesia AI联合创始人及首席科学家Albert Gu在去年年底提出:

初衷是为了解决Transformer架构大模型的痛点:处理长文本算力消耗巨大,因为Transformer的关键操作机制包括先用查询向量和键向量相乘得到nxn的矩阵,再对得到的矩阵归一化,最后在乘以分数

所以复杂度主要取决于输入序列长度,且是2次方指数关系:

Mamba核心能力来自状态空间模型(SSM)的一个变种S4,通过状态变量对动态系统进行建模,能够捕捉系统状态随时间的变化以及观察到的数据与这些状态之间的关系,不再依赖线性输入。

Mamba其实是将SSM集成进了一个简化的端到端神经网络架构中,不需要注意力机制,甚至也不需要MLP(多层感知器)模块,快速推理方面表现出色(比Transformers高5倍的处理速度),并且随着序列长度的增加,其性能线性增长,在处理长达百万长度的序列时表现更佳。

自然而然,Mamba在视觉领域的应用被高度关注。但由于 Mamba 特有的架构,需要解决两个挑战,即单向建模和缺乏位置感知。

为了应对这些问题,研究者提出了 Vision Mamba (VIM) 块,它结合了用于数据依赖的全局视觉上下文建模的双向 SSM 和用于位置感知视觉识别的位置嵌入。

Vision Mamba的基本框架是这样:

首先将图片变成一个个图块,并神经网络的Flatten(2D变1D)以及映射方式将其变成向量,并加上位置嵌入。而最后放入VIM块中即完成。

应该也发现了,这个架构中最重要的就是这个Vision Mamba block!

让我们简单看看这个块具体有啥用。

VIM编码器结构是这样:

大致上与Mamba本身相同,但仍有创新。

因为原生的Mamba本身是为了处理文字,只能处理一维向量的序列。但是在视觉任中,模型需要具备空间感知理解的能力。

因此研究团队在模型中加入双向SSM,从图像的不同方向捕捉信息,提供更全面的空间采集能力。

而演算具体进行流程如下:

此外,VIM块中的位置嵌入提供了对空间信息的感知,使VIM在密集预测任务中具有更强的鲁棒性。

以往基于SSM的方法会用傅立叶转换加速卷积,但在Mamba 模型中,并非每个部分都会与卷积等价(如算法 1 第 11 行),并不能用同样的方式实现加速。

所以作者提出了三个用于加速的方法

首先是IO 效率。在GPU里面有HBM 与 SRAM 两个重要的元件,而这部分的加速主要是减少从 HBM 到 SRAM 的 IO 过程。

第二是内存效率,意思是使用训练到一半的中间状态来计算中间值,思路与原生Mamba相同。

最后是计算效率,可以用一张图、一切两行式子说明:

其实不难发现,Vision Mamba的基本思路不复杂,就是将传统的 ViTs 中Transformer主导的注意模力块换成Mamba主导的VIM块,并以此做相应的适配处理。

有点像张无忌,吸收各派武功精髓,融汇贯通成自家绝学。

在 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务上,与 DeiT 等成熟的视觉 Transformers 相比,VIM实现了更高的性能,同时还显著提高了计算和内存效率。

例如,在对分辨率为 1248×1248 的图像进行批量推理提取特征时,VIM 比 DeiT 快 2.8 倍,并节省 86.8% 的 GPU 内存:

总结一下,Vision Mamba突破之处,在于利用双向状态空间模型 (SSM) 进行全局视觉上下文建模和位置嵌入,标志着对传统注意力机制路径依赖的突破。

这种方法同时实现了算法对视觉数据的位置上下文的掌握理解,以及对计算资源的高效利用。

正是因为Vision Mamba展现出的特性,才让它有希望彻底改变实时视频数据分析和大规模图像处理等任务——也就是自动驾驶的核心挑战。

团队介绍

本文共同一作朱良辉廖本成,都是华中科技大学电子信息与通信学院博士生在读。

Qian Zhang和Xinlong Wang 则分别来自地平线和北京智源研究院。

本文通信作者王兴刚博士,是一作朱良辉、廖本成的导师,国内计算机视觉领域近年冉冉升起的学术新星。

王兴刚主要从事基础模型、视觉表征学习、目标检测分割跟踪等领域研究、在IEEE TPAMI、IJCV、CVPR、ICCV、NeurIPS等顶级期刊会议发表学术论文60余篇,谷歌学术引用2.7万余次,入选Elsevier 2023中国高被引学者。担任CVPR, ICCV, ICIG等会议领域主席等等。

被誉为端到端视觉大模型源流,深刻影响国内、全球自动驾驶技术、商业发展的UniAD,一作同样出自王兴刚博士的Vision lab团队,也同样是和地平线、商汤这样的顶尖AI玩家合作成果。

其实,Mamba架构应用在视觉领域有不少尝试,但Vision Mamba的是首个通用型架构,意义不止自动驾驶。

它展现的思路和优秀性能,可能鼓励全AI行业探索神经网络架构的进一步升级创新,尤其是对于专门的数据类型。

从这个角度看,从之前的UniAD到现在的Vision Mamba,华科、地平线在计算机视觉、自动驾驶领域已经走到最前沿,接连实现硬核技术的开天辟地,以及成果快速转化落地。

论文地址:https://arxiv.org/abs/2401.09417

Github项目地址:https://github.com/hustvl/Vim

— 联系作者 —

智能车2024年度评选结果

在经过广泛征集、专业推荐,以及智能车参考垂直社群的万人票选后,智能车2023年度评选结果正式发布。涵盖三类奖项:

· 十大智能车领军人物

· 十大智能车车型

· 十大智能车技术方案/产品

在汽车工业迎来百年未有之大变局时,我们希望能以此提供智能维度的参考和注脚。

其中,十大智能车技术方案/产品是:

<< 左右滑动查看更多>>

—  —

智能车参考】原创内容,未经账号授权,禁止随意转载。

点这里👇关注我,记得标星,么么哒~

智能车参考 在这里读懂智能汽车变革
评论
  • 1月9日,在2025国际消费电子展览会(CES)期间,广和通发布集智能语音交互及翻译、4G/5G全球漫游、随身热点、智能娱乐、充电续航等功能于一体的AI Buddy(AI陪伴)产品及解决方案,创新AI智能终端新品类。AI Buddy是一款信用卡尺寸的掌中轻薄智能设备,为用户带来实时翻译、个性化AI语音交互助手、AI影像识别、多模型账户服务、漫游资费服务、快速入网注册等高品质体验。为丰富用户视觉、听觉的智能化体验,AI Buddy通过蓝牙、Wi-Fi可配套OWS耳机、智能眼镜、智能音箱、智能手环遥
    物吾悟小通 2025-01-09 18:21 85浏览
  • 车机导航有看没有懂?智能汽车语系在地化不可轻忽!随着智能汽车市场全球化的蓬勃发展,近年来不同国家地区的「Automotive Localization」(汽车在地化)布局成为兵家必争之地,同时也是车厂在各国当地市场非常关键的营销利器。汽车在地化过程中举足轻重的「汽车语系在地化」,则是透过智能汽车产品文字与服务内容的设计订制,以对应不同国家地区用户的使用习惯偏好,除了让当地车主更能清楚理解车辆功能,也能进一步提高品牌满意度。客户问题与难处某车厂客户预计在台湾市场推出新一代车款,却由于车机导航开发人
    百佳泰测试实验室 2025-01-09 17:47 62浏览
  • 职场是人生的重要战场,既是谋生之地,也是实现个人价值的平台。然而,有些思维方式却会悄无声息地拖住你的后腿,让你原地踏步甚至退步。今天,我们就来聊聊职场中最忌讳的五种思维方式,看看自己有没有中招。1. 固步自封的思维在职场中,最可怕的事情莫过于自满于现状,拒绝学习和改变。世界在不断变化,行业的趋势、技术的革新都在要求我们与时俱进。如果你总觉得自己的方法最优,或者害怕尝试新事物,那就很容易被淘汰。与其等待机会找上门,不如主动出击,保持学习和探索的心态。加入优思学院,可以帮助你快速提升自己,与行业前沿
    优思学院 2025-01-09 15:48 112浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2025-01-09 09:58 94浏览
  • HDMI 2.2 规格将至,开启视听新境界2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新HDMI规范为规模庞大的 HDMI 生态系统带来更多选择,为创建、分发和体验理想的终端用户效果提供更先进的解决方案。新技术为电视、电影和游戏工作室等内容制作商在当前和未来提供更高质量的选择,同时实现多种分发平台。96Gbps的更高带宽和新一代 HDMI 固定比率速率传输(Fixed Rate Link)技术为各种设备应用提供更优质的音频和视频。终端用户显示器能以最
    百佳泰测试实验室 2025-01-09 17:33 132浏览
  • 一个真正的质量工程师(QE)必须将一件产品设计的“意图”与系统的可制造性、可服务性以及资源在现实中实现设计和产品的能力结合起来。所以,可以说,这确实是一种工程学科。我们常开玩笑说,质量工程师是工程领域里的「侦探」、「警察」或「律师」,守护神是"墨菲”,信奉的哲学就是「墨菲定律」。(注:墨菲定律是一种启发性原则,常被表述为:任何可能出错的事情最终都会出错。)做质量工程师的,有时会不受欢迎,也会被忽视,甚至可能遭遇主动或被动的阻碍,而一旦出了问题,责任往往就落在质量工程师的头上。虽然质量工程师并不负
    优思学院 2025-01-09 11:48 130浏览
  • 在当前人工智能(AI)与物联网(IoT)的快速发展趋势下,各行各业的数字转型与自动化进程正以惊人的速度持续进行。如今企业在设计与营运技术系统时所面临的挑战不仅是技术本身,更包含硬件设施、第三方软件及配件等复杂的外部因素。然而这些系统往往讲究更精密的设计与高稳定性,哪怕是任何一个小小的问题,都可能对整体业务运作造成严重影响。 POS应用环境与客户需求以本次分享的客户个案为例,该客户是一家全球领先的信息技术服务与数字解决方案提供商,遭遇到一个由他们所开发的POS机(Point of Sal
    百佳泰测试实验室 2025-01-09 17:35 131浏览
  • 在过去十年中,自动驾驶和高级驾驶辅助系统(AD/ADAS)软件与硬件的快速发展对多传感器数据采集的设计需求提出了更高的要求。然而,目前仍缺乏能够高质量集成多传感器数据采集的解决方案。康谋ADTF正是应运而生,它提供了一个广受认可和广泛引用的软件框架,包含模块化的标准化应用程序和工具,旨在为ADAS功能的开发提供一站式体验。一、ADTF的关键之处!无论是奥迪、大众、宝马还是梅赛德斯-奔驰:他们都依赖我们不断发展的ADTF来开发智能驾驶辅助解决方案,直至实现自动驾驶的目标。从新功能的最初构思到批量生
    康谋 2025-01-09 10:04 108浏览
  • Snyk 是一家为开发人员提供安全平台的公司,致力于协助他们构建安全的应用程序,并为安全团队提供应对数字世界挑战的工具。以下为 Snyk 如何通过 CircleCI 实现其“交付”使命的案例分析。一、Snyk 的挑战随着客户对安全工具需求的不断增长,Snyk 的开发团队面临多重挑战:加速交付的需求:Snyk 的核心目标是为开发者提供更快、更可靠的安全解决方案,但他们的现有 CI/CD 工具(TravisCI)运行缓慢,无法满足快速开发和部署的要求。扩展能力不足:随着团队规模和代码库的不断扩大,S
    艾体宝IT 2025-01-10 15:52 82浏览
  • 在智能网联汽车中,各种通信技术如2G/3G/4G/5G、GNSS(全球导航卫星系统)、V2X(车联网通信)等在行业内被广泛使用。这些技术让汽车能够实现紧急呼叫、在线娱乐、导航等多种功能。EMC测试就是为了确保在复杂电磁环境下,汽车的通信系统仍然可以正常工作,保护驾乘者的安全。参考《QCT-基于LTE-V2X直连通信的车载信息交互系统技术要求及试验方法-1》标准10.5电磁兼容试验方法,下面将会从整车功能层面为大家解读V2X整车电磁兼容试验的过程。测试过程揭秘1. 设备准备为了进行电磁兼容试验,技
    北汇信息 2025-01-09 11:24 111浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球中空长航时无人机产值达到9009百万美元,2024-2030年期间年复合增长率CAGR为8.0%。 环洋市场咨询机构出版了的【全球中空长航时无人机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球中空长航时无人机总体规模,包括产量、产值、消费量、主要生产地区、主要生产商及市场份额,同时分析中空长航时无人机市场主要驱动因素、阻碍因素、市场机遇、挑战、新产品发布等。报告从中空长航时
    GIRtina 2025-01-09 10:35 116浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦