谷歌提出「卷积+注意力」新模型,超越ResNet最强变体!

OpenCV学堂 2021-06-28 17:01

点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 量子位 授权

Transformer跨界计算机视觉虽然已取得了一些不错的成绩,但大部分情况下,它还是落后于最先进的卷积网络。

现在,谷歌提出了一个叫做CoAtNets的模型,看名字你也发现了,这是一个Convolution + Attention的组合模型。

该模型实现了ImageNet数据集86.0%的top-1精度,而在使用JFT数据集的情况下实现了89.77%的精度,性能优于现有的所有卷积网络和Transformer!

卷积结合自注意,更强的泛化能力和更高的模型容量

他们是如何决定将卷积网络和Transformer结合起来造一个新模型呢?

首先,研究人员发现,卷积网络和Transformer在机器学习的两个基本方面——泛化和模型容量上各具优势。

由于卷积层有较强的归纳偏置(inductive bias),所以卷积网络模型具有更好的泛化能力和更快的收敛速度,而拥有注意机制的Transformer则有更高的模型容量,可以从大数据集中受益。

那将卷积层和注意层相结合起来,不就可以同时获得更好的泛化能力和更大的模型容量吗!

那好,关键问题来了:如何有效地将它们结合起来,并在准确性和效率之间实现更好的平衡?

研究人员又发现,常见的深度卷积(depthwise convolution)只需简单的相对注意就可以合并进注意力层!

因此,他们将CoAtNets的实现分为两步:

1、将卷积和自注意结合在一个基本计算块中;

2、将不同类型的计算块垂直堆叠在一起(垂直布局设计),形成完整的网络。

具体实现

首先,由于Transformer和MBConv中的FFN模块都采用了“反向瓶颈”的设计,加上深度卷积和自我注意都可以用预定义的感受野中的加权和来表示,CoAtNets主要采用MBConv卷积块

具体来说,卷积依赖于一个固定核从局部感受野收集信息:

相比之下,自注意允许感受野成为整个空间位置,并基于对(xi,xj)之间的重归一化成对相似性来计算权重:

将它们以最佳形式结合之前,研究人员比较了一下两者各自的理想特性。

一个结合深度卷积和自注意的理想模型需要具备以上3个特性,而研究人员的实现方法很简单:在Softmax归一化前或后,将全局静态卷积核自适应注意矩阵求和。

将卷积和注意力结合起来之后,就可以开始堆叠整个网络。

全局上下文在空间大小(spatial size)方面具有二次复杂性,如果直接将上述公式中的相对注意应用到原始图像输入,会因为普通尺寸图像中过多的像素,导致计算速度过慢

因此,要构建一个在实际操作中可行的模型,研究人员选择在feature map达到可管理水平后,进行一些下采样以减小空间大小,再使用全局相对注意。

其中下采样可以像ViT那样用具有积极步幅(stride,例如16x16) convolution stem或像ConvNets里具有渐进池的多级网络来实现。

研究人员按照上面两种方法堆叠出5个变体:C-C-C-C、C-C-C-T、C-C-T-T和C-T-T-T以及ViT,其中C和T分别表示卷积和Transformer。

为了作出选择,他们进行了对照实验,选出了泛化能力和模型容量最好的两个:C-C-T-T和C-T-T-T,优中选优,最终选择了迁移性能更好的C-C-T-T

至此,完整的CoAtNets模型就实现了。

NO.1的top-1精度

其实,将卷积和自注意相结合用于计算机视觉的想法并不新鲜,但此前的一些方法通常会带来额外的计算成本等问题。

而他们的相对注意实例化是深度卷积和基于内容的注意力的自然结合,加上优中选优的垂直布局设计,新模型CoAtNets造成的额外成本最小

下面就来看具体的实验数据:

仅使用ImageNet-1K数据集的实验结果表明:CoAtNet不仅优于ViT变体,还能匹敌最佳的仅卷积结构(EfficientNet-V2和nfnet)

从上表和下图还可以看出:使用ImageNet-21K进行预训练,CoAtNet的优势变得更加明显,大大优于以前的所有模型。

且最好的CoAtNet变体实现了88.56%的top-1精度,而与之匹敌的ViT-H/14则需要在23倍大的JFT数据集上预先训练2.3倍规模的ViT才能达到88.55%的成绩。

这标志着CoAtNet模型数据效率和计算效率的显著提高。

 ImageNet-21K ⇒ImageNet-1K 的参数精度

最后,研究人员用JFT进一步评估了大规模数据集下的CoAtNet,发现它达到89.77%精度,超过ResNet最强变体NFNet-F4+排名第一,同时在TPU训练时间和参数计数方面提高了2倍效率。

论文地址:https://arxiv.org/abs/2106.04803
扫码查看OpenCV/Pytorch/OpenVINO视频教程

 推荐阅读 

大道至简 | CV系统化学习路线图发布了!

Pytorh轻松学系列 - 视频课程版本发布了!

OpenCV4 C++学习 必备基础语法知识三

OpenCV4 C++学习 必备基础语法知识二


OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论 (0)
  • 4月15日,京东全球购迎来十周年生日。为了回馈广大用户十年来的支持与信赖,早在4月初,京东全球购就已率先开启十周年庆典活动,为消费者带来了一场消费盛宴。来自全球各地的进口好物,以全场进口大牌1元抢、爆品低至5折、跨店每满200减30的优惠价格被呈现在消费者面前。同时,在迎来十周年庆典之际,京东全球购还宣布,未来一年,将投入亿级资源,升级四大商家扶持举措,包括提供仓配和流量等多项补贴,推出扶持新品、新商家等举措,助力更多进口商家降本提效,在京东获得可持续、高质量成长。十年如一日 打造跨境购物首选平
    华尔街科技眼 2025-04-16 16:18 151浏览
  • 二、芯片的设计1、芯片设计的基本流程 (1)需求定义: 明确芯片功能(如处理器、存储、通信)、性能指标(速度、功耗、面积)及目标应用场景(消费电子、汽车、工业)。 (2)架构设计: 确定芯片整体框架,包括核心模块(如CPU、GPU、存储单元)的协同方式和数据流路径。 (3)逻辑设计: 通过硬件描述语言(如Verilog、VHDL)将架构转化为电路逻辑,生成RTL(寄存器传输级)代码。 (4)物理设计: 将逻辑代码映射到物理布局,涉及布局布线、时序优化、功耗分析等,需借助EDA工具(如Ca
    碧海长空 2025-04-15 11:30 272浏览
  • 一、引言:健康管理数字化浪潮下的血压监测转型在慢性病高发与老龄化加剧的双重压力下,家庭健康监测设备正从“被动测量工具”向“主动健康管家”演进。传统血压计虽能提供基础数值,却无法解决用户的核心痛点:数据如何解读?异常如何干预?风险如何预防?WT2605C芯片方案的诞生,通过“AI对话+云端互联+个性化服务”三重技术突破,重新定义了血压计的价值边界——它不仅是一台测量仪器,更是一个全天候在线的健康管理生态系统。二、传统血压计的局限与用户需求升级1. 功能单一性困境数据孤岛:仅显示收缩压/舒张压数值,
    广州唯创电子 2025-04-16 08:55 197浏览
  • 四、芯片封测技术及应用场景1、封装技术的发展历程 (1)DIP封装:早期分立元件封装,体积大、引脚少; (2)QFP封装:引脚密度提升,适用于早期集成电路。 (3)BGA封装:高密度互连,散热与信号传输优化; (4)3D封装:通过TSV(硅通孔)实现垂直堆叠,提升集成度(如HBM内存堆叠); (5)Chiplet封装:异质集成,将不同工艺节点的模块组合(如AMD的Zen3+架构)。 (6)SiP封装:集成多种功能芯片(如iPhone的A系列SoC整合CPU、GPU、射频模块)。2、芯片测试 (1
    碧海长空 2025-04-15 11:45 365浏览
  •   网络链路攻防战术对抗仿真系统软件深度剖析   一、系统概览   北京华盛恒辉网络链路攻防战术对抗仿真系统软件,是专为网络安全领域攻防对抗需求打造的高仿真平台。它模拟真实网络环境中的攻、防行为,为安全研究人员以及红队、蓝队提供实战训练和策略验证工具。该系统以动态仿真技术为核心,融合人工智能与大数据分析,实现攻防战术的自动推演与可视化展示 。   应用案例   目前,已有多个网络链路攻防战术对抗仿真系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润网络链路攻防战术对抗仿
    华盛恒辉l58ll334744 2025-04-16 14:42 116浏览
  • 一、芯片的发展历程总结:1、晶体管的诞生(1)电子管时代 20世纪40年代,电子管体积庞大、功耗高、可靠性差,无法满足计算机小型化需求。(2)晶体管时代 1947年,贝尔实验室的肖克利、巴丁和布拉顿发明点接触晶体管,实现电子信号放大与开关功能,标志着固态电子时代的开端。 1956年,肖克利发明晶体管。(3)硅基晶体管时代 早期晶体管采用锗材料,但硅更耐高温、成本低,成为主流材料。2、集成电路的诞生与发展 1958年,德州仪器工程师基尔比用锗材料制成世界上第一块含多个晶体管的集成电路,同年仙童半导
    碧海长空 2025-04-15 09:30 235浏览
  • 多极电磁铁的核心应用领域一、工业制造领域1.‌磁性材料处理‌:用于多极磁环充磁,通过四极、六极或八极磁场设计,使磁环获得均匀或梯度分布的磁性能,提升电机、传感器等设备的效率‌。在电子束焊接中控制电子束的聚焦和偏转,增强焊接精度(如精密电子元件加工)‌。2.‌机械控制与自动化‌应用于旋转磁场导向系统,优化工业机器人、自动化产线中磁性物料的传输路径。配合电磁吸盘用于起重设备,实现对金属部件的快速吸附与释放,提高搬运效率。二、科研实验领域1.‌物理与材料研究‌在实验室中生成径向梯度磁场或均匀磁场,用于
    锦正茂科技 2025-04-16 09:39 113浏览
  • 一、引言:智能化趋势下的学爬玩具开发挑战随着早教理念的普及,学爬玩具作为婴幼儿早期运动能力开发的重要工具,市场需求持续增长。然而,传统学爬玩具开发面临多重挑战:需集成红外遥控、语音交互、电机控制等多模块,开发周期长、硬件成本高;复杂的红外编解码与语音功能实现依赖工程师深度参与,技术门槛陡增。如何以更低成本、更快速度打造差异化产品,成为行业亟待解决的痛点。二、传统开发模式痛点分析硬件冗余红外接收模块、语音芯片、主控MCU分立设计,导致PCB面积增加,BOM成本攀升。开发周期长需工程师独立完成红外协
    广州唯创电子 2025-04-16 08:40 191浏览
  • 三、芯片的制造1、制造核心流程 (1)晶圆制备:以高纯度硅为基底,通过拉晶、切片、抛光制成晶圆。 (2)光刻:光刻、离子注入、薄膜沉积、化学机械抛光。 (3)刻蚀与沉积:使用干法刻蚀(等离子体)精准切割图形,避免侧壁损伤。 (4)掺杂:注入离子形成PN结特性,实现晶体管开关功能。2、材料与工艺创新 (1)新材料应用: 高迁移率材料(FinFET中的应变硅、GaN在射频芯片中的应用); 新型封装技术(3D IC、TSV硅通孔)提升集成度。 (2)工艺创新: 制程从7nm到3nm,设计架构由F
    碧海长空 2025-04-15 11:33 315浏览
  • 近日,全球6G技术与产业生态大会(简称“全球6G技术大会”)在南京召开。紫光展锐应邀出席“空天地一体化与数字低空”平行论坛,并从6G通信、感知、定位等多方面分享了紫光展锐在6G前沿科技领域的创新理念及在空天地一体化技术方面的研发探索情况。全球6G技术大会是6G领域覆盖广泛、内容全面的国际会议。今年大会以“共筑创新 同享未来”为主题,聚焦6G愿景与关键技术、安全可信、绿色可持续发展等前沿主题,汇聚国内外24家企业、百余名国际知名高校与科研代表共同商讨如何推动全行业6G标准共识形成。6G迈入关键期,
    紫光展锐 2025-04-17 18:55 88浏览
  •   水下装备体系论证系统软件全面解析   一、系统概述   水下装备体系论证系统软件是针对水下作战、资源勘探、海洋工程等需求,专门设计的信息化论证工具。该系统通过集成建模、仿真、优化等技术,对水下装备体系的使命任务、环境适应性、技术参数、作战效能等进行全流程分析,为装备体系设计、方案权衡和决策提供科学依据。   应用案例   目前,已有多个水下装备体系论证系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润水下装备体系论证系统。这些成功案例为水下装备体系论证系统的推广和应用提
    华盛恒辉l58ll334744 2025-04-16 17:03 203浏览
  • 在这个AI技术日新月异的时代,人工智能(AI)已经逐渐渗透到我们生活的方方面面,从工作到学习,从娱乐到医疗,AI都在以其独特的方式改变着我们的世界。作为一名计算机专业的大学老师,我近期有幸阅读了《AI帮你赢:人人都能用的AI方法论》一书,深感这本书不仅为专业人士提供了宝贵的AI使用技巧,更为广大学生打开了一扇通往AI世界的大门。 《AI帮你赢》一书于2024年12月正式出版,也是紧跟时代发展的一本书,最新的日期。这本书以通俗易懂的语言,系统地阐述了人工智能的核心理念、应用场景及实践方法
    curton 2025-04-16 21:47 149浏览
  • 2025年4月13日(中国武汉)——在全球经济分化与地缘政治不确定性加剧的背景下,科技与金融的深度融合已成为推动创新与繁荣的关键动力。为实现科技创新、产业进步和金融发展有机结合,发挥金融对科技创新和产业进步的支持作用,国际金融论坛(IFF)科技金融委员会启动大会暨首届科技金融圆桌会议于4月13日在湖北省武汉市武汉产业创新发展研究院成功举行。同时,IFF科技金融委员会由国际金融论坛IFF与武创院联合成立。本次大会汇聚了来自政府、产业与学术研究机构及金融等多领域的精英,共同探讨科技金融如何更好地服务
    华尔街科技眼 2025-04-15 20:53 115浏览
  • 瑞芯微电子(Rockchip)是国内领先的AIoT SoC设计制造企业,专注于智能应用处理器及周边配套芯片的研发。飞凌嵌入式作为瑞芯微的战略合作伙伴,已基于瑞芯微RK3399、RK3568、RK3588、RK3576、RK3562和RK3506系列处理器推出了多款嵌入式主控产品,包括核心板、开发板和工控机,这些产品已成功帮助数千家企业客户完成了项目的快速开发和落地。本文将系统地梳理飞凌嵌入式RK平台主控产品在开发过程中常用的命令,助力更多开发者快速掌握RK系列芯片的开发方法。01、查看CPU温度
    飞凌嵌入式 2025-04-16 15:50 207浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦