LSTM之父:我也是注意力之父!1991年就发表线性复杂度,遥遥领先Transformer26年

OpenCV学堂 2024-12-15 22:07



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】Transformer模型自2017年问世以来,已成为AI领域的核心技术,尤其在自然语言处理中占据主导地位。然而,关于其核心机制“注意力”的起源,学界存在争议,一些学者如Jürgen Schmidhuber主张自己更早提出了相关概念。

当今AI届的繁荣,很大程度上要归功于Transformer模型,2017年的开山之作,把「注意力机制」(attention)带入了大众的视野,此后七年中,在AI模型中占据了绝对的主导地位,甚至Attention is All You Need这个名字都让之后的论文在起标题时纷纷效仿,逐渐走向狂野。

但「正统」注意力机制其实来源于2014年Bengio的论文,ACM还在图灵奖颁奖时,为Bengio写的贡献为「引入了一种注意力机制,带来了机器翻译的突破,并形成了深度学习顺序处理的关键组成部分」。

论文链接:https://arxiv.org/pdf/1409.0473

最近,Andrej Karpathy在社交媒体上公开了与第一作者Dzmitry两年前的联络邮件,详细叙述了这段发明注意力的故事,顿时又掀起网友热议。

不过,LSTM作者Jürgen Schmidhuber却不认可这段故事,而是表明自己才是真正的创造者,1991年就已经提出线性复杂度Transformer,并且在两年后提出术语「注意力」,他在2023年12月还发表过一篇报告,控诉图灵奖三巨头抄袭自己的研究成果。

关于「Attention起源」的辩论进展火热,仿佛现代AI完全构建在注意力机制的理论之上,关于Transformer、系统实现的重要性却被忽视了。

虽然Attention is All You Need论文的核心贡献是引入Transformer神经网络,删除了除各种注意力机制之外的所有模块,并且基本上只是将其与多层感知机堆叠在ResNe中,但其实论文中还是有相当多的贡献和独特想法,包括位置编码、缩放注意力、多头注意力、极简设计等等,并且被广为接受。

即便是到了今天,业内普遍使用的模型架构仍然大体遵循2017年的原始版本,只是在部分模块进行了简单的修改,比如更好的位置编码方案(RoPE家族)等等。

谷歌杰出科学家、计算成像、机器学习和视觉领域的专家Peyman Milanfar说的很中肯:

我——或者我认为任何成像领域的人——都不能合理地宣称机器学习背景下的注意力概念有任何功劳。但记录、追溯完整的历史渊源是有价值的,如果不从更广泛的角度来理解「依赖于数据的加权平均运算」的重要性和普遍性,那追溯的历史也是不完整的。

最极端的例子莫过于一位网友的评价,「其实,算术的出现要比这些论文都早。」

「注意力」的起源故事

2014年,故事的主角Dzmitry Bahdanau还只是一个在德国雅各布大学(Jakobs University)刚完成硕士一年级的学生,之后选择在Yoshua Bengio(图灵奖得主)的实验室开始实习。

当时他跟Yoshua表示干什么都行,然后Yoshua便让他开始与Kyunghyun Cho的团队合作开发机器翻译模型。

当时自然语言处理届的主流思路是「把单词序列转为一个向量」,比如经典的word2vec都是当时常用的算法,但Dzmitry却对这种想法表示怀疑,不过为了获得博士的入学offer,他也只能听从导师的话,从写代码、修复Bug等最基本的工作入手。

逐步熟悉团队的工作内容之后,Yoshua就对他发起了攻读博士学位的邀请,当时AI届还没有现在这么卷,这些工作已经足以让这位硕士生开始他的博士生涯了,Dzmitry至今仍表示庆幸、怀念。

博士offer稳了之后,据Dzmitry的说法是,可以享受科研乐趣,并充分发挥自己的创造力了!

Dzmitry开始思考如何避免RNN模型中Encoder和Decoder之间的信息瓶颈,第一个想法是建立一个带有两个「光标」(cursor)的模型:其中一个由BiRNN编码,在源序列中移动;另一个在目标序列中移动;光标轨迹使用动态规划进行边际化。

但Kyunghyun Cho认为这种做法和Alex Graves的RNN Transducer模型没什么两样。

读完Graves的手写识别论文后,Dzmitry也认可这种方法法对于机器翻译来说不太合适,并且实习也只剩5周了,很难在短时间内完成代码实现,所以就尝试了更简单的方法,让两个光标同时、同步移动,实际上相当于硬编码的对角注意力(hard-coded diagonal attention)。

这种方法虽说有点效果,但不够优雅。

某一天,Dzmitry受到了英语翻译练习中的启发,人类在翻译时,目光会在源序列和目标序列之间来回移动,将软搜索表示为softmax,然后对BiRNN状态进行加权平均,就能让Decorder RNN学会在源序列中搜索放置光标的位置。

团队把这个架构叫做RNNSearch,第一次尝试效果就很好,只需要1个GPU就能运行。

当时,谷歌的Ilya(OpenAI前首席科学家Ilya Sutskever)团队使用8个GPU的LSTM模型在某些指标上仍然领先,所以团队赶紧在ArXiV上发表了一篇论文。

后来团队发现,这个架构的名字其实并不好,Yoshua在最后的一次修改中确定了「注意力机制」,直观地看,让解码器来决定源语句中的哪些部分需要受到关注,减轻了编码器将源语句中的所有信息编码为固定长度向量的负担。通过这种新方法,信息可以分布在整个标注序列中,解码器可以有选择地进行检索。

一个半月后,团队又看了Alex Graves发表的关于NMT论文,想法完全相同,但出发点完全不同。

Dzmitry发明新算法是需求驱动的,Alex那边或许是出于连接神经学派和符号学派的目的;Jason Weston团队的Memory Networks论文也有类似的机制。

Dzmitry表示没有预见到注意力机制作为表征学习的核心算法,其实可以在更低的层次上使用。

所以当Transformer论文发表时,Dzmitry就立刻跟实验室的同事说,RNN已经死了。

总之,在蒙特利尔Yoshua的实验室中「可微且数据依赖的加权平均」(differentiable and data-dependent weighted average operation)的发明与神经图灵机、Memory Networks以及90年代(甚至 70 年代)的一些相关认知科学论文无关,主要来源于Yoshua的领导,Kyunghyun Cho在管理由初级博士生和实习生组成的大型机器翻译项目方面的出色技能,以及Dzmitry多年来在编程竞赛中磨练出的创造力和编程技能。

即使Dzmitry、Alex Graves和其他人当时没有从事深度学习工作,这个想法也会由其他人发表出来。注意力机制只是深度学习中实现灵活空间连接的自然方式,只要GPU的运算速度足够快,让科研人员有动力并认真对待深度学习,就会自然而然出现。

良好的研发工作可以为基础技术的进步做出更多贡献,而不是通常意义上、所谓「真正的」人工智能研究的花哨理论。

九十年代的「注意力」机制

正如Dzmitry所说,注意力机制其实就是模仿大脑的认知过程,在更遥远的90年代,也是认知科学快速发展的时代,类似注意力机制的模型也早有研究。

最早的「可微加权平均操作」甚至并不来源于机器学习领域,而是图像处理中常用的「滤波器」(filter)。

比如最著名的是1998年Tomasi和Manduchi的双边滤波器,以及1997年Smith和Brady提出的SUSAN滤波器;后面还出现过许多变体形式,包括2005年的Buades、Coll和Morel提出的非局部均值,以及2007年Peyman Milanfar提出的更通用的核回归滤波器。

论文链接:https://ieeexplore.ieee.org/abstract/document/4060955

阿卜杜拉国王科技大学 (KAUST) 人工智能研究所所长、瑞士人工智能实验室IDSIA科学主任、LSTM作者、现代人工智能之父Jürgen Schmidhube也参与到这场推特大战之中。

2023年12月,Jürgen就曾发布过一篇报告,控诉三位图灵奖得主Bengio, Hinton和LeCun各有相关工作参考于他之前的工作,但并没有标注引用,「抄袭」罪状中,Bengio七条、Hinton六条、LeCun四条。

报告链接:https://people.idsia.ch/~juergen/ai-priority-disputes.html

Jürgen在报告中指出,1991年3月,他就已经提出了所谓的具有「线性自注意力」的非归一化线性Transformer(unnormalized linear Transformer with linearized self-attention),只不过当时的名字叫做「快速权重编程器」(Fast Weight Programmers)和「快速权重控制器」(Fast Weight Controllers),类似传统计算机将存储和控制分开的方式,以端到端可微分、自适应、完全神经的方法,只不过当时Key/Value被称为From/To

虽然名字不一样,但两个模型背后的数学原理大致相同。

1991年发表的模型原理类似于:为了回答接收到的query,通过梯度下降来学习生成key和value的模式,对自身的某些部分进行重新编程,从而根据上下文将注意力引导到重要的事情上;现代Transformer也采用了同样的原理。

2021年,Jürgen在ICML上发表了一篇论文,进一步证明了二者的等价性。

论文链接:https://arxiv.org/pdf/2102.11174

在1991年,当时的计算成本比现在高出数百万倍,所以计算效率很重要,Transformer的计算复杂度为二次方,所以无法扩大数据处理规模,而快速权重编程器的计算复杂度只有线性,据Jürgen所说,当年几乎没有期刊会接受二次缩放的神经网络。

1993年,Jürgen对线性Transformer进行循环扩展时,使用了术语「注意力」。

论文链接:https://sferics.idsia.ch/pub/juergen/ratio.pdf

正如文章开头所说,Bengio团队因注意力机制获图灵奖,之后的工作都以Bengio 2014年的论文作为注意力机制起源。

Jürgen还表示,在2010年代,ACM所谓的关键「机器翻译的突破」也不是Bengio的功劳,而是LSTM的功劳,在2016年极大地改进了Google 翻译,甚至直到 2017 年,Facebook用户每周还要进行300亿次基于LSTM的翻译请求。

总之,技术起源的是是非非很难辩个清楚,拿出小板凳,理性吃瓜

参考资料:
https://x.com/SchmidhuberAI/status/1864701357107634390

OpenCV4系统化学习


深度学习系统化学习

推荐阅读

OpenCV4.8+YOLOv8对象检测C++推理演示

ZXING+OpenCV打造开源条码检测应用

攻略 | 学习深度学习只需要三个月的好方法

三行代码实现 TensorRT8.6 C++ 深度学习模型部署

实战 | YOLOv8+OpenCV 实现DM码定位检测与解析

对象检测边界框损失 – 从IOU到ProbIOU

初学者必看 | 学习深度学习的五个误区


OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论
  • 【富芮坤FR3068x-C】+开发环境疑问非常荣欣参加了这次《富芮坤FR3068x-C》评测活动,在搭建开发环境时,本人就遇到很大问题,主要有3个。第1个问题:本人按照《FR306x开发环境说明书》中的1章安装软件,keil5.36版本以上,并且打开sdk中uart工程,按照要求设置了Device配置如下: ARM Compiler选项链接文件配置但是编译结果如下:有23个warning,都是连接脚本中找不到,请问这样工程是否有问题?第2个问题:按照《FR306x开发环境说明书》中要求,需要电脑
    shenwen2007_656583087 2024-12-17 00:59 52浏览
  • 在现代软件开发领域,效率和可靠性是企业在竞争中取胜的关键。本文将深入探讨 ANA Systems 如何通过引入业界领先的 CI/CD 平台——CircleCI,克服传统开发流程的瓶颈,实现开发运营效率的全面提升。同时,本文还将详细解析 CircleCI 的核心优势,包括其强大的自动化功能、广泛的工具整合能力,以及为企业量身定制的支持服务,揭示其如何助力 ANA Systems 在「新一代国内旅客项目」中脱颖而出。这一案例将为企业优化开发流程、提升竞争力提供重要的实践参考。ANA Systems
    艾体宝IT 2024-12-16 16:44 99浏览
  • 概述 Cyclone 10 GX器件的ALM结构与Cyclone V类似,所以在Cyclone 10 GX器件上实现TDC功能理论上是可以完全参考甚至移植自Cyclone V系列的成功案例。但是,现实却是更多的问题出现当在Cyclone 10 GX使用和Cyclone V同样策略实现TDC的时候。 本文主要记录在Cyclone 10 GX器件上实现TDC时的探索,并为后续TDC设计、测试等展开前期研究。Cyclone 10 GX ALM结构 如图1所示,Cyclone 10 GX器件的ALM结构
    coyoo 2024-12-14 17:15 83浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-14 20:56 70浏览
  • 一、引言在数字化时代,芯片作为现代科技的核心,其制造过程却常被视作神秘的黑箱。菊地正典的《大话芯片制造》为我们揭开了这层神秘的面纱,以通俗易懂的方式,全面系统地介绍了芯片制造的各个环节。作为一名电子信息技术专业的教育工作者,我深感这本书不仅为学生提供了宝贵的知识资源,也让我对芯片制造及其在现代社会中的作用有了更深刻的理解。二、生活中的芯片印记芯片的影响渗透到我们日常生活的每一个角落。从智能手机的闹钟唤醒,到交通卡的便捷支付,再到智能家居的智能化功能,芯片以其强大的运算和处理能力,为我们的现代生活
    月光 2024-12-16 11:52 75浏览
  •        霍尔传感器是一种基于霍尔效应的传感器。霍尔效应指的是当通过一个导体的电流受到外部磁场的影响时,导体内部将会产生一种电场,使得在导体两端的电势差发生变化,这种电势差变化称为霍尔电势差。利用这种现象,可以设计出一种可以测量磁场强度和方向的传感器,即霍尔传感器。  霍尔传感器分为线型霍尔传感器和开关型霍尔传感器两种。  (一)开关型霍尔传感器由稳压器、霍尔元件、差分放大器,斯密特触发器和输出级组成,它输出数字量。开关型霍尔传感器还有一种特
    锦正茂科技 2024-12-14 10:58 64浏览
  • 全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)于10月23日在深圳益田威斯汀酒店举办了艾迈斯欧司朗中国发展中心(以下简称,CDC)圆桌论坛。本次论坛以“智能化时代,以多元应用场景和技术 助力中国市场加速发展”为核心议题,探讨在人工智能驱动的市场趋势下,CDC如何助力中国伙伴把握时代机遇,推动大中华地区业务稳健增长,展示了艾迈斯欧司朗对中国市场的信心。立足中国 贴近本土客户需求在全球经济增速放缓和国际形势复杂多变的背景下,中国市场依然保持了稳定的增长势态,并释放出强大的
    艾迈斯欧司朗 2024-12-16 18:00 112浏览
  • 擎天柱,这个名字听起来就像是从科幻电影里走出来的英雄。但今天,我们要聊的不是那个变形金刚,而是一款同样令人兴奋的实验板——Ai8051U-LQFP48 转 89C52-DIP40 核心功能实验板。这款实验板就像是电子世界的“擎天柱”,它拥有强大的力量和无限的潜力,等待着我们去发掘和探索。 想象一下,你手中握着的不是一块普通的电路板,而是一张通往未来科技世界的门票。Ai8051U芯片,这颗强大的心脏,内置了硬件浮点运算单元(TFPU@120MHz),让你的计算速度飞起来,就像给机器人装上了翅膀。
    丙丁先生 2024-12-16 13:02 97浏览
  • 1. 磁性材料的磁化曲线磁性材料是由铁磁性物质或亚铁磁性物质组成的,在外加磁场H 作用下,必有相应的磁化强度M 或磁感应强度B,它们随磁场强度H 的变化曲线称为磁化曲线(M~H或B~H曲线)。磁化曲线一般来说是非线性的,具有2个特点:磁饱和现象及磁滞现象。即当磁场强度H足够大时,磁化强度M达到一个确定的饱和值Ms,继续增大H,Ms保持不变;以及当材料的M值达到饱和后,外磁场H降低为零时,M并不恢复为零,而是沿MsMr曲线变化。材料的工作状态相当于M~H曲线
    锦正茂科技 2024-12-17 10:40 53浏览
  • 在现代生活中,我们经常会遇到需要检测电线是否带电的情况。这时,一款好用的数显测电笔就显得尤为重要了。今天,我想跟大家分享一下DELIXI数显测电笔的使用方法,通过一个故事来讲述它如何帮助我们解决生活中的小麻烦。 在一个阳光明媚的周末,小明决定对他家的电路进行一次全面的检查。他知道,虽然自己不是专业的电工,但有了DELIXI数显测电笔的帮助,他也能轻松应对。 小明拿出了DELIXI数显测电笔,这款测电笔设计得非常人性化,操作起来也很简单。他首先注意到了测电笔上的两个按键:DIRECT(A键)和
    丙丁先生 2024-12-16 12:58 71浏览
  • 串口调试助手软件:XCOM 也是一款专为嵌入式开发和硬件调试设计的强大工具,如正点原子串口调试助手 XCOM V2.6。这款软件支持多种串口参数配置,满足不同开发需求,广泛应用于嵌入式系统开发、硬件调试以及电子爱好者的项目开发中。XCOM在嵌入式开发和硬件调试中的作用主要体现在以下几个方面: 1. 串口通信测试:XCOM作为一款强大的串口调试工具,允许用户通过计算机的串口进行数据的发送与接收,从而实现对串口通信的测试。这对于验证硬件设备的通信协议、确保数据传输的正确性至关重要。 2. 数据发
    丙丁先生 2024-12-15 11:56 82浏览
  • 霍尔传感器的原理        霍尔传感器是一种固体的传感器,其输出电压与磁场强度成比例。顾名思 义,这种器件是依赖于霍尔效应原理工作的。霍尔效应原理是在导体通电 和加有磁场的情况下,在导体的横向 上会产生电压。电子(在实践中多数载流子最常被使 用)在外部电场的驱动下会产生“漂移”,当暴露于磁场中时,这些运动 的带电粒子会受到一个垂直于电场和 磁场的力的作用。这个力会让导体的边缘充电,一边为正,一边为负。边
    锦正茂科技 2024-12-14 11:41 67浏览
  • 近年来,云终端凭借便捷、高效、高性价比的优势正逐步在各行各业渗透。研究机构IDC的数据显示,2024上半年,中国云终端市场总体出货量达到166.3万台,同比增长22.4%,销售额29亿元人民币,同比增长24.9%,均超预期。紫光展锐积极携手各大合作伙伴,共同打造云端生态,大力推动云终端在政企、金融类等领域应用落地。 云终端增长势头良好 两大应用场景被看好云电脑将传统个人电脑的硬件资源和软件应用虚拟化,并通过网络提供给用户。这种模式的核心在于:用户不需要高性能的本地硬件,仅通过互联网连接
    紫光展锐 2024-12-16 18:11 63浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦