Github热榜:2021年33篇最酷AI论文综述!多位华人作者入选

OpenCV学堂 2021-11-20 22:46



点击上方↑↑↑OpenCV学堂”关注我

来源:公众号 新智元 授权


【导读】GitHub上,有一位小哥放出了「2021年充满惊喜的人工智能论文综述」这个项目。目前,里面总结了33篇今年必看论文,堪称「良心宝藏」。这个项目仍在更新中,收藏一波,继续追更!


现如今,AI技术突飞猛进,每年都会诞生很多优秀的论文。
 
想知道2021年有哪些paper是你不能错过的吗?
 
这不,在GitHub上,有一位小哥放出了这样一个项目,目前,里面总结了33篇今年必看论文,堪称「良心宝藏」。

https://github.com/louisfb01/best_AI_papers_2021
 
这个项目的名称是「2021年充满惊喜的人工智能论文综述」,作者是Louis-François Bouchard(GitHub名为louisfb01),上线一天就收获314个star(持续上涨中)。
 
Louis-François Bouchard来自加拿大蒙特利尔,我目前在École de Technologie Supérieure攻读人工智能-计算机视觉硕士学位,同时在designstripe兼职做首席人工智能研究科学家。
 
值得一提的是,Louis还在YouTube上有自己的频道「What's AI」。
 
What's AI主页:https://www.louisbouchard.ai/
 
Louis之所以在YouTube上做「What's AI」这个频道,是希望用简单的语言分享和解释人工智能,为大家分享新的研究和应用。
 
YouTube What's AI 频道:https://www.youtube.com/c/WhatsAI/featured
 
Louis想为所有人揭开人工智能「黑匣子」的神秘面纱,让人们意识到使用它的风险。
 
Louis是一个很有分享精神的人,喜欢学习和分享他所学到的东西。他写了不少文章,也在自己的频道更新视频,在GitHub上也正在做一些有趣的项目。
 
 
其实,「2021年充满惊喜的AI论文综述」已经是Louis更新「AI论文综述」系列的第二年了。
 
在2020年,Louis也上线了「2020年充满惊喜的AI论文综述」项目,里面是按发布日期排列的AI最新突破的精选列表,带有清晰的视频解释,更深入文章的链接和源代码。

https://github.com/louisfb01/Best_AI_paper_2020
 
下面,就来看看「2021年充满惊喜的AI论文综述」里面到底有哪些让人惊喜的AI最新研究成果吧!
 

2021年充满惊喜的AI论文综述

 

尽管世界仍在慢慢复苏,但研究并没有放缓其步伐,尤其是在人工智能领域。
 
此外,2021年还强调了许多重要的方面,如道德方面、重视偏见、治理、透明度等等。
 
人工智能和我们对人脑的理解及其与AI的联系正在不断发展,在不久的将来,也许有希望改善我们的生活质量。
 

精彩论文节选

 
1、DALL-E:Zero-Shot Text-to-Image Generation,来自OpenAI
论文地址:https://arxiv.org/pdf/2102.12092.pdf
 
一个Emoji的小企鹅,带着蓝帽子,红手套,穿着黄裤子示例
 
论文介绍:
 
GPT-3表明,语言可以用来指导大型神经网络执行各种文本生成任务。
 
而Image GPT表明,同样类型的神经网络也可以用来生成高保真度的图像。这个突破说明通过文字语言来操纵视觉概念现在已经触手可及。
 
OpenAI成功地训练了一个能够从文本标题生成图像的网络。它非常类似于GPT-3和Image GPT,并产生了惊人的结果。
 
 
和GPT-3一样,DALL-E也是一个Transformer语言模型。它同时接收文本和图像作为单一数据流,其中包含多达1280个token,并使用最大似然估计来进行训练,以一个接一个地生成所有的token。
 
这个训练过程不仅允许DALL-E可以从头开始生成图像,而且还可以重新生成现有图像的任何矩形区域,与文本提示内容基本一致。
 
利用DALL·E生成企鹅抱枕
 
2、Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows
论文地址:https://arxiv.org/pdf/2103.14030.pdf
 
论文介绍:
 
这篇文章介绍了一种新的、可以应用于计算机视觉里的Transformer,Swin Transformer。
 
Transformer解决计算机视觉问题的挑战主要来自两个领域:图像的比例差异很大,而且图像具有很高的分辨率,在有些视觉任务和如语义分割中,像素级的密集预测对于Transformer来说是难以处理的,因为其self-attention的计算复杂度与图像大小成二次关系。
 
 
为了克服这些问题,Swin Transformer构建了分层Transformer特征图,并采用移位窗口计算。移位窗口方案通过将self-attention计算限制在不重叠的局部窗口(用红色标出),同时还允许跨窗口连接,带来了更高的效率。
 
Swin Transformer通过从小尺寸的面片(用灰色勾勒)开始,并逐渐合并更深的Transformer层中的相邻面片来构建分层表示。这种分层体系结构可以灵活地在各种尺度上建模,并且在图像大小方面具有线性计算复杂度。线性计算复杂度是通过在分割图像的非重叠窗口(用红色标出)内局部计算自我注意来实现的。 每个窗口中的面片数量是固定的,因此复杂度与图像大小成线性关系。
 
Swin Transformer在图像分类、目标检测和语义分割等识别任务上取得了很好的性能,在三个任务中,Swin Transformer的时间延迟与ViT,DeiT和ResNeXt模型相似,但性能却得到了大幅提升:COCO test-dev 58.7 box AP和51.1 mask AP,力压之前的最先进结果2.7 box AP和2.6 mask AP。 在ADE20K语义分割任务中,Swin Transformer在验证集上获得了53.5 mIoU,比以前的最先进水平(SETR)提高了3.2 mIoU。 在ImageNet-1K图像分类中,它也达到了87.3%的最高精度,充分展现Transformer模型作为新视觉backbone的潜力。
 
该论文一作刘泽是中科大的学生,在微软亚洲研究院实习。他于2019年获中国科技大学学士学位,并以最高荣誉获得郭沫若奖学金。
 
个人主页介绍,其2篇论文和1篇Oral被ICCV2021接收。
 
个人主页:https://zeliu98.github.io/
 
3、StyleCLIP: Text-driven manipulation of StyleGAN imagery
论文地址:https://arxiv.org/pdf/2103.17249.pdf
 
论文介绍:
 
这是一项来自以色列的研究人员的工作StyleCLIP,可以使用基于人工智能的生成对抗性网络对照片进行超逼真的修改,并且只需要让用户输入他们想要的东西的描述即可,无需输入特定的图片。
 
这个模型也会产生一些非常搞笑的结果。例如可以给Facebook 的CEO马克 · 扎克伯格的脸随意修改,例如让他看起来秃顶,戴上眼镜,或者在下巴上扎上山羊胡。
 
这个「火星人」的脸上似乎也有了一点人类的感觉。
 
 
StyleCLIP模型主要由StyleGAN和CLIP模型组成。
 
StyleGAN可以在不同领域(domain)生成高度真实图像,最近也有大量的工作都集中在理解如何使用StyleGAN的隐空间来处理生成的和真实的图像。
 
 
 
但发现语义上潜在有意义的操作通常需要对多个自由度进行细致的检查,这需要耗费大量的人工操作,或者需要为每个期望的风格创建一个带注释的图像集合。
 
既然基于注释,那多模态模型CLIP(Contrastive Language-Image Pre-training)的能力是否就可以利用上,来开发一个不需要手动操作的基于文本的StyleGAN图像处理。
 
 
例如输入可爱的猫(cute cat),眯眼睛的猫就被放大了眼睛,获取了所有可爱小猫的特征,还可以老虎变狮子等等。
 
4、GitHub Copilot & Codex: Evaluating Large Language Models Trained on Code
论文地址:https://arxiv.org/pdf/2107.03374.pdf
 
论文介绍:
 
OpenAI在2020年,曾推出1750亿参数的GPT-3,参数规模直逼人类神经元的数量。
 
GPT-3使用了在2019年之前的互联网上的几乎所有公开的书面文本进行训练,所以它对于自然语言是有一定理解能力的,能作诗、聊天、生成文本等等。
 
今年夏天,OpenAI 发布了 Codex。
 
 
Codex基于GPT-3进行训练,接受了从GitHub中提取的TB级公开代码以及英语语言示例的训练。
 
只要你对Codex发号施令,它就会将英语翻译成代码。
 
 
随后,你的双手离开键盘,Codex会自动编程,火箭就自己动起来了。
 
而Copilot正是建立在OpenAI强大的Codex算法之上,获得了「海纳百川」的代码积累和前所未有的代码生产能力。
 
 
Copilot不仅仅可以模仿它见过的代码,而且还会分析利用函数名、方法名、类名和注释的上下文来生成和合成代码,为开发人员提供编辑器中整行代码或函数的建议。
 
 
它能减少工程师通过API文档做苦工的时间,还能帮忙编写测试代码。
 
 
5、Skillful Precipitation Nowcasting using Deep Generative Models of Radar
论文地址:https://www.nature.com/articles/s41586-021-03854-z
 
论文介绍:
 
今天的天气预测是由强大的数值天气预报(NWP)系统驱动的。通过解决物理方程,数值天气预报系统可以提前数天得到地球尺度的预测。然而,它们很难在两小时内产生高分辨率的预测。
 
即时预报填补了这一关键时间区间的性能空白。气象传感的进步使高分辨率雷达可以高频地(在1公里分辨率下每5分钟)提供测量出的地面降水量数据。
 
过去20分钟的观测雷达被用来提供未来90分钟的概率预测
 
已有的短期预测方法,如STEPS和PySTEPS,沿用NWP的方法来考虑不确定性,但按照带有雷达信息的平流方程对降水进行建模。
 
基于深度学习的方法则不需要对平流方程的依赖,但现有方法侧重于特定地点的预测,而不是对整个降水场的概率预测,这使其无法在多个空间和时间集合中同时提供一致的预测结果,限制了实用性。
  
 
为此,DeepMind使用深度生成模型(DGMR)为概率预报开发了一种观测驱动的方法。DGMR是学习数据概率分布的统计模型,可以从学习到的分布中轻松生成样本。由于生成模型从根本上是概率性的,可以从给定的历史雷达的条件分布中模拟许多样本,生成预测集合。此外,DGMR既能从观测数据中学习,又能表示多个空间和时间尺度上的不确定性。
 
 
结果表明,DeepMind的深度生成模型可以提供更好的预测质量、预测一致性和预测价值。模型在1,536公里×1,280公里的区域内产生了逼真且时空一致的预测,提前期为5-90分钟。
 
 DGMR能更好地预测较长时段的空间覆盖和对流,同时不会高估强度
 
通过50多位气象专家的系统评估,与其他两种竞争方法相比,DeepMind的生成模型以89%的绝对优势在准确性和实用性两方面排名第一。
 
其他有意思的论文都可以在Louis的GitHub主页上找到,目前这个项目仍在更新中,收藏一波,继续追更!
 
 


参考资料:

https://github.com/louisfb01/best_AI_papers_2021



OpenCV学堂 专注计算机视觉开发技术分享,技术框架使用,包括OpenCV,Tensorflow,Pytorch教程与案例,相关算法详解,最新CV方向论文,硬核代码干货与代码案例详解!作者在CV工程化方面深度耕耘15年,感谢您的关注!
评论 (0)
  • 本文介绍瑞芯微RK356X系列复用接口配置的方法,基于触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。复用接口介绍由下图可知,红圈内容当前引脚可配置为SPI0或者PWM0功能。由标准系统固件以及相关系统手册可得,当前接口默认配置为SPI0功能:console:/ # ls dev/spidev0.0dev/spidev0.0再由原理图可知当前GPIO为GPIO0_C3
    Industio_触觉智能 2025-03-28 18:14 175浏览
  • 语音芯片在播放音频时出现电流声是嵌入式音频系统开发中的常见问题,直接影响用户体验。唯创电子WT系列语音芯片在智能家居、工业控制等领域广泛应用,本文将从PWM直推输出与DAC+功放输出两类典型电路架构出发,系统化分析电流声成因并提供工程级解决方案。一、PWM直推输出电路电流声诊断1.1 现象特征高频"滋滋"声(8kHz-20kHz)声音随系统负载变化波动静音状态下仍存在底噪1.2 核心成因分析(1) 电源干扰开关电源纹波超标:实测案例显示,当12V转3.3V的DC-DC电源纹波>80mVpp时,P
    广州唯创电子 2025-03-28 08:47 130浏览
  • 真空容器的材料选择取决于其应用场景(如科研、工业、医疗)、真空等级(低真空、高真空、超高真空)以及环境条件(温度、压力、化学腐蚀等)。以下是常见材料及其优缺点分析:1. 不锈钢(如304、316L)优点:耐腐蚀性强:316L含钼,耐酸碱和高温氧化,适合高真空和腐蚀性环境。高强度:机械性能稳定,可承受高压差和外部冲击。低放气率:经电解抛光或镀镍处理后,表面放气率极低,适合超高真空系统(如粒子加速器、半导体镀膜设备)。易加工:可焊接、铸造,适合复杂结构设计。缺点:重量大:大型容器运输和安装成本高。磁
    锦正茂科技 2025-03-29 10:52 56浏览
  • 3月27日,长虹中玖闪光超高剂量率电子射线放射治疗系统(e-Flash)临床试验项目在四川大学华西医院正式启动,标志着该项目正式进入临床试验阶段。这不仅是我国医学技术领域的一项重大突破,更是我国在高端医疗设备研发和应用方面的重要里程碑。e-Flash放射治疗系统适用于哪些病症,治疗周期为多久?会不会产生副作用?治疗费用高不高……随着超高剂量率电子射线放射治疗系统(e-Flash)正式进入临床试验阶段,社会各界对该项目的实施情况尤为关注。对此,中国工程院院士范国滨,以及四川大学华西医院、四川省肿瘤
    华尔街科技眼 2025-03-28 20:26 334浏览
  • 本文介绍OpenHarmony5.0 DevEco Studio开发工具安装与配置,鸿蒙北向开发入门必备!鸿蒙北向开发主要侧重于应用层的开发,如APP开发、用户界面设计等,更多地关注用户体验、应用性能优化、上层业务逻辑的实现,需要开发者具备基本的编程知识、对操作系统原理的简单理解,以及一定的UI设计感。由触觉智能Purple Pi OH鸿蒙开发板演示。搭载了瑞芯微RK3566四核处理器,支持开源鸿蒙OpenHarmony3.2至5.0系统,适合鸿蒙开发入门学习。下载与安装开发工具点下面链接下载:
    Industio_触觉智能 2025-03-28 18:16 235浏览
  • 在工业控制与数据采集领域,高精度的AD采集和实时显示至关重要。今天,我们就来基于瑞芯微RK3568J + FPGA国产平台深入探讨以下,它是如何实现该功能的。适用开发环境如下:Windows开发环境:Windows 7 64bit、Windows 10 64bitLinux开发环境:Ubuntu18.04.4 64bit、VMware15.5.5U-Boot:U-Boot-2017.09Kernel:Linux-4.19.232、Linux-RT-4.19.232LinuxSDK:LinuxSD
    Tronlong 2025-03-28 10:14 197浏览
  • 在智能语音设备开发中,高音量输出是许多场景的核心需求,例如安防警报、工业设备提示、户外广播等。 WT588F02BP-14S 和 WTN6040FP-14S 两款语音芯片,凭借其内置的 D类功放 和 3W大功率输出 能力,成为高音量场景的理想选择。本文将从 性能参数、应用场景、设计要点 三大维度,全面解析这两款芯片的选型策略。一、核心参数对比与选型决策参数WT588F02BP-14SWTN6040FP-14S输出功率3W@4Ω(THD<1%)3W@4Ω(THD<0.8%)功
    广州唯创电子 2025-03-28 09:15 139浏览
  • 真空容器内部并非wan全没有压强,而是压强极低,接近于零。真空状态下的压强与容器内外气体的分子数量、温度以及容器本身的性质有关。一、真空与压强的基本概念真空指的是一个空间内不存在物质或物质极少的状态,通常用于描述容器或系统中气体的稀薄程度。压强则是单位面积上所受正压力的大小,常用于描述气体、液体等流体对容器壁的作用力。二、真空状态下的压强特点在真空状态下,容器内部的气体分子数量极少,因此它们对容器壁的作用力也相应减小。这导致真空容器内部的压强远低于大气压强,甚至接近于零。然而,由于技术限制和物理
    锦正茂科技 2025-03-29 10:16 171浏览
  • 在智能家居领域,无线门铃正朝着高集成度、低功耗、强抗干扰的方向发展。 WTN6040F 和 WT588F02B 两款语音芯片,凭借其 内置EV1527编解码协议 和 免MCU设计 的独特优势,为无线门铃开发提供了革命性解决方案。本文将深入解析这两款芯片的技术特性、应用场景及落地价值。一、无线门铃市场痛点与芯片方案优势1.1 行业核心痛点系统复杂:传统方案需MCU+射频模块+语音芯片组合,BOM成本高功耗瓶颈:待机电流
    广州唯创电子 2025-03-31 09:06 129浏览
  • 文/杜杰编辑/cc孙聪颖‍3月11日,美国总统特朗普,将自费8万美元购买的特斯拉Model S,开进了白宫。特朗普此举,绝非偶然随性,而是有着鲜明的主观意图,处处彰显出一种刻意托举的姿态 。特朗普也毫不讳言,希望他的购买能推动特斯拉的发展。作为全球电动车鼻祖,特斯拉曾凭借创新理念与先进技术,开辟电动汽车新时代,引领行业发展潮流。然而当下,这家行业先驱正深陷困境,面临着前所未有的挑战。就连“钢铁侠”马斯克自己都在采访时表示“非常困难”,的确是需要美国总统伸手拉一把了。马斯克踏入白宫的那一刻,特斯拉
    华尔街科技眼 2025-03-28 20:44 206浏览
  • Shinco音响拆解 一年一次的面包板社区的拆解活动拉开帷幕了。板友们开始大显身手了,拆解各种闲置的宝贝。把各自的设计原理和拆解的感悟一一向电子爱好者展示。产品使用了什么方案,用了什么芯片,能否有更优的方案等等。不仅让拆解的人员了解和深入探索在其中。还可以让网友们学习电子方面的相关知识。今天我也向各位拆解一个产品--- Shinco音响(如下图)。 当产品连接上电脑的耳机孔和USB孔时,它会发出“开机,音频输入模式”的语音播报,。告诉用户它已经进入音响外放模式。3.5mm耳机扣接收电脑音频信号。
    zhusx123 2025-03-30 15:42 92浏览
  •        随着智能驾驶向L3级及以上迈进,系统对实时性的要求已逼近极限。例如,自动紧急制动(AEB)需在50毫秒内完成感知、决策到执行的全链路响应,多传感器数据同步误差需小于10微秒。然而,传统基于Linux-RT的方案在混合任务处理中存在天然缺陷——其最大中断延迟高达200微秒,且多任务并发时易引发优先级反转问题。据《2024年智能汽车电子架构白皮书》统计,超60%的车企因实时性不足被迫推迟舱驾一体化项目落地。为旌电子给出的破局之道,是采用R5F(实
    中科领创 2025-03-29 11:55 270浏览
  • 你还记得,那些年疯狂追捧的淘宝网红店吗?它们曾是时尚的风向标,是很多人购物车里的常客,承载着无数年轻人的创业梦想。然而,最近这股网红店闭店潮,却如同一记重锤,敲醒了所有人。 从初代网红张大奕关闭“吾欢喜的衣橱”,到周扬青告别“GRACE CHOW”,再到拥有 190 万社交平台粉丝的“李大米 Lidami”宣布关闭淘宝店铺,以及“Ff5 official”“MAKI STUDIO”等大批网红店纷纷发出闭店通告,曾经风光无限的淘宝网红店,正在以惊人的速度消失。这一波闭店潮,涉及的店铺数量
    用户1742991715177 2025-03-27 23:22 72浏览
  • 一、真空容器的定义与工作原理真空容器是一种能够创造并保持一定真空度的密闭容器。其工作原理通常涉及抽气系统,该系统能够逐渐抽出容器内部的气体分子,从而降低容器内的气压,形成真空环境。在这个过程中,容器的体积并不会因抽气而改变,但容器内的压力会随着气体的抽出而逐渐降低。二、真空容器并非恒压系统真空容器并非一个恒压系统。恒压系统指的是在外部环境变化时,系统内部压力能够保持相对稳定。然而,在真空容器中,随着气体的不断抽出,内部压力会持续降低,直至达到所需的真空度。因此,真空容器内部的压力是变化的,而非恒
    锦正茂科技 2025-03-29 10:23 156浏览
  • 在智能语音交互设备开发中,系统响应速度直接影响用户体验。WT588F系列语音芯片凭借其灵活的架构设计,在响应效率方面表现出色。本文将深入解析该芯片从接收指令到音频输出的全过程,并揭示不同工作模式下的时间性能差异。一、核心处理流程与时序分解1.1 典型指令执行路径指令接收 → 协议解析 → 存储寻址 → 数据读取 → 数模转换 → 音频输出1.2 关键阶段时间分布(典型值)处理阶段PWM模式耗时DAC模式耗时外挂Flash模式耗时指令解析2-3ms2-3ms3-5ms存储寻址1ms1ms5-10m
    广州唯创电子 2025-03-31 09:26 152浏览
我要评论
0
1
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦