人工智能已经成为未来数十年的重大科技发展方向之一,在经过了前面五年左右的突破、落地以后,现在AI的发展似乎越来越深入。现在我们总结人工智能技术领域在2021年发布的十大技术。
1、Tensorflow 3D
2 月,谷歌发布了Tensorflow 3D,将深度学习模型升级到 3D 空间,实现 3D 场景理解,可用于虚拟现实、图像中的点云应用、激光雷达和自我视觉-自动驾驶汽车。
在过去几年中,3D 传感器(例如,激光雷达、深度传感相机和雷达) 日益普及,从而产生了对能够处理这些设备捕获的数据的场景理解技术的需求。这种技术可以使使用这些传感器的机器学习 (ML) 系统(如自动驾驶汽车和机器人)在现实世界中导航和操作,并可以在移动设备上创建改进的增强现实体验。计算机视觉领域最近开始在 3D 场景理解方面取得良好进展,包括用于移动 3D 对象检测的模型、透明对象检测等,但由于可应用于 3D 数据的可用工具和资源有限,进入该领域可能具有挑战性。
为了进一步提高对 3D 场景的理解并降低感兴趣的研究人员的进入门槛,谷歌研发了TensorFlow 3D (TF 3D),这是一个高度模块化且高效的库,旨在将 3D 深度学习功能引入 TensorFlow。TF 3D 提供了一组流行的操作、损失函数、数据处理工具、模型和指标,使更广泛的研究社区能够开发、训练和部署最先进的 3D 场景理解模型。
TF 3D 包含用于最先进的 3D语义分割、3D对象检测和 3D实例分割的训练和评估管道,并支持分布式训练。它还支持其他潜在应用,如 3D 对象形状预测、点云配准和点云致密化。此外,它还为标准 3D 场景理解数据集的训练和评估提供了统一的数据集规范和配置。它目前支持Waymo Open、ScanNet和Rio数据集。但是,用户可以自由转换其他流行的数据集,例如NuScenes和Kitti采用类似的格式并在预先存在的或自定义创建的管道中使用它们,并且可以利用 TF 3D 进行各种 3D 深度学习研究和应用,从快速原型设计和尝试新想法到部署真实的时间推理系统。
2、SEER
3 月,Facebook(自 10 月起成为 Meta)发布了名为SEER的自我监督学习,它能够完成识别文本、图像和其他主要在社交媒体中可用的非结构化数据的无监督任务。SEER 建立在 ImageNet 之上,该 ImageNet 对十亿个随机、未标记和未策划的公共 Instagram 图像进行了预训练。
3、欧盟的人工智能伦理法规
4月,欧盟提出了新的人工智能法规,为该地区的人工智能横向提供法律框架。拟议的法律框架侧重于人工智能系统的具体利用和相关风险。
这项人工智能(AI)法规,旨在将欧洲变打造值得信赖的人工智能(AI)的全球中心。欧盟有史以来第一个人工智能的法律框架与欧盟成员国的协调计划相结合,将保证人们和企业的安全和基本权利,同时加强欧盟对人工智能的吸收、投资和创新。新法规将调整安全规范,以增加使用者对新一代多功能产品的信任。
新的人工智能法规将确保欧洲人民可以信任人工智能产品。相称和灵活的规则旨在解决人工智能系统带来的具体风险,并在全球范围内设定最高标准。协调计划(The Coordinated Plan)概述了欧盟成员国必要的政策改变和投资,以加强欧洲在发展以人为本、永续、安全、包容和值得信赖的人工智能方面的领先地位。
新的法规基于人工智能发展趋势,依据风险高低分类,将适用于所有欧盟成员国。
不可接受的风险(Unacceptable risk):被认为对人们的安全、生计和权利有明显威胁的人工智能系统将被禁止。这包括操纵人类行为以规避用户自由意志的人工智能系统或应用(例如,使用语音辅助的玩具,鼓励未成年人的危险行为)和允许政府进行「社会评分(social scoring)」的系统。
4、Vertex AI
5 月,谷歌发布了 Vertex AI,它与谷歌云服务集成,可以使用基于视觉、视频、自然语言等预训练 API的自动化 ML (或 AutoML)的强大功能构建 ML。使用 Vertex,通过简化编码(低代码开发)消除了运行 ML 管道的复杂性。
5、微软GitHub Copilot
6 月,微软的 GitHub 发布GitHub Copilot,它使用户能够通过自动完成来加速编码。自动完成是,在有人完成他们的代码之前,GitHub Copilot 将自行完成代码。
6、DeepMind蛋白质预测,疾病治疗和开发新药
7 月,谷歌的DeepMind 使用一年前开发的 AlphaFold AI 系统发布了超过 350,000 种蛋白质的形状预测。据称,该数据库可以在许多方面发生革命性变化,例如提高疾病治疗和开发新药的能力。
7、GAN草图
8 月,卡内基梅隆大学和麻省理工学院的研究人员发表了一项开创性的发明,即一种新型的生成对抗网络 (GAN),它只能通过绘制草图来生成模仿图像,他们称之为 GAN 草图。
8、NVIDIA的NLG
10 月,NVIDIA 结合了两个强大的语言转换器,创建了超越 OpenAI 强大的 GPT-3的Megatron-Turing 自然语言生成(NLG)。该 Transformer 模型旨在通过GPU 加速基于数千亿自然语言标记将训练效率提高 10 倍。
9、NVIDIA的StyleGAN3
11 月,NVIDIA 再次发布了名为StyleGAN3的下一代 GAN ,它可以生成模仿人类照片几乎 99.9% 逼真。
典型的 GAN 具有分层卷积性质,但它们的合成过程过度依赖于绝对像素坐标。这就导致图像细节会粘连在坐标上,而不在描述对象的表面。因此,英伟达的研究者探究导致生成器网络中出现混叠的 careless 信号处理的根本原因。通过将网络中所有信号解读为连续性,他们进行了普遍适用的、小的架构变化,保证多余信息不会参与分层合成过程,并由此得到了 StyleGAN3。
与 StyleGAN2 相比,StyleGAN3 获得了类似的 FID,但内部表征存在显著差异,并在亚像素尺度上实现了真正的图像平移和旋转不变性,从而大幅度提升生成图像的质量。研究者在论文中表示,StyleGAN3 为更适用于视频和动画的生成模型铺平了道路。
有关人工智能的前沿技术可以关注我们或联系作者(微信同名)加入讨论群获得更多资源。
10、Gopher自然语言转换器模型
12 月,DeepMind 发布了另一个名为Gopher的自然语言转换器模型,可以在人机交互中合成响应。
2800 亿参数,接近人类阅读理解能力
在探索语言模型和开发新模型的过程中,DeepMind 探索了 6 个不同大小的 Transformer 语言模型,参数量从 4400 万到 2800 亿不等,架构细节如表 1 所示。其中参数量最大的模型被命名为 Gopher,具有 2800 亿参数,他们并将整个模型集称为 Gopher 家族。这些模型在 152 项不同的任务上进行了评估,在大多数情况下实现了 SOTA 性能。此外,DeepMind 还提供了对训练数据集和模型行为的整体分析,涵盖了模型规模与偏差等。最后,DeepMind 讨论了语言模型在 AI 安全和减轻下游危害方面的应用。