【光电智造】自监督学习看这篇就够了！

今日光电 2024-10-01 18:01 568浏览 0评论 0点赞

从清华教授到企业高管，这场大会把 MATLAB/Simulink 前沿应用讲透了 芯片验证资源焦虑？云方案一招破解

今日光电

有人说，20世纪是电的世纪，21世纪是光的世纪；知光解电，再小的个体都可以被赋能。追光逐电，光赢未来...欢迎来到今日光电！

----追光逐电光赢未来----

我的博士课题是自监督学习(Self-supervised Learning)方法在计算机视觉表示学习领域的应用。作为一个新名词，自监督学习实际上与监督学习、非监督学习、半监督学习并没有本质上的鸿沟。

Ps: 我个人是不太喜欢科学界命名新技术的风格，给一些旧技术的新衍生冠以高大上的名字会让初学者对于这个领域感到很混乱，而事实上很多名词是交集或者子集的关系。我对于整个机器学习领域的技术分类迷茫了很久看了很多才慢慢理清楚，有机会给大家整理一个Node Map。当然，取名字是Hinton、Bengio这些大佬的事。。。万一哪天人家给RL改名叫Guess Learning/Try Learning >.<

自监督学习(Self-supervised Learning)是何方神圣？

1.1 自监督学习与监督学习、非监督学习的关系

样本特征在学习过程中至关重要。在简单的数据挖掘任务中，重要的数据特征是人工设计的。这些功能通常称为Hand-crafted features。在计算机视觉领域，这种类型的表示通常要求我们设计合适的函数以从图像或视频中提取所需的信息。但是，这些功能通常来自人类有关视觉任务中关键信息的经验，这导致手工制作的功能无法表示高级语义信息。例如，在早期工作中提出了各种视觉描述符，例如SIFT算子，HOG算子等等来表示有关对象边缘，纹理等的视觉信息。此外，由于设计函数的复杂度限制，这种类型的表示能力通常相对较低，并且提出新的hand-crafted features并非易事。

总而言之，hand-crafted features在早期视觉任务中取得了一些成功，但是随着问题的复杂性增加，它逐渐无法满足我们的需求。随着卷积神经网络的普及以及数据大小的指数增长，在完全监督的任务中，自动提取的表示形式逐渐取代了效率低下的hand-crafted features。在完全监督模型中，通过反向传播解决了以神经网络和监督损失函数为代表的全局优化问题。大量带注释的图像和视频数据集以及日益复杂的神经网络结构使诸如图像分类和对象检测之类的完全受监督的任务成为可能。之后，经过训练的模型的中间特征图通常包含与特定任务相关的语义有意义的信息，这些信息可以传递给类似的问题。

但是，手动数据注释是监督学习中必不可少的步骤，这是耗时，费力且有噪声的。与有监督的方法不同，无监督的方法不依赖于人类注释，并且通常集中在数据良好表示（例如平滑度，稀疏性和分解）的预设先验上。无监督方法的经典类型是聚类方法，例如高斯混合模型，它将数据集分解为多个高斯分布式子数据集。然而，非监督学习学习由于预设先验的一般性较差而不太值得信赖，在某些数据集（例如非高斯子数据集）上选择将数据拟合为高斯分布可能是完全错误的。

自我监督方法可以看作是一种具有监督形式的特殊形式的非监督学习方法，这里的监督是由自我监督任务而不是预设先验知识诱发的。与完全不受监督的设置相比，自监督学习使用数据集本身的信息来构造伪标签。在表示学习方面，自我监督学习具有取代完全监督学习的巨大潜力。人类学习的本质告诉我们，大型注释数据集可能不是必需的，我们可以自发地从未标记的数据集中学习。更为现实的设置是使用少量带注释的数据进行自学习。这称为Few-shot Learning。

1.2 自监督学习的主要流派

在自监督学习中，如何自动获取伪标签至关重要。根据伪标签的不同类型，我将自我监督的表示学习方法分为4种类型：基于数据生成(恢复)的任务，基于数据变换的任务，基于多模态的任务，基于辅助信息的任务。这里简单介绍第一类任务。事实上，所有的非监督方法都可以视作第一类自监督任务，在我做文献调研的过程中，我越发的感觉到事实上非监督学习和自监督学习根本不存在界限。

所有的非监督学习方法，例如数据降维(PCA:在减少数据维度的同时最大化的保留原有数据的方差)，数据拟合分类(GMM: 最大化高斯混合分布的似然)，本质上都是为了得到一个良好的数据表示并希望其能够生成(恢复)原始输入。这也正是目前很多的自监督学习方法赖以使用的监督信息。基本上所有的encoder-decoder模型都是以数据恢复为训练损失。

图片上色与视频预测

2.1 什么是基于数据恢复的自监督任务？

第一类任务也是使用最多的一类任务：数据生成任务。

自监督学习的出发点是考虑在缺少标签或者完全没有标签的情况下，依然学习到能够表示原始图片的良好有意义的特征。那么什么样的特征是良好有意义的呢？在第一类自监督任务——数据恢复任务中，能够通过学习到的特征还原生成原始数据的特征，我们认为是良好有意义的。看到这里，实际上大家能够联想到自动编码器类的模型，甚至更简单的PCA。实际上，几乎所有的非监督学习方法都是以这个原则作为基础的。现在十分流行的深度生成模型VAE(后面我会写一篇文章住专门介绍VAE，还在草稿箱里待着。。。)甚至更火的GAN也可以归为这一类方法。

GAN的核心是通过Discriminator去缩小Generator distribution和real distribution之间的距离。GAN的学习过程不需要人为进行数据标注，其监督信号也即是优化目标就是使得上述对抗过程趋向平稳(Goodfellow 想出这个点子真的天才)。

这里我们以两篇具体的paper为例子，介绍数据恢复类的自监督任务如何操作实现。我们的重点依然是视觉问题，这里分别介绍一篇图片上色的文章和一篇视频预测的文章。其余的领域比如NLP，其本质是类似的，在弄清楚了数据本身的特点之后，可以先做一些低级的照猫画虎的工作。

2.2 图片色彩恢复——瓢虫是红色的吗？

设计自监督任务时需要一些巧妙的思考。比如图片色彩恢复任务，我们已有的数据集是一张张的彩色图片，假如去掉色彩，作为感性思考者的我们，是否能够从黑白图片中显示的内容推测原来图片真实的色彩？对于一个婴儿来说可能很难，但是对于我们来说，生活的经历告诉我们瓢虫应当是红色的(下图第二行中)。我们是如何做出预测的？事实上，我们通过观察大量的瓢虫，在脑中建立了从“瓢虫”到“红色”的映射。

把这个学习过程推广到我们的模型上，在给定黑白输入的情况下，我们用正确的彩色的原始图像作为学习的标签，从而模型会试着理解原始黑白图像中“每个区域”是“什么”进而去建立从是“什么”到“不同颜色”的映射。

当我们完成训练，模型的中间层feature map就得到了类似人脑对于“瓢虫”以及其他物体的记忆，以向量的形式。

2.3 视频预测——下一秒你会在哪里？

一般来说，视觉问题分成图片和视频两大类，图片数据可以认为具有i.i.d特性，而视频是由多个图片帧构成的，可以认为具有一定的Markov dependency，时序关系是他们之间最大的不同。比如最简单的思路，利用CNN提取单张图片特征可以做图片分类，再加入一个RNN或者LSTM去刻画Markov Dependency，便可以应用到视频上。

视频预测任务十分的耿直。怎么形容呢，他就是那种，你知道的，我们说视频中帧与帧之间存在时空连续性。类似的，人类会利用这种帧与帧之间的连续性，当我们看电影时突然按了暂停，下一秒下几秒会发生什么实际上我们是可以预测的。

同样，把这个学习过程推广到我们的模型上，在给定前一帧或者前几帧的情况下，我们用后续的视频帧作为学习的标签，从而模型会试着理解给定视频帧中的语义信息(发生了啥？)进而去建立从当前到未来的映射关系。