随着大数据时代与人工智能时代的到来,数据规模呈现指数级增长趋势,由于成本、时间和技术的限制,采集到的数据不可避免地会包含不正确标签的数据。人工清洗数据以去除噪声标签的成本是非常高昂的,可见标签噪声问题已经成为深度学习领域继续发展的一大瓶颈,在大量的真实场景中缺乏高质量的标签已经成为一个现实问题。而噪声标签学习允许模型在一定噪声存在的情况下进行学习,提升模型对于不完美数据的适应能力,使模型在面对真实世界数据时更加健壮。噪声标签学习的发展降低了数据标注成本,有效地推动了深度学习技术在医疗、金融、通信、工业等领域的应用。
噪声标签学习(Noisy Label Learning)是深度学习领域中的一种前沿研究方向,它关注于如何在存在噪声标签(Noisy Labels)的情况下进行有效的模型训练。噪声标签是指那些不正确或不完全准确的标签,它们可能是由于错误标注、数据收集过程中的不精确性,或是故意的错误标注等原因产生的。
随着训练集标签中的噪声率逐渐增大,噪声对模型泛化能力的负面影响就越强,其原因是参数量大的深度学习模型容易对噪声数据过拟合,从而误导模型参数的优化方向。噪声标签学习的目标是开发出能够识别、适应或抵抗噪声标签影响的算法,以提高模型在真实世界数据上的性能。
常见的噪声学习方法可大体分为三类:基于优化策略的方法、基于目标函数的方法和基于数据的方法。
基于优化策略的抗噪方法大多使用两个或两个以上的网络模型对同批次样本进行预测,并对每个训练样本计算具有共同正则化的联合损失。对于基于优化策略的抗噪方法而言,其关键在于探索与记忆优化的动态过程,该类方法包括Decoupling、Co-teaching、Co-teaching+与JoCoR等等。
图1 基于优化策略的方法示意图
对于每个训练批次的数据,Decoupling方法中的两组模型都会分别进行预测,Decoupling方法会筛选出两组模型预测结果不一致的样本,并根据这些不一致样本计算出模型在训练过程中的损失。Decoupling方法的本质就是利用两组模型之间没有达成一致的样本来更新模型参数。
Co-teaching方法继承了Decoupling方法同时训练两组模型的特点,在每个训练批次中模型会选择损失更小的样本作为干净的有效数据,并且将这些样本传输给另一个模型进行训练。和Decoupling方法相比,Co-teaching方法存在模型之间的知识交换,可以更好地利用模型之间的视角差异。
Co-teaching+方法可以看做是Co-teaching方法和Decoupling方法的结合。Co-teaching+方法首先会找出两组模型预测结果不一致的数据,然后对这些不一致数据使用Co-teaching方法进行训练,从而保证两组模型在训练过程中持续保持一定差异。
区别于前三种模型交替更新的训练方式,JoCoR方法同时出计算两组模型的损失,并更新模型。JoCoR方法的基本思想为两组模型会对大部分干净样本的预测结果是一致的,但对于噪声样本的预测结果大概率是不一致的。
基于目标函数的抗噪方法的关键在于设计具有统计一致性保证的抗噪音损失,从而让分类器在噪声环境下具备较强的鲁棒性。
正则化可以有效防止模型过拟合现象,从而降低模型对噪声数据的拟合程度,可分为显式正则化和隐式正则化。
样本赋权方法通过给噪声数据赋予更小的权重来减轻噪声对模型损失和参数优化的影响,其目标是让噪声数据对应的权重尽可能接近 0,干净数据对应的权重尽可能接近 1。
设计新的鲁棒性损失函数是基于目标函数的抗噪方法中最常用的也是代价相对较小的抗噪方法,常用的抗噪损失有MAE损失、SCE损失、Peer损失等。
使用数据相关方法解决噪声标签问题实质上是在估计噪声转移矩阵,并使用噪声转移矩阵对数据集进行矫正,矫正方法可以分为前向矫正和后向矫正。前向矫正指对模型进行干扰,让被干扰的模型能够拟合噪声数据,噪声转移矩阵可以吸收噪声数据的负面影响,从而让模型具备更强的鲁棒性。后向矫正指矫正噪声标签,然后使用矫正后的标签代替原有标签用于模型训练。前向矫正和后向矫正生效的前提是要获得正确的噪声转移矩阵。除了使用先验知识或小规模干净数据集获得精确噪声转移矩阵外,可以通过添加转移层的端到端训练得到,也可以通过两步法预测得到。
图2 基于数据的抗噪方法示意图
媒资安全检测是指对媒资进行全方位、系统性的安全检查和监测,以确保其内容的安全性、合规性以及防止不良信息的传播。通过对媒资内容的自动化分析,以识别和过滤掉可能存在的恶意内容、违规内容或不良信息。在移动高清天眼监测平台的媒资安全检测中,使用了基于一致性的双模型抗噪方法以应对海量媒资数据中的标签噪声问题,其具体流程如图4所示:
图3 基于一致性的双模型抗噪方法示意图
通过对抗预训练方法可以得到一对预训练模型,其中域相关模型具备识别不同域的能力,提取到的特征中包含了较多的域信息,对域信息敏感;域无关模型具备较强的泛化能力,对域信息不敏感。域相关模型对域信息敏感,在任务对应的目标域中性能更好,利用预训练任务数据集的增强特征能得到更准确地辅助任务伪标签。因此,域相关模型更适合使用特征级别的数据增强以获取一致性。相反,域无关模型具有较强的泛化能力,其较强的泛化能力允许模型对增强后的数据有较好的分类能力,且不容易引入标签噪声。因此,对域无关模型使用文本级别的数据增强。在两组模型交替训练的间隙,对原数据集进行数据筛选,使用JS 散度(Jensen-Shannon Divergence)来衡量伪标签和数据集标注标签之间的差异性,将划分为干净数据集和噪声数据集。
(1)数据利用:噪声标签学习可以利用那些带有噪声标签的数据进行训练,而不是完全丢弃它们,有助于模型在标注数据稀缺的条件下训练。
(2)成本效益:相比于手动清洗大量数据,噪声标签学习提供了一种成本较低的解决方案。
(3)模型泛化:通过学习识别和适应噪声,模型的泛化能力得到提升,使其在面对未见过的数据时表现更好。
(4)鲁棒性:噪声标签学习提高了模型对于输入噪声的鲁棒性,这对于现实世界的应用至关重要。
(1)过拟合风险:噪声标签学习的一个主要挑战是模型可能会对噪声标签过拟合,导致其在未见过的测试数据上表现不佳。
(2)性能限制:一些噪声鲁棒的损失函数虽然可以减少过拟合,但也存在对数据欠拟合的问题,尤其是在数据复杂或类别众多的情况下。
(3)计算成本:某些噪声标签学习方法可能需要额外的计算资源,例如多次迭代训练或使用复杂的正则化技术。
(4)超参数调整:噪声标签学习算法通常涉及更多的超参数,这可能需要精心的调整以获得最佳性能。
(5)噪声类型限制:现有的方法可能对某些类型的噪声标签更有效,而对其他类型的噪声标签效果不佳。