重新思考图像超分辨率中的不平衡问题以实现高效推理(nips2024)

BOE知识酷 2025-02-17 11:50

图片

知识酷Pro 👆
学显示行业知识
找小酷!
图片

第1849篇推文
图片

来源:人工智能前沿讲习

本文约5100字,建议阅读10分钟

本文提出了一种梯度投影动态推理策略,以促进推理过程中的准确高效重建。


前言现有的超分辨率 (SR) 方法使用 L1 或 L2 损失函数,通过均匀采样图像块来平等地优化所有模型权重,而没有考虑数据集不平衡或参数冗余,这限制了它们的性能。为了解决这个问题,本文从统计概率的角度将图像 SR 任务表述为不平衡分布迁移学习问题,并提出了一种即插即用的权重平衡框架 (WBSR) 用于图像 SR,以实现平衡的模型学习,而无需改变原始模型结构或训练数据,开发了一种分层均衡采样 (HES) 策略来解决数据分布不平衡问题,从而从纹理丰富的样本中获得更好的特征表示。为了解决模型优化不平衡问题,提出了一种平衡多样性损失 (BDLoss) 函数,重点关注学习纹理区域,同时忽略平滑区域中的冗余计算。在对 HES 和 BDLoss 进行联合训练以纠正这些不平衡之后,提出了一种梯度投影动态推理策略,以促进推理过程中的准确高效重建。


论文题目
Rethinking Imbalance in Image Super-Resolution for Efficient Inference


1、简介


现实世界中数据分布和模型优化普遍存在的不平衡问题限制了当前图像超分辨率算法的性能,从统计概率的角度将图像超分辨率任务表述为一个不平衡分布迁移学习问题。为了弥合差距,提出了一种即插即用的权重平衡框架,称为 WBSR,以实现平衡的模型学习,而无需额外的计算成本,这在不改变原始模型结构和训练数据的情况下,提高了模型的恢复效果和推理效率,如图 1 (c) 所示,为了解决数据分布不平衡的问题,我们开发了一种分层均衡采样 (HES) 策略,使纹理丰富的样本能够更好地表示特征,从而减轻数据偏差。然后,为了解决模型优化不平衡的问题,提出了一种平衡多样性损失 (BDLoss) 函数,专注于学习纹理区域,同时忽略光滑区域中的冗余计算。在 WBSR 中对 HES 和 BDLoss 进行联合训练以纠正这些不平衡后,提出了一种梯度投影动态推理策略,以促进准确高效的推理。


做出了以下三个关键贡献:


(1)本文首次尝试探索图像超分辨率领域的不平衡问题,并从概率统计的角度给出了合理的分析,即数据分布和模型优化的不平衡限制了算法性能。

(2) 提出了一种基于 HES 和 BDLoss 的即插即用权重平衡框架 WBSR,以在不增加额外计算成本的情况下实现平衡训练,从而在不改变原始模型结构和训练数据的情况下提高模型的恢复效果和推理效率。

(3) 在各种模型、数据集和尺度因子上的大量实验表明,方法在计算成本更低的情况下,实现了与现有方法相当或更好的性能。


2、背景


图像超分辨率 (SR) 旨在从低分辨率 (LR) 图像中重建具有更多细节的高分辨率 (HR) 图像。近年来,基于深度学习的图像 SR 方法通过更深的网络模型和大规模训练数据集在重建性能方面取得了显著进展,但这些改进对计算能力和内存资源提出了更高的要求,因此需要更有效的解决方案,各种技术如剪枝、量化、知识蒸馏以及轻量级架构设计,已被广泛研究以加速推理,并满足资源受限平台上部署推理的要求。然而,这些方法依赖于静态网络公平地处理所有输入样本,忽略了不同样本对网络计算成本的不同需求,这限制了模型的表示能力。


相比之下,基于动态神经网络的方法可以动态调整网络结构或参数,降低平均计算成本,近年来成为主流研究方向。这些方法可以根据输入样本的内容在推理过程中自适应地分配具有合适计算成本的网络。尽管这些动态网络解决方案取得了进展,但实际应用仍然受到两个普遍限制的阻碍:


数据分布不平衡。现有的 SR 方法主要使用均匀采样的 LR-HR 图块对来训练模型,而不是使用整张图像,这是由于内存资源的限制。然而,它们忽略了图像中图块内容存在不平衡分布这一基本事实(即,大量易于重建的平滑区域和稀少的难以重建的边缘纹理区域),导致固有的数据偏差。图 1 (a) 显示,容易平坦区域(48.8%)的数量比例远大于坚硬纹理区域(16.6%)。



模型优化不平衡。当前的超分辨率方法通常采用 L1 或 L2 损失函数来平等地对待所有图像块区域并优化每个权重,这缺乏对模型训练的合理优化。由于低分辨率图像中丢失的细节主要存在于边缘和纹理位置,因此模型在处理这些平滑图像块时需要更少的计算资源。因此,现有的超分辨率方法在平坦区域存在冗余计算,这会导致模型在简单区域过拟合,在复杂区域欠拟合,并导致模型计算资源分配不均匀,如图 1 (b) 所示。对于同一图像,优化的RCAN模型在平滑背景区域(绿色框,误差像素仅占0.08%)表现出过拟合,而在纹理前景区域(红色框,误差像素高达52%)表现出明显的欠拟合。


3、理论分析


令 x 和 y 表示 LR 和 HR 图块,L1 损失为例(注意理论适用于 L2),SR 任务的优化目标可以写成



其中 yˆ = fθ(x) 表示使用 SR 模型 fθ 从 LR x 估计的 SR 结果。θ 表示模型参数。pdata 表示数据分布空间。其目标是将整个数据集中预测图像与真实图像之间的所有绝对误差最小化。基于训练集分布不平衡而独立测试集平衡的自然假设 ,设定训练数据和测试数据分别来自不同的联合数据分布 ptrain(x, y) 和 pbal(x, y)。由于超分辨率任务中固定的下采样降级,条件概率 p(x|y) 在训练集和测试集中是相同的。


从概率的角度来看,SR 网络的预测 yˆ 被认为是噪声预测分布的均值,该分布可以建模为高斯分布。



其中 σnoise2     表示独立分布的误差项的方差。预测值 yˆ 可以被视为噪声预测分布的均值。等式 2 可以解释为等式 1 的分布形式,对应于预测分布回归中最大化的负对数似然 (NLL) 损失。因此,由 L1 训练的预测模型实际上捕获了整个解空间的均值,即训练集的分布。


定理 1(分布变换). 考虑到ptrain(y|x)和pbal(y|x)之间由于分布偏移导致的不一致。鉴于训练集和测试集具有相同的条件概率 p(x|y),利用贝叶斯规则 p(y|x) ∝ p(x|y) · p(y) 通过变量替换建立如下关系:



该定理表明,不平衡问题的存在源于ptrain(y|x)和ptrain(y)之间的正比关系,其比例为pptrainbal((xx))  当训练集中特定类型的补丁样本出现频率较低时,即ptrain(y)较低时,ptrain(y|x)的值也会下降,导致预测准确率下降。因此,训练后的超分辨率模型在预测时往往会低估稀有补丁的出现。同时,考虑到 ptrain(y|x) 的积分等于 1,可以得到



其中 Y 表示整个训练样本空间,将公式 3 代入公式 4,通过显式分布变换来建模两个分布之间的关系。



其中 y′ 表示积分变量。与之前专注于建模 ptrain(y|x) 的工作不同,本文的目标是估计 pbal(y|x) 以实现测试集上的平衡预测。上述理论证明了由不平衡数据分布和损失函数引起的不平衡模型优化是合理的。因此本文的方法旨在纠正这种不平衡,而无需引入额外的数据集或计算成本。


4、方法


4.1 权重平衡训练框架



基于观察到的现象和分析,图像超分辨率的不平衡模型优化无疑限制了模型的重建性能,尤其是在罕见的困难纹理块上。从数据采样和优化函数两个方面考虑获得具有平衡权重的鲁棒模型表示。图 2 (a) 说明了所提框架(称为 WBSR)的训练过程,该框架包含两个主要组件:分层均衡采样 (HES) 和均衡多样性损失 (BDLoss)。给定来自训练集的输入 LR 补丁,使用 HES 采样一批近似均衡的补丁,使用 BDLoss Lbd 优化每个子网模型。总体的优化目标是



其中 Smθ 表示具有参数 θm 的超网络中的第 m 个子网络。采用分治优化策略来学习近似平衡的权重,通过确保超网络中的每个子网络都得到良好优化来最小化整体目标。每个具有不同计算成本的子网络共享超网络的权重,旨在处理不同复杂度的图像块,这不会引入阻碍推理速度的额外复杂性。


4.1.1 分层均衡抽样


在没有先验数据分类的情况下,提出了一种简单而有效的层次均衡采样 (HES) 策略,该策略利用了图像块的内在梯度信息,对困难类和容易类进行样本级采样和类级采样,以实现丰富简单样本和稀有困难样本之间的均衡。


样本级采样是指从训练数据集中均匀采样补丁。在训练阶段,每个样本以相等的概率被采样,其概率为  Pi = N1 。i 表示第 i 个样本。N 表示训练补丁样本的总数。它确保模型在训练初期学习到稳定的初始权重,从而捕获不同样本类型中的通用特征。


类级别采样旨在为稀有困难样本分配更高的采样概率。与类别数量确定的图像分类任务不同,图像超分辨率中的样本未分类且数量未知。为了解决这个问题,在线计算梯度向量,该向量包含输入样本在水平和垂直方向上的梯度幅度的均值和标准差,从而评估样本的重建难度,然后使用向量阈值t对样本进行分类,以获得采样概率。第 k 类别的阈值定义如下:



其中 K 表示类别数。t1 和 tK 分别表示最简单和最难类别的梯度阈值。第 k 个类别的样本数对应于梯度向量落在 tk−1 到 tk 范围内的 Nk 个样本。采样可能性 Pk 可以通过以下公式计算:



其中 δ ∈ (0, 1) 表示指数因子,用于通过减少样本数量来避免对简单数据的过度拟合。它使采样的批次训练数据包含来自困难类别的样本,从而实现均衡的数据采样。

所提出的分层均衡采样策略的核心概念是解决由固有失衡引起的数据偏差,即困难样本在视觉上比平滑样本更重要。在训练和测试期间,可以使用现有的梯度算子快速导出图像块的梯度向量。因此HES方法不会增加任何额外的计算负担,并有效地利用数据集信息来增强模型对难样本的特征表示能力。


4.1.2 平衡多样性损失


先前方法中常用的 L1 和 L2 损失函数平等地对待所有补丁,并对每个权重参数进行梯度更新,这忽略了参数冗余,导致对简单补丁过拟合,对稀有困难补丁欠拟合。为了实现对多样性补丁的合理模型优化,提出了一种新颖的平衡多样性损失函数 (BDLoss),以学习近似平衡的模型权重,该损失函数通过利用训练分布进行分布转换,无需额外数据即可实现平衡预测。根据定理 1,首先通过最小化 NLL 损失来估计所需的 pbal(y|x)。



定义 1. 为了平衡模型多样性预测的不确定性和避免过度优化,BDLoss 被定义为似然函数



其中 log ptrain(y|x; θ) 表示为了获得平衡模型权重而转换的条件概率 θ。|| · ||2 表示 L2 正则化函数,用于防止模型过拟合。λ 代表正则化系数,根据公式 9 推导出 Lbd 的实现



其中 log ptrain(y) 是可以省略的常数项。第一个剩余项是 L1 损失的概率形式,如公式 2 所示。log RY N (y′; yˆ, σnoise2 I) · ptrain(y′)dy′ 的最后一项表示服从高斯分布的关键多样性平衡项,它涉及积分运算,需要找到一个封闭形式的表达式。


基于先前分类任务的设计,利用高斯混合模型 (GMM) 技术来表示常数项。



其中 L 表示高斯分量的数量。ϕ、µ、σ 分别表示多维 GMM 的权重、均值和协方差。由于两个高斯函数的乘积会得到另一个非归一化的高斯函数,因此多样性平衡项可以表示为



其中 si、μ̃ 和 Σ˜ 分别是所得未归一化高斯的范数、均值和协方差。现在,平衡多样性项的积分服从高斯分布,可以直接求解,因此可以如下推导出 Eq. 10 中的 BDLoss:



4.2 梯度投影动态推理


图 2 (b) 说明了WBSR 框架的测试过程,提出了一种梯度投影动态推理策略,以实现效率和性能的动态平衡。它通过根据输入内容计算梯度投影图,自适应地分配子网模型,而不会增加任何额外的参数。


梯度投影,具有复杂(简单)结构的图像块表现出高(低)图像梯度幅度,并且在 SR 尺度变化时不会遭受更多(更少)的得分下降,计算梯度向量以衡量图像块内容的复杂性,并在线构建梯度投影图,将图像块的梯度向量投影到每个子网模型的选择上。在推理时,每个图像块可以根据其梯度向量选择合适的子网。当图像块中存在低分辨率噪声时,边缘检测方法会忽略图像块的局部复杂性,导致漏检,从而错误地将图像块归类为简单样本。通过直接计算标准差来统计梯度强度的变化,当图像块局部区域存在大量噪声或不同强度的纹理变化时,它仍然可以被正确地归类为困难样本。如图 3 所示,黄色方框表示局部纹理变化区域,可以直观地看出,梯度投影方法可以准确地区分局部平滑区域或纹理区域,并将它们分配到相应的较小或较大子网络。



动态推理。为了便于模型在任何硬件资源上的部署,动态超网络包含多个子网络,通过结构化的迭代逐步缩减模型计算,以动态适应各种计算和性能需求。在推理过程中,采用动态超网络将K类的图像块分别分配到M个子网络,以获得更好的计算性能折衷。给定一个新的 LR patch,首先计算其梯度向量并根据阈值 t 推导出其类别 kˆ。然后,通过将梯度向量区间平均分成 M 个子区间,可以轻松获得用于推理的选定子网,可以表示为



其中 m ∈ [1, M ] 表示用于重建该 LR 补丁的选定子网的索引。⌈·⌉ 表示向上取整函数,倾向于选择较大的子网。然而,较大的子网选择会导致更高的性能,但计算量也更大,进一步考虑在有限的计算资源下选择推理子网 Ct。



其中,mˆ 表示所选的最佳


在资源受限的情况下,子网分配问题。Cm 表示第 m 个子网的计算成本。α 是一个超参数,用于在计算成本和性能之间取得平衡,其中较高的值优先考虑提高性能,而较低的值则偏向于减少计算开销。因此 WBSR 框架可以根据实际性能和硬件资源需求灵活调整,以适应不同的应用场景。


5、实验


1)和其他SOTA方法在GoPro和H2D数据集上的定量比较结果



2)与其他方法在四个测试数据集上对×4 SR的定性比较结果



3)WBSR在×4 SR两个基准上的消融研究



4)与其他采样策略的定量比较结果



编辑:于腾凯
校对:丁玺茗



BOE知识酷 欢迎加入知识酷Pro,分享显示行业知识、最新黑科技、办公软件技巧等。
评论 (0)
  • 行业痛点:电动车智能化催生语音交互刚需随着全球短途出行市场爆发式增长,中国电动自行车保有量已突破3.5亿辆。新国标实施推动行业向智能化、安全化转型,传统蜂鸣器报警方式因音效单一、缺乏场景适配性等问题,难以满足用户对智能交互体验的需求。WT2003HX系列语音芯片,以高性能处理器架构与灵活开发平台,为两轮电动车提供从基础报警到智能交互的全栈语音解决方案。WT2003HX芯片技术优势深度解读1. 高品质硬件性能,重塑语音交互标准搭载32位RISC处理器,主频高达120MHz,确保复杂算法流畅运行支持
    广州唯创电子 2025-04-10 09:12 201浏览
  • 文/Leon编辑/侯煜‍关税大战一触即发,当地时间4月9日起,美国开始对中国进口商品征收总计104%的关税。对此,中国外交部回应道:中方绝不接受美方极限施压霸道霸凌,将继续采取坚决有力措施,维护自身正当权益。同时,中国对原产于美国的进口商品加征关税税率,由34%提高至84%。随后,美国总统特朗普在社交媒体宣布,对中国关税立刻提高至125%,并暂缓其他75个国家对等关税90天,在此期间适用于10%的税率。特朗普政府挑起关税大战的目的,实际上是寻求制造业回流至美国。据悉,特朗普政府此次宣布对全球18
    华尔街科技眼 2025-04-10 16:39 145浏览
  • 背景近年来,随着国家对资源、能源有效利用率的要求越来越高,对环境保护和水处理的要求也越来越严格,因此有大量的固液分离问题需要解决。真空过滤器是是由负压形成真空过滤的固液分离机械。用过滤介质把容器分为上、下两层,利用负压,悬浮液加入上腔,在压力作用下通过过滤介质进入下腔成为滤液,悬浮液中的固体颗粒吸附在过滤介质表面形成滤饼,滤液穿过过滤介质经中心轴内部排出,达到固液分离的目的。目前市面上的过滤器多分为间歇操作和连续操作两种。间歇操作的真空过滤机可过滤各种浓度的悬浮液,连续操作的真空过滤机适于过滤含
    宏集科技 2025-04-10 13:45 119浏览
  • 政策驱动,AVAS成新能源车安全刚需随着全球碳中和目标的推进,新能源汽车产业迎来爆发式增长。据统计,2023年中国新能源汽车渗透率已突破35%,而欧盟法规明确要求2024年后新能效车型必须配备低速提示音系统(AVAS)。在此背景下,低速报警器作为车辆主动安全的核心组件,其技术性能直接关乎行人安全与法规合规性。基于WT2003H芯片开发的AVAS解决方案,以高可靠性、强定制化能力及智能场景适配特性,正成为行业技术升级的新标杆。WT2003H方案技术亮点解析全场景音效精准触发方案通过多传感器融合技术
    广州唯创电子 2025-04-10 08:53 232浏览
  •   海上电磁干扰训练系统:全方位解析      海上电磁干扰训练系统,作为模拟复杂海上电磁环境、锻炼人员应对电磁干扰能力的关键技术装备,在军事、科研以及民用等诸多领域广泛应用。接下来从系统构成、功能特点、技术原理及应用场景等方面展开详细解析。   应用案例   系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。   一、系统构成   核心组件   电磁信号模拟设备:负责生成各类复杂的电磁信号,模拟海上多样
    华盛恒辉l58ll334744 2025-04-10 16:45 183浏览
  • 行业变局:从机械仪表到智能交互终端的跃迁全球两轮电动车市场正经历从“功能机”向“智能机”的转型浪潮。数据显示,2024年智能电动车仪表盘渗透率已突破42%,而传统LED仪表因交互单一、扩展性差等问题,难以满足以下核心需求:适老化需求:35%中老年用户反映仪表信息辨识困难智能化缺口:78%用户期待仪表盘支持手机互联与语音交互成本敏感度:厂商需在15元以内BOM成本实现功能升级在此背景下,集成语音播报与蓝牙互联的WT2605C-32N芯片方案,以“极简设计+智能交互”重构仪表盘技术生态链。技术破局:
    广州唯创电子 2025-04-11 08:59 170浏览
  •   卫星故障预警系统软件:卫星在轨安全的智能护盾   北京华盛恒辉卫星故障预警系统软件,作为确保卫星在轨安全运行的关键利器,集成前沿的监测、诊断及预警技术,对卫星健康状况予以实时评估,提前预判潜在故障。下面将从核心功能、技术特性、应用场景以及发展走向等方面展开详尽阐述。   应用案例   目前,已有多个卫星故障预警系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润卫星故障预警系统。这些成功案例为卫星故障预警系统的推广和应用提供了有力支持。   核心功能   实时状态监测:
    华盛恒辉l58ll334744 2025-04-09 19:49 185浏览
  • 由西门子(Siemens)生产的SIMATIC S7 PLC在SCADA 领域发挥着至关重要的作用。在众多行业中,SCADA 应用都需要与这些 PLC 进行通信。那么,有哪些高效可行的解决方案呢?宏集为您提供多种选择。传统方案:通过OPC服务器与西门子 PLC 间接通信SIMATIC S7系列的PLC是工业可编程控制器,能够实现对生产流程的实时SCADA监控,提供关于设备和流程状态的准确、最新数据。S7Comm(全称S7 Communication),也被称为工业以太网或Profinet,是西门
    宏集科技 2025-04-10 13:44 130浏览
  •     前几天同事问我,电压到多少伏就不安全了?考虑到这位同事的非电专业背景,我做了最极端的答复——多少伏都不安全,非专业人员别摸带电的东西。    那么,是不是这么绝对呢?我查了一下标准,奇怪的知识增加了。    标准的名字值得玩味——《电流对人和家畜的效应》,GB/T 13870.5 (IEC 60749-5)。里面对人、牛、尸体分类讨论(搞硬件的牛马一时恍惚,不知道自己算哪种)。    触电是电流造成的生理效应
    电子知识打边炉 2025-04-09 22:35 242浏览
  • 什么是车用高效能运算(Automotive HPC)?高温条件为何是潜在威胁?作为电动车内的关键核心组件,由于Automotive HPC(CPU)具备高频高效能运算电子组件、高速传输接口以及复杂运算处理、资源分配等诸多特性,再加上各种车辆的复杂应用情境等等条件,不难发见Automotive HPC对整个平台讯号传输实时处理、系统稳定度、耐久度、兼容性与安全性将造成多大的考验。而在各种汽车使用者情境之中,「高温条件」就是你我在日常生活中必然会面临到的一种潜在威胁。不论是长时间将车辆停放在室外的高
    百佳泰测试实验室 2025-04-10 15:09 109浏览
  • 技术原理:非扫描式全局像的革新Flash激光雷达是一种纯固态激光雷达技术,其核心原理是通过面阵激光瞬时覆盖探测区域,配合高灵敏度传感器实现全局三维成像。其工作流程可分解为以下关键环节:1. 激光发射:采用二维点阵光源(如VCSEL垂直腔面发射激光器),通过光扩散器在单次脉冲中发射覆盖整个视场的面阵激光,视场角通常可达120°×75°,部分激光雷达产品可以做到120°×90°的超大视场角。不同于传统机械扫描或MEMS微振镜方案,Flash方案无需任何移动部件,直接通过电信号控制激光发射模式。2.
    robolab 2025-04-10 15:30 139浏览
  •   天空卫星健康状况监测维护管理系统:全方位解析  在航天技术迅猛发展的当下,卫星在轨运行的安全与可靠至关重要。整合多种技术,实现对卫星的实时监测、故障诊断、健康评估以及维护决策,有力保障卫星长期稳定运转。  应用案例       系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。  一、系统架构与功能模块  数据采集层  数据处理层  智能分析层  决策支持层  二、关键技术  故障诊断技术  
    华盛恒辉l58ll334744 2025-04-10 15:46 117浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦