【光电智造】归一化不存在了

今日光电 2025-04-13 18:00 86浏览 0评论 0点赞

下载：硅基/SiC/GaN 全技术图谱 泰克！5折！

今日光电

有人说，20世纪是电的世纪，21世纪是光的世纪；知光解电，再小的个体都可以被赋能。追光逐电，光引未来...欢迎来到今日光电！

----追光逐电光引未来----

本文承接前文关于批量归一化（Batch Normalization, BN）与层归一化（Layer Normalization, LN）的讨论，进一步介绍归一化技术的变体，包括实例归一化（IN）、群归一化（GN）以及一些其他新兴的归一化方式。同时，本篇也将重点关注日前在Transformer模型中出现的“去归一化”（Transformers without Normalization），为读者勾勒出归一化技术的多样化发展路径及未来研究方向。

一、归一化不可或缺？

深度神经网络在训练过程中常面临梯度消失/爆炸难题，在前文中，我们已经探讨了批量归一化（BN）和层归一化（LN）的核心原理、优缺点和适用场景。BN通过在批量维度上计算均值和方差，对图像分类等需要大批量训练的任务非常有效；而LN则在同一个样本的特征维度上执行标准化，因而适用于小批量或者序列建模（如自然语言处理）中。

然而，随着任务的多样化、硬件条件的多元化以及模型结构的不断演变，人们逐渐发现 BN 和LN也无法“一招鲜吃遍天”：在特定场景下，它们要么引入了额外计算与同步开销，要么在极端情况下（如批量大小极小或网络拓扑复杂）不能带来理想的效果。

因此，研究者针对不同场景提出了更多归一化变体，试图在“统计稳定性”、“适用场景广泛性”和“训练效率”之间取得一个平衡。例如，**实例归一化（IN）**在图像风格迁移任务上发挥奇效，**群归一化（GN）**很好地兼顾了BN与IN的优点，适合小批量条件下的卷积网络。除此之外，还有针对权重而非激活分布进行归一化的 Weight Normalization（WN），以及结合了Layer和Channel这两个维度的归一化方法等。

随着Transformer架构的崛起，层归一化（LN）成为标准组件。但最新研究表明，去归一化模型通过改造激活函数等方式，可能突破传统范式，归一化层是否一定是不可或缺的？

二、主流归一化方法

0. BN+IN 详见前文

批量归一化（Batch Normalization）与层归一化（Layer Normalization）深度解析（https://www.guyuehome.com/detail?id=1903812896515739649）

2.1 实例归一化（Instance Normalization, IN）

2.1.1 原理与公式

针对图像风格迁移任务，IN对单样本的每个通道独立归一化。对于输入张量[N, C, H, W][N,C,H,W]，计算第nn个样本第cc通道的统计量：

2.1.2 应用场景

IN最初并不是为了常规的图像分类或检测而设计，而是在风格迁移（Style Transfer）中展现了巨大价值。因为在风格迁移中，我们更关注单张图像自身的“风格特征”，希望对每张图像（特别是每个通道）施加独立的归一化，以保留或改变它独有的统计属性。

同理，在一些图像生成或GAN（生成对抗网络）的任务中，实例归一化也经常被使用。其原因在于，生成网络往往希望在每个样本（图像）的特征图上进行细粒度地控制，而不希望不同样本之间的分布相互“稀释”。

2.1.3 优劣势分析

优势

1.不需要大批量统计；

2.对单张图像独立归一化，适合风格迁移、图像生成等需要保留单样本风格差异的任务；

3.实现简单，每个通道只用关注本图像的局部分布。

局限

1.与BN相反，IN往往无法从跨样本的统计量中获益，可能导致在通用图像分类、检测等任务上性能不及BN或GN；

2.无法在不同样本间“共享”统计信息，可能带来泛化能力的不足。

2.2 群归一化（Group Normalization, GN）

2.2.1 提出动机：填补BN与IN的空白

群归一化（GN） 由Wu和He在2018年ECCV提出，目的是希望在不依赖大批量的前提下，也能拥有比IN更好的表现。BN对批量大小有较强依赖，如果批量过小，估计的均值与方差会非常不稳定；而IN走向了另一个极端——只对单张图片的每个通道做独立归一化，可能过度分散统计。GN则试图在这两者之间找到平衡点，既不需要跨样本统计，又能让多个通道共同分担“信息交流”。

2.2.2 数学形式

2.2.3 优势对比

优势

1.批量无关性：GN主要在单个样本的通道维度上进行分组，完全摆脱了对大批量的需求。

2.平衡通道内外信息：每个组包含一定数量的通道，组内通道共享均值、方差，有助于网络捕捉更丰富的特征统计。

3.分布式友好：多卡训练时，无需像BN那样进行跨卡同步统计量，通信开销更低。

局限

1.需要手动设置或调参分组数 GG（如8、16、32），不同任务可能需要不同配置。

2.在大批量（如batch size≥32）且是传统CNN任务中，BN往往仍能取得更好的效果。

对于高分辨率图像分割、实例分割或某些3D卷积网络任务，往往只能用很小的batch size（例如1、2甚至更小），这时BN会变得脆弱，GN则能提供更稳定的归一化，从而带来更好的收敛。许多在医疗图像处理领域或对象检测领域的小批量应用中，都成功部署了GN来替代BN。

2.3 其他归一化变种

除BN、LN、IN、GN之外，学术界和工业界还提出了不少其他类型的归一化思路，以下列举几个代表性的：

2.3.1 Layer-Channel Normalization

结合层归一化（Layer Norm）的思路和通道归一化（Channel Norm）的思路，从“层维度”和“通道维度”同时考量，意图在同一层内部既保证特征维度间的均衡，又兼顾通道间的交互。不过实际中应用尚不如GN普及。

2.3.2 Weight Normalization (WN

不再关注激活值，而是直接对权重 \mathbf{w}w 本身进行分解与标准化。例如，将权重写成 \mathbf{w} = g \cdot \frac{\mathbf{v}}{\|\mathbf{v}\|}w=g⋅∥v∥v 并让 gg 和\mathbf{v}v 作为可学习参数。这在某些需要对权重进行精细控制的场景（如生成模型、强化学习等）有不错的效果。

2.3.3 温度加权、可学习偏置的归一化变体

一些论文将 \epsilonϵ 动态化，或在归一化层中加入更多可学习参数（如可学习的“温度”或“门控”因子），试图更灵活地调节模型中每层、每通道的尺度。

整体而言，归一化技术正沿着多种方向不断演化：从激活分布到权重分布，从跨批量统计到单通道、群通道统计，从静态的 \gamma, \betaγ,β 到动态可学习的多参数模型等等。这些新型方法或多或少都是为解决BN、LN等方法在特定场景下的不足，帮助深度网络在更广泛的任务和硬件条件下取得理想效果。

三、去归一化Transformer：

颠覆传统认知

在深度学习应用不断多元化的背景下，另一条正在崛起的研究思路是：如果能完全去掉归一化层，是否也能让网络保持稳定训练？

3.1 归一化在Transformer中的地位与疑问

众所周知，Transformer在自然语言处理、计算机视觉、语音等领域取得了巨大成功。而在Transformer结构中，层归一化（LN） 几乎是标配：多头自注意力和前馈网络之间需要LN做标准化，以避免激活分布在深层堆叠后失控。然而也正因为如此，对LN的依赖也引发了若干问题：

1.额外的计算与通信开销：在大规模或分布式训练时，LN对张量的均值方差操作仍是一种额外负担，尤其在模型参数量数以亿计甚至千亿级时，这部分开销不可忽视。

2.创新空间受限：网络结构在很多情况下都被迫围绕LN做设计，是否可以通过其他途径（例如特殊的激活函数或初始化）来保持模型稳定，从而减小对归一化层的依赖？

3.动态特性不足：传统LN依赖全层特征的均值和方差来做一次性标准化，若输入数据分布在不同阶段差异较大，LN无法自适应地对激活函数的形状做出即时调整。

3.2 Dynamic Tanh (DyT) 方案

传统观点认为，归一化层（如LN）对Transformer的稳定训练至关重要。然而，论文通过实验发现：LN层的输入-输出映射呈现类似tanh的S型曲线。这一现象表明，LN的作用可能通过非线性缩放实现。基于此，作者提出了Dynamic Tanh（DyT），直接模拟这一行为，无需计算统计量。

核心公式：

代码实现：

class DyT(nn.Module):    def __init__(self, dim, init_alpha=0.5):        super().__init__()        self.alpha = nn.Parameter(torch.tensor(init_alpha))        self.gamma = nn.Parameter(torch.ones(dim))        self.beta = nn.Parameter(torch.zeros(dim))
    def forward(self, x):        return self.gamma * torch.tanh(self.alpha * x) + self.beta

从最初的批量归一化（BN）到后来的层归一化（LN），再到实例归一化（IN）、群归一化（GN）等不断涌现的变体，深度学习的归一化技术已经走过了不短的探索历程，也在实际应用中取得了巨大的成功。可以说，归一化已经成为几乎所有现代深度模型的基础组成，它所带来的收敛加速、分布稳定、容忍高学习率等优势，在诸如图像分类、目标检测、语音识别、自然语言处理、风格迁移等诸多任务中都有体现。

然而，正如最新研究发现的：归一化层并不一定是不可替代的。随着网络深度和任务复杂度的不断提升，研究者开始思考：能否通过改造激活函数（如Dynamic Tanh）、重新设计残差结构或初始化策略，甚至将归一化的功能嵌入到更加底层的计算中，最终减少甚至彻底移除对显式均值方差归一化层的需求？“这类 无归一化”模型的兴起，恰恰说明了深度学习的创新仍在持续进行，所谓“终极范式”并未到来。

来源：古月居