Pytorch2.x实现四种经典卷积神经网络算子

原创 OpenCV学堂 2025-04-06 21:27 215浏览 0评论 0点赞

汽车照明系统的“智慧大脑”，竟然是它？》 超低功耗CW32L083系列

点击上方蓝字关注我们

微信公众号：OpenCV学堂

关注获取更多计算机视觉与深度学习知识

Mastering Object Detection: Training YOLO-NAS on Custom Datasets

PyTorch 2.x 是一个最新的版本，提供了许多新的功能和改进。如何在 PyTorch 2.x 中实现常见的卷积操作，包括：

标准卷积（Conv2d）深度可分离卷积（Depthwise Separable Convolution）转置卷积（Transposed Convolution）空洞卷积（Dilated Convolution）

1.标准卷积 (Conv2d)

标准卷积是最常见的卷积操作，用于提取特征图。

import torchimport torch.nn as nn# 定义一个标准的2维卷积层conv_layer = nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3, stride=1, padding=1)# 创建一个输入张量（批量大小，通道数，高度，宽度）input_tensor = torch.randn(8, 3, 32, 32)# 前向传播output_tensor = conv_layer(input_tensor)print(output_tensor.shape)  # 输出形状 (8, 64, 32, 32)

2. 深度可分离卷积 (Depthwise Separable Convolution)

深度可分离卷积将标准卷积分解为深度卷积和逐点卷积。

class DepthwiseSeparableConv(nn.Module):    def __init__(self, in_channels, out_channels, kernel_size=3, stride=1, padding=1):        super(DepthwiseSeparableConv, self).__init__()        self.depthwise = nn.Conv2d(in_channels, in_channels, kernel_size, stride, padding, groups=in_channels)        self.pointwise = nn.Conv2d(in_channels, out_channels, 1)    def forward(self, x):        return self.pointwise(self.depthwise(x))# 定义一个深度可分离卷积层ds_conv_layer = DepthwiseSeparableConv(in_channels=3, out_channels=64)# 创建一个输入张量（批量大小，通道数，高度，宽度）input_tensor = torch.randn(8, 3, 32, 32)# 前向传播output_tensor = ds_conv_layer(input_tensor)print(output_tensor.shape)  # 输出形状 (8, 64, 32, 32)

3. 转置卷积 (Transposed Convolution)，转置卷积用于上采样操作。

# 定义一个转置卷积层trans_conv_layer = nn.ConvTranspose2d(in_channels=64, out_channels=3, kernel_size=4, stride=2, padding=1)# 创建一个输入张量（批量大小，通道数，高度，宽度）input_tensor = torch.randn(8, 64, 16, 16)# 前向传播output_tensor = trans_conv_layer(input_tensor)print(output_tensor.shape)  # 输出形状 (8, 3, 32, 32)

4. 空洞卷积 (Dilated Convolution)

空洞卷积通过在卷积核中引入间隙来扩大感受野。

# 定义一个空洞卷积层dil_conv_layer = nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3, stride=1, padding=2, dilation=2)# 创建一个输入张量（批量大小，通道数，高度，宽度）input_tensor = torch.randn(8, 3, 32, 32)# 前向传播output_tensor = dil_conv_layer(input_tensor)print(output_tensor.shape)  # 输出形状 (8, 64, 32, 32)

掌握这个四种经典的卷积网络算子，在计算机视觉任务中非常有用，从图像分类、图像分类、目标检测、实例分割、姿态评估、语义分割等模型中都有它们的身影。

《Pytorch框架CV开发-从入门到实战》累计超过千人打卡报名学习，课程反馈良好，帮助了许多人成功转行深度学习与计算机视觉领域。2024年开始，我花了一个多月时间，重新对课程进行了梳理与总结，基于Pytorch最新稳定版本2.x版本重新录制了全部课程内容。课程重新梳理九大案例，原理解释更加清晰明了，案例实战更加贴近工程应用，全方位帮助你入门深度学习Pytorch框架，走好成为深度学习工程师的第一步。