【光电智造】多维图像融合驱动的复杂场景路表破损识别

今日光电 2024-10-21 18:01

【直播】可替代采样电阻的电流传感器技术 测量工具选型不当可能会毁掉你的PCB调试成果

今日光电

有人说，20世纪是电的世纪，21世纪是光的世纪；知光解电，再小的个体都可以被赋能。追光逐电，光赢未来...欢迎来到今日光电！

----追光逐电光赢未来----

摘要：为提升复杂场景中路表裂缝与坑槽的识别精度和鲁棒性，考虑实际检测场景中路表破损形态的不规则性和环境噪声干扰，提出了一种面向多维图像的路表破损自动分割模型与特征融合优化方法。

基于多目立体视觉重构的路表高精度点云模型，通过同源点云栅格化生成二、三维图像，建立了复杂场景路表破损图像数据集；结合深度可分离卷积和多层位特征叠加，构造了轻量化编码-解码网络PDU-net，用于像素级裂缝与坑槽识别；在分割模型基础上，提出了像素运算和通道重组2种多维图像融合策略，以提升深度学习网络对浅细裂缝特征的提取效率。

试验结果表明：PDU-net模型能够有效学习不同类型图像和破损特征，在不同数据集上的训练损失均能稳定收敛，其中三维图像训练周期小于二维图像；相较于现有卷积分割网络，PDU-net模型在复杂场景下的路表破损分割精度和效率更高，三维裂缝与坑槽图像分割的调和均值分别为81.00%和95.85%，平均正向推理时间约为现有模型的30%；多维融合图像可以提升复杂裂缝分割的精度和鲁棒性，在最优色彩-深度比为0.2时，裂缝分割的调和均值可提升至83.31%。

综上所述，所提出的方法可在复杂场景中有效抑制环境噪声并强化病害特征。

引言

道路设施是交通运输体系的核心组成部分，公路交通承担了中国61.3%的客运量和75.0%的货运量[1]。中国现有公路总里程超过520万公里，其中高速公路里程超过16万公里。然而，当前公路设施服役场景复杂、功能损伤易发、病害特征多样，给公路交通体系的高效运营带来了巨大挑战[2]。

裂缝、坑槽等路表破损是路面常见的病害形式，也是其他诸多病害的诱发因子，在整个养护体系中占据着很大的比重[3-4]。快速、立体、精确的路表病害识别是实现公路设施可靠服役的重要前提，但受限于破损形态的不规则性和检测环境的复杂性，裂缝与坑槽的自动化识别仍具挑战性。

国内外学者当前针对路表破损识别的研究大多是基于图像处理方法或深度学习方法。传统图像处理方法利用图像降噪、特征增强、阈值分割、边缘检测等算法来人工定义病害特征提取逻辑[5-9]，并不能主动学习病害的内在特征。而基于深度学习的病害识别可以主动提取数据特征，按识别细度可分为图像分类、目标识别和语义分割3个层级[10-12]。语义分割任务能够区分场景内每个像素的类别，精度要求最高。

随着深度卷积神经网络的发展，基于二维图像的路表病害识别已能够在简单检测场景下实现初步应用。路表破损分割可以看作是像素级的病害定位，目的是将病害像素从路面背景中分离出来。路表破损分割模型通常基于全卷积神经网络框架，由下采样层和上采样层组成，以实现病害特征的提取和恢复。

基于全卷积神经网络的研究有：Yang等[13]提出了一种用于路面裂缝分割的全卷积特征金字塔-分层推进网络，以通过高层语义信息丰富低层特征；Tong等[14]开发了一种基于全卷积神经网络和高斯随机场的不确定性框架用于裂缝、坑槽等路表病害分割。考虑到数据像素级标注成本，U-net架构常被用于小训练集的图像分割任务。

基于U-net架构的研究有：Huyan等[15]提出了一种基于U-net的像素级裂缝识别网络CrackU-net，其在精度上大幅优于全卷积神经网络和传统U-net；Chen等[16]在U-net中分层嵌入了开关模块，该模块可以在无裂缝时跳过解码器部分，以节省计算时间。

与二维图像相比，三维图像能够直接表征路表病害高程信息，减少了外界色彩噪声干扰。依据不同成像原理，三维成像技术主要包括激光成像法、视差立体成像法、干涉测量法和光度立体法等[17-18]。受限于成像分辨率、检测视场和采集速度等因素，当前路表病害三维图像采集主要基于线激光成像和视差成像[19-21]。

基于线激光成像的研究有：Zhang等[22]开发了车载高分辨率激光三维成像系统PaveVision3D，可实现毫米级路表三维数据高速采集；Zhang等[23]在三维激光图像基础上开发了一种深度卷积神经网络框架CrackNet，实现了像素级路面裂缝识别；Zhang等[24-26]进一步提出了CrackNet Ⅱ、CrackNet-R和CrackNet-V模型，以提升裂缝分割精度与效率。

然而，这些研究往往需要大量人工标注的三维图像来进行模型训练，而当前路表三维图像在数据采集和人工标注方面的成本高昂[25]。视差成像为三维路表图像采集提供了一种低成本的数据采集方式。基于视差成像的研究有：Guan等[26]开发了多视角立体成像系统来生成路表三维图像，并通过深度卷积网络实现了裂缝和坑槽分割，降低了色彩噪声对图像分割的影响。

基于二维图像的卷积网络是一种全自动、低成本的路表破损分割方法，但其识别精度易受到光照、阴影、污渍等视觉噪声影响，导致模型鲁棒性和迁移性能大幅衰退。虽然三维图像深度学可以解决环境噪声引起的误判问题，但对于高程变化不显著的微细破损，仍存在较大漏判风险，因此，当前单一利用二维或三维路表图像数据，很难实现复杂检测环境下病害特征的高精度提取。

为解决上述问题，本文基于多目立体视觉重构的高精度路表点云模型，生成同源二维、三维路表图像，构建复杂场景裂缝、坑槽图像数据集。在此基础上，本文结合编码-解码基础框架、深度可分离卷积和多层位特征叠加，提出路表破损图像分割模型PDU-net。同时，进一步研究二维、三维图像的特征融合策略，系统分析二维、三维及多维融合图像的深度学习效率，通过多维图像融合来增强复杂环境下路面裂缝、坑槽的像素级识别精度和鲁棒性。

复杂场景路表破损图像数据集构建

1.1 路表点云栅格化

本文采用车载多目立体视觉系统对路表进行连续扫描，重构的高精度路表点云同时包含空间和色彩信息，无需进行点云配准或图像匹配。在进行点云栅格化前，需将整体点云划分成1m×1m的点云块，并采用移动最小二乘法对初始点云进行平滑降噪[27]，以增强局部区域点云连续性。在点云预处理的基础上，通过栅格化将路表点云转换为同源正射彩色图和深度图。

与激光生成的有序点云不同，立体视觉点云在空间内是离散分布的，需要通过定义空间网格来对确定点云在图像上的像素位置。对于路表点云集合，首先需搜索点云的水平边界，确定所有点云的坐标范围。在此基础上，设定正射图像的宽度为W和高度为H，根据图像尺寸和点云分布范围确定单个空间网格的尺寸。通过空间网格来划分路表点云区域，并计算正射图像上每个对应像素的值。

对于三通道二维彩色图像，图像上某一点像素可以根据单个网格的点云色彩均值计算

式中：P_{w, h, 1}、P_{w, h, 2}、P_{w, h, 3}分别为三通道二维彩色图像第1、2、3通道上坐标(w, h)处的像素，w为图像上某一像素点在图像宽度方向的坐标，w=1, 2, …, W，h为图像上某一像素点在图像高度方向的坐标，h=1, 2, …, H；Ri为单个网格内第i个点云红色通道的像素，i=1, 2, …, I_w, h，I_w, h为图像坐标(w, h)处像素所代表单个网格内的点云总数；G_i为单个网格内第i个点云绿色通道的像素；B_i为单个网格内第i个点云蓝色通道的像素；int(·)为取整函数。

对于单通道三维深度图像，图像上某一点像素可以根据单个网格的点云高度均值计算

式中：Q_w, h为单通道三维深度图像上坐标(w, h)处的像素；Z_i为单个网格内第i个点云的相对高程；Z_min为所有点云中最低点的相对高程；Z_max为所有点云中最高点的相对高程。

正射图像上的每个像素点代表了一定空间范围内的点云信息，如图 1所示。对于二维彩色图像，图像上各通道像素点代表给定区域内点云的平均红、绿、蓝像素。而三维深度图像上每个像素点代表给区域内点云的平均相对高度。二维图像包含三通道颜色信息，而三维图像能够反映表面深度信息。这2种正射图像采用相同的点云数据源，且成像范围一致，因此，生成的二维和三维图像具有完全重叠特性。

图1 路表点云栅格化

1.2 复杂场景路表破损图像数据特征

为了建立复杂场景二维、三维破损图像数据集，采用上述多目成像系统及点云栅格化方法，对西安市多条公路进行了现场数据采集，包括2条国道和3条县乡道。基于58.1 km的单车道路表数据，共生成了2 392张二维、三维路表破损正射俯视图像，其中裂缝图像2 200张，坑槽图像192张，用于后续的路表破损图像识别试验。

本文构建的路表破损图像数据集涉及不同类型及严重程度的裂缝和坑槽破损，如图 2所示。裂缝主要以线状和网状形式存在，其中纵向、横向裂缝形态较为规则，病害严重程度主要表现为裂缝宽度和深度的发展。块状、网状裂缝图像上一般存在多条裂缝交织，病害严重程度主要表现为裂缝数量和交织程度的增加。

坑槽主要以单点和裂缝继发形式存在，其中单点坑槽形态规则，高程变化明显且坑槽边缘较为光滑。而网裂继发剥落引起的坑槽破损一般边界模糊，病害发展较为分散和不确定。不同形态和严重程度的路表破损图像的组合会进一步增强数据集的多样性和复杂度，以全面测试后续识别算法的精确度和适用性。

图2 不同类型与严重程度的三维破损图像

为了使破损识别方法能够适应实际检测环境，路表破损图像数据集包含了各类复杂路表环境情况，如图 3所示。路表颜色、光照、阴影和表面污渍对破损识别精度具有显著影响。道路使用状况会影响病害和非病害区域的对比度及色差，路表破损图像包含磨损较小的路面(颜色偏黑)、磨损较大的路面(颜色偏灰)和表面浮灰的路面(颜色偏黄)。

同时，树木或房屋产生的阴影会导致色差分布的不规则。路表油渍、水渍、修复等污损痕迹也是复杂的干扰因素。在不同外界干扰组合下，路表破损图像数据集能够全面测试后续识别算法在各类真实场景下的鲁棒性。

图3 不同环境噪声下的二维破损图像

面向路表破损分割的轻量化编码-解码网络

2.1 轻量化卷积运算

随着当前图像识别任务复杂度的提升，卷积神经网络的结构被设计得越来越深，以映射更多、更深层的目标特征。虽然卷积网络的性能在不断提升，但其计算效率正面临着巨大的挑战。

计算效率问题主要体现在模型存储和预测速度2个方面：一方面，深度卷积网络中大量的权值参数对设备的存储要求非常高；另一方面，模型权重数量的增长会导致网络训练和预测缓慢，在真实场景应用中的时效性问题突出。

为了在保障性能的同时减少网络参数量，卷积运算的轻量化设计成为重要途径。深度可分离卷积是最高效的卷积形式之一[28]，其是分组卷积的一种特殊形式。相较于标准卷积，其在相同参数量和计算量的前提下可以生成更多的特征图。深度可分离卷积将标准卷积分为逐通道卷积和逐点卷积两步进行运算，大大减少了模型参数量和计算量。图 4展示了深度可分离卷积中的逐通道卷积和逐点卷积的运算过程。

图4 深度可分离卷积运算

2.2 面向路表破损分割的轻量化编码-解码框架

当前高性能编码-解码卷积网络已被逐步应用于路表破损分割任务。相较于图像分类和目标识别卷积网络，编码-解码网络可以从路表背景中精确提取病害像素，但其对特征提取的要求较高，且计算效率较低。

为了在提升特征学习效率的同时降低模型计算成本，本文基于U-net基础编码-解码框架[29]，结合深度可分离卷积和多层位特征叠加，提出了面向路表破损高效分割的轻量化编码-解码网络PDU-net，如图 5所示。

图5 轻量化编码-解码网络框架

PDU-net编码-解码卷积网络的输入是三通道图像，包括二维、三维图像或多维融合图像。在输入网络前，原始图像的分辨率需调整为512像素×512像素。网络输出的是相同分辨率的单通道灰度图像，即描述路表图像上不同区域存在破损的概率。

网络整体分为编码和解码2个部分：图 5中绿色模块为编码部分，用于下采样提取图像特征；图 5中黄色模块为解码部分，用于上采样恢复特征图的分辨率。解码部分连接在编码部分尾端，同时也通过跳跃连接的方式衔接编码部分不同层位的特征图，以实现多层位特征叠加。

在网络编码部分，首先通过标准卷积块来提取初始输入图像的特征，标准卷积块由标准卷积层(步长为2、卷积核尺寸为3×3)、批量标准化层(Batch Normalization，BN)和修正线性单元(Rectified Linear Unit, ReLU)激活层组成。标准卷积块特征提取后，特征图数量增加至32个，而分辨率压缩为初始图像的一半。

然后，通过一系列深度可分离卷积块来执行下采样，深度可分离卷积块由3×3深度可分离卷积层、BN层、ReLU层、1×1卷积层、BN层和ReLU层组成。深度可分离卷积块有2组参数配置：一组步长为1，用于扩充特征图数量；一组步长为2，用于压缩特征图分辨率。经过4次步长为2的深度可分离卷积后，特征图的分辨率减小至初始输入图像的1/16，而通道数增加至512。

在网络解码部分，特征图上采样操作主要是基于步长为2的转置卷积实现。单次转置卷积可以将特征图的分辨率扩大一倍，而通道数减半。每次上采样后，通过多层位特征叠加来完成高低层特征信息融合，将上采样特征图与对应层位下采样特征图和上一层位池化特征图进行通道叠加，以融合不同层级语义信息，再通过步长为1、卷积核尺寸为3×3的标准卷积压缩通道数，进行转置卷积上采样。经过4次上采样，网络会返回一个与初始输入图像分辨率相同的特征图，再通过通道数调整和归一化指数函数激活，得到路表破损的概率分布图，即预测每个像素属于裂缝、坑槽的概率。

2.3 考虑像素类别均衡的网络训练

为了实现编码-解码网络权重的最优化及高效训练，需要在训练数据和损失函数方面进行合理配置。轻量化编码-解码卷积神经网络的训练和测试数据均来源于上文构建的复杂场景路表破损图像数据集。每张图像上的裂缝、坑槽破损通过LableMe软件进行了像素标注，生成对应的真值图像。

训练集和测试集按8∶2的比例划分，模型训练过程中使用的验证集为训练集的10%。为了增加训练数据量和丰富数据多样性，通过图像随机旋转、平移、剪切、扭曲等操作对训练数据集进行图像扩充。

针对裂缝、坑槽等路表破损目标，网络训练过程中可能存在像素类别分布不均衡问题，即破损像素仅占正常路表区域的一小部分，因此，本文通过构建双目标损失函数，以消除像素类别不均衡所导致的网络训练不收敛，采用交叉熵损失函数[29]和骰子系数损失函数[30]这2种损失函数组合来训练网络。双目标损失函数L定义为

式中：ρ为双目标损失平衡系数，ρ∈(0, 1)；C为交叉熵损失函数；D为骰子系数损失函数；U_j为第j个像素的真值，U_j∈{0, 1}；

为第j个像素的概率预测值，

∈[0, 1]；J为像素总数。

多维图像融合优化

深度卷积网络通过提取二维图像的色彩分布来区分破损和非破损区域，与人类视觉的判断逻辑相似，但在环境噪声干扰下异常色彩特征会影响机器的学习和判断过程。三维图像虽然能够有效过滤色彩噪声，在光照、阴影、污渍等场景下表现出较强的鲁棒性，但仅提取高程特征可能会导致浅、细裂缝识别的不准确或遗漏。

在复杂路表破损场景上，单一利用二维或三维图像很难进一步优化像素级识别的精度，因此，考虑融合二维、三维图像来增强图像特征，研究不同图像融合方法来生成多维图像，优化裂缝分割精度。

3.1 基于像素运算的多维特征融合

二维图像是由红、绿、蓝3个通道的像素组成，而三维图像是单通道的灰度图像。为了融合不同类型图像的多个通道，采用每个通道像素单独运算的方式来混合色彩和高程特征，如图 6所示。

首先将二维彩色图像分解为3个不同色域的图像像素矩阵，同时将单通道三维深度图像复制扩展为三通道像素矩阵。针对每个通道，将彩色像素矩阵与深度像素矩阵逐像素加权求和，以生成三通道多维融合图像。多维融合图像上某一点像素的计算方法为

图6 基于像素运算的多维融合图像生成

式中：M_{w, h, 1}、M_{w, h, 2}、M_{w, h, 3}分别为三通道多维融合图像第1、2、3通道上坐标(w, h)处的像素；α为色彩-深度比，α∈(0, 1)。

多维融合图像在包含裂缝色彩信息和高程信息的同时，有效减弱了二维图像环境噪声和三维图像纹理细节的影响。根据选取的色彩-深度比α的不同，生成的多维融合图像可以实现色彩信息和深度信息的灵活分配。低色彩-深度比可以消除阴影干扰，中、高色彩-深度比可以减弱纹理噪声并增强微细裂缝的视觉特征。

3.2 基于通道重组的多维特征融合

考虑到路表色彩的相对单一性，当前研究一般将二维图像转为单通道灰度图进行破损识别。基于单通道二维灰度图像和三维深度图像，可以通过通道混合重组来实现图像多维融合。具体过程见图 7，将二维彩色图像转换成单通道灰度图像，并与三维图像进行像素和运算，生成单通道灰度-三维图像。进一步将灰度图、三维图、灰度-三维图 3类单通道图像重组，生成三通道多维融合图像。多维融合图像上某一点像素的计算方法为

图7 基于通道重组的多维融合图像生成

式中：S_w, h为单通道灰度图像(w, h)位置的像素。

采用多通道混合重组生成的多维融合图像既包含有二维、三维图像的直接特征，还融合了二维、三维图像的叠加特征。在深度学习过程中，网络可以同时接收到3层不同的破损特征图。虽然从视觉上，通道重组图像包含了3种色彩来增强破损的细节，但其在机器视觉中表现为多层级语义特征。

试验结果分析

4.1 不同路表破损图像分割模型训练结果

针对构建的轻量化编码-解码网络，以二维、三维裂缝和坑槽图像为数据基础，通过双目标损失函数训练了4类PDU-net破损分割模型：二维裂缝图像分割模型、三维裂缝图像分割模型、二维坑槽图像分割模型及三维坑槽图像分割模型。4类模型采用相同的训练参数，初始化学习率为0.001，并在验证损失停滞时动态下降学习率。此外，模型总训练周期为200代，批处理图像数量为12张，双目标损失平衡系数为0.5，并采用早停技术来搜索最优训练周期。模型训练基于Python 3.7平台，硬件环境为Intel Core i9 10900K CPU、RTX 3090 GPU和48 GB RAM的台式机。本文采用的深度学习框架为Tensorflow 1.15.4和Keras 2.1.5，并行计算框架为CUDA 11.1和cuDNN 8.0.4。

4类PDU-net模型的训练过程如图 8所示，可见：4类模型损失在训练初期都迅速下降，并在20代后趋于稳定；4类模型都实现了提前收敛，其中最短训练周期为68代，最长训练周期为116代；在训练过程中训练集损失和验证集损失同步下降，但训练集损失略小于验证集损失，且下降过程更加稳定；结果验证了早停技术可以在训练过程中有效确定最优迭代次数，防止模型过拟合。

图8 不同PDU-net模型训练过程

此外，图像和破损类型对深度学习模型训练具有显著影响。对比图 8 (b)、(d)和(a)、(c)可见：相比于二维图像训练过程，基于三维图像的模型训练周期更短，且训练过程中训练集和验证集的损失均要更小；三维图像的训练周期在70代左右，而训练周期最长的二维坑槽图像分割模型收敛需要116代；这一结果表明PDU-net模型对于三维图像的学习效率更高，主要原因是三维图像上的环境噪声更少，使得模型能够快速学习到病害的特征；二维图像上的各类噪声会对单次迭代损失产生干扰，导致训练周期变长。

另一方面，不同的破损类型也会影响模型的学习效率。由图 8 (a)、(c)可见：在二维图像数据训练过程中，虽然坑槽图像分割模型的收敛损失更小，但裂缝图像分割模型的训练稳定性要优于坑槽图像分割模型；二维裂缝图像分割模型训练末期的验证集损失在0.07~0.08波动，而二维坑槽图像分割模型的验证损失在0.05~0.15波动；这主要是由于路表背景上的裂缝像素占比较低，使得像素级模型训练过程中整体学习和验证过程缩短；而坑槽虽然目标面积大易于识别，但随机偏差会在像素级损失函数中放大，导致模型损失波动较大；二维图像上大范围的光照、阴影等环境噪声分布在大面积坑槽区域，也可能导致训练周期变长。

4.2 二维、三维路表破损图像分割性能评价

4.2.1 路表破损图像分割性能定量评价

为了定量评价路表破损图像的分割性能，计算不同模型在不同测试集上的分割精度、召回率和调和均值。针对二维裂缝图像、三维裂缝图像、二维坑槽图像和三维坑槽图像4种类型，定量对比PDU-net模型和2种常见图像分割模型U-net[29]和GCU-net[31]的分割性能。

如图 9所示，可见：裂缝、坑槽在二维图像上的分割精度和稳定性均要显著低于三维图像；3种模型在三维裂缝图像上的调和均值约为80%，而在二维裂缝图像上的调和均值为60%~70%；三维图像上不同裂缝场景的分割精度差异约为15%，而在二维图像上的波动幅度为20%~30%，这一结果进一步验证了复杂路表环境下，二维图像上的色彩噪声会干扰深度学习模型，而三维图像上的破损特征更稳定。

另一方面，从破损类型角度，可以发现裂缝在三维图像上的分割精度要低于坑槽，坑槽分割模型的调和均值可达90%左右，而裂缝仅为80%左右，这主要是由于三维图像上的坑槽目标尺寸较大且形态较为固定，而裂缝较为细长且在部分区域深度较浅，导致其在三维图像上与背景差异变小。

图9 路表破损图像分割定量评价

不同模型在不同破损目标和图像类型上的分割性能具有明显差异。相较于现有的GCU-net和U-net模型，PDU-net模型在不同裂缝、坑槽场景表现出更强的分割精度和稳定性；基于PDU-net的三维坑槽图像分割精度最高，其精度、召回率和调和均值分别为94.47%、97.26%和95.85%；对于三维裂缝、坑槽图像，PDU-net模型的分割精度高于对比模型，PDU-net、GCU-net和U-net模型在三维裂缝和坑槽图像上的调和均值分别为81.00%、79.80%、80.40%和95.85%、85.94%、91.93%。

对于二维裂缝、坑槽图像，PDU-net模型的分割精度要远高于对比模型，说明PDU-net模型在干扰场景下对于破损目标特征的提取效率更高；尤其是在二维坑槽图像分割上，GCU-net和U-net模型的调和均值不足65%，而PDU-net模型的调和均值为86.37%；这一结果可能的原因是，原始U-net的多层跳跃连接结构虽然可以有助于融合不同层级语义信息，使其能够精确定位细小目标，但其主要用于低噪声图像，在光照阴影干扰下会产生大面积的误识别。

4.2.2 路表破损图像分割性能定性评价

针对PDU-net、GCU-net和U-net模型，选取了典型裂缝场景，可视化展示了3种模型在二维、三维图像上的分割效果，分别见图 10、11，可见：在不同场景复杂度下，不同模型的裂缝分割效果存在明显差异；针对光线干扰场景，虽然图像上伴随有大量不均匀树影噪声，但由于裂缝特征清晰，3种模型均取得了较好的分割效果，其中PDU-net模型的分割完整性最优，可以识别局部细小裂缝。

针对低对比度场景，由于路表颜色和裂缝深度问题，图像上裂缝颜色的对比度较低，导致3种模型出现了大量的漏检情况；针对污渍干扰场景，GCU-net模型在水渍区域出现了严重的假阳性错误，将污渍误判为裂缝。总体而言，从视觉观察来看，PDU-net模型的分割精度最好，但在复杂场景下，二维裂缝图像的分割结果仍然不理想。

图10 二维裂缝图像分割可视化

图11 三维裂缝图像分割可视化

为进一步对比不同模型在三维裂缝图像上的分割效果，图 11选取了典型场景进行了可视化展示，可见：对于较为宽深的裂缝场景，三维成像后能清晰分辨裂缝的形态和分布，因此，3种模型均能较为完整地提取出裂缝像素；对于场景中较为浅细的裂缝，受限于特征提取的分辨率，导致仅有1~2个像素宽度的裂缝很容易被遗漏，此类裂缝的识别难度较大；针对复杂的网裂，PDU-net模型的分割效果要优于2个对比模型，其能够区分出更多的裂缝像素，但其中一些对比度不明显的裂缝像素较难被识别。

为分析不同模型在坑槽图像上的分割性能，图 12展示了二维坑槽图像分割可视化结果，可见：3种模型在复杂场景二维坑槽图像上的分割精度普遍不高，其中PDU-net模型要优于对比模型；这一结果主要原因在于二维图像上坑槽与正常路面交界区域处没有固定的特征，导致深度学习的泛化能力不足；同时，光照角度和阴影变化也会干扰识别的鲁棒性。

相比二维图像，3种模型在三维坑槽图像中的分割性能大幅提升，如图 13所示，可见：3种模型甚至能够识别出未标注出的细小坑洼区域，尤其是PDU-net模型，可以更为精准地划分坑槽边缘。总体而言，PDU-net模型在三维坑槽图像上的分割精度已经可以满足真实复杂检测场景。

图12 二维坑槽图像分割可视化

图13 三维坑槽图像分割可视化

此外，从三维裂缝和坑槽图像分割示例中可以看出，部分三维图像上存在颜色较深的非病害区域。该类图像暗区主要由路面变形引起，属于典型背景噪声。但从分割结果来看，三维图像暗区不会对深度卷积分割模型产生干扰。U-net、GCU-net和PDU-net模型的分割图像上均未出现由暗区引起的假阳性噪声，其主要原因是深度图像暗区的灰度变化较为均匀且分布规则，不会对深度卷积类模型的特征提取产生影响。

4.2.3 路表破损图像分割效率分析

本文提出的轻量化编码-解码网络具有更少的权重参数和模型体积。由表 1可见：PDU-net模型体积约为GCU-net和U-net模型的60%；由于GCU-net在保留U-net结构基础上加深了网络，因此，其速度略慢于原始U-net模型；PDU-net模型在保证分割精度的基础上实现了轻量化目标，具有更快的反向训练速度和正向预测速度；PDU-net模型训练过程中单次迭代时间约为GCU-net和U-net模型的70%，而其正向推理速度比现有模型快3~4倍，可以每秒处理近30张图像。

表1 不同模型的计算效率

4.3 多维融合裂缝图像分割性能评价

4.3.1 基于像素运算的裂缝图像分割性能优化

为了分析轻量化编码-解码网络对多维融合图像的学习效率，采用不同色彩-深度比(α=0.1, 0.2, …, 0.9)生成多维融合图像数据集，用于训练和验证PDU-net模型，优化复杂场景下裂缝分割的精度和鲁棒性。

图 14对比了二维、三维图像及多维融合图像训练的分割模型精度，可见：不同色彩-深度比下，多维融合裂缝图像的分割精度呈现先上升后下降趋势；多维融合裂缝图像的最优色彩-深度比为0.2，其裂缝分割的调和均值可达83.31%，较三维图像提升2.14%；这一结果符合预期，在复杂场景下融合二维、三维图像有利于增强模糊区域裂缝特征，提升裂缝分割精度。

多维融合裂缝图像在色彩-深度比介于0.1~0.3时要优于三维裂缝图像分割结果，其平均精度、召回率和调和均值分别为89.78%、77.27%和83.05%；在色彩-深度比介于0.4~0.9时，多维融合裂缝图像的分割性能要差于三维图像，但优于二维图像；这主要是由于在高色彩-深度比区间，多维融合图像的特性趋向于二维图像，导致图像上的色彩噪声成为主要影响因素。

进一步分析裂缝分割精度与召回率可以发现，多维融合图像调和均值提升的主要因素是召回率的提高；这一结果再次证明，多维融合图像能够优化三维图像中易漏判的浅细裂缝，从而提升分割的召回率。此外，从识别稳定性角度来看，多维融合图像分割的精度、召回率和调和均值的波动随色彩-深度比的提高加大，这与色彩噪声的干扰相关。

图14 像素运算多维融合图像分割性能定量评价

为量化不同裂缝图像分割性能差异，图 15展示了每张裂缝图像的分割精度，可见：多维融合裂缝图像相比普通三维裂缝图像分割的鲁棒性更强，其调和均值小于80%的图像数量更少，大部分图像的调和均值为80%~100%；相比较于召回率，精度的稳定性更强，大部分图像的精度为90%~100%，该结果与整体指标趋势一致。总体而言，通过设置合理的色彩-深度比区间，多维融合图像可以提升裂缝分割精度。

图15 不同裂缝图像分割精度分布

4.3.2 基于通道重组的裂缝图像分割性能优化

为对比2种图像融合策略，图 16展示了像素运算和通道重组下多维融合图像分割性能的差异，可见：通道重组多维融合图像的裂缝分割性能要优于普通三维图像，其精度、召回率和调和均值分别为89.60%、76.87%和82.75%；对比2种多维图像融合策略，发现通道重组多维融合图像与低色彩-深度比(α=0.1~0.3)像素运算多维融合图像的裂缝分割精度和稳定性相似；具体而言，通道重组多维融合图像要优于色彩-深度比为0.3的像素运算多维融合图像，但略差于色彩-深度比为0.1和0.2的像素运算多维融合图像。

图16 通道重组多维融合图像分割性能定量评价

为进一步验证多维融合裂缝图像的分割性能，图 17可视化展示了不同图像类型下的裂缝分割结果，可见：在裂缝特征明显的简单场景，三维图像和多维融合图像都能取得令人满意的裂缝分割精度；在裂缝形态简单、宽度和深度都较为明显的场景，在三维图像、像素运算融合图像和通道重组融合图像上均能完整地提取裂缝；在裂缝宽度和深度不均匀场景，三维图像分割在局部浅、细裂缝区域容易出现像素漏判情况，而2种多维融合图像要优于三维图像，能够减少裂缝像素识别的不连续。

对于复杂裂缝场景，三维图像和2种多维融合图像的裂缝分割结果差距显著，三维图像裂缝分割的完整性不足，而2种多维融合图像的裂缝分割效果更优，基本能够稳定提取不同区域的裂缝像素；这进一步说明了2种多维融合图像的特征增强策略可以通过融合二维、三维图像的特征来提升复杂场景裂缝分割的鲁棒性。

图17 多维融合裂缝图像分割可视化

结语

(1) 面向复杂路表检测场景，构建了多场景、多类型路表破损图像数据集。该数据集包含2 392张二维、三维裂缝和坑槽图像，涉及不同严重程度及外界干扰条件，为多维图像融合深度学习提供训练与验证数据基础。

(2) 为高效提取路表破损像素，提出了轻量化对称编码-解码卷积神经网络PDU-net，构建了双目标损失函数以提升训练稳定性。对比现有卷积分割模型，PDU-net模型在复杂场景裂缝、坑槽图像分割上表现最优，三维裂缝、坑槽图像分割的调和均值分别为81.00%和95.85%。同时，PDU-net模型的参数量和预测时间仅为现有模型的62.38%和31.15%。

(3) 考虑特征增强和噪声抑制，提出了像素运算和通道重组两种多维图像融合优化策略，增强了复杂场景浅细裂缝的分割精度和鲁棒性。2种多维融合图像的裂缝分割性能均优于原始二维、三维图像，能够有效提升裂缝分割的召回率。在最优色彩-深度比α=0.2下，像素运算多维融合裂缝图像分割的调和均值可提升至83.31%。

(4) 本文仅针对路表裂缝、坑槽两类破损病害进行了像素级识别和复杂场景特征增强。后续研究可扩展至其他破损与变形类型，提升识别视域与语义分割连续性，进一步可结合三维卷积与立体视觉，自动提取病害几何尺寸信息，评估各类型路表病害的严重程度。

原文：https://transport.chd.edu.cn/cn/article/doi/10.19818/j.cnki.1671-1637.2024.03.010

来源：新机器视觉