基于改进空洞卷积神经网络的丘陵山区田间道路(3) - 湖北农机化杂志社投稿

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

基于改进空洞卷积神经网络的丘陵山区田间道路(3)

作者:

关键词:

摘要：

数据集均值处理，具体步骤是先计算数据集所有图像在同一个位置上像素点对应的RGB三通道均值，再将所有图像对应位置的RGB通道值减去相应的均值。采取此处理，能够让输入样本的各通道数据中心化，减少噪声值的干扰，加快模型的收敛。

经过上述 3种方式处理之后，按照“训练集∶测试集=4∶1”的比例[15]，将图像样本数据集分成训练集和测试集，选取训练集图像1 600张、测试集图像400张进行模型训练和对比试验。

3 田间道路场景理解模型构建

Long等[16]提出的全卷积神经网络（fully convolutional networks，FCN）模型，使得卷积神经网络无需全连接层即可进行密集的像素预测，可生成任意大小的图像分割图，且运算速度比图像块分类法要快。FCN可以基于若干种结构（AlextNet、VGG-Net、GoogLeNet、SIFT-Flow、VGG-16等），其中VGG-16被广泛认为是效果最好的一种结构[16]。可是，FCN是在传统CNN上进行的改编，CNN最初是设计成用于图像分类的人工神经网络，而语义分割属于像素预测（dense prediction）问题，在结构上不同于图像分类问题。在相同计算条件下，空洞卷积（dilated convolutional networks，DCN）能提供更大的感受野，经常用在实时图像分割中。基于此，本文融合全卷积及空洞卷积的优点，构建了基于空洞卷积神经网络的田间道路场景图像语义分割模型。

3.1 空洞卷积

空洞卷积（convolution with holes），是一种特征图上数据采样的方式，可以在不损失分辨率或覆盖率的情况下增大感受野。感受野为网络每一层输出的特征图上的像素点在原始图像上映射的区域大小，感受野21ir+的计算式如下

式中ri表示第i层的感受野边长，l表示空洞卷积的膨胀系数。

空洞卷积与普通卷积的卷积核大小一样[17-18]，在神经网络中即参数量不变，但它具有更大的感受野。二维空间上的空洞卷积可定义如下[19]

式中*l为空洞卷积，p是其定义域；F是输入图像，s是其定义域；k是核函数，t是其定义域。与普通的卷积相比，空洞卷积的条件从s + t = p变成了s+lt=p，即每次卷积核仅与图像F中l倍数位置的元素运算。当l=1时，*即为普通的离散卷积操作。

全卷积神经网络通过池化层下采样降低图像尺寸的同时增大感受野，然后使用上采样将图像变回原大小，此过程中导致了图像信息丢失，而空洞卷积在一定程度上可以避免此问题。图 3展示了空洞卷积与感受野之间的关系，其感受野呈指数级增长。

在图3中，卷积核均为3×3。图3a采用l=1的空洞卷积（即普通卷积）对原图操作得到第1层特征图，第1层中各元素代表的信息是原图 3×3元素的信息，即感受野为3×3。图3b采用l=2的空洞卷积对第1层操作得到第2层特征图，由于膨胀系数为2，实际上卷积核分布为图中圆点位置，第 2层中各元素相对于原图的感受野为7×7。图 3c采用l=4的空洞卷积对第 2层操作得到第 3层特征图，同理第3层中各元素的感受野为15×15。

图3 空洞卷积带来的感受野增长Fig.3 Expansion of receptive field due to dilated convolution

对比于传统卷积的3层3×3卷积核联立只能获得7×7的感受野，空洞卷积实际参与卷积的因子数量没有变，卷积的计算量没有变，但是卷积核的尺寸变大，使得特征图中一个特征值对应原来更大的区域，也就是可以获得更大的感受范围。

3.2 基于空洞卷积的上下文聚合及前端模块

近年来卷积神经网络研究中，Long等[16]分析过滤波器的扩张但是并未进行应用。Chen等[20]用空洞来简化Long等提出的全卷积神经网络结构。而Yu等[21]2016年提出采用空洞卷积的上下文模块（context module），系统地使用空洞卷积来进行多尺度上下文聚合，旨在通过聚合上下文信息来提高像素预测体系结构的性能。该模块的输入和输出都是C个通道特征图（C可以表示图像中的对象分类数），输入输出的形式相同，因此可以将该模块插入到现有的像素预测网络中，但它不具备完整的预测网络功能，需要一个前端网络为其提供特征图作为输入，即前端模块（front-end module）。

1）上下文模块

Yu等[21]提出的上下文模块共8层。前7层都采用具有不同膨胀系数的3×3卷积核进行空洞卷积；膨胀系数l在各层中呈指数增大，以使用小感知区域的卷积核先获取局部特征，再用大感知区域的卷积核把特征分到更多区域中。各卷积操作后，接着是逐元素截断操作max(·,0)，以裁剪空洞卷积造成的扩大边缘。最后一层执行 1×1×C的卷积并产生模块的输出。上下文模块根据卷积的通道不同又分为Basic和Large 2种网络形式。

文章来源：《湖北农机化》网址: http://www.hbnjhzz.cn/qikandaodu/2021/0709/1515.html