基于改进空洞卷积神经网络的丘陵山区田间道路(4) - 湖北农机化杂志社投稿

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

基于改进空洞卷积神经网络的丘陵山区田间道路(4)

作者:

关键词:

摘要：

卷积神经网络通常用随机分布样本进行初始化[22]。然而，试验表明标准的随机初始化方案并不能提高上下文模型的预测精度，使用明确语义的替代初始化形式更加有效[21]。

Basic网络采用的初始化方案为

式中a是输入特征图的索引，b是输出特征图的索引。该初始化方案设置所有滤波器直接将每层的输入传递给下一层[25]，试验表明其反向传播能可靠地获取网络的上下文信息，提高处理后的特征图的精度。

Large网络与Basic网络的区别在于在较深的层中使用更多的特征图。Large网络也需要更改初始化方案来解决不同层特征图数量差异的问题，其方法是：设ci和ci+1为2个连续层的特征图数量，将C同时除以ci和ci+1，具体可表示为

式中ε～N(0, σ2)且 σ＜＜C/ci+1。

2）前端模块

前端模块又称前端预测模块（front-end prediction module），其作用是产生一定分辨率的特征图提供给上下文模块。前端模块源自Long等[16]和Chen等[20]的研究，Long等保留了传统分类网络中的最后两个 pooling和striding层，Chen等使用扩张代替striding层并保留pooling层，而 Yu等[21]发现通过移除 VGG-16网络最后两个pooling层来简化网络可以提高预测精度。本文采用 Yu等修改之后的前端模块。

3.3 基于空洞卷积的语义分割模型的构建

根据前述空洞卷积网络的特征，本文利用全卷积神经网络 VGG-16结构，融合空洞卷积构造预测精度更高的前端模块，利用不同膨胀系数空洞卷积层的级联进行多尺度上下文聚合，由此构建的田间道路场景图像语义分割模型如图4所示。图中final层之前的部分即为前端模块，之后的部分为上下文模块。前端模块将一幅彩色图像作为输入，生成C=11个特征图作为输出。上下文模块则对前端模块输出的特征图作进一步预测。

为简化计算和提高预测精度，前端模块在 VGG-16的基础上改进，具体构建方法为：将VGG-16中的pooling4和pooling5层移除，且将Conv5中的3个卷积层改为膨胀系数为2的空洞卷积，fc6层的卷积改为膨胀系数为4的空洞卷积，以保持感受野不变。另外，VGG-16中间特征图的padding操作，其功用是配合pooling层进行下采样，适用于传统的分类网络，但操作中可能会引入噪声，这在像素预测中既不必要也不合理，因此，删除了padding操作。

构建的上下文模块则为不同膨胀系数空洞卷积层的级联，各层的具体结构参数如表3所示，包括final输出层在内共8层，前6层是膨胀系数分别为1、1、2、4、8和16的空洞卷积。由于原图经过前端模块前面层下采样后分辨率变成 64×64像素，因此在上下文模块设计中停止了第六层之后感受野的指数扩张，第7、8层的感受野为67×67。为便于对比，根据输出特征图通道数量不同设计了Basic和Large 2种网络形式。

以上修改使得能够利用传统 VGG-16网络进行参数的初始化，并可产生更高分辨率的输出。由此构建的空洞卷积神经网络即为田间道路场景图像语义分割模型。

图4 基于空洞卷积神经网络的田间道路场景图像语义分割模型Fig.4 Dilated convolutional networks (DCN) architecture for semantic segmentation of field road images注：数字64、128、256、512、4096和11表示各层的特征图数量；修正线性单元（rectified linear unit，ReLU）为一种神经元的激活函数。Note: Numbers 64, 128, 256, 512, 4096, and 11 represent the number of feature maps for each layer; rectified linear unit (ReLU) is a kind of neuron activation function.

表3 上下文模块网络结构参数Table 3 Architecture parameters of context module network层数Layer输出特征图通道数量Output channels for feature maps Large网络Large network 1 3×3 1 是 3×3 C 2C 2 3×3 1 是 5×5 C 2C 3 3×3 2 是 9×9 C 4C 4 3×3 4 是 17×17 C 8C 5 3×3 8 是 33×33 C 16C 6 3×3 16 是 65×65 C 32C 7 3×3 1 是 67×67 C 32C 8 3×3 1 否 67×67 C C卷积核大小Convolution膨胀系数Dilation裁剪边缘Truncation感受野大小Receptive field Basic网络Basic network

3.4 模型的搭建与训练

依托深度学习框架快速特征嵌入的卷积结构（convolutional architecture for fast feature embedding，CAFFE）[27]搭建基于空洞卷积的田间道路场景图像语义分割模型。CAFFE中使用进行空洞卷积算法的定义，对训练参数进行设置，solve.py进行网络的训练，infer.py调用模型生成语义分割的结果。本文试验硬件环境为英特尔 Core i7-四核八线程处理器，16 GB内存，显存为6GB的Nvidia GeForce GTX 1060显卡。

随着层数的不断加深，DCN识别模型的精度也在不断提高，但也带来了模型易陷入局部最小值的问题[28]。因此，在实际的深度网络模型训练中，一些学者普遍采用上一个较好的收敛模型的参数来初始化新模型的初始参数，SSD（Single Shot Multibox Detector）[29]、DeepID[30]等现有的卷积神经网络模型都采取了预训练的策略。

文章来源：《湖北农机化》网址: http://www.hbnjhzz.cn/qikandaodu/2021/0709/1515.html