- · 《湖北农机化》栏目设置[06/29]
- · 《湖北农机化》投稿方式[06/29]
- · 《湖北农机化》征稿要求[06/29]
- · 《湖北农机化》刊物宗旨[06/29]
基于改进空洞卷积神经网络的丘陵山区田间道路(4)
作者:网站采编关键词:
摘要:卷积神经网络通常用随机分布样本进行初始化[22]。然而,试验表明标准的随机初始化方案并不能提高上下文模型的预测精度,使用明确语义的替代初始化
卷积神经网络通常用随机分布样本进行初始化[22]。然而,试验表明标准的随机初始化方案并不能提高上下文模型的预测精度,使用明确语义的替代初始化形式更加有效[21]。
Basic网络采用的初始化方案为
式中a是输入特征图的索引,b是输出特征图的索引。该初始化方案设置所有滤波器直接将每层的输入传递给下一层[25],试验表明其反向传播能可靠地获取网络的上下文信息,提高处理后的特征图的精度。
Large网络与Basic网络的区别在于在较深的层中使用更多的特征图。Large网络也需要更改初始化方案来解决不同层特征图数量差异的问题,其方法是:设ci和ci+1为2个连续层的特征图数量,将C同时除以ci和ci+1,具体可表示为
式中ε~N(0, σ2)且 σ<<C/ci+1。
2)前端模块
前端模块又称前端预测模块(front-end prediction module),其作用是产生一定分辨率的特征图提供给上下文模块。前端模块源自Long等[16]和Chen等[20]的研究,Long等保留了传统分类网络中的最后两个 pooling和striding层,Chen等使用扩张代替striding层并保留pooling层,而 Yu等[21]发现通过移除 VGG-16网络最后两个pooling层来简化网络可以提高预测精度。本文采用 Yu等修改之后的前端模块。
3.3 基于空洞卷积的语义分割模型的构建
根据前述空洞卷积网络的特征,本文利用全卷积神经网络 VGG-16结构,融合空洞卷积构造预测精度更高的前端模块,利用不同膨胀系数空洞卷积层的级联进行多尺度上下文聚合,由此构建的田间道路场景图像语义分割模型如图4所示。图中final层之前的部分即为前端模块,之后的部分为上下文模块。前端模块将一幅彩色图像作为输入,生成C=11个特征图作为输出。上下文模块则对前端模块输出的特征图作进一步预测。
为简化计算和提高预测精度,前端模块在 VGG-16的基础上改进,具体构建方法为:将VGG-16中的pooling4和pooling5层移除,且将Conv5中的3个卷积层改为膨胀系数为2的空洞卷积,fc6层的卷积改为膨胀系数为4的空洞卷积,以保持感受野不变。另外,VGG-16中间特征图的padding操作,其功用是配合pooling层进行下采样,适用于传统的分类网络,但操作中可能会引入噪声,这在像素预测中既不必要也不合理,因此,删除了padding操作。
构建的上下文模块则为不同膨胀系数空洞卷积层的级联,各层的具体结构参数如表3所示,包括final输出层在内共8层,前6层是膨胀系数分别为1、1、2、4、8和16的空洞卷积。由于原图经过前端模块前面层下采样后分辨率变成 64×64像素,因此在上下文模块设计中停止了第六层之后感受野的指数扩张,第7、8层的感受野为67×67。为便于对比,根据输出特征图通道数量不同设计了Basic和Large 2种网络形式。
以上修改使得能够利用传统 VGG-16网络进行参数的初始化,并可产生更高分辨率的输出。由此构建的空洞卷积神经网络即为田间道路场景图像语义分割模型。
图4 基于空洞卷积神经网络的田间道路场景图像语义分割模型Fig.4 Dilated convolutional networks (DCN) architecture for semantic segmentation of field road images注:数字64、128、256、512、4096和11表示各层的特征图数量;修正线性单元(rectified linear unit,ReLU)为一种神经元的激活函数。Note: Numbers 64, 128, 256, 512, 4096, and 11 represent the number of feature maps for each layer; rectified linear unit (ReLU) is a kind of neuron activation function.
表3 上下文模块网络结构参数Table 3 Architecture parameters of context module network层数Layer输出特征图通道数量Output channels for feature maps Large网络Large network 1 3×3 1 是 3×3 C 2C 2 3×3 1 是 5×5 C 2C 3 3×3 2 是 9×9 C 4C 4 3×3 4 是 17×17 C 8C 5 3×3 8 是 33×33 C 16C 6 3×3 16 是 65×65 C 32C 7 3×3 1 是 67×67 C 32C 8 3×3 1 否 67×67 C C卷积核大小Convolution膨胀系数Dilation裁剪边缘Truncation感受野大小Receptive field Basic网络Basic network
3.4 模型的搭建与训练
依托深度学习框架快速特征嵌入的卷积结构(convolutional architecture for fast feature embedding,CAFFE)[27]搭建基于空洞卷积的田间道路场景图像语义分割模型。CAFFE中使用 进行空洞卷积算法的定义,对训练参数进行设置,solve.py进行网络的训练,infer.py调用模型生成语义分割的结果。本文试验硬件环境为英特尔 Core i7-四核八线程处理器,16 GB内存,显存为6GB的Nvidia GeForce GTX 1060显卡。
随着层数的不断加深,DCN识别模型的精度也在不断提高,但也带来了模型易陷入局部最小值的问题[28]。因此,在实际的深度网络模型训练中,一些学者普遍采用上一个较好的收敛模型的参数来初始化新模型的初始参数,SSD(Single Shot Multibox Detector)[29]、DeepID[30]等现有的卷积神经网络模型都采取了预训练的策略。
文章来源:《湖北农机化》 网址: http://www.hbnjhzz.cn/qikandaodu/2021/0709/1515.html