基于改进空洞卷积神经网络的丘陵山区田间道路(6) - 湖北农机化杂志社投稿

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

基于改进空洞卷积神经网络的丘陵山区田间道路(6)

作者:

关键词:

摘要：

4.3 试验结果与分析

4.3.1 模型改进效果测试

网络模型进行训练时，每迭代500次保存一次模型，分别选取损失函数值最低、MIoU最高时的模型进行测试。表4为4种网络模型对测试集丘陵山区田间道路场景中每类对象的分割结果。

表4 改进网络模型语义分割效果Table 4 Effect of semantic segmentation by improve networks model类别分割像素准确率Categories segmentation pixel accuracy /%Front-end+Large背景 Background 82.0 88.2 92.3 93.0道路Road 80.3 86.8 89.6 91.3行人Person 73.4 80.6 80.7 81.6植被Vegetation 79.0 84.6 88.4 89.4天空Sky 76.5 83.1 86.9 87.8建筑Building 78.3 84.9 87.8 88.6牲畜Livestock 73.8 81.4 81.8 82.6障碍Obstacle 75.3 81.9 83.5 84.3池塘Pond 77.2 83.2 85.6 85.6土壤Soil 76.2 85.8 84.7 80.4杆Pole 69.3 75.1 75.6 79.0分类Classification FCN-8s Front-end Front-end+Basic统计像素准确率Pixel accuracy (PA) 80.9 86.5 88.2 88.5类别平均准确率Mean pixel accuracy (MPA) 76.5 83.2 85.2 86.0平均区域重合度Mean intersection over union (MIoU) 65.3 71.7 73.4 74.2

从表4中可知，在具体类别的识别方面，4种网络模型对“背景”及“道路”的识别像素准确率都最高，而对“杆”的识别像素准确率都最低，对“行人”的识别像素准确率也较低。这是因为，“背景”和“道路”之间的特征差异比较明显；而远处的“行人”和“杆”相对其他对象来说通常较小，图像经预处理后分辨率较低，低分辨率下小的对象容易失去形状和颜色特征信息。

比较4种网络模型，除对“土壤”外，Front-end+Large对其他类别的识别像素准确率都最高；Front-end对于“土壤”的识别像素准确率最高；FCN-8s对所有类别的识别像素准确率都是最低。总体效果最好的Front-end + Large对“背景”及“道路”的识别像素准确率最高，分别达到93%和91.3%；而对“杆”的识别像素准确率最低，只有79.0%。

从表4还可知，4种网络模型相比较，在统计像素准确率 PA、类别平均准确率 MPA以及平均区域重合度MIoU评价指标上，Front-end+Large都是最高，分别达到88.5%、86.0%和 74.2%。测试结果表明，本文构建的Front-end + Large模型对丘陵山区田间道路对象类别具有良好的适应性和较高的识别准确率。

图5所示为4种网络模型对田间道路图像语义分割的效果。

图5 不同网络模型产生的语义分割结果Fig.5 Semantic segmentation results produced by different network models

总体上看，FCN-8s的语义分割效果最差，Front-end +Large效果最好。这主要有两方面的原因：1）FCN-8s的上采样结构为第3层8倍放大，在FCN中进行放大还原时，较浅的卷积层感受野比较小，学习感知细节部分的能力较强，但是在丘陵山区田间道路复杂场景下，“植被”、“土壤”和“建筑”等的像素区域总是交叉覆盖，对象之间的特征差异并不明显，其感知细节的能力没有发挥作用；2）构建的前端模块相对于FCN-8s具有很大的提升，插入 Large 上下文模块后，增大了感受野，聚合了上下文信息，对于田间道路复杂场景具有更好的区块化分割效果。另一方面，在某些场景下，相比Front-end和 Front-end+Basic，Front-end+Large会丢失一些细节上的信息，如图5第3行场景中的“土壤”对象，大范围地被识别为“植被”。其主要原因在于Large结构上下文模块在更深层（靠后的）中采用了更多的特征图，虽然进一步增加了感受野，但是细节（边缘）会更加粗糙，也容易丢失一些交叉覆盖区域（如“植被”和“土壤”）的细节信息。此外，田间“土壤”形状、大小、颜色等特征变化多样也是其易被识别错误的重要原因。

综上所述，本文基于 VGG-16构建的前端模块有效地提高了田间道路图像语义分割的精度，而与上下文模块的结合进一步增加了识别准确率，但是过大的感受野不利于小物体的分割。Front-end + Large总体上的语义分割比Front-end + Basic更为准确和完整。所以，本文选取表现最好的Front-end + Large网络结构作为田间道路场景图像语义分割模型。

4.3.2 不同模型对比试验分析

表5为文献[10] FCN-8s对大田环境、文献[11]全空洞卷积神经网络对MIT Scene Parsing Dataset测试集、FCN-8s以及本文构建的Front-end+large对丘陵田间道路场景的测试效果对比。

表5 不同场景下各种网络模型测试效果对比Table 5 Comparison of test results of various network models under different scenesFront-end +Large（丘陵田间道路环境Hilly field road environment）平均区域重合度MIoU/% 75.52 26.68 65.3 74.2统计像素准确率PA/% 90.87 72.81 80.9 88.5类别平均准确率MPA/% 88.83 35.60 76.5 86.0评价指标Evaluating indicator FCN-8s[10]（平原大田环境Plain field environment)全空洞卷积[11]Fully dilated convolutional networks（MIT Scene Parsing Dataset）FCN-8s（丘陵田间道路环境Hilly field road environment）

文章来源：《湖北农机化》网址: http://www.hbnjhzz.cn/qikandaodu/2021/0709/1515.html