基于改进空洞卷积神经网络的丘陵山区田间道路(2) - 湖北农机化杂志社投稿

一、稿件要求： 1、稿件内容应该是与某一计算机类具体产品紧密相关的新闻评论、购买体验、性能详析等文章。要求稿件论点中立，论述详实，能够对读者的购买起到指导作用。文章体裁不限，字数不限。 2、稿件建议采用纯文本格式(*.txt)。如果是文本文件，请注明插图位置。插图应清晰可辨，可保存为*.jpg、*.gif格式。如使用word等编辑的文本，建议不要将图片直接嵌在word文件中，而将插图另存，并注明插图位置。 3、如果用电子邮件投稿，最好压缩后发送。 4、请使用中文的标点符号。例如句号为。而不是.。 5、来稿请注明作者署名(真实姓名、笔名)、详细地址、邮编、联系电话、E-mail地址等，以便联系。 6、我们保留对稿件的增删权。 7、我们对有一稿多投、剽窃或抄袭行为者，将保留追究由此引起的法律、经济责任的权利。二、投稿方式： 1、请使用电子邮件方式投递稿件。 2、编译的稿件，请注明出处并附带原文。 3、请按稿件内容投递到相关编辑信箱三、稿件著作权： 1、投稿人保证其向我方所投之作品是其本人或与他人合作创作之成果，或对所投作品拥有合法的著作权，无第三人对其作品提出可成立之权利主张。 2、投稿人保证向我方所投之稿件，尚未在任何媒体上发表。 3、投稿人保证其作品不含有违反宪法、法律及损害社会公共利益之内容。 4、投稿人向我方所投之作品不得同时向第三方投送，即不允许一稿多投。若投稿人有违反该款约定的行为，则我方有权不向投稿人支付报酬。但我方在收到投稿人所投作品10日内未作出采用通知的除外。 5、投稿人授予我方享有作品专有使用权的方式包括但不限于：通过网络向公众传播、复制、摘编、表演、播放、展览、发行、摄制电影、电视、录像制品、录制录音制品、制作数字化制品、改编、翻译、注释、编辑，以及出版、许可其他媒体、网站及单位转载、摘编、播放、录制、翻译、注释、编辑、改编、摄制。 6、投稿人委托我方声明，未经我方许可，任何网站、媒体、组织不得转载、摘编其作品。

基于改进空洞卷积神经网络的丘陵山区田间道路(2)

作者:

关键词:

摘要：

本文根据田间道路环境特征以及自主导航的需要，将田间道路图像中的对象分为11种类别，分别是“背景、道路、行人、植被、天空、建筑、牲畜、障碍、池塘、土壤和杆”，其定义见表1。对“道路、土壤、植被、建筑、池塘”分类的目的在于实现后续自主导航的局部路径规划；对“行人、牲畜、障碍”分类是便于后续自主行驶中的自动避障；对“杆”分类是便于后期对路牌和标志牌的识别。

表1 丘陵山区田间道路场景对象分类Table 1 Classification of field road scene objects in hilly areas分类Classification定义Definition背景Background 指不符合以下任何一种情况的分类。指供农业机械行驶及行人行走的道路，包括所有的小路、所有方向上的道路。该区域范围由当前没有较大纹理变化的主路划定，例如巷道、环道和院坝（房前的平地）等可供农机行驶的区域也属于该分类。该分类不包括仅有土壤的道路。行人Person道路Road指能够移动的人物，例如行走中、站立中、坐在地上和凳子上的人。该分类同时包括人携带的任何不触碰地面的东西，例如背包。植被Vegetation指房屋、住宅、车库、围墙等建筑。当该建筑拥有可透视的玻璃时，玻璃区域仍视为建筑。牲畜Livestock指没有树叶覆盖的空旷天空。天空前面的细电线、鸟类等也归类为天空。建筑Building指树木、草和各种植物。附着在建筑物上的植物，当覆盖表面区域超过20%时标记为植被，否则为建筑。以土壤、道路、水塘等为后景重叠的树枝，当树枝直径＞18 cm时标记为植被，否则标记为后景所属分类。天空Sky指狗、鸡、牛、羊等可移动并影响到道路环境的动物，非人工豢养的动物也归于此类。障碍Obstacle指占据路面的手推车、化肥、落石、树干等高度＞20 cm的不动物体，以及深度＞10 cm、直径＞8 cm的坑洞。池塘Pond 指比湖泊小的水体或人造的水池等。土壤Soil指连续覆盖于地表的土壤圈层。土壤区域上植被覆盖少于20%时也视为土壤，否则视为植被。杆Pole指较小的主要朝向竖直的金属杆、木杆、水泥杆等，例如电线杆、路牌。如果“杆”具有水平部分（如干字型杆塔和路牌基板），这部分也被认为是“杆”。

2 图像样本数据集建立

2.1 数据集获取

本文田间道路场景图像语义分割的主要目的是实现智能农机在田间道路上的自主导航与避障，因此以前期研制的自主行驶田间道路搬运车[1]为图像采集平台，以获取真实的行驶过程中的道路图像。如图 2所示，该搬运车整车尺寸1 130 mm×530 mm×822 mm（长×宽×高），轮距450 mm，轴距760 mm。图像采集模块为RER-720P高清摄像头，最高分辨率为1280×720像素。摄像头离地高度800 mm，光轴中心与地面夹角15°。搬运车以2 m/s的速度行驶，摄像头采集道路场景真实视频数据后存储于笔记本电脑中，再剪辑选取帧图像。

为提高构建的场景理解模型算法的鲁棒性，使其适应多种环境特征，依据田间实际情况和自然光照，在多种复杂条件下进行图像采集。采集过程中道路上存在大量阴影遮挡的情况。

图2 田间道路搬运车采集图像Fig.2 Image acquisition by field road carrier

图像采集地点为重庆市北碚区内的丘陵山区田间道路。将采集后的视频图像进行分析，提取多个场景和环境条件的1 000张帧图像作为数据集进行后续处理。为降低对计算机显存的需求，将采集到的图像像素全部缩放为512×512像素。

2.2 数据集预处理

为了获得精确的语义分割数据集，并有效地提升数据质量、增加数据特征多样性，对采集的田间道路图像集进行预处理，包括数据标注、数据增强及均值处理 3个步骤。

卷积神经网络需要进行有监督的训练。采集的帧图像本身没有标签和语义，必须进行人工分割和标注，然后图片才能用于训练[10]。使用Adobe Photoshop CC 2018工具对数据集进行手动分割。在缩放后的图片中，对 11种对象类别进行手动标注，每种类别标注的 RGB（red-green-blue）3通道值如表2所示。

表2 丘陵山区田间道路场景对象的标注颜色Table 2 Marked color of field road scene objects in hilly areas分类Classification 编号Serial number R G B背景Background 0 0 0 0道路Road 1 128 64 128行人Person 2 255 0 0植被Vegetation 3 107 142 35天空Sky 4 70 130 180建筑Building 5 70 70 70牲畜Livestock 6 119 11 32障碍Obstacle 7 0 0 142池塘Pond 8 244 35 232土壤Soil 9 250 170 160杆Pole 10 153 153 153

数据增强参考文献[10]提供的方法，对缩放后的图片集以及人工语义分割后的图片进行水平和垂直翻转，然后将图片沿水平方向移动48个像素位置。采用这3种方式，每种方式可扩充 2倍的数据量，由此将训练集数据扩充为原始数据集的8倍。

文章来源：《湖北农机化》网址: http://www.hbnjhzz.cn/qikandaodu/2021/0709/1515.html