无人驾驶环境中视觉感知关键技术研究

王小瑀

长春工业大学

下载全文

在线阅读

引用

摘要：

近年来，随着人工智能技术的发展以及国内外相关政策的开放，无人驾驶不断向商业化推进，已经成为目前发展最快的人工智能产业之一。在无人驾驶技术当中，环境感知是实现精准定位、决策控制等技术的前提。在环境感知当中，视觉感知由于其投入成本低、操作简单、获得信息量大等特点，成为了目前应用最广泛、研究最成熟的方法。视觉感知系统需要对道路、天空、房屋等背景类别实现像素级视觉感知，以确定无人驾驶车辆可行使区域。同时，还需要对车辆、行人等目标类别实现实例级视觉感知，以获取精确的坐标信息。针对上述问题，本文在卷积神经网络的基础上，分别设计了用于感知背景类别的语义分割算法以及用于感知目标类别的目标检测算法，主要工作内容如下：　　首先，研究了语义分割算法，针对无人驾驶像素级视觉感知场景需求，提出了一种基于多级特征图联合上采样的实时语义分割算法（Multi-scaleFeatureMapJointPyramidUpsampingNetwork，MJPUNet）。为了获得实时分割速度，MJPUNet采用了一种轻量级的卷积神经网络作为编码器，此外还替换了目前主流语义分割网络中使用的耗时、耗内存的空洞卷积。设计了一个多尺度联合上采样模块，通过融合编码器的多个特征图，生成了语义信息更加丰富的高分辨率特征图。在Cityscapes数据集上的实验结果表明，MJPUNet可以达到91.85%的像素准确率，43.78%的平均交并比，并且在分割速度上达到32.3FPS。　　其次，研究了目标检测算法，针对无人驾驶实例级视觉感知场景的要求，构建了车辆、行人检测数据集。数据采用了无人驾驶开源数据集KITTI中的7000张图片并使用标注工具LabelImg进行手工标注。通过对YOLOv5算法的研究，重新设计了一个无人驾驶实例级视觉感知算法NGM-YOLOv5。它使用了YOLOv5的思想和体系结构，并且为了增加实例级视觉感知的速度，本文将GhostNet插入YOLOv5。同时为网络添加了归一化注意力机制模块（NormalizationBlockAttentionModule，NBAM），使得网络可以通过调整通道注意和空间注意来进一步忽略无价值的特征，以提高网络的检测精度。为了使NGM-YOLOv5更加符合实际应用，提出了一种网络自适应架构（NetworkAdaptationArchitecture，NAA）根据每帧中识别到的目标数量选择相应的网络，在不降低精度的情况下提高特征提取的效率以及硬件的利用率。在KITTI数据集上的实验表明，NGM-YOLOv5最高可以达到95.5%的mAP以及114.47的FPS。

关键词：视觉感知;无人驾驶;卷积神经网络;语义分割;目标检测

授予单位：长春工业大学

授予学位：硕士

学科专业：电子与通信工程

导师姓名：宋宇;朱龙

学位年度：2022

语种：中文

分类号：TP391.41

在线出版日期：2022-10-12（万方平台首次上网日期，不代表论文的发表时间）

个人中心

我的学术圈

我的书案

退出

学位专题

无人驾驶环境中视觉感知关键技术研究