通知公告:

发言范文网欢迎您
栏目导航
【工作总结】
【工作计划】
【述职报告】
【作文大全】
【心得体会】
【思想汇报】
发言范文网

基于深度学习的3D目标检测算法研究

发布时间:2022-07-30 12:35:03   浏览量:

康晴,汤超,李婧萱,崔振

摘 要:
虽然Voxel R-CNN对于3D点云目标检测具有快速性以及对车辆目标检测有较高精度,但对行人以及骑车人目标存在检测精度低的问题。介绍了一种多尺度改进的体素ROI池化方法,并在BEV特征提取网络中引入通道注意力机制,进一步提高算法对于小目标检测的精度。实验结果表明,提出的算法不仅保持了对于车辆检测的较高精度,并且在行人以及骑车人目标检测场景中拥有更高的检测精度。

关键词:
3D点云目标检测; 通道注意力; 多尺度; Voxel R-CNN

中图分类号:TP391          文献标识码:A     文章编号:1006-8228(2022)06-44-05

Research on 3D object detection algorithm based on deep learning

Kang Qing1, Tang Chao2, Li Jingxuan1, Cui Zhen2

(1. School of Automation, Nanjing University of Science and Technology, Nanjing, Jiangsu 210094, China;

2. School of Computer Science and Engineering,Nanjing University of Science and Technology)

Abstract:
Although Voxel R-CNN has high speed for 3D point cloud object detection and high precision for vehicle detection, it still has the problem of low accuracy in pedestrian and cyclist detection. In this paper, a multi-scale improved voxel ROI pooling method is presented, and channel attention mechanism is introduced to the BEV feature extraction network to promote the accuracy for small object detection. Experiments show that the proposed algorithm not only maintains the high accuracy of vehicle detection, but also has higher accuracy in pedestrian and cyclist detection.

Key words:
3D point cloud object detection; channel attention; multi-scale; Voxel R-CNN

0 引言

随着自动驾驶,机器人视觉,虚拟现实增强技术等领域研究的发展,3D点云目标检测作为其中的关键技术而受到广泛的关注,应用前景十分广阔。3D点云目标检测作为自动驾驶的关键技术已经取得了长足的进步,然而由于点云的稀疏性、无序性等特点,3D点云目标检测还存在着诸多难点,目前利用点云进行深度学习的方法主要基于体素、基于点、基于视图三种。

基于体素的方法将不规则的点云输入划分为规则网格,便于应用卷积神经网络进行特征提取。VoxelNet[1]通过体素特征编码(Voxel Feature Encoding,VFE)层,将点状特征与局部聚集的特征相结合,提高了基于体素的目标检测精度。基于点云的稀疏性,SECOND[2](Sparsely embedded convolutional detection)通过引入新的角度损失回归方法来提高定位精度,并通过稀疏卷积使处理速度得以提升。PointPillars[3]通过2D卷积网络对点云生成的伪图像进行处理,从而大大提高了处理速度。基于点的方法使用原始点云数据作为输入,PointRCNN[4]基于原始的点云数据,以自下而上的方案生成三维区域候选框。PV-RCNN[5]通过点与体素方法的结合,实现高效且感受野灵活的三维目标检测。基于视图的方法则通过点云在多角度的投影形成二维图像,借助成熟的二维图像处理技术来解决直接输入原始点云难以进行处理的问题。

目前对于原始点云的处理方法中,基于点的方法往往能够获得较高的检测精度,但是速度相对较慢。基于体素的方法能够获得更快的检测速度,但是在精度上有所下降。为解决点云无序性处理问题的同时获得较高的检测速度的同时满足较高精度的要求,我们采用基于体素的Voxel R-CNN算法[6]進行3D目标检测。并且为更好地提升Voxel R-CNN在小目标尤其是行人和骑车人目标的检测精度,本文基于原有模型进行改进,提高了模型性能,并取得了较好的检测结果。

1 构建Voxel R-CNN模型

本文采用Voxel R-CNN模型,直接对原始点云进行基于体素的处理并实现3D点云的目标检测。Voxel R-CNN模型基本框架如图1所示。

模型总共由四个部分组成:3D特征主干网络、2D主干网络及RPN模块、体素ROI池化、检测头。该模型基于体素处理点云的方法,通过稀疏卷积进行3D特征的提取,通过投影的BEV特征图进行2D特征提取以及产生3D候选区域。并由体素ROI池化生成3D ROI特征进行3D候选框的回归,从而估计目标点云的3D检测框。

1.1 3D主干网络

由于3D点云数据的稀疏性和离散性,因此Voxel R-CNN使用体素网格划分的方法进行点云数据的处理,并对体素网格进行平均体素特征编码MeanVFE(Mean Voxel Feature Encoding),如图2所示。

由于点云数据的稀疏性,大部分体素网格为空网格。因此在3D主干网络中Voxel R-CNN算法通过输入体素特征及体素坐标形成稀疏张量,并使用子流形卷积与稀疏卷积进行特征的提取,大大减少计算量并提高了卷积效率。

1.2 2D特征提取及RPN模块

3D主干网络逐渐将体素化的输入转换成特征体,输出张量沿Z轴堆叠产生BEV特征图。2D主干网络由自顶向下的特征提取子网络、多尺度特征融合子网络两部分组成,如图3所示。

多尺度特征融合子网络对自上而下的特征进行上采样和连接,2D主干网络的输出通过RPN生成3D候选区域。

1.3 体素ROI池化

由于3D特征体积结构的稀疏性(非空体素所占空间小于3%),Voxel R-CNN将3D候选区域划分为子体素,并将相邻体素的特征整合到网格点中进行特征提取。Voxel R-CNN利用体素ROI池化从3D主干网络的后两阶段提取体素特征,同时对于每个阶段设置曼哈顿距离阈值对多个尺度的体素进行分组,然后将不同阶段尺度汇集的特征进行拼接得到3D ROI特征。

1.4 检测头

检测头部分以3DROI特征作为输入进行预测框的细化,共享的两层MLP(Multi-Layer Perceptron)将3D ROI特征转换成特征向量,将特征用于3D预测框回归与置信度预测中,最终得到3D预测框的质心坐标[cx,cy,cz],长宽高[h,w,l],航向角[θ]等参数。

2 Voxel R-CNN模型改进

2.1 基于注意力机制改进的2D主干网络

在VoxelR-CNN模型中,2D主干网络应用于在BEV特征图中提取特征,并且通过RPN产生3D候选区域。在原始的2D主干网络中,不同层级的多个大小尺度[Ci],在经过横向连接转换通道数后与2倍上采样后的特征[Ci+1]进行拼接作为2D主干网络的融合特征,从而输出最终的特征图[Mi],其计算过程可以表示为

[Mi=h(fCi,D2(Ci+1))]

其中,[f]代表1x1卷积层,用于转换特征图的通道数;[D2]表示2倍上卷积操作;[h]表示通道的拼接。

为避免BEV特征图中多变的背景信息对于特征提取过程的干扰,我们采用基于通道的注意力机制作为2D主干网络中对于特征的约束模块,以增强对于模型对于特征图中前景特征的提取能力。增强后的结果通过残差块并使用多尺度方法与2倍上采样的上层特征进行特征融合,计算过程可以表示为:

[Mi=h(fCi+S(Ci),D2(Ci+1))]

其中,[S]代表基于通道的注意力机制模块,用于强化对特征的选择约束。

我们采用SENet[7](Squeeze-and-Excitation Networks)实现对于通道级别的注意力机制。SENet将[H×W×C]的输入经过全局平均池化压缩为[1×1×C],通过两层全连接层将其转化为对应通道的权重,权重值经过Sigmod激活乘到原输入特征上,其结构如图5所示。本文将第一层全连接层的通道压缩比设置为16,即[r=16]。

改进后的2D主干网络结构如图6所示。通过通道注意力机制的特征约束,使2D主干网络能够更好地提取前景点特征,减小背景点对于特征提取的影响。

2.2 基于多尺度改进的体素ROI池化层

Voxel R-CNN的3D主干网络中,输入点云数据被划分成子体素,其中非空体素的特征通过平均体素特征编码计算内部所有点的特征向量均值,经3D稀疏卷积提取语义信息,并在这一过程中将体素化点云特征逐渐转换成不同尺度的特征体。

VoxelR-CNN将2D主干网络及RPN模块所产生的3D候选区域划分为子体素,并将相邻体素的特征整合到网格点中进行特征提取,从而避免三维特征体的稀疏性对池化的影响。VoxelR-CNN算法从3D主干网络的最后两阶段提取体素特征进行分组和特征拼接,如图7(a)所示。考虑低层网络感受野小,几何细节信息表征能力强的特点,在这一阶段,我们从3D主干网络的后四层进行体素特征的提取并进行多尺度特征融合,从而使改进后的点云目标检测算法更适用于行人以及骑车人目标等小目标的检测场景,改进后的结构如图7(b)所示。

3 实验结果与分析

3.1 实验环境

实验平台为Intel Xeon E5-2620 v4、NVIDIA GeForce RTX 2080 Ti、32GB内存,在Ubuntu 18.04.3和Python3.8下搭建CUDA 10.1、CUDNN 8.0.1、Pytorch 1.5.1深度学习环境。实验采用目前公开规模最大的交通场景数据集KITTI,自动驾驶KITTI数据集包含乡村、市区和高速公路场景的真实场景和点云数据,每个场景中根据遮挡和截断的程度,划分为简单(Esay)、中等(Moderate)、简单(Hard)三個等级。该数据集共有7481个场景对应相应点云数据与图像,本次实验按照Voxel R-CNN的数据集划分结构将其划分为3712份训练集与3769份验证集。

3.2 3D目标检测精度对比

采用改进后的2D主干网络与体素ROI池化层与原VoxelR-CNN算法进行车辆、行人以及骑车人的目标检测精度结果对比。实验使用两块NVIDIA GeForce RTX 2080 Ti进行,每块显卡设置batch_size为2,并对于所有样本训练迭代80次,在11个召回点的条件下对车辆、行人以及骑车人目标3D预测框的平均精度([AP3D(%)])作为评估指标,共进行3次实验,并对实验结果取平均值作为最终指标。将改进后的模型与现有的3D点云目标检测模型在KITTI评估集上的检测结果对比,结果分别如表1、表2和表3所示。

其中VoxelNet是基于体素的方法,PointRCNN是基于点的方法,Frustum ConvNet[8]是基于視锥特征融合的方法。从表1可知,改进后的Voxel R-CNN算法与先前算法相比获得了最高的车辆目标检测精度,从表2、表3可知,与原算法相比在行人中等目标的识别精度提高了1.38%,在骑车人中等目标的识别精度提高了1.19%,在行人以及骑车人的平均检测精度分别上升0.97%和0.83%,并在四种算法中获得了对于行人及其骑车人目标的最高平均检测精度。

3.3 3D目标检测可视化与分析

对于VoxelR-CNN输出得到的质心坐标[cx,cy,cz],长宽高[h,w,l],航向角[θ]行人目标的检测结果进行可视化分析,如图8所示。由可视化结果可以看出,场景中的行人目标均可被准确识别。在距激光雷达采样距离较远的行人目标,即使点云较为稀疏也仍可进行识别。

4 结束语

针对VoxelR-CNN中对于行人以及骑车人3D目标检测定位不准确、精度不高的问题,本文通过构建VoxelR-CNN模型实现对于点云的3D目标检测,并在原有模型中进行相应的改进。在2D主干网络中,利用注意力机制实现特征约束,并在体素ROI池化层改进多尺度采样方式提高对于较小目标的3D检测精度。相比原VoxelR-CNN算法,改进后的算法对行人目标的检测精度平均提高了0.97%,对骑车人目标的检测精度平均提高了0.83%。然而由于VoxelR-CNN是由BEV特征图生成3D候选区域,所以原始点云数据的Z轴信息有所损失。同样距离较远的点云数据由于非常稀疏,所以难以预测其准确位置及其航向角。在后续研究中将继续对模型进行完善,逐步改善并解决相应的问题。

参考文献(References):

[1] Zhou, Yin, Tuzel, et al. Voxelnet:
End-to-end learning for point cloud based 3d object detection[J]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2018:4490-4499

[2] Yan Y, Mao Y, Li B. SECOND:
Sparsely Embedded Convolutional Detection[J]//Sensors,2018,18(10):3337

[3] Lang, A. H., Vora, et al. PointPillars:
Fast Encoders for Object Detection From Point Clouds[J].//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2019:12697-12705

[4] Shi, S., Wang, et al. PointRCNN:
3D Object Proposal Generation and Detection From Point Cloud.[J]// IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2019:770-779

[5] Shi, S., Guo, et al. PV-RCNN:
Point-Voxel Feature Set Abstraction for 3D Object Detection[J].//IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),2020:10529-10538

[6] Deng, J., Shi, et al. Voxel R-CNN:
Towards High Performance Voxel-based 3D Object Detection[J]//AAAI Conference on Artificial Intelligence,2021,35(2):1201-1209

[7] Jie H, Li S, Gang S, et al. Squeeze-and-Excitation Networks[J]. //IEEE Transactions on Pattern Analysis and Machine Intelligence,2017(99)

[8] Wang Z, Jia K. Frustum ConvNet:
Sliding Frustums to Aggregate Local Point-Wise Features for Amodal[C]// 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE,2019

猜你喜欢 骑车人卷积主干 基于图像处理与卷积神经网络的零件识别计算技术与自动化(2022年1期)2022-04-15抓主干,简化简单句广东教育·高中(2022年1期)2022-03-16基于全卷积神经网络的变压器故障诊断科技创新与应用(2020年4期)2020-02-25基于深度卷积网络与空洞卷积融合的人群计数上海师范大学学报·自然科学版(2019年5期)2019-12-13“热心市民”载民警去抓人结果自己被抓了新传奇(2019年51期)2019-05-13群文阅读:为孩子打好生命底色河南教育·基教版(2017年8期)2017-09-08卷积神经网络概述中国新通信(2017年9期)2017-05-27非弹簧式避震装置发明与创新·大科技(2017年5期)2017-05-16抢白民间故事选刊·上(2017年4期)2017-04-07由电车引出的故事小天使·五年级语数英综合(2015年6期)2015-07-08

相关热词搜索: 算法 深度 检测
Top