论文阅读笔记 | 三维目标检测——F-PointNet算法
创始人
2024-01-30 02:21:37
0

如有错误,恳请指出。


文章目录

  • 1. 背景
  • 2. 网络结构
    • 2.1 Frustum Proposal
    • 2.2 3D Instance Segmentation
    • 2.3 3D Box Estimation
  • 3. 实验结果

paper:《Frustum PointNets for 3D Object Detection from RGB-D Data》

1. 背景

基与鸟瞰图投影的方法(类似MV3D)会在垂直方向上存在物体的遮挡,难以推广到其他更加广泛的真实场景。且现有对深度信息的提取也只限于二维特征图中(一般构造成二维的深度特征图),这样的量化表征方式会模糊自然3d对象的模式。现有工作很少直接对点云数据进行直接处理,此时出现了两个直接基于点云提取特征的结构:PointNet与PointNet++,如何利用这两个新颖结构进行3d目标检测也是难点之一。

F-PointNet的一大创新是利用点云数据来表示深度信息,而不是映射在二维的深度通道上。简单来说,对来自RGB图像中提取的候选框构建成一个3d点云的截头体(Frustum),基于这个截头体Frustum里的点进行挑选,利用pointnet+结构进行语义分割挑选候选点,再进行后续的真实框预测。
在这里插入图片描述


2. 网络结构

F-PointNet结构图如下所示主要包含了3个部分:平截头提取(frustum proposal)、3D实例分割(3D instance segmentation)和3D模型边界框估计(3D amodal bounding box estimation),之后逐一介绍。
在这里插入图片描述

2.1 Frustum Proposal

这一部分是F-PointNet中最核心的部分。对于原始的RGB图像,我们可以利用现有的2d检测器获取2d的区域候选框,在此基础上使用已知的相机投影矩阵,可以将2d候选框提升到为对象定义3D搜索空间的平截头体。也就是说,对于一个2d候选框,F-PointNet会在原始点云中构建出一个平截头体区域,这个区域中的所有点作为平截头体的点云。一个平截头体点云和一个候选框是一一对应的,Frustum中有且只有一个目标。

但是在camera的坐标系下,每个Frustum的方向是不一致的,点云的位置可能会发生较大变化,为了确保Frustum的一致性,这里通过旋转使其中心轴与图像平面正交,如下图的(a)到(b)的过程。通过这样的归一化操作,可以改善算法的选择不变性。
在这里插入图片描述

至此获得了归一化后的Frustum点云区域,之后的操作是需要利用Frustum中的点来预测真实目标

2.2 3D Instance Segmentation

真实世界中对象很容易被其他冗余物体所遮挡,利用2d的深度图直接回归3d距离会被严重影响,而在F-PointNet中巧妙的利用候选区域的Frustum点云来处理这个问题。可以想象,直接利用点云作为深度信息,遮挡问题并不会对点数据造成干扰,为此,利用PointNet对Frustum的点进行特征提取可以很好的处理遮挡问题。在这个阶段中,F-PointNe利用PointNet网络对平锥体中的点云进行3d实例分割,预测每一个点属于每一个类的概率(假设有k个预测类别,则特征维度则为k)。

通过语义分割即可对每个点进行筛选,这些被预测为属于某个类的点全部被提取出来称之为“masking”。此时,需要对这些点坐标进行归一化以增强算法的平移不变性。具体实现中通过将点XYZ值减去Frustum的质心,直观上看就是将Frustum坐标系进一步局部坐标。这一步只是简单的对数据处理,不涉及点云的旋转平移操作,其过程如上图的(b)到©转换。

2.3 3D Box Estimation

即使对Frustum中的masking点进行的局部坐标变换,但里离真实目标的距离可能还比较遥远。这里F-PointNet设计了一个T-Net来估计真实的对象中心,再对局部坐标进行转换,使得预测的中心为原点。这里同样使用(x,y,h,w,l,θ)对边框进行参数化。对目标框的回归距离为masking点的局部坐标+T-net大幅修正的距离以及这里的小幅偏移距离:Cpred = Cmask +∆Ct−net +∆Cbox−net。这里对预测框尺寸以及方向使用分类+回归混合方式进行。

最后的损失包含多个部分组成,对T-Net和Box estimation net对框位置的回归损失,对方向的分类回归混合损失,对尺寸的分类回归混合损失,对语义分割的分类损失,以及最后提取的角点损失。由于这里的中损失是对中心点位置,尺寸以及方向分别是单独构建损失,但没有对最终的3d框精度进行联合优化,如果位置和尺寸都预测正确,那么方向的偏移同样会带来较大的损失。所以希望提出角点损失对这些损失进行正则化,本质上角损耗是预测框和地面真值框的八个角之间的距离之和。同时为了避免方向翻转带来的具体损失,这里去原始情况和翻转情况的最小值进行处理来有效避免。


3. 实验结果

F-PointNet性能优于VeloFCN以及MV3D。
在这里插入图片描述

由于点云数据的特殊性,对其进行一致性与归一化处理及其重要,如果忽视对点云坐标系的转换,会带来性能上的崩塌结果。同时在不止一个工作上表明添加上角点损失在一定程度上提高模型精度,足以证明corner loss正则化的有效性和必要性。
在这里插入图片描述

尽管如此,F-PointNet存在几个缺点:1)点云数据某些情况下过于稀疏,需要适当增加图像分辨率提高候选框尺寸;2)由于当前的设定是每个Frustum中有一个感兴趣的对象,但Frustum中存在不止一个实例时会对语义分割结果造成混合;3)F-PointNet基于2d检测器来生成候选框,但如果2D检测器由于暗光或强遮挡而错过物体,则不会检测出3d对象。


相关内容

热门资讯

喜欢穿一身黑的男生性格(喜欢穿... 今天百科达人给各位分享喜欢穿一身黑的男生性格的知识,其中也会对喜欢穿一身黑衣服的男人人好相处吗进行解...
发春是什么意思(思春和发春是什... 本篇文章极速百科给大家谈谈发春是什么意思,以及思春和发春是什么意思对应的知识点,希望对各位有所帮助,...
网络用语zl是什么意思(zl是... 今天给各位分享网络用语zl是什么意思的知识,其中也会对zl是啥意思是什么网络用语进行解释,如果能碰巧...
为什么酷狗音乐自己唱的歌不能下... 本篇文章极速百科小编给大家谈谈为什么酷狗音乐自己唱的歌不能下载到本地?,以及为什么酷狗下载的歌曲不是...
华为下载未安装的文件去哪找(华... 今天百科达人给各位分享华为下载未安装的文件去哪找的知识,其中也会对华为下载未安装的文件去哪找到进行解...
怎么往应用助手里添加应用(应用... 今天百科达人给各位分享怎么往应用助手里添加应用的知识,其中也会对应用助手怎么添加微信进行解释,如果能...
家里可以做假山养金鱼吗(假山能... 今天百科达人给各位分享家里可以做假山养金鱼吗的知识,其中也会对假山能放鱼缸里吗进行解释,如果能碰巧解...
四分五裂是什么生肖什么动物(四... 本篇文章极速百科小编给大家谈谈四分五裂是什么生肖什么动物,以及四分五裂打一生肖是什么对应的知识点,希...
一帆风顺二龙腾飞三阳开泰祝福语... 本篇文章极速百科给大家谈谈一帆风顺二龙腾飞三阳开泰祝福语,以及一帆风顺二龙腾飞三阳开泰祝福语结婚对应...
美团联名卡审核成功待激活(美团... 今天百科达人给各位分享美团联名卡审核成功待激活的知识,其中也会对美团联名卡审核未通过进行解释,如果能...