基于Transformer的通用和鲁棒体素特征学习的目标检测

Journal of Measurement Science and Instrumentation（2022）

Cited 0|Views17

No score

Abstract

自注意力网络和Transformer主导了机器翻译和自然语言处理领域,并在诸如图像分类和目标检测等图像视觉任务中显示出巨大潜力.受到Transformer在2D图像视觉任务中取得的巨大进步的启发,提出了一种基于传统Transformer的新颖和鲁棒的体素特征编码器.首先,探究自注意力对序列数据的排列不变性,并将其应用于点云数据处理.其次,基于自注意力构造体素特征层,根据体素内所有点之间的空间关系和上下文信息交换自适应地学习体素的局部和鲁棒上下文.最后,构建了以体素特征层为核心的通用3D目标检测框架.VFT(voxel feature learning with Transformer)是通用的体素特征提取器,可以嵌入任何其他基于体素方法的3D物体检测框架中.在KITTI数据集上进行的实验结果表明,本方法在3D目标检测方面表现出优越的性能.

Translated text

Key words

voxel feature with Transformer(VFT),point cloud,self-attention networks,3D object detection,encoder-decoder

AI Read Science

Must-Reading Tree

Example

Generate MRT to find the research sequence of this paper

Chat Paper

Summary is being generated by the instructions you defined