面向嵌入式平台多视图立体视觉深度感知

SHAN Bing, HU Yi-Min,ZHANG Long,LI Jia-Dong

Computer Systems & Applications（2023）

引用 0|浏览1

暂无评分

摘要

针对目前基于神经网络的多视图立体视觉(multi-view stereo,MVS)深度估计算法存在参数量大、内存消耗严重,难以满足当下低算力嵌入式平台的需求.提出基于MVS2D极线注意力机制与MobileNetV3-Small的MVS深度感知网络(Mobile-MVS2D).该网络采用编码器-解码器的结构,使用MobileNetV3-Small网络进行编码特征提取,对源图像与参考图像之间不同特征层的尺度信息耦合采用极线注意力机制,解码阶段引入SE-Net与跳跃连接扩展解码特征细节,提升预测精度.实验结果表明,提出的模型在ScanNet数据集中在深度图的评价指标中展现较高的精度.在与视觉SLAM结合下可以展现出较准确的三维重建效果,具有较好的鲁棒性.在Jeston Xavier NX上推理精度为Float16尺寸为640×480的图片组,仅需0.17 s,GPU消耗仅需1 GB,能够满足低算力嵌入式平台的需求.

查看译文

关键词

multi-view stereo（MVS）,embedded,attention mechanism,3D reconstruction

AI 理解论文

溯源树

样例

生成溯源树，研究论文发展脉络

Chat Paper

正在生成论文摘要