介绍

Motivation:

之前的3D语义场景补全方法大多只采用depth map作为输入,作者认为RGB图像中包含许多有用的细节,可以改进性能。

主要贡献:

  • 针对3D卷积提出维度分解残差块(DDR),在不降低性能的前提下大大减少了模型参数;
  • RGB和depth的3D特征图以一种multi-scale的方式进行融合,提升了SC和SSC任务的性能;
  • 网络在NYU和NYUCAD数据集上达到了STOA的性能。

方法

image-20190922203425751

Dimensional Decomposition Residual Blocks

image-20190922210245594

对于一个3D CNN,输入信道数为 $c^{i n}$,输出信道数为 $c^{out}$,核大小为 $k^{x} \times k^{y} \times k^{z}$。不失一般性,假设 $k^{x}=k^{y}=k^{z}=k$。

如果不进行维度分解,其计算开销为:

$$ c^{i n} \times c^{o u t} \times k \times k \times k $$

如果分解为3个卷积核:$1 \times 1 \times k, 1 \times k \times 1, k \times 1 \times 1$,则计算开销为:

$$ c^{i n} \times c^{o u t} \times(k+k+k) $$

Multi-level Feature Fusion

特征提取模块中Projection layer的作用就是将depth map上每个pixel的feature map映射到对应的3D voxel上。

多层DDR得到的多级特征以element-wise add的方式进行融合。

Light-weight ASPP Module

使用不同dilation rate的dilated DDR来提取multi-scale特征,并进行融合。

Training and Loss

损失函数也是voxel-wise softmax loss:

$$ \mathcal{L}=-\sum_{c=1}^{N} w_{c} \hat{y}_{i, c} \log \left(\frac{e^{y_{i c}}}{\sum_{c^{\prime}}^{N} e^{y_{i c^{\prime}}}}\right) $$

实验

image-20190922213951270

image-20190922214013595

image-20190922214127521

image-20190922214050811

Last modification:September 22nd, 2019 at 09:45 pm
如果觉得我的文章对你有用,请随意赞赏