A Closer Look at Spatiotemporal Convolutions for Action Recognition

核心亮点

时空卷积 new form spatio-temporal convolution

3D卷积在网络的早些层，2D卷积在网络的后面的层

与P3D类似，这篇文章也是将3D卷积分解为一个2D空间卷积和一个1D时间卷积。这样做的潜在好处为：

与P3D的区别

R(2+1)D只使用了单一类型的块，并且并不包含瓶颈设计，但是通过对（分解）维度的仔细选择（P3D只说了分解，但没说怎么对维度分解），它较P3D 的精度提高了9.1%，并且相较于152层的P3D，R(2+1)D只有34层。

R(2+1)D卷积块

它将个大小为$N_{i-1}tdd $卷积核分解为$ M_i $个大小为$ N_{i-1}1dd $的卷积核核$ N_i $个大小为$ M_it1*1 $的时间卷积核。因此$ M_i $作为决定中间子空间（信号从空间卷积到时间卷积的投影）维度的超参。那么这个$ M_i$该如何选择呢？

这样设计之后，参数数量是基本一致的，分解的过程如下图：

对比多个不同的网络架构

精度与模型复杂度的关系

精度与输入帧数的关系

既然明确了精度和输入帧数之间存在trade-off，我们应该如何对其进行权衡呢？

论文发现，在较短输入进行训练，再在较长帧上进行finetune会比较好。

使用64个gpu，真的说明目前的网络真的不好训练，并且还有值得优化的空间

与state-of-arts的比较

迁移学习