Dynamic Image Networks for Action Recognition

这篇文章先后发表在了CVPR和TPAMI上，DI可以尝试作为新的输入模态来提高精度

核心思想

动态图像

它就是一个总结了表观和动态信息的标准RGB图像

构建的思想为将视频表示为一个针对它的帧（）的排名函数

从每一个单独的帧It中提取的特征向量表示为，用Vt表示直到时间t这些特征的一个时序均值，表示为，排名函数为每一个时间关联了一个分数，这个d就是需要学习的参数，它反映了视频中帧的一个排名。而学习d是一个凸优化问题：

这个公式的本身意义很清楚：越往后的帧会被赋予更大的得分，公式中通过折页loss来表示，但要想在深度学习模型中使用，作者提出了一种近似方法。

作者不像之前论文中对局部特征的fisher vector编码去进行一个排名池化，而是之前应用于像素。于是提取的特征向量表示即为图像中每一个pixel每一个RGB通道的堆叠后的一个大向量。学习得到的参数d*与普通的单帧具有相同数量的元素，并且可以被解释为一个标准RGB图像。动态图片实际上就是通过对整个视频中像素强度沿时间维度进行集成和重排序。

动态特征图

对动态图像的拓展，即我们可以对中间特征图进行rank pooling并得到动态特征图：