
Temporal Pyramid Network for Action Recognition(2020)
引言分析
文章一开始就点明了时间节奏对识别行为的重要性,对于类间与类内的在时间节奏上的变化进行精确建模,可以对行为识别带来巨大的性能提升。之前尝试提取动作实例的动态视觉节奏的方法主要依赖于帧金字塔,即在金字塔的不同级别上用不同的采样帧率采样输入帧。但是这些方法的缺陷也很明显,即每个帧率的通路都需要一个单独的backbone来进行处理,从而计算复杂度极高。作者观察到,当网络的层次越深时,他们的时间感受野也会变大。因此,在同一个模型中不同深度的特征已经具有捕获快节奏和慢节奏运动的能力。作者由此提出了一个时间金字塔网络来在特征级别上聚合多样的视觉节奏信息。此外TPN还具有即插即用的能力
核心亮点
TPN框架

TPN框架包含了两个重要部分:特征源以及特征聚合。作者使用空间语义调制和时间节奏调制来控制特征源的相对差异。使用多种信息流来进行特征聚合。
TPN特征源
对于M个层次化的特征,它们从底向上有着不断增加的时间感受野。可以用两种方法来从backbone网络中收集这些特征:
- 单深度金字塔
- 多深度金字塔

空间语义调制
调整各层特征的空间形状及感受野,使他们相互匹配。一个辅助的分类头也被加入了网络以获得更强的监督,总体的目标函数如下:
时间速率调制
在空间调制后,我们需要对第i层的特征进行因子为ai的降采样,以控制不同时间尺度特征的相对差异
信息流聚合
对于第i层的特征,我们可以采用以下三种基本操作来进行聚合:

将B-U流和T-D流结合,我们可以得到两种额外的信息流:cascade流和parallel流。信息流聚合流程如下图:

实验结果
SOTA on Kinetics-400

泛用性证明


如何选择待处理的特征源?

当我们选择相对浅层的特征源的时候,精度会略有下降。
信息流聚合方法的重要性

实验证明,top-bottom和bottom-top这两种信息流是相互补充的
空间语义调制和时间速率调制的重要性

输入帧数量的影响

- Post title:论文阅读笔记:“Temporal Pyramid Network for Action Recognition”
- Post author:sixwalter
- Create time:2023-08-05 11:14:26
- Post link:https://coelien.github.io/2023/08/05/paper-reading/paper_reading_041/
- Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.