GroupFormer: Group Activity Recognition with Clustered Spatial-Temporal Transformer(ICCV 2021)

引言分析

论文首先说明利用个体关联来推理集体行为是很有挑战性的。有很多方法也在尝试去捕获这种关联信息。近期的很多方法都用到了注意力机制来对个体关联进行建模。但是上述方法也存在缺陷：

组特征生成器GRG

该模块是用来初始化组表示的。这个模块结合了场景特征和个体特征，其想法是通过visual tokens来总结视频中的信息，分别得到场景token和个体token，再将他们融合得到最终的组特征表示。

聚簇时空transformer CSTT

如图，STT包含了两个encoder并行化地生成时间和空间特征。之后两个decoders通过一种交叉的方式来对时间和空间特征进行解码。最后使用一个group解码器来增强组特征表示。

我们使用encoders来嵌入时间和空间情景信息。公式如下：

最终空间编码器得到的输出大小为，同理可得出时间编码器的输出。

个体解码器是用来将空间和时间情景信息整体地进行考虑。最终两个解码器的输出融合得到了增强的个体表示。

组解码器利用增强的个体表示来强化组特征。在实际中，STT模块可以进行多次堆叠，以得到最佳的建模效果。

STT使用了全连接的注意力机制，但是这样其实计算了很多冗余的联系。因此为了关注于比较关键的组联系。作者设计了聚簇注意力块，该模块可以对个体进行聚簇，并利用组内和组间联系，从而大大降低了计算量。具体来说，他们定义了C个质心向量（簇中心）。对于组间联系可以用簇中心向量来代表。

SOTA

单单是使用rgb输入，性能效果就比之前的大部分方法好了。

消融实验

可视化

在官方提供的MPI-Sintel数据集上跑了下网络的推理：

下图是对生成光流图的一个可视化：

获取expriment dir

1 2	# basedir: experiment dir config['basedir'] = os.getcwd() + '/experiments/' + Path(args.config).resolve().stem