Actor-Transformers for Group Activity Recognition（cvpr2020）

核心亮点

静态+动态特征表示

对于细化的行为类别，我们需要捕捉关节点的位置信息，以及他们的时序动态信息。因此作者使用了姿态估计模型HRNet来对关键关节点的位置进行预测，使用3D CNN来构建时空特征表示，这两个网络模型分别为静态分支和动态分支。对于动态分支，作者使用了RGB和光流这两种相互补充的输入。

自注意力机制

论文将transformer引入群体行为识别，从而无须进行显示的空间和时间建模。作者还研究了，将静态和动态角色相关的特征表示传入tranformer后，如何对得到的相互补充的特征进行有效融合。

网络结构

如上图，整个网络包含了3个阶段，第一个阶段是角色特征提取，经过特征提取网络以及embedding之后，得到的是每个角色的一维嵌入；在第二个阶段，使用transformer网络来对学习角色之间的关系，并选择性地提取对行为识别重要的信息；在最后一个阶段，作者分别在transformer之前和之后引入融合策略，来研究融合不同表示信息的有效性。

实验结果

融合策略

由图，令transformer网络专注于静态或动态特征再融合会有比较高的精度。

state-of-arts

比较有意思的是，对于volleyball数据集，Pose+光流的组合远高于其他与rgb的组合，而对于collective数据集结果证明RGB+光流远好于其他与Pose的组合