A Hierarchical Deep Temporal Model for Group Activity Recognition

核心亮点

层次模型

如图，该模型逻辑上分为两个阶段，第一个阶段预测单人级别的行为，第二阶段收集第一阶段获得的行为隐变量，并希望对整个场景的行为进行建模，即组行为预测（这里默认同一个场景内的所有人为一组）。

第一阶段预测单人行为识别，通过CNN提取基于图像的特征，将特征序列作为输入传给LSTM网络：

其中ht为隐变量。第二个阶段，先对所有人的隐变量进行池化，再将全局信息送入LSTM网络学习组级别的动态信息，它的输出隐变量再输入softmax分类层得到分类结果：

第一个公式代表连接空间特征和时序特征，第二个公式对同一帧的所有人进行max pooling。

baseline消融实验

state-of-arts对比

论文提出了一个新的volleyball数据集

文章也说了，这个数据集是一个很有挑战性的数据集，因为能够决定组行为类别的个人行为类别，在数据集中较少出现。作者在这个数据集上进行实验：