论文阅读笔记:“A Hierarchical Deep Temporal Model for Group Activity Recognition”
A Hierarchical Deep Temporal Model for Group Activity Recognition
核心亮点
层次模型
如图,该模型逻辑上分为两个阶段,第一个阶段预测单人级别的行为,第二阶段收集第一阶段获得的行为隐变量,并希望对整个场景的行为进行建模,即组行为预测(这里默认同一个场景内的所有人为一组)。
第一阶段预测单人行为识别,通过CNN提取基于图像的特征,将特征序列作为输入传给LSTM网络:
其中ht为隐变量。第二个阶段,先对所有人的隐变量进行池化,再将全局信息送入LSTM网络学习组级别的动态信息,它的输出隐变量再输入softmax分类层得到分类结果:
第一个公式代表连接空间特征和时序特征,第二个公式对同一帧的所有人进行max pooling。
实验结果
baseline消融实验
- 图像分类模型:使用调优的model对单帧进行组行为识别
- 组分类模型:对于单帧输入,使用model得到fc7特征,并对其进行池化后,送入softmax分类器来进行组行为识别
- 调优组分类模型:对每一个人提取特征的model是经过调优了的,其他部分与组分类一致
- 图像特征时序模型:第一个baseline的时序拓展
- 组特征时序模型:第二个baseline的时序拓展
- 不带第一个LSTM层的双阶段模型(忽略person-level时序模型)
- 不带第二个LSTM层的双阶段模型(忽略group-level时序模型)
state-of-arts对比
论文提出了一个新的volleyball数据集
文章也说了,这个数据集是一个很有挑战性的数据集,因为能够决定组行为类别的个人行为类别,在数据集中较少出现。作者在这个数据集上进行实验:
- Post title:论文阅读笔记:“A Hierarchical Deep Temporal Model for Group Activity Recognition”
- Post author:sixwalter
- Create time:2023-08-05 11:14:26
- Post link:https://coelien.github.io/2023/08/05/paper-reading/paper_reading_026/
- Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
Comments