Convolutional Relational Machine for Group Activity Recognition (CVPR 2019)

引言分析

该论文所采用的方法没有显示地检测或跟踪任何个体。它提出了模型CRM，并在该模型中引入了基于行为的中间表示activity map。它是一种提取个体之间空间联系的方法。此外论文在训练时使用了多阶段的方法来逐步优化activity map，以学习到一个预测错误率更小的activity map。最终优化过的activity map和图像或视频特征进行结合，来进行组行为的预测。

核心亮点

Activity Map

行为图实际上是2D域表示的集合（域可以理解为通道）。其2D域的个数是个体行为和组行为类别个数和。每个域实际上表示一个类别，其域表示的计算需要考虑图像中的bounding box。对于每个个体m，其个体行为为i，其组行为为g，我们会定义一个如下的2D高斯概率密度函数：

通过该函数我们可以计算个体m的行为图的域i和域NI+g。一个双变量高斯图会在bounding box 上进行计算。最终所有的个体行为图会进行对齐，即对于每个域的同一个位置，我们取最大值来得到最终的activity map A。对于一个单独的输入来说，其组行为是确定的，即只有一个组行为类别的域非零，其他域均为0。

Refinement