2023.1.15汇报大纲

基于关键实例的多层次时空推理transformer的群体行为识别方法

研究背景

Detecting events and key actors in multi-person videos

结合空间注意力和时间注意力

Position-Aware Participation-Contributed Temporal Dynamic Model for Group Activity Recognition

Social Adaptive Module for Weakly-supervised Group Activity Recognition

这个筛选的时候未用到注意力机制，主要实在密集关系图上做剪枝，做剪枝区别于前面的注意力机制，将所有非关键帧及非关键角色剔除。

Empowering Relational Network by Self-Attention Augmented Conditional Random Fields for Group Activity Recognition

HiGCIN: Hierarchical Graph-based Cross Inference Network for Group Activity Recognition

其实，它的计算本质和上面提及的注意力很像，加上softmax后，该模块等价于transformer中的自注意力模块。与之前的注意力所区别的是

Spatio-Temporal Dynamic Inference Network for Group Activity Recognition

之前方法对个体之间的交互均在预定义的图上进行建模。这种方法可行，但有着很多缺陷：

与给定主体交互的那些客体应该是主体特有的，或者说针对主体的，而不应该是预定义的。而一个预定义的图并不适合所有人的关系推理。
之前预定义的图模型在一个全连接或是十字交叉的图上来对交互关系进行推理。它很容易导致过平滑(over-smoothing)，令特征难以区分。而且在长视频剪辑或是场景中有很多人的情况下，会导致极高的计算复杂度。

动态关系 Dynamic Relation

这里的动态指的是，关系矩阵仅仅依赖于初始化的交互场中的特征。所依赖的特征不是固定的，而是动态变化的。

其中，，

上面是计算第i个特征关系矩阵的表达式。

上面的特征更新表达式从形式上与ARG的图卷积层是基本一致的，区别主要在于范围一个是K，另一个是T*N。

动态漫游 Dynamic Walk

论文的目的是通过DW模块来对复杂的时空依赖进行建模，它只使用了大小局限的交互场。首先，对于给定的第i个个体特征，我们要预测交互场范围内的时空动态漫步偏移量，其中为线性投影矩阵，为所有交互场内堆叠起来的特征向量。得到漫步偏移量后，动态漫步的特征的计算公式如下：

其中，为第i个交互场的第k个特征的坐标。

结合DR和DW

同过上式我们可以结合DR和DW来进行动态更新。

将整个场景按照粒度的不同进行划分，形成了不同尺度大小的场景元素。这些不同尺度元素存在着组合关系。

GAR任务要解决的两个难题：

使用key-point模态的好处：

网络结构

Multiscale Transformer Block

多尺度transformer块可以层次式地对不同尺度的tokens进行关系推理。

由上图可知，multiscale transformer block在不同的尺度上有着差异化的输入，但是每个尺度的操作都是相同的。

尺度一致的对比聚类

我们强制同一clip的不同scale下的表示在聚类时所分配的标签是一致的，这其实是对特征空间的一种正则化处理。论文使用了交换预测（swapped prediction）机制来保证一致性。

这种对比学习方法可以增强中间特征表示，从而提升总体效果。

假设$v {n,s} \in \R^d $表示第个剪辑的第个下的特征，然后通过将向量映射到个可训练的原型向量$ {c_1,…c_k} $中，来计算$ q{n,s} \in \R^K $。假设是是其中的两种尺度，并且我们希望从$ v_w $预测$ q_s $并从$ v_s $预测$ q_w$，交换损失函数如下式：