
2023.1.15汇报大纲
基于关键实例的多层次时空推理transformer的群体行为识别方法
研究背景
实验创新点相关
识别关键帧/关键角色

Detecting events and key actors in multi-person videos
结合空间注意力和时间注意力


Position-Aware Participation-Contributed Temporal Dynamic Model for Group Activity Recognition

Social Adaptive Module for Weakly-supervised Group Activity Recognition

这个筛选的时候未用到注意力机制,主要实在密集关系图上做剪枝,做剪枝区别于前面的注意力机制,将所有非关键帧及非关键角色剔除。
时空关系推理
Empowering Relational Network by Self-Attention Augmented Conditional Random Fields for Group Activity Recognition




HiGCIN: Hierarchical Graph-based Cross Inference Network for Group Activity Recognition


其实,它的计算本质和上面提及的注意力很像,加上softmax后,该模块等价于transformer中的自注意力模块。与之前的注意力所区别的是
- CIN推理的特点是它只将视频中同一帧所有角色的特征,和同一角色所有帧的特征进行计算。
- CIN计算的是其他特征和当前特征的pair-wise关系推理,而前面计算的是个体特征与群体行为之间的注意力权重。

Spatio-Temporal Dynamic Inference Network for Group Activity Recognition

之前方法对个体之间的交互均在预定义的图上进行建模。这种方法可行,但有着很多缺陷:
- 与给定主体交互的那些客体应该是主体特有的,或者说针对主体的,而不应该是预定义的。而一个预定义的图并不适合所有人的关系推理。
- 之前预定义的图模型在一个全连接或是十字交叉的图上来对交互关系进行推理。它很容易导致过平滑(over-smoothing),令特征难以区分。而且在长视频剪辑或是场景中有很多人的情况下,会导致极高的计算复杂度。
动态关系 Dynamic Relation
这里的动态指的是,关系矩阵仅仅依赖于初始化的交互场中的特征。所依赖的特征不是固定的,而是动态变化的。

其中,
上面是计算第i个特征关系矩阵的表达式。

上面的特征更新表达式从形式上与ARG的图卷积层是基本一致的,区别主要在于范围一个是K,另一个是T*N。
动态漫游 Dynamic Walk
论文的目的是通过DW模块来对复杂的时空依赖进行建模,它只使用了大小局限的交互场。首先,对于给定的第i个个体特征,我们要预测交互场范围内的时空动态漫步偏移量

其中,
结合DR和DW

同过上式我们可以结合DR和DW来进行动态更新。
多层次语义场景推理
将整个场景按照粒度的不同进行划分,形成了不同尺度大小的场景元素。这些不同尺度元素存在着组合关系。

GAR任务要解决的两个难题:
- 对于整个复杂场景做复合式理解
- 在所有场景元素上进行关系推理
使用key-point模态的好处:
- 对数据进行去隐私化,减少道德问题
- RGB输入对背景、光线亮度、以及纹理信息较为敏感,而key-point不会
网络结构

Multiscale Transformer Block
多尺度transformer块可以层次式地对不同尺度的tokens进行关系推理。
- 人体关键点(key point):
—第p个person第j个关键点的特征。人体关键点初始化包括:坐标嵌入,时间信息嵌入,关键点类型嵌入。 - 人(person):
—对person关键点坐标在时间维度进行聚合,并作线性变换。 - P-to-P交互(interactions):
—人p和人q之间的交互初始化为, 的连接,并作线性变换。 - 人群(person group):
—对场景内的人进行聚合(使用k-means等算法) - 剪辑(clip):CLS是一个可学习的嵌入向量,它可以使得transformer可以从输入序列的所有tokens中总结分类相关的特征表示信息
- 对象(object):这里特指球关键点
,因为它可以帮助我们更好地识别关键球员。


由上图可知,multiscale transformer block在不同的尺度上有着差异化的输入,但是每个尺度的操作都是相同的。
尺度一致的对比聚类
我们强制同一clip的不同scale下的表示在聚类时所分配的标签是一致的,这其实是对特征空间的一种正则化处理。论文使用了交换预测(swapped prediction)机制来保证一致性。

这种对比学习方法可以增强中间特征表示,从而提升总体效果。
- 假设$v {n,s} \in \R^d
{c_1,…c_k} q{n,s} \in \R^K v_w q_s v_s q_w$,交换损失函数如下式:

其中l函数计算匹配程度:

总体的交换损失为:

关键实例的多层次时空推理transformer的群体行为识别方法(key Instance Multiscale ST transformer)
未来研究方向&优化
KIMSTT网络
改进思路
- 改进DIN模块,增加multiscale模块,使得可以对不同尺度范围的特征进行推理
- 改进DIN模块,优化动态漫游 Dynamic Walk方法
- 增加时空注意力模块,关注于与群体行为之间有较强的联系的个体特征
- Post title:群体行为识别论文总结
- Post author:sixwalter
- Create time:2023-08-05 11:14:26
- Post link:https://coelien.github.io/2023/08/05/paper-reading/paper_presentation/
- Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.