Learning Actor Relation Graphs for Group Activity Recognition(2019)
引言总结分析
组行为识别不仅需要描述场景中每个人地个体行为,还要推理出他们群体性地行为。所以对人与人之间的关联关系进行准确建模,并进行关系推理对于理解多人的群体行为是十分重要的。然而对这些人之间的关系进行建模是十分有挑战性的,因为我们只能够获取到个体行为标签和集体行为标签,对隐藏其下的相互作用信息没有足够的知识。论文提出可以通过其他方面:诸如表观相似性、相对位置来对人与人之间的关系进行推理。之后论文说目前提出的模型基本都是两阶段的模型,存在计算复杂度高,对于组行为的变化缺少灵活性等问题,针对这些问题论文提出了端到端的模型。与之前的模型不同,图的连接信息可以直接地从视频中学习得到。论文通过构建一个角色关系图ARG对人与人之间的关系进行建模。
如上图,图中的每一个结点代表每一个人的特征,图中的边表示两人之间的关系。
网络结构
整体框架可以分为三步:首先,作者均匀地从视频中采样K帧,并从采样的帧中提取角色的多尺度特征图,应用RolAlign来提取每个角色bounding box的特征,将特征送入fc层以得到一个d维的表观特征向量。
之后,利用这些原始特征,论文构建了角色关系图。为了能表达多样的关系信息,作者对同一角色特征集合构建了多幅ARG。
最后,作者利用GCN来基于ARG进行关系推理,之后ARG会被融合起来以生成角色之间的关系表示,并通过分类器来分别识别个体和群体信息。
ps. 我一开始理解错了,其实N不是场景内人的数量,而是所有帧中bounding box的数量
核心亮点
构建ARG
- 图的定义
G中的每个位置
h函数的具体形式如下:
表观联系
- 点积:
- 嵌入点积:
- 关系网络:
位置关系
- 距离掩膜:
- 距离编码:
时序建模
- 稀疏时序采样
- 数据集较小,容易过拟合
- late fusion
上面两种时序建模方式能够在尽可能少的花费下,尽量保持时序信息
使用GCN进行关系推理
其中,G就是前一步构建的ARG,W是权重矩阵,Z是输入,我们可以堆叠多个GCN层,为了效率论文中只使用了一层GCN。
对多个图的推理结果进行融合
论文其实就是简单的逐元素相加。当然我们也可以考虑concate,最大值融合,conv融合,逐点乘积融合等多种融合方案。
损失函数
该损失包含了个体行为分类损失和群体行为分类损失
实验分析
消融实验
判断论文提出的框架的各个模块对最终的精度的影响
不同表观联系函数
不同位置联系函数
不同数量ARG图
不同ARG图融合方法
不同时序建模方法
state of arts 对比
可视化
ARG图可视化
t-SNE 可视化
- Post title:论文阅读笔记:“Learning Actor Relation Graphs for Group Activity Recognition”
- Post author:sixwalter
- Create time:2023-08-05 11:14:26
- Post link:https://coelien.github.io/2023/08/05/paper-reading/paper_reading_035/
- Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.