论文阅读笔记：“Dual-AI： Dual-path Actor Interaction Learning for Group Activity Recognition”

sixwalter Lv6

2023-08-05 11:14:26 2023-08-05 11:14

757 Words 2 Mins

Dual-AI: Dual-path Actor Interaction Learning for Group Activity Recognition(cvpr 2022)

引言分析

通常对于联合的空间和时序信息信息进行优化比较困难，因此目前GAR的方法往往对时空注意力进行解耦。如图所示，这篇文章提出解耦的顺序对于不同的分类类别影响较大。基于这个发现，作者针对GAR提出了独特的双路角色交互框架，它可以有效地对两种互补的时空观点进行集成，从而能够学习视频中复杂的角色关联。此外作者提出了一个创新的损失函数：MAC-Loss（多尺度角色对比损失）。它可以提供一个简洁但有效的自监督信号，以增强两个通路之间的角色一致性。

核心亮点

Dual-AI框架

Dual-AI包含了时间空间交互通路(TS)和空间时间交互通路(ST)。其中的基本单元（spatial actor transformer & temporal actor transformer）可以用来描述空间和时间联系。

spatial actor transformer

第一个式子加入了空间位置编码，以加入场景中角色的空间结构信息。第二个式子使用了多头自注意力机制(MHSA)来对场景中的角色位置信息的交互进行推理。第三个式子加入了前馈网络来进一步增加计算单元的学习能力。

temporal actor transformer

与空间不同，时间trans的输入是，并且使用的是时间位置编码(TPE)

有了这些基本单元，我们就可以用他们来构造角色演变的时空表示，构造方法如下：

MAC-Loss

MAC-Loss可以通过帧-帧、帧-视频、视频-视频三个级别的角色一致性来有效增强特征辨别能力。它可以将两个相对独立的通路之间的合作进行增强

帧-帧角色对比损失

对于一个通路上的帧表示，它应该与另一条通路上的帧表示相类似，但是与那条通路上的其他帧表示相区别。

帧-视频角色对比损失

对于一个通路上的帧表示，它应该与另一个通路上的对应角色的视频表示相一致，与那条通路上其他角色视频表示相区别

视频-视频角色对比损失：
最终的MAC-Loss为：

训练目标：

该框架可以端到端地对个体行为和组行为进行预测，通过结合交叉熵损失，最终的分类损失为：

最终作者结合所有的损失来训练他们的Dual-AI框架：；推理时，对两个通路的预测进行加权平均即可。

实验结果

SOTA对比

volleyball数据集

collective数据集

弱监督场景

少样本场景

消融实验

双通路设置

MAC-Loss

场景信息

可视化

组特征可视化

时空角色注意力可视化

Post title：论文阅读笔记：“Dual-AI： Dual-path Actor Interaction Learning for Group Activity Recognition”
Post author：sixwalter
Create time：2023-08-05 11:14:26
Post link：https://coelien.github.io/2023/08/05/paper-reading/paper_reading_038/
Copyright Notice：All articles in this blog are licensed under BY-NC-SA unless stating additionally.