论文阅读笔记:“Dual-AI: Dual-path Actor Interaction Learning for Group Activity Recognition”
sixwalter Lv6

Dual-AI: Dual-path Actor Interaction Learning for Group Activity Recognition(cvpr 2022)

image-20220905135208975

引言分析

通常对于联合的空间和时序信息信息进行优化比较困难,因此目前GAR的方法往往对时空注意力进行解耦。如图所示,这篇文章提出解耦的顺序对于不同的分类类别影响较大。基于这个发现,作者针对GAR提出了独特的双路角色交互框架,它可以有效地对两种互补的时空观点进行集成,从而能够学习视频中复杂的角色关联。此外作者提出了一个创新的损失函数:MAC-Loss(多尺度角色对比损失)。它可以提供一个简洁但有效的自监督信号,以增强两个通路之间的角色一致性。

核心亮点

Dual-AI框架

image-20220905141136648

Dual-AI包含了时间空间交互通路(TS)和空间时间交互通路(ST)。其中的基本单元(spatial actor transformer & temporal actor transformer)可以用来描述空间和时间联系。

  • spatial actor transformer
image-20220905142434044

第一个式子加入了空间位置编码,以加入场景中角色的空间结构信息。第二个式子使用了多头自注意力机制(MHSA)来对场景中的角色位置信息的交互进行推理。第三个式子加入了前馈网络来进一步增加计算单元的学习能力。

  • temporal actor transformer

与空间不同,时间trans的输入是,并且使用的是时间位置编码(TPE)

有了这些基本单元,我们就可以用他们来构造角色演变的时空表示,构造方法如下:

image-20220905143620991

MAC-Loss

MAC-Loss可以通过帧-帧、帧-视频、视频-视频三个级别的角色一致性来有效增强特征辨别能力。它可以将两个相对独立的通路之间的合作进行增强

image-20220905144320862
  • 帧-帧角色对比损失

对于一个通路上的帧表示,它应该与另一条通路上的帧表示相类似,但是与那条通路上的其他帧表示相区别。

image-20220905145631495
  • 帧-视频角色对比损失

对于一个通路上的帧表示,它应该与另一个通路上的对应角色的视频表示相一致,与那条通路上其他角色视频表示相区别

image-20220905150222409
  • 视频-视频角色对比损失:
  • 最终的MAC-Loss为:
image-20220905150316331
  • 训练目标:

    该框架可以端到端地对个体行为和组行为进行预测,通过结合交叉熵损失,最终的分类损失为:

image-20220905151438775

最终作者结合所有的损失来训练他们的Dual-AI框架:;推理时,对两个通路的预测进行加权平均即可。

实验结果

SOTA对比

  • volleyball数据集
image-20220905152721039
  • collective数据集
image-20220905152931502

弱监督场景

image-20220905153137698

少样本场景

image-20220905153334856

消融实验

  • 双通路设置
image-20220905153444116
  • MAC-Loss
image-20220905153654396
  • 场景信息
image-20220905153854288

可视化

  • 组特征可视化

image-20220905154120102

  • 时空角色注意力可视化
image-20220905154821934
  • Post title:论文阅读笔记:“Dual-AI: Dual-path Actor Interaction Learning for Group Activity Recognition”
  • Post author:sixwalter
  • Create time:2023-08-05 11:14:26
  • Post link:https://coelien.github.io/2023/08/05/paper-reading/paper_reading_038/
  • Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
 Comments