-
Coherence Constrained Graph LSTM for Group Activity Recognition (TPAMI 2022)
主要思想:寻找群体体行为中的相关行为
STCC和GCC约束
STCC:如果一个个体行为在时间...
-
实验记录04.15.2023实验:加入全局场景自注意力+AGGLSTM
如图,最终效果还是不错的,最终的top1为92%。
-
实验记录04.08.2023实验四:加入交叉transformer模块
第一次跑效果很差,改过学习率后收敛了,但效果没有baseline好:
实验五:加入transCls模块
这个模块我是在transformer的基础上使用它的cls to...
-
实验记录04.06.2023实验一:改变融合方式
觉得单纯的求和没有有效融合场景全局信息,因此缓存如下先cat再全连接层融合的方式
实验结果没有直接相加好:
实验二:把全局信息作为decoder的query
实验三:把全局信息与自适应qu...
-
实验记录04.03.2023
使用decoder作为maxpooling的替代:
在训练过程中,query向量会自适应的学习群体特征(在不断变化),使用decoder对群体行为进行解码:
目前baseline的MCA是91.55%,加入gr...
-
Masked Autoencoders As Spatiotemporal Learners框架
从损坏的输入重建干净的信号
发现
最优mask比率和数据中的信息冗余度相关
使用更高的mask比率可以更好地利用视频的时序关联信息
采样方法...
-
Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers(NIPS 2021)
main idea: pooling along motion trajector...
-
TokenLearner: What Can 8 Learned Tokens Do for Images and Videos?(NIPS 2021)网络结构Framework for Video
TokenLearner自适应地学习标记向量的...
-
问题记录代码实现有误
tnt_four_scales_with_ball
1left_group_people_repre = person_feats_thisbatch_proj.flatten(0,1)[left_group_people_id...