论文阅读笔记:“Masked Autoencoders As Spatiotemporal Learners”
sixwalter Lv6

Masked Autoencoders As Spatiotemporal Learners

框架

image-20230313093329487
  • 从损坏的输入重建干净的信号

发现

  • 最优mask比率和数据中的信息冗余度相关

  • 使用更高的mask比率可以更好地利用视频的时序关联信息

    image-20230313095325708

采样方法

image-20230313095626410

自编码

image-20230313100659168
  • decoder结构与encoder相比是不对称的,且只在预训练进行视频重建的时候使用。其复杂度远远小于encoder,因而就算处理的是全部的patches,它也不是性能瓶颈。

实验

性能优势

image-20230313103018906

a masking ratio of 90% reduces the encoder time and memory complexity to *<1/*10

  • 理论上, 7.7× 在计算量上的减少 vs. 编码全部tokens

精度优势

image-20230313104009547
  • 加入MAE能提升10个百分点以上,同时减少近1/5的训练时间

消融实验

image-20230313104453562
  • Post title:论文阅读笔记:“Masked Autoencoders As Spatiotemporal Learners”
  • Post author:sixwalter
  • Create time:2023-03-13 00:00:00
  • Post link:https://coelien.github.io/2023/03/13/paper-reading/paper_reading_061/
  • Copyright Notice:All articles in this blog are licensed under BY-NC-SA unless stating additionally.
 Comments