论文阅读笔记：“Real-world Anomaly Detection in Surveillance Videos”

sixwalter Lv6

2023-08-05 11:14:26 2023-08-05 11:14

MIL
| Anomaly Detection

992 Words 3 Mins

Real-world Anomaly Detection in Surveillance Videos

这篇文章写得巨好，看完有种“原来是这样”的感觉，不愧是顶刊的文章。之所以看视频异常检测的文章，一方面是想深挖行为识别方向的具体应用，让研究方向变得更细一些。另一方面是群体行为检测和异常行为检测之间有着密切联系，希望能够触类旁通，将这两个任务结合起来。

核心亮点

多实例学习 Multiple Instance Learning（弱监督学习）

这篇文章的写作手法真的很循序渐进，首先向我们介绍了标准的有监督分类任务的SVM优化函数：

但是在有监督异常检测的情景下，分类器需要视频中每一个段的标注，但是对这种视频进行标注真的很浪费时间和人力。所以提出了MIL，它可以放宽对标注的要求，只需要对视频级别做标注即可，我们不需要知道异常行为的发生位置及时间点。因此我们可以将异常视频看作一个positive bag，视频的不同时序段组成了包中的个体实例。因为严格的正实例是未知的，所以我们可以选择scores最高的实例来对目标函数进行优化：

介绍了什么是多实例学习之后，作者使用了ranking的思想，将深度模型与MIL相结合，提出了 Deep MIL Ranking Model，如下图所示：

因为异常检测的模式检测可能性较小，因此作者将异常检测问题当作了回归问题，希望异常的视频片段比起正常片段具有较高的异常分数。使用一个排名损失函数(rank loss)可以鼓励异常行为片段具有更高的分数：，对段级别标注未知的情况下可以使用将其修正为：

论文中只让正常和异常bag中包含的最大分数的实例进行排名，其实也很好理解。因此hing-loss的数学形式化表达如下：

但是这种loss也有缺陷，它忽略了视频里的长范围的时序关系。首先，在异常视频中，异常往往只发生在一小段时间内，所以异常分数应当尽可能的稀疏，其次，视频中的段是连续的，因此异常分数在相邻段之间也应变化得较为平滑。对loss进行优化后，损失函数变为了：

最终完整得目标函数即为：

其中，W指的是模型权重。

提出新数据集

就算只是1900个视频，完成收集和标注也需要数人数月的努力。

各个异常类的视频数如上图所示。

数据集关于时间的分布如上图所示。

实验结果

与state of arts方法的对比

实验证明，提出的方法在更低假阳率的情况下具有更高的真阳率。而且传统的行为识别方法Binary classifier不能直接拿来用于异常检测，因为异常行为的持续时间相比起整个视频而讲很短。

对于提出方法的分析

上图为随着训练迭代数的增加，异常得分的变化曲线，可见在未知段级别标注的情况下，网络依旧可以预测异常的发生时间。

从错误预警率也可看出该方法超越了state of arts方法。

扩展任务：异常行为识别

作者在提出的数据集上使用C3D和TCNN进行了实验。可以看出实验结果很差，原因可能是数据集较长未裁剪，并且分辨率较低，还有较大的相机视角移动以及光照，背景噪音所产生的较大类内差异。

Post title：论文阅读笔记：“Real-world Anomaly Detection in Surveillance Videos”
Post author：sixwalter
Create time：2023-08-05 11:14:26
Post link：https://coelien.github.io/2023/08/05/paper-reading/paper_reading_027/
Copyright Notice：All articles in this blog are licensed under BY-NC-SA unless stating additionally.