论文阅读笔记：“ Spatial Transformer Networks”

sixwalter Lv6

2023-08-05 11:14:26 2023-08-05 11:14

504 Words 1 Mins

Spatial Transformer Networks

引言分析

CNN不具备在网络的浅层或是中间层对于输入数据的空间不变性，论文提出了一种新的模块spatial transformer，该模块不仅会帮助我们选择图像中最相关的区域，同时还能将这些区域变换为经典的、预期的姿态来简化在后续层中的识别。如下图b所示，定位网络可以预测使用何种变换；c图是应用了变换后，transformer的输出。

核心亮点

空间变换网络 Spatial Transformer Network

Spatial Transformer Network包含了三个组件：定位网络和参数化网格采样机制（网格生成器）和图像采样器。在CNN中加入该模块可以帮助最小化总体的网络花费函数。关于如何变换每个训练样本被压缩或缓存到了定位网络中的权重参数中。

定位网络 localization network

其输入是特征图U，输出是参数，其大小取决于变换的类型。例如仿射变换就是6维的。定位函数可以使用任何的形式，如全连接或是卷积，并且应当包含一个回归层来生成参数。

参数化采样网格（网格生成器）

、

为了对输入特征图进行变形，每个输出像素都是由在输入特征图的特定位置应用一个采样kernel来计算的

为输出特征图中正则网格的目标坐标。为输入特征图中对应的源坐标。

可微分图像采样

通过上式可以计算每个通道中每一位置的输出值。因为采样函数的不连续性，次梯度(sub-gradients)必须被使用。

实验设计

Distorted MNIST

探索网络可以学习到的多种变换

如图使用TPS变换+CNN+ST的效果最好

街景房号识别

细粒度识别

由右图，不同的transformer识别不同的部位

Post title：论文阅读笔记：“ Spatial Transformer Networks”
Post author：sixwalter
Create time：2023-08-05 11:14:26
Post link：https://coelien.github.io/2023/08/05/paper-reading/paper_reading_042/
Copyright Notice：All articles in this blog are licensed under BY-NC-SA unless stating additionally.