Fork me on GitHub

深度学习系列:(九)卷积网络

本文主要简单地介绍一下图像处理中必备的卷积网络。

9.1 卷积运算

卷积的第一个参数: 输入,第二个参数: 核函数。输出有时被称为特征映射。

对于二维图像I,二维的核K。卷积可以写为:

$$S(i,j) = (I\times K )(i,j) = \sum_m \sum_n I(m,n)K(i-m,j-n)$$

卷积是可交换的。可以等价地写为:

$$S(i,j) = (K\times I )(i,j) = \sum_m \sum_n I(i-m,j-n)K(m,n)$$

卷积运算可交换性的出现时因为我们将核相对输入进行了翻转(flip),从m增大的角度来看,输入的索引在增大,但是核的索引在减小。

互相关函数:和卷积一样,但是没有对核翻转,互相关函数的公式如下:

$$S(i,j) = (I\times K )(i,j) = \sum_m \sum_n I(i+m,j+n)K(m,n)$$

9.2 动机

卷积运算的三个重要思想:

  • 参数共享–绑定的权重。在一个模型的多个函数中使用相同的参数。

  • 平移等变–输入改变,输出也以同样的方式改变。

9.3 池化

池化函数:使用某一位置的相邻输出的总体统计特征来代替网络在该位置的输出。

最大池化函数(Max pooling):相邻矩形区域内的最大值

其他常用的池化函数:相邻区域内的平均值,L2范数,基于距中心像素位置的加权平均函数。

局部平移不变性。

池化综合了全部邻居的反馈,这使得池化单元少于探测单元成为可能,我们可以通过综合池化区域的k个像素的统计特征而不是单个像素来实现。这种方式提高了网络的计算效率,因为下一层少了约k倍的输入。(downsampling)

9.4 卷积与池化作为一种无限强的先验

先验概率分布(第5.2节)。弱先验具有较高的熵值,强先验具有较低的熵值。

一个无限强的先验需要对一些参数的概率置零并且完全禁止对这些参数赋值。

可以把卷机网络类比为全连接网络,但对于这个全连接网络的权重有一个无限强的先验。这个无限强的先验是说一个隐藏单元的权重必须和它邻居的权重相同,但可以在空间上移动。这个先验也要求除了那些处在隐藏单元的小的空间连续的接受域内的权重以外,其余的权重为零。

类似地,使用池化也是一个无限强的先验:每个单元都具有对少量平移的不变性。

卷积和池化可能导致欠拟合

9.5 基本卷积函数的变体

神经网络中的卷积是由多个并行卷积组成的计算:单个核的卷积只能提取一种类型的特征。

卷积的输入输出可以看作3维的张量,其中一个索引用于标明不同的通道,另外两个索引用于标明每一个通道上的空间坐标。

$$
Z_{i,j,k}
= c(K,V,s)_{i,j,k}
= \sum\limits_{l,m,n}
[V_{l,(j - 1) \times s + m,(k - 1) \times s + m} K_{i,l,m,n}]
$$
输入是观测数据V,每个元素是$V_{i,j,k}$,表示通道i中第j行第k列的值。$K_{i,j,k,l}$输出通道i的一个单元和输入通道j中的一个单元的链接强度,并且在输出单元和输入单元之间有k行l列的偏置。

三种零填充方式:

  • 有效(valid)卷积:不适用零填充。输出的大小在每一层都会缩减。
  • 相同(same)卷积:进行足够的零填充,保持输出和输入
  • 全(full)卷积:每个像素咋每个方向上恰好被访问k次,最终输出的图像宽度为m+k-1。

通常零填充的最优数量处于“有效卷积”和“相同卷积”之间的某个位置。

三种卷积方式:

  • 非共享卷积(unsahred convolution):不横跨位置来共享参数。局部连接层没有参数共享。

  • 平铺卷积(tiled convolution):学习一组核,当在空间移动时它们可以循环利用。平铺卷积有t个不同的核。

  • 标准卷积(standard convolution):等效于t=1的平铺卷积。

我们采用的一般就是标准卷积,其他的了解一下即可。

9.6 结构化输出

卷积神经网络可以输出高维的结构化对象,通常这个对象只是一个张量,由标准卷积层产生。

假设为$S$,其中$S_{i,j,k}$是网络的输入像素$(j,k)$属于类$i$的概率。这允许模型标记图像中的每个像素,并绘制沿着单个对象轮廓的精确掩膜。

9.7 数据类型

卷积网络的优点:可以处理具有可变的空间尺度的输入。

可变尺寸的输入,仅对输入是因为包含对同种事物的不同量的观察(时间上不同长度的记录,空间上不同宽度的观察等)而导致的尺寸变化才有意义。

9.8 高效的卷积算法

朴素卷积$O(w^d) $与可分离(seperable)卷积$O(w\times d) $。

9.9 随机或无监督的特征

卷积网络训练中最昂贵的部分是学习特征。(输出层计算代价相对不高,池化后特征少)减少训练成本:使用那些不是由监督方式得到的特征。

三种基本策略:

  • 简单地随机初始化它们;
  • 手动设计它们,如设置每个核在一个特定的方向或尺度来检测边缘;
  • 使用无监督的标准来学习核。

9.10 卷积网络的神经科学基础

初级视觉皮层(primary visual cortex)。

Gabor函数(Gabor function)。

9.11 卷积网络与深度学习的历史

ImageNet

------ 本文结束感谢您的阅读 ------
坚持原创技术分享,您的支持将鼓励我继续创作!