卷积神经网络概述：计算机视觉领域核心算法及图片存储解析

hua818 · 发表于 5 天前

卷积神经网络的概述

卷积神经网络CNN是包含卷积计算并具有深层结构的一类神经网络。它是深度学习的代表性算法之一。它在计算机视觉领域具有很大的影响，并且是计算机视觉领域的核心算法模型。

图片存储

计算机视觉通常会处理图像数据。图像是在计算机中按顺序排列的一堆数字，值范围为0到255。0表示最暗，而255表示最亮。我们可以将这些数字表示为长向量，但是如果由向量表示，则平面结构的信息将丢失。为了保留平面结构信息，通常会选择矩阵的表示方法。

在RGB颜色模型中，由于图片具有三个通道，因此每个矩阵也称为图片的通道。在计算中使用三个通道来表示。在计算机中，图片是由数字组成的“剪辑”。它可以描述为宽度，高度和深度。这样的计算机中存在图片：

RGB三通道

三种常见的图像处理方法：

1平均值（CNN仅使用）：将输入数据的所有维度集中到0

2归一化：数据幅度归一化为相同范围

3PCA/白化症：使用PCA降低维度。白化病是将数据的每个特征轴的幅度归一化。

贬义：总结所有样本的平均值，然后从所有样本中减去平均样本是为了贬低。

归一化：对于每种功能，范围最好是[-1,1]，

PCA/美白：使用PCA降低维度以取消每个维度的相关性，并且功能和功能彼此独立。美白，将数据的每个特征轴上的幅度归一化

图像处理

图像处理

图像数据并非直接放置在神经网络中，但是需要一系列处理，以便将其放入神经网络中。我们将此步骤称为图像数据的预处理操作。

神经网络：

人工神经网络

神经网络还可以处理图像数据，但会遇到一些问题。首先，将图像数据放置在神经网络中时需要扩展到向量，这将需要大量参数。该结果将需要大量的计算能力来完成神经网络的训练任务。而且，这些图片非常特别。不同位置的不同图像应相同，因此我们可以重复使用这些功能的部分。有一个称为局部相关的属性。图像中的像素点对周围的像素点具有最大的影响，两者之间的关系并不多。显然，神经网络无法做到这一点，因此，为了解决此问题，我们使用本地连接 +权重共享方法。不仅减少了权重参数，而且学习能力并未大大降低。为此，卷积神经网络可以完美处理这两个问题，从而使卷积神经网络称为“处理图片数据”的标准配置。

卷积神经网络

现在，我们对卷积神经网络有了初步的了解。让我们详细解释卷积神经网络。卷积神经网络通常用于处理图像数据，例如识别汽车：

卷积神经网络

该汽车作为输入数据输入到卷积神经网络中，并通过卷积层转换，然后激活Relu。池代表一个池操作（多个卷积层 +激发层，然后是池化层），最后连接了完全连接的层FC以进行分类操作。

这全都与卷积神经网络有关。在下面，我们将分割卷积神经网络，解释每个功能，然后将其分解。

卷积神经网络的卷积层：

卷积神经网络中的每个神经元仅需要局部连接到上一层，这等效于为每个神经元扫描一个小区域。然后，许多神经元结合起来扫描全局情况，从而形成特征图（代表图像一定维度的特征）。 N特征地图提取了此图片的N维特征，每个特征图由许多神经元完成。

在卷积神经网络中，我们首先选择一个局部区域（），然后使用此局域区域（）扫描整个图片。所有由局部区域圈出的节点将连接到下一层中的节点。

卷积层

图片是矩阵，然后其下一层也是矩阵。我们使用从图片矩阵的左上角到右下角的幻灯片。当然，每次滑动时，圆圈的神经元都会连接到下一层的神经元以形成参数矩阵。这是卷积内核。当然，尽管连接到下一层的循环神经元和神经元不同，但生成的参数矩阵确实是相同的，即重量共享。

卷积内核将与扫描图片的局部矩阵合作，以产生一个值，例如，（W1*0+W2*1+W3*4+W4*5），因此将从左上到右上到右上的过程获得矩阵（这是下一层也是矩阵的原因）。具体过程如下：

卷积计算过程

上图的左侧是图片矩阵，我们使用的大小为3*3。首次滑动时，卷积内核和图片矩阵函数（1*1+1*0+1*1+0*0*0+1*1+1*0+1*0+0*1+0*0*0+1*1）= 4，并且将生成一个值，即右矩阵的第一个值。滑动9次后，将生成9个值，即下一层中有9个神经元。这9个神经元产生的值形成一个矩阵，该矩阵显示在上面的右图中。该矩阵称为特征图，代表图像一定维度的特征。当然，可能尚不清楚图像的颜色是哪个维度，或图像的轮廓等等。

以上是单渠道图片的卷积处理。让我们在这里总结一下。图片是矩阵。我们使用指定的尺寸滑到左上角至右下角以滑动。每个幻灯片圆圈的节点将连接到下一层中的节点。连接后，将形成本地连接，每个连接将产生权重。这些权重是卷积内核，因此每个滑动都会产生卷积内核。由于权重共享，因此这些卷积内核是相同的。当时的卷积内核将继续与圈出的本地矩阵相互作用。每次生成的值是下一个节点的值。这样，将生成多次生成的值组合在一起以形成特征映射，代表特定维度的特征。

卷积神经网络的激活层

以上是解释卷积神经网络中的卷积层。它的核心是提取功能。以下解释了激发层的作用。激发层的作用可以理解为卷积层结果的非线性映射。

激活层

以上F表示激发函数。有几种常用的激发功能：

首先，让我们看一下激发函数：最小导数为0，最大值为1/4。

TANH（双曲线切线）：与之相比，它将对应于上部和下部X轴，并且不会偏向一个方面。

Tanh

relu（校正线性单元）：快速收敛，简单梯度，相对脆弱的梯度，左梯度为0

只要它不是直线，它是非线性的。

relu

（泄漏的relu）;不会被饱和/悬挂，不会“饱和”/挂起，计算也非常快，但是计算量相对较大

漏水

激活层非线性映射卷积层线性计算的结果。从下图可以理解。它显示了非线性操作在功能图中的应用。此处的输出功能映射也可以被视为“校正”功能映射。如下所示：

激活层处理后的图像

卷积神经网络的合并层

以下说明了汇总层：每个特征映射的尺寸都会缩小，但可以维护最重要的信息。

汇总层夹在连续的卷积层之间，压缩数据和参数的量，减少了过度拟合。池层没有参数，它只是在上层给出的结果（数据压缩）的结果下。

有两种非常有用的方法可以下样本：

最大值：选择最大的一个，我们定义一个空间邻域（例如，2x2窗口），并从窗口中校正的特征映射中取出最大元素。事实证明，最大池化更好。

：平均，我们定义一个空间邻域（例如2x2窗口），并从窗口中的校正特征映射计算平均值

最大池操作

以上是最大池方法，该方法使用2*2的步骤大小为2，因此操作可以降低我们功能映射的尺寸。

合并

无论是最大池还是池，都会丢弃一些信息。那么，会丢弃一些信息，并且识别结果将被损坏吗？

由于卷积映射包含用于识别对象的不必要的冗余信息，因此我们下样本以删除这些冗余信息，因此识别结果不会损坏。

卷积神经网络的完整连接层

到目前为止，我们已经讨论了卷积层，激发层和池层的输入。这些层可以从图像中提取有用的特征，并将非线性引入网络，降低特征维度，同时以一定程度的比例改变不变性。

最终结果将用作完整连接层的输入。让我们解释下面的完整连接层。两层之间的所有神经元都具有加权连接，通常完全连接的层位于卷积神经网络的尾部。在当前的卷积层捕获足够的功能以识别图片之后，接下来是如何对其进行分类。完全连接的层（前馈层）可用于将最终输出映射到。通常，卷积网络将在末端扩散到末端的长向量，并将其发送到完全连接的层以与输出层合作进行分类。例如，在下图中我们执行的图像分类中，有四个可能的输出。

完整的连接层

总结

结论一个句子中的卷积神经网络是：卷积神经网络是神经网络，可以在不同位置共享权重。它们是计算机视觉领域中的核心算法模型。

		自动登录	找回密码
密码			立即注册

卷积神经网络概述：计算机视觉领域核心算法及图片存储解析

浏览过的版块