找回密码
 立即注册
搜索
查看: 10|回复: 0

卷积神经网络概述:计算机视觉领域核心算法及图片存储解析

[复制链接]

9420

主题

0

回帖

2万

积分

管理员

积分
28470
发表于 5 天前 | 显示全部楼层 |阅读模式
卷积神经网络的概述

卷积神经网络CNN是包含卷积计算并具有深层结构的一类神经网络。它是深度学习的代表性算法之一。它在计算机视觉领域具有很大的影响,并且是计算机视觉领域的核心算法模型。

图片存储

计算机视觉通常会处理图像数据。图像是在计算机中按顺序排列的一堆数字,值范围为0到255。0表示最暗,而255表示最亮。我们可以将这些数字表示为长向量,但是如果由向量表示,则平面结构的信息将丢失。为了保留平面结构信息,通常会选择矩阵的表示方法。

在RGB颜色模型中,由于图片具有三个通道,因此每个矩阵也称为图片的通道。在计算中使用三个通道来表示。在计算机中,图片是由数字组成的“剪辑”。它可以描述为宽度,高度和深度。这样的计算机中存在图片:

RGB三通道

三种常见的图像处理方法:

1平均值(CNN仅使用):将输入数据的所有维度集中到0

2归一化:数据幅度归一化为相同范围

3PCA/白化症:使用PCA降低维度。白化病是将数据的每个特征轴的幅度归一化。

贬义:总结所有样本的平均值,然后从所有样本中减去平均样本是为了贬低。

归一化:对于每种功能,范围最好是[-1,1],

PCA/美白:使用PCA降低维度以取消每个维度的相关性,并且功能和功能彼此独立。美白,将数据的每个特征轴上的幅度归一化

图像处理

图像处理

图像数据并非直接放置在神经网络中,但是需要一系列处理,以便将其放入神经网络中。我们将此步骤称为图像数据的预处理操作。

神经网络:

人工神经网络

神经网络还可以处理图像数据,但会遇到一些问题。首先,将图像数据放置在神经网络中时需要扩展到向量,这将需要大量参数。该结果将需要大量的计算能力来完成神经网络的训练任务。而且,这些图片非常特别。不同位置的不同图像应相同,因此我们可以重复使用这些功能的部分。有一个称为局部相关的属性。图像中的像素点对周围的像素点具有最大的影响,两者之间的关系并不多。显然,神经网络无法做到这一点,因此,为了解决此问题,我们使用本地连接 +权重共享方法。不仅减少了权重参数,而且学习能力并未大大降低。为此,卷积神经网络可以完美处理这两个问题,从而使卷积神经网络称为“处理图片数据”的标准配置。

卷积神经网络

现在,我们对卷积神经网络有了初步的了解。让我们详细解释卷积神经网络。卷积神经网络通常用于处理图像数据,例如识别汽车:

卷积神经网络

该汽车作为输入数据输入到卷积神经网络中,并通过卷积层转换,然后激活Relu。池代表一个池操作(多个卷积层 +激发层,然后是池化层),最后连接了完全连接的层FC以进行分类操作。

这全都与卷积神经网络有关。在下面,我们将分割卷积神经网络,解释每个功能,然后将其分解。

卷积神经网络的卷积层:

卷积神经网络中的每个神经元仅需要局部连接到上一层,这等效于为每个神经元扫描一个小区域。然后,许多神经元结合起来扫描全局情况,从而形成特征图(代表图像一定维度的特征)。 N特征地图提取了此图片的N维特征,每个特征图由许多神经元完成。

在卷积神经网络中,我们首先选择一个局部区域(),然后使用此局域区域()扫描整个图片。所有由局部区域圈出的节点将连接到下一层中的节点。

卷积层

图片是矩阵,然后其下一层也是矩阵。我们使用从图片矩阵的左上角到右下角的幻灯片。当然,每次滑动时,圆圈的神经元都会连接到下一层的神经元以形成参数矩阵。这是卷积内核。当然,尽管连接到下一层的循环神经元和神经元不同,但生成的参数矩阵确实是相同的,即重量共享。

卷积内核将与扫描图片的局部矩阵合作,以产生一个值,例如,(W1*0+W2*1+W3*4+W4*5),因此将从左上到右上到右上的过程获得矩阵(这是下一层也是矩阵的原因)。具体过程如下:

卷积计算过程

上图的左侧是图片矩阵,我们使用的大小为3*3。首次滑动时,卷积内核和图片矩阵函数(1*1+1*0+1*1+0*0*0+1*1+1*0+1*0+0*1+0*0*0+1*1)= 4,并且将生成一个值,即右矩阵的第一个值。滑动9次后,将生成9个值,即下一层中有9个神经元。这9个神经元产生的值形成一个矩阵,该矩阵显示在上面的右图中。该矩阵称为特征图,代表图像一定维度的特征。当然,可能尚不清楚图像的颜色是哪个维度,或图像的轮廓等等。

以上是单渠道图片的卷积处理。让我们在这里总结一下。图片是矩阵。我们使用指定的尺寸滑到左上角至右下角以滑动。每个幻灯片圆圈的节点将连接到下一层中的节点。连接后,将形成本地连接,每个连接将产生权重。这些权重是卷积内核,因此每个滑动都会产生卷积内核。由于权重共享,因此这些卷积内核是相同的。当时的卷积内核将继续与圈出的本地矩阵相互作用。每次生成的值是下一个节点的值。这样,将生成多次生成的值组合在一起以形成特征映射,代表特定维度的特征。

卷积神经网络的激活层

以上是解释卷积神经网络中的卷积层。它的核心是提取功能。以下解释了激发层的作用。激发层的作用可以理解为卷积层结果的非线性映射。

激活层

以上F表示激发函数。有几种常用的激发功能:

首先,让我们看一下激发函数:最小导数为0,最大值为1/4。

TANH(双曲线切线):与之相比,它将对应于上部和下部X轴,并且不会偏向一个方面。

Tanh

relu(校正线性单元):快速收敛,简单梯度,相对脆弱的梯度,左梯度为0

只要它不是直线,它是非线性的。

relu

(泄漏的relu);不会被饱和/悬挂,不会“饱和”/挂起,计算也非常快,但是计算量相对较大

漏水

激活层非线性映射卷积层线性计算的结果。从下图可以理解。它显示了非线性操作在功能图中的应用。此处的输出功能映射也可以被视为“校正”功能映射。如下所示:

激活层处理后的图像

卷积神经网络的合并层

以下说明了汇总层:每个特征映射的尺寸都会缩小,但可以维护最重要的信息。

汇总层夹在连续的卷积层之间,压缩数据和参数的量,减少了过度拟合。池层没有参数,它只是在上层给出的结果(数据压缩)的结果下。

有两种非常有用的方法可以下样本:

最大值:选择最大的一个,我们定义一个空间邻域(例如,2x2窗口),并从窗口中校正的特征映射中取出最大元素。事实证明,最大池化更好。

:平均,我们定义一个空间邻域(例如2x2窗口),并从窗口中的校正特征映射计算平均值

最大池操作

以上是最大池方法,该方法使用2*2的步骤大小为2,因此操作可以降低我们功能映射的尺寸。

合并

无论是最大池还是池,都会丢弃一些信息。那么,会丢弃一些信息,并且识别结果将被损坏吗?

由于卷积映射包含用于识别对象的不必要的冗余信息,因此我们下样本以删除这些冗余信息,因此识别结果不会损坏。

卷积神经网络的完整连接层

到目前为止,我们已经讨论了卷积层,激发层和池层的输入。这些层可以从图像中提取有用的特征,并将非线性引入网络,降低特征维度,同时以一定程度的比例改变不变性。

最终结果将用作完整连接层的输入。让我们解释下面的完整连接层。两层之间的所有神经元都具有加权连接,​​通常完全连接的层位于卷积神经网络的尾部。在当前的卷积层捕获足够的功能以识别图片之后,接下来是如何对其进行分类。完全连接的层(前馈层)可用于将最终输出映射到。通常,卷积网络将在末端扩散到末端的长向量,并将其发送到完全连接的层以与输出层合作进行分类。例如,在下图中我们执行的图像分类中,有四个可能的输出。

完整的连接层

总结

结论一个句子中的卷积神经网络是:卷积神经网络是神经网络,可以在不同位置共享权重。它们是计算机视觉领域中的核心算法模型。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【科创星域】 ( 京ICP备20013102号-15 )

GMT+8, 2025-5-5 00:43 , Processed in 0.295791 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表