代码收藏家技术教程 2022-09-27

卷积神经网络（CNN）的整体框架及细节（详细简单）

一：引言

我们传统的神经网络和卷积神经网络有什么区别？
下图所示，左图就是我们传统的神经网络（NN）(想了解NN的小伙伴可以先划到最后的参考文章部分)，右图就是卷积神经网络（Convolutional Neural Network）（CNN），我们在这张图中可以明显地看出，左图看上去像二维的，右图好像是一个三维的图，举个例子，比如在传统神经网络输入的一张图有784个像素点，所以输入层就有784个神经元，但在我们的CNN中输入的就是原始的图像28*28*1（是三维的），它是一个三维的矩阵。我们可以看到右图中又定义三维名称‘height*width*depth’简称‘h*w*d’，接下来我们就围绕着卷积层和深度到底怎么变换展开。

二：大体介绍CNN：

如下图所示就是CNN的整体架构，和我们讲述NN的文章相同，这次也是从整体架构入手，帮助大家了解CNN，总共有四个部分：输入层，卷积层，池化层，全连接层。

三：详细介绍CNN：

（1）：输入层：

输入层就是和上文的例子相同，如图中的最左边的图片假设就是我们需要输入的，假设是‘28*28*3’，分别对应‘h*w*d’，其中对于图片输入来说通常是以RGB三通道的形式输入，所以d通常是3，如下图中的第二张图片就是后面三个通道图片相叠加而来

（2）：卷积层（核心）：

卷积层是如何工作的呢？我们先给定一个简单的例子，如下图所示：

假设我们输入的是5*5*1的图像，中间的那个3*3*1是我们定义的一个卷积核（简单来说可以看做一个矩阵形式运算器），通过原始输入图像和卷积核做运算可以得到绿色部分的结果，怎么样的运算呢？实际很简单就是我们看左图中深色部分，处于中间的数字是图像的像素，处于右下角的数字是我们卷积核的数字，只要对应相乘再相加就可以得到结果。例如图中‘3*0+1*1+2*2+2*2+0*2+0*0+2*0+0*1+0*2=9’

那如果我们的d大于一的时候又是如何计算的？

如下动图：

图中最左边的三个输入矩阵就是我们的相当于输入d=3时有三个通道图，每个通道图都有一个属于自己通道的卷积核，我们可以看到输出（output）的只有两个特征图意味着我们设置的输出的d=2，有几个输出通道就有几层卷积核（比如图中就有FilterW0和FilterW1），这意味着我们的卷积核数量就是输入d的个数乘以输出d的个数（图中就是2*3=6个），其中每一层通道图的计算与上文中提到的一层计算相同，再把每一个通道输出的输出再加起来就是绿色的输出数字啦！。