一、卷积的概念

卷积来源于英文的Convolution，其中Con是积分，vol是转、卷。

卷积是一种数学运算，常用于信号处理和图像处理等领域，它用简单的数学形式，描述了一个动态的过程。

卷积的定义如下（这个复杂的公式，在卷积神经网络中可能是用不到）：

设 f 和 g 是两个定义在实数域上的函数，它们的卷积 f∗g 定义为：

其中 t 为实数，τ 是积分变量。

在离散形式下，如果 f 和 g 是两个长度为 n 的向量，它们的卷积 f∗g 定义为：

其中 k 是整数，[i] 表示向量 f 的第 i 个元素。

二、神经网络中的卷积

1. 神经网络卷积概念

在卷积神经网络中，卷积操作是一种特殊的线性变换，卷积核（也称为滤波器）在输入数据上进行滑动，每次计算与卷积核重叠部分的点乘和。

这样的操作可以提取输入数据的局部特征，实现特征的共享和抽象，从而使得网络对输入数据的变化更加鲁棒和准确。

2. 卷积核

卷积核是一种可学习的滤波器，用于对输入图像进行特征提取。卷积核通常是一个小的二维矩阵，其大小通常为 k×k，其中 k 是一个正整数，称为卷积核大小。卷积核的值通常是由神经网络自动学习得到的。

卷积核的作用是提取输入数据的局部特征。在卷积操作中，卷积核可以识别输入图像中的不同特征，例如边缘、纹理、角落等，从而提取更加高级的特征表示。通过使用多个卷积核，可以提取不同类型的特征，形成更加复杂的特征表示，进而提高模型的性能。

不同的卷积核（即采用不同的二维矩阵）可以实现不同的效果，常见的卷积核有：

Sobel卷积核：边缘检测；
Scharr卷积核：也是边缘检测卷积核，比Sobel更加平滑；
Laplacian 卷积核：用于检测图像中的边缘和角点，具有旋转不变性和尺度不变性；
高斯卷积核：用于图像平滑，减少图像中的噪声和细节信息；
梯度卷积核：用于检测图像中的梯度信息，如水平和垂直方向的梯度；
Prewitt 卷积核：用于检测图像中的边缘信息，与 Sobel 卷积核类似，但效果略差；
Roberts 卷积核：用于检测图像中的边缘信息，与 Sobel 卷积核类似，但计算速度更快，精度稍低；
LoG 卷积核：Laplacian of Gaussian 卷积核，是 Laplacian 卷积核和高斯卷积核的组合，用于检测图像中的边缘和斑点。

3. 卷积核大小

卷积核的大小是卷积神经网络中的一个超参数，通常与输入数据的尺寸以及需要提取的特征的大小有关。在卷积神经网络中，卷积核的大小通常比较小，例如常见的卷积核大小为 3 或 5，因为较小的卷积核可以更好地保留输入图像中的局部特征。

同时，卷积核的大小也需要根据卷积操作的步幅和填充等超参数进行选择。在后面例子中，卷积核大小为 3，步幅为 1，填充为 1，即每次卷积操作会对输入图像中的 3 × 3 3\times33×3 的区域进行处理，并生成一个相同大小的卷积特征。填充的目的是为了保留输入图像的边缘信息，以避免在卷积操作中丢失像素。

需要注意的是，卷积核大小的选择需要根据具体问题进行调整，通常需要通过实验来确定最佳的超参数。

三、实现一个简单的卷积功能

1. 卷积函数

import numpy as np
from PIL import Image

def convolve(image, kernel):
    # 获取图像和卷积核的大小
    image_rows, image_cols = image.shape
    kernel_rows, kernel_cols = kernel.shape

    # 计算输出图像的大小
    output_rows = image_rows - kernel_rows + 1
    output_cols = image_cols - kernel_cols + 1

    # 初始化输出图像矩阵，全零的矩阵
    output = np.zeros((output_rows, output_cols))

    # 执行卷积操作
    for row in range(output_rows):
        for col in range(output_cols):
            output[row, col] = np.sum(image[row:row + kernel_rows, col:col + kernel_cols] * kernel)

    return output

自定义的卷积函数接收两个参数：

image：输入图像
kernel：卷积核

卷积使用 valid 卷积的方式，在进行卷积操作时，输出图像的尺寸会变小，计算公式是：

(image_rows - kernel_rows + 1, image_cols - kernel_cols + 1)

程序使用两个嵌套的循环遍历输出图像的每个像素，并计算该像素对应的卷积结果。

np.sum函数中的参数 image 对输入图像进行切片，矩阵会进行逐元素相乘（Hadamard乘积或元素级乘积）。image[row:row + kernel_rows, col:col + kernel_cols] 和kernel的大小都是 kernel_rows x kernel_cols，相乘结果返回一个相同形状的矩阵。

2. 边缘检测卷积核调用示例

# 加载图像
img = np.array(Image.open('lena_gray.jpg').convert('L'))

# 定义卷积核
kernel = np.array([[1, 1, 1], [0, 0, 0], [-1, -1, -1]])

# 执行卷积操作
output = convolve(img, kernel)

# 保存输出图像
output_img = Image.fromarray(np.uint8(output))
output_img.save('lena_gray_convolved.jpg')

示例的卷积核是一个简单的边缘检测器，用于检测图像中的边缘。

这里加载一张灰度图：

程序输出结果如下：

3. 高斯卷积核示例

# 加载图像
img = np.array(Image.open('lena_gray.jpg').convert('L'))

# 定义卷积核
def gaussian_kernel(size, sigma):
    x, y = np.mgrid[-size:size+1, -size:size+1]
    g = np.exp(-((x**2 + y**2)/(2.0*sigma**2)))
    return g / g.sum()

kernel = gaussian_kernel(3, 1.5)

# 执行卷积操作
output = convolve(img, kernel)

# 保存输出图像
output_img = Image.fromarray(np.uint8(output))
output_img.save('lena_gray_convolved.jpg')

输出结果：

四、PyTorch计算卷积

1. 生成单通道图像调用卷积

（1）生成单通道图像torch.randn(1, 1, 28, 28)

下面用torch.randn(1, 1, 28, 28) 来生成随机数的 PyTorch 函数，它返回一个大小为 (1, 1, 28, 28) 的张量。其中每个参数的具体含义如下：

第一个参数 1 表示生成的张量的 batch size（批大小）为 1。
第二个参数 1 表示生成的张量的通道数为 1（单通道图像）。
第三个参数 28 表示生成的张量的高度为 28。
第四个参数 28 表示生成的张量的宽度为 28。

torch.randn(1, 1, 28, 28) 返回的张量可以看作是大小为 1x28x28 的单通道图像，每个像素的值是从标准正态分布（均值为 0，方差为 1）中随机采样得到的。

（2）卷积层

nn.Conv2d 是 PyTorch 中用于定义卷积层的类。

代码nn.Conv2d(in_channels=1, out_channels=16, kernel_size=3, padding=1) 表示创建一个卷积层对象 conv_layer，参数的含义如下：

in_channels=1 表示输入通道数为 1，即输入的是单通道的图像。
out_channels=16 表示输出通道数为 16，即卷积核的数量为 16；卷积核的数量是一个经验值，需要根据实际情况进行调整，并且会对模型的运行速度和内存占用等方面产生影响。过多的卷积核会导致模型更加复杂，需要更多的计算和存储资源，而过少的卷积核可能无法充分提取输入数据的特征。。
kernel_size=3 表示卷积核大小为 3×3。
padding=1 表示在输入的每个边缘填充 1 个零。这样做的目的是为了保持输入输出大小相同，即输出特征图的大小与输入特征图的大小相同。如果不进行填充操作，则卷积核会“越过”图像的边缘像素，从而导致输出特征图的大小减小。

最终，可以通过调用 conv_layer(input_data) 来实现卷积操作，其中 input_data 是输入的数据，卷积操作的结果将作为函数返回值。

import torch
import torch.nn as nn

# 创建一个大小为 28*28 的单通道图像
input_data = torch.randn(1, 1, 28, 28)  # 一个大小为28x28的单通道图像

# 创建卷积层，输入通道数为 1
# 输出通道数16
# 卷积核大小3*3
# 1个0填充
conv_layer = nn.Conv2d(in_channels=1, out_channels=16, kernel_size=3, padding=1)

# 对输入数据进行卷积操作
output_data = conv_layer(input_data)

# 输出结果
print(output_data.shape)  # (1, 16, 28, 28)

卷积后得到了 1个批次、16 个大小为 28 × 28 28\times2828×28 的特征图。

2. 加载灰度图像进行卷积操作

下面示例中，卷积结果 [batch_size, channel,height,width] 会进行降维操作，以便于可视化显示。

最后会使用 Image.fromarray ，将数组转为图片显示出来。

import torch.nn as nn
import torchvision.transforms as transforms
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt

# 读入示例图片
img = Image.open('lena_gray.jpg').convert('L')  # 将示例图片转换为灰度图
plt.imshow(img, cmap='gray')
plt.show()

# 将图片转换为张量并增加一个维度作为批次维度
img_tensor = transforms.ToTensor()(img).unsqueeze(0)

# 创建卷积层，输入通道数为 1，输出通道数1，卷积核大小3*3，1个0填充
conv_layer = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=3, padding=1)

# 对输入数据进行卷积操作
output_tensor = conv_layer(img_tensor)
print(output_tensor.shape)
# 输出 torch.Size([1, 1, 426, 397])

# 将卷积结果转换为numpy数组并移除批次维度
output_np = output_tensor.squeeze(0).squeeze(0).detach().numpy()
print(output_np.shape)

# 输出 (426, 397)
# 将卷积结果转换为灰度图像
output_img = Image.fromarray(np.uint8(output_np * 255), mode='L')

# 将卷积结果保存为图片
output_img.save('output.jpg')

# 使用Matplotlib库展示卷积结果
output_mat = plt.imread('output.jpg')
plt.imshow(output_mat, cmap='gray')
plt.show()

输出：

3. 对彩色图片卷积，输出1通道

对彩色图片进行卷积，要把输入通道数改为3，加载时选择RGB：

import torch.nn as nn
import torchvision.transforms as transforms
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt

# 读入示例彩色图片
img = Image.open('lena_color.png').convert('RGB')
plt.imshow(img)
plt.show()

# 将图片转换为张量并增加一个维度作为批次维度
img_tensor = transforms.ToTensor()(img).unsqueeze(0)

# 创建卷积层，输入通道数为 3，输出通道数1，卷积核大小3*3，1个0填充
conv_layer = nn.Conv2d(in_channels=3, out_channels=1, kernel_size=3, padding=1)

# 对输入数据进行卷积操作
output_tensor = conv_layer(img_tensor)
print(output_tensor.shape)

# 将卷积结果转换为numpy数组并移除批次维度
#output_np = output_tensor.squeeze(0).squeeze(0).detach().numpy()
#print(output_np.shape)

# 将卷积结果转换为灰度图像
#output_img = Image.fromarray(np.uint8(output_np * 255), mode='L')
output_np = output_tensor.squeeze(0).detach().numpy()  # 形状为 (C, H, W)
output_np = np.repeat(output_np, 3, axis=0)  # 将通道数由 1 改为 3
output_np = np.expand_dims(output_np, axis=1)  # 添加一个新的维度
output_img = transforms.ToPILImage()(output_np)  # 转换为 PIL.Image 对象

# 将卷积结果保存为图片
output_img.save('output.jpg')

# 使用Matplotlib库展示卷积结果
output_mat = plt.imread('output.jpg')
plt.imshow(output_mat, cmap='gray')
plt.show()

输入：

卷积结果：

4. 输出3通道的卷积操作

import torch.nn as nn
import torchvision.transforms as transforms
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt

# 读入示例图片
img = Image.open('lena_color.png').convert('RGB')
plt.imshow(img)
plt.show()

# 将图片转换为张量并增加一个维度作为批次维度
img_tensor = transforms.ToTensor()(img).unsqueeze(0)

# 创建卷积层，输入通道数为3，输出通道数为3，卷积核大小3*3，1个0填充
conv_layer = nn.Conv2d(in_channels=3, out_channels=3, kernel_size=3, padding=1)

# 对输入数据进行卷积操作
output_tensor = conv_layer(img_tensor)
# 这时的形状是 torch.Size([1, 3, 726, 724])

# # 将卷积结果转换为图像
output_np = output_tensor.squeeze(0).detach().numpy()  # 形状为 (C, H, W)
# 这时的形状 (3, 726, 724)
output_np = np.transpose(output_np, (1, 2, 0))  # 转置使得颜色通道在最后一个维度
# 这时的形状 (726, 724, 3)
# 为了转为图像，下面要对数据处理，传入的 numpy 数组中的数据类型不是 uint8 类型。
# 由于 transforms.ToPILImage() 只支持 uint8 类型的数据，要把 float32 类型的 numpy 数组缩放到 0-255 的范围，并转换为 uint8 类型。 np.clip 函数和 np.uint8 来实现此功能
# 如果输出1通道，ToPILImage会转成unit8数据，但输出3通道时候是转成float32，需要自己加转换
output_np = np.clip(output_np * 255, 0, 255).astype(np.uint8)
# 这时形状没有发生变化 (726, 724, 3)
output_img = transforms.ToPILImage()(output_np)  # 转换为 PIL.Image 对象


# 展示卷积结果
plt.imshow(output_img)
plt.show()

输出：

深度学习7. 卷积的概念

一、卷积的概念

二、神经网络中的卷积

1. 神经网络卷积概念

2. 卷积核

3. 卷积核大小

三、实现一个简单的卷积功能

1. 卷积函数

2. 边缘检测卷积核调用示例

3. 高斯卷积核示例

四、PyTorch计算卷积

1. 生成单通道图像调用卷积

（1）生成单通道图像torch.randn(1, 1, 28, 28)

（2）卷积层

2. 加载灰度图像进行卷积操作

3. 对彩色图片卷积，输出1通道

4. 输出3通道的卷积操作

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

考证大全 | 证券从业资格考试

敲黑板！2021年证券从业考试考点预测

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络