代码收藏家技术教程 2023-02-16

YOLO：从诞生到发展的历程

系列文章目录

YOLO发展史

文章目录

前言

一、YOLO简介

二、YOLO发展史

三. YOLOV5实用性

四. YOLOV5结构解析

总结

前言

目前物体检测算法有以下三种：
第一种是传统物体检测算法，使用人工设计特征以及机器学习的分类方式，但这种算法提取到的特征局限性较大且学习速度有限；
第二种是结合候选框+深度学习分类法，这类Two-Stage方法解决了前者的问题，在精度上有很大突破，但在速度上很难达到实时检测的效果；
第三种是基于深度学习的回归方法，在速度上达到了实时级别的突破，本文使用YOLO就是属于One-stage，YOLO虽然在v1,v2版本准确率上有所欠缺，但到v5版本时准确率提高了很多。

一、YOLO简介

①作者：Joseph Redmon，华盛顿大学博士，YOLO目标检测算法主要作者，YOLO是Joseph Redmon和Ali Farhadi等人于2015年提出的第一个基于单个神经网络的目标检测系统。

②YOLO的全称是you only look once，指只需要浏览一次就可以识别出图中的物体的类别和位置。

③YOLO是目标检测模型。目标检测是计算机视觉中比较简单的任务，用来在一张图篇中找到某些特定的物体，目标检测不仅要求我们识别这些物体的种类，同时要求我们标出这些物体的位置。

④YOLO能实现图像或视频中物体的快速识别，在相同的识别类别范围和识别准确率条件下， YOLO识别速度最快。YOLO有多种模型，其中最新的为V5，V5的特点是速度更快，识别准确率更高，权重文件更小，可以搭载在配置更低的移动设备上。

二、YOLO发展史

1.YOLOV1

YOLO网络借鉴了GoogLeNet分类网络结构，不同的是YOLO使用1×1卷积层和3×3卷积层替代inception module。如下图所示，整个检测网络包括24个卷积层和2个全连接层。其中，卷积层用来提取图像特征，全连接层用来预测图像位置和类别概率值。

1.1.YOLOV1优点

①快。因为回归问题没有复杂的流程（pipeline）。

②可以基于整幅图像预测（看全貌而不是只看部分）。与基于滑动窗口和区域提议的技术不同，YOLO在训练和测试期间会看到整个图像，因此它隐式地编码有关类及其外观的上下文信息。因为能看到图像全貌，与 Fast R-CNN 相比，YOLO 预测背景出错的次数少了一半。

③学习到物体的通用表示（generalizable representations），泛化能力好。因此，当训练集和测试集类型不同时，YOLO 的表现比 DPM 和 R-CNN 好得多，应用于新领域也很少出现崩溃的情况。

1.2.YOLOV1缺点

①空间限制：一个单元格只能预测两个框和一个类别，这种空间约束必然会限制预测的数量；

②难扩展：模型根据数据预测边界框，很难将其推广到具有新的或不同寻常的宽高比或配置的对象。由于输出层为全连接层，因此在检测时，YOLO 训练模型只支持与训练图像相同的输入分辨率。

③网络损失不具体：无论边界框的大小都用损失函数近似为检测性能，物体 IOU 误差和小物体 IOU 误差对网络训练中 loss 贡献值接近，但对于大边界框来说，小损失影响不大，对于小边界框，小错误对 IOU 影响较大，从而降低了物体检测的定位准确性。

2.YOLOV2

YOLOv2采用Darknet-19，其网络结构如下图所示，包括19个卷积层和5个max pooling层，主要采用3×3卷积和1×1卷积，这里1×1卷积可以压缩特征图通道数以降低模型计算量和参数，每个卷积层后使用BN层以加快模型收敛同时防止过拟合。最终采用global avg pool 做预测。采用YOLOv2，模型的mAP值没有显著提升，但计算量减少了。

YOLOv1虽然检测速度快，但在定位方面不够准确，并且召回率较低。为了提升定位准确度，改善召回率，YOLOv2在YOLOv1的基础上提出了几种改进策略，如下图所示，可以看到，一些改进方法能有效提高模型的mAP。

①大尺度预训练分类

②New Network：Darknet-19

③加入anchor

2.1.YOLOV2优点

结果：相对v1 (更快、mAP更高)

正负样本：引入Anchor和使用K-means聚类，提高了Recall

Backbone：DarkNet-19，降低了计算量（更快）

Neck：引入特征融合模块（passthrouch），融合细粒度特征

检测头：去掉v1中的FC，可以适应32x的输入；多尺度训练提高模型能力；二者实现了速度和精度的权衡

小技巧：引入BN，加速网络收敛；约束输出范围，训练更稳定;

2.2.YOLOV2缺点

Backbone 可持续优化

Neck 可持续优化

只是单个检测头，小目标识别还不太好

损失函数可持续优化

3.YOLOV3

YOLOv3总结了自己在YOLOv2的基础上做的一些尝试性改进，有的尝试取得了成功，而有的尝试并没有提升模型性能。其中有两个值得一提的亮点，一个是使用残差模型，进一步加深了网络结构；另一个是使用FPN架构实现多尺度检测。

3.1.YOLOV3的创新点

①新网络结构：DarkNet-53

②融合FPN

③用逻辑回归替代softmax作为分类

3.2.YOLOV3网络结构的改进

YOLOv3在之前Darknet-19的基础上引入了残差块，并进一步加深了网络，改进后的网络有53个卷积层，取名为Darknet-53，网络结构如下图所示（以256*256的输入为例）。

3.3.YOLOV3中多尺度检测实现方法

YOLOv3借鉴了FPN的思想，从不同尺度提取特征。相比YOLOv2，YOLOv3提取最后3层特征图，不仅在每个特征图上分别独立做预测，同时通过将小特征图上采样到与大的特征图相同大小，然后与大的特征图拼接做进一步预测。用维度聚类的思想聚类出9种尺度的anchor box，将9种尺度的anchor box均匀的分配给3种尺度的特征图.如下图是在网络结构图的基础上加上多尺度特征提取部分的示意图（以在COCO数据集(80类)上256×256的输入为例）：

4.YOLOV4

YOLOv4在原来的YOLO目标检测架构的基础上，采用了很多优化策略，在数据处理，主干网络，网络训练，激活函数，损失函数等方面都有不同程度的优化。

①backbone

YOLOv4的网络结构如上所示，可以看出，他是在YOLOv3的主干网络Darknet-53的基础上增加了backbone结构，其中包含了5个CSP模块，可以有效增强网络的学习能力，降低成本。同时增加了Droblock，缓解过拟合现象。

此外很重要的一点是，使用了Mish激活函数，根据实验，这种激活函数可以增加精度。

②YOLOv4中的Neck结构主要采用了SPP模块，FPN+PAN的方式，SPP模块指的是用不同尺度的最大池化方式连接不同尺寸的特征图，可以显著分离上下文的特征，此外FPN和PAN起到了特征聚合的作用。

③输入部分采用了Mosaic数据增强，随机采用四张图片随即缩放后随机凭借，丰富了数据集，增强了模型的鲁棒性。预测部份采用了CIOU_Loss替换了IOU_Loss,DIOU_nms替换了nms，充分考虑了边框不重合，中心点距离，以及边框宽高比的问题。

5.YOLOV5

①YOLOV5简介：

YOLOV4出现之后不久，YOLOv5横空出世。YOLOv5在YOLOv4算法的基础上做了进一步的改进，检测性能得到进一步的提升。虽然YOLOv5算法并没有与YOLOv4算法进行性能比较与分析，但是YOLOv5在COCO数据集上面的测试效果还是挺不错的。大家对YOLOv5算法的创新性半信半疑，有的人对其持肯定态度，有的人对其持否定态度。在我看来，YOLOv5检测算法中还是存在很多可以学习的地方，虽然这些改进思路看来比较简单或者创新点不足，但是它们确定可以提升检测算法的性能。其实工业界往往更喜欢使用这些方法，而不是利用一个超级复杂的算法来获得较高的检测精度。本文将对YOLOv5检测算法中提出的改进思路进行详细的解说，大家可以尝试者将这些改进思路应用到其它的目标检测算法中。

②网络结构

在YOLOv5中新加入了一个focus框架，其最大的特点是原始608×608×3的图像输入Focus结构，采用切片操作，先变成304×304×12的特征图，再经过一次32个卷积核的卷积操作，最终变成304×304×32的特征图，加速了训练速度。另外在YOLOv4中使用的CSP模块现在在backone和neck中都有应用。