YOLO 系列总结

相比 RCNN系列,YOLO 系列的主要缺点:

主要原因是每个网格预测固定数量的物体使候选框数量减少;

网络结构

Backbone

YOLO v1

YOLO v2 —— darknet19

YOLO v3 —— darknet53

Concat Layer

YOLO v1 —— 无

YOLO v2 —— 维度拼接,一次,第 16 层 26x26x512 → 13x13x2048 与第 24 层拼接;

YOLO v3 —— 维度拼接,两次

Fully Connected Layer

YOLO v1 —— 两层全连接层;

YOLO v2 —— 无(大大减少了参数规模);

YOLO v3 —— 无

Upsample Layer

YOLO v1 —— 无

YOLO v2 —— 无

YOLO v3 —— 非线性插值法,上采用两次;

Anchor Box

YOLO v1 —— 无

YOLO v2

YOLO v3

Bounding Box

YOLO v1 —— grid cell

YOLO v2 —— anchor box + offset + sigmoid activation

YOLO v3 —— 同 v2;

模型输入

数据增强

YOLO v1

YOLO v2

YOLO v3 —— 同 v2;

图像输入大小

YOLO v1 —— 预训练模型输入大小为 224x224,检测模型输入大小为 448 x 448;

YOLO v2 —— Multi-Scale Training:每个 10 个 batches 随机选择一种分辨率输入(320~608,32的倍数);

YOLO v3 —— 同 v2;

模型输出

Output Shape

YOLO v1

YOLO v2

YOLO v3 —— 同 v2;

训练细节

防止过拟合

YOLO v1 —— 也使用了 BN,同时在 FC 中使用 dropout

YOLO v2 —— 取消 dropout 均使用 BN:提升模型泛化能力的同时使得模型更容易收敛;

YOLO v3 —— 同 v2;

优化器

YOLO v1 ——

YOLO v2 —— SGD

YOLO v3

损失函数

Obj Loss

Cls Loss

YOLO v1

YOLO v2 —— Softmax Loss

YOLO v3 —— Logistic Loss

Loc Loss

YOLO v1 —— 对宽高都进行开根,使得预测相同的偏差时更小的框产生更大的损失;

YOLO v2 —— 使用 $2 - W_{ij}*h_{ij}$,使小物体的惩罚比大物体重;

YOLO v3 —— 同 v2;

Table of Contents