SSD算法學習及PyTorch代碼分析[1]-整體架構

SSD

(Single Shot Multibox Detector)是one-stage目标檢測算法的典型代表，

SSD

在速度上表現不錯，精度上也不差，是一個非常優秀的算法。

SSD算法學習及PyTorch代碼分析[1]-整體架構

這裡，通過

SSD

PyTorch代碼進行分析學習。這篇主要分析

SSD

的整體網絡，有個大緻的概念。

一些用到的卷積計算公式：

圖像卷積輸出大小公式(正常)： o = ⌊ i − k + 2 p s ⌋ + 1. o = \left\lfloor \frac{i - k+2p}{s} \right\rfloor + 1. o=⌊si−k+2p⌋+1.

圖像卷積輸出大小公式(ceil_mode)： o = ⌈ i − k + 2 p s ⌉ + 1. o = \left\lceil \frac{i - k+2p}{s} \right\rceil + 1. o=⌈si−k+2p⌉+1.

圖像卷積輸出大小公式(帶空洞卷積 d d d)： o = ⌈ i − k + 2 p − ( k − 1 ) ∗ ( d − 1 ) s ⌉ + 1. o = \left\lceil \frac{i - k+2p-(k-1)*(d-1)}{s} \right\rceil + 1. o=⌈si−k+2p−(k−1)∗(d−1)⌉+1.

i i i為輸入圖檔大小， k k k為卷積核大小， p p p為padding大小， s s s為stride大小, d d d為(空格數+1)

1. VGG部分 {conv1_2, conv2_2, conv3_3, conv4_3, conv5_3, fc6(conv6), fc7(conv7)}

# 這裡給出輸入圖像的大小（C,H,W）
input_size:(3, 300, 300)
# conv1_2
Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
# 這裡給出通過conv_2後圖像計算方式和大小， 後面的image_size亦是如此
image_size:(300-2+2*0)/2+1=150 (64, 150, 150)
    
# conv2_2
Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
image_size:(150-2+2*0)/2+1=75 (128, 75, 75)
    
# conv3_3
Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=True)
image_size: ceil[(75-2+2*0)/2+1]=38 (256, 38, 38)
   
# conv4_3
Conv2d(256, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))#-->
ReLU(inplace)
MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
image_size:(38-2+2*0)/2+1=19 (512, 19, 19)
    
# conv5_3
Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
ReLU(inplace)
MaxPool2d(kernel_size=3, stride=1, padding=1, dilation=1, ceil_mode=False)
image_size:(19-3+2*1)/1+1=75 (64, 19, 19)

# conv6,空洞卷積
Conv2d(512, 1024, kernel_size=(3, 3), stride=(1, 1), padding=(6, 6), dilation=(6, 6))
ReLU(inplace)
image_size:(19-3+2*6-(3-1)*(6-1)/1+1=19 (1024, 19, 19)
    
# conv7
Conv2d(1024, 1024, kernel_size=(1, 1), stride=(1, 1))#-->
ReLU(inplace)
image_size:(19-1+2*0)/1+1=19 (1024, 19, 19)

2. Extra Feature Layers{conv8_2, conv9_2, conv10_2, conv11_2}

input_size:(19,19)
# conv8_2
Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1))
Conv2d(256, 512, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1)) #-->
image_size:(19-3+2*1)/2+1=10 (10,10)

# conv9_2
Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1))
Conv2d(128, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1))#-->
image_size: (10-3+2*1)/2+1=5 (5,5)
    
# conv10_2
Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1))#-->
image_size: (5-3+2*0)/1+1=3 (3,3)

# conv11_2
Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1))
Conv2d(128, 256, kernel_size=(3, 3), stride=(1, 1))#-->
image_size: (3-3+2*0)/2+1=1 (1,1)

其中

#-->

表示連接配接到detections層，做定位與置信度分類層

3. Loc Layer

Conv2d(512, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(1024, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(512, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))

4. Conf Layer

Conv2d(512, 84, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(1024, 126, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(512, 126, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 126, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 84, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
Conv2d(256, 84, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))

SSD算法學習及PyTorch代碼分析[1]-整體架構

3. Loc Layer

4. Conf Layer

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希