Posted 2022-11-08Updated 2025-07-14深度學習6 minutes read (About 842 words)

實作yolov1

計算layer輸出

image info {: w=”700” h=”200” }

首先可以看到輸入的圖片是448 x 448，然後經過7 x 7 x 64 stripe 2 的conv layer，以及2 x 2 stripe 2 的Maxpool layer。
如果直接計算輸出的dimension，會發現計算有問題!!因為$${ 輸入寬度 - kernel寬度 \over stripe} \ne 224$$。查詢後發現如果去看yolov1.cfg，第一層的padding=1，也就是這層conv有paddind。
首先先看到darknet/src/parser.c的parse_convolutional可以發現if(pad) padding = size/2;，也就是如果cfg的padding=1，padding的大小就是$$\lfloor {kernel \ size \over 2} \rfloor$$ 取整數。所以第一層的padding是$$\lfloor {7 \over 2} \rfloor$$取整數3。
再去看darknet/src/convolutional_layer.c的make_convolutional_layer呼叫的convolutional_out_width，就可以看到詳細計算。conv的輸出尺寸是

$$\lfloor{ {輸入長(寬) + 2 \times padding - kernel \ 長(寬)} \over stride}\rfloor + 1 = \lfloor{447 \over 2}\rfloor + 1 = 224$$

接下來是2 x 2 Maxpool layer，輸出尺寸為112，輸出channel是64!!不過如果直接對照圖看，會發現圖上寫112 x 112 x 192，這很可能是論文的圖寫錯了，因為如果用darknet幫你計算每一層的輸出的話應該是如下圖。
{: w=”700” h=”200” }
1 x 1 的conv稱為reduction layers

下面以圖片作為輸入來舉例

CONV2D: 輸入的tensor每一個維度所對應的是$$(N,C_{in},H,W)$$
- $$N$$: 照片張數，一次一張照片為1
- $$C_{in}$$:照片channel，彩色照片為3
- $$H$$: 照片高度
- $$W$$: 照片寬度

darknet的conv layer程式碼疑問:

1	for(i = 0; i < l.nweights; ++i) l.weights[i] = scale*rand_normal(); #209

h:輸入高
w:輸入寬
c:輸入channel
n:輸出channel
size:kernel size
nweights = (c / groups) * n * size * size

src -> parser.c -> load_convolutional_weights

讀取biases，每一個conv的filter都有一個，如yolov1第一層有64個
讀取batch_normalize
1. 讀取scales，數量等於輸出channel
2. 讀取rolling_mean，數量等於輸出channel
3. 讀取rolling_variance，數量等於輸出channel
讀取weights