[๋ ผ๋ฌธ๋ฆฌ๋ทฐ]
ABSTRACT
- ๋ณธ ๋ ผ๋ฌธ์์๋ Large-scale image recogniotion์์ Convolutional network์ ๊น์ด๊ฐ ์ฑ๋ฅ์ ์ผ๋ง๋ ์ํฅ์ ๋ฏธ์น๋์ง ์กฐ์ฌํ์๋ค.
- ๋งค์ฐ ์์ 3 x 3 convolution filter๋ฅผ ๊ฐ์ง ์ํคํ ์ณ๋ฅผ ์ฌ์ฉํ์ฌ depth๋ฅผ ์ฆ๊ฐ์ํจ ๋คํธ์ํฌ์ ์ฑ๋ฅ์ ํ๊ฐํ์๋ค.
- Depth๋ฅผ Layer 16-19์ ๋์ ํฌ๊ธฐ๋ก ์ฆ๊ฐ์์ผ ์๋นํ ์ฑ๋ฅ ๊ฐ์ ์ ์ด๋ฃจ์๋ค.
1. INTRODUCTION
- ๋ณธ ๋
ผ๋ฌธ์์๋ ConvNet ์ํคํ
์ฒ ์ค๊ณ์ ๋ ๋ค๋ฅธ ์ค์ํ ์ธก๋ฉด์ธ ๊น์ด๋ฅผ ๋ค๋ฃฌ๋ค.
- ๋ชจ๋ layer์์ ๋งค์ฐ ์์(3×3) convolution filter๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ์คํ ๊ฐ๋ฅํ convolution layer๋ฅผ ์ถ๊ฐํ์ฌ ๋คํธ์ํฌ ๊น์ด๋ฅผ ๊พธ์คํ ์ฆ๊ฐ์ํด.
- ๊ฒฐ๊ณผ์ ์ผ๋ก ILSVRC classification๊ณผ localisation์์ ์ข์ ์ฑ๋ฅ์ ๋ณด์.
2. CONVNET CONFIGURATIONS
2.1 ARCHITECTURE
- Training ๋์, 224 x 224 ์ฌ์ด์ฆ์ RGB ์ด๋ฏธ์ง๋ก ๊ณ ์ ํ์ฌ ์ฌ์ฉ
- Preprocessing : ๊ฐ ํฝ์ ๋ง๋ค Training set์์ ๊ณ์ฐ๋ mean RGB๊ฐ์ ๋นผ์ค
- ์ด๋ฏธ์ง๋ ๋งค์ฐ ์์ 3 x 3 filter๋ฅผ ๊ฐ์ง stack of convolutional layers๋ฅผ ๊ฑฐ์ณ์ ํต๊ณผํ๋ค.
- Convolution stride ๊ฐ์ 1 pixel๋ก ๊ณ ์ ๋์ด ์ฌ์ฉ
- Convolution padding์ 3x3 conv ๋ง๋ค 1 pixel
- spatial padding of conv : convolution ์ดํ์ ๊ณต๊ฐ ํด์๋๊ฐ ์ ์ง๋๋ ๊ฒ
- Max pooling์ stride 2๋ฅผ ๊ฐ์ง๋ฉฐ, 2 x 2 ํฝ์
์๋์ฐ์์ ์ํ๋๋ค.
- Spatial pooling์ 5๊ฐ์ max pooling layers์ ์ํด ์ํ
- A stack of convolutional layers ๋ค์ 3๊ฐ์ Fully-Connected(FC) layers๊ฐ ์์
- 1, 2๋ฒ์งธ layer๋ 4096๊ฐ์ ์ฑ๋์ ๊ฐ์ง๊ณ ์๋ค
- 3๋ฒ์งธ layer๋ 1000๊ฐ์ ์ฑ๋(ํด๋์ค์ ์)์ ๊ฐ์ง๊ณ ์๋ค.
- 1000way ILSVRC classification ์ํ → ๊ฐ class ๋ง๋ค ํ ๊ฐ์ ์ฑ๋ ๊ฐ์ ธ์ 1000๊ฐ์ ์ฑ๋ ๊ฐ์ง
- ๋ง์ง๋ง layer๋ softmax layer์ด๋ค.
- FC layer๋ค์ ๋ชจ๋ ๋คํธ์ํฌ์์ ๊ฐ์ ๊ตฌ์ฑ์ด๋ค.
- ๋ชจ๋ ์๋์ธต(hidden layers)๋ ReLU ํ์ฑํ ํจ์๋ก ๊ตฌ์ฑ๋์ด ์๋ค.
2.2 CONFIGURATIONS
- A๋ถํฐ E๊น์ง ๋ชจ๋ธ์ ๊น์ด๊ฐ ๋ค๋ฅธ ๊ตฌ์กฐ์ด๋ค.
- ์ฒซ๋ฒ์งธ layer์์ ์ฑ๋์ ์๊ฐ 64๋ถํฐ ์์ํด์ 512์ ๋๋ฌํ๊ธฐ ๊น์ง max-pooling ์ดํ์ 2๋ฐฐ์ฉ ์ฆ๊ฐ์ํจ๋ค.
- ๊ฐ ๊ตฌ์ฑ๋ง๋ค์ ํ๋ผ๋ฏธํฐ์ ์
2.3 DISCUSSION
- ๋คํธ์ํฌ ์ ์ฒด์ ๊ฑธ์ณ ๋งค์ฐ ์์ 3x3 receptive field ์ฌ์ฉ (with stride 1).
- 2๊ฐ์ 3 x 3 conv๋ฅผ ๊ฐ์ง๊ณ ์ฌ์ด์ saptial polling์ด ์๋ layers์ 5 x 5 receptive field๋ฅผ ๊ฐ์ง๋ค.
- 3๊ฐ์ 3 x 3 conv๋ฅผ ๊ฐ์ง๊ณ ์ฌ์ด์ saptial polling์ด ์๋ layers์ 7 x 7 receptive field๋ฅผ ๊ฐ์ง๋ค.
- ๋จ์ผ 7x7 layer ๋์ 3๊ฐ์ 3x3 conv layer๋ฅผ ์ฌ์ฉํ์ฌ ์ป๋ ๊ฒ์?
- 1๊ฐ์ non-linear rectification layer ๋์ 3๊ฐ์ non-linear rectification layer์ ์ฌ์ฉํด ๊ฒฐ์ ํจ์์ ๋น์ ํ์ฑ ์ฆ๊ฐ
- feature์ ์๋ณ์ฑ ์ฆ๊ฐ - ํ์ต ํ๋ผ๋ฏธํฐ ์ ๊ฐ์
- 3๊ฐ์ 3x3 conv layer stack์ด C๊ฐ์ ์ฑ๋์ ๊ฐ์ง๊ณ ์๋ค๊ณ ๊ฐ์ ํ๋ฉด ์คํ์3(3^2*C^2 ) = 27C^2 ๊ฐ์ค์น์ ์ํด ํ๋ผ๋ฏธํฐํ๋๋๋ฐ ๋จ์ผ 7x7 layer๋ 7^2C^2 =49C^2 ๋งค๊ฐ๋ณ์๊ฐ ํ์ํด ๊ฑฐ์ 81%๊ฐ ๋ ํ์ํจ
- 1๊ฐ์ non-linear rectification layer ๋์ 3๊ฐ์ non-linear rectification layer์ ์ฌ์ฉํด ๊ฒฐ์ ํจ์์ ๋น์ ํ์ฑ ์ฆ๊ฐ
- ์ถ๊ฐ์ ์ผ๋ก 1 x 1 conv๋ covolution์ receptive field์ ์ํฅ์ ๋ฏธ์น์ง ์๊ณ ๋น์ ํ์ฑ์ ์ฆ๊ฐ์ํค๋ ๋ฐฉ๋ฒ์ด๋ค.
3. CLASSIFICATION FRAMEWORK
3.1 TRAINING
- ๋ฏธ๋ ๋ฐฐ์น gradient descent๋ฅผ ์ฌ์ฉํ์ฌ ๋คํญ logistic regression์ ์ต์ ํํ์ฌ ํ์ต(with momentum)
- Batch size : 256 / Momentum : 0.9
- Learning rate : 0.001 / weight decay : 0.0005(L2 penalty)
- 1, 2๋ฒ์งธ FC layer drop out (ratio : 0.5)
- ์ ์ฒด์ ์ผ๋ก learning rate๋ 3 ๊ฐ์ํ์๊ณ , 74 epochs์์ ์ค๋จ
- ๋คํธ์ํฌ ๊ฐ์ค์น์ ์ด๊ธฐํ๋ ๊ทธ๋ ์ด๋์ธํธ ๋ถ์์ ์ฑ์ผ๋ก ์ธํด ํ์ต์ ์ง์ฐ์ํฌ ์ ์๊ธฐ ๋๋ฌธ์ ์ค์ํ๋ค.
- ํ์ต ์ง์ฐ ๋ง๊ธฐ ์ํด ๋ฌด์์ ์ด๊ธฐํ๋ก ํ์ต๋ ์ ๋๋ก A (Table 1)๋ถํฐ ์์. ๊ทธ ํ ๊น์ architecture์ ํ๋ จํ ๋, ์ฒ์ ๋ค ๊ฐ์ conv layer๊ณผ ๋ง์ง๋ง ์ธ ๊ฐ์ FC layer๋ฅผ net A์ layer๋ก ์ด๊ธฐ
- 224 x 224 input image๋ฅผ ์ป๊ธฐ ์ํด training images๋ฅผ ๋๋คํ๊ฒ crop (SGD iteration 1ํ๋น image 1๊ฐ crop)
- Training set ์ฆ๊ฐ์ ์ํด, horizontal flipping๊ณผ random RGB colour shift
3.2 TESTING
- Testing์ ์งํํ ๋, ๋ง์ง๋ง 3๊ฐ์ Fully-connected layers๋ฅผ Convolutional layer๋ก ๋ณํํ์ฌ ์ฌ์ฉํจ
- ์ฒซ ๋ฒ์งธ FC layer -> 7 x 7 convolutional layer
- ๋๋จธ์ง FC layer -> 1 x 1 convolutional layer
- ๊ฒฐ๊ณผ์ ์ผ๋ก Fully-Convolutional Networks๊ฐ ์ ์ฒด ์ด๋ฏธ์ง์ ์ ์ฉ๋๋ค.
- Class์ ๊ฐ์์ ๋์ผํ ๊ฐ์์ channel์ ๊ฐ๋ class ์ค์ฝ์ด ๋งต, ์ ๋ ฅ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๋ฐ๋ผ variable spatial resolution๊ฐ ์์ฑ
- Input image size์ ๋ฐ๋ผ ๋ณํ๋ spatial resolution ใ input image size์ ์ ์ฝ์ด ์์ด์ง
- ํ๋์ image๋ฅผ ๋ค์ํ scale๋ก ์ฌ์ฉํ ๊ฒฐ๊ณผ๋ฅผ ์กฐํฉํด image classification accuracy ๊ฐ์ ๊ฐ๋ฅ
4. CLASSIFICATION EXPERIMENTS
4.1 SINGLE SCALE EVALUATION
- Normalisation layers๊ฐ ์๋ ๋ชจ๋ธ์์ LRN์ ์ฌ์ฉํ๋ ๊ฒ์ ํจ๊ณผ๊ฐ ์๋ค.
- ConvNet ๊น์ด๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ Classification error๊ฐ ๊ฐ์ํ๋ค
- ์ฑ๋ฅ : C < D => ๊ฐ์ ๊น์ด์์๋ ๋ถ๊ตฌํ๊ณ ์ธ ๊ฐ์ 1 x 1 conv layer๋ฅผ ํฌํจํ๋ C๋ ๋คํธ์ํฌ ์ ์ฒด์ 3 x 3 conv layer๋ฅผ ์ฌ์ฉํ๋ D๋ณด๋ค ์ฑ๋ฅ์ด ๋จ์ด์ง๋ค.
- Conv filter๋ฅผ ์ฌ์ฉํด spatial context๋ฅผ ํ์ ํ๋ ๊ฒ๋ ์ค์ํจ์ ์ ์ ์๋ค
- ์ฑ๋ฅ : B < C => ๋น์ ํ์ฑ์ ์ถ๊ฐ๊ฐ ์ฑ๋ฅ ๊ฐ์ ์ ๋์์ ์ค๋ค
- B์์ 3x3 conv layer ์์ 5x5 conv layer๋ก ๋ฐ๊พธ๊ณ ์ฑ๋ฅ testํ๋๋ top-1 error๊ฐ 7% ์ฆ๊ฐ
- ์ฑ๋ฅ : S ∈ [256; 512] > S ∈ [min, max] => training time์ scale jittering์ด ์ฑ๋ฅ์ด ๋ ์ข๋ค.
4.2 MULTI SCALE EVALUATION
- Test ์ Scale Jittering์ ์ํฅ์ ํ๊ฐํ๋ค.
- ๊ณ ์ S๋ก ํ๋ จ๋ ๋ชจ๋ธ์ Q = {S-32, S+32}๋ก ํ๋ จ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๊ฐ๊น์ด ์ธ ๊ฐ์ง ํ ์คํธ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๊ฑธ์ณ ํ๊ฐ
- ๋ณ์ S๋ก ํ๋ จ๋ ๋ชจ๋ธ์ Q = {Smin, 0.5(Smin + Smax), Smax}๋ก ํ๊ฐ
- ๊ฒฐ๊ณผ์ ์ผ๋ก Scale Jittering์ ์ฌ์ฉํ๋ฉด ๋จ์ผ ์ค์ผ์ผ์์ ๋์ผํ ๋ชจ๋ธ์ ํ๊ฐํ๋ ๊ฒ์ ๋นํด ์ฑ๋ฅ์ด ํฅ์๋๋ค.
4.3 MULTI CROP EVALUATION
- ๋ ํ๊ฐ ๊ธฐ๋ฒ (Multi-crop evaluation, dense evaluation)์ soft-max output์ ํ๊ท ํํด์ complementarity๋ฅผ ํ๊ฐ
- ์ฑ๋ฅ ์์ฒด๋ Multi-crop evaluation์ด ๋ฏธ์ธํ๊ฒ ์ข์ผ๋ dense evaluation๋ณด๋ค ์ฐ์ฐ๋์ด ๋ง๋ค.
5. CONCLUSION
- ๋๊ท๋ชจ ์ด๋ฏธ์ง ๋ถ๋ฅ๋ฅผ ์ํด ๋งค์ฐ ์ฌ์ธต์ ์ธ ์ปจ๋ณผ๋ฃจ์ ๋คํธ์ํฌ(์ต๋ 19๊ฐ์ ๊ฐ์ค์น ๊ณ์ธต)๋ฅผ ํ๊ฐํ๋ค
- ๋คํธ์ํฌ์ ๊น์ด๋ ๊น์ด์ง์๋ก ๋ถ๋ฅ ์ ํ๋์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ฉฐ, 19 ๋ ์ด์ด๊น์ง๋ง ์ฌ์ฉํ ์ด์ ๋ ์ค์ฐจ์จ์ด VGG-19์์ ์๋ ดํ๊ธฐ ๋๋ฌธ์ด๋ค. ํ์ต ๋ฐ์ดํฐ ์๊ฐ ์ถฉ๋ถํ ๋ง๋ค๋ฉด ๋ ๊น์ ๋ชจ๋ธ์ด ์ ์ฉํ ์ ์๋ค.