[๋ ผ๋ฌธ๋ฆฌ๋ทฐ]
ABSTRACT
- DNN์ ํ๋ จ์ ์ด์ layer์ ๋งค๊ฐ ๋ณ์๊ฐ ๋ณ๊ฒฝ๋จ์ ๋ฐ๋ผ ํ๋ จ ์ค์ ๊ฐ layer์ ์ธํ ๋ถํฌ๊ฐ ๋ณ๊ฒฝ๋๋ค
- ์ด๋ ๋ฎ์ learning rate์ ์ ์คํ ํ๋ผ๋ฏธํฐ ์ด๊ธฐํ๋ฅผ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ ํ๋ จ ์๋๋ฅผ ๋ฆ์ถ๊ณ ๋น์ ํ์ฑ์ ๊ฐ์ง ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๊ฒ์ด ์ด๋ ต๋ค
- ์ด ๋ฌธ์ ๋ฅผ layer์ ์ ๋ ฅ์ normalization์ ํตํด ํด๊ฒฐํ๋ค.
- ๊ฐ mini batch์ ๋ํ normalization์ ์ํํ๋ ๊ฒ์์ ๋ง์ ์ฅ์ ์ ๊ฐ์ง๋ค.
- ๋ฐฐ์น normalization์ ํตํด ํจ์ฌ ๋ ๋์ ํ์ต ์๋๋ก ์ฌ์ฉํ๊ณ ์ด๊ธฐํ์ ๋ ๋ฏผ๊ฐํ๋ค.
Introduction
- ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(SGD)๋ ์ฌ์ธต ๋คํธ์ํฌ๋ฅผ ํ๋ จํ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์
์ฆ๋์๋ค.
- SGD๋ ํ์ต์ ๊ฐ ๋จ๊ณ๋ณ๋ก ์งํํ๋ฉฐ, ๋ฏธ๋ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ ๊ณ ๋ คํ์ฌ ํ์ตํ๋ค.
- SGD๋ ๊ฐ๋จํ๊ณ ํจ๊ณผ์ ์ด์ง๋ง, ๋ชจ๋ธ ํ์ดํผ ํ๋ผ๋ฏธํฐ, ํนํ ์ต์ ํ์ ์ฌ์ฉ๋๋ ํ์ต ์๋์ ๋ชจ๋ธ ๋งค๊ฐ ๋ณ์์ ์ด๊ธฐ ๊ฐ์ ์ ์คํ๊ฒ ์กฐ์ ํด์ผ ํ๋ค.
- ๊ฐ layer๋ ์๋ก์ด input ๋ถํฌ์ ์ ์ํด์ผํด์ input ๋ถํฌ์ ๋ณํ๋ covariate shift ๋ฌธ์ ๋ฅผ ์ผ๊ธฐํ๋ค.
- Training๊ณผ Test ๋ฐ์ดํฐ ์ฌ์ด์ ๋์ผํ ๋ถํฌ๋ฅผ ๊ฐ๋ ๊ฒ์ด ๋ ํจ๊ณผ์ ์ธ ํ์ต์ ์งํํ๋ค.
- Sigmoid ํ์ฑํ ํจ์์ ๊ฒฝ์ฐ x๊ฐ ์ฆ๊ฐํจ์ ๋ฐ๋ผ g'(x)๊ฐ 0์ด ๋๋ ๊ฒฝํฅ์ด ์๋ค. ์ด๊ฒ์ ๊ธฐ์ธ๊ธฐ๊ฐ ์์ค๋๊ณ ๋ชจ๋ธ์ด ์ฒ์ฒํ ํ๋ จ๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. (gradient vanishing, saturation problem)
- ํด๊ฒฐ ๋ฐฉ์์ผ๋ก ReLU์ careful initialization, small learning rate๋ฅผ ํตํด ํด๊ฒฐํ๋ค. ํ์ง๋ง ๋น์ ํ ์ ๋ญ์ ๋ถํฌ๊ฐ ๋คํธ์ํฌ์์ ํ๋ จํ ๋ ๋ ์์ ์ ์ผ๋ก ์ ์ง๋๋๋ก ๋ณด์ฅ์ด ๋๋ค๋ฉด saturated ์ํ์ ๊ฐํ ๊ฐ๋ฅ์ฑ์ด ์ ๊ณ ํ๋ จ์ด ๊ฐ์ํ๋ ๊ฒ์ด๋ค.
- ๋ ผ๋ฌธ์ ์์ด๋์ด : ๋น์ ํ์ฑ input์ distribution์ ์์ ์ ์ผ๋ก ๋ง๋ฆ์ผ๋ก์จ opimizer๊ฐ saturated regime์ ๋น ์ง์ง ์๋๋ก ๋ง๋ค์ด ํ์ต์ ์๋๋ฅผ ๊ฐ์ ์ํฌ ์ ์์ ๊ฒ์ด๋ค.
- ํ๋ จ ๊ณผ์ ์์ ์ฌ์ธต ๋คํธ์ํฌ์ ๋ด๋ถ ๋
ธ๋ ๋ถํฌ์ ๋ณํ๋ฅผ Internal Covariate Shift๋ผ ๋ถ๋ฅธ๋ค.
- ์ด๋ฅผ ์ ๊ฑฐํ๋ฉด ๋ ๋น ๋ฅธ ํ์ต์ด ๊ฐ๋ฅํ๋ค. ๋ฐ๋ผ์ ์ด๋ฅผ ์ค์ด๊ธฐ ์ํด Batch normalization๋ฅผ ์ ์ํ๋ค.
- ๋ ผ๋ฌธ์์๋ ์์ชฝ์ F1์ ํ๋ผ๋ฏธํฐ ๋ณ๊ฒฝ์ ๋ฐ๋ผ์ F2์ ์ํฅ์ ๋ฐ์ ์ ๋ฐ์ ์๋ค๋ ์ ์ ์ธ๊ธํ์๋ค.
- ์ด๋ฌํ ์์ชฝ์ input distribution์ด ๊ณ ์ ๋๋ค๋ฉด ๋ณด๋ค ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ผ ๊ฒ์ด๋ค๋ผ๊ณ ๊ฐ์ ํจ.
- Batch normalization์ ์ด๊ธฐ ๊ฐ์ ๋ํ ๊ทธ๋ ๋์ธํธ์ ์์กด์ฑ์ ์ค์์ผ๋ก์จ ๋คํธ์ํฌ์ ๊ทธ๋ ๋์ธํธ ํ๋ฆ์ ์ ์ตํ ์ํฅ์ ๋ฏธ์น๋ค. ์ด๋ฅผ ํตํด ๊ฒฉ์ฐจ์ ์ํ ์์ด ํจ์ฌ ๋ ๋์ ํ์ต๋ฅ ์ ์ฌ์ฉํ ์ ์๋ค.
- ๋ํ Batch normalization์ ๋ชจ๋ธ์ ์ ๊ทํ์ Dropout์ ํ์์ฑ์ ๊ฐ์์ํจ๋ค. ๋ง์ง๋ง์ผ๋ก, Batch normalization์ ๋คํธ์ํฌ๊ฐ saturating ์ํ์ ๋น ์ง๋ ๊ฒ์ ๋ฐฉ์งํ์ฌ saturating ๋น์ ํ์ฑ์ ์ฌ์ฉํ ์ ์๊ฒ ํ๋ค.
Towards Reducing Internal Covariate Shift
- Internal Covariate Shift๋ฅผ ํ๋ จ ์ค ๋คํธ์ํฌ ๋งค๊ฐ ๋ณ์์ ๋ณํ๋ก ์ธํ ๋คํธ์ํฌ ํ์ฑํ ๋ถํฌ์ ๋ณํ๋ก ์ ์ํ๋ค.
- ํ๋ จ์ ๊ฐ์ ํ๊ธฐ ์ํด Internal Covariate Shift์ ์ค์ผ ํ์๊ฐ ์๋ค. ํ๋ จ์ด ์งํ๋จ์ ๋ฐ๋ผ layer์ ์ ๋ ฅ x์ ๋ถํฌ๋ฅผ ๊ณ ์ ํจ์ผ๋ก์จ ํ๋ จ ์๋๊ฐ ํฅ์๋ ๊ฒ์ผ๋ก ๊ธฐ๋ํ๋ค.
- ๋ชจ๋ธ ํ์ต์ input์ด whitening๋๋ฉด, ๋ ๋นจ๋ฆฌ ์๋ ด๋๋ค๋ ๊ฒ์ ์ด๋ฏธ ์๋ ค์ ธ ์๋ค. ๊ฐ layer input์ whitening ์ํจ๋ค๋ฉด, input์ ๋ถํฌ๊ฐ ๊ณ ์ ๋๋ฏ๋ก Internal Covariate Shift๋ฅผ ์ค์ผ ์ ์๋ค.
- whitening : input์ feature๋ค์ uncorrelatedํ๊ฒ ๋ง๋ค์ด์ฃผ๊ณ , ํ๊ท 0, ๋ถ์ฐ 1๋ก ๋ง๋ค์ด์ฃผ๋ ์์
- ๋ชจ๋ step ๋๋ ์ผ์ ๊ฐ๊ฒฉ๋ง๋ค ๋คํธ์ํฌ๋ฅผ ์์ ํน์ ์ต์ ํ ํ๋ผ๋ฏธํฐ๋ฅผ ์์ ํ๋ ๋ฐฉ๋ฒ์ ๊ณ ๋ คํด๋ณผ ์ ์์์ง๋ง ์ด๋ฐ ์์ ์ด ์ต์ ํ ๋จ๊ณ ์ฌ์ด์ ์๋ค๋ฉด, gradient์ ํจ๊ณผ๋ฅผ ๊ฐ์์ํจ๋ค.
- layer์ ์ ๋ ฅ u์ ํธํฅ b๋ฅผ ๋ํ ๊ฒ์ x๋ผ๊ณ ํ๋ฉด (x=u+b) ์ฌ๊ธฐ์ ํ๊ท ์ ๋นผ์ฃผ์ด normalization์ ํ๋ค. ํ๊ท ๊ฐ์ ๋นผ์ฃผ๋ ๊ณผ์ ์์ b๋ ๊ฐ์ด ๋น ์ง๊ฒ ๋์ด ๊ฒฐ๊ตญ ์ถ๋ ฅ์์ b์ ์ํฅ์ด ์์ด์ง๋ค๊ณ ๋ ผ๋ฌธ์์ ์ค๋ช ํ๊ณ ์๋ค.
Normalization vs mini - batch Statistics
- ๊ฐ layer์ ์ ๋ ฅ์ ์์ ํ whiteningํ๋ ๊ฒ์ ๋น์ฉ์ด ๋ง์ด ๋ค๊ณ ๋ชจ๋ layer์์ ์ฐจ๋ณํํ ์ ์๋ ๊ฒ์ ์๋๊ธฐ ๋๋ฌธ์ ๋ ๊ฐ์ง ๋จ์ํ๋ฅผ ์ ์ํ๋ค.
- ์ฒซ ๋ฒ์งธ ๋ฐฉ๋ฒ
- ์ฒซ ๋ฒ์งธ๋ layer์ ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ํน์ง์ ๊ฐ์ด whiteningํ๋ ๋์ , ํ๊ท 0๊ณผ ๋ถ์ฐ 1์ ๊ฐ์ง์ผ๋ก์จ ๊ฐ ์ค์นผ๋ผ ํน์ง์ ๋ ๋ฆฝ์ ์ผ๋ก ์ ๊ทํ ํ๋ ๊ฒ์ด๋ค. d์ฐจ์ ์ ๋ ฅ์ธ layer์ธ ๊ฒฝ์ฐ, ๊ฐ ์ฐจ์์ ์ ๊ทํํ ๊ฒ์ด๋ค.
- ์๋ ์ ๊ทํ๋ feature๋ค์ด decorrelated๊ฐ ์๋ ๊ฒฝ์ฐ์๋ ์๋ ด์ ๊ฐ์ํ ํ๋ค.
- ์ Normalization์๋ ๋จ์ ์ด ์กด์ฌํ๋ค. sigmoid์ ์ ๋ ฅ์ ์์ ๊ฐ์ด normalizeํ๋ ๊ฒ์ ๋น์ ํ์ฑ์ linear regime(Sigmoid์ ์ ํ์ ์ธ ๊ตฌ๊ฐ)๋ก ์ ํํ๊ฒ ํ๋ค. ๋ฐ๋ผ์ ๋น์ ํ์ฑ์ ์๊ฒ ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด normalize๋ ๊ฐ์ scale, shift ํด์ฃผ๋ ํ๋ผ๋ฏธํฐ ๊ฐ๋ง์ ๋ฒ ํ๋ฅผ ์ถ๊ฐํ๋ค.
- $ \gamma^(k) = sqrt(Var[x^(k)]) $, $ \beta^(k) = E[x^(k)] $ ๋ก ์ค์ ํด์ ์๋์ ๋ฐ์ดํฐ๋ก ๋๋๋ฆด์ ์๋ค.
- ๋ ๋ฒ์งธ ๋ฐฉ๋ฒ
- normalize๋ ์ ์ฒด ๋ฐ์ดํฐ์ ์ ์ฒ๋ฆฌํ์ง๋ง SGD๋ batch ๋จ์๋ก ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ค. ๋ฐ๋ผ์ SGD๋ฅผ ์ด์ฉํ๋ฉด ์ ์ฒด ๋ฐ์ดํฐ์ ์ normalizeํ๋ ๊ฒ์ ๋นํ์ค์ ์ด๋ฏ๋ก normalize๋ batch ๋จ์๋ก ํด์ค๋ค.
- ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด Batch normalization์ด ์ด๋ฃจ์ด์ง๋ค.
- mini-batch mean๊ณผ mini-batch variace๋ฅผ ๊ตฌํ์ฌ normalize๋ฅผ ์ํํ๊ณ ๊ฐ๋ง์ ๋ฒ ํ๋ฅผ ํตํด ๋น์ ํ์ฑ์ ์ ์งํ๊ธฐ ์ํด scale, shiftํ๋ค.
Normalization vs mini - batch Statistics
Batch Normalization enables higher learning rates
- ์ด์ ์ ๋ฅ ๋คํธ์ํฌ์์๋ ๋๋ฌด ๋์ ํ์ต๋ฅ ์ gradient exploding, gradient vanishing์ ์ด๋ํ ์ ์์๋ค. ํ์ง๋ง Batch normalization์ ํตํด ์ด๋ฅผ ํด๊ฒฐํ๋๋ฐ ๋์์ด ๋์๋ค.
- ๋คํธ์ํฌ ์ ์ฒด์์ ํ์ฑํ๋ฅผ Normalizationํจ์ผ๋ก์จ gradient์ ํ์ฑํ์์ ๋ ํฐ ์ฆํญ๋๋ ๊ฒ์ ๋ฐฉ์งํ๋ค.
- ex ) ๋น์ ํ์ฑ์ ํฌํ ์ํ์ ๊ฐํ๋ ๊ฒ์ ๋ฐฉ์ง
- Batch Normalization์ ์ฌ์ฉํ๋ฉด layer์ ํตํ ์ญ์ ํ๋ ๋งค๊ฐ ๋ณ์์ ํฌ๊ธฐ์ ์ํฅ์ ๋ฐ์ง ์๋๋ค.
Batch Normalization regularizes the model
- Batch Normalization์ ํตํด Dropout์ ์ ๊ฑฐํ๊ฑฐ๋ ์ฌ์ฉ์ ์ค์ผ ์ ์์์ ๋ฐ๊ฒฌํ์๋ค.
- Batch Normalization์ Network ์ผ๋ฐํ์ ์ ๋ฆฌํ๋ค.
Conclusion
- ์ฌ์ธต ๋คํธ์ํฌ์ ํ๋ จ์ ๊ฐ์ํํ๊ธฐ ์ํ ์๋ก์ด ๋งค์ปค๋์ฆ์ ์ ์ํ์๋ค.
- ํ์ฑํ๋ฅผ Normalizationํ๋ ๊ฒ๊ณผ ๋คํธ์ํฌ ์ํคํ ์ฒ ์์ฒด์ ์ด๋ฌํ Normalization์ ํตํฉํ๋ ๊ฒ์์ ์ ์์ ํ์๋ค.
- ํ๋ฅ ์ ์ต์ ํ ๋ฐฉ๋ฒ์ ๊ฐ๋ฅํ๊ฒ ํ๊ธฐ ์ํด ๊ฐ mini-batch์ Normalization๋ฅผ ์ํํ๊ณ Normalization ๋งค๊ฐ ๋ณ์๋ฅผ ํตํด gradient๋ฅผ ์ญ์ ํํ๋ค. ๊ฒฐ๊ณผ ๋น์ ํ์ฑ์ผ๋ก ํ๋ จ๋ ์ ์๊ณ , ํ๋ จ ์๋ ์ฆ๊ฐ์ ๋ ๊ด๋ํ์ฌ, Normalization๋ฅผ ์ํด Dropout์ด ํ์ํ์ง ์์ ๊ฒฝ์ฐ๊ฐ ๋ง์๋ค.
- Batch Normalization์ ๋ชฉํ๋ Training ์ ๋ฐ์ ๊ฑธ์ณ ํ์ฑํ ๊ฐ์ ์์ ์ ์ธ ๋ถํฌ๋ฅผ ๋ฌ์ฑํ๋ ๊ฒ์ด๋ค.
- ์คํ์์ ์ฒซ ๋ฒ์งธ์ ๋ ๋ฒ์งธ๋ฅผ ์ผ์น์ํค๋ฉด ์์ ์ ์ธ ๋ถํฌ๋ฅผ ์ป์ ๊ฐ๋ฅ์ฑ์ด ๋๊ธฐ ๋๋ฌธ์ ๋น์ ํ์ฑ ์ ์ Normalization๋ฅผ ์ ์ฉํ๋ค.
'Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Convolutional Neural Network Pruning: A Survey (0) | 2022.12.30 |
---|---|
Understanding the difficulty of training deep feedforward neural networks (0) | 2022.12.28 |
Deep Residual Learning for Image Recognition (0) | 2022.12.26 |
VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION (0) | 2022.12.23 |
REFACING: RECONSTRUCTING ANONYMIZED FACIAL FEATURES USING GANS (0) | 2022.10.20 |