[๋ ผ๋ฌธ๋ฆฌ๋ทฐ]
ABSTRACT
- Random Initialization์ ์ฌ์ฉํ ์ผ๋ฐ์ ์ธ Gradient-descent ์๊ณ ๋ฆฌ์ฆ์ด Deep neural network์์ ์ฝํ ์ฑ๋ฅ์ ๋ด๋๊ฐ
- Random Initialization์ ์ ์ฉํ Logistic sigmoid ํ์ฑํ ํจ์๋ ํ๊ท ๊ฐ ๋๋ฌธ์ Deep network์ ์ ํฉํ์ง ์๋ค.
- ์์ layer๋ฅผ ํฌํ(saturation)ํ๊ฒ ๋ง๋ ๋ค
- ๋ณธ ๋ ผ๋ฌธ์์๋ ์๋นํ ๋น ๋ฅธ ์๋ ด์ ๊ฐ์ ธ์ค๋ ์๋ก์ด Initialization Scheme๋ฅผ ๋์ ํ๋ค.
Deep Neural Networks
- ๋ฅ๋ฌ๋์ ์ถ์ถํ ํน์ง์ ์ด์ฉํ์ฌ ํน์ง ๊ณ์ธต์ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ฌ ์งํํ๋ค.
- ์ถ์ถํ ํน์ง : ๋ฎ์ ์์ค์ Feature๋ค์ ํฉ์ฑ์ ํตํด ๋ง๋ค์ด์ง ๋์ ์์ค์ Layer๋ก ๋ถํฐ ์ถ์ถํ ๊ฒ
- ๋ณต์กํ ๊ธฐ๋ฅ์ ํ์ตํ๊ธฐ ์ํด์๋ ๊ณ ์์ค์ ์ถ์ํ๋ฅผ ํํํ ์ ์์ด์ผํ๋ฉฐ, ์ด๋ฅผ ์ํ ํ ๊ฐ์ง ๋ฐฉ๋ฒ์ด Deep architecture์ ํ์์ฑ์ด๋ค.
- ์ต๊ทผ ๋๋ถ๋ถ์ ๋ฅ ์ํคํ
์ณ๋ค์ ๋น์ง๋ ์ฌ์ ํ์ต์ ํจ๊ณผ๋ก ์ธํด Random initialization๊ณผ gradient๊ธฐ๋ฐ์ opimization๋ณด๋ค ํจ์ฌ ๋ ์ ์๋๋๋ค.
- ๋น์ง๋ ์ฌ์ ํ์ต์ด ์ต์ ํ ์ ์ฐจ์์ ํ๋ผ๋ฏธํฐ ์ด๊ธฐํ๋ฅผ ๋ ์ํ๋ ์ผ์ข ์ regularizer ์ญํ ์ ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
- ์ด๊ฒ์ local minimum์ด ๋ ๋์ generalization๊ณผ ์ฐ๊ด์ด ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋ค.
- ๋น์ง๋ ์ฌ์ ํ์ต์ด๋ ๋ฐ-ํ์ค ์ง๋ํ์ต์ ๋ฅ ์ํคํ ์ณ์ ๊ฐ์ ธ์ค๋ ๊ฒ์ ์ด์ ์ ๋ ๋์ ๊ณ ์ ์ ์ด์ง๋ง ๊น๊ณ , ์ข์ ๋ค์ค ์ธ๊ณต ์ ๊ฒฝ๋ง์ด ์๋ชป ํ์ต๋ ์ ์๋ ๊ฒ์ ๋ํด ๋ถ์ํ๋ ๊ฒ์ ์ด์ ์ ๋๋ค.
- ๊ฐ layer๋ค์ activation๋ค๊ณผ gradient์ ๋ชจ๋ํฐ๋งํ์๊ณ , ๋ถ์ํ๋ค. ์ด ํ activation function์ ์ ํ๊ณผ ์ด๊ธฐํ ๋ฐฉ๋ฒ์ ๋ํด ํ๊ฐํ๋ค.
Experimental Setting and Datasets
Online Lenaring on an Infinite Dataset
- ์ต๊ทผ ๋ฅ ์ํคํ
์ณ๋ฅผ ์ฌ์ฉํ ๊ฒฐ๊ณผ๋ ํฐ ํ์ต ์ธํธ๋ ์จ๋ผ์ธ ํ์ต์ ์งํํ ๋, ๋น์ง๋ ํ์ต์ ํตํด ์ด๊ธฐํ๋ฅผ ํ๊ฒ ๋๋ฉด ํ์ต์ ์์ด ํ์ต์ ์๊ฐ ๋์ด๋ค๊ณ ์ค์ง์ ์ธ ์ฑ๋ฅ ํฅ์์ด ์ผ์ด๋๋ค๋ ๊ฒ์ ๋ณด์๋ค.
- ์จ๋ผ์ธ ํ์ต์ ์์ ํ๋ณธ์ ์ ๊ทํ์ ๋ํ ํจ๊ณผ๋ณด๋ค ์ต์ ํ์ ๋ฌธ์ ์ ๋ํด์ ์ด์ ์ ๋ง์ถ๋ค
- ๋ฐ์ดํฐ์ ์์ ์ ํ ์กฐ๊ฑด์ ๊ฐ์ง ๋ ๊ฐ์ ๊ฐ์ฒด๋ก ์ด๋ฏธ์ง๋ฅผ ์ํ๋ง ํ์๋ค.
- ์ด 9๊ฐ์ ํด๋์ค๋ก ๊ตฌ์ฑ
Finite Datasets
- MNIST ๋ฐ์ดํฐ
- CIFAR-10 ๋ฐ์ดํฐ์ ์ค 10,000๊ฐ๋ฅผ ์ ํจ์ฑ ์ด๋ฏธ์ง๋ก ์ถ์ถ
- Small-ImageNet
Experimental Setting
- 1~5๊ฐ์ hidden layer๋ฅผ ๊ฐ์ง Feed Forward ANN์ ์ต์ ํ ํ์๋ค.
- Layer๋น 1000๊ฐ์ ์จ๊ฒจ์ง ์ ๋์ ๊ฐ์ง๋ค
- ์ถ๋ ฅ Layer์ Softmax logistic regression
- Cost function์ negative log-likelihood( $ -logP(y|x) $)๋ฅผ ์ฌ์ฉํจ.
- 10๊ฐ์ mini-batch ํฌ๊ธฐ๋ฅผ ๊ฐ๋ stocastic back-propagation์ ์ฌ์ฉํ์ฌ ์ต์ ํ ๋์๋ค.
- ๋
ผ๋ฌธ์์ Hidden layer์ ๋น์ ํ ํ์ฑํ ํจ์๋ฅผ ๋ณ๊ฒฝํ์๋ค
- Sigmoid, tanh, ์๋ก ์ ์๋ softsign($ x / (1 + |x|) $)
- ๋ชจ๋ธ๋ค์์ ๋ณ๋๋ก ์ต๊ณ ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ค์ ์ฐพ์๋ค. ๊ฐ ํ์ฑํ ํจ์ ๋ณ๋ก ๊ฒฐ๊ณผ๋ Sigmoid๋ฅผ ์ ์ธํ๊ณ ๋ ํญ์ 5์์ผ๋ฉฐ, Sigmoid๋ 4์๋ค.
- biases๋ 0์ผ๋ก ์ด๊ธฐํํ๊ณ ๊ฐ layer์ ๊ฐ์ค์น๋ฅผ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ํด๋ฆฌ์คํฑ ๋ฐฉ๋ฒ์ผ๋ก ์ด๊ธฐํํ์๋ค.
Effect of Activation Functions and Saturation During Training
Experiments with the Sigmoid
- Sigmoid์ ๋น์ ํ์ฑ์ ์ด๋ฏธ none-zero mean์ผ๋ก ์ธํด์ Hessian์์ ํน์ด๊ฐ์ด ๋ฐ์ํ๋ ๊ฒ ๋๋ฌธ์ ํ์ต์ ์ ํ์ํค๋ ์์๋ก ์๋ ค์ ธ์๋ค.
- ๊ด์ฐฐ
- Layer 1์ ์ฒซ๋ฒ์งธ hidden layer์ ์ถ๋ ฅ์ ๋ํ๋ด๊ณ , ๊ทธ ์ธ์ 4๊ฐ์ hidden layer๊ฐ ์๋ค.
- ๊ทธ๋ํ๋ ํ๊ท ๊ณผ ๊ฐ๊ฐ์ activation์ ํ์คํธ์ฐจ๋ฅผ ๋ณด์ฌ์ค๋ค.
- Layer4(๋ง์ง๋ง hidden layer)์ ๋ชจ๋ sigmoid์ activation ๊ฐ์ 0์ผ๋ก ๋น ๋ฅด๊ฒ ์ด๋ํ๋ค. ํ์ง๋ง ๋ฐ๋๋ก ๋ค๋ฅธ layer์ ํ๊ท activation๊ฐ์ 0. ์ด์์ด๊ณ , ์ถ๋ ฅ layer์์ ์ ๋ ฅ layer๋ก ๊ฐ์๋ก ์ด ๊ฐ์ ๊ฐ์ํ๋ค.
- sigmoid activation function์ ์ฌ์ฉํ๋ค๋ฉด, ์ด๋ฌํ ์ข ๋ฅ์ ํฌํ๊ฐ ๋ชจ๋ธ์ด ๋ ๊น์์๋ก ์ค๋ ์ง์๋๋ค. ํ์ง๋ง 4๊ฐ์ ์ค๊ฐ ๊ณ์ธต์ hidden layer๋ ์ด๋ฌํ ํฌํ์ง์ญ์ ๋ฒ์ด ๋ ์ ์์๋ค. ์ต์์ hidden layer๊ฐ ํฌํ๊ฐ์ ๋ฒ์ด๋๋ ๋์ ์ ๋ ฅ layer๋ ํฌํ๋๋ฉด์ ์์ ์ ์ฐพ๊ธฐ ์์ํ๋ค.
- ๊ฒฐ๊ณผ
- ์ด๋ฌํ ๋์์ ๋๋ค ์ด๊ธฐํ์ 0์ ์ถ๋ ฅํ๋ ํ๋ ๋ ์ด์ด๊ฐ ํฌํ ์ํ์ธ sigmoid ํจ์์ ์ผ์นํ๋ค.
- softmax๋ ์ฒ์์๋ ์ ๋ ฅ ์ด๋ฏธ์ง๋ก๋ถํฐ ์ํฅ์ ๋ฐ์ ์ต์์ hidden layer์ ํ์ฑ๊ฐ h๋ณด๋ค biases b์ ๋ ์์กดํ ๊ฒ์ด๋ค. ์๋ํ๋ฉด h๋ y๋ฅผ ์์ธกํ์ง ๋ชปํ๋ ๋ฐฉ์์ผ๋ก ๋ณํ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ์๋ง h์๋ ๋ค๋ฅด๊ณ , ์กฐ๊ธ ๋ ์ฐ์ธํ ๋ณ์์ธ x์ ์ง๋ฐฐ์ ์ผ๋ก ์๊ด๊ด๊ณ๊ฐ ์์ ๊ฒ์ด๋ค. ๋ฐ๋ผ์ ์ค์ฐจ ๊ธฐ์ธ๊ธฐ๋ W๋ฅผ 0์ผ๋ก ๋ฐ๊พธ๋ ๊ฒฝํฅ์ด ์ใ ๋ฉฐ, ์ด๊ฒ์ h๋ฅผ 0์ผ๋ก ๋ณํ์ํค๋ฉด ๋ฌ์ฑํ ์ ์๋ฐ.
- tanh๋ softsign๊ฐ์ธ symmetric activation function ๊ฐ์ ๊ฒฝ์ฐ์ ๋ ์ข์๋ฐ ์๋๋ฉด gradient๊ฐ ๋ค๋ก ํ๋ฅผ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๊ทธ๋ฌ๋ sigmoid์ ์ถ๋ ฅ์ 0์ผ๋ก ๋ฐ๊ฒ ๋๋ฉด ๊ทธ๊ฒ์ ํฌํ์ง์ญ์ผ๋ก ์ด๋๋ค.
Experiments with the Hyperbolic tangent
- hyperbolic tangent๋ฅผ activation function์ผ๋ก ์ฌ์ฉํ ์ธ๊ณต ์ ๊ฒฝ๋ง์ 0์ ์ค์ฌ์ผ๋ก ๋์นญ์ (symmentry)์ด๊ธฐ ๋๋ฌธ์ ์ต์์ hidden layer์ ํฌํ ๋ฌธ์ ๋ฅผ ๊ฒช์ง ์๋๋ค.
- ํ์ง๋ง ํ์ค ๊ฐ์ค์น ์ด๊ธฐํ์ธ $ U[-1/\sqrt{n}, 1/\sqrt{n}] $๋ฅผ ์ฌ์ฉํ๊ฒ ๋๋ฉด layer 1์์๋ถํฐ ์์ฐจ์ ์ผ๋ก ํฌํํ์์ด ๋ฐ์ํ๋ค. (Fig 3)
- ์ ์ด๋ฏธ์ง : ํ์ตํ๋ ๋์, activation function์ hyperbolic tangent๋ฅผ ์ฌ์ฉํ ์ธ๊ณต์ ๊ฒฝ๋ง์ activation ๊ฐ์ ๋ถํฌ์ ๋ํ ๋ฐฑ๋ถ์ ์ ์(๋ง์ปค)์ ํ์คํธ์ฐจ(์ค์ ) -> ์ฒซ๋ฒ์งธ hidden layer๊ฐ ๋จผ์ ํฌํ๋๊ณ ๋๋ฒ์งธ๊ฐ ํฌํ๋๋ ํํ๋ฅผ ๋ณผ ์ ์๋ค.
- ์๋ ์ด๋ฏธ์ง : softsign์ ์ฌ์ฉํ ์ธ๊ณต์ ๊ฒฝ๋ง์ activation ๊ฐ์ ๋ถํฌ์ ๋ํ ๋ฐฑ๋ถ์ ์ ์(๋ง์ปค)์ ํ์คํธ์ฐจ(์ค์ ) -> ์ฌ๊ธฐ์ ๋ค๋ฅธ layer๋ค์ ๋ ์ ๊ฒ ํฌํ๋๊ณ ํจ๊ผ ๊ฒฐํฉํ๋ค.
Experiments with the Softsign
- Softsign์ hyperbolic tangent์ ์ ์ฌํ์ง๋ง ์ง์ํญ์ด ์๋ ๋คํญ์์ผ๋ก ์ธํด์ ํฌํ์ ๊ด์ ์์ ๋ค๋ฅด๊ฒ ๋์ํ ์ ์๋ค. Fig 3์์ ๋ณผ ์ ์๋ฏ์ด, ํฌํ๊ฐ ํ๋์ layer์์ ๋ค๋ฅธ layer๋ก ๋ฐ์ํ์ง ์๋ ๋ค๋ ๊ฒ์ ์ ์ ์๋ค.
- Softsign์ ์ฒ์์๋ ๋น ๋ฅด๊ณ , ์กฐ๊ธ ์ง๋๋ฉด ๋๋ ค์ง๋ค. ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ layer๋ ํฐ ๊ฐ์ค์น ๊ฐ์ผ๋ก ์ด๋ํ๋ค.
- ํํํ ์ง์ญ์ ๋น์ ํ์ฑ์ด ์์ง๋ง, gradient๊ฐ ์ ํ๋ฅผ ์ ์๋ ์ง์ญ์ด๋ค.
- ์ ์ด๋ฏธ์ง : hyperbolic tangent, ๋ฎ์ layer์ ํฌํ ์ํ๋ฅผ ๋ณผ ์ ์๋ค.
- ์๋ ์ด๋ฏธ์ง: softsign, ํฌํ๋์ง ์๊ณ (-0.6 ,-0.8), (0.6 ,0.8) ์ฃผ๋ณ์ ๋ถํฌํ๊ณ ์๋ ๋ง์ ํ์ฑํ ๊ฐ๋ค์ ๋ณผ ์ ์๋ค.
Studying Gradients and their Propagation
- ๋ก์ง์คํฑ ํ๊ท, ์กฐ๊ฑด๋ถ ๋์ ์ฐ๋ ๋น์ฉํจ์๊ฐ feed forward ํ๊ฒฝ ๋คํธ์ํฌ๋ฅผ ํ๋ จํ๊ธฐ ์ํด ์ ํต์ ์ผ๋ก ์ฌ์ฉ๋ 2์ฐจ ๋น์ฉ๋ณด๋ค ํจ์ฌ ๋ ์ ์๋๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
- ๋ค๋ก ์ ๊ฒฝ๋ง์ ํ์ต ์ํฌ๋๋ง๋ค back-propagated gradients์ ๋ถ์ฐ์ ๊ฐ์ํ๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ์๋ค.
- Fig 5 : 2๊ฐ์ layer๋ฅผ ๊ฐ๋ ์ธ๊ณต์ ๊ฒฝ๋ง์ 2๊ฐ์ ๊ฐ์ค์น์ ํจ์๋ก์จ, Cross entropy(๊ฒ์์), 2์ฐจ ๋น์ฉ(๋นจ๊ฐ์). ์ฒซ๋ฒ์งธ ๋ ์ด์ด์ W1๊ณผ ๋๋ฒ์งธ ๋ ์ด์ด์ W2
- ์ ๊ทํ ์์๋ ๊ณ์ธต์ ํตํ ๊ณฑ์ ํจ๊ณผ ๋๋ฌธ์ deep network๋ฅผ ์ด๊ธฐํํ ๋ ์ค์ํ๋ค.
- activation variances์ back-propagated gradients variance๊ฐ ๋คํธ์ํฌ์์ ์ ์๋๋ก ์์ง์ผ ์ ์๋ ์์ ํ ์ด๊ธฐํ ์ ์ฐจ๋ฅผ ์ ์ํ๋ค. ์ด๊ฒ์ ์ ๊ทํ๋ ์ด๊ธฐํ๋ผ๊ณ ๋ถ๋ฅธ๋ค.
- ์ ์ด๋ฏธ์ง : hyperbolic tangent activation์ ์ฌ์ฉํ activation value๋ฅผ ์ ๊ทํํ ํ์คํ ๊ทธ๋จ, ํ์ค ์ด๊ธฐํ ๋ฐฉ๋ฒ
- ์๋ ์ด๋ฏธ์ง: ์ ๊ทํ๋ ์ด๊ธฐํ ๋ฐฉ๋ฒ
Back-propagated Gradients During Learning
- ์ ์ด๋ฏธ์ง : hyperbolic tangent activation์ ์ฌ์ฉํ ์ ๊ทํ๋ Back-propagated gradients ํ์คํ ๊ทธ๋จ , ํ์ค ์ด๊ธฐํ ๋ฐฉ๋ฒ
- ์๋ ์ด๋ฏธ์ง : ์ ๊ทํ๋ ํ์คํ
- Fig7์์ ๋ณผ ์ ์๋ฏ์ด ํ์ค ์ด๊ธฐํ ์ดํ์ ์งํ๋๋ ํ์ต ์ด๊ธฐ์ back-propagated gradient์ ๋ถ์ฐ์ด ์๋๋ก ์ ํ๋จ์ ๋ฐ๋ผ ๋ ์์์ง๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ํ์ง๋ง ์ด๋ฌํ ๊ฒฝํฅ์ด ํ์ตํ๋ ๋์ ์์ฃผ ๋น ๋ฅด๊ฒ ๋ฐ๋๋ค.
- ์ ๊ทํ๋ ์ด๊ธฐํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ค๋ฉด ๊ทธ๋ฌํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค.
Error Curves and Conclusions
- ์ ์ด๋ฏธ์ง : hyperbolic tangent๋ฅผ activation function์ผ๋ก ์ฌ์ฉํ๊ณ , ํ์ค ์ด๊ธฐํ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ฌ ์ด๊ธฐํํ ํ weight gradient๋ฅผ ์ ๊ทํ ํ ํ์คํ ๊ทธ๋จ.
- ์๋ ์ด๋ฏธ์ง : ์ ๊ทํ๋ ์ด๊ธฐํ ๊ธฐ๋ฒ์ ๊ฐ๊ฐ ๋ค๋ฅธ ๋ ์ด์ด์ ์ฌ์ฉํ ๊ฒ
- ์ด ๊ฒฐ๊ณผ๋ activation๊ณผ ์ด๊ธฐํ์ ์ ํ์ ๋ํ ํจ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋ค. "N"์ ์ ๊ทํ๋ ์ด๊ธฐํ๋ฅผ ์ฌ์ฉํ๋ค๋ ๊ฒ์ ์๋ฏธ
- ๊ฒฐ๋ก
- sigmoid๋ hyperbolic tangent์ ํ์ค ์ด๊ธฐํ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ ์ ํต์ ์ธ ์ธ๊ณต ์ ๊ฒฝ๋ง์ ์ํ๊ฐ ์์ข๋ค. ์๋ ด ์๋๊ฐ ๋๋ฆฌ๊ณ , local minima์ ์ทจ์ฝํ๋ค
- softsign์ ์ฌ์ฉํ ์ธ๊ณต ์ ๊ฒฝ๋ง์ tanh ๋ณด๋ค ์ด๊ธฐํ ์ ์ฐจ์ ๋ ๊ฐ์ธํ๋ฐ, ๋ ๋ถ๋๋ฌ์ด ๋น์ ํ์ฑ ๋๋ฌธ์ผ ๊ฒ์ด๋ค.
- tanh ๋คํธ์ํฌ์ ๊ฒฝ์ฐ, ์ ์๋ ์ ๊ทํ ์ด๊ธฐํ ๋ฐฉ๋ฒ์ ๊ฝค ์ ์ฉํ๊ฒ ์ฌ์ฉ ๊ฐ๋ฅํ๋ค. ๋ ์ด์ด ๊ฐ ๋ณํ์ด ํ์ฑํ(์๋ก ํ๋ฅด๋), gradient(๋ค๋ก ํฅํ๋) ํฌ๊ธฐ๋ฅผ ์ ์งํ๊ธฐ ๋๋ฌธ์ด๋ค.