
Batch Normalization : Accelerating Deep Network Training byReducing Internal Covariate Shift
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] ABSTRACT DNN์ ํ๋ จ์ ์ด์ layer์ ๋งค๊ฐ ๋ณ์๊ฐ ๋ณ๊ฒฝ๋จ์ ๋ฐ๋ผ ํ๋ จ ์ค์ ๊ฐ layer์ ์ธํ ๋ถํฌ๊ฐ ๋ณ๊ฒฝ๋๋ค ์ด๋ ๋ฎ์ learning rate์ ์ ์คํ ํ๋ผ๋ฏธํฐ ์ด๊ธฐํ๋ฅผ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ ํ๋ จ ์๋๋ฅผ ๋ฆ์ถ๊ณ ๋น์ ํ์ฑ์ ๊ฐ์ง ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๊ฒ์ด ์ด๋ ต๋ค ์ด ๋ฌธ์ ๋ฅผ layer์ ์ ๋ ฅ์ normalization์ ํตํด ํด๊ฒฐํ๋ค. ๊ฐ mini batch์ ๋ํ normalization์ ์ํํ๋ ๊ฒ์์ ๋ง์ ์ฅ์ ์ ๊ฐ์ง๋ค. ๋ฐฐ์น normalization์ ํตํด ํจ์ฌ ๋ ๋์ ํ์ต ์๋๋ก ์ฌ์ฉํ๊ณ ์ด๊ธฐํ์ ๋ ๋ฏผ๊ฐํ๋ค. Introduction ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(SGD)๋ ์ฌ์ธต ๋คํธ์ํฌ๋ฅผ ํ๋ จํ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์ ์ฆ๋์๋ค. SGD๋ ํ์ต์ ๊ฐ ๋จ๊ณ๋ณ๋ก ์งํํ๋ฉฐ, ๋ฏธ๋ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ..