Paper Review
[๋
ผ๋ฌธ๋ฆฌ๋ทฐ] ICCV 2021 ABSTRACT ์ ์๋ค์ ๊ธฐ์กด ํ
์คํธ์ ๋จ์ด์ ์ด๋ฏธ์ง์ ํฝ์
ํด์๋์์ ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ํด๊ฒฐํ๊ณ ์ Shifted windows๋ก ํํ์ด ๊ณ์ฐ๋๋ ๊ณ์ธต์ ์ธ ํธ๋์คํฌ๋จธ๋ฅผ ์ ์ํ๋ค. Shifted windows ๋ฐฉ์์ self-attention ๊ณ์ฐ์ ์ค์ฒฉ๋์ง ์๋๋ก ์ ํํจ์ผ๋ก์จ ํจ์จ์ฑ์ ๋์ด๋ ๋์์ cross-windows connetion์ ํ์ฉํจ์ผ๋ก์จ ํจ์จ์ฑ์ ๋์ธ๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๋ค์ํ ์ค์ผ์ผ๋ก ๋ชจ๋ธ๋งํ ์ ์๋ ์ ์ฐ์ฑ์ ๊ฐ์ง๋ฉฐ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๊ด๋ จํ์ฌ ์ ํ ๊ณ์ฐ ๋ณต์ก์ฑ์ ๊ฐ์ง๊ณ ์๋ค. Introduction (a)๋ ๋
ผ๋ฌธ์์ ์ ์ํ Swin Transformer์ ๊ตฌ์กฐ์ด๋ค. ๊ฐ ๋ก์ปฌ ์๋์ฐ(๋นจ๊ฐ์ ํ์) ๋ด์์๋ง ์์ฒด ์ฃผ์ ๊ณ์ฐ์ผ๋ก ์ธํด ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์
๋ ฅํ๊ธฐ ์ํ ์ ํ..
Paper Review
[๋
ผ๋ฌธ๋ฆฌ๋ทฐ] ICLR 2023 ABSTRACT ๋ณธ ๋
ผ๋ฌธ์์ ์ ์๋ค์ Transformer์ attention operations์ ๋ํ ๋ณต์ก๋๋ฟ๋ง ์๋๋ผ linear layers๋ฅผ ์ค์ผ ์ ์๋ Token Pruning์ ํฌ์ปค์ค๋ฅผ ๋ง์ท๋ค. ์ด์ ์ work๋ค์ ์ถํ layer์ attention์ ์ํฅ์ ๋ํด ๊ณ ๋ ค ์์ด feed-forward ๋จ๊ณ์์ token์ ์ ๊ฑฐํ์๋ค. ์ด๋ฌํ ์ด์๋ฅผ ํด๊ฒฐํ๊ณ ์ ์ต์ข
์์ธก์ ํฐ ์ํฅ์ ๋ฏธ์น๋ ํ ํฐ์ ๋ณด์กดํ๊ธฐ ์ํด output์์ input๊น์ง ๊ฐ attention์ ์ค์์ฑ์ back-tracking ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. NLP์ CV์์์ ํจ์จ์ฑ์ ์คํ์ ์ผ๋ก ์
์ฆํ์๋ค. Introduction Transformer์ Pruning ์ ๊ทผ ๋ฐฉ๋ฒ์ ์ฃผ๋ก ๋ถํ์ํ ๋ชจ๋ธ ๊ฐ..
Paper Review
[๋
ผ๋ฌธ๋ฆฌ๋ทฐ] ICLR 2023 notable top 5% ABSTRACT ํ๋ จํ ํ์ ์์ด ๊ธฐ์กด ViT ๋ชจ๋ธ์ ์ฒ๋ฆฌ๋์ ๋๋ฆด์ ์๋ ๊ฐ๋จํ ๋ฐฉ๋ฒ ์ผ๋ฐ์ ์ด๊ณ ๊ฐ๋ฒผ์ด ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์ ์ฌํ ํ ํฐ๋ค์ ์ ์ง์ ์ผ๋ก ํฉ์น๋ค. ToMe(Token Merging)์ training๋์ ์ฝ๊ฒ ์ ์ฉ์ด ๊ฐ๋ฅํ๋ค. Introduction Transformer์ ํ ํฐ์ Run-time์ Pruningํ์ฌ ๋ ๋น ๋ฅธ ๋ชจ๋ธ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ถ์ผ๊ฐ ๋ฑ์ฅ Token Pruning์ ๋๋ถ๋ถ์ Training ์๋๋ฅผ ๋์ด๊ธฐ ์ํด ์ ์ฉํ ์ ์๋ค. ๋ฐ๋ผ์ Token์ Pruningํ๋ ๊ฒ ๋ณด๋ค ๋ ๋์ ๋ฐฉ์์ธ combine์ ์ ์ฉํ์ฌ Token Merging ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. ๋ณธ ๋
ผ๋ฌธ์์์ custome matching algorithm..
Paper Review
[๋
ผ๋ฌธ๋ฆฌ๋ทฐ] ABSTRACT ์ด์ ์ ์ฐ๊ตฌ๋ค์ Convolutional neural network์์ "smaller-norm-less-important" ๊ธฐ์ค์ด prune filter์ ์ ์ฉ๋์๋ค. ๋ณธ ๋
ผ๋ฌธ์์, norm-based ๊ธฐ์ค์ ๋ถ์ํ๊ณ , ๋ ๊ฐ์ง ์๊ตฌ์ฌํญ์ด ํญ์ ์ถฉ์กฑํ์ง ์๋๋ค๋ ๊ฒ์ ์ง์ ํ๋ค. 1) Filter๋ค์ ํ์คํธ์ฐจ๊ฐ ์ปค์ผํ๋ค. 2) Filter์ minimum-norm(์ต์ ํ์ค)์ ์์์ผํ๋ค. -> 0์ ๊ฐ๊น์์ผ ํ๋ค. ์ ๋๊ฐ์ง ์๊ตฌ ์ฌํญ์ ๊ด๊ณ์์ด ๋ชจ๋ธ์ ์์ถํ๋ ์๋ก์ด Filter Pruning ๋ฐฉ๋ฒ(Filter Pruning via Gemotric Median, FPGM)์ ์ ์ํ๋ค. FPGM์ ์ค๋ณต ํํฐ๋ฅผ ๊ธฐ์ค์ผ๋ก Pruning์ ์งํํ๋ค. ResNet101 ๊ธฐ์ค, CI..
Paper Review
[๋
ผ๋ฌธ๋ฆฌ๋ทฐ] ABSTRACT Deep Convolutional neural networks๋ ์ง๋ ๋ช ๋
๋์ ๋ค์ํ ๋ถ์ผ์์ ๋ฐ์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. Deep Convolutional neural networks์ ๋ง์ ๋งค๊ฐ๋ณ์์ float operation์ผ๋ก ์ธํด ์ฌ์ ํ ์ด๋ ค์ด ๊ณผ์ ๋ก ๋จ์์๋ค. ๋ฐ๋ผ์ ์ด๋ฌํ Convolutional neural network์ Pruning์์
์ ๊ด์ฌ์ด ๋์์ง๊ณ ์๋ค. Pruning ๋ฐฉ๋ฒ, Training ์ ๋ต, ์ถ์ ๊ธฐ์ค์ 3๊ฐ์ง ์ฐจ์์ ๋ฐ๋ผ ๋ถ๋ฅ๋ ์ ์๋ค. Key Words : Convolutional neural networks, machine intelligence, pruning method, training strategy, estimation citer..
Paper Review
[๋
ผ๋ฌธ๋ฆฌ๋ทฐ] ABSTRACT Random Initialization์ ์ฌ์ฉํ ์ผ๋ฐ์ ์ธ Gradient-descent ์๊ณ ๋ฆฌ์ฆ์ด Deep neural network์์ ์ฝํ ์ฑ๋ฅ์ ๋ด๋๊ฐ Random Initialization์ ์ ์ฉํ Logistic sigmoid ํ์ฑํ ํจ์๋ ํ๊ท ๊ฐ ๋๋ฌธ์ Deep network์ ์ ํฉํ์ง ์๋ค. ์์ layer๋ฅผ ํฌํ(saturation)ํ๊ฒ ๋ง๋ ๋ค ๋ณธ ๋
ผ๋ฌธ์์๋ ์๋นํ ๋น ๋ฅธ ์๋ ด์ ๊ฐ์ ธ์ค๋ ์๋ก์ด Initialization Scheme๋ฅผ ๋์
ํ๋ค. Deep Neural Networks ๋ฅ๋ฌ๋์ ์ถ์ถํ ํน์ง์ ์ด์ฉํ์ฌ ํน์ง ๊ณ์ธต์ ํ์ตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ์ฌ ์งํํ๋ค. ์ถ์ถํ ํน์ง : ๋ฎ์ ์์ค์ Feature๋ค์ ํฉ์ฑ์ ํตํด ๋ง๋ค์ด์ง ๋์ ์์ค์ Layer๋ก ๋ถํฐ ์ถ..
Paper Review
[๋
ผ๋ฌธ๋ฆฌ๋ทฐ] ABSTRACT DNN์ ํ๋ จ์ ์ด์ layer์ ๋งค๊ฐ ๋ณ์๊ฐ ๋ณ๊ฒฝ๋จ์ ๋ฐ๋ผ ํ๋ จ ์ค์ ๊ฐ layer์ ์ธํ ๋ถํฌ๊ฐ ๋ณ๊ฒฝ๋๋ค ์ด๋ ๋ฎ์ learning rate์ ์ ์คํ ํ๋ผ๋ฏธํฐ ์ด๊ธฐํ๋ฅผ ์๊ตฌํ๊ธฐ ๋๋ฌธ์ ํ๋ จ ์๋๋ฅผ ๋ฆ์ถ๊ณ ๋น์ ํ์ฑ์ ๊ฐ์ง ๋ชจ๋ธ์ ํ๋ จ์ํค๋ ๊ฒ์ด ์ด๋ ต๋ค ์ด ๋ฌธ์ ๋ฅผ layer์ ์
๋ ฅ์ normalization์ ํตํด ํด๊ฒฐํ๋ค. ๊ฐ mini batch์ ๋ํ normalization์ ์ํํ๋ ๊ฒ์์ ๋ง์ ์ฅ์ ์ ๊ฐ์ง๋ค. ๋ฐฐ์น normalization์ ํตํด ํจ์ฌ ๋ ๋์ ํ์ต ์๋๋ก ์ฌ์ฉํ๊ณ ์ด๊ธฐํ์ ๋ ๋ฏผ๊ฐํ๋ค. Introduction ํ๋ฅ ์ ๊ฒฝ์ฌ ํ๊ฐ๋ฒ(SGD)๋ ์ฌ์ธต ๋คํธ์ํฌ๋ฅผ ํ๋ จํ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ผ๋ก ์
์ฆ๋์๋ค. SGD๋ ํ์ต์ ๊ฐ ๋จ๊ณ๋ณ๋ก ์งํํ๋ฉฐ, ๋ฏธ๋ ๋ฐฐ์น ํฌ๊ธฐ๋ฅผ..
Paper Review
[๋
ผ๋ฌธ๋ฆฌ๋ทฐ] ABSTRACT ์ด์ ์ ํ์ต ๋ฐฉ๋ฒ๋ณด๋ค ๊น์ ๋คํธ์ํฌ์ ํ์ต์ ์ข ๋ ์ฉ์ดํ๊ฒ ํ๊ธฐ ์ํ ํ๋ ์์ํฌ๋ฅผ ์ ์ํ๋ค. Residual networks๊ฐ ์ต์ ํํ๊ธฐ ๋ ์ฝ๊ณ , Depth๊ฐ ์ฆ๊ฐ๋ ๋ชจ๋ธ์์๋ ์๋นํ ์ฆ๊ฐ๋ ์ ํ๋๋ฅผ ์ป์ ์ ์์์ ๋ณด์ฌ์ค๋ค. INTRODUCTION Is learning better networks as easy as stacking more layers? ๋ ๋์ ๋คํธ์ํฌ๋ฅผ ํ์ตํ๋ ๊ฒ์ด ๋ ๋ง์ ๊ณ์ธต์ ์๋ ๊ฒ๋งํผ ์ฌ์ด๊ฐ? ์ ๊ทธ๋ฆผ์์ layer๊ฐ ๋ ๊น์ ๋นจ๊ฐ์์ด error๊ฐ ๋ ๋์ ๊ฒ์ ํ์ธํ ์ ์๋ค. layer๊ฐ ๊น์ด์ง์๋ก gradient๊ฐ vanishing/exploding ํ๋ ๋ฌธ์ ๊ฐ ์กด์ฌํ๋ค. ์ด ๋ฌธ์ ๋ normalized initialization, b..