[๋ ผ๋ฌธ๋ฆฌ๋ทฐ]
ABSTRACT
- ์ด์ ์ ์ฐ๊ตฌ๋ค์ Convolutional neural network์์ "smaller-norm-less-important" ๊ธฐ์ค์ด prune filter์ ์ ์ฉ๋์๋ค.
- ๋ณธ ๋
ผ๋ฌธ์์, norm-based ๊ธฐ์ค์ ๋ถ์ํ๊ณ , ๋ ๊ฐ์ง ์๊ตฌ์ฌํญ์ด ํญ์ ์ถฉ์กฑํ์ง ์๋๋ค๋ ๊ฒ์ ์ง์ ํ๋ค.
- 1) Filter๋ค์ ํ์คํธ์ฐจ๊ฐ ์ปค์ผํ๋ค.
- 2) Filter์ minimum-norm(์ต์ ํ์ค)์ ์์์ผํ๋ค. -> 0์ ๊ฐ๊น์์ผ ํ๋ค.
- ์ ๋๊ฐ์ง ์๊ตฌ ์ฌํญ์ ๊ด๊ณ์์ด ๋ชจ๋ธ์ ์์ถํ๋ ์๋ก์ด Filter Pruning ๋ฐฉ๋ฒ(Filter Pruning via Gemotric Median, FPGM)์ ์ ์ํ๋ค.
- FPGM์ ์ค๋ณต ํํฐ๋ฅผ ๊ธฐ์ค์ผ๋ก Pruning์ ์งํํ๋ค.
- ResNet101 ๊ธฐ์ค, CIFAR-10์์ 52%, ILSVRC2012์์ 42%์ด์์ FLOP์ ๊ฐ์์์ผฐ๋ค.
Introduction
- ๋ ๊น๊ณ , ๋์ deep CNN ์ํคํ ์ณ๋ ์ปดํจํฐ ๋น์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ํ๋ธ๋ค. ํ์ง๋ง ๋ง์ ์ปดํจํ ์ ๋น์ฉ์ด ๋ค์ด๊ฐ ๋ฟ๋ง ์๋๋ผ, ๋ชจ๋ฐ์ผ ์ฅ์น์ ๋ฐฐ์นํ๋ ๊ฒ์ ์ด๋ ต๊ฒ ๋ง๋ ๋ค.
- ์ต๊ทผ Pruning์ ๊ฐ๋ฐ์ ๋ ๊ฐ์ง ์นดํ
๊ณ ๋ฆฌ๋ก ๋๋ ์ง ์ ์๋ค.
- 1) Weight Pruning : unstructured sparsities๋ฅผ ์ผ๊ธฐํ ์ ์๋ ํํฐ์ ๊ฐ์ค์น๋ฅผ ์ญ์ ํ๋ ๋ฐฉ๋ฒ
- -> ๋์ ํจ์จ์ฑ์ ๋ณด์ด๊ธฐ ์ด๋ ค์
- 2) Filter Pruning : ๋ค์ด๋ ํธ๋ก ์ ํํ ํํฐ ์ ์ฒด๋ฅผ ์์ ๊ณ , ๋ชจ๋ธ์ ์๋ ๊ตฌ์กฐ๋ก ๋จ๊ฒจ๋๋ ๋ฐฉ๋ฒ
- ๋ฐ๋ผ์, Filter Pruning์ด Networks๋ฅผ accelerationํ๊ณ model size๋ฅผ ๊ฐ์์ํค๊ธฐ ์ํด ๋์ฑ ์ ํธ๋๋ค.
- 1) Weight Pruning : unstructured sparsities๋ฅผ ์ผ๊ธฐํ ์ ์๋ ํํฐ์ ๊ฐ์ค์น๋ฅผ ์ญ์ ํ๋ ๋ฐฉ๋ฒ
- ๊ธฐ์กด์ Pruning์ "smaller-norm-less-important"์ ๊ธฐ์ค์ ๋ฐ๋ผ Filter Pruning์ ์งํํ๋ค. Fig 1(a)์ ๊ฐ์ด ๋ชจ๋ธ์์ Filter์ norm์ ๊ณ์ฐํ ํ ํน์ threshold T๋ฅผ ์ด์ฉํ์ฌ ๋ ์์ Filter๋ฅผ ์ ํํ์๋ค.
- ๋ ๊ฐ์ง ์ ์ ์กฐ๊ฑด์ ๋ง์กฑ์ค๋ฝ๊ฒ ์ถฉ์กฑํ ๋ ์ด์์ ์ธ norm ๋ถํฌ๋ Fig 1์ ํ๋์ ๊ณก์ ์ผ๋ก ํ์๋๋ค. ํ์ง๋ง ํญ์ ์ฌ์ค์ธ ๊ฒ์ ์๋๋ค.
- ์๋์ ์ผ๋ก ๊ธฐ์ฌ๋๊ฐ ๋ฎ์ Filter๋ฅผ Pruningํ๋ ๋ฐฉ๋ฒ๊ณผ ๋ฌ๋ฆฌ FPGM์ ๋์ฒด ๊ฐ๋ฅํ ๊ธฐ์ฌ๋๊ฐ ๊ฐ์ฅ ๋์ Filter๋ฅผ ์ ํํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก Filter์ Geometric Median์ ๊ณ์ฐํ๋ค.
- ์ด 3 ๊ฐ์ง ๊ธฐ์ฌ๊ฐ ์๋ค.
- (1) ์ด์ ์ ์๋์ ์ผ๋ก ๋ ์ค์ํ filter๋ฅผ pruneํ๋ norm-based criterion์ ๋ถ์ํ๊ณ , ํ๊ณ๋ฅผ ์ด๋ํ๋ ๋ ๊ฐ์ง ๊ธฐ๋ณธ ์๊ตฌ ์ฌํญ์ ๋ํด ์์ธํ ์ค๋ช ํ๋ค.
- (2) norm-based criterion์ด ์ถฉ์กฑ๋์ง ๋ชปํ์ ๋ ์ฌ์ ํ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ์ค๋ณต ์ ๋ณด๋ฅผ ํฌํจํ ๋์ฒด ๊ฐ๋ฅํ filter๋ฅผ ์ ๊ฑฐํ๊ธฐ ์ํ FPGM์ ์ ์ํ๋ค.
- (3) ๋ ๋ฒค์น๋งํฌ๋ FPGM์ ํจ๊ณผ์ ํจ์จ์ฑ์ ๋ณด์ฌ์ค๋ค.
Related Works
- Weight Pruning์ ํญ์ unstructured model์ ์ด๋ํ์ฌ BLAS library๋ฅผ ๋ฐฐํฌํ๊ธฐ๊ฐ ์ด๋ ค์ด ๋ฐ๋ฉด Filter Pruning์ ์ฅ์น์ ์ฌ์ฉ ์ฉ๋์ ์ค์ผ๋ฟ๋ง ์๋๋ผ, ๊ณ์ฐ ๋น์ฉ์ ์ค์ฌ ์ถ๋ก ์ ๊ฐ์ํํ๋ค.
- ๋ณธ ๋
ผ๋ฌธ์ ์ฅ์ ์ ์ ์ํ๋ค.
- (1) Batch normalization operator์์ sparsity์ ์ ์ฉํ๋๋ฐ ๋ ๋ง์ ๊ฐ์ ์ ๊ฐ๋๋ค
- (2) ์ฑ๋์ Pruningํ ํ, ์ฑ๋ฅ ์ ํ๋ฅผ ์ค์ด๊ธฐ ์ํด fine-tuning์ด ํ์ํ๋ฐ ๋ ผ๋ฌธ์์์ ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ ์ธ training ์ ์ฐจ์ ๊ฒฐํฉํ๊ธฐ ๋๋ฌธ์ ์ถ๊ฐ์ ์ธ fine-tuning์ด ํ์ํ์ง ์๋ค.
- (3) Scaling factor์ gradient ๊ณ์ฐ์ด ํ์ํ๋ฐ, ์ด ๊ณผ์ ์์ ๋ง์ cost๋ ๋ถ๊ฐํผํ๋ค. ํ์ง๋ง ๋ ผ๋ฌธ์์์ ์ ๊ทผ ๋ฐฉ์์ Scaling factor์ gradient์ ๊ณ์ฐํ์ง ์๊ณ ์ ๊ฒฝ๋ง์ ๊ฐ์ํํ ์ ์๋ค.
Methodology
- $ N_{i}, N_{i+1} $ ์ input channel์ ์ซ์์ $ i $ ๋ฒ์งธ convolution layer์ ๋ํ output channel์ ๋ํ๋ด๊ธฐ ์ํด ์ฌ์ฉํ๋ค.
- $ F_{i, j}~ $๋ $ i $๋ฒ์งธ layer์ $ j $๋ฒ์งธ filter๋ฅผ ๋ํ๋ธ๋ค. ๊ทธ๋ฆฌ๊ณ Filter $ F_{i, j} $์ ์ฐจ์์ $ R^{N_{i} \times K \times K} $๋ก ๋ํ๋ธ๋ค. $ K $๋ ๋คํธ์ํฌ์ ์ปค๋ ์ฌ์ด์ฆ์ด๋ค.
- ๋คํธ์ํฌ $ W^{(i)} $์ $ i_{th} $ layer๋ $ {F_{i,j},1 <= j <= N_{i+1} } $ ๋ก ๋ํ๋ผ ์ ์๋ค.
Analysis of Norm-based Criterion
- ์ด๋ก : ํ์ค์ ์ธ norm ๋ถํฌ / ํ๋ : ์ด์์ ์ธ norm ๋ถํฌ
- (a) : Small Norm Deviation : Filter Norm ๋ถํฌ์ ํธ์ฐจ๊ฐ ๋๋ฌด ์์ ์ ์์ผ๋ฉฐ, Fig 2-(a)์ฒ๋ผ ์์ ๊ฐ๊ฒฉ์ผ๋ก ์ง์ค๋๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค. ํ์ค ํธ์ฐจ๊ฐ ์์ผ๋ฉด ๊ฒ์ ๊ณต๊ฐ์ด ์์์ง๊ธฐ ๋๋ฌธ์ ์ ๊ฑฐํ ํํฐ๋ฅผ ์ ํํ๊ธฐ์ ์ ํฉํ ์๊ณ๊ฐ์ ์ฐพ๊ธฐ ์ด๋ ค์์ง๋ค.
- (b) : Large Minimum Norm : Fig2-(b)์ ๊ฐ์ด minimum norm์ ๊ฐ์ง๋ filter๋ ์์ง ์์ ์ ์๋ค. ์ด ์กฐ๊ฑด์์ ๊ฐ์ฅ ์ค์ํ์ง ์๋ค๊ณ ํ๋จ๋๋ ํํฐ๋ ๋คํธ์ํฌ์ ์๋นํ ๊ธฐ์ฌํ๋ฏ๋ก ๋ชจ๋ ํํฐ๊ฐ ๋งค์ฐ ์ ์ฉํ๋ค. ๋ฐ๋ผ์ minimum norm ๊ฐ์ผ๋ก filter๋ฅผ ์ ๊ฑฐํ๋ฉด ๋คํธ์ํฌ์ ๋ถ์ ์ ์ธ ์ํฅ์ ๋ฏธ์น๋ค.
Norm Statistic in Real Scenarios
- Fig 3์ ์ด๋ก์ ์์ง ์ ์ ๊ฐ๊ฐ์ norm distribution์ ๋ณด์ฌ์ค๋ค. ๊ทธ๋ฆฌ๊ณ ํ๋์ ๊ณก์ ์ ๋๋ค ๋ณ์์ ํ๋ฅ ๋ฐ๋ ํจ์๋ฅผ ์ถ์ ํ๋ ์ปค๋ ๋ถํฌ ์ถ์ ์น(KDE)๋ฅผ ๋ํ๋ธ๋ค.
- Small Norm Deviation in Network : Fig3-(b)์ฒ๋ผ $ 10^{-6} $์ ์ง์ค๋ ๋ง์ ์์ ํํฐ๊ฐ ์๋ค. ๊ทธ๋ฆฌ๊ณ 3(c)์ฒ๋ผ Norm์ ๊ฐ๊ฒฉ ๋ฒ์๊ฐ ์ฝ 0.3์ผ๋ก ์ฒซ ๋ฒ์งธ layer์ ๊ฐ๊ฒฉ๋ณด๋ค ํจ์ฌ ์๋ค. Fig3-(g)์ ๋ํ๋๋ฐ์ ๊ฐ์ด ๋ง์ง๋ง layer์ ๊ฒฝ์ฐ, ๋๋ถ๋ถ์ ํํฐ๊ฐ ๋ชฐ๋ ค์๋ค. -> ๋๋ฌด ์กฐ๋ฐํ๊ฒ ๋ถํฌ๋์ด ์์ผ๋ฏ๋ก ์ค์ํ ํํฐ์ ๋ค๋ฅธ ํํฐ์ ๊ตฌ๋ณํ๊ธฐ ์ํ ์ ์ ํ ์๊ณ๊ฐ์ ์ ํํ๊ธฐ ์ด๋ ต๋ค.
- Large Minimum Norm in Network : Fig3-(g)์ Filter ์ต์ Norm์ด ์ฝ 0.8์ด๋ฉฐ, ์ด๋ ์ฒซ ๋ฒ์งธ layer์ ๋น๊ตํ ๋ ํฌ๋ค.(Fig3-(e)) ์ด๋ฌํ ์ํฉ์์ ์ต์ Norm์ ๊ฐ์ง ํํฐ๋ ์๋์ ์ผ๋ก ๋ ์ค์ํ์ง๋ง ์ฌ์ ํ ๋คํธ์ํฌ์์ ์ค์ํ ๊ธฐ์ฌ๋ฅผ ํ๋ค.
Filter Pruning via Geometric Median
- Norm-based criterion์ ์ ๊ฑฐํ๊ธฐ ์ํด geometric median์์ ์๊ฐ์ ์ป์ ์๋ก์ด filter pruning ๋ฐฉ๋ฒ์ ์ ์ํ๋ค.
- ๊ฐ n๊ฐ์ ์ ์ ์งํฉ์ด ์ฃผ์ด์ง๋ฉด, ์ ํด๋ฆฌ๋ ๊ฑฐ๋ฆฌ์ ํฉ์ ์ต์ํ ํ๋ ์ x๋ฅผ ์ฐพ๋๋ค.
- Geometric median์ ์ ํด๋ฆฌ๋ ๊ณต๊ฐ์ ๋ฐ์ดํฐ์ ๋ํ ์ค์ฌ์ฑ์ ๊ฐ๋ ฅํ ์ถ์ ์น์ด๊ธฐ ๋๋ฌธ์, $ F_{i}^{GM} $ ์ ์ฌ์ฉํ์ฌ ๋จ์ผ i๋ฒ์งธ layer ๋ด์ ๋ชจ๋ ํํฐ์ ๊ณตํต ์ ๋ณด๋ฅผ ์ป๋๋ค.
- i ๋ฒ์งธ layer์์ ์ผ๋ถ ํํฐ๊ฐ ํด๋น layer์ Geometric median๊ณผ ๊ฐ๊ฑฐ๋, ์ ์ฌํ ๊ฐ์ ๊ฐ์ง๋ ๊ฒฝ์ฐ :
- $ F_{i, j*} $ ํํฐ๋ ๋์ผํ layer์ ๋ค๋ฅธ ํํฐ๋ก ํํ๋ ์ ์์ผ๋ฏ๋ก ์ด ํํฐ๋ค์ ์ ๊ฑฐํ๋ ๊ฒ์ ๋คํธ์ํฌ ์ฑ๋ฅ์ ๋ถ์ ์ ์ธ ์ํฅ์ ๋ฏธ์น๊ธฐ ์๋๋ค.
- $ F_{i}^{GM} $์ i๋ฒ์งธ layer์ ํํฐ ์ค ๊ฐ์ ์ต์๋ก ํ๊ฒ ํ๋ ๊ฐ์ด๋ค.
- g(x)๋ฅผ ์๋ก ์ ์ํ์ฌ ์๋ก์ด pruning ์๊ณ ๋ฆฌ์ฆ์ ์๊ฐํ๋ค๋ฉด ์์ ๊ฐ๋ค.
Experiments
- CIFAR-10, ILSVRCC2012 ๋ฐ์ดํฐ์ ์ ์ฌ์ฉ
- FPGM๋ง ์ฌ์ฉํ์ ๋ "FPGM only", FPGM๊ณผ norm-based criterion์ด ๊ฒฐํฉํ ๊ธฐ์ค์ "FPGM-mix"๋ก ํ์
- "FPGM 40%"๋ layer์ 40% ํํฐ๊ฐ FPGM์ผ๋ก๋ง ์ ํ๋์์์ ์๋ฏธํ๋ค.
Conclusion
- ๋ณธ ๋ ผ๋ฌธ์์๋ norm-based filter pruning์ ๋ํ ๊ฐ๋ณธ ์๊ตฌ ์ฌํญ์ ์์ธํ ์ค๋ช ํ๊ณ , ๊ทธ ํ๊ณ๋ฅผ ์ง์ ํ๋ค.
- ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด FPGM์ด๋ผ๋ Geometric Median์ ๊ธฐ๋ฐ์ผ๋ก ํ๋ ์๋ก์ด Filter Pruing์ ์ ์ํ๋ค.
'Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Sparse Token Transformer With Attention Back Tracking (2) | 2023.04.03 |
---|---|
TOKEN MERGING: YOUR VIT BUT FASTER (0) | 2023.03.28 |
Convolutional Neural Network Pruning: A Survey (0) | 2022.12.30 |
Understanding the difficulty of training deep feedforward neural networks (0) | 2022.12.28 |
Batch Normalization : Accelerating Deep Network Training byReducing Internal Covariate Shift (0) | 2022.12.27 |