[๋ ผ๋ฌธ๋ฆฌ๋ทฐ]
ICCV 2021
ABSTRACT
- ์ ์๋ค์ ๊ธฐ์กด ํ ์คํธ์ ๋จ์ด์ ์ด๋ฏธ์ง์ ํฝ์ ํด์๋์์ ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ํด๊ฒฐํ๊ณ ์ Shifted windows๋ก ํํ์ด ๊ณ์ฐ๋๋ ๊ณ์ธต์ ์ธ ํธ๋์คํฌ๋จธ๋ฅผ ์ ์ํ๋ค.
- Shifted windows ๋ฐฉ์์ self-attention ๊ณ์ฐ์ ์ค์ฒฉ๋์ง ์๋๋ก ์ ํํจ์ผ๋ก์จ ํจ์จ์ฑ์ ๋์ด๋ ๋์์ cross-windows connetion์ ํ์ฉํจ์ผ๋ก์จ ํจ์จ์ฑ์ ๋์ธ๋ค.
- ์ด๋ฌํ ๋ฐฉ์์ ๋ค์ํ ์ค์ผ์ผ๋ก ๋ชจ๋ธ๋งํ ์ ์๋ ์ ์ฐ์ฑ์ ๊ฐ์ง๋ฉฐ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๊ด๋ จํ์ฌ ์ ํ ๊ณ์ฐ ๋ณต์ก์ฑ์ ๊ฐ์ง๊ณ ์๋ค.
Introduction
- (a)๋ ๋ ผ๋ฌธ์์ ์ ์ํ Swin Transformer์ ๊ตฌ์กฐ์ด๋ค. ๊ฐ ๋ก์ปฌ ์๋์ฐ(๋นจ๊ฐ์ ํ์) ๋ด์์๋ง ์์ฒด ์ฃผ์ ๊ณ์ฐ์ผ๋ก ์ธํด ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์ ๋ ฅํ๊ธฐ ์ํ ์ ํ ๊ณ์ฐ ๋ณต์ก์ฑ์ ๊ฐ๋๋ค.
- ๋ณธ ๋ ผ๋ฌธ์์๋ NLP ๋ฐ CNN์ด ์๊ฐ์์ ํ๋ ๊ฒ์ฒ๋ผ ์ปดํจํฐ ๋น์ ์ ์ํ backbone ์ญํ ์ ํ ์ ์๋๋ก ํธ๋์คํฌ๋จธ์ ์ ์ฉ ๊ฐ๋ฅ์ฑ์ ํ์ฅํ๊ณ ์ ํ๋ค.
- ๊ธฐ์กด์ ํธ๋์คํฌ๋จธ๋ ํ ํฐ์ ๋ชจ๋ ๊ณ ์ ๋ ์ค์ผ์ผ๋ก ์ด๋ฌํ vision task ์ ํฉํ์ง ์์ ํน์ฑ์ด๋ผ๊ณ ์ ์๋ ๋งํ๋ค.
๋ ๋ค๋ฅธ ๋ฌธ์ ์ ์ ํ ์คํธ ๋ถ๋ถ์ ๋จ์ด์ ๋นํด ์ด๋ฏธ์ง์ ํฝ์ ํด์๋๊ฐ ํจ์ฌ ๋๋ค๋ ๊ฒ์ด๋ค. ํฝ์ ์์ค์์ ๋ฐ๋ ๋์ ์์ธก์ด ํ์ํ ๋ถํ ๊ณผ ๊ฐ์ ๋น์ ์์ ์ด ๋ง์ด ์กด์ฌํ๋ฉฐ, self-attention์ ๊ณ์ฐ ๋ณต์ก์ฑ์ด ์ด๋ฏธ์ง ํฌ๊ธฐ ๋๋ฌธ์ ๊ณ ํด์๋ ์ด๋ฏธ์ง์ ํธ๋์คํฌ๋จธ์์๋ ๋ค๋ฃจ๊ธฐ ์ด๋ ค์ธ ๊ฒ์ด๋ค.
์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ณ ์ ๊ณ์ธต์ ํน์ง ๋งต์ ๊ตฌ์ฑํ๊ณ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๋ํ ์ ํ ๊ณ์ฐ ๋ณต์ก์ฑ์ ๊ฐ๋ ๋ฒ์ฉ ํธ๋์คํฌ๋จธ ๋ฐฑ๋ณธ์ธ Swin Transformer๋ฅผ ์ ์ํ์๋ค. - ๊ทธ๋ฆผ 1-(a)์ ๋ํ๋ธ ๋ฐ์ ๊ฐ์ด, Swin Transformer๋ ์์ ํฌ๊ธฐ์ ํจ์น(ํ์์ผ๋ก ํ์๋)์์ ์์ํ์ฌ ๋ ๊น์ Transformer ๊ณ์ธต์์ ์ด์ ํจ์น๋ฅผ ์ ์ง์ ์ผ๋ก ๋ณํฉํ์ฌ ๊ณ์ธต์ ํํ์ ๊ตฌ์ฑํ๋ค.
๊ณ์ฐ ๋ณต์ก๋๋ ์ด๋ฏธ์ง๋ฅผ ๋ถํ ํ๋ ์ค์ฒฉ๋์ง ์์ ์ฐฝ(๋นจ๊ฐ์์ผ๋ก ํ์๋) ๋ด์์ ๋ก์ปฌ๋ก ์์ฒด ์ฃผ์๋ฅผ ๊ณ์ฐ๋๋ค. ๊ฐ ์ฐฝ์ ์๋ ํจ์น ์๋ ๊ณ ์ ๋์ด ์์ผ๋ฏ๋ก ๋ณต์ก์ฑ์ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ์ ํ์ผ๋ก ๋๋ค.
์ด๋ฌํ ์ฅ์ ์ Swin Transformer๋ฅผ ๋จ์ผ ํด์๋์ ํน์ง ๋งต์ ์์ฑํ๊ณ 2์ฐจ ๋ณต์ก์ฑ์ ๊ฐ๋ ์ด์ ์ Transformer ๊ธฐ๋ฐ ์ํคํ ์ฒ์ ๋ฌ๋ฆฌ ๋ค์ํ ๋น์ ์์ ์ ๋ฒ์ฉ ๋ฐฑ๋ณธ์ผ๋ก ์ ํฉํ๋ค๊ณ ์ ์๋ ๋งํ๋ค.
- Swin Transformer์ ํต์ฌ ์์๋ ๊ทธ๋ฆผ2์ ๊ฐ์ด, ์ฐ์์ ์ธ self-attention ๊ณ์ธต๋ค ์ฌ์ด์ ์๋์ฐ ํํฐ์
์ ์ด๋์ด๋ค.
์ด๋๋ ์๋์ฐ๋ ์ด์ ๊ณ์ธต์ ์๋์ฐ๋ค์ ๋ธ๋ฆฌ์งํ๊ณ , ์๋์ฐ ์ฌ์ด์ ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ ์๋นํ ํฅ์์ํค๋ ์ฐ๊ฒฐ๋ค์ ์ ๊ณตํ๋ค๊ณ ํ๋ค.
์๋์ฐ ๋ด์ ๋ชจ๋ ์ฟผ๋ฆฌ ํจ์น๋ค์ ๋์ผํ Key ์ธํธ์ ๊ณต์ ํ๊ณ , ์ด๋ ํ๋์จ์ด์์ ๋ฉ๋ชจ๋ฆฌ ์ก์ธ์ค๋ฅผ ์ฉ์ดํ๊ฒ ํ๋ ์ฅ์ ์ด ์๋ค.
Overall Architecture
- ์ ๊ตฌ์กฐ์ฒ๋ผ Stage1์ ๊ฑฐ์น๊ณ ๊ณ์ธต์ ํํ์ ์์ฑํ๊ธฐ ์ํด, ํ ํฐ์ ์๋ ๋คํธ์ํฌ๊ฐ ๊น์ด์ง์๋ก Patch Merging ๋ ์ด์ด์ ์ํด ๊ฐ์๋๋ค.
- W-MSA๋ Window ์์์์ self-attention
- SW-MSA๋ Window ๊ฐ์ self-attention
3.1 Swin Transformer Block
- Swin Transformer๋ Transformer ๋ธ๋ก์ ํ์ค MSA(multi-head self attention) ๋ชจ๋์ Shifted window ๊ธฐ๋ฐ์ ๋ชจ๋๋ก ๋์ฒดํ์ฌ ๊ตฌ์ถ๋๋ฉฐ, ๋ค๋ฅธ ๋ ์ด์ด๋ ๋์ผํ๊ฒ ์ ์ง๋๋ค.
3.2 Shifted Window based Self-Attention
- ๊ธฐ์กด Transformer๋ ๋ชจ๋ ํ ํฐ๊ณผ ๋ค๋ฅธ ๋ชจ๋ ํ ํฐ ์ฌ์ด์ ๊ด๊ณ๊ฐ ๊ณ์ฐ๋๋ global self-attention์ ์ํํ๋ค. ๊ธ๋ก๋ฒ ๊ณ์ฐ์ ํ ํฐ ์์ ๋ํด 2์ฐจ ๋ณต์ก์ฑ์ ์ด๋ํ๋ฏ๋ก ๋ฐ๋ ๋์ ์์ธก์ ์ํด ๋๋ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ํํํ๊ธฐ ์ํด ๋ง๋ํ ํ ํฐ ์ธํธ๊ฐ ํ์ํ ๋ง์ ๋น์ ๋ฌธ์ ์ ์ ํฉํ์ง ์๋๋ค.
Self-attention in non-overlapped windows
- W-MAS์ ๊ฒฝ์ฐ ์๋์ฐ ์์์๋ง attention score๋ฅผ ๊ณ์ฐํ๋ฏ๋ก ์ฐ์ฐ๋์ ์ ์ฌ์ง๊ณผ ๊ฐ๋ค.
- MSA๋ ํจ์น ์ hw์ 2์ฐจ์ด๊ณ W-MSA๋ M์ด ๊ณ ์ ๋ ๋ ์ ํ์ ๋๋ค(๋ ผ๋ฌธ์์๋ ๊ธฐ๋ณธ์ ์ผ๋ก 7๋ก ์ค์ ๋จ)
- ์์ธํ ์ฐ์ฐ ๊ณผ์ ์ ์๋ ๋ธ๋ก๊ทธ๋ฅผ ์ฐธ๊ณ ํ์๋ค.
https://velog.io/@temoc/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-Swin-Transformer-Hierarchical-Vision-Transformer-using-Shifted-Windows#footnote_3
Shifted window partitioning in successive blocks
- ์๋์ฐ ๊ธฐ๋ฐ์ ์์ฒด attention ๋ชจ๋์ ์๋์ฐ ๊ฐ ์ฐ๊ฒฐ์ด ๋ถ์กฑํ์ฌ ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ ํ๊ณ๊ฐ ์๋ค. ๋ฐ๋ผ์ overlapping์ด ์๋ ์๋์ฐ์ ํจ์จ์ ์ธ ๊ณ์ฐ์ ์ ์งํ๊ธฐ ์ํด ์ฐ์์ ์ธ Swin Transformer ๋ธ๋ก์์ ๋ ๋ถํ ๊ตฌ์ฑ์ ๊ต๋๋ก ์ฌ์ฉํ๋ shifted window partitioning ์ ๊ทผ๋ฒ์ ์ ์ํ๋ค.
Efficient batch computation for shifted configuration
- ๊ทธ๋ฆผ 4์ ๊ฐ์ด ์ผ์ชฝ ์๋จ ๋ฐฉํฅ์ผ๋ก ์ํ shiftingํจ์ผ๋ก์จ ๋ณด๋ค ํจ์จ์ ์ธ ๋ฐฐ์น ๊ณ์ฐ ์ ๊ทผ๋ฒ์ ์ ์ํฉ๋๋ค. ์ด ์ํํธ ํ์ ๋ฐฐ์น ์๋์ฐ๋ ํน์ง ๋งต์ ์ธ์ ํ์ง ์์ ์ฌ๋ฌ ํ์ ์๋์ฐ๋ก ๊ตฌ์ฑ๋ ์ ์์ผ๋ฏ๋ก ๋ง์คํน ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ์ฌ ์์ฒด attention ๊ณ์ฐ์ ๊ฐ ํ์ ์๋์ฐ ๋ด๋ก ์ ํํ๋ค.
- ๊ทธ๋ฆผ4 ์ฒ๋ผ Mask๋ ํํฐ์ ์ attention์ ๋ค์ ์ํํ์ง ์๋๋ค. ์ฆ ์๋ณธ ์ด๋ฏธ์ง์์ ์๋ก ์ธ์ ํ์ง ์์ ๋ถ๋ถ์ Mask ์ฒ๋ฆฌ๋ฅผ ์งํ ํ๋ ๊ฒ์ด๋ค.
Relative position bias
- $M^2$ X $d$ ์ฐจ์($M$์ ์๋์ฐ ๋ด ํจ์น์ ๊ฐ์)์ ๊ฐ์ง Q, K, V
- relative position bias $B$๋ฅผ ์ถ๊ฐํ์ฌ ์ฐ์ฐํ๋ค.
- ์
๋ ฅ์ position ์๋ฒ ๋ฉ์ ์ถ๊ฐํ๋ฉด ์ฑ๋ฅ์ด ์ฝ๊ฐ ๋จ์ด์ง๋ฏ๋ก ๊ตฌํ์ ์ฑํ๋์ง ์์๋ค๊ณ ํ๋ค.
(SWIN์ ViT์ ๋ค๋ฅด๊ฒ encoder ์ ๋ ฅ ๋ถ๋ถ์์ position embedding์ ํ์ง ์๋๋ค.)
Experiments
- ImageNet 1k, COCO, ADE20K์ ๋ํ์ฌ Classification, object detection, sementic segmentation์ ๋ํ์ฌ ์คํ์ ์งํํ์๋ค.
- Ablation study on the shifted windows approach and different position embedding methods
'Paper Review' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
Sparse Token Transformer With Attention Back Tracking (2) | 2023.04.03 |
---|---|
TOKEN MERGING: YOUR VIT BUT FASTER (0) | 2023.03.28 |
Filter Pruning via Geometric Median for Deep Convolutional Neural Networks Acceleration (0) | 2023.01.04 |
Convolutional Neural Network Pruning: A Survey (0) | 2022.12.30 |
Understanding the difficulty of training deep feedforward neural networks (0) | 2022.12.28 |