
Swin Transformer : Hierarchical Vision Transformer using Shifted Windows
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] ICCV 2021 ABSTRACT ์ ์๋ค์ ๊ธฐ์กด ํ ์คํธ์ ๋จ์ด์ ์ด๋ฏธ์ง์ ํฝ์ ํด์๋์์ ๋๋ฉ์ธ ์ฐจ์ด๋ฅผ ํด๊ฒฐํ๊ณ ์ Shifted windows๋ก ํํ์ด ๊ณ์ฐ๋๋ ๊ณ์ธต์ ์ธ ํธ๋์คํฌ๋จธ๋ฅผ ์ ์ํ๋ค. Shifted windows ๋ฐฉ์์ self-attention ๊ณ์ฐ์ ์ค์ฒฉ๋์ง ์๋๋ก ์ ํํจ์ผ๋ก์จ ํจ์จ์ฑ์ ๋์ด๋ ๋์์ cross-windows connetion์ ํ์ฉํจ์ผ๋ก์จ ํจ์จ์ฑ์ ๋์ธ๋ค. ์ด๋ฌํ ๋ฐฉ์์ ๋ค์ํ ์ค์ผ์ผ๋ก ๋ชจ๋ธ๋งํ ์ ์๋ ์ ์ฐ์ฑ์ ๊ฐ์ง๋ฉฐ ์ด๋ฏธ์ง ํฌ๊ธฐ์ ๊ด๋ จํ์ฌ ์ ํ ๊ณ์ฐ ๋ณต์ก์ฑ์ ๊ฐ์ง๊ณ ์๋ค. Introduction (a)๋ ๋ ผ๋ฌธ์์ ์ ์ํ Swin Transformer์ ๊ตฌ์กฐ์ด๋ค. ๊ฐ ๋ก์ปฌ ์๋์ฐ(๋นจ๊ฐ์ ํ์) ๋ด์์๋ง ์์ฒด ์ฃผ์ ๊ณ์ฐ์ผ๋ก ์ธํด ์ด๋ฏธ์ง ํฌ๊ธฐ๋ฅผ ์ ๋ ฅํ๊ธฐ ์ํ ์ ํ..