
Sparse Token Transformer With Attention Back Tracking
[๋ ผ๋ฌธ๋ฆฌ๋ทฐ] ICLR 2023 ABSTRACT ๋ณธ ๋ ผ๋ฌธ์์ ์ ์๋ค์ Transformer์ attention operations์ ๋ํ ๋ณต์ก๋๋ฟ๋ง ์๋๋ผ linear layers๋ฅผ ์ค์ผ ์ ์๋ Token Pruning์ ํฌ์ปค์ค๋ฅผ ๋ง์ท๋ค. ์ด์ ์ work๋ค์ ์ถํ layer์ attention์ ์ํฅ์ ๋ํด ๊ณ ๋ ค ์์ด feed-forward ๋จ๊ณ์์ token์ ์ ๊ฑฐํ์๋ค. ์ด๋ฌํ ์ด์๋ฅผ ํด๊ฒฐํ๊ณ ์ ์ต์ข ์์ธก์ ํฐ ์ํฅ์ ๋ฏธ์น๋ ํ ํฐ์ ๋ณด์กดํ๊ธฐ ์ํด output์์ input๊น์ง ๊ฐ attention์ ์ค์์ฑ์ back-tracking ํ๋ ๋ฐฉ๋ฒ์ ์ ์ํ๋ค. NLP์ CV์์์ ํจ์จ์ฑ์ ์คํ์ ์ผ๋ก ์ ์ฆํ์๋ค. Introduction Transformer์ Pruning ์ ๊ทผ ๋ฐฉ๋ฒ์ ์ฃผ๋ก ๋ถํ์ํ ๋ชจ๋ธ ๊ฐ..