[Paper Review] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

Описание к видео [Paper Review] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

1. 주제
Window Multi-head Self Attention을 적용한 Swin Transformer

2. 발표논문
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows (arXiv, 2021.03.25)
(https://arxiv.org/abs/2103.14030)

3. 발표 내용
1) 텍스트와 다른 이미지의 두 가지 특징인 해상도와 물체의 크기를 고려할 수 있는 모델 구조 제안
- Patch Merging과 Swin Transformer Block

2) Swin Transformer Block
- W-MSA (Window Multi-head Self Attention) : window 내에서 patch 간 self attention 연산
- SW-MSA (Shifted Window Multi-head Self Attention) : W-MSA의 window 간 patch들의 self attention 연산

Комментарии

Информация по комментариям в разработке