[Paper Review] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

Описание к видео [Paper Review] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness

1. 논문 제목: FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
2. 논문 링크: https://arxiv.org/abs/2205.14135
3. 인용 수: 1,144회 (~2024.9.18)
4. 논문 Overview:
GPU 계층에서의 IO를 줄이는 방법으로 Attention에 소요되는 시간/공간적 자원 사용을 줄이는 효율성을 확보
Quadratic한 행렬의 실제화(Materialize)를 줄이는 것을 목적으로 함
Softmax 연산의 Tiling과 Backpropagation의 Recomputation을 통해 기존 Attention 연산과 계산 결과는 동일하면서도 빠르게 Forward pass와 Backward pass를 진행

Комментарии

Информация по комментариям в разработке