[Paper Review] Attention is All You Need (Transformer)

Описание к видео [Paper Review] Attention is All You Need (Transformer)

[Paper Review] Attention is All You Need (Transformer)

[1] 발표자 : DSBA 연구실 소규성
[2] 논문링크 : https://arxiv.org/abs/1706.03762
[3] 코드링크 : https://github.com/jadore801120/atten...

내용 수정
34:00과 43:10 부분 장표에서, multihead self-attention의 경우 내부적으로 concatenate (head들을 결합)를 수행하기 때문에 그림 상 concat을 제외해야 맞습니다. (MSA -- residual connection -- layer normalization -- FFN)
(참고: https://github.com/jadore801120/atten...)

Комментарии

Информация по комментариям в разработке