Fastformer: Additive Attention Can Be All You Need

Описание к видео Fastformer: Additive Attention Can Be All You Need

Трансформер - очень хорошая модель для понимания текста, однако она не эффективна из-за квадратичной асимптотической сложности по длине входящей последовательности. Хотя существует множество методов ускорения трансформера, они все еще недостаточно эффективны на длинных последовательностях. Авторы статьи предлагают Fastformer, эффективную модель трансформера, основанную на аддитивном внимании (additive attention).

На семинаре мы вспомним, как работают трансформеры, познакомимся с additive attention и Fastformer и посмотрим, как он справляется с различными задачами.

Докладчик: Тимур Хабибуллин

Комментарии

Информация по комментариям в разработке