Введение в Vision Transformer. Лекция 11. Глубокое обучение

Описание к видео Введение в Vision Transformer. Лекция 11. Глубокое обучение

В рамках лекции мы рассматриваем важную архитектуру – Vision Transformer (ViT).
ViT показал выдающиеся результаты на многих датасетах, при этом сама архитектура почти без изменений заимствована из NLP. Трансформер не использует ни свертки, ни рекуррентность, а полностью полагается на механизм внимания,

Это первая из двух лекций на эту тему. В рамках лекции рассмотрены основные строительные блоки ViT:
- Layer Normalization;
- Scaled Dot-Product Attention (SDPA);
- Multi-Head Attention (MHA);
- Feed-Forward Layer.

На следующей лекции мы их этих блоков соберём архитектуру ViT :)


Евгений Разинков -- к.ф.-м.н., директор по науке компании Pr3vision Technologies, основатель парфюмерного AI-проекта http://scented.ai, руководитель отдела машинного обучения и компьютерного зрения Группы компаний FIX.

Tailor-made AI solutions for unique challenges:
https://pr3vision.com

Информация о лекциях:
https://razinkov.ai

Телеграм-канал с анонсами лекций и материалами по машинному обучению:
https://t.me/razinkov_ai

Комментарии

Информация по комментариям в разработке