022 Классификация изображений. Часть 15. ViT (Vision Transformer) (2020)

Описание к видео 022 Классификация изображений. Часть 15. ViT (Vision Transformer) (2020)

Вот мы и добрались до очередной революции в области искусственного интеллекта – появление трансформера. В том числе в компьютерном зрении начинаем с модели Vision Transformer.
В этом видео будет много новой информации. Начнём с разбора особенностей ViT модели. А затем углубимся в принципы работы Внимания и Трансформеров. Причём с трансформером будем разбираться сразу на задаче компьютерного зрения. Хотя маленькая отсылка к работе с текстами будет.
В любом случае в это видео будут вмещены 2 важнейшие научные статьи в области искусственного интеллекта: «Attention is all you need» и «An image is worth 16x16 words, Transformers for image recognition at scale.»
В остальном же всё как и в предыдущих видео. Разберёмся с архитектурой, познакомимся с некоторыми авторами, обучим модель на датасете Арма и посмотрим на результаты.

Таймкоды:
00:00 | Введение
02:48 | Знакомимся с авторами
08:40 | Основа архитектуры Vision Transformer
16:44 | Устройства энкодера трансформера
30:03 | Ещё немного слов о Vision Transformer
32:04 | Полученные результаты при использовании модели ViT
34:00 | Обучаем модель ViT_l_16 и тестируем
36:58 | Анализируем предсказания
40:10 | Заключение

Комментарии

Информация по комментариям в разработке