Token-to-token ViT: Training Vision Transformers from Scratch on ImageNet

Описание к видео Token-to-token ViT: Training Vision Transformers from Scratch on ImageNet

В последнее время исследуется применение трансформеров в различных задачах, связанных с обработкой изображений. В отличии от обработки естественного языка, где трансформеры стали стандартным решением для многих задач, применение их к изображениям лимитировано. Большинство моделей просто используют механизм attention совместно со сверхточными сетями, сохраняя уже известные архитектуры. Однако в прошлом году вышла работа, описывающая первую архитектуру для распознавания объектов, основывающуюся только на трансформерах (ViT). И хотя эта модель показывает сравнимые результаты со state-of-the-art сетями, она обладает некоторыми недостатками, такими как большой размер модели и необходимость предобучения на огромных датасетах.

На семинаре мы рассмотрим модель T2T-ViT, которая с помощью архитектурных решений борется с проблемами предыдущей модели и показывает результаты не хуже, чем сверхточные сети при соизмеримых размерах.

Докладчик: Фарид Багиров.

Комментарии

Информация по комментариям в разработке