Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Описание к видео Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение

Демистификация внимания - ключевого механизма внутри трансформеров и больших языковых моделей (LLM).

Звуковая дорожка на русском языке: Влад Бурмистров.

Вместо рекламы, эти уроки финансируются непосредственно зрителями: https://3b1b.co/support.
Особое спасибо следующим:
Special thanks to these supporters: https://www.3blue1brown.com/lessons/a...
Не менее ценная форма поддержки - просто поделиться ссылкой на видео.


На моменте 22:00 (и далее), "breaks" - это опечатка.

------------------

Другие ресурсы о трансформерах

Создаём GPT с нуля - видеоролики от Андрея Карпатого
   • Let's build GPT: from scratch, in cod...  

Если Вам интересно концептуальное понимание языковых моделей с нуля, то @vcubing начал публикацию коротких видео по этой теме:
   • What does it mean for computers to un...  

Если Вы хотите как следует разобраться, как работают большие нейронные сети, то можно почитать посты по теме "Трансформаторные схемы", автор Anthropic
В частности, только благодаря одному из этих постов я начал думать о комбинации матриц значений и выхода как о комбинированной низкоранговой карте из пространства эмбеддингов в это же пространство - на мой взгляд, здесь это написано намного яснее, чем в других источниках.
https://transformer-circuits.pub/2021...

Сайт с упражнениями, связанными с ML-программированием и GPT
https://www.gptandchill.ai/codingprob...

История языковых моделей от Брит Круз, @ArtOfTheProblem
   • ChatGPT: 30 Year History | How AI Lea...  

Ранняя статья о том, как направления в пространствах эмбеддингов имеют смысл:
https://arxiv.org/pdf/1301.3781.pdf

------------------

Временные метки:
0:00 - Обзор эмбеддингов
1:39 - Мотивирующие примеры
4:29 - Шаблон внимания
11:08 - Маскировка
12:42 - Размер контекста
13:10 - Значения (values)
15:44 - Подсчитываем параметры
18:21 - Перекрестное внимание
19:19 - Множественные головы
22:16 - Матрица вывода
23:19 - Идти глубже
24:54 - Окончание

Комментарии

Информация по комментариям в разработке