Скачать или смотреть Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания.

Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания.

Скачать Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания. бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания. или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

Информация по загрузке:

Cкачать музыку Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания. бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания.

Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания

Это видео представляет собой полное визуальное и математическое путешествие по эволюции правил обновления линейного внимания, завершающееся новым предложением: LLD – Latent Low‑Rank Delta, механизмом латентного динамического забывания, разработанным для следующего поколения моделей внимания.

Мы начинаем с основ: что на самом деле представляет собой матрица состояний S_t и как классическое линейное внимание просто накапливает информацию с течением времени. Затем мы рассматриваем основные семейства правил обновления:
Чистое накопление (LA): бесконечная память, но нестабильность.

Механизмы затухания (RetNet, Mamba2, GLA, HGRN2): пассивное забывание посредством скалярного или канального затухания.

Геометрическое стирание / Связанное забывание (Longhorn, GDN, KDA): «стирайте то, что вы пишете», но привязано к входному ключу.

Раздельное стирание (Comba, RWKV-7): обученные векторы стирания, мощное накопление, но все еще испытывающие трудности с чистым, целенаправленным сбросом.

Во второй части мы представляем LLD как новое правило обновления состояния:
S_new = (I - λ_t * u_t * v_t^T) * S_old
где пара низкого ранга (u_t, v_t) создается скрытым узким местом, не связанным напрямую с входным ключом. На анимированном примере «сигнал против шума» вы увидите, как LLD может:
Поддерживать высокий уровень раннего сигнала в определенных каналах.

Выполнять межканальное целенаправленное стирание последующего шума.

Объединить преимущества накопления (обучения) и точного сброса (забывания) в одном линейном механизме.

В заключение мы проводим анализ тепловых карт, сравнивая Softmax, RWKV-7, KDA и LLD в рамках одного и того же стресс-теста. При увеличении масштаба отдельных областей тепловой карты вы увидите:
Softmax как идеальный эталон (идеальная диагональ, чистое подавление шума).

RWKV-7 как мощный аккумулятор, который также накапливает шум.

KDA оставляет «фантомные воспоминания» и частично размывает сигнал.

LLD сохраняет насыщенный сигнал, чисто стирая шум по всем каналам.

Это видео для вас, если вас интересует, как современные модели внимания и пространства состояний действительно управляют памятью, и вы хотите получить конкретное, наглядное доказательство того, почему латентное динамическое забывание с помощью LLD является перспективным направлением для будущих архитектур.

Комментарии

Информация по комментариям в разработке