Logo video2dn
  • Сохранить видео с ютуба
  • Категории
    • Музыка
    • Кино и Анимация
    • Автомобили
    • Животные
    • Спорт
    • Путешествия
    • Игры
    • Люди и Блоги
    • Юмор
    • Развлечения
    • Новости и Политика
    • Howto и Стиль
    • Diy своими руками
    • Образование
    • Наука и Технологии
    • Некоммерческие Организации
  • О сайте

Скачать или смотреть Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания.

  • Xiaol.x
  • 2026-01-28
  • 133
Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания.
  • ok logo

Скачать Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания. бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания. или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

  • Информация по загрузке:

Cкачать музыку Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания. бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания.

Для следующего поколения внимания: я предлагаю LLD для латентного динамического забывания

Это видео представляет собой полное визуальное и математическое путешествие по эволюции правил обновления линейного внимания, завершающееся новым предложением: LLD – Latent Low‑Rank Delta, механизмом латентного динамического забывания, разработанным для следующего поколения моделей внимания.

Мы начинаем с основ: что на самом деле представляет собой матрица состояний S_t и как классическое линейное внимание просто накапливает информацию с течением времени. Затем мы рассматриваем основные семейства правил обновления:
Чистое накопление (LA): бесконечная память, но нестабильность.

Механизмы затухания (RetNet, Mamba2, GLA, HGRN2): пассивное забывание посредством скалярного или канального затухания.

Геометрическое стирание / Связанное забывание (Longhorn, GDN, KDA): «стирайте то, что вы пишете», но привязано к входному ключу.

Раздельное стирание (Comba, RWKV-7): обученные векторы стирания, мощное накопление, но все еще испытывающие трудности с чистым, целенаправленным сбросом.

Во второй части мы представляем LLD как новое правило обновления состояния:
S_new = (I - λ_t * u_t * v_t^T) * S_old
где пара низкого ранга (u_t, v_t) создается скрытым узким местом, не связанным напрямую с входным ключом. На анимированном примере «сигнал против шума» вы увидите, как LLD может:
Поддерживать высокий уровень раннего сигнала в определенных каналах.

Выполнять межканальное целенаправленное стирание последующего шума.

Объединить преимущества накопления (обучения) и точного сброса (забывания) в одном линейном механизме.

В заключение мы проводим анализ тепловых карт, сравнивая Softmax, RWKV-7, KDA и LLD в рамках одного и того же стресс-теста. При увеличении масштаба отдельных областей тепловой карты вы увидите:
Softmax как идеальный эталон (идеальная диагональ, чистое подавление шума).

RWKV-7 как мощный аккумулятор, который также накапливает шум.

KDA оставляет «фантомные воспоминания» и частично размывает сигнал.

LLD сохраняет насыщенный сигнал, чисто стирая шум по всем каналам.

Это видео для вас, если вас интересует, как современные модели внимания и пространства состояний действительно управляют памятью, и вы хотите получить конкретное, наглядное доказательство того, почему латентное динамическое забывание с помощью LLD является перспективным направлением для будущих архитектур.

Комментарии

Информация по комментариям в разработке

Похожие видео

  • Lingbot-world | Развитие моделей мира с открытым исходным кодом
    Lingbot-world | Развитие моделей мира с открытым исходным кодом
    4 недели назад
  • Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение
    Визуализация внимания, сердце трансформера | Глава 6, Глубокое обучение
    1 год назад
  • Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации
    Почему простые числа образуют эти спирали? | Теорема Дирихле и пи-аппроксимации
    6 лет назад
  • Доведение моделирования до предела возможностей для поиска порядка в хаосе.
    Доведение моделирования до предела возможностей для поиска порядка в хаосе.
    2 месяца назад
  • Почему «Трансформеры» заменяют CNN?
    Почему «Трансформеры» заменяют CNN?
    2 месяца назад
  • Цепи Маркова — математика предсказаний [Veritasium]
    Цепи Маркова — математика предсказаний [Veritasium]
    4 месяца назад
  • Linear Attention Explained from First Principles (Transformers → RNNs)
    Linear Attention Explained from First Principles (Transformers → RNNs)
    10 дней назад
  • Пояснение к линейно-квадратичному интегратору (LQI) — оптимальное отслеживание, подавление помех,...
    Пояснение к линейно-квадратичному интегратору (LQI) — оптимальное отслеживание, подавление помех,...
    10 дней назад
  • Пожалуй, главное заблуждение об электричестве [Veritasium]
    Пожалуй, главное заблуждение об электричестве [Veritasium]
    4 года назад
  • Зачем нужна топология? Практическая польза
    Зачем нужна топология? Практическая польза
    3 недели назад
  • Способ увидеть невидимое: как создаются суперлинзы из оптических метаматериалов?
    Способ увидеть невидимое: как создаются суперлинзы из оптических метаматериалов?
    10 дней назад
  • Самая недооценённая идея в науке
    Самая недооценённая идея в науке
    3 дня назад
  • Но что такое нейронная сеть? | Глава 1. Глубокое обучение
    Но что такое нейронная сеть? | Глава 1. Глубокое обучение
    8 лет назад
  • ✓ Красивое уравнение | Всеукраїнська олімпіада | Ботай со мной #162 | Борис Трушин
    ✓ Красивое уравнение | Всеукраїнська олімпіада | Ботай со мной #162 | Борис Трушин
    2 дня назад
  • Краткое объяснение больших языковых моделей
    Краткое объяснение больших языковых моделей
    1 год назад
  • Проблема нержавеющей стали
    Проблема нержавеющей стали
    2 недели назад
  • Университеты отбирают студентов для фронта
    Университеты отбирают студентов для фронта
    11 часов назад
  • ✓ Адский гроб из САММАТа 2020 года | x² + y² = 19451945 | Ботай со мной #071 | Борис Трушин
    ✓ Адский гроб из САММАТа 2020 года | x² + y² = 19451945 | Ботай со мной #071 | Борис Трушин
    6 лет назад
  • Экономика вошла в зону смерти..⚫ Все ждут ухудшения ситуации || Дмитрий Потапенко*
    Экономика вошла в зону смерти..⚫ Все ждут ухудшения ситуации || Дмитрий Потапенко*
    1 день назад
  • LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    LLM и GPT - как работают большие языковые модели? Визуальное введение в трансформеры
    1 год назад
  • О нас
  • Контакты
  • Отказ от ответственности - Disclaimer
  • Условия использования сайта - TOS
  • Политика конфиденциальности

video2dn Copyright © 2023 - 2025

Контакты для правообладателей video2contact@gmail.com