Logo video2dn
  • Сохранить видео с ютуба
  • Категории
    • Музыка
    • Кино и Анимация
    • Автомобили
    • Животные
    • Спорт
    • Путешествия
    • Игры
    • Люди и Блоги
    • Юмор
    • Развлечения
    • Новости и Политика
    • Howto и Стиль
    • Diy своими руками
    • Образование
    • Наука и Технологии
    • Некоммерческие Организации
  • О сайте

Скачать или смотреть μTransfer: Tuning GPT-3 hyperparameters on one GPU | Explained by the inventor

  • Edward Hu
  • 2023-10-17
  • 4945
μTransfer: Tuning GPT-3 hyperparameters on one GPU | Explained by the inventor
muTransferμTransferdeep learningLLMhyperparameterAIneural networks
  • ok logo

Скачать μTransfer: Tuning GPT-3 hyperparameters on one GPU | Explained by the inventor бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно μTransfer: Tuning GPT-3 hyperparameters on one GPU | Explained by the inventor или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

  • Информация по загрузке:

Cкачать музыку μTransfer: Tuning GPT-3 hyperparameters on one GPU | Explained by the inventor бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео μTransfer: Tuning GPT-3 hyperparameters on one GPU | Explained by the inventor

How can one tune the hyperparameters of an enormous neural network like GPT-3 on a single GPU?

*Like, subscribe, and share if you find this video valuable!*

Paper: https://arxiv.org/abs/2203.03466
Repo: https://github.com/microsoft/mup

Jupyter notebook to reproduce μTransfer:
https://github.com/microsoft/mup/blob...

0:00 - Intro
0:45 - μTransfer in 3 steps
3:00 - Why μP and μTransfer work
5:42 - How to apply μTransfer today

For more on the central limit theorem (CLT) and the law of large numbers (LLN):
https://en.wikipedia.org/wiki/Central...
https://en.wikipedia.org/wiki/Law_of_...

Both CLT and LLN behaviors appear during NN training, but which one dominates is determined by the correlation between weights and activations.

A more technical talk on μP by Greg Yang
   • Feature Learning in Infinite-Width Neural ...  

Follow me on Twitter:
  / edwardjhu  

🙏Gratitude:
μTransfer won't happen without my amazing collaborators: Greg Yang, Igor Babuschkin, Szymon Sidor, Xiaodong Liu, David Farhi, Nick Ryder, Jakub Pachocki, Weizhu Chen, and Jianfeng Gao.
Also, thank you Isa Fulford, Mo Tiwari, and Andrej Karpathy for your constructive feedback on this video!

Комментарии

Информация по комментариям в разработке

Похожие видео

  • О нас
  • Контакты
  • Отказ от ответственности - Disclaimer
  • Условия использования сайта - TOS
  • Политика конфиденциальности

video2dn Copyright © 2023 - 2025

Контакты для правообладателей [email protected]