Интенсив GPT Week. Лекция 5: "Ускорение инференса LLM"

Описание к видео Интенсив GPT Week. Лекция 5: "Ускорение инференса LLM"

Спикер: Рома Горб, разработчик группы претрейна YandexGPT

Вспомогательные ссылки:
Канал в телеге: https://t.me/gromka_public

Про GPU и ускорение pretrain-a: https://habr.com/en/companies/yandex/...

Курс Practical RL в ШАД-е: https://github.com/yandexdataschool/P...

Статья MiniLLM: https://arxiv.org/abs/2002.10957
Статья LLM.int8(): https://arxiv.org/abs/2208.07339
Статья SmoothQuant: https://arxiv.org/abs/2211.10438
Статья GPT-Q (OPT-Q): https://arxiv.org/abs/2210.17323

Сравнение фреймворков: https://sersavvov.com/blog/7-framewor...
Continuous Batching: https://www.anyscale.com/blog/continu...
PEFT и API sharing: https://habr.com/en/companies/yandex/...
Speculative Decoding: https://arxiv.org/abs/2302.01318

Комментарии

Информация по комментариям в разработке