Запуск Llama 405b на своем сервере. vLLM, docker.

Описание к видео Запуск Llama 405b на своем сервере. vLLM, docker.

Детально показываю, как запустить самую мощную открытую нейросеть Llama 405b на своем сервере.

Описание модели Llama 405b на сайте Meta*
https://llama.meta.com/

Сервер покупал тут:
https://immers.cloud/signup/r/2024052...

Прикладная конференция по Data Science AI conf 2024:
https://aiconf.ru/2024

Описание модели Llama 3.5 405b instruct AWQ на huggingface:
https://huggingface.co/hugging-quants...

Доступ ко всем сайтам получаю тут:
https://t.me/hour_vpn_bot

vllm - проект по инференсу нейросетей:
https://github.com/vllm-project/vllm

Рейтинг нейросетей:
https://chat.lmsys.org/?leaderboard

Мой телеграм канал:
https://t.me/vitaly_kuliev_it

В rutube дублирую видео. Подписывайтесь на случай замедления ютуба:
https://rutube.ru/channel/23479346/

Команда для запуска vLLM в докере:
sudo docker run --ipc=host --log-opt max-size=10m --log-opt max-file=1 --rm -it --gpus '"device=0,1,2,3"' -p 8000:8000 --mount type=bind,source=/home/ubuntu/.cache,target=/root/.cache vllm/vllm-openai:v0.5.4 --model hugging-quants/Meta-Llama-3.1-405B-Instruct-AWQ-INT4 --tensor-parallel-size 4 --gpu-memory-utilization 0.94 --dtype half -q awq --disable-log-requests


Таймкоды:
0:00 Llama 405b
0:55 Файлы нейросети
1:40 Покупка сервера с 4 gpu A100
4:12 Установка docker
5:18 Запуск сервера vllm
7:15 Первые ответы
9:20 бенчмарк- тест скорости сервера
11:15 стоимость запуска
12:50 еще один тест
15:30 выводы

Признана экстремистской организацией в РФ.
Реклама. ООО «ДТЛ». ИНН 9717073792. erid: LjN8K1LTF

Комментарии

Информация по комментариям в разработке