Logo video2dn
  • Сохранить видео с ютуба
  • Категории
    • Музыка
    • Кино и Анимация
    • Автомобили
    • Животные
    • Спорт
    • Путешествия
    • Игры
    • Люди и Блоги
    • Юмор
    • Развлечения
    • Новости и Политика
    • Howto и Стиль
    • Diy своими руками
    • Образование
    • Наука и Технологии
    • Некоммерческие Организации
  • О сайте

Скачать или смотреть Radu Gheorghe, Rafał Kuć – Which GPU for Local LLMs?

  • Plain Schwarz
  • 2025-06-17
  • 226
Radu Gheorghe, Rafał Kuć – Which GPU for Local LLMs?
  • ok logo

Скачать Radu Gheorghe, Rafał Kuć – Which GPU for Local LLMs? бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно Radu Gheorghe, Rafał Kuć – Which GPU for Local LLMs? или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

  • Информация по загрузке:

Cкачать музыку Radu Gheorghe, Rafał Kuć – Which GPU for Local LLMs? бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео Radu Gheorghe, Rafał Kuć – Which GPU for Local LLMs?

More: https://2025.berlinbuzzwords.de/sessi...

Speaker: Radu Gheorghe, Rafał Kuć

You’re using local LLMs. For example, to power RAG. You want to deploy them in production, but you don’t know where: which type of GPU? How large should it be? Should you use a larger model but quantize more aggressively?

Our benchmark results and their interpretation will give you some answers.

It’s easy to offload the LLM - in solutions such as RAG - to external services like OpenAI. This is great for PoCs, but if you have a lot of requests, a local LLM makes more sense from both a cost and a latency point of view. Especially in the context of RAG, where the query itself adds latency and the context to be shifted can be significant.

For this session, we’ll use llama.cpp - which supports inference on many models for many platforms - and benchmark some LLMs on various GPUs. We’ll focus on cost, throughput (tokens/s), and memory usage when presenting results. Memory usage is the same for the same model, but we’ll explore quantization and how it influences throughput, especially since we can fit a larger context. A larger context means we can process more queries in parallel.

Participants will get a better sense of how to deploy their RAG/LLM in production from a hardware, model, and quantization perspective.

###

Follow us on Social Media and join the Community!

Mastodon: https://floss.social/@BerlinBuzzwords
LinkedIn:   / berlin-buzzwords  
Website: https://berlinbuzzwords.de
Mail: [email protected]

Berlin Buzzwords is an event by Plain Schwarz – https://plainschwarz.com

Комментарии

Информация по комментариям в разработке

Похожие видео

  • О нас
  • Контакты
  • Отказ от ответственности - Disclaimer
  • Условия использования сайта - TOS
  • Политика конфиденциальности

video2dn Copyright © 2023 - 2025

Контакты для правообладателей [email protected]