Logo video2dn
  • Сохранить видео с ютуба
  • Категории
    • Музыка
    • Кино и Анимация
    • Автомобили
    • Животные
    • Спорт
    • Путешествия
    • Игры
    • Люди и Блоги
    • Юмор
    • Развлечения
    • Новости и Политика
    • Howto и Стиль
    • Diy своими руками
    • Образование
    • Наука и Технологии
    • Некоммерческие Организации
  • О сайте

Скачать или смотреть [ISCA 2025] RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving

  • Wenqi Jiang
  • 2025-07-31
  • 105
[ISCA 2025] RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving
  • ok logo

Скачать [ISCA 2025] RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно [ISCA 2025] RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

  • Информация по загрузке:

Cкачать музыку [ISCA 2025] RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео [ISCA 2025] RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving

Our ISCA'25 paper named "RAGO: Systematic Performance Optimization for Retrieval-Augmented Generation Serving"

Ppaer: https://dl.acm.org/doi/full/10.1145/369505...
Code: https://github.com/google/rago

Abstract: Retrieval-augmented generation (RAG) is emerging as a popular approach for reliable LLM serving. However, efficient RAG serving remains an open challenge due to the rapid emergence of many RAG variants and the substantial differences in workload characteristics across them. This paper makes three fundamental contributions to advancing RAG serving. First, we introduce RAGSchema, a structured abstraction that captures the wide range of RAG algorithms, serving as a foundation for performance optimization. Second, we analyze several representative RAG workloads with distinct RAGSchema, revealing significant performance variability across these workloads. Third, to address this variability and meet diverse performance requirements, we propose RAGO (Retrieval-Augmented Generation Optimizer), a system optimization framework for efficient RAG serving. RAGO achieves up to a 2 × increase in QPS per chip and a 55% reduction in time-to-first-token latency compared to RAG systems built on LLM-system extensions.

Комментарии

Информация по комментариям в разработке

Похожие видео

  • О нас
  • Контакты
  • Отказ от ответственности - Disclaimer
  • Условия использования сайта - TOS
  • Политика конфиденциальности

video2dn Copyright © 2023 - 2025

Контакты для правообладателей [email protected]