AI大模型推理框架VLLM原理讲解(1)- Transformer和Key value Cache概述

Описание к видео AI大模型推理框架VLLM原理讲解(1)- Transformer和Key value Cache概述

授课大咖:卢菁博士【北京大学博士后人工智能专家】AI大模型推理框架VLLM原理讲解!
vLLM是一个开源的大模型推理加速框架,通过PagedAttention高效地管理attention中缓存的张量,实现了比HuggingFace Transformers高14-24倍的吞吐量。
PagedAttention 是 vLLM 的核心技术,它解决了LLM服务中内存的瓶颈问题。传统的注意力算法在自回归解码过程中,需要将所有输入Token的注意力键和值张量存储在GPU内存中,以生成下一个Token。这些缓存的键和值张量通常被称为KV缓存。

Комментарии

Информация по комментариям в разработке