LLM과 생성형 AI 워크로드를 위한 대규모 AI 데이터센터 엔지니어링 기술 | 래블업 김준기

Описание к видео LLM과 생성형 AI 워크로드를 위한 대규모 AI 데이터센터 엔지니어링 기술 | 래블업 김준기

AI 데이터센터는 높은 구축 및 운영 비용이 요구되며, 고성능 하드웨어의 확보뿐만 아니라 소프트웨어 계층을 통해 하드웨어의 성능과 용량을 최대한 활용하는 것이 중요합니다. 래블업의 Backend.AI 플랫폼은 다중 GPU 및 다중 노드 설정을 자동화하고, 필요할 때만 동적으로 컨테이너를 프로비저닝하여 자원 활용도를 높입니다. 또한 하드웨어 레이아웃을 고려한 최적의 스케줄링으로 성능 효율을 극대화합니다. 이번 발표에서는 GPUDirect Storage와 같은 I/O 가속 기술을 통합한 컨테이너 기반 GPU 분할 가상화 기술을 통해, 다양한 파라미터 크기와 양자화 수준의 다종 언어 모델 및 멀티모달 모델을 단일 인프라에서 최적의 비용으로 배포 및 서비스하는 방법을 소개합니다.

[발표자 소개]
래블업 김준기
래블업에서 Backend.AI 개발 총괄 리드를 맡고 있습니다. 분산처리 시스템 및 GPU 기반 가속 컴퓨팅에 대한 연구 경험을 바탕으로, Backend.AI 시스템을 설계 및 구현하였으며, CPython 및 asyncio 상태계 등 다양한 오픈소스 기여도 이어오고 있습니다.

Комментарии

Информация по комментариям в разработке