하이퍼커넥트의 AWS 기계 학습 추론 가속기 적용을 통한 모델 서빙 비용 절감 사례와 꿀팁 - 김대근 솔루션즈 아키텍트, AWS, 김선우머신러닝 소프트웨어 엔지니어, 하이퍼커넥트

Описание к видео 하이퍼커넥트의 AWS 기계 학습 추론 가속기 적용을 통한 모델 서빙 비용 절감 사례와 꿀팁 - 김대근 솔루션즈 아키텍트, AWS, 김선우머신러닝 소프트웨어 엔지니어, 하이퍼커넥트

기계 학습(ML) 모델을 실시간으로 서빙할 때, 수많은 요청에 대한 낮은 레이턴시와 높은 입출력 속도를 위해 사용되는 GPU 인스턴스는 비용 부담이 다소 높습니다. 이때 AWS에서 개발한 추론 가속기인 AWS Inferentia를 사용하면, GPU 인스턴스를 사용할 때 보다 훨씬 저렴한 비용으로 ResNet부터 BERT/ViT와 같은 트랜스포머 기반 모델을 서빙할 수 있습니다. 본 세션에서는 기존 딥러닝 모델을 AWS Inferentia로 이전하는 방법을 데모와 함께 소개하고 하이퍼커넥트의 Inferentia 도입 여정을 공유합니다.

Комментарии

Информация по комментариям в разработке