Булат Яминов — Vaex: Python библиотека для работы с большими данными на обычном ноутбуке

Описание к видео Булат Яминов — Vaex: Python библиотека для работы с большими данными на обычном ноутбуке

Подробнее о конференции PiterPy: https://jrg.su/QZ6wK1
— Ближайшая конференция:
PiterPy 2023 — 6–7 ноября (Online), 13–14 ноября (Санкт-Петербург, Offline)
Подробности: https://cutt.ly/7wrLeRCf
— —
Инженерам и аналитикам все чаще приходится работать с таблицами, состоящими из миллионов или миллиардов строчек. Если данные слишком большие, чтобы поместиться в оперативной памяти одного компьютера, обычно для анализа приходится использовать распределенные системы. Библиотека Vaex позволяет эффективно работать с таблицами данных на жестком диске с малым использованием оперативной памяти. Таким образом она расширяет возможности быстрого локального анализа и во многих ситуациях может избавить от необходимости платить за вычислительные кластеры.

Vaex написан на Python и C++, использует отображение файлов в память (memory-mapping в форматах Apache Arrow, HDF5), отложенные вычисления, вычислительные графы и эффективные алгоритмы. Это позволяет обрабатывать больше данных, используя меньше ресурсов.

В презентации я расскажу о решениях, используемых в библиотеке Vaex, покажу пример ее использования для анализа данных "New York City YellowCab taxi service", и сравню Vaex с другими библиотеками, позволяющими обрабатывать большие данные на языке Python: PySpark и Dask DataFrame.

Комментарии

Информация по комментариям в разработке