Azure Databricks #spark #pyspark #azuredatabricks #azure
В этом видео я рассказал, как использовать функции объединения в pyspark.
1. Внутренняя функция в PySpark
2. Левая функция в PySpark
3. Правая функция в PySpark
4. Полная функция в PySpark
5. Полуфункция в PySpark
6. Антифункция в PySpark
Создание датафрейма:
============================================================
#создание сотрудника
data = [(1,"Сушиль","10","М",4000),
(2,"Бхаллар","20","М",3000),
(3,"Прабху","10","М",4000),
(4,"Сандхья","10","Ж",2000),
(5,"Вайбхав","40","М",3500),
(6,"Амрита","50","Ж",2500)]
схема = ["id сотрудника","имя сотрудника","id отдела","пол","зарплата"]
empDF = spark.createDataFrame(data, schema)
#создать отдел
dept = [("Финансы",10),
("Маркетинг",20),
("Продажи",30),
("ИТ",40)
]
схема отдела = ["имя отдела","id отдела"]
deptDF = spark.createDataFrame(dept, deptschema)
display(empDF)
display(deptDF)
==================================================================
Узнать больше PySpark — интерфейс для Apache Spark на Python. PySpark часто используется для обработки больших объёмов данных и машинного обучения.
1. Введение в pySpark | Руководство по pySpark для начинающих | Руководство по pySpark для специалистов по данным:
• 1. pyspark introduction | pyspark tutorial...
2. Что такое dataframe в pySpark | Dataframe в Azure Databricks | Руководство по pySpark для специалистов по данным:
• 2. what is dataframe in pyspark | datafram...
3. Как читать и записывать CSV-файлы в PySpark | Руководство по Databricks | Руководство по pySpark для специалистов по данным:
• 3. How to read write csv file in PySpark |...
4. Различные режимы записи в Dataframe с использованием PySpark | Учебное пособие по PySpark для специалистов по данным:
• 4. Different types of write modes in Dataf...
5. Чтение данных из файла Parquet в PySpark | Запись данных в файл Parquet в PySpark:
• 5. read data from parquet file in pyspark ...
6. Типы данных в PySpark | Типы данных PySpark | Учебное пособие по PySpark для начинающих:
• 6. datatypes in PySpark | pyspark data typ...
7. Как определить схему в PySpark | Типы и поля структур в PySpark | Учебное пособие по PySpark:
• 7. how to define the schema in pyspark | s...
8. Как читать CSV-файл с помощью PySpark | Как читать CSV-файл с опцией схемы в PySpark:
• 8. how to read CSV file using PySpark | Ho...
9. Чтение JSON-файла в PySpark | чтение вложенного JSON-файла в PySpark | чтение многострочного JSON-файла:
• 9. read json file in pyspark | read nested...
10. Добавление, изменение, переименование и удаление столбцов в dataframe | withcolumn и withcolumnrename в PySpark:
• 10. add, modify, rename and drop columns i...
11. Фильтрация в PySpark | Как фильтровать dataframe с помощью оператора like | like в PySpark:
• 11. filter in pyspark | how to filter data...
12. Startswith в PySpark | Endswith в PySpark | Содержит в PySpark | Учебник по PySpark:
• 12. startswith in pyspark | endswith in py...
13. Isin в PySpark и Not Isin в PySpark | In и Not In в PySpark | Руководство по pyspark:
• 13. isin in pyspark and not isin in pyspar...
14. select в PySpark | alias в pyspark | Azure Databricks #spark #pyspark #azuredatabricks #azure
• 14. select in PySpark | alias in pyspark |...
15. when в pyspark | otherwise в pyspark | alias в pyspark | case в pyspark:
• 15. when in pyspark | otherwise in pyspark...
16. Обработка значений NULL в pySpark DataFrame | Функция isNull в pyspark | Функция isNotNull в pyspark:
• 16. Null handling in pySpark DataFrame | i...
17. Функции fill() и fillna() в PySpark | как заменить значения NULL в pyspark | Azure Databrick:
• 17. fill() & fillna() functions in PySpark...
18. Функция GroupBy в PySpark | Функция agg в PySpark | Агрегатная функция в PySpark:
• 18. GroupBy function in PySpark | agg func...
19. Функция count в PySpark | Функция countDistinct в PySpark | Учебное пособие по PySpark для начинающих:
• 19. count function in pyspark | countDisti...
20. OrderBy в PySpark | Сортировка в PySpark | Разница между OrderBy и Сортировкой в PySpark:
• 20. orderBy in pyspark | sort in pyspark |...
21. Different и DropDuplicates в PySpark | Как удалить дубликаты в PySpark | Учебное пособие по pyspark:
• 21. distinct and dropduplicates in pyspark...
Платлист с учебными пособиями по Azure Databricks:
• Azure Databricks Tutorial
Плейлист с учебными пособиями по Azure Data Factory:
• Azure Data factory (adf)
Вопросы и ответы на собеседовании по ADF:
• adf interview questions and answers for ex...
Информация по комментариям в разработке