Визуальный анализ данных с Orange3. Классификационные задачи.

Описание к видео Визуальный анализ данных с Orange3. Классификационные задачи.

ЧТО ТАКОЕ ORANGE3?
Это визуальная среда анализа данных и построения data workflow:
— написана на языке Python
— переносима (portable) и доступна на Windows, macOS и Linux
— использует стандартные библиотеки Numpy, Scipy и Scikit-learn
— позволяет строить пайплайны (data analysis pipelines), причем мышью, без программирования.

ЧТО ДЕЛАЮ НА ВИДЕО:
Решаю задачу машинного обучения с учителем. Показываю, как пользоваться инструментами анализа классификационных задач:
логистическая регрессия
наивный байесовский метод
деревья решений
нейронные сети
оценка и сравнение моделей.

ЧТО АНАЛИЗИРУЮ?
Краудфандинговые кампании с Kickstarter. Посмотрим, какие кампании (с какими признаками) чаще собирают нужную сумму.


ОГЛАВЛЕНИЕ:
0:00:01 - приветы от ведущего
0:14:05 - краткий обзор различий между Machine Learning, Data Science и Data Engineering
0:16:00 - обзор Orange и его документации
0:20:30 - обзор виджетов
0:25:20 - обзор методологии анализа данных
0:28:15 - различие между классификационными и регрессионными задачами, обучением с учителем и без
0:36:30 - импорт данных, виджет File
0:39:35 - обзор датасета, виджеты Info и Data Table
0:54:30 - обзор виджетов для работы с загруженными данными (выделение подмножества данных, вставка отсутствующих данных, создание синтетических признаков)
1:03:05 - обзор виджетов алгоритмов классификации
1:07:50 - ответ на вопрос про максимальный размер обрабатываемых данных
1:09:25 - про аналогичные визуальные инструменты
1:10:30 - голосование за первый алгоритм классификации
1:11:05 - про многоклассовую классификацию
1:14:50 - применение наивного Байесовского классификатора, оценка качества, виджет Test and Score
1:22:40 - виджет ROC
1:27:25 - виджет Confusion Matrix
1:29:20 - применение логистической регрессии
1:31:50 - применение SVM
1:35:15 - применение нейронной сети
1:40:05 - про градиентный спуск
1:47:25 - применение дерева решений
1:50:25 - визуализация дерева решений
1:54:00 - небинарное дерево решений
1:57:30 - про относительное влияние факторов и выбор наиболее значимых
1:59:15 - виджет Rank, автоматическое ранжирование и выбор факторов
2:11:55 - применение Random Forest
2:16:10 - немного про ансамблевые модели и бустинг
2:20:00 - про визуализацию Random Forest
2:23:40 - выводы
2:25:45 - про визуализацию
2:28:50 - применение виджета Scatter Plot
2:32:15 - финальные слова благодарности



 ***
#dataAnalysis #neuralNetwork #machineLearning

Комментарии

Информация по комментариям в разработке