Анализ тональности комментариев в YouTube с помощью машинного обучения (TF-IDF, LogisticRegression)

Описание к видео Анализ тональности комментариев в YouTube с помощью машинного обучения (TF-IDF, LogisticRegression)

В этом видео:

00:00 - Составляем план построения классификатора

03:20 - Загружаем и знакомимся с текстами комментариев

05:56 - Предобрабатываем тексты, очищаем от лишних символов и удаляем стопслова

07:33 - Получаем частотность слов в комментариях

12:16 - Создаем красивые графики "облака тэгов"

13:31 - Находим размеченный набор текстов для обучения алгоритма классификации

18:09 - Предобрабатываем размеченный набор данных и получаем векторные представления его текстов TF-IDF

22:34 - Классифицируем комментарии размеченного датасета с помощью логистической регрессии

27:00 - Оценим качество классификации с помощью графиков ROC-кривых и матрицы ошибок

34:42 - Выведем слова с наибольшим влиянием на прогноз классификатора

34:42 - Проведем снижение размерности TF-IDF векторов с помощью дистилляции словаря

39:35 - Примененим обученный классификатор Логистической регрессии для получения оценки негативности комментариев

42:55 - Валидируем полученные оценки, создадим графики скрипичных диаграмм распределения комментариев по оценки негативности


Ссылка на все используемые в этом видео файлы и код : https://github.com/NikitiusIvanov/rus...

Ссылка на статью на Хабре: https://habr.com/ru/post/599445/

Комментарии

Информация по комментариям в разработке