Представление текста в цифровом виде для нейросети | Нейросети для анализа текстов

Описание к видео Представление текста в цифровом виде для нейросети | Нейросети для анализа текстов

В видео рассматриваются различные методы токенизации и векторизации текста для представления его в виде, пригодном для обработки нейросетью. Страница курса - https://www.asozykin.ru/courses/nnpython

Нейронные сети могут работать только с числами. Поэтому перед обработкой текста нейронной сетью, его нужно конвертировать в набор чисел. Для этого используется два шага:
1. Токенизация - разделение текста на отдельные части: символы, слова, предложения.
2. Векторизация - представление каждого токена в виде чисел: кода или вектора (one hot encoding или embedding).

Предварительно обученные плотные векторные представления слов:
1. GloVe (Global Vectors) - https://nlp.stanford.edu/projects/glove/
2. Word2Vec, Google - https://code.google.com/archive/p/wor...
3. FastText, Facebook - https://fasttext.cc

Плотные векторные представления слов для русского языка:
1. RusVectōrēs – https://rusvectores.org
2. RUSSE (Russian Semantic Evaluation) – https://russe.nlpub.org/downloads/

Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig. Linguistic Regularities in Continuous Space Word Representations - https://www.microsoft.com/en-us/resea...

Как можно поддержать курс:
1. Яндекс Кошелек - https://money.yandex.ru/to/4100142982...
2. PayPal - https://www.paypal.me/asozykin
Заранее спасибо за помощь!

Добавляйтесь в друзья в социальных сетях:
вКонтакте - https://vk.com/avsozykin
Instagram -   / sozykin_andr  
Facebook -   / asozykin  
Twitter -   / andreysozykin  

Мой сайт - https://www.asozykin.ru

Мой канал с краткими и понятными объяснениями сложных тем в ИТ и компьютерных науках -    / andreysozykincs  

Комментарии

Информация по комментариям в разработке