КАК РАБОТАЕТ WORD2VEC И ПОЧЕМУ ОН НЕ РАБОТАЕТ

Описание к видео КАК РАБОТАЕТ WORD2VEC И ПОЧЕМУ ОН НЕ РАБОТАЕТ

Клышинский Э.С., PhD, Associate Professor, Dept. of Computer Science,
Higher School of Economics,
Moscow, Russia.

В 2013 году команда из Google предложила новый метод, который позволяет приписать каждому слову в коллекции текстов некоторый вектор в семантическом пространстве. Основой для метода послужила старая идея о том, что смысл слова можно понять по его окружению. Построение взвешенного графа связей между словами позволяет дать оценку степени близости слов, а сам этот граф вполне может быть построен из текста. При помощи несложных преобразований граф переносится в пространство, которое обладает рядом полезных свойств: слова одной предметной области оказываются недалеко друг от друга, в полученном пространстве работают аналогии, появлятся возможность измерить семантическое расстояние между словами. Аналогии в подобном пространстве работают в виде векторых операций. Если из вектора слова “мужчина” вычесть вектор слова “женщина” и прибавить вектор слова “король”, то должен получиться вектор слова “королева”. На практике вскоре выяснилось, что подобный подход работает далеко не везде. Кроме того, если слово обладает несколькими значениями, то все они будут объединены в вектор с каким-то усредненным значением. Последний недостаток исправляет подходы BERT и ELMO, выдающие вектор только для контекста

The online workshop for young scientists “Network analysis in human cognition and language processing”
Воркшоп Института психологии РАН для молодых ученых "Моделирование и анализ сетей в когнитивной системе человека и языке".
24 - 25 октября 2020 года

Комментарии

Информация по комментариям в разработке