BPE-токенизация и её улучшения / Антон Земеров

Описание к видео BPE-токенизация и её улучшения / Антон Земеров

VK Lab Talks · Summer Edition, 1 июля 2021, онлайн.

Студент третьего курса ФПМИ Антон Земеров рассказывает о BPE-токенизации и её улучшениях.

Доклад посвящён state-of-the-art методам поиска оптимального разбиения текста на токены. Антон делится его подробностями: «Сначала рассмотрим классический алгоритм токенизации — Byte Pair Encoding. Затем — его улучшения: BPE-Dropout и Variational BPE-Dropout. Последний был разработан в VK Lab. Этот алгоритм использует вариационные методы и обучение с подкреплением, чтобы оптимально токенизировать текст. В докладе мы разберём сильные и слабые стороны каждого из методов, а также сравним их качество для задачи текстовой классификации».

Следите за нашими новостями в сообществе VK Lab: https://vk.com/lab

Комментарии

Информация по комментариям в разработке