Monolingual and Cross-lingual Text Detoxification [in Russian]

Описание к видео Monolingual and Cross-lingual Text Detoxification [in Russian]

Докладчик: Александр Панченко (Associate Professor, Skoltech, NLP Lab, AI Center)

В этом докладе мы рассмотрим задачу переноса текстового стиля на примере задачи детоксикации текста. В первой части доклада мы рассмотрим моноязычный эксперимент сбора параллельных данных для задачи детоксикации. Мы собираем нетоксичные парафразы для английских и русских токсичных предложений. Используя полученный набор данных, мы обучаем несколько моделей seq2seq детоксикации на собранных данных и сравниваем их с несколькими базовыми моделями и современными подходами, не требующими наблюдения. Все модели, обученные на параллельных данных, с большим отрывом превосходят современные модели. Во второй части доклада мы рассмотрим многоязычный эксперимент, в котором мы решаем проблему детоксикации текста для языка, на котором отсутствует параллельный корпус. Кроме этого, мы обсудим эксперименты в которых перевод и передача стиля должны решаться совместно.

Демо моноязычных (английский и русский) текстовых детоксификаторов доступны в виде телеграмм-бота (https://t.me/rudetoxifierbot) и веб-приложения: https://detoxifier-nlp-zh.skoltech.ru. Результаты исследования для английского представлены на ACL-2022 (https://aclanthology.org/2022.acl-lon..., а русскоязычный набор данных по детоксикации использовался для выполнения общего задания на конференции Dialogue Evaluation 2022 (https://www.dialog-21.ru/evaluation/2...)

Комментарии

Информация по комментариям в разработке