Deduplication of Large-scale Text Datasets for Pretraining of Language Models

Скачать Deduplication of Large-scale Text Datasets for Pretraining of Language Models бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно Deduplication of Large-scale Text Datasets for Pretraining of Language Models или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

Cкачать музыку Deduplication of Large-scale Text Datasets for Pretraining of Language Models бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео Deduplication of Large-scale Text Datasets for Pretraining of Language Models

In this talk, I'll cover the newly released DataComp for Language Models project, in which we generate a testbed for controlled experiments of building better datasets for pretraining language models in a compute-limited regime. From here I'll pivot to discussing one particular aspect of building better datasets: removing duplicates and near-duplicates from large corpuses of text, explaining several key techniques as well as our findings from extensive deduplication ablations. Finally, I'll raise some several open questions and future directions regarding deduplication of pretraining datasets, including some unpublished (but interesting!) results.

Комментарии

Информация по комментариям в разработке