Logo video2dn
  • Сохранить видео с ютуба
  • Категории
    • Музыка
    • Кино и Анимация
    • Автомобили
    • Животные
    • Спорт
    • Путешествия
    • Игры
    • Люди и Блоги
    • Юмор
    • Развлечения
    • Новости и Политика
    • Howto и Стиль
    • Diy своими руками
    • Образование
    • Наука и Технологии
    • Некоммерческие Организации
  • О сайте

Скачать или смотреть ICNLSP 2024: A Comparison of Different Tokenization Methods for the Georgian Language

  • ICNLSP Conference
  • 2024-11-12
  • 62
ICNLSP 2024: A Comparison of Different Tokenization Methods for the Georgian Language
  • ok logo

Скачать ICNLSP 2024: A Comparison of Different Tokenization Methods for the Georgian Language бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно ICNLSP 2024: A Comparison of Different Tokenization Methods for the Georgian Language или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

  • Информация по загрузке:

Cкачать музыку ICNLSP 2024: A Comparison of Different Tokenization Methods for the Georgian Language бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео ICNLSP 2024: A Comparison of Different Tokenization Methods for the Georgian Language

A Comparison of Different Tokenization Methods for the Georgian Language

By:Beso Mikaberidze, Temo Saghinadze, Guram Mikaberidze, Raphael Kalandadze, Konstantine Pkhakadze, Josef van Genabith, Simon Ostermann, Lonneke van der Plas and Philipp Müller.
(MIMC)

7th International Conference on Natural Language and Speech Processing.
https://icnlsp.org/2024welcome

Abstract:
While the impact of tokenization on language modeling is well-researched in richly resourced languages, fewer studies on this topic exist for challenging low-resource languages.
In this work, we present the first systematic evaluation of tokenization methods for Georgian, a low-resource language with high morphological complexity.
We compare standard subword tokenizers, such as WordPiece, Byte Pair Encoding, SentencePiece with Unigram, and a recently proposed token-free approach.
We also investigate the multilingual BERT tokenizer (mBERT), which includes Georgian.
In addition to these different classes of tokenization algorithms we also evaluate the impact of different vocabulary sizes, a key parameter for subword tokenizers.
We evaluate the performance of all tokenizers on masked language modeling and on four downstream tasks: part-of-speech tagging, named entity recognition, toxicity detection, and sentiment analysis.
We observe that larger vocabulary sizes for subword tokenizers generally lead to better performance across most tasks, with a notable exception in the toxicity detection task, where finer subword granularity is more effective. For the remaining tasks, pre-training tokenizers on Georgian text consistently yield better results compared to mBERT.
Additionally, the token-free method is consistently outperformed by all other tokenizers.
Taken together, our comprehensive evaluation of tokenizers will be highly valuable in making informed tokenization choices in future language model developments for Georgian."

Комментарии

Информация по комментариям в разработке

Похожие видео

  • О нас
  • Контакты
  • Отказ от ответственности - Disclaimer
  • Условия использования сайта - TOS
  • Политика конфиденциальности

video2dn Copyright © 2023 - 2025

Контакты для правообладателей [email protected]