Скачать или смотреть Gabriel Martín Blázquez - ¿Quién necesita datos teniendo distilabel?

Gabriel Martín Blázquez - ¿Quién necesita datos teniendo distilabel?

Скачать Gabriel Martín Blázquez - ¿Quién necesita datos teniendo distilabel? бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно Gabriel Martín Blázquez - ¿Quién necesita datos teniendo distilabel? или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

Информация по загрузке:

Cкачать музыку Gabriel Martín Blázquez - ¿Quién necesita datos teniendo distilabel? бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео Gabriel Martín Blázquez - ¿Quién necesita datos teniendo distilabel?

¿Quieres hacer fine-tuning de un modelo o LLM para un caso de uso específico pero no tienes datos? Entonces distilabel es tu solución, la biblioteca que hemos estado utilizando en Argilla estos últimos meses y con la cual hemos generado varios datasets que han sido tendencia en el Hugging Face Hub.

distilabel es una biblioteca para la generación de datos de texto (por el momento solo texto) de manera sintética utilizando LLMs creada por Argilla. Los datasets generados con distilabel permiten hacer fine-tuning de otros modelos (model distillation) o incluso de la propia LLM que se utilizó para generar los datos (self-learning).

La biblioteca permite desarrollar una pipeline compuesta por varios pasos jerarquizados mediante un Directed Acyclic Graph (DAG). Cada paso puede realizar una transformación o filtrado en los batches de datos que reciben, para después devolverlo. La pipeline es ejecutada de manera paralela y con un sistema basado en batches: los datos de entrada de la pipeline se dividen en batches que van fluyendo a través de los pasos.

Además, la biblioteca cuenta con pasos especiales denominados tareas, que definen la lógica para realizar generación de datos o anotación de datos utilizando una LLM (integramos casi todos los "engines": OpenAI API, vLLM, Hugging Face Inference Endpoints, Hugging Face Transformers, etc).

En esta charla explicaré por que desarrollamos distilabel, como fue su desarrollo y hablaré de su interesante arquitectura en Python, que trata de maximizar y paralelizar la ejecución de la pipeline para que esta sea lo más rápida posible. Además, pondré varios ejemplos de como utilizar distilabel para generar datos para vuestros casos de uso.

GitHub: https://github.com/argilla-io/distilabel

---
Python España: https://es.python.org/
Python Vigo: https://www.python-vigo.es/
BlueSky: @es.pycon.org
Twitter/X: @PyConES

Комментарии

Информация по комментариям в разработке