Валерия Дымбицкая — Ищем релевантные признаки из сотен источников для любой модели

Описание к видео Валерия Дымбицкая — Ищем релевантные признаки из сотен источников для любой модели

Ближайшая конференция: I’ML 2025, даты будут анонсированы позднее. Подробнее об I’ML: https://jrg.su/1drGPM
— —
Скачать презентацию с сайта I'ML — https://jrg.su/0cxaE2

Итак, вы хотите использовать внешние данные для обучения. Как найти нужные? Можно опираться на метаданные датасетов: их схему, описание, различные фильтры... и потом погрузиться в работу по очистке данных и в эксперименты. И может случиться так, что с виду хороший датасет совсем не подходит для вашей задачи.

А если иначе? В Upgini делают сервис, который упрощает этот процесс до одного запроса в Google вызова open-source библиотеки. Каков путь от эталона и сотен источников до фич, повышающих GINI? Какие ловушки подстерегают, когда из тысяч признаков нужно выбрать оптимальный набор? И при чем тут LLM? Обо всем этом — в докладе Валерии.

Комментарии

Информация по комментариям в разработке