Скачать или смотреть LiveCodeBench Pro: How Do Olympiad MedalistsJudge LLMs in Competitive Programming?

LiveCodeBench Pro: How Do Olympiad MedalistsJudge LLMs in Competitive Programming?

Скачать LiveCodeBench Pro: How Do Olympiad MedalistsJudge LLMs in Competitive Programming? бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно LiveCodeBench Pro: How Do Olympiad MedalistsJudge LLMs in Competitive Programming? или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

Информация по загрузке:

Cкачать музыку LiveCodeBench Pro: How Do Olympiad MedalistsJudge LLMs in Competitive Programming? бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео LiveCodeBench Pro: How Do Olympiad MedalistsJudge LLMs in Competitive Programming?

LiveCodeBench Pro: Экспертная оценка LLM в спортивном программировании

В данной статье представлен LiveCodeBench Pro, новый бенчмарк, разработанный для строгой оценки больших языковых моделей (LLM) в спортивном программировании с использованием экспертных человеческих знаний. Бенчмарк включает постоянно обновляемые задачи с престижных соревнований, таких как Codeforces, ICPC и IOI, чтобы минимизировать загрязнение данных. Эксперты в области спортивного программирования аннотируют каждую задачу, классифицируя их по алгоритмической теме, сложности и когнитивному фокусу, такому как знание, логика или наблюдение. Оценка передовых моделей на LiveCodeBench Pro показывает, что LLM все еще имеют значительные ограничения, достигая нулевого процента прохождения на сложных задачах. Модели хорошо справляются с задачами, требующими больших знаний и логики, но испытывают трудности с задачами, требующими внимательности/наблюдательности, и сложными случаями. Экспертный анализ неудачных попыток показывает, что отказы моделей в основном вызваны концептуальными ошибками, что контрастирует с типичными человеческими ошибками, где чаще встречаются проблемы с реализацией. Разрешение нескольких попыток (pass@k) существенно улучшает производительность на более простых задачах, но не устраняет разрыв на сложных. Модели, использующие рассуждения (reasoning models), демонстрируют улучшение производительности по сравнению с моделями без рассуждений, особенно в структурированных и логических задачах. Несмотря на заявления о превосходстве над элитными программистами, между текущими LLM и уровнем гроссмейстеров в спортивном программировании остается существенный разрыв. LiveCodeBench Pro предоставляет детальную диагностику для направления будущих исследований по улучшению способностей LLM к рассуждениям в кодировании.

paper - https://arxiv.org/pdf/2506.11928v1
subscribe - https://t.me/arxivdotorg
created with NotebookLM

Комментарии

Информация по комментариям в разработке