Logo video2dn
  • Сохранить видео с ютуба
  • Категории
    • Музыка
    • Кино и Анимация
    • Автомобили
    • Животные
    • Спорт
    • Путешествия
    • Игры
    • Люди и Блоги
    • Юмор
    • Развлечения
    • Новости и Политика
    • Howto и Стиль
    • Diy своими руками
    • Образование
    • Наука и Технологии
    • Некоммерческие Организации
  • О сайте

Скачать или смотреть Как измерить AI | Бенчмарки, тестирование и обучение LLM | Podlodka Podcast

  • Podlodka
  • 2025-07-15
  • 3220
Как измерить AI | Бенчмарки, тестирование и обучение LLM | Podlodka Podcast
подлодкаpodlodkallmaifine tuning llmбенчмарки llmai benchmarksswe benchmmlullm mmlummlu benchmarkhellaswaghellaswag llmlivecodebenchllm alignmentlmarenanatural language processingкак работает aiкак работает llmтестирование aiобучение llmclaudechatgptmachine learningllm evaluationllm evalswhat are llm evals
  • ok logo

Скачать Как измерить AI | Бенчмарки, тестирование и обучение LLM | Podlodka Podcast бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно Как измерить AI | Бенчмарки, тестирование и обучение LLM | Podlodka Podcast или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

  • Информация по загрузке:

Cкачать музыку Как измерить AI | Бенчмарки, тестирование и обучение LLM | Podlodka Podcast бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео Как измерить AI | Бенчмарки, тестирование и обучение LLM | Podlodka Podcast

Когда-то для оценки AI мы использовали только тест Тьюринга – человек общался с собеседником через чат, а потом пытался определить, кожаным или кремниевым был его собеседник. Сегодня мы видим, что оценка качества работы LLM – гораздо более сложная задача. Вместе с Пашей Чижовым из PleIAs мы закопались в то, как вообще сегодня оценивается AI, и обсудили все виды бенчмарков, арен, метрик, их врожденные недостатки, а заодно и как быть, когда по капоту вашего КАМАЗа ползет черт.

Полезные ссылки:
— Бенчмарки
https://huggingface.co/datasets/cais/...
https://huggingface.co/datasets/MMMU/...
https://huggingface.co/datasets/allen...
https://huggingface.co/datasets/Rowan...
https://huggingface.co/datasets/allen...
https://huggingface.co/datasets/Idavi...
https://lastexam.ai/
https://www.swebench.com/
https://arcprize.org/arc-agi
https://github.com/t3dotgg/SnitchBench

— Арена
https://lmarena.ai/

— Фреймворк для эвалов
https://github.com/EleutherAI/lm-eval...

— Бумаги
https://arxiv.org/abs/2504.07825
https://arxiv.org/abs/2311.12022
https://arxiv.org/abs/2406.12045

— Тех репорты с таблицами
https://www.anthropic.com/news/claude-4
https://ai.meta.com/blog/llama-4-mult...
https://blog.google/technology/google...
https://openai.com/index/introducing-...


❓ Хочешь обсудить выпуск или задать вопрос эксперту? Вступай в наш Telegram-чат: https://t.me/podlodka
📰 Не любишь чаты, но хочешь оставаться в курсе дел и прокачивать свой IT кругозор? Подписывайся на наш Telegram-канал: там публикуются анонсы новых выпусков, а в комментах идут ценные и горячие обсуждения! 5 тысяч опытных IT-специалистов уже с нами: https://t.me/podlodkanews
👉Предложить себя в подкаст https://forms.gle/NtmaZmeDAa3MHSra7

Тайм-коды:
00:00 О чем выпуск
05:15 Зачем и кому нужны бенчмарки
11:48 Подходы к оценке качества моделей
16:53 Популярные бенчмарки
19:24 Оценка бенчмарков
27:12 Оценка моделей
35:34 Открытость задач в бенчмарках
39:09 Проблема доступности данных в интернете
58:12 Безопасность моделей
01:03:00 Актуальность теста Тьюринга
01:05:30 Технические аспекты оценки моделей
01:10:56 Проблемы при оценке моделей
01:15:55 В чём суть арен
01:24:10 Реальные результаты моделей
01:27:20 Создание собственного бенчмарка
01:31:35 Критерии хорошего бенчмарка
01:38:30 Будущее LLM
01:43:40 Заключение

Комментарии

Информация по комментариям в разработке

Похожие видео

  • О нас
  • Контакты
  • Отказ от ответственности - Disclaimer
  • Условия использования сайта - TOS
  • Политика конфиденциальности

video2dn Copyright © 2023 - 2025

Контакты для правообладателей [email protected]