Logo video2dn
  • Сохранить видео с ютуба
  • Категории
    • Музыка
    • Кино и Анимация
    • Автомобили
    • Животные
    • Спорт
    • Путешествия
    • Игры
    • Люди и Блоги
    • Юмор
    • Развлечения
    • Новости и Политика
    • Howto и Стиль
    • Diy своими руками
    • Образование
    • Наука и Технологии
    • Некоммерческие Организации
  • О сайте

Скачать или смотреть PPO в Reinforcement Learning: почему агент всегда покупает (разбор трейдинг-среды)

  • Alex Klimov
  • 2026-01-07
  • 215
PPO в Reinforcement Learning: почему агент всегда покупает (разбор трейдинг-среды)
reinforcement learningppogymnasiumrl трейдингалгоритмический трейдингpythonmachine learningstable baselines3rlai трейдингобучение с подкреплениемtrading botgymnasium environmentppo трейдинг
  • ok logo

Скачать PPO в Reinforcement Learning: почему агент всегда покупает (разбор трейдинг-среды) бесплатно в качестве 4к (2к / 1080p)

У нас вы можете скачать бесплатно PPO в Reinforcement Learning: почему агент всегда покупает (разбор трейдинг-среды) или посмотреть видео с ютуба в максимальном доступном качестве.

Для скачивания выберите вариант из формы ниже:

  • Информация по загрузке:

Cкачать музыку PPO в Reinforcement Learning: почему агент всегда покупает (разбор трейдинг-среды) бесплатно в формате MP3:

Если иконки загрузки не отобразились, ПОЖАЛУЙСТА, НАЖМИТЕ ЗДЕСЬ или обновите страницу
Если у вас возникли трудности с загрузкой, пожалуйста, свяжитесь с нами по контактам, указанным в нижней части страницы.
Спасибо за использование сервиса video2dn.com

Описание к видео PPO в Reinforcement Learning: почему агент всегда покупает (разбор трейдинг-среды)

В этом видео мы подключаем PPO (Proximal Policy Optimization) к простой трейдинг-среде Gymnasium и подробно разбираем результаты обучения агента.

Без иллюзий и «волшебных кнопок»:
ты увидишь, почему PPO выбирает стратегию “покупай всегда”, что означают метрики обучения (entropy, explained_variance, loss) и почему алгоритм работает правильно — даже если стратегия выглядит опасной.

Это видео — про реальный Reinforcement Learning, а не про маркетинг.

🔍 В видео разбираем

как PPO обучается в трейдинг-среде

что означают логи обучения stable-baselines3

почему explained_variance = 1 — тревожный сигнал

почему агент перестаёт продавать

как reward формирует поведение агента

где проходит граница между RL и реальным трейдингом

PPO не учится торговать.
Он учится максимизировать reward, который ты сам ему задал.

И если reward плохой — алгоритм будет идеально плохим.

Код из видео:
https://boosty.to/avklimov/posts/e445...

✅️ Кешбэк до 45% на Bybit: https://partner.bybit.com/b/KLIMOVGROUP

✅️ Кешбэк до 45% для уже зарегистрированных аккаунтов Bybit. В поле Реферальный код нужно указать: 52082
https://www.bybit.com/ru-RU/aff-bind?...

Телеграм канал:
https://t.me/klimovgroup

Личка:
https://t.me/AVKlimov

#reinforcementlearning
#ppo
#gymnasium
#rlтрейдинг
#алготрейдинг
#python
#machinelearning
#stablebaselines3
#rl
#aiтрейдинг

00:00 — Введение и цель видео
00:04 — Что мы сделали в прошлом видео (RL + Gymnasium)
00:10 — Сегодняшний шаг: подключаем PPO
00:17 — Важное предупреждение о рисках трейдинга
00:27 — Учебный формат и дисклеймер
00:34 — Кэшбэк 45% на Bybit (партнёрская ссылка)

00:39 — Зачем подключаем PPO к трейдинг-среде
00:45 — PPO не сделает вас прибыльным трейдером
00:51 — Главная цель: понять, как RL учится
00:57 — Что такое PPO простыми словами
01:03 — Почему PPO подходит для трейдинга
01:14 — Почему трейдинг — шумная среда без оптимума

01:19 — Ключевой принцип: среду не меняем
01:24 — Почему сначала меняют модель, а не reward
01:30 — Обзор кода и структура проекта
01:34 — Импорт модулей и stable-baselines3
01:40 — Установка зависимостей
01:48 — Создание PPO-модели
01:55 — MLP Policy и параметры обучения
02:01 — Запуск обучения PPO
02:07 — Почему агент видит только reward

02:14 — Тестируем обученного агента
02:20 — Чем обученный агент отличается от случайного
02:24 — Два типичных поведения PPO в трейдинге
02:29 — PPO оптимизирует reward, а не торговлю

02:54 — Запуск кода и процесс обучения
03:00 — Разбор логов PPO (fps, timesteps, iterations)
03:14 — Почему обучение прошло успешно
03:27 — PPO не учится торговать — ключевой момент

03:34 — Анализ реального поведения агента
03:40 — Почему агент всегда выбирает BUY
03:46 — Разбор шагов и награды
03:53 — Агент терпит просадки и не выходит
04:07 — Стратегия «пересиживания»
04:18 — Финальный PnL и предел reward-схемы

04:23 — Главный вывод: стратегия «Buy & Hold»
04:29 — Почему SELL ухудшает reward
04:35 — Отсутствие штрафов за риск и просадки
04:40 — RL против трейдинга: в чём конфликт
04:45 — Почему это не ошибка PPO
04:52 — Ошибка в дизайне reward

04:58 — Что будем менять дальше
05:04 — Reward только при продаже
05:10 — Анонс следующего видео
05:15 — Лайк, подписка и курс по алготрейдингу
05:26 — Завершение

Комментарии

Информация по комментариям в разработке

Похожие видео

  • О нас
  • Контакты
  • Отказ от ответственности - Disclaimer
  • Условия использования сайта - TOS
  • Политика конфиденциальности

video2dn Copyright © 2023 - 2025

Контакты для правообладателей [email protected]