Aulão de Aprendizado por Reforço [Teoria e Prática!]

Описание к видео Aulão de Aprendizado por Reforço [Teoria e Prática!]

Chegou a sua vez de ensinar uma IA a jogar! Combo de 4 módulos com 50% OFF: https://didatica.tech/combo-modulos-i...

Aprendizagem por reforço é uma técnica em amplo desenvolvimento e pesquisa devido aos seus excelentes resultados. Nesse vídeo tutorial você vai aprender do zero como funciona e como aplicar na prática utilizando Python.

Organização do vídeo:
00:00 Conteúdo da Aula
00:48 Sobre a Teoria
02:26 O que é Aprendizado por Reforço
09:20 Ações, estados, recompensas
13:35 Exploration vs Exploitation
16:47 O que são ambientes virtuais
19:32 Criando um ambiente virtual
21:47 Instalando Jupyter Notebook
22:29 Instalando Stable Baselines, Gym, Super-Mario
26:22 O que é Stable Baselines
29:08 Emulador Super Mario Bros
33:04 Explorando a gym-super-mario-bros
49:00 Wrappers skipping, stacking, clipping
01:01:12 Criando um arquivo .py
01:03:37 Treinando o modelo com paralelismo
01:20:55 Testando o modelo

Comando para criar o ambiente virtual:
conda create -n ambienteRL python=3.7 pip

Ativando o ambiente:
conda activate ambienteRL

Comando para instalar o jupyter notebook:
pip install jupyter

Comando para instalar a biblioteca Stable Baselines:
pip install stable-baselines3

Comando para instalar o emulador do Super Mario:
pip install gym-super-mario-bros

Compilador C++ do Visual Studio: https://visualstudio.microsoft.com/pt...

Comando para instalar a biblioteca OpenCV:
pip install opencv-python

Pasta com todos os códigos python e jupyter notebooks utilizados nessa aula:
https://didatica.tech/wp-content/uplo...

Documentação oficial Stable Baselines: https://stable-baselines.readthedocs....
Documentação Gym Super Mario: https://pypi.org/project/gym-super-ma...

Todos os cursos Didática Tech: https://tiny.cc/a4tn/

O aprendizado por reforço é um tipo de aprendizado de máquina onde um agente aprende a tomar decisões através de interações com seu ambiente. Imagine que você está jogando um jogo de videogame. Você não sabe quais ações levam à vitória, então começa a experimentar (atacar aqui, defender ali, recuar, avançar, pegar itens etc.). Com o tempo, você percebe que algumas ações tendem a aumentar sua pontuação ou levar a uma vitória. Então, você começa a repetir essas ações e evitar outras que levem a resultados negativos.

No aprendizado por reforço, o agente (que seria você, no exemplo do videogame) recebe recompensas (como pontos ou vitórias) ou punições (como perder pontos ou o jogo) com base nas ações que toma. O objetivo do agente é maximizar a quantidade total de recompensas.

Assim, o agente começa a aprender uma "policy", que é basicamente uma estratégia que ele usa para decidir qual ação tomar em um determinado estado do ambiente. Esta policy é continuamente atualizada à medida que o agente aprende mais sobre o ambiente e as recompensas associadas a diferentes ações.

A beleza do aprendizado por reforço é que o agente pode aprender a partir da experimentação direta e da tentativa e erro, sem necessidade de instruções explícitas ou supervisão direta.

Para mais informações teóricas, leia esse artigo: https://didatica.tech/introducao-a-ap...

#AprendizadoporReforço #python #inteligenciaartificial

Комментарии

Информация по комментариям в разработке