Vamos utilizar a plataforma OpenAI Gym para treinar e testar um sistema de controle baseado em Aprendizado por Reforço.
Instalação
Se estiver utilizando no Windows, abra o prompt do Anaconda (administrador) e digite:
Utilização básica
Algumas possibilidades de simulações disponibilizadas pela plataforma Gym, mais detalhes em: https://gym.openai.com/
import gym
gym.envs.registry.all()
Importações
Funções para visualizar e salvar (animações e figuras)
Obs.: No windows instale a seguinte biblioteca:
conda install -c conda-forge ffmpeg
Rodando um exemplo simples
Utilizamos nesse exemplo o problema Cart-pole (um carrinho com uma haste que deve se movimentar para manter a haste na vertical, a cada intervalo que a haste não caiu no chão, é fornecido pelo jogo uma recompensa de 1 ponto). Para garantir o sucesso ao longo de 200 intervalos, definimos uma política (algoritmo que o agente utiliza para maximizar as recompensas) para o agente: se o ângulo da haste é positiva, o carrinho deve deslocar para a direita (1), caso contrário, desloque para esquerda (0).