“A Aprendizagem por Reforço refere-se a um paradigma de aprendizagem de maquina onde um agente interage com um ambiente circundante para aprender como realizar uma tarefa. Muitas vezes, a aprendizagem é afetado pelas características e a forma de como o agente percebe o ambiente. As características do ambiente podem mudar sobre o tempo ou ser afetadas por perturbações externas que o agente não pode controlar. Por outro lado, as representações discretas do ambiente permitem que a aprendizagem seja rápida, e os algoritmos sejam simples para desarrolhar uma tarefa. No entanto, a informação perde-se durante o processo de discretização. Além disso, em espaços contínuos, o agente demora muito para encontras as ações ótimas. Algumas propostas resolvem esses problemas, por exemplo, a Aprendizagem por Reforço Interativo é uma abordagem no qual uma entidade externa ajuda aprender ao agente através de um feedback. Também tem abordagens robustas, como Aprendizagem por Reforço Robusto, que permite ao agente aprender uma tarefa considerando perturbações produzidas no ambiente. Nesta dissertação, propõe-se uma metodologia para implementar Aprendizagem por Reforço Interativo em cenários onde os estados e as ações estão em espaços contínuos e o ambiente é dinâmico. Para avaliar a proposta, implementou-se um cenário simples, o problema do Cart-pole, onde as características do ambiente mudam em cada episodio. Os resultados mostraram que a abordagem proposta aumenta a recompensa acumulada em relação ao método de aprendizagem autônomo, além disso, o agente é robusto contra mudanças nas características do ambiente.”