Mickaël Dupont

Temporal Difference Learning : QLearning

Attention : cette page n'est pas adaptée à une utilisation mobile ou tablette !

Le Q-Learning est un algorithme fondamental de l’apprentissage par renforcement, une branche de l’intelligence artificielle où un agent apprend à prendre des décisions en interagissant avec un environnement, de façon à maximiser une récompense cumulative. L’un de ses grands avantages est sa capacité à apprendre par l’expérience, sans supervision, et à s’adapter à des environnements incertains ou partiellement connus.
Trouvez le plus court chemin vers le diamant tout en évitant les flammes.

Vitesse de l'expérience : 0.20
Exploration ε : 0.15


Récompense de la case :

Équation utilisée pour mettre à jour les valeurs :

\( Q(s, a) \) \( \leftarrow \) \( \underbrace{\textcolor{blueviolet}{Q(s, a)}} \) \( + \) \( \underbrace{\textcolor{orange}{\alpha}} \) \( \times \) \( [ \, \) \( \underbrace{\textcolor{teal}{R_{t+1}}} \) \( + \) \( \underbrace{\textcolor{purple}{\gamma}} \) \( \times \) \( \underbrace{\textcolor{blue}{max_{a'}Q(s_{t+1}, a')}} \) \( - \) \( \underbrace{\textcolor{blueviolet}{Q(s, a)}} \) \( ] \, \)

Probabilité que la flamme brûle \( p \) : 1.0
Taux d'apprentissage \( \alpha \) : 0.10
Facteur de réduction \( \gamma \) : 0.9

Valeurs pour chaque action :

Gauche
Droite
Haut
Bas

Nombre d'actions pour atteindre l'objectif :