Temporal Difference Learning : QLearning

Attention : cette page n'est pas adaptée à une utilisation mobile ou tablette !

Le Q-Learning est un algorithme fondamental de l’apprentissage par renforcement, une branche de l’intelligence artificielle où un agent apprend à prendre des décisions en interagissant avec un environnement, de façon à maximiser une récompense cumulative. L’un de ses grands avantages est sa capacité à apprendre par l’expérience, sans supervision, et à s’adapter à des environnements incertains ou partiellement connus.

						Trouvez le plus court chemin vers le diamant tout en évitant les flammes.
					

Vitesse de l'expérience : 0.20

Exploration ε : 0.15

Récompense de la case :

Équation utilisée pour mettre à jour les valeurs :

\( Q(s, a) \)

\( \leftarrow \)

\( \underbrace{\textcolor{blueviolet}{Q(s, a)}} \)

\( + \)

\( \underbrace{\textcolor{orange}{\alpha}} \)

\( \times \)

\( [ \, \)

\( \underbrace{\textcolor{teal}{R_{t+1}}} \)

\( + \)

\( \underbrace{\textcolor{purple}{\gamma}} \)

\( \times \)

\( \underbrace{\textcolor{blue}{max_{a'}Q(s_{t+1}, a')}} \)

\( - \)

\( \underbrace{\textcolor{blueviolet}{Q(s, a)}} \)

\( ] \, \)

Probabilité que la flamme brûle \( p \) : 1.0

Taux d'apprentissage \( \alpha \) : 0.10

Facteur de réduction \( \gamma \) : 0.9

Valeurs pour chaque action :

Gauche

Droite

Haut

Bas

Mickaël Dupont

Temporal Difference Learning : QLearning

Attention : cette page n'est pas adaptée à une utilisation mobile ou tablette !

Équation utilisée pour mettre à jour les valeurs :

Valeurs pour chaque action :

Nombre d'actions pour atteindre l'objectif :