Temporal Difference Learning : QLearning
Attention : cette page n'est pas adaptée à une utilisation mobile ou tablette !
Trouvez le plus court chemin vers le diamant tout en évitant les flammes.
Vitesse de l'expérience : 0.20
Exploration ε : 0.15
Récompense de la case :
Équation utilisée pour mettre à jour les valeurs :
| \( Q(s, a) \) | \( \leftarrow \) | \( \underbrace{\textcolor{blueviolet}{Q(s, a)}} \) | \( + \) | \( \underbrace{\textcolor{orange}{\alpha}} \) | \( \times \) | \( [ \, \) | \( \underbrace{\textcolor{teal}{R_{t+1}}} \) | \( + \) | \( \underbrace{\textcolor{purple}{\gamma}} \) | \( \times \) | \( \underbrace{\textcolor{blue}{max_{a'}Q(s_{t+1}, a')}} \) | \( - \) | \( \underbrace{\textcolor{blueviolet}{Q(s, a)}} \) | \( ] \, \) |
Probabilité que la flamme brûle \( p \) : 1.0
Taux d'apprentissage \( \alpha \) : 0.10
Facteur de réduction \( \gamma \) : 0.9
Valeurs pour chaque action :
Gauche
Droite
Haut
Bas