Q-Learning (1)
- Thèse de Watkins (89)
- Utilise 3 fonctions
- fonction d'évaluation : pour agir de fonction optimale
- fonction de renforcement : pour tenir compte du résultat
- fonction de mise à jour : pour mémoriser les résultats
- Mémoire stocké dans un table bidimensionnelle
- Composante aléatoire introduite pour favoriser l'exploration de l'environnement