Q-Learning (1)

Thèse de Watkins (89)
Utilise 3 fonctions
- fonction d'évaluation : pour agir de fonction optimale
- fonction de renforcement : pour tenir compte du résultat
- fonction de mise à jour : pour mémoriser les résultats
Mémoire stocké dans un table bidimensionnelle
Composante aléatoire introduite pour favoriser l'exploration de l'environnement