diaporamaMiscDM
 
◃  Ch. 6 App par renforcement  ▹
 

Q-Learning (1)

  • Thèse de Watkins (89)
  • Utilise 3 fonctions
    • fonction d'évaluation : pour agir de fonction optimale
    • fonction de renforcement : pour tenir compte du résultat
    • fonction de mise à jour : pour mémoriser les résultats
  • Mémoire stocké dans un table bidimensionnelle
  • Composante aléatoire introduite pour favoriser l'exploration de l'environnement