diaporamaMiscDM
 
◃  Ch. 6 App par renforcement  ▹
 

Fonction de mise à jour

  • Q(st,a) = Q(st,a) + β(r + γ.maxaQ(st+1,a")-Q(st,a)) avec 0 < β, γ <= 1
  • Le dernier terme est une estimation de l'erreur, la valeur suivante est supposée maximale
  • Permet d'anticiper le futur
  • Mémorise une information séquentielle au sein d'une implantation combinatoire