Fonction de mise à jour
- Q(st,a) = Q(st,a) + β(r + γ.maxaQ(st+1,a")-Q(st,a)) avec 0 < β, γ <= 1
- Le dernier terme est une estimation de l'erreur, la valeur suivante est supposée maximale
- Permet d'anticiper le futur
- Mémorise une information séquentielle au sein d'une implantation combinatoire