Fonction de mise à jour

Q(s_t,a) = Q(s_t,a) + β(r + γ.max_aQ(s_t+1,a")-Q(s_t,a)) avec 0 < β, γ <= 1
Le dernier terme est une estimation de l'erreur, la valeur suivante est supposée maximale
Permet d'anticiper le futur
Mémorise une information séquentielle au sein d'une implantation combinatoire