Q-Learning (3)

Initialisation Q(s,a)=0 ∀ (s,a)
Répéter

Soit s_t une situation du monde
Choisir a^*=argMax (a)(Q(s_t,a')) ∀ (s_t, a') possible
a=a^*+Δa, avec Δa coefficient issue d'une gaussienne N(0,σ) et σ décroissant
Execution de a, réception du renforcement r associé
Mise à jour de la mémoire du robot :
Q(s_t,a) = Q(s_t,a) + β(r + γ.max_aQ(s_t+1,a")-Q(s_t,a)) avec 0 < β, γ <= 1