Soit st une situation du monde
Choisir a*=argMax (a)(Q(st,a')) ∀ (st, a') possible
a=a*+Δa, avec Δa coefficient issue d'une gaussienne N(0,σ) et σ décroissant
Execution de a, réception du renforcement r associé
Mise à jour de la mémoire du robot :
Q(st,a) = Q(st,a) + β(r + γ.maxaQ(st+1,a")-Q(st,a)) avec 0 < β, γ <= 1