Autres algorithmes

Mahadevan et Connel (1991) utilise une distance de Hamming pour généraliser les similitudes.
Sutton propose l'architecture Dyna (1991) pour améliorer la mise à jour de la mémoire.
Implantation dès 1992 du Q-Learning dans les réseaux de neurones : Q-CON (Lin 93), Q-KOHON
...
Processus Décisionnels Markoviens