Fonction de renforcement
- Fournit pour chaque situation une évaluation qualitative de son intérêt par rapport au comportement attendu.
- Retourne 0 lorsqu'on ne sait pas évaluer la situation
- La situation présente évaluée est utilisé comme feeback pour le couple (situation, action) précédent