88
diaporamaMiscDM
◃
Ch. 6 App par renforcement
▹
Q-Learning (2)
R
a1
a2
a3
a4
a5
a6
s1
+1
s2
+1
s3
0
0
s4
-1
0
s5
-1
s6
0
0
-1
Q
a1
a2
a3
a4
a5
a6
s1
0
+.8
0
0
+.7
0
s2
0
+.4
0
0
0
0
s3
0
0
+.3
0
0
0
s4
0
0
-1
0
+.8
0
s5
0
0
-.9
0
0
0
s6
+.1
0
0
0
0
-.7