Reinforcement Learing (beginner)
Sessione 1 (Markov Decision Process)
Task di controllo Il Task di Controllo è una sequenza di stati e azioni utili per addestrare l'a...
Sessione 2 (Dynamic Programming)
La programmazione dinamica (aka DP) è il primo metodo in grado di risolvere il task di controllo....
Sessione 3 (Metodo Montecarlo)
Il Metodo Montecarlo (MC) migliora la policy iteragendo con l'ambiente e ottenendo dei ritorni (s...
Sessione 4 (Temportal Difference)
54