Sessione 2
2019 12 02
Ora inizieremo a considerare il fatto che non abbiamo a disposizione il modello, parliamo del Model-free prediction che rappresenta il vero Reinforcement learning. Nelle lezioni precedenti è stato fatta quella che viene chiamata "pianficazione" o "dynamic programming".
Iniziamo a parlare di predizione che ci fa capire quanto vale una policy prefissata.
Alcuni dei metodi che vedremo sono "Monte Carlo" e "Temporal difference".
Entriamo quindi nel RL vero e proprio, verrà utilizzata la tecnica GPI che sta per "General Policy Iteration": prediction, improvemene, iteration.
Metodo Monte Carlo