Sessione 2
2019 12 02
Ora inizieremo a considerare il fatto che non abbiamo a disposizione il modello, parliamo del Model-free prediction che rappresenta il vero Reinforcement learning. Nelle lezioni precedenti è stato fatta quella che viene chiamata "pianficazione" o "dynamic programming".
Iniziamo a parlare di predizione che ci fa capire quanto vale una policy prefissata.
Alcuni dei metodi che vedremo sono "Monte Carlo" e "Temporal difference".
Monte Carlo è un metodo che stima il valore degli stati facendo delle prove, però questo può essere oneroso perchè i passi possono essere tanti, in questi casi allora si fanno dei passi in avanti e si fa una differenza temporale tra il passo x e il passo x+y e si fa la dirrenza.
Entriamo quindi nel RL vero e proprio, verrà utilizzata la tecnica GPI che sta per "General Policy Iteration": prediction, improvemene, iteration.
Metodo Monte Carlo
E' un metodo che stima una quanitità facendo dei campionamenti casuali. (per es. Il metodo MC si usa per approssimare pigrego (pi))