Sessione 2

2019 12 02

Ora inizieremo a considerare il fatto che non abbiamo a disposizione il modello, parliamo del Model-free prediction che rappresenta il vero Reinforcement learning. Nelle lezioni precedenti è stato fatta quella che viene chiamata "pianficazione" o "dynamic programming".

Iniziamo a parlare di predizione che ci fa capire quanto vale una policy prefissata.

Alcuni dei metodi che vedremo sono "Monte Carlo" e "Temporal difference".

Entriamo quindi nel RL vero e proprio, verrà utilizzata la tecnica GPI che sta per "General Policy Iteration": prediction, improvemene, iteration.

Sessione 2

Metodo Monte Carlo