Sessione 2

2019 12 02

Ora inizieremo a considerare il fatto che non abbiamo a disposizione il modello, parliamo del Model-free prediction che rappresenta il vero Reinforcement learning. Nelle lezioni precedenti è stato fatta quella che viene chiamata "pianficazione" o "dynamic programming".

Iniziamo a parlare di predizione che ci fa capire quanto vale una policy prefissata.

Alcuni dei metodi che vedremo sono "Monte Carlo" e "Temporal difference".

Monte Carlo è un metodo che stima il valore degli stati facendo delle prove, però questo può essere oneroso perchè i passi possono essere tanti, in questi casi allora si fanno dei passi in avanti e si fa una differenza temporale tra il passo x e il passo x+y e si fa la dirrenza.

Entriamo quindi nel RL vero e proprio, verrà utilizzata la tecnica GPI che sta per "General Policy Iteration": prediction, improvemene, iteration.

Metodo Monte Carlo

E' un metodo che stima una quanitità facendo dei campionamenti casuali. (per es. Il metodo MC si usa per approssimare pigrego (pi))