Rollout sampling approximate policy iteration
Artikel i vetenskaplig tidskrift, 2008
Approximate policy iteration
Bandit problems
Rollouts
Reinforcement learning
Classification
Sample complexity
Författare
Christos Dimitrakakis
Chalmers, Data- och informationsteknik, Datavetenskap
M.G. Lagoudakis
Machine Learning
0885-6125 (ISSN) 1573-0565 (eISSN)
Vol. 72 3 157-171Styrkeområden
Informations- och kommunikationsteknik
Ämneskategorier
Data- och informationsvetenskap
DOI
10.1007/s10994-008-5069-3