Téléchargement | - Voir le manuscrit accepté : Probabilistic Exploration in Planning while Learning (PDF, 214 Kio)
|
---|
Auteur | Rechercher : Karakoulas, G. |
---|
Format | Texte, Article |
---|
Conférence | Eleventh International Conference on Uncertainty in Artificial Intelligence (UAI'95), August 18-20, 1995, Montreal, Quebec, Canada |
---|
Sujet | sequential decision-making; exploration; probabilistic hill-climbing; prise de décision séquentielle; exploration; escalade probabiliste; apprentissage-Q |
---|
Résumé | Les tâches de prise de décision séquentielle avec une information incomplète sont caractérisées par le problème de l'exploration, à savoir le compromis entre l'exploration ultérieure afin d'en apprendre davantage sur l'environnement et l'exploitation immédiate de l'information accumulée pour la prise de décision. En intelligence artificielle, les gens ont porté un intérêt toujours croissant à l'étude des algorithmes de planification en cours d'apprentissage pour les tâches de décision. Dans cet article, nous nous concentrons sur le problème de l'exploration dans l'apprentissage par renforcement et sur l'apprentissage-Q en particulier. Les stratégies actuelles d'exploration de l'apprentissage-Q sont de nature heuristique et elles montrent une évolutivité limitée dans les tâches ayant de grands espaces (ou des espaces infinis) d'états et d'actions. Il faut une expérimentation efficace pour résoudre les incertitudes lorsqu'on compare des plans possibles (c'est-à-dire à l'exploration). L'expérimentation devrait suffire à sélectionner un plan optimal localement (c'est-à-dire pour l'exploitation) qui soit significatif au niveau statistique. à cette fin, nous établissons un algorithme d'escalade probabiliste qui utilise une procédure de sélection statistique afin de décider combien il faut d'exploration pour choisir un plan qui soit, avec une haute probabilité arbitraire, arbitrairement rapproché d'un plan optimal local. Comme il s'agit d'un algorithme général, on peut l'employer pour la stratégie d'exploration de l'apprentissage-Q robuste. Une expérience effectuée sur une tâche de contrôle relativement complexe montre que la stratégie d'exploration proposée fonctionne mieux qu'une stratégie d'exploration typique. |
---|
Date de publication | 1995 |
---|
Dans | |
---|
Langue | anglais |
---|
Numéro du CNRC | NRCC 38386 |
---|
Numéro NPARC | 8913955 |
---|
Exporter la notice | Exporter en format RIS |
---|
Signaler une correction | Signaler une correction (s'ouvre dans un nouvel onglet) |
---|
Identificateur de l’enregistrement | d86e1142-21a8-4c51-954b-53899bd30f9e |
---|
Enregistrement créé | 2009-04-22 |
---|
Enregistrement modifié | 2020-04-29 |
---|