Bornes sur le regrets de bandits manchots stochastiques.

Title - HTML
Nom de l'orateur
Caroline Robet
Etablissement de l'orateur
LMJL
Date et heure de l'exposé
02-05-2017 - 14:00:00
Lieu de l'exposé
Salle Eole
Résumé de l'exposé

Dans cet exposé, je vous exposerai un problème d'optimisation de gain moyen dans un casino. Je vous présenterai le contexte d'une machine à sous composée de plusieurs bras. Le but est de sélectionner le bras permettant de maximiser son gain. On donnera des bornes sur le regret (qui correspond à la différence en espérance entre le gain maximum et le gain obtenu pour notre stratégie) dans le cas général et dans le cas d'une stratégie particulière (UCB).

comments