Bornes sur le regrets de bandits manchots stochastiques.

Nom de l'orateur
Caroline Robet
Etablissement de l'orateur
LMJL
Date et heure de l'exposé
Lieu de l'exposé
Salle Eole

Dans cet exposé, je vous exposerai un problème d'optimisation de gain moyen dans un casino. Je vous présenterai le contexte d'une machine à sous composée de plusieurs bras. Le but est de sélectionner le bras permettant de maximiser son gain. On donnera des bornes sur le regret (qui correspond à la différence en espérance entre le gain maximum et le gain obtenu pour notre stratégie) dans le cas général et dans le cas d'une stratégie particulière (UCB).