Étude asymptotique des algorithmes stochastiques d'optimisation adaptatifs

Nom de l'orateur
Ioana Gavra
Etablissement de l'orateur
IRMAR
Date et heure de l'exposé
Lieu de l'exposé
Salle des Séminaires

L’optimisation stochastique englobe des méthodes permettant de minimiser une fonction de coût avec un caractère aléatoire, problème qui intervient souvent en machine learning et en particulier dans l’entraînement des réseaux de neurones. L'exemple le plus connu et le plus étudié d'une telle méthode est l'algorithme de la descente du gradient introduit par Robbins et Monro en 1951. Les algorithmes dits adaptatifs sont des extensions de cette descente de gradient stochastique classique qui visent à améliorer ses propriétés de convergence en déterminant automatiquement à chaque étape le taux d’apprentissage. Dans cette présentation on s’intéressera au comportement asymptotique des algorithmes de type RmsProp et Adagrad quand la fonction de coût est non-convexe. On montrera en particulier qu'ils convergent presque sûrement vers l'ensemble des points critiques de la fonction cible et (sous quelques hypothèses supplémentaires) vers un minimum local.

Quelques références : - pour la descente du gradient stochastique classique : Robbins et Monro(1951) A stochastic approximation method, The Annals of Mathematical Statistics - un article qui contient des résultats utiles pour l'étude des algorithmes : M. Benaim, Dynamics of stochastic approximation algorithms, publié dans Séminaire de probabilités XXXIII - un livre : M. Duflo (1996) Algorithmes stochastiques, volume 23 de Mathématiques & Applications (Berlin) - l'article correspondant à la présentation : S. Gadat et I. Gavra, Asymptotic study of stochastic adaptive algorithms in non-convex landscape, Journal of Machine Learning Research