Étude asymptotique des algorithmes stochastiques d'optimisation adaptatifs

Se connecter pour poster des commentaires

Nom de l'orateur

Ioana Gavra

Etablissement de l'orateur

IRMAR

Date et heure de l'exposé

mar 13/12/2022 - 11:00

Lieu de l'exposé

Salle des Séminaires

Séminaire de Mathématiques Appliquées

L’optimisation stochastique englobe des méthodes permettant de minimiser une fonction de coût avec un caractère aléatoire, problème qui intervient souvent en machine learning et en particulier dans l’entraînement des réseaux de neurones. L'exemple le plus connu et le plus étudié d'une telle méthode est l'algorithme de la descente du gradient introduit par Robbins et Monro en 1951. Les algorithmes dits adaptatifs sont des extensions de cette descente de gradient stochastique classique qui visent à améliorer ses propriétés de convergence en déterminant automatiquement à chaque étape le taux d’apprentissage. Dans cette présentation on s’intéressera au comportement asymptotique des algorithmes de type RmsProp et Adagrad quand la fonction de coût est non-convexe. On montrera en particulier qu'ils convergent presque sûrement vers l'ensemble des points critiques de la fonction cible et (sous quelques hypothèses supplémentaires) vers un minimum local.

Quelques références : - pour la descente du gradient stochastique classique : Robbins et Monro(1951) A stochastic approximation method, The Annals of Mathematical Statistics - un article qui contient des résultats utiles pour l'étude des algorithmes : M. Benaim, Dynamics of stochastic approximation algorithms, publié dans Séminaire de probabilités XXXIII - un livre : M. Duflo (1996) Algorithmes stochastiques, volume 23 de Mathématiques & Applications (Berlin) - l'article correspondant à la présentation : S. Gadat et I. Gavra, Asymptotic study of stochastic adaptive algorithms in non-convex landscape, Journal of Machine Learning Research