Séminaire nantais inter-établissements en Science des Données, 25 mai 2023

Le séminaire nantais inter-établissements en Science des Données aura lieu le jeudi 25 mai à 14h00. Nous accueillerons Julien CHIQUET (Senior Researcher in Statistical Learning, Head of UMR MIA Paris, Univ. Paris Saclay - AgroParisTech - INRAE)
    Titre : "Réduction de dimension : quelques approches récentes en statistique et en apprentissage"
    Résumé :

La réduction de dimension est une tâche standard de la statistique et du machine-learning, qui donne lieu à une riche boîte à outils, vitale à de nombreux champs d’application, et sans cesse renouvelée du fait de l'évolution de la nature des jeux données disponibles. Sa vocation première est la visualisation dans un espace à 2 ou 3 dimensions de données collectées dans un espace potentiellement beaucoup plus grand, afin d’en dégager les principales tendances. Elle est également souvent utilisée comme prétraitement, pour réduire le niveau de bruit ou extraire des caractéristiques résumées des données, utilisées dans un second temps pour une autre tâche de la statistique ou du machine-learning (prédiction, classification, modélisation). Dans cet exposé, je dresserai un rapide panorama distinguant deux catégories: i) les méthodes visant à réduire un jeu de données en conservant ses propriétés globales et ii) des méthodes cherchant à conserver les relations entre individus dans l'espace projeté. Pour la première catégorie, je m'appuierai sur une vision géométrique de l'analyse en composantes principales avant d'en présenter des généralisations probabilistes permettant de traiter des données discrètes et de grande taille, qui sont devenues la norme dans divers domaines (génomique, écologie, et même certaines observations en archéologie et astronomie). Je ferai également le lien entre ces méthodes et les approches populaires issues de l'apprentissage profond, notamment les auto-encodeurs variationnels. Pour la seconde catégorie, je discuterai les récentes et très populaires approches t-SNE et UMAP, souvent présentées comme des méthodes heuristiques: j'en proposerai une interprétation probabiliste unifiée permettant de mieux en saisir les fondements. Cette présentation s'appuiera sur des travaux originaux publiés avec de nombreux collègues et co-auteurs, notamment Stéphane Robin, Mahendra Mariadassou, Bastien Batardière, Franck Picard, Thibault Espinasse et Hugues van Assel.
    Lieu : Amphi du LS2N Faculté des Sciences et Techniques, Nantes

Pour des raisons d'organisation, l'inscription est obligatoire. Utilisez le lien suivant :  https://www.math.sciences.univ-nantes.fr/SemDataSciences/
Pour plus de détails, voir la page web du séminaire en Science des données