Séminaire en Science des Données, 5 novembre 2020

La prochaine séance du séminaire inter-établissements en Science des Données aura lieu le 05 novembre 2020 à 14h00 dans l'amphi 7 (bâtiment Veil, UFR de médecine, à côté du CHU Hôtel Dieu).
Cet après-midi sera consacré à la thématique des données manquantes. Il s'articulera autour de l'exposé de Julie Josse (PR Ecole Polytechnique) :

« A missing value tour in R »


Résumé : Dans de nombreuses situations, les jeux de données collectés comportent des données manquantes qui rendent leur analyse d’autant plus complexe. Il existe une vaste littérature sur ce sujet ainsi que de plus de 150 packages R. Financé par le consortium R, nous avons créé la plateforme R-miss-tastic qui vise à offrir aux utilisateurs un aperçu des principales références, des contributeurs associés ainsi que des tutoriels permettant d’avoir des clés pour analyser des données entachées de valeurs manquantes. Cette plateforme met en évidence qu'il s'agit d'un domaine de recherche actif avec une diversité des problématiques nécessitant la conception de méthodes dédiées.
    Dans cette présentation, je partagerai mon expérience sur le sujet. Je commencerai par le cadre inférentiel, où le but est d'estimer au mieux les paramètres et leur variance en présence de données manquantes. Les dernières méthodes d'imputation multiple ont mis l'accent sur la prise en compte de l'hétérogénéité des données (multi-sources avec des variables de nature différente, etc.). Ensuite, je présenterai les résultats récents dans un cadre d'apprentissage supervisé et reviendrai sur les conséquences pratiques que peut avoir la méthode, largement utilisée, d’imputation par la moyenne en amont de la phase de modélisation.

Pour des raisons d'organisation, l'inscription est obligatoire. Le programme, les détails pratiques ainsi que le formulaire d'inscription sont disponibles à l'adresse suivante :

https://www.math.sciences.univ-nantes.fr/~bellanger/SeminaireDataScience.html

Coordonnées de l'UFR de Médecine