Séminaire nantais inter-établissements en Science des Données ...

Comité d'organisation : L. BELLANGER (ALEA, LMJL UMR CNRS 6629), V. CARIOU (StatSC, ONIRIS),
E. DANTAN (SPHERE INSERM UMR 1246), P.-A. GOURRAUD (ITUN - CRTI - UMR INSERM 1064 - CHU), P. KUNTZ (DUKe, LS2N).


à venir | passés

Annonce du séminaire à venir


Prochain séminaire courant automne 2023 !

Anciens séminaires

Jeudi 25 mai 2023 : Julien CHIQUET (Senior Researcher in Statistical Learning, Head of UMR MIA Paris, Univ. Paris Saclay - AgroParisTech - INRAE) : "Réduction de dimension : quelques approches récentes en statistique et en apprentissage"

La réduction de dimension est une tâche standard de la statistique et du machine-learning, qui donne lieu à une riche boîte à outils, vitale à de nombreux champs d’application, et sans cesse renouvelée du fait de l'évolution de la nature des jeux données disponibles. Sa vocation première est la visualisation dans un espace à 2 ou 3 dimensions de données collectées dans un espace potentiellement beaucoup plus grand, afin d’en dégager les principales tendances. Elle est également souvent utilisée comme prétraitement, pour réduire le niveau de bruit ou extraire des caractéristiques résumées des données, utilisées dans un second temps pour une autre tâche de la statistique ou du machine-learning (prédiction, classification, modélisation).
Dans cet exposé, je dresserai un rapide panorama distinguant deux catégories: i) les méthodes visant à réduire un jeu de données en conservant ses propriétés globales et ii) des méthodes cherchant à conserver les relations entre individus dans l'espace projeté. Pour la première catégorie, je m'appuierai sur une vision géométrique de l'analyse en composantes principales avant d'en présenter des généralisations probabilistes permettant de traiter des données discrètes et de grande taille, qui sont devenues la norme dans divers domaines (génomique, écologie, et même certaines observations en archéologie et astronomie). Je ferai également le lien entre ces méthodes et les approches populaires issues de l'apprentissage profond, notamment les auto-encodeurs variationnels. Pour la seconde catégorie, je discuterai les récentes et très populaires approches t-SNE et UMAP, souvent présentées comme des méthodes heuristiques: j'en proposerai une interprétation probabiliste unifiée permettant de mieux en saisir les fondements.
Cette présentation s'appuie sur des travaux originaux publiés avec de nombreux collègues et co-auteurs, notamment Stéphane Robin, Mahendra Mariadassou, Bastien Batardière, Franck Picard, Thibault Espinasse et Hugues van Assel.


Jeudi 28 septembre 2022 : Mohamed NADIF (PR Université Paris Cité, Centre Borelli UMR 910) : "L’évolution de la classification non supervisée de k-means à nos jours"

La classification non supervisée (ou clustering) est devenue incontournable dans le domaine de l’intelligence artificielle. Comme la réduction de la dimensionnalité, le clustering a vu son intérêt grandir dans divers domaines dont la bioinformatique, le traitement d’images, les systèmes de recommandation, l’analyse textuelle ou encore le traitement automatique du langage naturel.
Depuis k-means, une multitude d’algorithmes de clustering a vu le jour. Ces algorithmes ont été souvent motivés par de nombreuses applications générant des données de plus en plus volumineuses, de grande dimension, multi-sources, éparses ou pas. Ils dérivent, généralement, à partir de différentes approches y compris de l’apprentissage profond et chacun de ces algorithmes a ses forces et ses faiblesses. D’autre part, et contrairement à l’apprentissage supervisée, l’évaluation des résultats de tels algorithmes n’est pas toujours simple pour l’utilisateur. Afin de faire le point sur ces méthodes de clustering voire du coclustering, nous passons en revue les approches les plus populaires et identifions le potentiel de chaque algorithme pour l’obtention de partitions profitables.


Jeudi 16 décembre 2021 : Philippe BESSE (Professeur émérite Université de Toulouse INSA et chercheur ObVIA Université de Laval) : "Statistique et Impacts Sociétaux de l'IA"

Suite à la publication du livre blanc pour une approche de l'IA basée sur l'excellence et la confiance, la Commission Européenne (CE) a publié de nombreuses propositions de textes réglementaires dont un Artificial Intelligence Act (AI Act) (2021) établissant des règles harmonisées sur l'intelligence artificielle (IA). Quels seront les conséquences et impacts de l'adoption à venir de ce texte du point de vue d'un mathématicien ou plutôt statisticien impliqué dans la conception de système d'intelligence artificielle (IA) à haut risque au sens de la CE et notamment en Santé? Quels outils et méthodes vont permettre de répondre à l'obligation d'une analyse rigoureuse et documentée des données traitées, des performances, robustesse, résilience de l'algorithme, de son explicabilité, des risques, pour les droits fondamentaux, de biais discriminatoires? Ces questions sont illustrées par un exemple numérique analogue à un score de crédit (cf. tutoriel) à la recherche d'un moins mauvais compromis entre toutes les contraintes. Nous concluons sur les avancées et limites de ce projet de règlement pour les systèmes d'IA à haut risque.


Jeudi 17 juin 2021 : Pascal CREPEY (Enseignant-Chercheur à l’Ecole des Hautes Etudes en Santé Publique, Rennes) : "Eléments de réflexion sur l'évaluation des stratégies de contrôle épidémique: du confinement à la vaccination"

La crise pandémique de Covid-19 que le monde subit depuis le début de l’année 2020 a mis sur le devant de la scène les travaux des épidémiologistes et en particulier leurs « modèles ». Souvent perçus, à tort, comme des boîtes noires, ou pire, comme des boules de cristal, ces outils sont en premier lieu utilisés pour évaluer l’impact des mesures sanitaires et guider la décision publique. Dans cette présentation, nous illustrerons les points de complexité de ces travaux par deux analyses réalisées récemment. Dans un premier temps, nous détaillerons une étude prospective de l’impact des différentes stratégies vaccinales ayant amené aux recommandations émises par la HAS. Puis, dans un deuxième temps, nous présenterons une étude rétrospective sur l’impact qu’aurait pu avoir une stratégie de confinements régionalisés lors de la première vague de l’épidémie.


Jeudi 5 novembre 2020 : Julie JOSSE (Advanced Researcher à l'INRIA de Montpellier) : "An overview of methods to handle missing values"

Dans de nombreuses situations, les jeux de données collectés comportent des données manquantes qui rendent leur analyse d’autant plus complexe. Il existe une vaste littérature sur ce sujet ainsi que de plus de 150 packages R. Financé par le consortium R, nous avons créé la plateforme R-miss-tastic qui vise à offrir aux utilisateurs un aperçu des principales références, des contributeurs associés ainsi que des tutoriels permettant d’avoir des clés pour analyser des données entachées de valeurs manquantes. Cette plateforme met en évidence qu'il s'agit d'un domaine de recherche actif avec une diversité des problématiques nécessitant la conception de méthodes dédiées. Dans cette présentation, Julie Josse partage son expérience sur le sujet : (i) dans le cadre inférentiel, où le but est d'estimer au mieux les paramètres et leur variance en présence de données manquantes. Les dernières méthodes d'imputation multiple ont mis l'accent sur la prise en compte de l'hétérogénéité des données (multi-sources avec des variables de nature différente, etc.) ; mais aussi (ii) dans le cadre prédictif, avec des résultats récents en apprentissage supervisé et les conséquences pratiques de l'utilisation de la méthode, largement utilisée, d’imputation par la moyenne en amont de la phase de modélisation.

Jeudi 6 juin 2019 : Jean-Gabriel GANASCIA (PR à l'Université Pierre et Marie Curie (UPMC), membre de l'Institut universitaire de France et président du Comité d'éthique du CNRS (Comets) : "Ethique et épistémologie des données"

Qu'il s'agisse de protéger l'intimité la vie privée, l'anonymat ou la propriété, d'encourager le partage, voire de garantir l'absence de biais, les questions éthiques suscitées par la captation et l'exploitation des données sont à la fois nombreuses et anciennes. Or, l'approche de ces questions varie dans le temps et selon les cultures. De plus, certaines prescriptions morales, comme l'impartialité dans la collecte ou les principes de finalité et de proportionnalité de la CNIL, vont à l'encontre des postulats épistémologiques posés par les zélateurs les plus enflammés des masses de données. Il s'agira là de présenter ces problématiques éthiques et de les mettre en regard des questions fondamentales suscitées par la science des données.

Marie EKELAND (Co-fondatrice d’un fond de placement d’envergure internationale spécialisé dans l'économie numérique) : "Economie, société, humanisme : quels enjeux pour le numérique de demain ?"

Jeudi 13 décembre 2018 : Jean-Michel POGGI (PR Univ. Paris Descartes et Univ. Paris-Sud, LM Orsay) : "Forêts aléatoires: importance et sélection de variables"

La méthode des forêts aléatoires, introduite par Leo Breiman en 2001, est désormais largement utilisée tant en classification qu'en régression avec un succès spectaculaire. Après avoir rappelé la source et les principes des méthodes d'arbres, on présente les forêts aléatoires, l'erreur Out-of-Bag et le score d'importance des variables par permutation. On esquisse ensuite une stratégie de sélection de variables en deux étapes : le classement des variables basé sur les scores d'importance suivie d'une procédure d'introduction ascendante séquentielle des variables.
Références : R. Genuer, J-M. Poggi. Arbres CART et Forêts aléatoires, Importance et sélection de variables, In Apprentissage Statistique et Données Massives, Maumy-Bertrand M., Saporta G. et Thomas Agnan C. (eds), Technip, p. 295-342, 2018

Mardi 12 juin 2018 : Stéphane CANU (PR INSA Rouen) : "Panorama du Deep Learning aujourd'hui"

Si la recherche scientifique subit indéniablement des effets de mode, celle de l’apprentissage profond (ou deep learning) a surpris par sa force et son ampleur. Comme le titrait le Monde en 2015, « cette technologie d’apprentissage, basée sur des réseaux de neurones artificiels, a complètement bouleversé le domaine de l’intelligence artificielle en moins de cinq ans ». Afin d'expliquer ce phénomène nous présenterons ces nouveaux développements de l'apprentissage automatique couvrant les motivations de base, les idées, les modèles et l'optimisation des réseaux profonds (la rétropropagation), l'identification des défis et des opportunités.

Jeudi 7 septembre 2017 : Gilbert SAPORTA (PR Emérite CNAM Paris) : "Expliquer ou prédire ? Les nouveaux défis"

Le développement de la Data Science suscite fréquemment des controverses entre statistique et machine learning et conduit à repenser le débat entre expliquer et prédire initié par Leo BREIMAN en 2001. BREIMAN distinguait deux cultures dans la modélisation statistique : celle dominante jusqu’alors des modèles génératifs qui suppose que les données ont été engendrées par un modèle probabiliste qu’il faut ajuster et estimer, et la culture des modèles algorithmiques ou prédictifs qui ne se préoccupe que d’obtenir des prévisions précises et fiables et que les statisticiens avaient eu tort de négliger. Comme l’écrit David DONOHO qui a récemment repris ce thème, l’hypothèse implicite dans la première culture est qu’il existe un modèle «vrai», ce qu’a contesté George BOX avec sa phrase célèbre «Essentially, all models are wrong, but some are useful». Dans l’intervalle, le débat a fait l’objet de plusieurs publications : cf. Gilbert SAPORTA qui relevait l’ambigüité du terme de modèle utilisé aussi bien comme une représentation de la réalité que comme un algorithme et Galit SHUMUELI qui analysait la dualité explicatif/prédictif.