Séminaire de mathématiques appliquées (archives)

Magali Champion
Etablissement de l'orateur
Institut de Mathématiques de Toulouse
Date et heure de l'exposé
Lieu de l'exposé
salle Eole
Résumé de l'exposé

In this presentation, we focus on a theoretical analysis and the use of statistical and optimization methods in the context of sparse linear regressions in a high-dimensional setting. The first part of this work is dedicated to the study of statistical learning methods, more precisely penalized methods and greedy algorithms. The second part concerns the application of these methods for gene regulatory networks inference. Gene regulatory networks are powerful tools to represent and analyse complex biological systems, and enable the modelling of functional relationships between elements of these systems. We thus propose to develop optimization methods to estimate relationships in such networks.

Athanasios Rakitzis
Etablissement de l'orateur
IUT de Nantes
Date et heure de l'exposé
Lieu de l'exposé
Salle Eole
Résumé de l'exposé

Among the numerous practical application of Statistical Process Control (SPC) is the monitoring of the number of defecting (non-conforming) items that are produced from a manufacturing company or the number of the incidents of a disease in a specic area. The basic aim is to detect any kind of change (e.g., an increase in the number of non-conforming items) quickly and accurately. In such cases, the available data are usually discrete (counts) and for process monitoring, the ordinary control charts for attributes (e.g., np-, p-, c- and u-charts) are used in practice. The main assumption is that the data come from the Poisson or the binomial distribution.

Due to technological advancements and automation progress, many processes are now characterized by a low fraction of non-conforming items. That kind of processes are known as high-yield processes and it is very common to have an excessive number of samples with zero non-conforming items. Consequently, due to the inherent over-dispersion of data, the ordinary schemes for attributes cannot be eactively used because of the high false alarm rates and the low statistical power in the detection of changes in the parameters of the process.

In this talk, new control charts, which are suitable for the monitoring of high-yield processes, are proposed and studied. Instead of the ordinary Poisson and binomial distributions, we assume that a proper parametric model for the process is the zero-inaged Poisson (ZIP) or the zero-inated Binomial (ZIB) distribution. We provide the Markov chain methodology for the theoretical study of each chart as well as aspects of their statistical design. Also, numerical comparisons between the dievent control charting techniques are given. Finally, the practical application of the proposed techniques is discussed.
(joint work with Prof. Philippe Castagliola and Prof. Petros Maravelakis)

Tom Rohmer
Etablissement de l'orateur
Université de Nantes
Date et heure de l'exposé
Lieu de l'exposé
salle Eole
Résumé de l'exposé

Il est bien connu que les lois marginales d'un vecteur aléatoire ne suffisent pas à caractériser sa distribution. Lorsque les lois marginales du vecteur aléatoire sont continues, le théorème de Sklar garantit l'existence et l'unicité d'une fonction appelée copule, caractérisant la dépendance entre les composantes du vecteur. La loi du vecteur aléatoire est parfaitement définie par la donnée des lois marginales et de la copule. Dans cette présentation, il sera proposé deux tests non paramétriques de détection de ruptures dans la distribution d'observations multivariées, particulièrement sensibles à des changements dans la copule des observations. Ils améliorent tous deux des propositions récentes et donnent lieu à des tests plus puissants que leurs prédécesseurs pour des classes d'alternatives pertinentes. Des simulations de Monte Carlo illustrent les performances de ces tests sur des échantillons de taille modérée. Le premier test est fondé sur une statistique à la Cramér-von Mises construite à partir du processus de copule empirique séquentiel. Une procédure de rééchantillonnage à base de multipli- cateurs est proposée pour la statistique de test; sa validité asymptotique sous l'hypothèse nulle est démontrée sous des conditions de mélange fort sur les données. Le second test se focalise sur la détection d'un changement dans le rho de Spearman multivarié des observations. Bien que moins général, il présente de meilleurs résultats en terme de puissance que le premier test pour les alternatives caractérisées par un changement dans le rho de Spearman. Deux stratégies de calcul de la valeur p sont comparées théoriquement et empiriquement : l'une utilise un rééchantillonnage de la statistique, l'autre est fondée sur une estimation de la loi limite de la statistique de test.

Konstantin Brenner
Etablissement de l'orateur
Laboratoire J.A. Dieudonné, Université de Nice Sophia-Antipolis
Date et heure de l'exposé
Lieu de l'exposé
Salle Eole
Résumé de l'exposé

Les fractures qui constituent les chemins privilèges pour l'écoulement et le transport jouent un rôle fondamental dans le domaine d'hydrogéologie, dans l'ingénierie minière ou pétrolière. Nous nous intéressons au modèle asymptotique dans lequel les fractures sont représentées explicitement par les interfaces de codimension 1.

On commencera par la présentation du problème continu et de sa discrétisation centrée aux nœuds. Les schémas nodaux qui sont attractifs grâce à leur cout faible sur les maillages tétraédriques ont toutefois une réputation d’être peu précises lorsque la perméabilité du milieu possède des fortes variations. Nous allons voir comment ce défi peut être relevé. Le nouveau schéma sera comparé numériquement à l'approche CVFE classique.

Dans un deuxième temps nous allons nous tourner vers l’analyse de plus théorique. En s’appuyant sur les travaux récents de R. Eymard et al. nous formulerons les conditions suffisant de la convergence d’un schéma numérique abstrait.

Christophe Biscio
Etablissement de l'orateur
Université de Nantes
Date et heure de l'exposé
Lieu de l'exposé
Salle Eole
Résumé de l'exposé

Les processus ponctuels déterminantaux (DPPs) ont été largement étudiés en probabilité dans les années 2000. Ils ont depuis été appliqués dans divers domaines des statistiques (statistique spatiale, machine learning, télécommunications,…), où ils sont utilisés pour modéliser des phénomènes répulsifs au sens où les points tendent à se repousser entre eux.

Nous cherchons à trouver le ou les DPPs stationnaires les plus répulsifs. Dans ce but, nous considérons deux approches pour quantifier leur répulsion. Pour chacune d'elles, nous déterminons les DPPs stationnaires les plus répulsifs. Nous étudions également la répulsion dans le sous ensemble des DPPs R-dépendant. Enfin, nous présentons de nouvelles familles paramétriques de DPPs permettant de couvrir toutes la plage de répulsion possible entre le processus de Poisson (qui n'implique aucune interaction) et le DPP le plus répulsif.

Benjamin Guedj
Etablissement de l'orateur
INRIA Lille
Date et heure de l'exposé
Lieu de l'exposé
Salle Eole
Résumé de l'exposé

L'agrégation d'estimateurs et de prédicteurs a motivé de très nombreux travaux depuis la fin des années 1990. Le praticien voit son activité profondément modifiée par deux mouvements conjoints : nous entrons chaque jour un peu plus dans l'ère du "big data", les volumes et dimensions des données augmentent avec les progrès constants de l'outil informatique ; parallèlement, le nombre de méthodes d'estimation et de prédiction disponibles a accompagné cette inflation impressionnante, abordant tant en classification qu'en régression une variété croissante de modèles et de contextes statistiques (estimation de probabilités, modèles additifs, modèles parcimonieux...). Citons, parmi beaucoup d'autres, les méthodes pénalisées (le Lasso et ses variantes), les $k$-plus proches voisins, les arbres et forêts aléatoires, les approches bayésiennes, etc. Il est dès lors légitime d'étudier des procédures d'agrégation de techniques existantes, afin de tirer le meilleur de chacune d'elles et d'éliminer autant que possible la phase---par essence subjective---de spécification d'un modèle. La littérature est riche de nombreuses méthodes d'agrégation de prédicteurs : sélection de modèles, combinaisons linéaires ou convexes sont les principales. Nous proposons dans cet exposé une approche différente, non linéaire en les prédicteurs, reposant sur un principe de moyenne locale. À la métrique usuelle induite par le design, nous proposons de substituer une métrique particulière, suggérée par des estimateurs préliminaires de la fonction de régression. Nous montrons en particulier que l'estimateur résultant est asymptotiquement aussi efficace que le meilleur des estimateurs initiaux. Nous obtenons également une inégalité oracle exacte non asymptotique en espérance, avec une vitesse de convergence explicite. Notre méthode est disponible sur le CRAN sous la forme du package R COBRA, dont les performances brutes et la vélocité sur données simulées et réelles seront commentées. Références : http://arxiv.org/abs/1303.2236 et http://cran.r-project.org/web/packages/COBRA/index.html

Albert Cohen
Etablissement de l'orateur
LJLL, UPMC
Date et heure de l'exposé
Lieu de l'exposé
Salle de séminaires
Résumé de l'exposé

De nombreux problèmes issus des applications font intervenir des fonctions d'un très grand nombre de variables. On peut citer en particulier les problèmes de théorie de l'apprentissage, les EDP ou modèles numériques dépendant de variables paramétriques ou stochastiques. Il en découle des difficultés numériques, souvent appelées ''plaie des grandes dimensions''. Après avoir introduit les fondements permettant de comprendre ces difficultés, nous montrerons comment elles peuvent être traitées dans le cas des EDP paramétriques/stochastiques, en faisant appel à des notions d'approximation non-linéaire et de parcimonie.

David Dereudre
Etablissement de l'orateur
Lille 1
Date et heure de l'exposé
Lieu de l'exposé
Salle Eole
Résumé de l'exposé

The Boolean model is defined as a union of balls in $R^d$ where the centers are the points of an homogeneous Poisson point process with intensity $z>0$ and the radii are independent and identically distributed following a law $Q$ on $R^+$. The percolation properties mainly refer to the existence of an unbounded connected component in a random spatial model. In this talk we give classical results for the percolation of the Boolean model. In particular, we will see several phase transition results with respect to the stochastic properties of $Q$ (moments, support, etc). We will discuss conjectures about the critical volumic fraction of percolation.

Kone El hadji
Date et heure de l'exposé
Lieu de l'exposé
Salle Eole
Résumé de l'exposé

Considérant des écoulements fluidiques assez profonds ou ayant des coefficients de viscosité élevés avec des effets significatifs des forces extérieures, l'approximation par les hypothèses classiques de Saint-Venant consistant à négliger les variations verticales de la vitesse ne sont plus admissibles. Pour pallier cette limitation, on introduit une modélisation, dite de Saint-Venant multi-couches, qui consiste à stratifier la hauteur du fluide en plusieurs couches relativement fines afin d'y appliquer ces hypotèses classiques. Nous développons cette approche, multi-couches, pour un écoulement hydraulique transportant et dispersant des sédiments constitués de petites particules solides de différentes espèces. Ces espéces sont caractérisées par leurs tailles et leurs densités. Le problème est modélisé en combinant l'approche multi-couches et un modèle de dispersion de sédiments pour une simple couche formulé dans la littérature. La démarche fournit un système de structure hyperbolique, ayant aussi bien des termes conservatifs que des produits non conservatifs et des termes sources, que nous resolvons par des schémas volumes finis. Nous exploitons les méthodes PVM (Polynomial Viscosity Matrix) qui constituent une classe de solveurs volumes finis rapides pour des systèmes hyperboliques conservatifs ou non conservatifs. Ces méthodes définissent la matrice de viscosité du schéma, par une évaluation polynomiale de la matrice de Roe. L'avantage de ces méthodes est qu'elles ne nécessitent que très peu d'information sur les valeurs propres du système et qu'aucune décomposition spectrale de la matrice de Roe n'est nécessaire. Par conséquent, elles sont plus rapides que celle de Roe. En outre, les méthodes PVM peuvent être vues comme une généralisation de divers schémas classiques dans le sens où ceux-ci peuvent être redéfinis sous ces formes.

Jean Paul Lucas
Etablissement de l'orateur
CSTB
Date et heure de l'exposé
Lieu de l'exposé
Salle Eole
Résumé de l'exposé

Les données d’enquête sont des données caractérisant des individus statistiques appartenant à un échantillon tiré par une procédure aléatoire appelée plan de sondage. Le traitement de ce type de données appartient à la théorie des sondages encore appelée théorie de l’échantillonnage et de l’estimation en population finie. Il convient d’adapter les outils de la statistique classique pour pouvoir traiter ce type de données, en particulier pour ne pas aboutir à des biais dans l’inférence.
Alors que d’un point de vue de la statistique descriptive les choses se passent bien, il en est différemment lorsque l’on s’intéresse à une modélisation, en particulier pour la modélisation multi-niveaux autrement appelée modélisation hiérarchique ou modélisation mixte. Cette modélisation multi-niveaux sur données d’enquête est un domaine de recherche jeune datant de la fin des années 1990.
Le travail effectué au CSTB (dans le cadre d’une thèse de doctorat à l’université de Nantes) dans ce domaine de recherche a été motivé par la construction d’un modèle multi-niveaux, explicatif des niveaux en plomb dans la poussière déposée au sol en milieu résidentiel. Ce modèle devait indiquer la contribution de chaque source potentielle à contaminer cette poussière. La poussière est particulièrement d’intérêt car en milieu résidentiel, les enfants sont principalement exposés au risque plomb via la poussière contaminée.
Les données sont issues de l’enquête Plomb-Habitat où 484 logements ont été investigués entre 2008 et 2009. La population d’intérêt concernée par cette enquête était les résidences principales en France métropolitaine abritant au moins un enfant âgé de 6 mois à 6 ans. Plusieurs pièces par logement ont été investiguées avec en particulier un prélèvement de poussière au sol dans chacune d’elles. Les pièces ont constituées le niveau 1 et les logements ont constitués le niveau 2 du modèle multi-niveaux.
Afin de déterminer quel modèle multi-niveaux serait adapté à nos données d’enquête, une simulation Monte Carlo basée sur les données de Plomb-Habitat a été mise en œuvre.

Références : Lucas J.-P., Le Bot B., Glorennec P., Etchevers A., Bretin P., Douay F., Sébille V., Bellanger L., Mandin C. 2012. Lead contamination in French children's homes and environment, Environmental research, 116, pp 58-65.
Lucas J.-P., Sébille V., Le Tertre A., Le Strat Y., Bellanger L. 2013. Multilevel modelling of survey data: impact of the two-level weights used in the pseudolikelihood. Journal of applied statistics, DOI:10.1080/02664763.2013.847404.
Lucas J.-P., Bellanger L., Le Strat Y., Le Tertre A., Glorennec P., Le Bot B., Etchevers A., Mandin C., Sébille V. 2014. Source contributions of lead in residential floor dust and within-home variability of dust lead loading. Science of the total environnement, 470-471, pp 768-779.