Données d’enquête et modélisation multi-niveaux

Nom de l'orateur
Jean Paul Lucas
Etablissement de l'orateur
CSTB
Date et heure de l'exposé
Lieu de l'exposé
Salle Eole

Les données d’enquête sont des données caractérisant des individus statistiques appartenant à un échantillon tiré par une procédure aléatoire appelée plan de sondage. Le traitement de ce type de données appartient à la théorie des sondages encore appelée théorie de l’échantillonnage et de l’estimation en population finie. Il convient d’adapter les outils de la statistique classique pour pouvoir traiter ce type de données, en particulier pour ne pas aboutir à des biais dans l’inférence.
Alors que d’un point de vue de la statistique descriptive les choses se passent bien, il en est différemment lorsque l’on s’intéresse à une modélisation, en particulier pour la modélisation multi-niveaux autrement appelée modélisation hiérarchique ou modélisation mixte. Cette modélisation multi-niveaux sur données d’enquête est un domaine de recherche jeune datant de la fin des années 1990.
Le travail effectué au CSTB (dans le cadre d’une thèse de doctorat à l’université de Nantes) dans ce domaine de recherche a été motivé par la construction d’un modèle multi-niveaux, explicatif des niveaux en plomb dans la poussière déposée au sol en milieu résidentiel. Ce modèle devait indiquer la contribution de chaque source potentielle à contaminer cette poussière. La poussière est particulièrement d’intérêt car en milieu résidentiel, les enfants sont principalement exposés au risque plomb via la poussière contaminée.
Les données sont issues de l’enquête Plomb-Habitat où 484 logements ont été investigués entre 2008 et 2009. La population d’intérêt concernée par cette enquête était les résidences principales en France métropolitaine abritant au moins un enfant âgé de 6 mois à 6 ans. Plusieurs pièces par logement ont été investiguées avec en particulier un prélèvement de poussière au sol dans chacune d’elles. Les pièces ont constituées le niveau 1 et les logements ont constitués le niveau 2 du modèle multi-niveaux.
Afin de déterminer quel modèle multi-niveaux serait adapté à nos données d’enquête, une simulation Monte Carlo basée sur les données de Plomb-Habitat a été mise en œuvre.

Références : Lucas J.-P., Le Bot B., Glorennec P., Etchevers A., Bretin P., Douay F., Sébille V., Bellanger L., Mandin C. 2012. Lead contamination in French children's homes and environment, Environmental research, 116, pp 58-65.
Lucas J.-P., Sébille V., Le Tertre A., Le Strat Y., Bellanger L. 2013. Multilevel modelling of survey data: impact of the two-level weights used in the pseudolikelihood. Journal of applied statistics, DOI:10.1080/02664763.2013.847404.
Lucas J.-P., Bellanger L., Le Strat Y., Le Tertre A., Glorennec P., Le Bot B., Etchevers A., Mandin C., Sébille V. 2014. Source contributions of lead in residential floor dust and within-home variability of dust lead loading. Science of the total environnement, 470-471, pp 768-779.