Non-asymptotic control of a kernel 2-sample test / Contrôle non-asymptotique pour un test à noyau à deux échantillons

Nom de l'orateur
Perrine Lacroix
Etablissement de l'orateur
ENS Lyon
Date et heure de l'exposé
Lieu de l'exposé
Salle des Séminaires

Nous nous intéressons aux tests statistiques visant à évaluer l'hypothèse H₀: {P = Q} contre son alternative H₁: {P ≠ Q}. Nos données sont multivariées, de grande dimension et présentent de fortes dépendances entre les variables. Nous proposons un test de comparaison de deux distributions basé sur les méthodes à noyaux : nos données sont au préalable transformées via une fonction de plongement bien choisie et vivent dans un espace de hilbert à noyau reproduisant (RKHS). Notre statistique de test à noyau est l'équivalent du test de comparaison du T2 de Hotelling pour des données multivariées de dimension finie et est égale à la différence des moyennes plongées (MMD) renormalisée par un opérateur de covariance bien choisi. Classiquement, ces tests non paramétriques sont soit calibrés asymptotiquement, soit via des techniques d'aggrégation de tests. Ici, nous proposons une calibration du test à la taille d'échantillon fixée via l'obtention de bornes non-asymptotiques de notre statistique de test. Pour cela, une régularisation est nécessaire pour approcher l'opérateur de covariance via son estimateur empirique. Contrairement aux approches de Harchaoui et al. (2007) ou de Hagrass et al. (2023) utilisant des régularisations de type $L_2$, nous proposons la troncature spectrale. Cette méthode fixe le nombre inconnu $T$ de fonctions propres à utiliser dans la reconstruction de l'opérateur de covariance et offre un avantage supplémentaire qui est celui de la visualisation des données. Actuellement, à $T$ fixé, la statistique de test, alors appelée truncated kernel Fisher Discriminant Ratio (KFDA_T), donne un test dont la calibration asymptotique est connue (Ozier-Lafontaine et al. (2023)). Dans cet exposé, je présenterai comment borner théoriquement et non-asymptotiquement la p-valeur du test associé à la KFDA_T. Cette borne constitue une première étape pour définir une bonne calibration de l'hyperparamètre $T$. Sur le plan applicatif, cette question statistique revêt de l'importance dans le domaine de la génomique, où les deux groupes sont constitués de données RNA-seq en cellule unique. L'objectif est de détecter des comportements biologiques distincts ou semblables entre les groupes. Ce travail est réalisé en collaboration avec Bertrand Michel (Université de Nantes), Franck Picard (ENS de Lyon) et Vincent Rivoirard (Paris-Dauphine).

We are interesting in statistical tests to evaluate the hypothesis H₀: {P = Q} against its alternative H₁: {P ≠ Q}. Our data are multivariate, high-dimensional and exhibit strong dependencies between variables. We propose a comparison test of two distributions based on kernel methods: our data are first transformed via a well-chosen feature map and live in a reproducing kernel hilbert space (RKHS). Our kernel test statistic is the equivalent of the Hotelling's T2 comparison test for finite-dimensional multivariate data, and is equal to the mean embeddings difference (MMD) renormalized by a well-chosen covariance operator. Classically, these non-parametric tests are either calibrated asymptotically, or via test aggregation techniques. Here, we propose to calibrate the test at a given fixed sample size by obtaining non-asymptotic bounds on our test statistic. For this, a regularization is required to approximate the covariance operator via its empirical estimator. Unlike the approaches of Harchaoui et al. (2007) or Hagrass et al. (2023) using $L_2$ regularizations, we propose spectral truncation. This method fixes the unknown number $T$ of eigenfunctions to reconstruct the covariance operator and provides the additional advantage of data visualization. Currently, at a fixed $T$, the test statistic, called the truncated kernel Fisher Discriminant Ratio (KFDA_T), provides a test whose asymptotic calibration is known (Ozier-Lafontaine et al. (2023)). In this talk, I will present how to theoretically and non-asymptotically bound the p-value of the test associated with the KFDA_T. This bound is a first step in defining a good calibration of the hyperparameter $T$. In applications, this statistical question is essential in the field of genomics, where the two groups are composed of single-cell RNA-seq data. The goal is to detect distinct or similar biological behavior between the groups. Joint work with Bertrand Michel (Université de Nantes), Franck Picard (ENS de Lyon) and Vincent Rivoirard (Paris-Dauphine).

Quelques références:

  • Bertail, P., Gautherat, E., & Harari-Kermadec, H. (2008). Exponential bounds for multivariate self-normalized sums.
  • Zwald, L., & Blanchard, G. (2005). On the convergence of eigenspaces in kernel principal component analysis. Advances in neural information processing systems, 18.
  • Eric, M., Bach, F., & Harchaoui, Z. (2007). Testing for homogeneity with kernel Fisher discriminant analysis. Advances in Neural Information Processing Systems, 20.