Résumé 207 :
Estimation de l'indice de valeurs extrêmes à partir de données de sondage
Bertail, Patrice ; Chautru, Emilie ; Clémençon, Stéphan
Université de Cergy-Pontoise
Dans de nombreux domaines d'application de la statistique, il peut arriver que les données disponibles ne soient pas indépendantes et identiquement distribuées, mais issues d'un plan de sondage. A l'ère des ``Big Data'', échantillonner peut aussi être une solution naturelle aux problèmes informatiques induits par les quantités phénoménales de données. Comme en ignorer le processus de collecte peut conduire à un biais non-négligeable des estimateurs, une solution classique consiste à pondérer les observations par l'inverse de leur probabilité d'inclusion dans l'échantillon. Si de nombreux travaux ont d'ores et déjà été réalisés pour ainsi estimer sans biais et efficacement des quantités moyennes, à notre connaissance tel n'est pas le cas de la théorie des valeurs extrêmes. Tentant de faire le pont entre ces deux pans de théorie statistique, nous proposons ici une version Horvitz-Thompson du classique estimateur de Hill, qui évalue l'indice de valeurs extrêmes dans le cadre de plans de sondage à forte entropie de type Poisson. Après avoir démontré sa consistance et sa normalité asymptotique sous des hypothèses portant sur les probabilités d'inclusion et le modèle de surpopulation sous-jacent, nous illustrons nos résultats théoriques à l'aide de données simulées. Il en ressort en particulier qu'une calibration astucieuse des probabilités d'inclusion peut permettre de neutraliser la perte d'efficacité due à la phase d'échantillonnage.