Résumé 134 :

Imputation multiple pour variables quantitatives par Analyse en composantes principales Bayésienne
Audigier, Vincent ; Husson, François ; Josse, Julie
Agrocampus Ouest

Les données manquantes constituent un problème incontournable dans la pratique de la statistique. Une solution commune pour gérer ces données manquantes consiste à remplacer chacune d'entre elles par une valeur plausible (imputation simple). Néanmoins appliquer une méthode statistique sur un tableau imputé simplement pose un problème majeur : les données imputées jouent le même rôle que les données observées alors qu'elles sont incertaines. Pour rendre compte de cette incertitude, on peut proposer plusieurs imputations pour chaque donnée manquante (imputation multiple) L'objet de cette présentation est de proposer une méthode d'imputation multiple dédiée aux variables quantitatives et basée sur le modèle d'analyse en composantes principales (ACP). L'emploi d'un traitement bayésien du modèle d'ACP va permettre de disposer d'une distribution sur les paramètres de ce modèle et ainsi de refléter l'incertitude les paramètres du modèle d'imputation. Après avoir rappelé les principes de l'imputation multiple, nous présenterons notre méthodologie. La méthode proposée sera ensuite évaluée par simulation et comparée à deux méthodes existantes : l'imputation multiple par équations enchaînées, et celle par modèle joint. Elle fournit de bonnes estimations ponctuelles des paramètres d'intérêt tout en construisant des intervalles de confiance valides et de tailles réduites. De plus, elle permet de traiter facilement les cas où le nombre d'individus est inférieur au nombre de variables.