Résumé 153 :
Etude des données manquantes en séro-épidémiologie
Niass, Oumy ; Diongue, Abdou Kâ ; Touré, Aïssatou
Doctorante
Les données manquantes représentent un problème récurrent en biologie, en particulier dans les études séro-épidémiologiques. La méthode la plus couramment utilisée est la suppression des sujets ayant des observations manquantes. Ce qui peut induire à une perte d'information. Le but de cette étude est de comparer un ensemble de techniques statistiques élaborées dans ce sens et aussi de montrer que la suppression n’est pas toujours une méthode efficace. Pour ce faire un échantillon de 300 observations a été collecté sur des enfants vivant dans 8 villages dans le but d'étudier la relation entre les réponses d'anticorps dirigées contre différents antigènes du P.falciparum. A partir de cet échantillon complet, 10 bases incomplètes ont été crée aléatoirement avec des proportions valeurs manquantes variant de 5 à 50%. Six méthodes de traitement des données manquantes ont été appliquées: par la moyennes, des k-plus proches voisins, la régression simples, les imputations multiples avec l'algorithme EM et la prédictive mean-matching. La comparaison a été faite en termes d'erreur moyenne (RMSE, MAE, R-square), de p. value, des critères AIC et BIC dans la sélection de modèle. Les résultats montrent qu'au-delà de 5% de données manquantes il est préférable d'estimer les valeurs manquantes que de les supprimer. Concernant les méthodes d'imputation, l'imputation multiple et les k-plus proches voisins sont préférables si la proportion de données manquante est énorme.