Résumé 48 :

Corrélation et importance des variables dans les forêts aléatoires
Gregorutti, Baptiste ; Michel, Bertrand ; Saint-Pierre, Philippe
UPMC / Safety Line

La sélection de variables dans un contexte de grande dimension est une tache difficile, en particulier lorsque les variables explicatives sont corrélées. L'algorithme des forêts aléatoires est une méthode très compétitive pour traiter de problèmes de classification et de régression. En effet, il présente de bonnes performances prédictives en pratique et peut être utilisé dans un objectif de sélection de variables au moyen de mesures d'importance. Dans ce travail, nous étudions les aspects théoriques de la mesure d'importance par permutation dans le cas d'un modèle de régression additive. Plus particulièrement, nous sommes en mesure de mieux comprendre l'effet de la corrélation sur la mesure d'importance et par suite sur la sélection de variables. Nos résultats motivent l'utilisation de l'algorithme Recursive Feature Elimination (RFE) pour sélectionner les variables dans ce contexte. Cet algorithme élimine récursivement les variables en utilisant la mesure d'importance comme critère de rang. Des simulations numériques confirment d'une part les résultats théoriques et indiquent d'autre part que l'algorithme RFE tend à sélectionner un faible nombre de variables avec une bonne erreur de prédiction.