Résumé 112 :

CorReg : régression sur variables corrélées et application à l'industrie sidérurgique
Théry, Clément ; Biernacki, Christophe ; Loridant, Gaétan
ArcelorMittal

La régression linéaire est pénalisée par l'usage de variables explicatives corrélées, situation fréquente pour les bases de données d'origine industrielle où les corrélations sont nombreuses et mènent à des estimateurs de forte variance. Le modèle proposé explicite les corrélations présentes sous la forme d'une famille de régressions linéaires entre covariables, permettant d'obtenir par marginalisation un modèle de régression parcimonieux libéré des corrélations, facilement interprétable et consistant en une préselection de variables. La structure de corrélations est estimée à l'aide d'un algorithme MCMC qui repose sur un modèle génératif complet. Le package CorReg (disponible sur le CRAN) permet la mise en oeuvre en R de cette méthode qui sera illustrée sur données simulées et sur données réelles issues de l'industrie sidérurgique. On comparera en particulier CorReg au LASSO, qui est pénalisé par les corrélations 2 à 2 entre covariables, pour illustrer l'efficacité de la méthode en termes de parcimonie et d'efficacité de prédiction. L'objectif principal de CorReg est l'interprétabilité des résultats (pour application au monde industriel et accessibilité au non-statisticiens) mais les performances en prédiction sont néanmoins efficaces comparées aux méthodes classiques (comme le LASSO) quand les corrélations sont fortes.