Résumé 74 :

Un critère de sélection de modèle pour la classification non supervisée de données annotées: applications à l'analyse de données d'expression degènes RNA-seq
Gallopin, Mélina ; Rau, Andrea ; Jaffrézic, Florence ; Celeux, Gilles
Université Paris-Sud

En classification non supervisée, il est souvent utile de pouvoir interpréter a posteriori les classes formées à l'aide d'informations externes. Les modèles de mélange fournissent un cadre probabiliste adapté. Nous proposons de prendre en compte des annotations externes disponibles pour une partie des observations dans l'étape de sélection de modèle, généralement effectuée à l'aide des critères BIC (Bayesian Information Criterion) ou ICL (Integrated Completed Likelihood criterion). Notre critère de sélection de modèle est basé sur une approximation de la log-vraisemblance complétée du modèle sachant les annotations. Il inclut un terme d'entropie mesurant le lien existant entre la classification inférée et les annotations externes. Dans le cas des données d'expression de gènes, ces annotations externes sont fournies par la liste potentiellement incomplète des propriétés fonctionnelles des gènes, aussi appelées termes GO (Gene Ontology). Le critère de sélection proposé conduit à former des classes de gènes plus faciles à interpréter biologiquement. L'intérêt de cette stratégie de sélection de modèle est illustré pour des modèles de mélange gaussien et de lois de Poisson sur des données simulées et sur des données réelles d'expression de gènes RNA-seq.