Résumé 74 :
Un critère de sélection de modèle pour la classification non supervisée de données annotées: applications à l'analyse de données d'expression degènes RNA-seq
Gallopin, Mélina ; Rau, Andrea ; Jaffrézic, Florence ; Celeux, Gilles
Université Paris-Sud
En classification non supervisée, il est souvent
utile de pouvoir interpréter a posteriori les classes formées à l'aide
d'informations externes. Les modèles de mélange fournissent un cadre
probabiliste adapté. Nous proposons de prendre en compte des annotations
externes disponibles pour une partie des observations dans l'étape de
sélection de modèle, généralement effectuée à l'aide des critères
BIC (Bayesian Information Criterion) ou ICL (Integrated Completed
Likelihood criterion). Notre critère de sélection de modèle est basé
sur une approximation de la log-vraisemblance complétée du modèle sachant
les annotations. Il inclut un terme d'entropie mesurant le lien
existant entre la classification inférée et les annotations
externes. Dans le cas des données d'expression de gènes, ces annotations externes
sont fournies par la liste potentiellement incomplète des propriétés
fonctionnelles des gènes, aussi appelées termes GO (Gene Ontology). Le
critère de sélection proposé conduit à former des classes de
gènes plus faciles à interpréter biologiquement. L'intérêt de cette
stratégie de sélection de modèle est illustré pour des modèles de
mélange gaussien et de lois de Poisson sur des données simulées et sur
des données réelles d'expression de gènes RNA-seq.