GROUPE LISE : Statistique et Analyse des Données

 

BILAN SCIENTIFIQUE 1996-2000

 

Permanents : P. Bertrand, P. Cazes, E. Diday, R. Emilion, M. Gettler-Summa, B. Goldfarb, F. Goupil, C. Pardoux, F. Rossi , M. Touati.

Thèses soutenues : M. Asseraf, J. C. Aude, G. Bel Mufti, M. Chavent, B. Goldfarb, Y. Hillali, E. Périnel, G. Polaillon, C. Rasoamana, E. Sechet, V. Stéphan, B. Tang.

Thèses en cours : Y. Aboa, P. Bezid, S. Camiz, M. Csernel, E. Gigout, S. Gueye, M. R Hsini, C. Pillet, O. Rodriguez, H. Tong, M. Vrac, F. Vautrain)

 

L'activité de ce groupe consiste à trouver de nouvelles approches mathématiques pour le traitement informatique de données statistique numériques et symboliques. Il s'intéresse en particulier au codage pour l'analyse factorielle , à la classification en liaison avec les ordres, à la régression sous contrainte (PLS, Bayesienne, etc.), aux séries temporelles courtes et multiples, aux fondements théoriques de l'Analyse des données symboliques, aux treillis de Galois maximaux et stochastiques, à l'extraction d'objets symboliques et à l'extension des méthodes de l'Analyse des données classiques aux données symboliques.


APPROCHE NUMERIQUE, ORDINALE ET NOMINALE

APPROCHE SYMBOLIQUE


 

1) APPROCHE NUMERIQUE, ORDINALE ET NOMINALE

1.1 Etude de problèmes de codage en analyse de données et en particulier du codage flou, avec développement de méthodes permettant d'analyser des tableaux de données où chaque case n'est plus une valeur numérique mais un intervalle traduisant l'imprécision, et applications à l'analyse en composantes principales et à l'analyse des correspondances. Application à des données bancaires de la Société Générale (P. Cazes, A. Chouakria, E. Diday, B. Tang, M. Gettler-Summa).

1.2 Prise en compte d'informations a priori pour traiter des données: analyse des données conditionnelles, cas des tableaux ternaires avec en particulier le cas d'une série de tableaux indicés par le temps (P. Cazes, B. Goldfarb, C. Pardoux).

1.3 Problèmes liés à la régression et à sa pratique a) Liens entre la régression bornée généralisée sous contraintes et la régression bayesienne, et application à des données physiques très corrélées. b) Liens entre la régression PLS et la régression après analyse des correspondances multiples.

1.4 Etude de problèmes de contrôle de qualité complexes et multidimensionnels. Application à un problème posé par la Société Weber & Broutin (P. Cazes, F. Goupil, C. Pardoux).

1.5 Le développement d'une méthode d'évaluation de la stabilité d'une classe par sous-échantillonnage des données. (R. Bel Mufti, P. Bertrand).

1.6 a) Etude de la bijection générale entre les dissimilarités et les structures classificatoires indicées, à l'aide de la notion de partie maximalement reliée ; cas particulier des dissimilarités obtenues à partir de plusieurs types de classifications indicées : classifications pyramidales, hiérarchies faibles fermées et indicées, et plus généralement k-hiérarchies faibles fermées et indicées (P. Bertrand). b) Mise au point d'un nouvel algorithme constructif d'une classification pyramidale générale ou prise en compte possible d'un ordre donné a priori (E. Diday, O. Rodriguez).

1.7 Analyse du génome microbien : apport de la classification pyramidale, aide à la découverte des premières lois du génome (J. C. Aude, P. Bertrand, E. Diday, en collaboration avec P. Slonimski membre de l'Académie).

1.8 Développement des méthodes de validation par rééchantillonnage pour l'identification, avec application à l'étude exploratoire de multiples séries temporelles courtes (B. Goldfarb).

1.9 Le coût du calcul des différentiels de l'erreur commise par un réseau de neurones dans le cas d'une architecture quelconque se fait plus efficacement par rétropropagation que par calcul direct, ce qui étend le résultat classique connu pour les architectures régulières (F. Rossi).

Ces différents thèmes ont donné lieu, outre des articles et des communications dans des congrès, à 4 thèses et à un livre (thème 1.2).

 

2) APPROCHE SYMBOLIQUE

2.1 Fondement théorique de "l'analyse des données symboliques"
par l'élaboration d'un cadre général pour la définition des "données symboliques". (E. Diday).

2.2 Nous avons montré en particulier que les treillis de Galois constituent la structure sous-jacente aux objets symboliques. Nous avons élaboré une théorie des treillis de Galois maximaux stochastiques. Nous avons montré que des capacités au sens de G. Choquet (qui a présenté ces nouveaux résultats à l'Académie) et de nouveaux types de règles apparaissent dans le cas stochastique. Dans ce cadre, on a prouvé l'existence et l'unicité de telles structures ainsi que leur convergence. Les noeuds de ces treillis sont des concepts (au sens de Ganter et Wille) qui convergent à mesure que la connaissance sur les objets grandit et devient plus précise. (E. Diday, R. Emilion). Nous avons aussi défini et étudié les Treillis de Galois d'objets symboliques sous contraintes et leur lien avec les arbres de décision (E. Diday).

2.3 Construction effective des treillis d'objets symboliques , plusieurs algorithmes classiques ont été étendus dans ce cadre . Le lien entre ces treillis les hiérarchies et les classifications pyramidales a été clairement identifié, les problèmes d'élagage de sommets de ce type de treillis ont été abordés (E. Diday, G. Polaillon, R. Emilion).

2.4 On démontre la convergence d'histogrammes sous-additifs définis par Diday et Emilion, en établissant qu'une capacité de Choquet sous-additive dans R, dominée par une mesure de Radon, admet une densité par rapport à la mesure de Lebesgue. Ce résultat de R. Emilion a été présenté par G. Choquet à l'Académie.

2.5 Nous avons étendu plusieurs méthodes de l'analyse des données classiques à des données symboliques en entrée et à des objets symboliques en sortie : Histogrammes (P. Bertrand, F. Goupil), Pyramides classifiantes (E. Diday, O. Rodriguez), Arbres de décision sur des données stochastiques (Y. Aboa, E. Diday, F. Rossi, R. Emilion).

2.6 Mise aux points de méthodes nouvelles d'extraction d'objets symboliques à partir de classes données (marquage symbolique M. Gettler-Summa ou DB2SO (V. Stephan)), et construction automatique de hiérarchies d'objets symboliques par divisions successives de variables (M. Chavent, E. Périnel, E. Diday, M. Touati).

2.7 Analyse de Données de retour d'expérience: ces données qui expriment une expérience acquise (panne de machine par exemple) se caractérisent par des tableaux de données multiples et de taille gigantesque avec beaucoup de données manquantes et des variables à très grand nombre de modalités. Une nouvelle méthodologie a été mise au point et appliquée à des données confidentielles fournies par SCHLUMBERGER (Clamart). (E. Diday, M. Gettler Summa, M. Touati).

2.8 Analyse de tableaux ternaires et analyse conjointe : une nouvelle méthodologie basée sur des codages numériques-symboliques pour la compression de données a été mise au point. Elle a été appliquée à des données environnementales confidentielles fournies par PHILIPS Research (E. Diday, M. Gettler-Summa, C. Pardoux, G. Polaillon).

2.9 Construction d'objets symboliques temporels et méthodologie pour le suivi de ces objets. Cette nouvelle approche a été appliquée à des données de pêche de l'IFREMER et de l'IRD (ex ORSTOM) (M. Gettler-Summa, C. Pardoux).

 

2.10 Recherche de consensus entre hiérarchies d'objets symboliques. Cette méthode nouvelle a été appliquée à la recherche de consensus entre images segmentées par des hiérarchies d'objets symboliques fournies par le centre de Recherche de MATRA (Velizy). (C. Brieux, E. Diday). Apprentissage d'objets symboliques sur des données évoluant en temps réel. Cette nouvelle approche a été appliquée à des données confidentielles fournies par le centre de Recherche de MATRA (Val de Reuil).

2.11 Nous avons participé à la conception et à l'élaboration du logiciel SODAS (Statistical Official Data Analysis Software). Il s'agit d'un logiciel prototype public (accessible à www.cisia.com) apte à analyser des données symboliques. Il est issu du projet de EUROSTAT
(17 équipes européennes pilotées et coordonnées au plan scientifique par E. Diday), appelé SODAS, comme le logiciel qui en est issu, pour fournir un cadre aux différentes avancées récentes et futures du domaine. Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts (scénarios d'accidents, catégories de chômeurs, groupes socio-professionnels etc.) résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par douze méthodes d'analyse de données symboliques dont la théorie et le cadre informatique ont été définis dans ce projet (P. Bertrand, P. Cazes, E. Diday, M. Gettler-Summa, F. Goupil, C. Pardoux, M. Touati).

Ces différents thèmes ont donné lieu, outre des articles dans des revues et de communications dans des congrès, à 6 thèses et à un livre (thème 2.9).




Retour à la page de présentation générale du Ceremade

retour page de garde CEREMADE