Groupe LISE

                         "STATISTIQUE ET ANALYSE DES DONNEES"


NEWS

ECOLE D'ANALYSE DE DONNEES SYMBOLIQUES et du logiciel SODAS
12-13 Avril 2005   Universite Paris - Dauphine  

 PROGRAMME     

        

N'hésitez pas à nous faire part de vos critiques ou suggestions :
Responsables: Myriam TOUATI touati@ceremade.dauphine.fr
  Edwin DIDAY diday@ceremade.dauphine.fr

 

LISE - CEREMADE

Université PARIS - Dauphine
Place du Maréchal de Lattre de Tassigny 75775 75775 PARIS CEDEX 16
Téléphone : 01-44-05-47-14

Métro : Porte Dauphine - RER C : Avenue Foch

 

Permanents:P. Cazes, E. Diday, M. Gettler-Summa, B. Goldfarb, F. Goupil, C. Pardoux, M. Touati.

Thésards ayant soutenu: Y. Aboa, F. Afonso, M. Asseraf, J.C. Aude, E. Auriol, G. Bel Moufti, X. Bry, S. Camiz,  M. Chavent, A. Chouakria, B. Conan, M. Csernel, A. De Reynies, C. Derquenne, B. Goldfarb, Y. Hillali, R. Hsini, G. Kissita, S. Ledien, M. Limam, C. Mballo, K. Pak, E. Perinel, C. Pillet, G. Polaillon, C. Rasoamana, O. Rodriguez, E. Sechet, V. Stéphan, B. Tang, F. Vautrain, M. Vrac .  

Thèses en cours : A. Elgoli, M. Imakor, B. Kane, M. Rahal, D. Seck, I. Wagne.

L'activité de ce groupe consiste à trouver de nouvelles approches mathématiques pour le traitement informatique de données statistiques numériques et symboliques. Il s'intéresse en particulier au codage pour l'analyse factorielle, à la classification en liaison avec les ordres, à la régression sous contrainte (PLS, Bayesienne, etc.), aux séries temporelles courtes et multiples, aux fondements théoriques de l'Analyse des données symboliques, aux treillis de Galois maximaux et stochastiques, à l'extraction d'objets symboliques et à l'extension des méthodes de l'Analyse des données classiques aux données symboliques.
 

  1. APPROCHE NUMERIQUE, ORDINALE ET NOMINALE
    1. Etude de problèmes de codage en analyse de données et en particulier du codage flou, avec développement de méthodes permettant d'analyser des tableaux de données où chaque case n'est plus une valeur numérique mais un intervalle traduisant la variation, et applications à l'analyse en composantes principales et à l'analyse des correspondances. Application à des données bancaires de la Société Générale (P.Cazes, A. Chouakria, E. Diday, B. Tang, M. Gettler-Summa).

    2. Prise en compte d'informations a priori pour traiter des données : analyse des données conditionnelles, cas des tableaux ternaires avec en particulier le cas d'une série de tableaux indicés par le temps (P. Cazes, B. Goldfarb, C. Pardoux).

    3. Problèmes liés à la régression et à sa pratique

      • Liens entre la régression bornée généralisée sous contraintes et la régression bayesienne, et application à des données physiques très corrélées.

      • Liens entre la régression PLS et la régression après analyse des correspondances multiples

    4. Etude de problèmes de contrôle de qualité complexes et multidimensionnels. Application à un problème posé par la Société Weber & Broutin (P. Cazes, F. Goupil, C. Pardoux).

    5. Le développement d'une méthode d'évaluation de la stabilité d'une classe par sous-échantillonnage des données. (R. Bel Mufti, P. Bertrand).

      • Etude de la bijection générale entre les dissimilarités et les structures classificatoires indicées, à l'aide de la notion de partie maximalement reliée ; cas particulier des dissimilarités obtenues à partir de plusieurs types de classifications indicées : classifications pyramidales, hiérarchies faibles fermées et indicées, et plus généralement k-hiérarchies faibles fermées et indicées (P. Bertrand).

      • Mise au point d'un nouvel algorithme constructif d'une classification pyramidale générale ou prise en compte possible d'un ordre donné a priori (E. Diday, O. Rodriguez).

    6. Analyse du génome microbien : apport de la classification pyramidale, aide à la découverte des premières lois du génome (J.C. Aude, P. Bertrand, E. Diday, en collaboration avec P. Slonimski membre de l'Académie).

    7. Développement des méthodes de validation par rééchantillonnage pour l'identification, avec application à l'étude exploratoire de multiples séries temporelles courtes (B. Goldfarb).

    8. Le coût du calcul des différentiels de l'erreur commise par un réseau de neurones dans le cas d'une architecture quelconque se fait plus efficacement par rétropropagation que par calcul direct, ce qui étend le résultat classique connu pour les architectures régulières (F. Rossi).

Ces différents thèmes ont donné lieu, outre des articles et des communications dans des congrès, à 4 thèses et à un livre (thème 1.2).

Perspectives de recherche

 

  1. APPROCHE SYMBOLIQUE

    1. Fondement théorique de "l'analyse des données symboliques" par l'élaboration d'un cadre général pour la définition des "données symboliques". (E. Diday).

    2. Démonstration en particulier que les treillis de Galois constituent la structure sous-jacente aux objets symboliques. Nous avons élaboré une théorie des treillis de Galois maximaux stochastiques. Nous avons montré que des capacités au sens de G. Choquet (qui a présenté ces nouveaux résultats à l'Académie) et de nouveaux types de règles apparaissent dans le cas stochastique. Dans ce cadre, on a prouvé l'existence et l'unicité de telles structures ainsi que leur convergence. Les noeuds de ces treillis sont des concepts (au sens de Ganter et Wille) qui convergent à mesure que la connaissance sur les objets grandit et devient plus précise. (E. Diday, R. Emilion). Nous avons aussi defini et étudié les Treillis de Galois d'objets symboliques sous contraintes et leur lien avec les arbres de décision (E. Diday).

    3. Construction effective des treillis d'objets symboliques , plusieurs algorithmes classiques ont été étendus dans ce cadre . Le lien entre ces treillis les hiérarchies et les classification pyramidales a été clairement identifié, les problèmes d'élagage de sommets de ce type de treillis ont été abordés (E. Diday, G. Polaillon, R. Emilion).

    4. Extension de plusieurs méthodes de l'analyse des données classiques à des données symboliques en entrée et à des objets symboliques en sortie : Histogrammes (P. Bertrand, F. Goupil), Pyramides classifiantes (E. Diday, O. Rodriguez), Arbres de décision sur des données stochastiques (Y. Aboa, E. Diday, F. Rossi, R. Emilion).

    5. Démonstration de la convergence d'histogrammes sous-additifs définis par Diday et Emilion, en établissant qu'une capacité de Choquet sous-additive dans R dominée par une mesure de Radon admet une densité par rapport à la mesure de Lebesgue . Ce résultat de R. Emilion a été présenté par G. Choquet à l'Académie.

    6. Mise aux points de méthodes nouvelles d'extraction d'objets symboliques à partir de classes données (marquage symbolique M. Gettler-Summa ou DB2SO (V. Stephan)), et construction automatique de hiérarchies d'objets symboliques par divisions successives de variables (M. Chavent, E. Périnel, E. Diday, M. Touati).

    7. Mise au point d'un modèle mathématique (algébrique) de la classification sous contraintes expertes (contraintes de fusion et d'exclusion). Le modèle permet de séparer la description symbolique des contraintes de leur traduction concrète sur une population.. (F.Rossi, F.Vautrain)

    8. Analyse de tableaux ternaires et analyse conjointe : une nouvelle méthodologie basée sur des codages numériques-symboliques pour la compression de données a été mise au point. Elle a été appliquée à des données environnementales confidentielles fournies par PHILIPS Research (E. Diday, M. Gettler-Summa, C. Pardoux, G. Polaillon).

    9. Analyse de Données de retour d'expérience: ces données qui expriment une expérience acquise (panne de machine par exemple) se caractérisent par des tableaux de données multiples et de taille gigantesques avec beaucoup de données manquantes et des variables à très grand nombre de modalités. Une nouvelle méthodologie a été mise au point et appliquée à des données confidentielles fournies par SCHLUMBERGER (Clamart). industriel (E. Diday, M. Gettler Summa, M. Touati).

    10. Construction d'objets symboliques temporels et méthodologie pour le suivi de ces objets. Cette nouvelle approche a été appliquée à des données de pêche de l'IFREMER et de l'IRD - ex ORSTOM- (M. Gettler-Summa, C. Pardoux).

    11. Recherche de consensus entre hiérarchies d'objets symboliques. Cette méthode nouvelle a été appliquée a la recherche de consensus entre images segmentées par des hiérachies d'objets symboliques fournies par le centre de Recherche de MATRA (Velizy). (C. Brieux, E. Diday). Apprentissage d'objets symboliques sur des données évoluant en temps réel. Cette nouvelle approche a été appliquée à des données confidentielles fournies par centre de Recherche de MATRA (Val de Reuil).

    12. Participation à la conception et à l'élaboration du logiciel SODAS (Statistical Official Data Analysis Software). Il s'agit d'un logiciel prototype public (accessible à www.cisia.com) apte à analyser des données symboliques. Il est issu du projet de EUROSTAT ( 17 équipes européennes pilotées et coordonnées au plan scientifique par E. Diday), appelé SODAS, comme le logiciel qui en est issu, pour fournir un cadre aux différentes avancées récentes et futures du domaine. Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts (scénarios d'accidents, catégories de chômeurs, groupes socio-professionnels etc.) résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par douze méthodes d'analyse de données symboliques dont la théorie et le cadre informatique ont été définis dans ce projet (P. Bertrand, P. Cazes, E. Diday, M. Gettler-Summa, F. Goupil, C. Pardoux, M. Touati).

Ces différents thèmes ont donné lieu, outre des articles dans des revues et des communications invitées dans des congrès importants, à 6 thèses et à un livre (thème 2.9).

 

Perspectives de recherche

L'Analyse des données Symboliques dispose maintenant d'un cadre théorique et d'un prototype informatique permettant d'étendre et de renouveler toutes les méthodes de la statistique multidimensionnelle afin de les mettre en adéquation avec les données complexes et en quantité gigantesque dont nous disposons maintenant du fait des progrès de la technologie informatique. Cela va permettre de décupler les recherches et les applications dans tous les domaines où il s'agit d'obtenir des données de niveau plus élevé, puis d'en extraire des connaissances.

Les principaux axes des recherches pour les cinq prochaines années seront dans l'ordre du temps les suivantes:

    1. De façon générale, approfondir et étendre le cadre théorique et informatique actuel de l'Analyse des données symboliques.
    2. Etendre et étudier les structures classifiantes de type partition, hiérarchie, pyramide, treillis de Galois dans le cadre symbolique aussi bien au niveau des entrées, des algorithmes que des sorties. Etendre et approfondir les premiers résultats obtenus dans le cas stochastique (pour les treillis) à toutes ces structures. En déduire des critères de qualité et de validité des classes d'objets symboliques obtenues. Apprentissage de cheminements efficaces dans le treillis de Galois de façon à accélérer l'identification et l'insertion de concepts.
    3. Etudier la propagation de concepts d'une base à l'autre, cela implique la mise au point de techniques adaptatives de calcul d'extension, d'intension puis de consensus entre ensembles d'objets symboliques et la structure classifiante qui les lie. Aussi, dans le langage de requêtes utilisé cela soulève le problème de la transformation d'objets symboliques en requête.
  1. AUTRES ACTIVITES
    1. ACTIVITES INTERNATIONALES AVEC DES UNIVERSITES :

Professeurs M. Janowitz et B. Schweizer Mathematics Department, Massachussets University Amherst . Etats -Unis. Organisation commune de séminaires internationaux avec le Pr. Janowitz Deux publications soumises avec Pr. Janowitz et une publication commune en cours avec le Prof. Schweizer .

Professeur L. Billard: Departement Statistics, University of Georgia, Athens, GA 30602 Etats-Unis. Deux publication en cours, l'une sur la "régression entre variables à valeurs intervalle" et l'autre sur une synthèse de quelques résultats nouveaux obtenus en Analyse des données symboliques.

Professeur H. H. Bock : Université d'Aachen , Institut de Statistiques. Allemagne. Livre en commun.

Professeurs M. Noirhomme et JP. Rasson: Faculté Universitaire (FUNDP) de Namur Institut d'informatique et Département de Mathématiques. Belgique. Projets Européens , livre et préparation de colloque en commun (KESDA '98).

Professeur C. Gowda Université de Mysore collaboration dans le cadre d'un contrat IJCPAR.

Professeurs C. Lauro et R. Verde: Université de Naples , Département de Statistique. Participation commune à des projets européens, publications communes .
 

    1. PARTICIPATION ET ENCADREMENT DE PROJETS EUROPEENS
    1. ACTIVITES NATIONALES

      Nous encadrons des thèses en commun avec plusieurs centres de recherche nationaux : Ecole Polytechnique, (M. Vrac), INRETS (A. de Régnies), INRIA (B. Conan, M. Chavent), EDF-Clamart (V. Stephan).

  1. LISTE DE RESEAUX ET ACCORDS INTERNATIONAUX DE COLLABORATION DE RECHERCHE

Un contrat IJCPAR avec le Professeur Gowda pour l'analyse symbolique d'images satellite.

Un contrat d'échanges avec l'Université de Naples (Pr. C. Lauro).

Un contrat d'échange avec le JAIST (Japan Advanced Institute of Science and Technology), Hokuriku, Japon. (Professeurs Nakomori et Ho Tu Bao).

Un contrat d'échange Franco-Portugais (ICCTI) .

Un contrat d'échange dans le cadre des projets ALPHA de la CEE avec l'Amérique du Sud (Université de Rosario en Argentine, département. de Statistiques et d'Education)

Un contrat avec l'Institut TES lié à EUROSTAT (Luxembourg) pour l'organisation d'une Ecole Européenne sur l'Analyse des Données Symboliques et SODAS qui s'est déroulée à L'Université Paris-9 Dauphine en 1999.

  1. Articles dans des journaux

E. Diday, R. Emilion (1997) "Treillis de Galois Maximaux et Capacités de Choquet" C.R. Acad. Sc. t.325, Série 1, p 261-266. Présenté par G. Choquet en Analyse Mathematique.

R. Emilion (1997) "Différentiation des Capacités de Choquet" C.R. Acad. Sc. Paris t.324, Série 1, p 389-392. Présenté par G. Choquet en Analyse Mathematique.

E. Diday (2000) "Analyse des données symboliques: théorie et outil pour la fouille de connaissances" TSI (Technique et Science Informatiques). Vol 19, n°1-2-3 , Janvier 2000.
 

  1. Livres:

Hans-Hermann Bock, Edwin Diday (eds.) (Janvier 2000): Analysis of Symbolic Data.Exploratory methods for extracting statistical information from complex data.

Springer Verlag, Heidelberg, 425 pages, ISBN 3-540-66619-2.

E. Diday, Y. Kodratoff, P. Brito, M. Moulet (eds.) (Janvier 2000): "Induction symbolique numérique à partir de données". Cépadues. 31100 Toulouse. www.editions-cepadues.fr, 442 pages.