Rapport d'activité du groupe
Analyse de Données, Probabilité et Statistique (ADPES)
1999-2003

2-3-1 Composition du groupe (avec pourcentage de recherche dans ce groupe)

2-3-2 Présentation générale du groupe

2-3-3 ACTIVITE DE RECHERCHE SUR LA PERIODE

2-3-3-a Analyse de données

2-3-3-b Méchanique statistique et systèmes de particules

2-3-3-c Statistique Mathématique

2-3-3-c-a Analyse de la variance-covariance

2-3-3-c-b Statistique bayésienne

2-3-3-c-c Calcul statistique et simulation

2-3-3-c-d Etude et extensions des méthodes MCMC

2-3-3-c-e Echantillonnage préférentiel et Population Monte Carlo $\quad$

2-3-3-c-f Filtrage particulaire et méthodes numériques pour les modèles à variable latente

2-3-3-c-g Grandes déviations et déviations modérées

2-3-4 PERSPECTIVES

2-3-4-a Analyse de données

2-3-4-b Méchanique Statistique

2-3-4-c Statistique Mathématique

2-3-4-c-a Méthodes de calcul


2-3-1 Composition du groupe (avec pourcentage de recherche dans ce groupe)

Permanents

Analyse des données - LISE :

P. Bertrand (MC) (détaché à l'E.N.S.T. de Bretagne pour 3 ans, à partir de Novembre 2002)

Pierre Cazes (PR)

Edwin Diday (PR)

Richard Emilion (PR) jusqu'en 2003)

Bernard Goldfarb (MC)

Françoise Goupil (MC)

Cathérine Pardoux (MC)

Fabrice Rossi (MC)

Mireille Summa (MC)

Myriam Touati (IE)

Probabilité et Statistiques :

Alain Bensoussan (PR) (depuis 2003) (30%)

Danièle Florens (PR)

Ivan Gentil (MC) (depuis 2003) (50%)

Arnaud Guillin (MC)

Jean-Michel Marin (MC)

Stefano Olla (PR)

Christian Robert (PR)

Doctorants (avec année de soutenance en cas de thèse déjà soutenue)

Analyse des données-LISE : P. Aboa (2002), R. Baktavatsalou, S. Camiz (2002), M. Csernel, B. Conan (2002), A. de Reyniès 2002), E. Gigout, R. Hsini (2003), M. Imakor, G. Kissita, S. Le Dien, C. Mballo L. Mehdi, K. Pak, C. Pillet (2003), O. Rodriguez (2000), F. Vautrain (2000), M. Vrac (2002).

Probabilité et Statistiques : B. Amzal, G. Benabou, C. Bernardin, R. Casarin, N. Chopin (2002), G. Gholami, K. Nagy (co-tutelle Dauphine-Univ. Budapest), P. Simondon, A. Tayeb, C. Tremoulet (2002).

2-3-2 Présentation générale du groupe.

Du fait de l'historique des recrutements passés et présents, le groupe ADPES se sépare assez nettement en une partie “Analyse de Données” (LISE), animée par P. Cazes et E. Diday, et impliquant P. Bertrand, R. Emilion, B. Goldfarb, F. Goupil, C. Pardoux, F. Rossi, M. Summa, M. Touati, et une partie “Probabilité et Statistiques” beaucoup plus polymorphe, et à collaborations multiples, qui recouvre les travaux de D. Florens, I. Gentil, A. Guillin, J.-M. Marin, S. Olla et C. Robert.

Le LISE est un groupe de chercheurs à cheval entre les Mathématiques et l'Informatique qui s'intéresse à l'étude de grandes bases de données complexes, le développement d'outils d'analyse des données et leur implémentation pratique. C'est ainsi que le LISE a été associé au projet européen SODAS et participe actuellement au réseau ASSO, dont le but est la réalisation d'un logiciel prototype de traitement de données symboliques. De plus, le LISE participe au projet de création d'un réseau d'excellence ainsi que d'un journal électronique dans ce domaine. L'activité du LISE est orienté vers les applications très concrètes, et dans ce sens, ce groupe a une activité importante de valorisation de la recherche. Une partie du LISE est ainsi associé au projet d'établissement d'une 'Carte Tumorale' piloté par l'ARC. Finalement, quelques chercheurs du LISE ont aidé fortement à la création de la 'start-up' ISTHMA dans le cadre de l'incubateur AGORANOV et avec l'aide de l'ANVAR.

Le groupe “Probabilité et Statistiques” a une activité bien plus théorique et a un rayonnement important au niveau international, au travers de nombreuses collaborations de recherche, de la participation à l'édition de nombreux journaux de haut niveau et l'organisation d'un grand nombre de conférences internationales.

Pour citer quelques exemples, C. Robert a été le responsable français d'un accord de collaboration entre le CNRS et la Royal Society en 2002-2003, l'autre partenaire universitaire étant l'Université de Bristol et son groupe fait aussi partie d'une demande de réseau d'excellence dans le cadre du 6ème programme européen. D'autre part, C. Robert fait partie d'un nombre important de conseils scientifiques et de sociétés savantes et S. Olla est membre du Conseil scientifique du GDR Grip dirige par Thierry Goudon.

Par ailleurs, aussi bien du point de vue de la Probabilité que de la Statistique, ce groupe accueille régulièrement des chercheurs de renommée internationale en tant que professeurs invités ou dans le cadre d'échanges institutionnelles et séjours de recherche.

2-3-3 ACTIVITES DE RECHERCHE

2-3-3-a Analyse de données (Bertrand, Cazes, Diday, Emilion, Goldfarb, Goupil, Pardoux, Rossi, Summa, Touati)

Pendant ces quatre dernières années le LISE s'est intéressé à de nouvelles stratégies d'analyse de données ainsi qu'à de nouvelles structures classificatoires. L'extension des méthodes de “ l'Analyse des Données Exploratoires” et plus généralement, de la “Statistique Multidimensionnelle” à des données symboliques décrivant des unités statistiques munies de variations internes, taxonomies et règles, (en particulier, quand les variables sont des variables à valeurs loi), pour en extraire des connaissances d'interprétation aisée, constitue le champ privilégié de nos recherches présentes et futures (Analyse factorielle, Arbres de décisions, Régression, Réseaux neuronaux, classification hiérarchique ou pyramidale, treillis de Galois).

Le LISE est nœud d'un nouveau programme européen appelé ASSO autour de l'Analyse de Données Symboliques. Ce nœud, piloté au niveau scientifique par E. Diday et géré au niveau de Dauphine par F. Rossi, auquel participent aussi M. Gettler-Summa, F. Goupil et M. Touati, comporte, outre notre groupe (LISE), 15 autres groupes de chercheurs dans des universités principalement européennes provenant de neuf pays (Allemagne, Belgique, Brésil, Finlande, France, Grèce, Italie, Luxembourg, Portugal). Nous participons à la création en 2003 d'un réseau d'excellence européen ainsi qu'un journal international électronique sur ce thème (un article de synthèse vient de paraître dans JASA (L. Billard, E. Diday, Juin (2003)) intitulé “From the statistics of data to the statistic of knowledge: Symbolic Data Analysis” qui fait la synthèse des principaux concepts et résultats récents du domaine). De plus, notre équipe a soutenu, dans l'incubateur AGORANOV auquel participe Paris IX Dauphine, la création d'une jeune entreprise, ISTHMA. Cette dernière a été lauréate de deux concours ANVAR et développe dans un partenariat avec le LISE une plate-forme d'édition et de gestion de données symboliques.

Plus précisément, dans nos approches numériques et symboliques, les thèmes suivants sont développés :

- Développement de méthodes d'analyse des données (ACP, AFC, Régres- sion, décomposition de mélanges, etc.) pour analyser des tableaux dont chaque case est une loi de probabilité P. Cazes, E. Diday, R. Emilion).

- Prise en compte d'informations à priori pour traiter des données : analyse des données conditionnelles, cas des tableaux ternaires P. Cazes).

- Développement de méthodes (discrimination, PLS, détection de points aberrants, etc.) pour résoudre des problèmes de contrôle de qualité complexes et multidimensionnels P. Cazes, F. Goupil).

- Développement de méthodes de validation en classification et étude des propriétés des pyramides et des hiérarchies faibles dans le cadre du modèle ordinal pour la classification proposée par Janowitz P. Bertrand).

- Proposition d'un modèle de classification pyramidale parcimonieux basé sur la contrainte qu'une classe intersecte proprement au plus une autre classe P. Bertrand).

- Classification automatique de données spatiales, extension de la notion de compatibilité entre une dissimilarité et un ordre en remplaçant l'ordre par un maillage E. Diday).

- Généralisation des méthodes de décomposition de mélange de lois par des modèles de copules (Schweizer et Sklar) dans le cadre de l'Analyse des Données Symboliques E. Diday).

- Résultats de convergence en décomposition de mélanges de lois de lois par copules, algorithmes et application en météorologie avec A. Chédin, M. Vrac (Ecole Polytechnique) E. Diday).

- Description symbolique d'une classe avec L. Mehdi, M. Vrac, S. Winsberg (E. Diday).

- Extension de certaines méthodes de statistiques et d 'analyse de données au cas où les unités statistiques sont décrites par des variables aléatoires ou des lois de probabilités : Segmentation R. Emilion, P. Aboa),

- Treillis de Galois, Recherches de règles, application de ces méthodes sur des mesures de performance de réseaux informatiques avec le laboratoire Lip6 de l'Université Paris VI R. Emilion).

- Analyse des données chronologiques multi-dimensionnelles complexes soumises à un mécanisme de censure aléatoire (qualités des codages) B. Goldfarb, C.Pardoux).

- Extension des algorithmes de marquage au cas de données symboliques, nouveaux critères de formation des nœuds. Intégration dans le logiciel du projet européen ASSO M. Gettler-Summa).

- Recherche de stratégie d'analyse de données classique et/ou numérique-symbolique et de méthodes pour le domaine biomédical avec deux contextes contractuels d'application en perspectives :

- Typologies de patients pour des comparaisons d'essais thérapeutiques (Aventis Pharma)

- Discrimination de tissus analysés par biopuces (environ dimension 2000 variables), complétés par des données histologiques et cliniques, et méthodologie pour le transcriptôme (Institut Gustave Roussy) M. Gettler-Summa).

- Analyse de séries chronologiques pour l'épidémiologie de décès, en particulier par cancer en France et dans le monde (en collaboration avec l'Ecole Polytechnique) M. Gettler-Summa, F. Goupil).

- Extension des modèles à variables latentes : prise en compte de l'évolution temporelle (B. Goldfarb).

- Etude théorique et pratique d'un modèle algébrique pour la prise en compte de contraintes symboliques en classification automatique F. Rossi).

- Analyse de données fonctionnelles: Etude théorique de l'extension du perceptron multicouches et classification automatique de données fonctionnelles par cartes de Kohonen F. Rossi).

2-3-3-b Méchanique statistique et systèmes de particules (Olla)

S. Olla a travaillé depuis plusieurs années sur les fluctuations hydrodynamiques pour les systèmes Hamiltoniens infinis de particules en interaction, dans un espace continu (où il existe très peu de résultats, au contraire des réseaux). Un objectif est de démontrer que les équations d'Euler linéarisées décrivent l'évolution macroscopique de ces fluctuations en situation d'équili- bre. Dans le cas d'une interaction aléatoire modélisant l'interaction visqueuse avec un fluide, il a démontré avec C. Tremoulet que ces fluctuations suivent la solution d'une équation de Langevin à dimension infinie. L'extension au cas de collisions aléatoires de caractère visqueux, où les fluctuations à l'équilibre suivent l'équation des ondes linéaires est en voie d'achévement. Pour la modélisation d'un gaz par un réseau sur Zd (exclusion simple asymétrique), S. Olla a caractérisé avec C.-C. Chang et C. Landim les fluctuations en équilibre de la densité des particules, étudiant avec C. Bernardin la superdiffusion du temps d'occupation en dimensions 1 et 2. Il a de plus abordé, avec C. Landim et S.R.S. Varadhan, régularité et approximation des coefficients de diffusion effectifs (viscosité, autodiffusion).

Par ailleurs, il s'est intéressé à des phénomènes de transport diffusifs et superdiffusifs dans un fluide turbulent aléatoire : avec T. Komorowski, il a établi une relation d'Einstein pour la vitesse effective d'une particule chargée dans un système de réaction-diffusion, obtenant une caractérisation de l'état stationnaire de l'environnement vu par la particule. Avec P. Siri, il a aussi étudié l'homogénéisation des marches aléatoires dans des environnements aléatoires avec une distribution localement ergodique en dimension 1. Enfin, il a plusieurs collaborations en cours sur les fluctuations des surfaces aléatoires.

2-3-3-c Statistique Mathématique

2-3-3-c-a Analyse de la variance-covariance (Marin)

Poursuivant son sujet de thèse, J.-M. Marin a, en collaboration avec T. Dhorne et H. Caussinus, étudié les modèles ayant une structure de covariance bande-diagonale linéaire, utilisés pour les données longitudinales et d'échantillonnage spatial. En particulier, ils ont montré l'absence d'estimateur non biaisé optimal pour les paramètres de covariance et ont identifié les estimateurs sans biais usuels comme localement optimaux dans le cas indépendant, avec des applications aux modèles stationnaires à l'ordre 2. Inversement, ils ont aussi caractérisé les modèles où existent de tels estimateurs optimaux. Un travail récent concerne le modèle bande-diagonal emboité d'ordre 1.

2-3-3-c-b Statistique bayésienne (Robert)

Dans le cadre du choix de modèle(s), C. Robert et J. Rousseau ont construit un nouveau test d'adéquation bayésien, représentant l'alternative non-paramétrique par des mélanges de lois béta, sous hypothèse nulle uniforme, et ont montré la convergence des estimateurs par mélanges. Par ailleurs, ils ont proposé une modélisation de microarrays utilisés en Génétique pour l'identification de gènes exprimés, en collaboration avec P. Müller et G. Parmigiani, aux niveaux du processus de décision et de la caractéristiques des gènes par mélanges. Avec G. Celeux, F. Forbes et M. Titterington, C. Robert a également examiné le critère (récent) de choix DIC dans le cadre des modèles à variables latentes, mettant en lumière l'ambivalence du critère et les multiples dérivations non-compatibles en dehors des familles de lois exponentielles, où le critère est uniquement déterminé.

2-3-3-c-c Calcul statistique et simulation (Guillin, Marin, Robert)

Ce thème est commun à de nombreux chercheurs du groupe et plusieurs publications ont été rédigées sur le thème général des algorithmes de Monte Carlo, que ce soit par échantillonnage préférentiel, par chaî nes de Markov ou par systèmes de particules. Les applications naturelles de ces méthodes sont les problèmes rencontrés en estimation bayésienne, lorsque le calcul explicite de la loi a posteriori des paramètres à estimer et des intégrales reliées est impossible. En sus des publications, un groupe de travail et plusieurs thèses sont reliées à ce thème, ainsi que l'implication dans un réseau européen en cours d'examen, sous la direction de G. Roberts (U. Lancaster).

2-3-3-c-d Etude et extensions des méthodes MCMC (Méthodes Monte Carlo par chaî nes de Markov) (Robert)

Ce domaine correspond à l'activité de recherche principale de C. Robert, avec un livre rédigé avec G. Casella (U. Florida), publié en 1999, et dont la révision est prévue en août 2004. Les résultats significatifs sont (a) La représentation, avec J. Hobert (U. Florida), de la loi stationnaire d'un processus de Markov comme mélange géométrique de lois, et son utilisation en échantillonnage dit parfait; (b) L'étude d'algorithmes concurrents dans le traitement du choix de modèles et la dérivation d'une équivalence entre ces algorithmes (avec O. Cappé et T. Rydèn); (c) Le développement d'algorithmes spécifiques aux mélanges et chaî nes de Markov cachées (avec G. Celeux, M. Hurn et M. Titterington); (d) L'incorporation, avec C. Andrieu (Bristol), de structures adaptatives dans les algorithmes MCMC.

2-3-3-c-e Echantillonnage préférentiel et Population Monte Carlo (Guillin, Marin, Robert)

Ce travail commun à A. Guillin, J.-M. Marin, et C. Robert, en collaboration avec O. Cappé (Telecom) et G. Celeux, a mis en évidence une nouvelle méthode stochastique d'approximation, appelée Population Monte Carlo, qui généralise le schéma d'échantillonnage préférentiel classique. Appliqué en estimation bayésienne, ce nouveau schéma d'approximation s'avère plus performant que les méthodes MCMC du fait de son adaptabilité, son caractère sans biais et son aspect parallélisable.

2-3-3-c-f Filtrage particulaire et méthodes numériques pour les modèles à variable latente (Guillin)

Dans ce même thème, A. Guillin a établi les déviations modérées fonctionnelles pour un modèle à espace d'état par filtrage particulaire, avec contrôle de la variance asymptotique. Il travaille actuellement sur des inégalités de concentration gaussiennes pour le filtrage particulaire.

2-3-3-c-g Grandes déviations et déviations modérées

Grandes déviations (Guillin)

Avec H. Djellout (Univ. Clermont-Ferrand), A. Guillin a établi des principes de grandes déviations pour des estimateurs de la variation quadratique d'une diffusion avec coefficient de diffusion déterministe borné et dérive bornée ou à croissance linéaire, dans les cas paramétrique et non paramétrique. De même, pour des processus dépendant d'une infinité de variables i.i.d., ils ont établi principes de grandes déviations et de déviations modérées sous des conditions naturelles en terme de séries chronologiques (ainsi que pour des fonctionnelles non linéaires à croissance au plus quadratique de processus à moyenne mobile).

Déviations modérées (Guillin)

Principalement en collaboration avec Djellout, A. Guillin a aussi obtenu un principe de déviations modérées pour le processus empirique fonctionnel d'une chaîne de Markov à atome, géométriquement ergodiques et Harris récurrentes, et pour des fonctionnelles intégrales homogènes et inhomogènes dans le cas exponentiellement ergodiques.

Par ailleurs, ils appliquent ce principe à la moyennisation d'un système différentiel sans partie diffusion, d'une équation différentielle stochastique avec petite diffusion, et de des fonctionnelles intégrales de diffusions.

Inégalités de transport et applications (Guillin)

Avec P. Cattiaux, A. Guillin a aussi dérivé la condition nécessaire pour le transport T1, avec applications directes au transport de diffusions et à des modèles d'approximation d'équation en milieu granulaire, et étendu au cas du transport T2.

PERSPECTIVES

2-3-4-a Analyse de données

Les projets des membres du groupe LISE s'articulent suivant deux pôles: l'analyse des données classiques et l'analyse des données symboliques.

Pour le premier pôle, on peut citer : le développement de méthodes d'analyse des tableaux ternaires P. Cazes), le traitement des tableaux multiples avec prise en compte d'information complexe C. Pardoux), l'analyse de données longitudinales sur variables latentes B. Goldfarb), la typologie induite par une métrique développée à partir des distributions de survie dans les classes B. Goldfarb, C. Pardoux), le développement d'approches mixant traitement numérique et traitement symbolique appliqués aux applications médicales telles que biopuces M. Gettler-Summa), chroniques de décès et discrimination en cancérologie (M. Gettler-Summa, F.Goupil) et seuillage en essais thérapeutiques M. Gettler-Summa).

Pour le second pôle, on peut citer d'une part, le développement de méthodes d'analyse des données (régression, analyse discriminante, analyse canonique, etc.) au cas de données symboliques (données intervalles, lois de probabilité, etc.) P. Cazes, E. Diday), le développement d'une méthode de “Synthèse d'objets” par extension de la méthode de classification des Nuées Dynamiques appliquée aux données symboliques M. Touati, E. Diday), l'utilisation de l'analyse de données symboliques pour analyser et modéliser la formation de la dispensation des feuilles de soins chez le bénéficiaire mutualiste âgé F. Goupil, M. Touati, E. Diday), d'autre part, la poursuite de l'extension des algorithmes de Marquage Symbolique : prise en compte de taxonomie sur les variables et de partitions sur les variables, traitement sans recodage nominal des entrées intervalles, multivaluées ou diagrammes, programmation distincte de solutions empiétantes et non empiétantes, développement de l'archivage des marquages en SQL et interfaces avec les SGBD M. Gettler-Summa).

2-3-4-b Méchanique Statistique

Les projets de S. Olla couvrent

- un modèle à collisions aléatoires qui admet l'ensemble complet des équations d-Euler comme équations macroscopiques (avec N. Cancrini et F. Martinelli, de l'Université de Rome 3);

- un modèle d-infini d'oscillateurs harmoniques en chaÓne avec perturbation aléatoire non-linéaire (avec K. Nagy et J. Fritz de Budapest);

- les mesures stationnaires de non-equilibre, pour un système connecté à deux réservoirs de chaleur de températures différentes (avec C. Bernardin);

- la régularité des coefficients de diffusion effectifs pour la dynamique de Kawasaki avec interaction locale (avec C. Bernardin);

- phénomènes diffusifs dans des systèmes asymétriques avec des particules de deux couleurs (avec P. Simondon (ENS), R. Marra (Université Rome 2) et R. Esposito (Accademia Lincei)).

2-3-4-c Statistique Mathématique

Dans une perspective de moyen terme, le thème dominant en Statistique paramètrique et non-paramètrique est celui du choix (ou de la sélection) de modèles. L'inclusion de crières décisionnels ou computationnels plus pertinents, la confrontation entre test (goodness of fit) et estimation (model averaging), l'incorporation de techniques non-paramètriques comme les ondelettes dans la représentation des alternatives, sont des sujets qui devraient être abordés prochainement dans le laboratoire, soit directement dans des travaux de recherche, soit comme thèmes de thèses.

Dans le cadre des choix de modèles, un problème intéressant est apparu lors du calcul des niveaux de signification des tests ainsi construits. En collaboration avec J. Rousseau, K. Mengersen (Brisbane) et D. Fraser (Toronto), nous allons entamer l'étude théorique et algorithmique des distributions d'échantillons contraints par leur maximum de vraisemblance. En particulier, les premiers exemples examinés montrent que la résolution globale (et non pas au cas par cas) du problème sera délicate.

En Analyse de la Variance, tous les résultats obtenus doivent Ítre approfondis en étudiant des modèles plus généraux tournés vers les applications. Dans cette optique, mettre en évidence des modèles non centrés ayant une structure de covariance bloc-bande diagonale linéaire et possédant des propriétés d'optimalité en terme d'estimation des paramètres d'espérance et de covariance semble Ítre un objectif raisonnable.

2-3-4-c-a Méthodes de calcul

Pour les algorithmes de Population Monte Carlo comme pour les algorithmes MCMC, le choix du temps d'arrÍt de l'algorithme proposé demeure un problème véritable, même si les algorithmes de Population Monte Carlo sont plus naturellement valides sous de nombreuses règles d'arrêt. à ce stade, on privilégie surtout une approche empirique et il convient maintenant de mettre en évidence des théorèmes limites qui devraient permetter le contrôle de la variance de l'erreur d'approximation. L'horizon de recherche dans ce domaine est de court terme, car d'autres équipes (Cambridge, Harvard, Duke) sont également actives sur ce thème.

Par ailleurs, C. Andrieu et E. Moulines ont obtenu récemment une validation plus complète de méthodes adaptatives sur des chaî nes de Markov. Nous pensons pouvoir exploiter rapidement ces résultats pour la construction d'algorithmes MCMC plus “intelligents”, comme par exemple dans le cadre des particules répulsives de Mengersen et Robert (2003).

Dans un moyen terme, l'utilisation croissante des méthodes particulaires dans un domaine comme la Génétique va très certainement modifier les directions de recherche, en imposant des impératifs de vitesse et de traitement de grandes familles de modèles. Le lien avec les techniques plus empiriques (comme le boosting de Breiman) de la communauté de Machine Learning sera certainement renforcé. Ces techniques étant surtout dédiées à la classification (clustering), l'expertise du groupe en termes de mélanges et de chaî nes de Markov cachées pourra ainsi être exploitée.