Stages

Stages pour M2

Méthodes tensorielles adaptative pour les problèmes en dimension élevée


La résolution de problèmes en dimension élevée, avec un grand nombre de données est nécessaire dans de nombreux domaines des sciences et de l’ingénierie. Une approche possible afin de contourner le problème de la ”malédiction de la dimensionalité” est d’utiliser des méthodes basées sur les tenseurs. Dans les formats disponibles et actuellement utilisés, le nombre de termes à utiliser dans la décomposition (appelé rang) est souvent fixé a priori. De plus, les algorithmes numériques utilisés sont intrinsèquement séquentiels ou, au mieux, se décomposent en une suite d’étapes parallélisées. L’objectif du stage est d’étudier et mettre au point des méthodes tensorielles adaptatives. En particulier, étant donné une précision souhaitée, on con struit une approximation compressée sous forme tensorielle dont le rang, ainsi que les fonctions utilisées dans la décomposition, sont adaptés afin de respecter un critère d’erreur. Un point abordé au cours du stage sera la parallélisation de la méthode afin d’avoir des performances optimales. Des applications à la compression de données venant de simulations numériques intensives (problèmes cinétiques et de quantification d’incertitude) seront envisagées. Le stage pourrait être suivi par une thèse de doctorat de trois ans portant sur les mêmes thématiques. Le profil recherché est un étudiant intéressé au calcul scientifique, avec de préférence une connaissance solide de C/C++, MPI et python.

Adaptive tensor methods for high-dimensional problems.


In a wide range of disciplines in science and engineering it is necessary to solve high dimensional problems, often implying a large amount of data to be stored and manipulated. Tensor methods are one of the classes of methods currently under study to deal with high-dimensional problems. In most of the available formats, the tensor rank (the number of terms in the tensor decomposition) is specified a priori. Moreover, these methods are often intrinsically sequential, or parallelisation reduces to long sequences of parallelised operations. The stage goal is twofold: first, in applications it is more pertinent to fix an error criterion. Tensor formats, methods and algorithms will be developed to adapt the tensor rank and the terms of the decomposition according to an error criterion. Second, the parallelisation of the method will be investigated. Applications in compression of data coming from intensive simulations (Kinetic theory and Uncertainty Quantification) will be performed. The stage might be followed by a three years Ph.D. thesis, on the same topic. The ideal candidate should be interested to all aspects of scientific computing and preferentially have a strong background of C/C++, MPI and python.


Laboratory: Inria Paris, team Reo, https://team.inria.fr/reo
Location: Inria Paris, 2 rue Simone Iff, 75012, Paris.
Remunaration: 400 Euros/month
Supervisors: Damiano Lombardi (damiano.lombardiping@inriapong.fr ),Virginie Ehrlacher (virginie.ehrlacherping@enpcpong.fr ),Laura Grigori (laura.grigoriping@inriapong.fr ),Olga Mula (mulaping@ceremade.dauphinepong.fr).

 

Estimation dans le modèle linéaire fonctionnel avec réponse fonctionnelle.

Cadre :  Ce stage a trait à l'analyse statistique de données fonctionnelles : il s'agit de  l’étude d'observations qui ne sont pas, comme généralement en statistique, des réalisations de variables aléatoires réelles ou vectorielles (vecteurs aléatoires), mais des fonctions  aléatoires (courbes, images, etc...). Ce sont des données de dimension infinie, c’est-à-dire rentrant dans le champ de la “très grande dimension”. Celles-ci apparaissent de plus en plus fréquemment dans de nombreux domaines scientifiques, grâce aux progrès récents en  matière de stockage et traitement. La biologie, la climatologie, l’économétrie ou encore la  chimie sont par exemple susceptibles de produire des données considérées comme des  courbes aléatoires. Leur traitement requiert des méthodes spécifiques, différentes (ou tout  au moins spécifiquement adaptées) de celles de l'analyse statistique multivariée classique.

Les recherches en statistique pour données fonctionnelles se sont multipliées ces dernières décennies : on pourra par exemple consulter l'une  des nombreuses monographies sur le sujet, comme celles de Ramsay et Silverman (2002, 2005), Ferraty et Vieu (2006) ou Derraty et Romain (2011). 

Au niveau mathématique, les connaissances requises sont  à l'interface de l'analyse fonctionnelle, des probabilités et des statistiques.

Problème étudié : Un problème très classique en statistique est celui de l'étude du lien entre une variable d'intérêt Y et une covariable ou variable explicative X. 

Le stage se concentre sur le cas où les deux variables aléatoires X et Y sont fonctionnelles :  elles sont considérées comme étant à valeurs dans un espace de Hilbert séparable,  typiquement l’espace des fonctions de carré intégrable sur un intervalle de R ou un espace  de Sobolev plus général. On se place donc non plus dans le cadre fini-dimensionnel de la  statistique classique mais dans un cadre infini-dimensionnel. On supposera que le lien entre X et Y est linéaire.  Le champs couvert est donc à la fois celui de la statistique pour données fonctionnelles, et celui de la statistique non-paramétrique. Un tel problème généralise

  • d'une part l'étude du modèle linéaire  fonctionnel, où seule la variable X est supposée fonctionnelle (la variable réponse Y étant scalaire), introduit par Ramsay et Dalzell (1991) et largement étudié d'un point de vue théorique et appliqué depuis le travail précurseur de Cardot et al. (1999)
  • d'autre part l'étude d'autres problèmes de régression fonctionnelle où seule la variable d'intérêt Y est fonctionnelle (le design X étant multivarié), voir par exemple la revue de Chiou et al. (2004). 

Motivé pourtant par des applications pratiques (étude de la consommation d'électricité par  exemple, Antioch et al., 2010, Benattia et al. 2017), peu de résultats théoriques semblent exister sur le modèle linéaire fonctionnel avec réponse fonctionnelle, à l'exception des  travaux de Yao et al. (2005) et  Crambes et Mas (2013), où des études asymptotiques  d'estimateurs fondés sur l'ACP fonctionnelle de X sont proposés.

Objectifs du stage : Dans un premier temps, l’objectif du stage sera de faire un point sur les méthodes existant dans la littérature sur le modèle considéré. Dans un second temps, il sera possible d’étudier d’un point de vue non-asymptotique une procédure d’estimation du paramètre du modèle. L'écriture d'une décomposition de type biais-variance pour un risque à définir pourra permettre de proposer une méthode de sélection de la dimension (ou de la fenêtre) inspirée des travaux de Birgé et Massart (1998) ou de Goldenshluger et Lepski (2011).

Contacts : Gaëlle Chagny (CR,  LMRS UMR CNRS 6085 , Univ. Rouen) et Angelina Roche (MCF, CEREMADE UMR CNRS 7534, Univ. Paris Dauphine),

Lieu du stage : Laboratoire de Mathématiques Raphaël Salem, Univ. Rouen ou Ceremade, Univ. Paris-Dauphine suivant les préférences de l'étudiant.

Durée : 4 mois.

Financement : projet ANR SMILES (Statistical Modeling and Inference for unsupervised Learning at largE-Scale), porté par Faïcel Chamrouki (Professeur, LMNO, Univ. Caen). Ce projet est principalement dévolu à la modélisation et l'inférence statistique pour des données complexes, de grande échelle (``Big data''), via des problèmes de régression et de classification non-supervisée. Le sujet du stage s'insère dans la partie analyse de données fonctionnelles du projet.