Soutenance de thèse (Bruno BELUCCI TEIXEIRA, mercredi 1er avril 2026 à 14h)

20 mars 26

M. Bruno BELUCCI TEIXEIRA soutiendra sa thèse mercredi 1er avril 2026 à 14h en Salle des thèses - D520. Sa thèse, intitulée "Apprentissage sur Données Tabulaires : Régularisation Structurelle, des Réseaux de Neurones à Petits Échantillons au Clustering en Haute Dimension", a été réalisée sous la direction de Vincent RIVOIRARD et Karim LOUNICI.


Titre : Apprentissage sur Données Tabulaires : Régularisation Structurelle, des Réseaux de Neurones à Petits Échantillons au Clustering en Haute Dimension


Résumé 


Cette thèse étudie l’apprentissage sur données tabulaires dans des régimes difficiles : régression en petit échantillon avec réseaux de neurones et regroupement en grande dimension. Nous proposons une synthèse structurée des fondements théoriques des méthodes supervisées et non supervisées actuelles, ainsi qu’un vaste benchmark empirique comparant modèles statistiques classiques, arbres de décision boostés et réseaux de neurones sur des tâches tabulaires variées. Nous introduisons ensuite AdaCap, une technique de régularisation qui adapte la capacité des réseaux de neurones pour améliorer leurs performances en situation de faible quantité de données.
Pour l’apprentissage non supervisé, nous présentons CoHiRF, un méta-algorithme qui étend les méthodes de clustering à la grande dimension et fournit des représentations hiérarchiques interprétables, puis VertCoHiRF, qui transpose cette approche à l’apprentissage fédéré vertical pour un regroupement décentralisé et confidentiel, fondé sur un consensus structurel entre parties. Ces contributions font progresser des méthodes d’apprentissage scalables, interprétables et robustes pour les données tabulaires, en environnements centralisés et fédérés.

Summary


This thesis investigates learning on tabular data in challenging regimes: small-sample regression with deep neural networks and high-dimensional clustering. We provide a structured survey of theoretical foundations and current supervised and unsupervised methods, alongside a large-scale empirical benchmark comparing classical statistical models, gradient-boosted trees, and deep neural networks across diverse tabular tasks. We then propose AdaCap, a targeted regularization technique that adaptively controls model capacity to improve neural networks in low-data settings. For unsupervised learning, we introduce CoHiRF, a consensus-based metaalgorithm that scales existing clustering methods to high-dimensional data and offers interpretable hierarchical cluster representations, and VertCoHiRF, which extends this approach to vertical federated learning for decentralized, privacy-preserving clustering based on structural consensus across parties. Collectively, these contributions advance scalable, interpretable, and robust learning methodologies for tabular data in centralized and federated environments.


Membres du jury


M. Christophe DENIS, Professeur des universités, Université Paris 1 Panthéon-Sorbonne, Rapporteur
M. Mohamed HEBIRI, Maître de conférences, Université Paris-Est Marne-La-Vallée, Rapporteur
Mme Katia MEZIANI, Maître de conférences, Université Paris Dauphine – PSL, Co-encadrante de thèse
M. Karim LOUNICI, Professeur, École Polytechnique, Directeur de thèse
M. El Mahdi EL MHAMDI, Maître de conférences, École Polytechnique, Examinateur
Mme Patricia REYNAUD-BOURET, Directeur de recherche, Université Côte D'azur, Examinatrice
Mme Madalina OLTEANU, Professeur des universités, Université Paris Dauphine – PSL, Examinatrice
M. Vincent RIVOIRARD, Professeur des universités, Université Paris Dauphine – PSL, Directeur de thèse