Présentation du projet et du logiciel SODAS

OBJECTIFS de l'Analyse de Données Symbolique

Les progrès de la technologie informatique dans le recueil et le transport de données, font que dans tous les grands domaines de l'activité humaine, on recueille maintenant des données en quantité souvent gigantesque et de toutes sortes (numériques, textuelles, graphiques,...).

Partout dans le monde, il se constitue ainsi des gisements de connaissances considérables. En particulier sur le web des ensembles de données qui étaient difficiles d'accés ou mêmes parfois inaccessibles (sociales, économiques, commerciales, médicales, biologiques, d'entreprises industrielles), deviennent à la portée de tous.

De plus, des systèmes d'interrogation des données qui n'étaient autrefois réalisables qu'à l'aide de langages informatiques nécessitant l'intervention d'ingénieurs informaticiens de haut niveau deviennent de plus en plus simples d'accés.

Résumer ces données, à l'aide de concepts sous-jacents (une ville, un type de chômeur, un produit industriel, une catégorie de panne,...), afin de mieux les appréhender et d'en extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits par des données plus complexes que celles habituellement rencontrées en statistique. Elles sont dites " symboliques ", car elles expriment la variation interne inéluctable des concepts et sont structurées. Dans ce contexte, l'extension des méthodes de " l'Analyse des Données Exploratoires " et plus généralement, de la " Statistique Multidimensionnelle " à de telles données, pour en extraire des connaissances d'interprétation aisée, devient une tâche d'importance grandissante.

On ne s'intéresse pas ici à la représentation des connaissances considérée comme un tout dès le départ organisé par un expert, ce qui a constitué l'un des domaines de prédilection de l'Intelligence Artificielle, mais plutôt à des " atomes " ou "unités" de connaissances (les individus ou concepts munis de leur description) considérés au départ comme des entités séparées les unes des autres et qu'il s'agit pour nous d'analyser et d'organiser de façon automatique. Par rapport aux approches classiques, l'Analyse des données symboliques présente les caractéristiques et ouvertures suivantes :

- Elle s'applique à des données plus complexes. En entrée elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de possiblité, capacité etc., voir Diday (1995) et Diday (2000)) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d'objets symboliques présentant les avantages qui vont être développés ci-dessous.

- Elle utilise des outils adaptés à la manipulation d'objets symboliques de généralisation et spécialisation, d'ordre et de treillis, de calcul d'extension, d'intension et de mesures de ressemblances ou d'adéquation tenant compte des connaissances sous-jacentes basées sur les règles et taxonomies.

- Elle fournit des représentations graphiques exprimant entre autres la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone (elle même exprimable sous forme d'objet symbolique) et pas seulement par un point.

Les principaux avantages des objets symboliques peuvent se résumer comme suit :

- Ils fournissent un résumé de la base plus riche que les données agrégées habituelles (car tenant compte de la variation interne et des règles sous-jacentes aux classes décrites, ainsi que des taxonomies fournies, on est loin des simples centres de gravités)

- Ils sont explicatifs, puisqu'ils s'expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels), donc en termes proches de l'utilisateur.

- En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symbolique de second niveau peut s'appliquer.

. Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d'une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville.

- Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue, il peut être plus avantageux d'extraire d'abord des objets symboliques de chaque base puis d'étudier l'ensemble des objets symboliques ainsi obtenus.

- Ils peuvent être facilement transformés sous forme de requête d'une Base de Données. Ceci a au moins les deux conséquences suivantes :

- Ils peuvent donc propager les concepts qu'ils représentent d'une base à une autre (par exemple, d'un pays à l'autre de la communauté européenne, EUROSTAT ayant fait un grand effort de normalisation des différents types d'enquête socio-démographiques).

- Alors qu'habituellement on pose des questions sous forme de requête à la base de données pour fournir des informations intéressant l'utilisateur, les objets symboliques formés à partir de la base par les outils de l'Analyse des Données Symbolique permettent à l'inverse de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes à l'utilisateur.

Le logiciel SODAS

Il s'agit d'un logiciel prototype public (accessible à www.cisia.com) apte a analyser des données symboliques. Il est issu du projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du domaine.

Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques.

Les principales étapes d'une analyse des données dans SODAS, sont les suivantes :

    des unités statistiques de premier niveau (habitants, familles, entreprises, accidents, ...),

    les variables qui les décrivent

    des concepts (villes, groupes socio-économiques, scénario d'accident,...)

VUE    D'ENSEMBLE   DU   LOGICIEL   SODAS







RETOUR PAGE DE GARDE