AccueilDEENES


Recherche avancée

Nos thèses en ligne

Déposer une thèse
Mon CompteS'inscrireAide

À propos de...
DOMAINES
Mathématiques et leurs applications
Sciences et technologies de l'information et de la communication
Physique, optique
Science des matériaux, mécanique, génie mécanique
Mécanique des fluides et énergétique
Chimie, physico-chimie et génie chimique
Sciences de la vie et ingénierie du vivant
Sciences de la terre et génie de l'environnement
Sciences de l'économie, de la gestion et de la société
Recherche d'une représentation des données efficace pour la fouille des grandes bases de données.

Boullé, Marc (2007) Recherche d'une représentation des données efficace pour la fouille des grandes bases de données. Doctorat INFORMATIQUE, Département TSI, ENST p.328.

Plein texte disponible en tant que :

- BoulleThesis07.pdf ( 4925 Kb )
Licence: Copyright

Autres Localisations: http://perso.rd.francetelecom.fr/boulle/publications/BoulleThesis07.pdf

Résumé

La phase de préparation du processus de fouille des données est critique pour la qualité des résultats et consomme typiquement de l'ordre de 80% d'une étude. Dans cette thèse, nous nous intéressons à l'évaluation automatique d'une représentation, en vue de l'automatisation de la préparation des données.



A cette fin, nous introduisons une famille de modèles non paramétriques pour l'estimation de densité, baptisés modèles en grille. Chaque variable étant partitionnée en intervalles ou groupes de valeurs selon sa nature numérique ou catégorielle, l'espace complet des données est partitionné en une grille de cellules résultant du produit cartésien de ces partitions univariées. On recherche alors un modèle où l'estimation de densité est constante sur chaque cellule de la grille.



Du fait de leur très grande expressivité, les modèles en grille sont difficiles à régulariser et à optimiser. Nous avons exploité une technique de sélection de modèles selon une approche Bayesienne et abouti à une évaluation analytique de la probabilité a posteriori des modèles. Nous avons introduit des algorithmes d'optimisation combinatoire exploitant les propriétés de notre critère d'évaluation et la faible densité des données en grandes dimensions. Ces algorithmes ont une complexité algorithmique garantie, super-linéaire en nombre d'individus.



Nous avons évalué les modèles en grilles dans de nombreux contexte de l'analyse de données, pour la classification supervisée, la régression, le clustering ou le coclustering. Les résultats démontrent la validité de l'approche, qui permet automatiquement et efficacement de détecter des informations fines et fiables utiles en préparation des données.

Type d'EPrint:Thèse (Doctorat)
Directeur de Thèse:Moulines, Eric
Date:24 Septembre 2007
Jury de Thèse:Guyon, Isabelle et Robert, Christian et Moulines, Eric et Clérot, Fabrice et Sebag, Michèle et Zighed, Djamel
Ecole Doctorale:ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE)
Discipline:INFORMATIQUE
Fonds:ENST
Institution:ENST
Laboratoire:Département TSI
Sujets:2. Sciences et technologies de l'information et de la communication
1. Mathématiques et leurs applications
Mots-clés libres:Apprentissage Exploration de données Statistique Bayesienne Préparation des données Sélection de modèles, Machine learning Data exploration Bayesianism Data preparation Model selection
Code ID:3023
Déposé par :Marc Boullé
Déposé le :23 Mai 2008

Références Bibliographiques

M. Boullé. Recherche d'une représentation des données efficace pour la fouille des grandes bases de données. PhD Thesis Ecole Nationale Supérieure des Télécommunications, 2007

Statistiques de consultation

Administrateurs de l'archive uniquement : éditer cet enregistrement



Site institutionnel: Tous les documents publiés sont validés par ParisTech.
Sauf mention expresse, l'utilisation commerciale des documents déposés, même à but non lucratif, est interdite.
© ParisTech 2007 - Réalisé par RILK.com - Graphisme par Winch Communication