Accueil DE EN ES FR


Advanced Search

Our On-Line PhDs

Submit a Thesis
My Account Register Help

About
Fields
Mathematics and Applications
Information and Communication Sciences and Technologies
Physics, Optics
Materials Science, Mechanics and Mechanical Engineering
Fluid Mechanics and Energy
Chemistry, Physical Chemistry and Chemical Engineering
Life Sciences and Engineering
Earth Sciences and Environmental Engineering
Sciences of Economy, Management and Society
Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments

Goulon-Sigwalt-Abram, Aurélie (2008) Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments. PhD thesis, Laboratoire d'Électronique de l'ESPCI, ESPCI p.134.

Full text available as:

- These_AG-convertie-PASTEL.pdf ( 7684 Kb )
Licence: Copyright

Official URL: http://www.neurones.espci.fr/Francais.Docs/dossier_recherche/bibliographie/theses.htm

Abstract

La modélisation de propriétés et d’activités de molécules constitue un champ de recherche important, qui permet par exemple de guider la synthèse de médicaments. Les méthodes traditionnelles de modélisation établissent des relations non linéaires entre les propriétés étudiées et les caractéristiques structurelles des molécules, appelées descripteurs. Leurs principaux inconvénients résident dans la difficulté du choix des descripteurs et leur calcul préalable.

Nous avons mis au point une nouvelle technique de modélisation qui s'affranchit de ces problèmes, en établissant une relation directe entre la structure des données et la propriété modélisée. L'apprentissage s'effectue non plus à partir de vecteurs de données, mais à partir de graphes. Les molécules peuvent en effet être représentées par des graphes, qui tiennent compte des liaisons chimiques, de la nature des atomes ou encore de la stéréochimie du composé initial. Chaque graphe de la base étudiée est alors associé à une fonction de même structure mathématique, appelée graph machine, obtenue par combinaison de fonctions paramétrées identiques. Ces paramètres sont alors déterminés par apprentissage.

Nous montrons que les techniques traditionnelles de sélection de modèle peuvent être utilisées dans le cadre des graph machines ; elles permettent d’évaluer les capacités en généralisation des modèles proposés, mais aussi de détecter les catégories de molécules sous-représentées dans la base d’apprentissage, et d’estimer les intervalles de confiance des prédictions. De très bons résultats ont été obtenus par l’utilisation de cette technique sur un grand nombre de bases de données de propriétés ou d’activités moléculaires.

Item Type:PhD Thesis (PhD)
PhD Supervisor:Dreyfus, Gérard and Duprat, Arthur
Date:21 May 2008
Board of examiners:Doucet, Jean-Pierre and Samuelides, Manuel and Sebag, Michèle and Gallinari, Patrick and Prost, Jacques and Dreyfus, Gérard and Duprat, Arthur
Ecole Doctorale:ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE)
Collection (Fonds):ESPCI ParisTech
Institution:ESPCI
Department:Laboratoire d'Électronique de l'ESPCI
Subjects:2. Information and Communication Sciences and Technologies
Uncontrolled Keywords:Apprentissage artificiel, Données structurées, Graph machine, Graphes, Sélection de modèle, Toxicité, Ecdystéroïde, Epothilone, Régression non linéaire, Machine learning, Structured data, Graphs, Model selection, Toxicity, Ecdysteroid
ID Code:4103
Deposited By:Gerard DREYFUS
Deposited On:29 August 2008

References

Goulon-Sigwalt-Abram, Aurélie (2008) Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments. Thèse de doctorat de l'Université Pierre et Marie Curie, Paris.

Table of content

SOMMAIRE 7

INTRODUCTION 9

CHAPITRE 1 - La prédiction de propriétés et d'activités de molécules 11

I - Les descripteurs : sélection, calcul ou mesure, problèmes en résultant 11

I.1 - Les descripteurs moléculaires 12

I.2 - Réduction du nombre de variables 14

II - Modélisation par optimisation sans contrainte 16

II.1 - Régression linéaire multiple (MLR) 16

II.2 - Réseaux de neurones 17

II.3 - Sélection du modèle 20

III - Optimisation sous contraintes 27

III.1 - Théorie statistique de l'apprentissage 29

III.2 - Les machines à vecteurs supports 31

III.3 - Les méthodes à noyaux pour la modélisation QSPR/QSAR 38

IV - Autres méthodes de QSPR/QSAR 39

IV.1 - Méthode de contribution de groupes 40

IV.2 - Analyse comparative de champs moléculaires (CoMFA) 41

IV.3 - Modélisation à partir des structures des molécules 43

CHAPITRE 2 - Les Graph Machines 44

I - Définition et caractéristiques d’un graphe 44

I.1 - Graphes simples 44

I.2 - Graphes orientés 45

I.3 - Graphes étiquetés 46

I.4 - Matrices d’adjacence 46

II - Représentation de données structurées par des graphes 48

III - Apprentissage à partir de graphes : RAAMs et LRAAMs 50

III.1 - Les Mémoires Auto-Associatives Récursives 50

III.2 - Les Mémoires Récursives Auto-Associatives Étiquetées 53

IV - Les Graph Machines 54

IV.1 - Modélisation à partir de graphes acycliques 54

IV.2 - Structure mathématique des graph machines 54

IV.3 - Les étiquettes 57

V - L’apprentissage des graph machines 57

V.1 - Propriété d'approximation universelle 57

V.2 - Utilisation des algorithmes traditionnels 58

V.3 - Sélection de modèle 59

VI - Modélisation à partir de graphes cycliques 65

VI.1 - Transformation de graphes quelconques en arborescences 66

VI.2 - Méthode alternative de modélisation à partir de graphes cycliques 68

VII - Exemples didactiques d'utilisation des graph machines 69

VII.1 - Détermination du nombre de nœuds d'un graphe 69

VII.2 - Détermination du nombre d’arêtes et de cycles d'un graphe 70

VIII - Résumé : méthodologie de conception de modèles prédictifs ou de classifieurs par apprentissage à partir d'une base de données structurées 72

CHAPITRE 3 - Méthodologie en QSPR et QSAR 74

I - Construction des graph machines associées aux molécules 74

I.1 - Représentation de molécules par des arborescences 75

I.2 - Étiquettes (nature, degré, isomérie, éventuel descripteur) 76

I.3 - Conversion des graphes en arborescences - choix de l’algorithme 78

II - Sélection des exemples de la base d'apprentissage 84

III - Fonctions de nœud et sélection de la complexité 87

III.1 - Structure de la fonction de nœud 87

III.2 - Cas particulier : les graph machines pour la classification 89

III.3 - Sélection du modèle 89

CHAPITRE 4 - Exemples de modélisations de propriétés et d'activités moléculaires par les graph machines 92

I - Prédiction de propriétés de molécules 92

I.1 - Prédiction du coefficient de partage eau/octanol 92

I.2 - Prédiction de descripteurs moléculaires 94

I.3 - Énergie libre de solvatation de diverses molécules 95

I.4 - Prédiction de propriétés sur une même base de molécules 97

II - Prédiction d'activités moléculaires 104

II.1 - Toxicité de molécules diverses sur un être vivant, le Pimephales promelas 104

II.2 - Prédiction de l'activité agoniste de dérivés ecdystéroïdes 110

III - Classification 113

IV - Un exemple complexe : la prédiction de l’activité d'analogues de l'épothilone 114

IV.1 - Modélisation directe de l'activité des 63 molécules 115

IV.2 - Modélisation en deux étapes : classification puis régression 116

CHAPITRE 5 - Conclusions et perspectives 120

BIBLIOGRAPHIE 124

ANNEXES 130

Annexe 1 : Numérotation canonique des atomes d'une molécule 130

Annexe 2 : Reproduction des publications 135

Statistiques de consultation

Repository Staff Only: edit this item

© ParisTech 2007 - Réalisé par RILK.com - Graphisme par Winch Communication