Goulon-Sigwalt-Abram, Aurélie (2008) Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments. PhD thesis, Laboratoire d'Électronique de l'ESPCI, ESPCI p.134.
Full text available as:
|
|
Official URL: http://www.neurones.espci.fr/Francais.Docs/dossier_recherche/bibliographie/theses.htm
Abstract
La modélisation de propriétés et d’activités de molécules constitue un champ de recherche important, qui permet par exemple de guider la synthèse de médicaments. Les méthodes traditionnelles de modélisation établissent des relations non linéaires entre les propriétés étudiées et les caractéristiques structurelles des molécules, appelées descripteurs. Leurs principaux inconvénients résident dans la difficulté du choix des descripteurs et leur calcul préalable.
Nous avons mis au point une nouvelle technique de modélisation qui s'affranchit de ces problèmes, en établissant une relation directe entre la structure des données et la propriété modélisée. L'apprentissage s'effectue non plus à partir de vecteurs de données, mais à partir de graphes. Les molécules peuvent en effet être représentées par des graphes, qui tiennent compte des liaisons chimiques, de la nature des atomes ou encore de la stéréochimie du composé initial. Chaque graphe de la base étudiée est alors associé à une fonction de même structure mathématique, appelée graph machine, obtenue par combinaison de fonctions paramétrées identiques. Ces paramètres sont alors déterminés par apprentissage.
Nous montrons que les techniques traditionnelles de sélection de modèle peuvent être utilisées dans le cadre des graph machines ; elles permettent d’évaluer les capacités en généralisation des modèles proposés, mais aussi de détecter les catégories de molécules sous-représentées dans la base d’apprentissage, et d’estimer les intervalles de confiance des prédictions. De très bons résultats ont été obtenus par l’utilisation de cette technique sur un grand nombre de bases de données de propriétés ou d’activités moléculaires.
| Item Type: | PhD Thesis (PhD) |
|---|---|
| PhD Supervisor: | Dreyfus, Gérard and Duprat, Arthur |
| Date: | 21 May 2008 |
| Board of examiners: | Doucet, Jean-Pierre and Samuelides, Manuel and Sebag, Michèle and Gallinari, Patrick and Prost, Jacques and Dreyfus, Gérard and Duprat, Arthur |
| Ecole Doctorale: | ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE) |
| Collection (Fonds): | ESPCI ParisTech |
| Institution: | ESPCI |
| Department: | Laboratoire d'Électronique de l'ESPCI |
| Subjects: | 2. Information and Communication Sciences and Technologies |
| Uncontrolled Keywords: | Apprentissage artificiel, Données structurées, Graph machine, Graphes, Sélection de modèle, Toxicité, Ecdystéroïde, Epothilone, Régression non linéaire, Machine learning, Structured data, Graphs, Model selection, Toxicity, Ecdysteroid |
| ID Code: | 4103 |
| Deposited By: | Gerard DREYFUS |
| Deposited On: | 29 August 2008 |
References
Goulon-Sigwalt-Abram, Aurélie (2008) Une nouvelle méthode d'apprentissage de données structurées : applications à l'aide à la découverte de médicaments. Thèse de doctorat de l'Université Pierre et Marie Curie, Paris.
Table of content
SOMMAIRE 7
INTRODUCTION 9
CHAPITRE 1 - La prédiction de propriétés et d'activités de molécules 11
I - Les descripteurs : sélection, calcul ou mesure, problèmes en résultant 11
I.1 - Les descripteurs moléculaires 12
I.2 - Réduction du nombre de variables 14
II - Modélisation par optimisation sans contrainte 16
II.1 - Régression linéaire multiple (MLR) 16
II.2 - Réseaux de neurones 17
II.3 - Sélection du modèle 20
III - Optimisation sous contraintes 27
III.1 - Théorie statistique de l'apprentissage 29
III.2 - Les machines à vecteurs supports 31
III.3 - Les méthodes à noyaux pour la modélisation QSPR/QSAR 38
IV - Autres méthodes de QSPR/QSAR 39
IV.1 - Méthode de contribution de groupes 40
IV.2 - Analyse comparative de champs moléculaires (CoMFA) 41
IV.3 - Modélisation à partir des structures des molécules 43
CHAPITRE 2 - Les Graph Machines 44
I - Définition et caractéristiques d’un graphe 44
I.1 - Graphes simples 44
I.2 - Graphes orientés 45
I.3 - Graphes étiquetés 46
I.4 - Matrices d’adjacence 46
II - Représentation de données structurées par des graphes 48
III - Apprentissage à partir de graphes : RAAMs et LRAAMs 50
III.1 - Les Mémoires Auto-Associatives Récursives 50
III.2 - Les Mémoires Récursives Auto-Associatives Étiquetées 53
IV - Les Graph Machines 54
IV.1 - Modélisation à partir de graphes acycliques 54
IV.2 - Structure mathématique des graph machines 54
IV.3 - Les étiquettes 57
V - L’apprentissage des graph machines 57
V.1 - Propriété d'approximation universelle 57
V.2 - Utilisation des algorithmes traditionnels 58
V.3 - Sélection de modèle 59
VI - Modélisation à partir de graphes cycliques 65
VI.1 - Transformation de graphes quelconques en arborescences 66
VI.2 - Méthode alternative de modélisation à partir de graphes cycliques 68
VII - Exemples didactiques d'utilisation des graph machines 69
VII.1 - Détermination du nombre de nœuds d'un graphe 69
VII.2 - Détermination du nombre d’arêtes et de cycles d'un graphe 70
VIII - Résumé : méthodologie de conception de modèles prédictifs ou de classifieurs par apprentissage à partir d'une base de données structurées 72
CHAPITRE 3 - Méthodologie en QSPR et QSAR 74
I - Construction des graph machines associées aux molécules 74
I.1 - Représentation de molécules par des arborescences 75
I.2 - Étiquettes (nature, degré, isomérie, éventuel descripteur) 76
I.3 - Conversion des graphes en arborescences - choix de l’algorithme 78
II - Sélection des exemples de la base d'apprentissage 84
III - Fonctions de nœud et sélection de la complexité 87
III.1 - Structure de la fonction de nœud 87
III.2 - Cas particulier : les graph machines pour la classification 89
III.3 - Sélection du modèle 89
CHAPITRE 4 - Exemples de modélisations de propriétés et d'activités moléculaires par les graph machines 92
I - Prédiction de propriétés de molécules 92
I.1 - Prédiction du coefficient de partage eau/octanol 92
I.2 - Prédiction de descripteurs moléculaires 94
I.3 - Énergie libre de solvatation de diverses molécules 95
I.4 - Prédiction de propriétés sur une même base de molécules 97
II - Prédiction d'activités moléculaires 104
II.1 - Toxicité de molécules diverses sur un être vivant, le Pimephales promelas 104
II.2 - Prédiction de l'activité agoniste de dérivés ecdystéroïdes 110
III - Classification 113
IV - Un exemple complexe : la prédiction de l’activité d'analogues de l'épothilone 114
IV.1 - Modélisation directe de l'activité des 63 molécules 115
IV.2 - Modélisation en deux étapes : classification puis régression 116
CHAPITRE 5 - Conclusions et perspectives 120
BIBLIOGRAPHIE 124
ANNEXES 130
Annexe 1 : Numérotation canonique des atomes d'une molécule 130
Annexe 2 : Reproduction des publications 135
Repository Staff Only: edit this item