Accueil DE EN ES FR


Advanced Search

Our On-Line PhDs

Submit a Thesis
My Account Register Help

About
Fields
Mathematics and Applications
Information and Communication Sciences and Technologies
Physics, Optics
Materials Science, Mechanics and Mechanical Engineering
Fluid Mechanics and Energy
Chemistry, Physical Chemistry and Chemical Engineering
Life Sciences and Engineering
Earth Sciences and Environmental Engineering
Sciences of Economy, Management and Society
Construction et utilisation de la sémantique dans le cadre de l'annotation automatique d'images

Millet, Christophe (2008) Construction et utilisation de la sémantique dans le cadre de l'annotation automatique d'images. PhD thesis Signal et Images, TSI, ENST p.197.

Full text available as:

- these-christophe-millet.pdf ( 8851 Kb )
Licence: Copyright

Official URL: http://chr.millet.googlepages.com/these-christophe-millet.pdf

Abstract

L’annotation automatique d’images est un domaine du traitement d’images permettant d’associer automatiquement des mots-clés ou du texte à des images à partir de leur contenu afin de pouvoir ensuite rechercher des images par requête textuelle.

L’annotation automatique d’images cherche à combler les lacunes des deux autres approches actuelles permettant la recherche d’images à partir de requête textuelle. La première consiste à annoter manuellement les images, ce qui n’est plus envisageable avec le nombre croissant d’images numériques, d’autant que différentes personnes annotent les images différemment. La seconde approche, adoptée par les moteurs de recherche d’images sur le web, est d’utiliser les mots de la page web contenant l’image comme annotation de cette image, avec l’inconvénient de ne pas prendre du tout en compte le contenu de l’image.



Quelques systèmes d’annotation automatique d’images commencent à émerger, avec certaines limites : le nombre d’objets reconnus reste de l’ordre de 10 à 100, alors que les humains sont capables de reconnaître de l’ordre de 10000 objets ; les mots-clés générés comme annotation pour une image sont parfois en contradiction entre eux, par exemple "éléphant" et "ours polaire" peuvent être détectés dans une même image ; la base de données pour l’apprentissage des objets est construite manuellement.



Les travaux effectués au cours de cette thèse visent à proposer des solutions à ces problèmes, d’une part en introduisant de la connaissance dans l’annotation automatique d’images, d’autre part en proposant un système complètement automatique, où notamment la base d’images pour l’apprentissage est construite automatiquement à partir des images du Web. Cette thèse est constituée de trois parties :



La première partie concerne la catégorisation d'une image en fonction de son type (photo, carte, peinture, clipart) puis pour les photographies, on s’intéresse à savoir quel est le contexte de la scène photographiée : est-ce une photographie d’intérieur ou d’extérieur, une photographie prise de nuit ou de jour, une photographie de nature ou de ville ? Y a-t-il des visages dans la photo ? Y a-t-il du ciel, de l’herbe, de l’eau, de la neige, une route, … dans l’image ?



La deuxième partie étudie la possibilité de construire automatiquement une base d’images d’apprentissage pour n'importe quel objet donné. Ne connaissant que le nom du concept que l’on souhaite apprendre, nous déduisons automatiquement sa couleur et le milieu dans lequel il se trouve à partir du web. Nous utilisons ces connaissances pour filtrer des images récupérées également sur Internet, c’est-à-dire rejeter les images ne correspondant pas au concept recherché, et isoler la région correspondant à l’objet dans l’image. Un séparateur à vaste marge peut ensuite apprendre à reconnaître ces objets dans de nouvelles images.



Enfin, la troisième partie concerne la désambiguïsation, c’est-à-dire la manière de choisir parmi plusieurs hypothèses de reconnaissance pour une région donnée celle qui permet une annotation globale de l’image sémantiquement cohérente. Deux sortes de désambiguïsation sont développées : la première utilise les relations spatiales, et s’assure que par exemple le ciel est toujours au-dessus de la mer. La deuxième tient compte du contexte de l’image, en utilisant la relation entre les objets et les milieux dans lesquels ils se trouvent : on a plus de chance de trouver un éléphant dans la savane, et un dauphin dans l’eau.

Item Type:PhD Thesis (PhD)
PhD Supervisor:Bloch, Isabelle
Date:02 April 2008
Board of examiners:Bloch, Isabelle and Moëllic, Pierre-Alain and Charlet, Jean and Gros, Patrick and Sèdes, Florence and Hanbury, Allan and Marcotegui, Beatriz
Ecole Doctorale:ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE)
Discipline:Signal et Images
Collection (Fonds):TELECOM ParisTech (ENST)
Institution:ENST
Department:TSI
Subjects:2. Information and Communication Sciences and Technologies
Uncontrolled Keywords:Annotation d'images, Base d'apprentissage, Désambigüisation
ID Code:3602
Deposited By:Christophe Millet
Deposited On:10 April 2009

Statistiques de consultation

Repository Staff Only: edit this item

© ParisTech 2007 - Réalisé par RILK.com - Graphisme par Winch Communication