Home DE ES FR


Advanced Search

Our On-Line PhDs

Submit a Thesis
My Account Register Help

About
Fields
Mathematics and Applications
Information and Communication Sciences and Technologies
Physics, Optics
Materials Science, Mechanics and Mechanical Engineering
Fluid Mechanics and Energy
Chemistry, Physical Chemistry and Chemical Engineering
Life Sciences and Engineering
Earth Sciences and Environmental Engineering
Sciences of Economy, Management and Society
Détection de mots clés dans un flux de parole

Ben Ayed, Yassine (2003) Détection de mots clés dans un flux de parole. PhD thesis Signal et Images, ENST - TSI Traitement du Signal et des Images, ENST.

Full text available as:

- These-YassineBenAyed.ps ( 2134 Kb )
Licence: Copyright

Abstract

La reconnaissance automatique de la parole suscite actuellement un grand intérêt. En particulier, la détection de mots clés qui constitue une branche importante de l'interaction homme-machine vu le besoin de communiquer avec nos machines d'une façon naturelle et directe en utilisant la parole spontanée. Cette technique consiste à détecter dans une phrase prononcée, les mots clés caractérisant l'application et de rejeter les mots hors-vocabulaire ainsi que les hésitations, les faux départs etc.
Le travail que nous présentons dans ce manuscrit s'inscrit dans le cadre de la détection de mots clés dans un flux de parole. Tout d'abord, nous proposons de nouveaux modèles ``poubelles'' fondés sur la modélisation des mots hors-vocabulaire. Puis nous introduisons la reconnaissance à base de boucle de phonèmes, dans laquelle nous appliquons différentes fonctions de récompense favorisant la reconnaissance des mots clés.
Ensuite nous proposons l'utilisation des mesures de confiance afin de pouvoir prendre la décision de rejeter ou d'accepter un mot clé hypothèse. Les différentes mesures de confiance proposées sont basées sur la probabilité d'observation acoustique locale. En premier lieu, nous utilisons les moyennes arithmétique, géométrique et harmonique comme mesures de confiance pour chaque mot clé. En second lieu, nous proposons de calculer la mesure de confiance en se basant sur la méthode à base de boucle de phonèmes.
Enfin nous présentons le problème de détection comme un problème de classification où chaque mot clé peut appartenir à deux classes différentes, à savoir ``correct'' et ``incorrect''. Cette classification est réalisée en utilisant des Support Vector Machines (SVM) qui constituent une nouvelle technique d'apprentissage statistique. Chaque mot clé reconnu est représenté par un vecteur caractéristique qui constitue l'entrée du classifieur SVM. Pour déterminer ce vecteur, nous utilisons la probabilité d'observation acoustique locale et nous introduisons ensuite la durée de chaque état. Afin d'améliorer les performances, nous proposons des approches hybrides combinant les modèles poubelles avec mesure de confiance et mesure de confiance avec SVM.
Pour tester les performances de l'ensemble de ces modèles nous utilisons la base de données française SPEECHDAT. L'évaluation de tous les résultats a été réalisée en se basant sur les courbes ROC et les courbes rappel/précision. Les meilleurs résultats ont été obtenus par les méthodes basées sur l'utilisation des SVM. Les méthodes hybrides nous ont permis aussi de réaliser de bonnes performances.

Item Type:PhD Thesis (PhD)
Thesis Supervisor:Chollet, Gérard and Haton, Jean-Paul
Date:December 2003
Board of examiners:André-Obrecht, Régine and De Mori, Renato and Fohr, Dominique and Jouvet, Denis and Carré, René
Discipline:Signal et Images
Collection (Fonds):ENST
Institution:ENST
Department:ENST - TSI Traitement du Signal et des Images
Subjects:2. Information and Communication Sciences and Technologies
2. Information and Communication Sciences and Technologies
Uncontrolled Keywords:Reconnaissance de la parole, Détection de mots clés, Modèle poubelle, Mesure de confiance, Support vector machines.
ID Code:556
Deposited By:Yassine Ben Ayed
Deposited On:15 March 2004

Statistiques de consultation

Repository Staff Only: edit this item

© ParisTech 2007 - Réalisé par RILK.com - Graphisme par Winch Communication