Accueil DE EN ES FR


Advanced Search

Our On-Line PhDs

Submit a Thesis
My Account Register Help

About
Fields
Mathematics and Applications
Information and Communication Sciences and Technologies
Physics, Optics
Materials Science, Mechanics and Mechanical Engineering
Fluid Mechanics and Energy
Chemistry, Physical Chemistry and Chemical Engineering
Life Sciences and Engineering
Earth Sciences and Environmental Engineering
Sciences of Economy, Management and Society
Analyse et reconnaissance des manifestations acoustiques des émotions de type peur en situations anormales

Clavel, Chloé (2007) Analyse et reconnaissance des manifestations acoustiques des émotions de type peur en situations anormales. PhD thesis Signal et Images, ENST - TSI Traitement du Signal et des Images, ENST p.195.

Full text available as:

- TheseChloeClavel.pdf ( 7702 Kb )
Licence: Copyright

Abstract

Cette thèse aborde le problème de la reconnaissance des émotions dans la parole. Nous avons choisi de centrer notre étude sur un type de manifestations émotionnelles jusqu'alors peu étudié dans le domaine du traitement de la parole: les émotions de type peur en situations anormales. Les situations anormales correspondent ici à des événements imprévus, constituant une menace pour la vie humaine. Cette étude est motivée par une application nouvelle dans le domaine de la reconnaissance d'émotions: la sécurité civile.



Le point de départ de ce travail a consisté en la définition et en l'acquisition d'un matériel d'étude illustrant des émotions extrêmes de type peur, dans des contextes de menace. Le corpus SAFE (Situation Analysis in a Fictional and Emotional corpus) développé à cet effet utilise comme source le cinéma de fiction. Il consiste en 400 séquences audiovisuelles d’une durée totale de 7 heures. Une stratégie d'annotation adaptée à la tâche de surveillance et intégrant plusieurs niveaux de description (niveau contextuel et niveau émotionnel) a été mise en place.



Le système de reconnaissance des émotions, développé sur ce corpus, traite un grand nombre de locuteurs inconnus, dans des environnements sonores et contextes variés. Il consiste en une classification peur/neutre. L'originalité de la méthode repose sur une modélisation dissociée des contenus voisé et non voisé du signal de parole, les deux contenus étant ensuite fusionnés à l'étape de décision du système de classification. Les résultats obtenus sont très encourageants compte tenu de la diversité des données et de la complexité du phénomène à reconnaître : le taux d'erreur avoisine les 30%.

Item Type:PhD Thesis (PhD)
PhD Supervisor:Richard, Gaël and Sedogbo, Célestin
Date:June 2007
Board of examiners:Bonastre, Jean-François and Pelachaud, Catherine and Haton, Jean-Paul and Devilliers, Laurence and Vasilescu, Ioana
Ecole Doctorale:ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE)
Discipline:Signal et Images
Collection (Fonds):TELECOM ParisTech (ENST)
Institution:ENST
Department:ENST - TSI Traitement du Signal et des Images
Subjects:2. Information and Communication Sciences and Technologies
1. Mathematics and Applications
Uncontrolled Keywords:émotions de type peur, Corpus de fiction, Analyse acoustique, Apprentissage, Gmm, Sécurité civile, Fusion de classifieurs, Contexte de menace
ID Code:2533
Deposited By:Clavel Clavel
Deposited On:25 June 2007

Table of content

Table des matières

Chapitre 1

Introduction générale 1

1.1 Le phénomène émotionnel - 1

1.2 Les émotions dans les applications - 4

1.3 Objectifs de recherche - 5

1.4 Organisation du document - 6

Partie I Émotions, corpus et annotation 9

Chapitre 2

Les émotions en situations anormales : stratégie d’acquisition

2.1 Contexte et difficultés - 14

2.1.1 Les critères de qualité - 14

2.1.2 Les émotions recherchées - 15

2.2 Les bases de données émotionnelles et la peur - 16

2.2.1 Les bases de données actées - 16

2.2.2 Les bases de données élicitées - 17

2.2.3 Les bases de données real-life - 17

2.3 Le corpus SAFE et le cinéma de fiction - 18

2.3.1 Le cinéma de fiction pour l’illustration d’émotions de type peur - 18

2.3.2 Méthode de sélection des séquences audiovisuelles - 19

2.4 Conclusion - 20

Chapitre 3

Les émotions en situations anormales : stratégie d’annotation

3.1 Les descripteurs émotionnels - Bilan - 22

3.1.1 Descripteurs catégoriels - 22

3.1.2 Descripteurs dimensionnels - 23

v

Table des matières

3.1.3 Le point de vue système - 25

3.2 Stratégie d’annotation du contenu émotionnel - 25

3.2.1 Le segment : unité d’annotation - 26

3.2.2 Des descripteurs catégoriels intégrant différents niveaux de généricité

vis-à-vis du corpus - 26

3.2.3 Des descripteurs dimensionnels intégrant différents niveaux de généricité

vis à vis de l’application - 27

3.3 Stratégie d’annotation du contexte d’émergence des émotions - 29

3.3.1 Description des manifestations émotionnelles dans leur contexte multimodal

et temporel - 30

3.3.2 Description du contexte situationnel - 30

3.3.3 Description du contexte personnel et social - 30

3.3.4 Description du contexte verbal et sonore - 33

3.4 Conclusion - 33

Chapitre 4

Le corpus SAFE : fiabilité de la stratégie d’annotation et contenu

4.1 Validation du schéma par des tests perceptifs - 36

4.1.1 Protocole de test - 37

4.1.2 Résultats - 37

4.1.3 Conclusion – Validation des objectifs - 41

4.1.4 Conclusion – Ajustements - 41

4.2 Validation du schéma par la confrontation des annotations - 43

4.2.1 Comment mesurer un degré de fiabilité ? - 44

4.2.2 Catégories : de la difficulté d’une catégorisation neutre/émotion . . . 45

4.2.3 Dimensions : de la difficulté d’établir un référentiel commun - 47

4.2.4 Bilan - 53

4.3 Contenu du corpus SAFE - 54

4.3.1 Contenu global - 54

4.3.2 Le contenu émotionnel - 56

4.3.3 Le poids des indices acoustiques dans les segments du corpus - 59

4.4 Corpus et annotations – le point de vue du système - 59

4.4.1 Choix des classes d’émotions traitées - 59

4.4.2 Choix des annotations considérées - 60

4.5 Conclusion - 64

vi

Partie II Analyser et reconnaître les manifestations émotionnelles 67

Chapitre 5

Analyse acoustique des émotions de type peur

5.1 Le signal de parole et les émotions - 72

5.1.1 Le signal de parole et ses modes de production - 72

5.1.2 Descripteurs acoustiques et émotions - 73

5.1.3 Unité temporelle d’analyse de l’émotion - 76

5.2 Choix de descripteurs acoustiques pour la caractérisation des émotions de type

peur - 77

5.2.1 Les descripteurs prosodiques - 77

5.2.2 Les descripteurs de qualité de voix - 80

5.2.3 Les descripteurs spectraux et cepstraux - 81

5.3 Paramètres d’extraction des descripteurs - 84

5.3.1 Paramètres d’échantillonnage du signal - 84

5.3.2 Normalisation du signal - 84

5.3.3 Choix de l’unité d’analyse : description sur des durées temporelles

variables - 84

5.3.4 Choix de normalisation des descripteurs - 85

5.4 Évaluation de la pertinence des descripteurs acoustiques pour la modélisation

des émotions de type peur - 86

5.4.1 Contenu voisé - 87

5.4.2 Contenu non voisé - 89

5.5 La fréquence fondamentale et les formants : la sensibilité au locuteur et au

contenu linguistique - 90

5.5.1 Les formants et la sensibilité au contenu linguistique - 90

5.5.2 La fréquence fondamentale et la sensibilité au locuteur - 92

5.6 Conclusion - 92

Chapitre 6

Reconnaissance des émotions pour l’analyse et la détection de situations

anormales

6.1 Etat de l’art en reconnaissance des émotions dans la parole - 96

6.1.1 Conditions d’apprentissage et performances - 97

6.1.2 Algorithme d’apprentissage et performances - 97

6.1.3 Émotions simulées vs. vécues, nombre de classes et performances . . . 98

6.1.4 Techniques de normalisation et performances - 99

vii

Table des matières

6.2 Système de classification – synopsis - 99

6.2.1 Réduction de l’espace de représentation des données - 100

6.2.2 Modélisation par Mélange de Gaussiennes (GMM-Gaussian Mixture

Models) - 101

6.2.3 Décision - 102

6.2.4 Protocole d’évaluation - 104

6.3 Réglage des paramètres du système et résultats - 105

6.3.1 Les descripteurs sélectionnés - 105

6.3.2 Paramétrage des GMM - 107

6.4 Analyse des comportements du système - 109

6.4.1 Comportements du système en fonction du degré d’imminence de la

menace - 109

6.4.2 Comportements du système en fonction des annotations de référence . 110

6.5 Analyse de l’imminence de la menace par la reconnaissance de la peur - 111

6.5.1 Objectif - 111

6.5.2 Principe - 112

6.5.3 Résultats - 113

6.6 Conclusion - 113

Partie III Vers une plateforme de surveillance effective 115

Chapitre 7

Système de détection et d’analyse des situations anormales pour la surveillance

dans les lieux publics

7.1 Plateforme multimodale de surveillance – Synopsis - 120

7.2 Détection d’événements anormaux - 121

7.2.1 La détection/classification audio – Bilan - 121

7.2.2 Le système de détection de coup de feu - 122

7.2.3 Base de données et protocole - 124

7.2.4 Expérimentations et résultats - 127

7.3 Démonstrateur - 129

7.4 Conclusion - 131

viii

Partie IV Conclusion et perspectives 133

Chapitre 8

Conclusion et perspectives

8.1 Apports de la méthodologie - 136

8.2 Perspectives de recherche - 138

8.2.1 Les perspectives à court-terme - 138

8.2.2 Les perspectives à long-terme - 139

Partie V Annexes 141

Annexe A

Corpus et Outils

Annexe B

Normes de transcription

Annexe C

Validation des résultats par les SVM

Glossaire 167

Table des figures 171

Liste des tableaux 175

Bibliographie 177

Publications

ix

Statistiques de consultation

Repository Staff Only: edit this item

© ParisTech 2007 - Réalisé par RILK.com - Graphisme par Winch Communication