Clavel, Chloé (2007) Analyse et reconnaissance des manifestations acoustiques des émotions de type peur en situations anormales. PhD thesis Signal et Images, ENST - TSI Traitement du Signal et des Images, ENST p.195.
Full text available as:
|
|
Abstract
Cette thèse aborde le problème de la reconnaissance des émotions dans la parole. Nous avons choisi de centrer notre étude sur un type de manifestations émotionnelles jusqu'alors peu étudié dans le domaine du traitement de la parole: les émotions de type peur en situations anormales. Les situations anormales correspondent ici à des événements imprévus, constituant une menace pour la vie humaine. Cette étude est motivée par une application nouvelle dans le domaine de la reconnaissance d'émotions: la sécurité civile.
Le point de départ de ce travail a consisté en la définition et en l'acquisition d'un matériel d'étude illustrant des émotions extrêmes de type peur, dans des contextes de menace. Le corpus SAFE (Situation Analysis in a Fictional and Emotional corpus) développé à cet effet utilise comme source le cinéma de fiction. Il consiste en 400 séquences audiovisuelles d’une durée totale de 7 heures. Une stratégie d'annotation adaptée à la tâche de surveillance et intégrant plusieurs niveaux de description (niveau contextuel et niveau émotionnel) a été mise en place.
Le système de reconnaissance des émotions, développé sur ce corpus, traite un grand nombre de locuteurs inconnus, dans des environnements sonores et contextes variés. Il consiste en une classification peur/neutre. L'originalité de la méthode repose sur une modélisation dissociée des contenus voisé et non voisé du signal de parole, les deux contenus étant ensuite fusionnés à l'étape de décision du système de classification. Les résultats obtenus sont très encourageants compte tenu de la diversité des données et de la complexité du phénomène à reconnaître : le taux d'erreur avoisine les 30%.
| Item Type: | PhD Thesis (PhD) |
|---|---|
| PhD Supervisor: | Richard, Gaël and Sedogbo, Célestin |
| Date: | June 2007 |
| Board of examiners: | Bonastre, Jean-François and Pelachaud, Catherine and Haton, Jean-Paul and Devilliers, Laurence and Vasilescu, Ioana |
| Ecole Doctorale: | ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE) |
| Discipline: | Signal et Images |
| Collection (Fonds): | TELECOM ParisTech (ENST) |
| Institution: | ENST |
| Department: | ENST - TSI Traitement du Signal et des Images |
| Subjects: | 2. Information and Communication Sciences and Technologies 1. Mathematics and Applications |
| Uncontrolled Keywords: | émotions de type peur, Corpus de fiction, Analyse acoustique, Apprentissage, Gmm, Sécurité civile, Fusion de classifieurs, Contexte de menace |
| ID Code: | 2533 |
| Deposited By: | Clavel Clavel |
| Deposited On: | 25 June 2007 |
Table of content
Table des matières
Chapitre 1
Introduction générale 1
1.1 Le phénomène émotionnel - 1
1.2 Les émotions dans les applications - 4
1.3 Objectifs de recherche - 5
1.4 Organisation du document - 6
Partie I Émotions, corpus et annotation 9
Chapitre 2
Les émotions en situations anormales : stratégie d’acquisition
2.1 Contexte et difficultés - 14
2.1.1 Les critères de qualité - 14
2.1.2 Les émotions recherchées - 15
2.2 Les bases de données émotionnelles et la peur - 16
2.2.1 Les bases de données actées - 16
2.2.2 Les bases de données élicitées - 17
2.2.3 Les bases de données real-life - 17
2.3 Le corpus SAFE et le cinéma de fiction - 18
2.3.1 Le cinéma de fiction pour l’illustration d’émotions de type peur - 18
2.3.2 Méthode de sélection des séquences audiovisuelles - 19
2.4 Conclusion - 20
Chapitre 3
Les émotions en situations anormales : stratégie d’annotation
3.1 Les descripteurs émotionnels - Bilan - 22
3.1.1 Descripteurs catégoriels - 22
3.1.2 Descripteurs dimensionnels - 23
v
Table des matières
3.1.3 Le point de vue système - 25
3.2 Stratégie d’annotation du contenu émotionnel - 25
3.2.1 Le segment : unité d’annotation - 26
3.2.2 Des descripteurs catégoriels intégrant différents niveaux de généricité
vis-à-vis du corpus - 26
3.2.3 Des descripteurs dimensionnels intégrant différents niveaux de généricité
vis à vis de l’application - 27
3.3 Stratégie d’annotation du contexte d’émergence des émotions - 29
3.3.1 Description des manifestations émotionnelles dans leur contexte multimodal
et temporel - 30
3.3.2 Description du contexte situationnel - 30
3.3.3 Description du contexte personnel et social - 30
3.3.4 Description du contexte verbal et sonore - 33
3.4 Conclusion - 33
Chapitre 4
Le corpus SAFE : fiabilité de la stratégie d’annotation et contenu
4.1 Validation du schéma par des tests perceptifs - 36
4.1.1 Protocole de test - 37
4.1.2 Résultats - 37
4.1.3 Conclusion – Validation des objectifs - 41
4.1.4 Conclusion – Ajustements - 41
4.2 Validation du schéma par la confrontation des annotations - 43
4.2.1 Comment mesurer un degré de fiabilité ? - 44
4.2.2 Catégories : de la difficulté d’une catégorisation neutre/émotion . . . 45
4.2.3 Dimensions : de la difficulté d’établir un référentiel commun - 47
4.2.4 Bilan - 53
4.3 Contenu du corpus SAFE - 54
4.3.1 Contenu global - 54
4.3.2 Le contenu émotionnel - 56
4.3.3 Le poids des indices acoustiques dans les segments du corpus - 59
4.4 Corpus et annotations – le point de vue du système - 59
4.4.1 Choix des classes d’émotions traitées - 59
4.4.2 Choix des annotations considérées - 60
4.5 Conclusion - 64
vi
Partie II Analyser et reconnaître les manifestations émotionnelles 67
Chapitre 5
Analyse acoustique des émotions de type peur
5.1 Le signal de parole et les émotions - 72
5.1.1 Le signal de parole et ses modes de production - 72
5.1.2 Descripteurs acoustiques et émotions - 73
5.1.3 Unité temporelle d’analyse de l’émotion - 76
5.2 Choix de descripteurs acoustiques pour la caractérisation des émotions de type
peur - 77
5.2.1 Les descripteurs prosodiques - 77
5.2.2 Les descripteurs de qualité de voix - 80
5.2.3 Les descripteurs spectraux et cepstraux - 81
5.3 Paramètres d’extraction des descripteurs - 84
5.3.1 Paramètres d’échantillonnage du signal - 84
5.3.2 Normalisation du signal - 84
5.3.3 Choix de l’unité d’analyse : description sur des durées temporelles
variables - 84
5.3.4 Choix de normalisation des descripteurs - 85
5.4 Évaluation de la pertinence des descripteurs acoustiques pour la modélisation
des émotions de type peur - 86
5.4.1 Contenu voisé - 87
5.4.2 Contenu non voisé - 89
5.5 La fréquence fondamentale et les formants : la sensibilité au locuteur et au
contenu linguistique - 90
5.5.1 Les formants et la sensibilité au contenu linguistique - 90
5.5.2 La fréquence fondamentale et la sensibilité au locuteur - 92
5.6 Conclusion - 92
Chapitre 6
Reconnaissance des émotions pour l’analyse et la détection de situations
anormales
6.1 Etat de l’art en reconnaissance des émotions dans la parole - 96
6.1.1 Conditions d’apprentissage et performances - 97
6.1.2 Algorithme d’apprentissage et performances - 97
6.1.3 Émotions simulées vs. vécues, nombre de classes et performances . . . 98
6.1.4 Techniques de normalisation et performances - 99
vii
Table des matières
6.2 Système de classification – synopsis - 99
6.2.1 Réduction de l’espace de représentation des données - 100
6.2.2 Modélisation par Mélange de Gaussiennes (GMM-Gaussian Mixture
Models) - 101
6.2.3 Décision - 102
6.2.4 Protocole d’évaluation - 104
6.3 Réglage des paramètres du système et résultats - 105
6.3.1 Les descripteurs sélectionnés - 105
6.3.2 Paramétrage des GMM - 107
6.4 Analyse des comportements du système - 109
6.4.1 Comportements du système en fonction du degré d’imminence de la
menace - 109
6.4.2 Comportements du système en fonction des annotations de référence . 110
6.5 Analyse de l’imminence de la menace par la reconnaissance de la peur - 111
6.5.1 Objectif - 111
6.5.2 Principe - 112
6.5.3 Résultats - 113
6.6 Conclusion - 113
Partie III Vers une plateforme de surveillance effective 115
Chapitre 7
Système de détection et d’analyse des situations anormales pour la surveillance
dans les lieux publics
7.1 Plateforme multimodale de surveillance – Synopsis - 120
7.2 Détection d’événements anormaux - 121
7.2.1 La détection/classification audio – Bilan - 121
7.2.2 Le système de détection de coup de feu - 122
7.2.3 Base de données et protocole - 124
7.2.4 Expérimentations et résultats - 127
7.3 Démonstrateur - 129
7.4 Conclusion - 131
viii
Partie IV Conclusion et perspectives 133
Chapitre 8
Conclusion et perspectives
8.1 Apports de la méthodologie - 136
8.2 Perspectives de recherche - 138
8.2.1 Les perspectives à court-terme - 138
8.2.2 Les perspectives à long-terme - 139
Partie V Annexes 141
Annexe A
Corpus et Outils
Annexe B
Normes de transcription
Annexe C
Validation des résultats par les SVM
Glossaire 167
Table des figures 171
Liste des tableaux 175
Bibliographie 177
Publications
ix
Repository Staff Only: edit this item