Gillet, Olivier (2007) Transcription des signaux percussifs. Application à l'analyse de scènes musicales audiovisuelles. PhD thesis Signal et Images, ENST - TSI Traitement du Signal et des Images, ENST p.282.
Full text available as:
|
|
Abstract
This thesis establishes links between the fields of audio indexing and video sequence analysis, through the problem of drum signal analysis.
In a first part, the problem of drum track transcription from polyphonic music signals is addressed. After having presented several pre-processings for drum track enhancement, and a large set of relevant features, a statistical machine learning approach to drum track transcription is proposed. Novel supervised and unsupervised sequence modeling methods are also introduced to enhance the detection of drum strokes by taking into account the regularity of drum patterns. We conclude this part by evaluating various drum track separation algorithms and by underlining the duality between transcription and source separation.
In a second part, we extend this transcription system by taking into account the video information brought by cameras filming the drummer. Various approaches are introduced to segment the scene and map each region of interest to a drum instrument. Motion intensity features are then used to detect drum strokes. Our results show that a multimodal approach is capable of resolving some ambiguities inherent to audio-only transcription.
In the final part, we extend our work to a broader range of music videos, which may not show the musicians. We particularly address the problem of understanding how a piece of music can be illustrated by images. After having presented or introduced new segmentation techniques for audio and video streams, we define synchrony measures on their structures. These measures can be used for both retrieval applications (music retrieval by video) or content classification.
| Item Type: | PhD Thesis (PhD) |
|---|---|
| PhD Supervisor: | Richard, Gaël |
| Date: | 21 June 2007 |
| Board of examiners: | Merialdo, Bernard and Girin, Laurent and Rodet, Xavier and André-Obrecht, Régine and Ellis, Dan and Sandler, Mark and Richard, Gaël |
| Ecole Doctorale: | ED 130 INFORMATIQUE, TELECOMMUNICATIONS ET ELECTRONIQUE (EDITE) |
| Discipline: | Signal et Images |
| Collection (Fonds): | TELECOM ParisTech (ENST) |
| Institution: | ENST |
| Department: | ENST - TSI Traitement du Signal et des Images |
| Subjects: | 2. Information and Communication Sciences and Technologies |
| Uncontrolled Keywords: | Indexation audio, Transcription musicale, Percussions, Modèles de séquences, Multimodalité |
| ID Code: | 2805 |
| Deposited By: | Olivier Gillet |
| Deposited On: | 28 September 2007 |
Table of content
Remerciements I
Table des matières III
Table des figures VII
Liste des tableaux IX
Acronymes XI
1 Introduction, motivations 1
1.1 Indexation et transcription automatique 1
1.2 Motivations 2
1.3 Définitions, champ d’étude et restrictions 4
1.4 Plan d’étude et résumé des contributions 8
I Analyse des signaux audiofréquences percussifs : application à la batterie 11
2 Transcription automatique des signaux percussifs : un état de l’art 13
2.1 Analyse du rythme 13
2.2 Analyse des signaux percussifs : les trois approches 17
2.3 Utilisation des connaissances musicales pour la transcription 29
2.4 Applications 30
3 Pré-traitements pour l’accentuation de la piste de batterie 31
3.1 Principe et motivations 31
3.2 Banc de filtres 35
3.3 Séparation et sélection de sources à partir d’enregistrements stéréophoniques 36
3.4 Extraction de la composante stochastique 43
3.5 Conclusion 48
4 Transcription de la batterie dans un signal de musique 51
4.1 Mise en oeuvre de l’approche Segmenter et Reconnaître 51
4.2 Détection d’onsets 55
4.3 Paramétrisation des signaux 59
4.4 Classification des instruments de la batterie 63
4.5 Du modèle acoustique au modèle de séquence 68
4.6 Résultats expérimentaux 84
4.7 Conclusion 99
5 Extraction de la piste de batterie dans un signal de musique 101
5.1 Bref état de l’art 101
5.2 Filtrage temps/fréquence/sous-espace (TFS) 104
5.3 Filtrage pseudo-Wiener et modèles spectraux 107
5.4 Résultats expérimentaux 112
5.5 Conclusion 115
Conclusion de la partie I 117
II Transcription audiovisuelle du jeu de la batterie 119
6 Transcription musicale et multimodalité état de l’art et problématique 121
6.1 Spécificité du problème à résoudre et typologie des tâches connexes 121
6.2 état de l’art 122
6.3 Discussion 128
7 Segmentation de scènes de jeu de batterie 133
7.1 Segmentation des éléments de la batterie dans une scène : cas des images fixes 133
7.2 Segmentation des éléments dans une séquence d’images 142
7.3 Segmentation des baguettes 147
7.4 Conclusion 148
8 Transcription audiovisuelle de séquences de batterie 151
8.1 Détection des frappes dans une séquence vidéo 151
8.2 Transcription audiovisuelle par fusion tardive 155
8.3 Autres stratégies pour la transcription musicale audiovisuelle 161
8.4 Conclusion 164
Conclusion de la partie II 167
III Vers l’analyse des documents audiovisuels musicaux 169
9 Problématique 171
9.1 état de l’art 171
9.2 Approche proposée 173
10 Détection des changements dans les documents audiovisuels musicaux 177
10.1 Détection des changements de section dans les signaux de musique 177
10.2 Extraction de la structure des séquences vidéo 191
10.3 Détection d’événements dans une séquence vidéo 194
10.4 Conclusion 196
11 Mesures de corrélation entre flux audio et vidéo 197
11.1 Mesures de corrélation des flux audio et vidéo structurés 197
11.2 Applications 199
11.3 Conclusion 203
Conclusion de la partie III 205
12 Perspectives 207
12.1 Analyse des signaux percussifs 207
12.2 Analyse audiovisuelle du jeu de la batterie 209
12.3 Analyse de documents audiovisuels musicaux 210
IV Annexes - Boîte à outils 213
A Palette d’attributs 215
A.1 Paramètres de distribution de l’énergie 215
A.2 Paramètres cepstraux 218
A.3 Paramètres spectraux 220
A.4 Paramètres temporels 221
A.5 Paramètres psychoacoustiques 222
B Machines à vecteurs de support (SVM) 223
B.1 Principe, primal et dual 223
B.2 Cas non linéairement séparable 228
B.3 SVM à noyaux 232
B.4 Estimation de probabilités a posteriori à partir de SVM 235
V Annexes - Documents complémentaires 237
C Autres articles 239
D Corpora utilisés 257
Bibliographie 263
Bibliographie de l’auteur 279
Index 281
Repository Staff Only: edit this item