RECONNAISSANCE DU LOCUTEUR PAR MELANGE DU GAUSSIENNES
Les Mรฉlanges de Gaussiennes en RAL
La reconnaissance du locuteur sโappuie sur une reprรฉsentation discrรจte du signal de parole. Celui-ci est transformรฉ en une sรฉquence de vecteurs de paramรจtres, dont la frรฉquence dโรฉchantillonnage est gรฉnรฉralement 100Hz.Considรฉrons que chaque vecteur de paramรจtres extrait dโun signal de parole est une rรฉalisation dโune variable alรฉatoire multidimensionnelle. Les approches gรฉnรฉratives en reconnaissance du locuteur reposent sur lโhypothรจse quโil existe une fonction injective de lโensemble des locuteurs dans lโespace des fonctions de densitรฉ de probabilitรฉ. Cette hypothรจse suppose, plus prรฉcisรฉment, que les vecteurs de paramรจtres provenant dโun locuteur suivent une loi de probabilitรฉ propre ร ce locuteur ..
La complexitรฉ de ces fonctions de densitรฉ nous conduit ร rechercher une approximation suffisant ร la rรฉsolution du problรจme de reconnaissance du locuteur. Dans les Mรฉthodes Statistiques du Second Ordre (MSSO) [30],les locuteurs sont reprรฉsentรฉs par une loi Gaussienne, cโest ร dire un doublรฉ (,ฮฃ), oรน est le vecteur moyen de la Gaussienne et ฮฃ la matrice de covariance, estimรฉe ร partir de la sรฉquence acoustique dโapprentissage. Nous avons soulignรฉ la simplicitรฉ de la modรฉlisation des locuteurs par MSSO et le fait quโelle limite la granularitรฉ de modรฉlisation des variations acoustiques.
Lโutilisation de mรฉlanges de Gaussiennes (GMM) permet dโobtenir une approximation plus prรฉcise de la fonction de densitรฉ de probabilitรฉ caractรฉristique des locuteurs, tout en restant relativement simple ร estimerย La densitรฉ de probabilitรฉ dโun mรฉlange de distributions Gaussienne sont respectivement le poids, le vecteur moyens et la matrice de covariance de la distribution dans la mixture.est le vecteur de paramรจtres global de mixture de Gaussienne. La densitรฉ de probabilitรฉ gaussienneย En reconnaissance du locuteur, la matrice de covariance est gรฉnรฉralement supposรฉe diagonale. La vraisemblance pour quโun vecteur de paramรจtres ait รฉtรฉ produit par le GMM de vecteur de paramรจtresย La valeur moyenne de la log-vraisemblance pour une sรฉquence de paramรจtre .
La densitรฉ dโune mรฉlange de gaussienne
La dรฉtermination du ฮ pour une collection de trames sโeffectue par lโalgorithme dโapprentissage EM (Expectation Maximisation) [1]. Cet algorithme itรฉratif effectue ร chaque รฉtape deux phases Expectation et Maximisation destinรฉ ร augmenter la vraisemblances des donnรฉe dโapprentissage au modรจle de gaussiennes(dโoรน le suffixe ML Maximum Likelhood ajoutรฉ ร son nom).Lโalgorithme garantit ร chaque itรฉration la croissance dโune fonction objective de vraisemblances des paramรจtres sachant .Il converge vers un maximum de vraisemblance, mais seulement locales, dans le champs dโoptimisation de la fonction de densitรฉ [34] . Le paramรจtre ฮ= {,,ฮฃ} de la mixture contient [() ] valeurs ร estimer. Or la collection de trames pour un segment de voix de durรฉe initiale allant de 30 secondes ร quelques minutes contient un effectif de trames de lโordre de 5 ร 20 000 trames aprรจs VAD. Pour une dimension de lโespace acoustique = 50 et une mixture G=64 gaussienne, le paramรจtre ฮ contient dรฉjร 81664 valeurs ร estimer. Et ici le nombre G de 64 sโavรจre assez loin de la quantitรฉ minimale empirique nรฉcessaire pour faรงonner une mixture de segment de voix de vraisemblances satisfaisante. Lโestimation EM-ML conduit alors, par sous-apprentissage, ร un modรจle mรฉdiocre[34]. Lโalternative consiste ร la matrice de covariance ฮฃ la contrainte de diagonalitรฉ dans lโalgorithme EM. La matrice ฮฃ de chaque gaussienne est seulement rempli avec la diagonale des variances. Cette contrainte peut apparaitre restrictive, voire peut rรฉaliste, mais en rรฉduisant de [() ] ร (2+ 1) le nombre de valeurs ร estimer, elle permet lโaccroissement du nombre G de gaussiennes de la mixture et donc de la prรฉcision locale de lโestimation[34].
Mesure de vraisemblances
Etant donnรฉ la collection de trames dโun รฉnoncรฉ de voix et un locuteur prรฉsumรฉs, le systรจme doit dรฉterminer la probabilitรฉ de lโhypothรจse locuteur : ยซcet รฉnoncรฉ de voix est prononcรฉ par s ยป Etant dรฉfinie une densitรฉ pour la loi du modรจle de s, le facteur de vraisemblance (|)est alors estimรฉ par la valeur de cette densitรฉ pour .Sous lโhypothรจse dโindรฉpendance des trames de, ce facteur est le produit des vraisemblances(|).La comparaison des probabilitรฉs permet de mesurer le risque associรฉ ร la dรฉcision dโacceptation. Le ratio des hypothรจses complรฉmentaires (likelhood ratio) , une dรฉcision binaire dโacceptation ou rejet est obtenue en fixant un seuil de dรฉcision ฮฉ ร (,|).Aprรจs incorporation des probabilitรฉs a priori () et ()ร ce seuil, la dรฉcision dรฉpend seulement de la valeur : Acceptรฉe si >ฮฉ,rejetรฉe sinon. Dans le cadre de la modรฉlisation par GMM, la vraisemblance est รฉvaluรฉe par la densitรฉ de suivant la mixture de gaussiennes du locuteur s. La vraisemblanceย nรฉcessite lโestimation dโun modรจle GMM des imposteurs de s.
Guide du mรฉmoire de fin d’รฉtudes avec la catรฉgorie DECISION ET MESURE DE PERFORMANCE |
รtudiant en universitรฉ, dans une รฉcole supรฉrieur ou dโingรฉnieur, et que vous cherchez des ressources pรฉdagogiques entiรจrement gratuites, il est jamais trop tard pour commencer ร apprendre et consulter une liste des projets proposรฉes cette annรฉe, vous trouverez ici des centaines de rapports pfe spรฉcialement conรงu pour vous aider ร rรฉdiger votre rapport de stage, vous prouvez les tรฉlรฉcharger librement en divers formats (DOC, RAR, PDF).. Tout ce que vous devez faire est de tรฉlรฉcharger le pfe et ouvrir le fichier PDF ou DOC. Ce rapport complet, pour aider les autres รฉtudiants dans leurs propres travaux, est classรฉ dans la catรฉgorie MACHINES A VECTEURS SUPPORTS oรน vous pouvez trouver aussi quelques autres mรฉmoires de fin d’รฉtudes similaires.
|
Table des matiรจres
DEDICACE
REMERCIEMENTS
RESUME
ABSTRACT
TABLE DES MATIERES
LISTE DE FIGURES
LISTE DES TABLEAUX
INTRODUCTION GENERALE
CHAPITRE I SYSTEME DE RECONNAISSANCE AUTOMATIQUE DE LOCUTEUR
I. INTRODUCTION AUX SYSTEMES DE RECONNAISSANCE AUTOMATIQUE DE LOCUTEURย 1. Les diffรฉrentes tรขches en RAL
5 1.1. Identification Automatique du Locuteur
1.2. Vรฉrification Automatique du Locuteur
1.3. Indexation automatique en locuteur
2. Dรฉpendance et Indรฉpendance du Texte
3. La variabilitรฉ du signal de la parole
II. SYSTEME DE RECONNAISSANCE AUTOMATIQUE DU LOCUTEUR
1. Paramรจtrisation du signal de parole
1.1. Paramรจtres de lโanalyse spectrale
1.2. Paramรจtres dynamique
1.3. Paramรจtres prosodiques
2. Modรฉlisation du locuteur
2.1. Approche Vectorielle
2.2. Lโapproche statistique
2.3. Lโapproche connexionniste
2.4. Lโapproche relative
III. DECISION ET MESURE DE PERFORMANCE
1. Vรฉrification du locuteur
2. Identification du locuteur
Conclusion
CHAPITRE II RECONNAISSANCE DU LOCUTEUR PAR MELANGE DU GAUSSIENNES
I. LโAPPROCHE STATISTIQUE GMM-UBM EN RAL
Introduction
1. Schรฉma gรฉnรฉral
2. Les Mรฉlanges de Gaussiennes en RAL
3. La densitรฉ dโune mรฉlange de gaussienne
4. Mesure de vraisemblances
5. Lโalgorithme EM (Expectation Maximisation)
6. Le modรจle GMM-UBM
7. Adaptation ร Postรฉriori MAP
8. Adaptation par MLLR
9. Calcul de score Conclusion
CHAPITRE III MACHINE A VECTEUR SUPPORTS (SVM)
I. MACHINES A VECTEURS SUPPORTS
1. Construction de lโhyperplan optimal
1.1. Cas des donnรฉes linรฉairement sรฉparables
1.2. Cas des donnรฉes non-linรฉairement sรฉparables
2. Principe des SVM
II. NOYAU DE VECTEUR ET DE SEQUENCE
1. Noyaux de vecteur
1.1. Lโastuce de Noyau
1.2. Le noyau entre des vecteurs (Le noyau projectif et radial)
2. Noyau de sรฉquence
2.1. Le noyau GLDS (Generalized Linear Discriminant Scoring)
2.2. Le noyau de Fisher Discriminant (Kernel Fisher Discriminant (KFD))
Conclusion
CHAPITRE IV SVM POUR LโIDENTIFICATION DU LOCUTEUR EN MODE INDEPENDANT DU TEXTE
I. HISTORIQUE
II. APPROCHE HYBRIDE GMM-SVM
1. Description du systรจme
2. Protocole expรฉrimentale
2.1. Base de donnรฉes
2.2. Paramรฉtrisation
2.3. Modรฉlisation GMM
2.4. Dรฉcision
3. Rรฉsultats et Evaluation
Conclusion
CONCLUSION ET PERSPECTIVES
Tรฉlรฉcharger le rapport complet