RECONNAISSANCE DU LOCUTEUR PAR MELANGE DU GAUSSIENNES

RECONNAISSANCE DU LOCUTEUR PAR MELANGE DU GAUSSIENNES

Les Mรฉlanges de Gaussiennes en RAL

La reconnaissance du locuteur sโ€™appuie sur une reprรฉsentation discrรจte du signal de parole. Celui-ci est transformรฉ en une sรฉquence de vecteurs de paramรจtres, dont la frรฉquence dโ€™รฉchantillonnage est gรฉnรฉralement 100Hz.Considรฉrons que chaque vecteur de paramรจtres extrait dโ€™un signal de parole est une rรฉalisation dโ€™une variable alรฉatoire multidimensionnelle. Les approches gรฉnรฉratives en reconnaissance du locuteur reposent sur lโ€™hypothรจse quโ€™il existe une fonction injective de lโ€™ensemble des locuteurs dans lโ€™espace des fonctions de densitรฉ de probabilitรฉ. Cette hypothรจse suppose, plus prรฉcisรฉment, que les vecteurs de paramรจtres provenant dโ€™un locuteur suivent une loi de probabilitรฉ propre ร  ce locuteur ..
La complexitรฉ de ces fonctions de densitรฉ nous conduit ร  rechercher une approximation suffisant ร  la rรฉsolution du problรจme de reconnaissance du locuteur. Dans les Mรฉthodes Statistiques du Second Ordre (MSSO) [30],les locuteurs sont reprรฉsentรฉs par une loi Gaussienne, cโ€™est ร  dire un doublรฉ (,ฮฃ), oรน est le vecteur moyen de la Gaussienne et ฮฃ la matrice de covariance, estimรฉe ร  partir de la sรฉquence acoustique dโ€™apprentissage. Nous avons soulignรฉ la simplicitรฉ de la modรฉlisation des locuteurs par MSSO et le fait quโ€™elle limite la granularitรฉ de modรฉlisation des variations acoustiques.
Lโ€™utilisation de mรฉlanges de Gaussiennes (GMM) permet dโ€™obtenir une approximation plus prรฉcise de la fonction de densitรฉ de probabilitรฉ caractรฉristique des locuteurs, tout en restant relativement simple ร  estimerย  La densitรฉ de probabilitรฉ dโ€™un mรฉlange de distributions Gaussienne sont respectivement le poids, le vecteur moyens et la matrice de covariance de la distribution dans la mixture.est le vecteur de paramรจtres global de mixture de Gaussienne. La densitรฉ de probabilitรฉ gaussienneย  En reconnaissance du locuteur, la matrice de covariance est gรฉnรฉralement supposรฉe diagonale. La vraisemblance pour quโ€™un vecteur de paramรจtres ait รฉtรฉ produit par le GMM de vecteur de paramรจtresย  La valeur moyenne de la log-vraisemblance pour une sรฉquence de paramรจtre .

La densitรฉ dโ€™une mรฉlange de gaussienne

La dรฉtermination du ฮ˜ pour une collection de trames sโ€™effectue par lโ€™algorithme dโ€™apprentissage EM (Expectation Maximisation) [1]. Cet algorithme itรฉratif effectue ร  chaque รฉtape deux phases Expectation et Maximisation destinรฉ ร  augmenter la vraisemblances des donnรฉe dโ€™apprentissage au modรจle de gaussiennes(dโ€™oรน le suffixe ML Maximum Likelhood ajoutรฉ ร  son nom).Lโ€™algorithme garantit ร  chaque itรฉration la croissance dโ€™une fonction objective de vraisemblances des paramรจtres sachant .Il converge vers un maximum de vraisemblance, mais seulement locales, dans le champs dโ€™optimisation de la fonction de densitรฉ [34] . Le paramรจtre ฮ˜= {,,ฮฃ} de la mixture contient [() ] valeurs ร  estimer. Or la collection de trames pour un segment de voix de durรฉe initiale allant de 30 secondes ร  quelques minutes contient un effectif de trames de lโ€™ordre de 5 ร  20 000 trames aprรจs VAD. Pour une dimension de lโ€™espace acoustique = 50 et une mixture G=64 gaussienne, le paramรจtre ฮ˜ contient dรฉjร  81664 valeurs ร  estimer. Et ici le nombre G de 64 sโ€™avรจre assez loin de la quantitรฉ minimale empirique nรฉcessaire pour faรงonner une mixture de segment de voix de vraisemblances satisfaisante. Lโ€™estimation EM-ML conduit alors, par sous-apprentissage, ร  un modรจle mรฉdiocre[34]. Lโ€™alternative consiste ร  la matrice de covariance ฮฃ la contrainte de diagonalitรฉ dans lโ€™algorithme EM. La matrice ฮฃ de chaque gaussienne est seulement rempli avec la diagonale des variances. Cette contrainte peut apparaitre restrictive, voire peut rรฉaliste, mais en rรฉduisant de [() ] ร  (2+ 1) le nombre de valeurs ร  estimer, elle permet lโ€™accroissement du nombre G de gaussiennes de la mixture et donc de la prรฉcision locale de lโ€™estimation[34].

Mesure de vraisemblances

Etant donnรฉ la collection de trames dโ€™un รฉnoncรฉ de voix et un locuteur prรฉsumรฉs, le systรจme doit dรฉterminer la probabilitรฉ de lโ€™hypothรจse locuteur : ยซcet รฉnoncรฉ de voix est prononcรฉ par s ยป Etant dรฉfinie une densitรฉ pour la loi du modรจle de s, le facteur de vraisemblance (|)est alors estimรฉ par la valeur de cette densitรฉ pour .Sous lโ€™hypothรจse dโ€™indรฉpendance des trames de, ce facteur est le produit des vraisemblances(|).La comparaison des probabilitรฉs permet de mesurer le risque associรฉ ร  la dรฉcision dโ€™acceptation. Le ratio des hypothรจses complรฉmentaires (likelhood ratio) , une dรฉcision binaire dโ€™acceptation ou rejet est obtenue en fixant un seuil de dรฉcision ฮฉ ร (,|).Aprรจs incorporation des probabilitรฉs a priori () et ()ร  ce seuil, la dรฉcision dรฉpend seulement de la valeur : Acceptรฉe si >ฮฉ,rejetรฉe sinon. Dans le cadre de la modรฉlisation par GMM, la vraisemblance est รฉvaluรฉe par la densitรฉ de suivant la mixture de gaussiennes du locuteur s. La vraisemblanceย  nรฉcessite lโ€™estimation dโ€™un modรจle GMM des imposteurs de s.

Guide du mรฉmoire de fin d’รฉtudes avec la catรฉgorie DECISION ET MESURE DE PERFORMANCE

ร‰tudiant en universitรฉ, dans une รฉcole supรฉrieur ou dโ€™ingรฉnieur, et que vous cherchez des ressources pรฉdagogiques entiรจrement gratuites, il est jamais trop tard pour commencer ร  apprendre et consulter une liste des projets proposรฉes cette annรฉe, vous trouverez ici des centaines de rapports pfe spรฉcialement conรงu pour vous aider ร  rรฉdiger votre rapport de stage, vous prouvez les tรฉlรฉcharger librement en divers formats (DOC, RAR, PDF).. Tout ce que vous devez faire est de tรฉlรฉcharger le pfe et ouvrir le fichier PDF ou DOC. Ce rapport complet, pour aider les autres รฉtudiants dans leurs propres travaux, est classรฉ dans la catรฉgorie MACHINES A VECTEURS SUPPORTS oรน vous pouvez trouver aussi quelques autres mรฉmoires de fin d’รฉtudes similaires.

Le rapport de stage ou le pfe est un document d’analyse, de synthรจse et d’รฉvaluation de votre apprentissage, c’est pour cela rapport gratuit propose le tรฉlรฉchargement des modรจles gratuits de projet de fin d’รฉtude, rapport de stage, mรฉmoire, pfe, thรจse, pour connaรฎtre la mรฉthodologie ร  avoir et savoir comment construire les parties d’un projet de fin d’รฉtude.

Table des matiรจres

DEDICACE
REMERCIEMENTS
RESUME
ABSTRACT
TABLE DES MATIERES
LISTE DE FIGURES
LISTE DES TABLEAUX
INTRODUCTION GENERALE
CHAPITRE I SYSTEME DE RECONNAISSANCE AUTOMATIQUE DE LOCUTEUR
I. INTRODUCTION AUX SYSTEMES DE RECONNAISSANCE AUTOMATIQUE DE LOCUTEURย  1. Les diffรฉrentes tรขches en RAL
5 1.1. Identification Automatique du Locuteur
1.2. Vรฉrification Automatique du Locuteur
1.3. Indexation automatique en locuteur
2. Dรฉpendance et Indรฉpendance du Texte
3. La variabilitรฉ du signal de la parole
II. SYSTEME DE RECONNAISSANCE AUTOMATIQUE DU LOCUTEUR
1. Paramรจtrisation du signal de parole
1.1. Paramรจtres de lโ€™analyse spectrale
1.2. Paramรจtres dynamique
1.3. Paramรจtres prosodiques
2. Modรฉlisation du locuteur
2.1. Approche Vectorielle
2.2. Lโ€™approche statistique
2.3. Lโ€™approche connexionniste
2.4. Lโ€™approche relative
III. DECISION ET MESURE DE PERFORMANCE
1. Vรฉrification du locuteur
2. Identification du locuteur
Conclusion
CHAPITRE II RECONNAISSANCE DU LOCUTEUR PAR MELANGE DU GAUSSIENNES
I. Lโ€™APPROCHE STATISTIQUE GMM-UBM EN RAL
Introduction
1. Schรฉma gรฉnรฉral
2. Les Mรฉlanges de Gaussiennes en RAL
3. La densitรฉ dโ€™une mรฉlange de gaussienne
4. Mesure de vraisemblances
5. Lโ€™algorithme EM (Expectation Maximisation)
6. Le modรจle GMM-UBM
7. Adaptation ร  Postรฉriori MAP
8. Adaptation par MLLR
9. Calcul de score Conclusion
CHAPITRE III MACHINE A VECTEUR SUPPORTS (SVM)
I. MACHINES A VECTEURS SUPPORTS
1. Construction de lโ€™hyperplan optimal
1.1. Cas des donnรฉes linรฉairement sรฉparables
1.2. Cas des donnรฉes non-linรฉairement sรฉparables
2. Principe des SVM
II. NOYAU DE VECTEUR ET DE SEQUENCE
1. Noyaux de vecteur
1.1. Lโ€™astuce de Noyau
1.2. Le noyau entre des vecteurs (Le noyau projectif et radial)
2. Noyau de sรฉquence
2.1. Le noyau GLDS (Generalized Linear Discriminant Scoring)
2.2. Le noyau de Fisher Discriminant (Kernel Fisher Discriminant (KFD))
Conclusion
CHAPITRE IV SVM POUR Lโ€™IDENTIFICATION DU LOCUTEUR EN MODE INDEPENDANT DU TEXTE
I. HISTORIQUE
II. APPROCHE HYBRIDE GMM-SVM
1. Description du systรจme
2. Protocole expรฉrimentale
2.1. Base de donnรฉes
2.2. Paramรฉtrisation
2.3. Modรฉlisation GMM
2.4. Dรฉcision
3. Rรฉsultats et Evaluation
Conclusion
CONCLUSION ET PERSPECTIVES

Rapport PFE, mรฉmoire et thรจse PDFTรฉlรฉcharger le rapport complet

Tรฉlรฉcharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiรฉe. Les champs obligatoires sont indiquรฉs avec *