scieee Science in your language
[en] (orig)
Ausnutzung zeitlicher Redundanzen der cepstralen
Sprachmerkmale f¨
ur die automatische
Spracherkennung
Stefan Windmann
Institut f¨
ur Elektrotechnik und Informationstechnik
Fachgebiet Nachrichtentechnik
Universit¨
at Paderborn
26. September 2008
2
Inhaltsverzeichnis
1 Einleitung 1
2 Stand der Forschung 3
2.1 Statistische Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.1 Merkmalsextraktion und -entrauschung . . . . . . . . . . . . . . 6
2.1.2 Akustische Modellierung . . . . . . . . . . . . . . . . . . . . . . 9
2.1.3 Suche ................................ 11
2.2 Ausnutzung von Inter-Frame Korrelationen . . . . . . . . . . . . . . . . 14
2.2.1 Ausnutzung von Inter-Frame Korrelationen bei der Suche der
optimalen Wortsequenz . . . . . . . . . . . . . . . . . . . . . . . 14
2.2.2 Ausnutzung von Inter-Frame Korrelationen bei der Merkmals-
entst¨
orung.............................. 17
2.3 Bestimmung der Parameter des Rauschmodells . . . . . . . . . . . . . . 19
2.4 Austausch von Informationen zwischen Front-End und Back-End . . . . 22
3 Wissenschaftliche Ziele 25
4 Entrauschung der Sprachmerkmale mit schaltenden Modellen 29
4.1 Statistische Modellierung . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1.0.1 Training der Modellparameter . . . . . . . . . . . . . . 31
4.1.0.2 Integration des Rauschmodells . . . . . . . . . . . . . 32
4.1.0.3 Beobachtungsmodell . . . . . . . . . . . . . . . . . . . 33
4.2 Berechnung der a posteriori Verteilung . . . . . . . . . . . . . . . . . . 34
4.2.0.4 Filterung . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.2.0.5 Berechnung der Modellwahrscheinlichkeiten . . . . . . 37
4.3 Erweiterung des Beobachtungsmodells um dynamische Merkmale . . . 38
4.4 Gl¨
attung................................... 40
4.5 Experimentelle Untersuchungen . . . . . . . . . . . . . . . . . . . . . . 41
5 Rauschsch¨
atzung 53
5.1 Parametersch¨
atzung aus Trainingsdaten . . . . . . . . . . . . . . . . . 55
5.2 Adaption des Beobachtungsrauschens w¨
ahrend der Laufzeit . . . . . . . 58
5.3 Experimentelle Untersuchungen . . . . . . . . . . . . . . . . . . . . . . 63
5.3.1 Einfluß der Rauschsch¨
atzung.................... 63
5.3.2 Qualitative Untersuchung der Parametersch¨
atzung . . . . . . . . 66
5.3.3 Erkennungsergebnisse . . . . . . . . . . . . . . . . . . . . . . . . 68
i
Advertisement
ii Inhaltsverzeichnis
6 Optimierungsproblem f¨
ur verrauschte Sprachmerkmale 71
6.1 Uncertainty Decoding . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.1.1 Auswertung der Decodierregel unter der Annahme gaußf¨
ormiger
Verteilungen............................. 73
6.2 Akustischer Skalierungsfaktor . . . . . . . . . . . . . . . . . . . . . . . 74
6.3 Experimentelle Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . 75
7 Modellierung statistischer Abh¨
angigkeiten im Back-End des Sprach-
erkenners 79
7.1 Suche im CMHMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.2 Speichereffiziente Durchf¨
uhrung der Zustands¨
uberg¨
ange . . . . . . . . . 83
7.3 Experimentelle Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . 84
8 R¨
uckkopplung der Erkennungsergebnisse in das Front-End 87
8.1 Vergleich der Modelle im Front-End und Back-End des Erkenners . . . 87
8.2 Merkmalsentst¨
orung unter Ber¨
ucksichtigung der HMM-Zust¨
ande . . . . 90
8.3 R¨
uckkopplung von Informationen ¨
uber das Zustandsmodell . . . . . . . 92
8.3.1 Einbettung der R¨
uckkopplungsmethode in den statistischen Ansatz 94
8.3.2 Training der Zustandstabelle . . . . . . . . . . . . . . . . . . . . 96
8.4 R¨
uckkopplung von Informationen ¨
uber die Verteilung der Sprachmerkmale 96
8.5 Verwendung der Zustandswahrscheinlichkeiten bei der Rauschsch¨
atzung 98
8.6 Berechnung der Zustandswahrscheinlichkeiten . . . . . . . . . . . . . . 99
8.6.1 Vorw¨
arts-R¨
uckw¨
arts-Algorithmus auf Zustandsebene . . . . . . 100
8.6.2 Verwendung eines Wortgraphen bei der Berechnung der Zustands-
wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . 101
8.6.2.1 Konstruktion des Wortgraphen . . . . . . . . . . . . . 101
8.6.2.2 Berechnung der a posteriori Wahrscheinlichkeiten f¨
ur
W¨
orter .......................... 103
8.6.2.3 Berechnung der Zustandswahrscheinlichkeiten unter Be-
r¨
ucksichtigung des Wortgraphen . . . . . . . . . . . . . 107
8.7 Experimentelle Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . 109
9 Zusammenfassung und Ausblick 121
A Testdatenbanken und Konfigurationen des Spracherkenners 127
A.1 AURORA2 Testdatenbank . . . . . . . . . . . . . . . . . . . . . . . . . 127
A.2 AURORA4 Testdatenbank . . . . . . . . . . . . . . . . . . . . . . . . . 128
B Qualit¨
atsmaße 131
B.1 Wortfehlerrate (WER) . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
B.2 Qualit¨
atsmaße f¨
ur die Bewertung von Wortgraphen . . . . . . . . . . . 132
Inhaltsverzeichnis iii
C Front-End 133
C.1 ETSI Standard Front-End (SFE) . . . . . . . . . . . . . . . . . . . . . 133
C.2 Dynamische Sprachmerkmale . . . . . . . . . . . . . . . . . . . . . . . 134
C.3 Modellbasierte Ans¨
atze zur Merkmalsentst¨
orung . . . . . . . . . . . . . 134
C.3.1 VTS-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
C.3.2 Iterative Verbesserung einer SNR-Variablen . . . . . . . . . . . 135
C.4 ETSI Advanced Front-End (AFE) . . . . . . . . . . . . . . . . . . . . . 136
D Implementierungsdetails 139
D.1 Initialisierung der SLDM-Parameter . . . . . . . . . . . . . . . . . . . . 139
D.2 Numerische Berechnungen . . . . . . . . . . . . . . . . . . . . . . . . . 139
D.3 Berechnung der Wortgraphfehlerrate . . . . . . . . . . . . . . . . . . . 140
E Mathematische Herleitungen 143
E.1 Erg¨
anzung zum IEKF . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
E.2 EM-Algorithmen zur Rauschsch¨
atzung .................. 144
E.2.1 Maximierung der Log-Likelihood einer Summe multivariater Gauß-
verteilungen............................. 144
E.2.2 Erg¨
anzung zur Herleitung des sequentiellen EM-Algorithmus . . 145
E.3 Momente einer Funktion von Gaußverteilung . . . . . . . . . . . . . . . 147
F Symbolverzeichnis 149
G Abk¨
urzungsverzeichnis 153
Literatur 155
Advertisement
Loading more pages...