Modellbasierte Merkmalsverbesserung
zur robusten automatischen Spracherkennung
in Gegenwart von Nachhall und Hintergrundstörungen
Von der Fakultät für Elektrotechnik, Informatik und Mathematik
der Universität Paderborn
zur Erlangung des akademischen Grades
Doktor der Ingenieurwissenschaften (Dr.-Ing.)
genehmigte Dissertation
von
Dipl.-Math. Alexander Krüger
Erster Gutachter: Prof. Dr.-Ing. Reinhold Häb-Umbach
Zweiter Gutachter: Prof. Dr.-Ing. Klaus Meerkötter
Tag der mündlichen Prüfung: 16. Dezember 2011
Paderborn 2011
Diss. EIM-E/282
Danksagung
Die vorliegende Arbeit entstand während meiner Tätigkeit im Fachgebiet Nachrichtentech-
nik der Universität Paderborn. Während der ersten drei Jahre gehörte ich dabei dem Gra-
duiertenkolleg des Paderborn Institute for Scientific Computation (PaSCo) als Mitglied an,
für dessen wissenschaftliche und finanzielle Förderung in Form eines Stipendiums ich mich
hiermit herzlich bedanke.
Mein besonderer Dank gilt dem Leiter des Fachgebiets Nachrichtentechnik, Herrn Prof.
Dr.-Ing. Reinhold Häb-Umbach, für eine angenehme Arbeitsatmosphäre sowie eine hervor-
ragende Betreuung durch zahlreiche fachliche Ratschläge und Diskussionen, die wesentlich
zum Erfolg der Arbeit beigetragen haben. Weiterhin danke ich Herrn Prof. Dr.-Ing. Klaus
Meerkötter für die Übernahme des Korreferates dieser Arbeit und ebenfalls für viele fachli-
che Gespräche, die sich stets als positive Denkanregungen auch im Hinblick auf diese Arbeit
erwiesen.
Allen meinen Arbeitskollegen im Fachgebiet Nachrichtentechnik danke ich für ihre steti-
ge Hilsbereitschaft und eine freundschaftliche Arbeitsatmosphäre. Einen besonderen Dank
möchte ich in diesem Zusammenhang Herrn Dipl.-Ing. Volker Leutnant, Herrn Dipl.-Ing.
Dang Hai Tran Vu, Herrn Dr.-Ing. Maik Bevermeier sowie Herrn Dr.-Ing. Jörg Schmalen-
ströer aussprechen. In zahlreichen fachlichen Diskussionen mit ihnen sind viele wertvolle
Ideen entstanden, die in diese Arbeit eingeflossen sind.
Herrn Dipl.-Ing. Volker Leutnant sowie meinem Bruder, Herrn Waldemar Krüger, danke
ich für ein sorgfältiges Korrekturlesen dieser Dissertation und für das Anbringen von kon-
struktiver Kritik.
Schließlich gilt ein großer Dank meinen Eltern, die mich während der gesamten Zeit be-
dingungslos unterstützt haben. Dadurch hat sich für mich überhaupt erst die Möglichkeit für
eine wissenschaftliche Laufbahn eröffnet.
Inhaltsverzeichnis
1. Einleitung 1
2. Grundlagen zur automatischen Spracherkennung 5
2.1. Merkmalsextraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2. Decodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3. Spracherkennung in halligen Umgebungen . . . . . . . . . . . . . . . . . . 12
3. Stand der Forschung 17
3.1. Verfahren zur Enthallung des akustischen Signals . . . . . . . . . . . . . . 17
3.1.1. Verfahren zur Entfernung des Nachhalls . . . . . . . . . . . . . . . 17
3.1.2. Verfahren zur Unterdrückung des Nachhalls . . . . . . . . . . . . . 19
3.2. Verfahren zur Extraktion hallrobuster Merkmale . . . . . . . . . . . . . . . 20
3.2.1. Normierungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.2. Perzeptuell motivierte Verfahren . . . . . . . . . . . . . . . . . . . 24
3.2.3. Sonstige merkmalsbasierte Verfahren . . . . . . . . . . . . . . . . 28
3.3. Verfahren basierend auf der Modifikation des akustischen Modells oder des
Decoders . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.3.1. Modifikation des akustischen Modells . . . . . . . . . . . . . . . . 29
3.3.2. Modifikation des Decoders . . . . . . . . . . . . . . . . . . . . . . 32
4. Wissenschaftliche Ziele 35
4.1. Gliederung der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
5. Konzept der modellbasierten BAYES’schen Merkmalsverbesserung 39
5.1. A-priori-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.1. Modell für die Sprache . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1.2. Modell für die Störung . . . . . . . . . . . . . . . . . . . . . . . . 44
5.1.3. Training von SLDMs . . . . . . . . . . . . . . . . . . . . . . . . . 45
5.1.4. Initialisierung von SLDM-Parametern . . . . . . . . . . . . . . . . 48
5.2. Beobachtungsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.2.1. Zusammenhang im Zeit-Frequenz-Bereich . . . . . . . . . . . . . 58
5.2.2. Zusammenhang im log-MEL-spektralen Bereich . . . . . . . . . . 62
5.2.3. Approximation durch vereinfachtes Modell der RIA . . . . . . . . 66
5.2.4. Rekursives Beobachtungsmodell . . . . . . . . . . . . . . . . . . . 75
5.2.5. Modellierung des Beobachtungsfehlers . . . . . . . . . . . . . . . 77
5.3. Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
5.3.1. Iteratives erweitertes KALMAN-Filter . . . . . . . . . . . . . . . . 82
i
ii
Inhaltsverzeichnis
5.3.2. Modellkombinationsalgorithmen . . . . . . . . . . . . . . . . . . . 88
6. Experimentelle Untersuchungen 93
6.1. Sprachdatenbanken und Konfigurationen der Spracherkenner . . . . . . . . 93
6.1.1. AURORA5-Datenbank . . . . . . . . . . . . . . . . . . . . . . . . 93
6.1.2. Modifizierte AURORA4-Datenbank . . . . . . . . . . . . . . . . . 95
6.2. Referenzergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.3. Ergebnisse alternativer Verfahren . . . . . . . . . . . . . . . . . . . . . . . 97
6.4. Voruntersuchungen zum Beobachtungsmodell . . . . . . . . . . . . . . . . 100
6.5. Ergebnisse zur Merkmalsenthallung . . . . . . . . . . . . . . . . . . . . . 105
6.5.1. Einfluss des A-priori-Sprachmodells . . . . . . . . . . . . . . . . . 112
6.5.2. Einfluss des Beobachtungsmodells . . . . . . . . . . . . . . . . . . 116
6.5.3. Adaption des Erkenners auf Artefakte der Merkmalsenthallung . . . 119
6.6. Ergebnisse zur gemeinsamen Merkmalsenthallung und -entstörung . . . . . 122
7. Zusammenfassung und Ausblick 125
A. Anhang 129
A.1. Herleitung des EM-Algorithmus zum Training von SLDMs beliebiger Ordnung129
A.1.1. Expectation-Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . 129
A.1.2. Maximization-Schritt . . . . . . . . . . . . . . . . . . . . . . . . . 135
A.2. Herleitungen und Beweise zum Beobachtungsmodell . . . . . . . . . . . . 139
A.2.1. Eigenschaften und Berechnung des Synthesefensters . . . . . . . . 139
A.2.2. Stauchungssatz für die zeitdiskrete FOURIER-Transformation . . . 141
A.2.3. Zusammenhang zwischen der Abklingkonstanten und der Nachhallzeit142
A.2.4. Herleitung der Erwartungswerte und Varianzen der Koeffizienten der
Raumimpulsantwort im MEL-spektralen Bereich . . . . . . . . . . 143
A.2.5. Herleitung der Leistungskompensationskonstanten . . . . . . . . . 145
A.3. Raumimpulsantworten zur Erzeugung der AURORA5-Datenbank . . . . . 149
A.4. Statistische Signifikanz der Unterschiede zwischen Wortfehlerraten . . . . . 149
Abkürzungsverzeichnis 153
Formelzeichen 155
Abbildungsverzeichnis 165
Tabellenverzeichnis 167
Literaturverzeichnis 169
Eigene Publikationen 183
“Essentially, all models are wrong, but some are useful.”
George E. P. Box [BD86]
1. Einleitung
Die automatische Spracherkennung bezeichnet den Prozess der Konversion eines akusti-
schen Signals in eine Menge von Wörtern [CZ98] und kann unter anderem zum Informa-
tionsaustausch zwischen dem Menschen und dem Computer genutzt werden. Obwohl sich
für diesen Zweck theoretisch auch visuelle oder taktile Kommunikationskanäle eignen, bietet
die gesprochene Kommunikation einige entscheidende Vorteile. Zum einen lässt sich damit
beispielsweise gegenüber der Eingabe von Wörtern und Zeichen über eine Tastatur oder
in handschriftlicher Form mittels eines graphischen Tabletts eine deutlich höhere Datenrate
erzielen [ST95]. Zum anderen erfordert die gesprochene Kommunikation in der Regel kei-
ne langwierigen Schulungsphasen, wie sie zum Beispiel zum Erreichen einer vernünftigen
Schreibgeschwindigkeit mit der Tastatur in der Regel notwendig sind. Das liegt daran, dass
die Sprache wohl das wichtigste und natürlichste Mittel der zwischenmenschlichen Kommu-
nikation darstellt und daher von den meisten Menschen in gewissem, ausreichenden Maße
beherrscht wird. Ein weiterer wesentlicher Vorteil besteht in dem Erhalt des vollen Funkti-
onsumfanges unter bestimmten, erschwerenden Umständen, wie zum Beispiel bei Dunkel-
heit oder extremen Bewegungseinschränkungen [ST95]. Ein unbezweifelbarer Nachteil liegt
in der gewöhnlich deutlich geringeren Erkennungsleistung im Vergleich zur Eingabe über
die Tastatur, wo von einer nahezu hundertprozentigen Erkennung auszugehen ist [ST95].
Eine zentrale Schwierigkeit der automatischen Spracherkennung ist die Variabilität eines
Sprachsignals, welches eine hochredundante Codierung einer zu übermittelnden Nachricht
darstellt. Damit ist gemeint, dass dieselbe Nachricht prinzipiell auf viele Arten ausgespro-
chen werden kann, die sich unter anderem in der Sprechweise und in den individuellen
und habituellen Sprechermerkmalen unterscheiden. Insbesondere treten auch kontextuelle
Aussprachevariationen auf [ST95]. Zur Berücksichtigung der Variabilität basieren aktuelle
Spracherkennungssysteme gewöhnlich auf einer statistischen Beschreibung der Sprache mit
Modellen, deren Parameter mit Hilfe von Datenbanken vor der eigentlichen Erkennungspha-
se geschätzt werden. So besteht ein Spracherkenner im Allgemeinen aus zwei Einheiten, der
sogenannten Merkmalsextraktion und der Decodierung. Bei der Merkmalsextraktion wird
versucht, aus dem Sprachsignal den redundanten Anteil der Information zu entfernen, so
dass anschließend bei der Decodierung mit dem relevanten Anteil der Information die ei-
gentliche Suche nach der zugrunde liegenden Wortsequenz stattfinden kann. Mit diesem An-
satz wurden in der Vergangenheit enorme Fortschritte in der automatischen Erkennung von
sowohl einzelnen Wörtern als auch von kontinuierlich gesprochener Sprache erzielt [Ata95].
Diese Fortschritte motivierten die Entwicklung einer breiten Palette von kommerziellen An-
wendungen und Produkten, welche in den Bereichen der Datenerfassung, der Steuerung von
Systemen oder Geräten sowie der automatischen Informationsgewinnung liegen [ST95]. Die
potentiellen Anwendungsgebiete umfassen dabei unter anderem Haushalt, Büro, Industrie,
Medizin und Militär.
1
2
Einleitung
Trotz der enormen Fortschritte in der automatischen Spracherkennung bleibt festzustellen,
dass die Leistungsfähigkeit eines Menschen nur unter kontrollierten Aufnahmebedingungen
annähernd erreicht wird [Ata95, MS95]. In realistischen Anwendungen können die Auf-
nahmebedingungen jedoch aufgrund der Verwendung von unterschiedlichen Mikrophonen
sowie der etwaigen Präsenz von akustischen Störquellen drastisch variieren. Ein in diesem
Zusammenhang für diese Dissertation wesentlicher Aspekt ist die Variation durch die Ver-
wendung von Freisprechsystemen, wobei Fernfeld- an Stelle von Nahbereichsmikrophonen
zum Einsatz kommen. Solche Systeme sind für bestimmte Anwendungen entweder uner-
lässlich oder können zur Steigerung des Komforts und der Sicherheit beitragen [SK08]. Man
denke dabei beispielsweise an die kabellose Bedienung von medizinischen diagnostischen
Geräten durch einen Chirurgen während einer Operation oder aber auch an die Bedienung
eines Fernsehers mittels Sprachsteuerung durch einen Konsumenten [SK08].
Nun führt der erhöhte Abstand des Sprechers zum Mikrophon, der im Bereich von etwa
einem bis mehreren Metern liegt, einerseits dazu, dass sich die akustischen Signale eventuell
vorhandener Störquellen deutlich stärker bemerkbar machen. Andererseits wird das akusti-
sche Signal des gewünschten Sprechers an Oberflächen von Wänden und Gegenständen re-
flektiert und erfährt dadurch eine sogenannte Mehrwegeausbreitung. Das aufgenommene Si-
gnal beinhaltet dann neben dem gewünschten, gedämpften Sprachsignal dessen unterschied-
lich zeitlich verzögerte und gedämpfte Versionen, welche in ihrer Gesamtheit als Nachhall
bezeichnet werden. Während der Einfluss der additiven Hintergrundstörungen vom Verhält-
nis zwischen der Energie des Sprach- und des Störsignals abhängt und prinzipiell durch ein
bewusstes lauteres Sprechen verringert werden kann, trifft dies für den Nachhall nicht zu, da
er eine Faltungsstörung darstellt.
Die soeben beschriebene Variabilität des Sprachsignals, die mit der Verwendung von Frei-
sprecheinrichtungen einhergeht, spiegelt sich erwartungsgemäß in dessen statistischen Ei-
genschaften wider. Unterscheiden sich diese von denen, welche zum Zeitpunkt des Trainings
vorlagen, muss aufgrund dieser Diskrepanz mit beträchtlichen Einbußen in der Leistungsfä-
higkeit des Spracherkennungssystems gerechnet werden.
Gewöhnlich ist der Mensch jedoch nicht gewillt, zugunsten eines erhöhten Kommuni-
kationskomforts durch Freisprechsysteme eine geringere Erkennungsleistung hinzunehmen.
Insbesondere werden diesbezüglich an einen automatischen Spracherkenner oft dieselben
Erwartungen wie an einen Menschen gestellt, der nur in geringem Maße empfindlich gegen-
über Nachhall sowie Hintergrundstörungen ist. Zur Erfüllung dieser Erwartungen besteht ein
hohes Interesse an Methoden zur robusten Spracherkennung.
Während die Forschung im Bereich der Robustheit gegenüber additiven Hintergrundstö-
rungen bereits einige Jahrzehnte andauert [SK08], reichen die ersten Bemühungen um die
Robustheit gegenüber dem Nachhall etwa in das Ende der Neunziger Jahre zurück. Trotz
intensiver Forschung reicht die Leistungsfähigkeit von automatischen Spracherkennern im
Freisprechbetrieb bei Weitem nicht an die eines Menschen heran.
Im Rahmen dieser Arbeit wird nun ein neuartiges Verfahren zur modellbasierten Verbesse-
rung akustischer Merkmale zur robusten Spracherkennung in Gegenwart von Nachhall sowie
Hintergrundstörungen vorgestellt, wobei der Fokus deutlich auf der Behandlung des Nach-
halls liegt. Der einleitende Teil dieser Dissertation ist wie folgt aufgebaut. Zunächst werden
in Kap. 2 die Grundlagen der statistisch motivierten Spracherkennung vorgestellt. Dabei wer-
den die beiden weiter oben erwähnten Bestandteile eines Spracherkennungssystems, nämlich
die Merkmalsextraktion und die Decodierung, ausführlich beschrieben. Anschließend wird
Einleitung
3
in Kap. 3 eine Übersicht über die in der Literatur bisher existenten Methoden zur hallro-
busten Spracherkennung gegeben. In Kap. 4 werden dann die wissenschaftlichen Ziele der
Arbeit formuliert. Darin findet sich auch der detaillierte Aufbau der weiteren Arbeit.
2. Grundlagen zur automatischen
Spracherkennung
Die in der heutigen Literatur existenten Ansätze zur automatischen Spracherkennung können
grob in drei Kategorien unterteilt werden [RJ93]:
1. Akustisch-phonetische Ansätze
2. Mustererkennungsansätze
3. Ansätze basierend auf künstlicher Intelligenz.
Die akustisch-phonetischen Ansätze gehen von der Annahme aus, dass sich ein Sprachsignal
aus einer Folge von endlichen, unverwechselbaren phonetischen Einheiten zusammensetzt.
Dementsprechend besteht der Prozess der Erkennung im Wesentlichen aus einer sinnvollen
Segmentierung des Signals, einer anschließenden Zuordnung der Segmente zu Phonemen
und einer darauf aufbauenden Bestimmung der zugrunde liegenden Wortsequenz gemäß vor-
gegebenen syntaktischen und semantischen Regeln sowie einer durch ein Lexikon gegebenen
Menge an gültigen Wörtern.
Die Mustererkennungsansätze basieren auf der Vorstellung, dass die Aussprache von Wör-
tern oder Wortuntereinheiten bestimmte (nicht unbedingt an die Phonetik gebundene) Mus-
ter im Sprachsignal hervorruft, die in einer vorhergehenden Trainingsphase gelernt werden
müssen. Die eigentliche Erkennung wird dann als Klassifikationsaufgabe aufgefasst, die auf
einem Vergleich zwischen den trainierten und den zu klassifizierenden Mustern beruht.
Die auf künstlicher Intelligenz basierenden Ansätze stellen im Prinzip eine Kombination
beider vorhergehender Ansätze dar. Sie versuchen den Vorgang der Erkennung derart zu ge-
stalten, wie eine menschliche Person ihre Intelligenz anwenden würde, um das Sprachsignal
zu analysieren und eine abschließende Entscheidung über die vermeintliche Wortsequenz
zu fällen. Dabei werden für einzelne Teilaufgaben der Erkennung eine große Anzahl von
verschiedenen Informationsquellen herangezogen. Beispielsweise zählen dazu Verfahren,
welche bereits für die Segmentierung des Sprachsignals abgesehen von dem rein akustisch-
phonetischen unter anderem auch lexikalisches, syntaktisches und semantisches Wissen nut-
zen. Eine große Untergruppe dieser Kategorie bilden die sogenannten neuronalen Netze, mit
Hilfe derer (nichtlineare) Zusammenhänge zwischen unterschiedlichen Kontextinformatio-
nen gelernt werden können.
Der Fokus dieser Arbeit richtet sich auf die Hidden-MARKOV-Modell (HMM)-basierte
Spracherkennung, welche zur Klasse der Mustererkennungsansätze gehört und die heute die
am weitesten verbreitete Methode darstellt. Die Grundlage dieser Art der Spracherkennung
bildet die Annahme, dass das Sprachsignal als eine Realisierung eines parametrischen Zu-
fallsprozesses charakterisiert werden kann. Sie beruht auf der Tatsache, dass die einem Wort
5
6
Grundlagen zur automatischen Spracherkennung
zugrunde liegende Sequenz von akustischen Merkmalen in der Regel von unterschiedlichen
Einflussfaktoren wie dem Alter, dem Geschlecht und dem Gemütszustand des Sprechers, der
Sprachgeschwindigkeit, der Intonation usw. abhängt und somit Variationen erfährt.
Der prinzipielle Aufbau eines derartigen statistischen Spracherkennungssystems ist in
Abb. 2.1 dargestellt [You08].
hypothese
Wortsequenz−
Merkmals-
extraktion
Akustisches
Modell Sprachmodell
Decodierung
Lexikon
Sprachsignal
ˆw
ν
Merkmalsvektor-
sequenz
yMIC(l)ym
Abbildung 2.1.: Prinzipieller Aufbau eines statistischen Spracherkennungssystems.
Ein solches System gliedert sich grob in zwei Untereinheiten. Bei der sogenannten Merk-
malsextraktion findet eine akustische Vorverarbeitung statt, bei der aus einem zeitdiskre-
ten Sprachsignal yMIC(l)akustische Merkmale berechnet werden, welche die für die Erken-
nung relevante Information tragen. Dabei wird davon ausgegangen, dass das entsprechende
zeitkontinuierliche Sprachsignal zuvor bereits sinnvoll tiefpassgefiltert und einer Analog-
Digital-Umwandlung (ADU) unterzogen wurde.
Anschließend erfolgt eine Decodierung der extrahierten Merkmalsvektorsequenz ymin ei-
ne hypothetische Wortsequenz ˆw
ν
. Für die Decodierung werden gewöhnlich die drei folgen-
den statistischen Informationsquellen verwendet. Das akustische Modell beschreibt die akus-
tische Realisierung von Wörtern oder Wortuntereinheiten wie Triphonen, wobei die Men-
ge an zulässigen Wörtern sowie deren mögliche Zusammensetzung aus Wortuntereinheiten
durch das Lexikon spezifiziert wird. Das Sprachmodell beschreibt die Auftrittswahrschein-
lichkeit von bestimmten Wörtern oder Wortfolgen. Die Parameter dieser drei Informations-
quellen werden vor der eigentlichen Erkennung mit Hilfe von Trainingsdaten geschätzt.
In den beiden folgenden Abschnitten werden die beiden Untereinheiten des aufgeführten
Spracherkennungssystems, Merkmalsextraktion und Decodierung, detaillierter beschrieben,
da sie die Grundlage für das weitere Verständnis der Arbeit bilden.
2.1. Merkmalsextraktion
Die Merkmalsextraktion verfolgt das Ziel einer parametrischen Repräsentation der akusti-
schen Daten [DM80]. Im Hinblick auf die folgende automatische Spracherkennung erfolgt
dabei eine Informationskompression derart, dass jegliche für die phonetische Analyse irre-
levanten Aspekte entfernt werden und dass bestenfalls nur diejenige Information verbleibt,
welche in hohem Maße dazu beiträgt, phonetische Unterschiede zu detektieren. Die in der Li-
teratur am weitesten verbreiteten Methoden zur Merkmalsextraktion basieren entweder auf
Grundlagen zur automatischen Spracherkennung
7
einer spektralen Filterbankanalyse oder einer linearen Prädiktionskodierung (engl. Linear
Predictive Coding (LPC)) [RJ93, GPAF04, YEG+06].
An dieser Stelle soll nun eine detaillierte Beschreibung der sogenannten MEL-Frequenz-
Cepstrum-Koeffizienten (engl. Mel Frequency Cepstral Coefficients (MFCCs)) erfolgen,
welche in die erste Kategorie eingeordnet werden können. Ihre Berechnung basiert auf ei-
ner Kurzzeit-Spektralanalyse und orientiert sich stark an der menschlichen Gehörwahrneh-
mung. Sie wurden ursprünglich von Davis und Mermelstein [DM80] eingeführt und sind
heutzutage durch das europäische Institut für Telekommunikationsnormen (engl. European
Telecommunications Standards Institute (ETSI)) standardisiert [ETSb]. Abbildung 2.2 zeigt
ein Blockschaltbild zur Extraktion von MFCCs aus einem zeitdiskreten akustischen Signal
yMIC(l)gemäß einer leichten Abwandlung dieses Standards. Diese Art der Vorverarbeitung
ist in der englischsprachigen Literatur unter dem Namen Standard Front End (SFE) bekannt.
yMIC(l)Versatz-
kompensation
Höhen-
anhebung
y(l)Fensterung ywA(m,l′)DFT Y(m,k)
|·|2MEL-Filterbank
Ym,qln(·)y(s)
m,qDCT y(c)
m,
κ
′
Abbildung 2.2.: Blockschaltbild zur Extraktion von MFCCs aus einem zeitdiskreten akustischen Si-
gnal yMIC(l)gemäß einer leichten Abwandlung des ETSI-Standards [ETSb]. Die
Änderung gegenüber [ETSb] besteht in der Ersetzung des Kurzzeit-Amplitudenspek-
trums durch das Kurzzeit-Leistungsspektrum zur Vereinfachung der Berechnung.
Wie bereits weiter oben angesprochen wird davon ausgegangen, dass das entsprechende
zeitkontinuierliche Sprachsignal bereits einer Tiefpassfilterung sowie einer ADU unterzogen
wurde, wobei die Abtastfrequenz mit fAund die Abtastdauer mit TA=1
fAbezeichnet werden
soll. Obwohl der ETSI-Standard [ETSb] für die drei Abtastfrequenzen 8 kHz, 11 kHz und
16 kHz spezifiziert ist, soll für diese Arbeit generell fA=8kHz angenommen werden, weil
diese Abtastfrequenz für die Spracherkennung in der Praxis eine größere Verwendung findet.
Nach der ADU folgt eine Versatzkompensation sowie eine Anhebung der hohen Frequen-
zen, welche insgesamt eine Abflachung der spektralen Einhüllenden bewirkt. Damit soll der
typische −6 dB/oct-Abklang des akustischen Spektrums kompensiert werden [GPAF04].
Das resultierende zeitdiskrete Signal y(l), wobei l∈Zden Zeitindex bezeichnet, wird nun
in kleine Segmente unterteilt, in denen das Signal als stationärer Zufallsprozess angesehen
werden kann. Dieses geschieht durch die Multiplikation mit einer kausalen HAMMING-
Analysefensterfunktion wA(l)der endlichen Länge Lw, d. h.
wA(l) = 0 für l<0∧l>Lw.(2.1)
Das Analysefenster wird dabei von einem Merkmal zum nächsten jeweils um B∈NAbtast-
werte weitergeschoben, sodass die gefensterten Signalausschnitte
ywA(m,l′):=wA(l′)y(l′+mB)(2.2)
8
Grundlagen zur automatischen Spracherkennung
entstehen, wobei m∈N0den Segmentindex und l′den Zeitindex für das entsprechende Seg-
ment bezeichnet. Das Analysefenster erfüllt zudem die Funktion, den bei der weiteren Be-
rechnung des Kurzzeit-Spektrums auftretenden Leck-Effekt (engl. leakage effect) geeignet
zu steuern [KK09].
Die gefensterten Signalsegmente werden anschließend durch die Anwendung einer dis-
kreten FOURIER-Transformation (engl. Discrete FOURIER Transform (DFT)) in den Fre-
quenzbereich transformiert, woraus das diskrete Kurzzeit-Spektrum
Y(m,k) =
Lw−1
∑
l′=0
ywA(m,l′)·e−j2
π
Kkl′(2.3)
resultiert. Dabei handelt es sich um eine in der Zeit und der Frequenz abgetastete Version der
sogenannten zeitdiskreten Kurzzeit-FOURIER-Transformation (engl. Discrete-Time Short-
Time FOURIER Transform (DTSTFT)) [OSB99], wobei K∈Ndie Anzahl der Frequenzbins,
k∈Nden Frequenzindex und jdie imaginäre Einheit bezeichnet. Da Y(m,k)die Periode K
bezüglich kbesitzt, genügt es, nur die Indizes k∈ {0,...,K−1}zu betrachten.
Anschließend wird das Kurzzeit-Leistungsspektrum gebildet und damit die Phaseninfor-
mation im Spektrum verworfen. Diese Operation wird motiviert durch perzeptuelle Studien,
welche gezeigt haben, dass bei der menschlichen akustischen Wahrnehmung der Phase eine
im Vergleich zur Amplitude deutlich untergeordnete Bedeutung zukommt [Gol67].
Der nächste Schritt besteht in der Berechnung der MEL-spektralen Koeffizienten Ym,q
durch eine perzeptuell motivierte Glättung des Kurzzeit-Leistungsspektrums gemäß
Ym,q:=
K(o)
q
∑
k=K(u)
q
|Y(m,k)|2Λq(k).(2.4)
Dabei werden überlappende Dreieckfilter Λq(k),q∈ {0,...,Q−1}eingesetzt, deren Zen-
tren auf der gehörorientierten Frequenzskala, der sogenannten MEL-Frequenzskala [Kut04],
äquidistant angeordnet sind. Die Abbildung zwischen tatsächlicher und wahrgenommener
Frequenz verläuft bis etwa 1000 Hz näherungsweise linear und oberhalb von 1000 Hz nähe-
rungsweise logarithmisch. Die Operation, Leistungen benachbarten Frequenzbins gewichtet
zusammenzufassen, ist der Eigenschaft des menschlichen Gehörs nachempfunden, die Laut-
stärke über Frequenzgruppen, sogenannte kritische Bänder [Gre61], gemittelt wahrzuneh-
men. Die Breite des q-ten Dreickfilters ergibt sich dabei jeweils aus der Differenz der oberen
und unteren Grenzen K(o)
qund K(u)
q.
Im Anschluss daran erfolgt eine Kompression des MEL-Spektrums durch die Anwen-
dung des natürlichen Logarithmus zur Berechnung der log-MEL-spektralen Koeffizienten
(LMSKs)
y(s)
m,q:=lnYm,q.(2.5)
Sie ist motiviert durch die Beobachtung, dass die sogenannte Lautheit, welche das Lautstär-
keempfinden des Menschen widerspiegelt, sich näherungsweise logarithmisch zur tatsächli-
chen Schallintensität verhält. Dabei wird jedoch nicht berücksichtigt, dass das menschliche
Lautstärkeempfinden frequenzabhängig ist [Kut04].
Grundlagen zur automatischen Spracherkennung
9
Als Folge des Überlapps der MEL-Bänder sind die LMSKs miteinander korreliert, wo-
bei die entsprechende Kovarianzmatrix approximativ eine TOEPLITZ-Strukur aufweist. Mit
Hilfe einer diskreten Kosinustransformation (engl. Discrete Cosine Transform (DCT)) wird
deshalb eine näherungsweise Dekorrelation durchgeführt, woraus die MFCCs
y(c)
m,
κ
′:=
Q−1
∑
q=0
y(s)
m,q·cos
κ
′
π
Qq+1
2 (2.6)
resultieren, wobei
κ
′den Index und K′die Anzahl der cepstralen Komponenten angibt. Ge-
mäß dem sogenannten Quelle-Filter-Modell lässt sich die Erzeugung eines Sprachsignals
vereinfacht durch eine Faltung eines Anregungssignals mit der Impulsantwort des mensch-
lichen Vokaltraktes beschreiben [RJ93]. Für die Spracherkennung ist jedoch nur die relativ
zum Anregungssignal langsame Änderung des Vokaltraktes interessant, da diese den geform-
ten Laut bestimmt. Deshalb werden nur MFCCs niederer Ordnung verwendet, was in einem
kleinen Wert für K′zum Ausdruck kommt.
Bei den MFCCs handelt es sich um sogenannte statische Merkmale, da jeder cepstra-
le Koeffizient nur Auskunft über einen sehr kurzen Zeitausschnitt liefert. Die Information
über einen gesprochenen Laut ist jedoch auch in der zeitlichen Änderung dieser Koeffizi-
enten enthalten. Eine sinnvolle Ergänzung der MFCCs liefern die in [Fur81] eingeführten
dynamischen Merkmale erster und zweiter Ordnung, die sogenannten DELTA- und DELTA-
DELTA-Merkmale
∆y(c)
m,
κ
′:=
I1
∑
i=1
iy(c)
m+i,
κ
′−y(c)
m−i,
κ
′
2I1
∑
i=1
i2
(2.7)
∆∆y(c)
m,
κ
′:=
I2
∑
i=1
i∆y(c)
m+i,
κ
′−∆y(c)
m−i,
κ
′
2I2
∑
i=1
i2
.(2.8)
Sie stellen eine Approximation der ersten sowie zweiten Ableitung der cepstralen Merk-
male nach der Zeit dar, welche durch den Segmentindex mrepräsentiert wird. Die beiden
Konstanten I1und I2bestimmen dabei die Größe des Zeitfensters zur Berechnung der appro-
ximativen Ableitungen. Die Hinzunahme dieser Merkmale verbessert die Erkennungsrate
von Systemen zur automatischen Spracherkennung beträchtlich, was zum Teil darauf zu-
rückzuführen ist, dass dadurch dem Erkenner für jeden Zeitausschnitt zusätzliche zeitliche
Kontextinformation zur Verfügung gestellt wird.
Alle statischen und dynamischen Merkmale werden schließlich zu einem Merkmalsvektor
ym:=y(c)
m,0,...,y(c)
m,K′−1,∆y(c)
m,0,...,∆y(c)
m,K′−1,∆∆y(c)
m,0,...,∆∆y(c)
m,K′−1T(2.9)
zusammengefasst, mit Hilfe dessen die Wortsuche im Erkenner durchgeführt wird.
Abschließend sind in Tab. 2.1 die Werte der zur Merkmalsextraktion verwendeten Para-
meter aufgeführt.
10
Grundlagen zur automatischen Spracherkennung
Tabelle 2.1.: Zur Merkmalsextraktion verwendete Parameter orientierend am ETSI-Standard [ETSb].
Segment-
länge Segment-
vorschub Anzahl der
Frequenzbins Anzahl der
MEL-Bänder Anzahl der
cepstr. Koeff. Einseitige Fensterlängen
für dyn. Merkmale
LwB K Q K′I1I2
200 80 256 23 13 4 2
2.2. Decodierung
Die Decodierung ordnet einer endlichen Merkmalsvektorfolge y1:M:=y1,...,yMbestehend
aus MMerkmalsvektoren eine hypothetische, endliche Wortfolge ˆw1: ˆ
Nw:=ˆw1,..., ˆwˆ
Nwbe-
stehend aus ˆ
NwWörtern zu. Dabei soll zunächst angenommen werden, dass das am Mi-
krophon aufgenommene Sprachsignal unverhallt und ungestört ist. Dieses wird in der hier
verwendeten Notation dadurch ausgedrückt, dass die Merkmalsvektorfolge y1:Mdes gewöh-
lich verhallten und gestörten Mikrophonsignals mit der Merkmalsvektorfolge des sauberen
Sprachsignals, welche mit x1:Mbezeichnet werden soll, gleichgesetzt wird. Es gilt daher
y1:M=x1:M.
Die Bestimmung der Wortfolge ˆw1: ˆ
Nwerfolgt gemäß der BAYES’schen Entscheidungsregel
ˆw1: ˆ
Nw=argmax
Nw,w1:Nw
P˘w1:Nw|˘
x1:M(w1:Nw|x1:M),(2.10)
wobei ˘w1:Nwund ˘
x1:Mdie der Wortfolge w1:Nwund der Merkmalsvektorfolge x1:Mzugrunde
liegenden Zufallsprozesse bezeichnen und P˘w1:Nw|˘
x1:Mdie auf ˘
x1:Mbedingte Wahrscheinlich-
keitsmassefunktion von ˘w1:Nwdarstellt. Im Sinne einer verbesserten Lesbarkeit werden im
Folgenden die Subskripte von Wahrscheinlichkeitsmasse- und Verteilungsdichtefunktionen
überall dort weggelassen, wo die jeweilige Zufallsvariable oder der jeweilige Zufallsprozess
offensichtlich aus dem Argument der entsprechenden Funktion erkennbar wird. Damit lässt
sich (2.10) verkürzt auch gemäß
ˆw1: ˆ
Nw=argmax
Nw,w1:Nw
P(w1:Nw|x1:M)(2.11)
darstellen. Durch die Anwendung der BAYES’schen Regel für bedingte Wahrscheinlichkeiten
lässt sich (2.11) wie folgt formulieren:
ˆw1: ˆ
Nw=argmax
Nw,w1:Nw
p(x1:M|w1:Nw)P(w1:Nw)
p(x1:M)(2.12)
=argmax
Nw,w1:Nw
p(x1:M|w1:Nw)P(w1:Nw).(2.13)
wobei für die Umformung (2.12) die BAYES’sche Regel für bedingte Wahrscheinlichkeiten
verwendet wurde und in (2.13) schließlich ausgenutzt wurde, dass der Term p(x1:M)für die
Maximierung irrelevant ist.
Man erkennt, dass für die Lösung der Decodieraufgabe die Verteilungsdichtefunktionen
p˘
x1:M|˘w1:Nwund die Wahrscheinlichkeitsmassefunktionen P˘w1:Nwbenötigt werden, welche je-
weils parametrisch durch das akustische Modell und das Sprachmodell beschrieben werden.
In der Praxis wird das Sprachmodell oft mit einer empirisch bestimmten Konstanten
α
(SM)
Grundlagen zur automatischen Spracherkennung
11
skaliert, um dem Sprachmodell gegenüber dem akustischen Modell mehr Gewicht zu verlei-
hen. Dadurch resultiert eine im Vergleich zu (2.13) etwas veränderte Decodiervorschrift
ˆw1: ˆ
Nw=argmax
Nw,w1:Nw
p(x1:M|w1:Nw)P
α
(SM)(w1:Nw).(2.14)
Akustisches Modell
Das akustische Modell nimmt an, dass der beobachteten Merkmalsvektorfolge x1:Meine von
der entsprechenden Wortfolge w1:Nwabhängige, jedoch verborgene Zustandssequenz
γ
1:Mzu-
grunde liegt. Diese wird wiederum als Realisierung eines Zufallsprozesses ˘
γ
1:Mbetrachtet,
um damit Variationen in der Aussprache der Wortfolge Rechnung zu tragen. Mit dem Ge-
setz der totalen Wahrscheinlichkeit kann die Verteilungsdichtefunktion p(x1:M|w1:Nw)dann
gemäß
p(x1:M|w1:Nw) = ∑
{
γ
1:M}
p(x1:M|
γ
1:M,w1:Nw)P(
γ
1:M|w1:Nw)(2.15)
dargestellt werden, wobei die Summation über alle möglichen Zustandssequenzen
γ
1:Mzu
bilden ist. Im Sinne einer handhabbaren Auswertung der Verteilungsdichtefunktion (2.15)
werden anschließend zwei einschneidende Annahmen gemacht.
Zum einen wird der Zufallsprozess ˘
γ
1:Mals eine diskrete, endliche MARKOV-Kette erster
Ordnung [RJ93] modelliert, woraus auch die Bezeichnung HMM für das akustische Modell
resultiert. Gemäß dieser Modellierung hängt die Wahrscheinlichkeit, dass ˘
γ
meinen bestimm-
ten Wert
γ
mannimmt, nur vom Wert
γ
m−1der Zufallsvariable ˘
γ
m−1ab.
Zum anderen wird davon ausgegangen, dass ein Merkmalsvektor xmmit dem Segment-
index mnur vom Zustand
γ
m, jedoch insbesondere nicht von vorhergehenden oder nach-
folgenden Merkmalsvektoren, abhängt. Diese im Englischen unter dem Begriff conditional
independence assumption weit verbreitete Annahme modelliert sämtliche Abhängigkeiten
zwischen den Merkmalsvektoren nur über den Zustandsprozess ˘
γ
1:M. In ihr besteht auch der
größte Schwachpunkt der Modellierung, da mit Hilfe der MARKOV-Kette nur ein relativ be-
grenzter zeitlicher Kontext erfasst wird. Mit der Hinzunahme von in Kap. 2.1 eingeführten
dynamischen Merkmalen wird versucht, diesem Problem teilweise entgegen zu wirken.
Unter den beiden genannten Voraussetzungen lässt sich (2.15) durch
p(x1:M|w1:Nw)≈∑
{
γ
1:M}
M
∏
m=1
p(xm|
γ
m,w1:Nw)P(
γ
m|
γ
m−1,w1:Nw)(2.16)
approximieren. Dabei beschreiben die Wahrscheinlichkeiten P(
γ
m|
γ
m−1,w1:Nw), 1 ≤m≤M,
die auf die Wortfolge w1:Nwbedingten Zustandsübergänge. Entsprechende Wahrscheinlich-
keiten basieren auf dem Konzept, dass zunächst abhängig von der Größe des Lexikons
einzelne HMMs für Wörter oder Wortuntereinheiten aufgestellt und anschließend sinnvoll
konkateniert werden. Als Wortuntereinheiten werden meist die sogenannten Triphone ver-
wendet. Darunter versteht man kontextabhängige Phoneme, welche von ihrem Vorgänger-
und Nachfolgephonem bestimmt werden. Die zustandsbedingten Verteilungsdichtefunktio-
nen p(xm|
γ
m,w1:Nw), 1 ≤m≤M, die auch als Emissionsverteilungsdichtefunktionen be-
zeichnet werden, werden in der Regel durch GAUSS-Mischungsmodelle (engl. GAUSSIAN
Mixture Models (GMMs)) beschrieben.
12
Grundlagen zur automatischen Spracherkennung
Die Parameter des akustischen Modells werden mit Hilfe von Trainingsdaten, welche aus
gesprochenen Äußerungen in Form von akustischen Signalen sowie deren Transkription be-
stehen, mit dem Expectation Maximization (EM)-Algorithmus [RJ93] geschätzt. Man spricht
dabei auch von überwachtem Training, da die Transkription bekannt ist.
Sprachmodell
Das Sprachmodell ist typischerweise ein N(SM)-Gram, was bedeutet, dass die Auftrittswahr-
scheinlichkeit eines Wortes nur von den N(SM)−1 vorhergehenden Wörtern abhängt. Die
Wahrscheinlichkeit für das Auftreten einer bestimmten Wortfolge w1:Nwlässt sich damit
durch
P(w1:Nw)≈
Nw
∏
ν
=1
Pw
ν
|w
ν
−N(SM):
ν
−1(2.17)
annähern. Die zur Auswertung des rechten Terms benötigten bedingten Wortwahrschein-
lichkeiten Pw
ν
|w
ν
−N(SM):
ν
−1werden in der Trainingsphase unter Verwendung von reinen
Textdatenbanken geschätzt, indem jeweils die relative Häufigkeit des Auftretens des Wortes
w
ν
nach der Wortfolge w
ν
−N(SM):
ν
−1bestimmt wird.
Als Ergebnis der durch das akustische und das Sprachmodell eingeführten Approximatio-
nen (2.16) und (2.17) erfolgt die Decodierung nach der vereinfachten Regel
ˆw1: ˆ
Nw=argmax
Nw,w1:Nw
∑
{
γ
1:M}
M
∏
m=1
p(xm|
γ
m,w1:Nw)P(
γ
m|
γ
m−1,w1:Nw)
Nw
∏
ν
=1
Pw
ν
|w
ν
−N(SM):
ν
−1.
(2.18)
Mit einer weiteren Vereinfachung, bei der die Summation durch die Maximumbildung über
alle möglichen Zustandssequenzen ersetzt wird, lässt sich die Maximierungsaufgabe sehr
effizient mit dem VITERBI-Algorithmus [RJ93] lösen. Eine zusätzliche Operation, bei der
sehr viele Rechenoperationen eingespart werden können, ist das frühzeitige Verwerfen (engl.
pruning) bestimmter Wort- bzw. Zustandskombinationen, falls diese zu unwahrscheinlich
werden. Damit kann eine erhebliche Einschränkung des Suchraums erreicht werden, wobei
zu berücksichtigen ist, dass das Ergebnis dann im Allgemeinen nur suboptimal ist.
2.3. Spracherkennung in halligen Umgebungen
Bedingt durch den vergrößerten Abstand des Sprechers zum Mikrophon bei der Verwendung
einer Freisprecheinrichtung muss das Sprachsignal in Form von Schallwellen einen größe-
ren direkten Weg von der Quelle zur Senke zurücklegen, so dass es einerseits eine Dämpfung
durch die Energieabsorption durch das Medium erfährt. Andererseits gelangt das Signal nicht
nur über den direkten Pfad vom Sprecher zum Mikrophon, sondern auch über Umwege, wel-
che sich aus Reflexionen der Schallwellen an Oberflächen von Wänden oder Gegenständen
ergeben. Die daraus resultierenden verzögerten und gedämpften Versionen des Sprachsignals
überlagern das eigentliche Sprachsignal und werden als Nachhall wahrgenommen [Kut04,
Kap. 4]. Zusätzlich beinhaltet das Mikrophonsignal in der Regel Hintergrundstörungen, wel-
che zum Teil auch aus der Sprache konkurrierender Sprecher bestehen können.
Grundlagen zur automatischen Spracherkennung
13
Das Mikrophonsignal lässt sich vereinfacht gemäß
y(l) = s(l)+n(l)(2.19)
darstellen, wobei n(l)das Störsignal und s(l)das verhallte Sprachsignal bezeichnet. Das
letztere kann vereinfacht durch eine Faltung des sauberen Sprachsignals x(l)mit einer soge-
nannten Raumimpulsantwort (RIA) h(l)gemäß
s(l) = (x∗h)(l)(2.20)
beschrieben werden, wobei die RIA das Übertragungsverhalten der Umgebung vom Spre-
cher zum Mikrophon charakterisiert. Die Vereinfachung bei dieser Darstellung besteht in
der Annahme einer zeitinvarianten RIA, welche in der Regel nicht gerechtfertigt ist wie aus
den folgenden Ausführungen deutlich wird.
Eine beispielhafte RIA, welche in einem großen Büro gemessen wurde, ist in Abb. 2.3
dargestellt. Sie lässt sich typischerweise grob in drei Bereiche einteilen, die auf einer geo-
Zeit l·TA[s]
h(l)
0
0
−0,2
−0,4
−0,6
0,05 0,1 0,15
0,2
0,2 0,25 0,3 0,35
0,4
0,4 0,45
Abbildung 2.3.: Beispielhafte Raumimpulsantwort gemessen in einem großen Büro (T60 ≈0,75s,
DRR ≈0dB).
metrischen Interpretation beruhen [Kut04, Kap. 4]. Der erste ist durch den direkten Anteil
gegeben, der sich in dem ersten verzögerten Impuls mit einer verhältnismäßig großen Am-
plitude äußert. Der zweite Bereich besteht aus einigen sporadisch auftretenden und stärker
gedämpften Impulsen, welche von signifikanten frühen Reflexionen herrühren. Die unter-
schiedlichen Vorzeichen der einzelnen Impulse entstehen durch Phasensprünge, welche bei
Reflexionen stattfinden. Die temporale Dichte der Impulse vergrößert sich quadratisch mit
der Zeit, so dass sich diese nach einiger Zeit zwangsläufig überlagern und die Anzahl der
gleichzeitig überlagerten Impulse im Mittel weiter zunimmt. So ist der dritte Bereich, der ab
etwa 50 ms nach dem Hauptimpuls beginnt, durch scheinbar zufällig auftretende, aufeinan-
derfolgende Impulse gekennzeichnet, die näherungsweise als Stichproben von unabhängigen
GAUSS-verteilten Zufallsvariablen interpretiert werden können. Dabei nimmt die Energie der
späten Reflexionen approximativ exponentiell mit der Zeit ab, was grob, aber anschaulich,
dadurch erklärt werden kann, dass bei jeder stattfindenden Reflexion ein gewisser Anteil der
Energie der Schallwelle absorbiert wird. Das Abklingverhalten der Energie lässt sich mit
14
Grundlagen zur automatischen Spracherkennung
Hilfe der sogenannten Energieabfallkurve (engl. Energy Decay Curve (EDC)) beschreiben,
die durch eine normierte Rückwärtsintegration der quadratischen Raumimpulsantwort wie
folgt berechnet werden kann:
EDCh(l):=
∞
∑
p′=l
h2(p′)
∞
∑
p′=0
h2(p′)
.(2.21)
Abbildung 2.4 zeigt die zur RIA in Abb. 2.3 gehörige EDC in einer logarithmischen Dar-
stellung. Erwartungsgemäß lässt sich eine affine Zeitabhängigkeit für den Bereich der späten
Zeit l TA[s]
10 ·log10EDCh(l)
−20
−40
−60
−80
0
00,1 0,2 0,3 0,4
Abbildung 2.4.: Energieabfallkurve (in einer logarithmischen Darstellung) zur Raumimpulsantwort
in Abb. 2.3.
Reflexionen beobachten.
Eine wesentliche Größe zur Charakterisierung von Räumen bzw. RIAs ist die sogenannte
Nachhallzeit T60. Sie ist definiert als diejenige Zeit, welche benötigt wird, damit die Energie
des (eigentlich späten) Nachhalls um 60 dB gegenüber dem initialen Wert abklingt [Kut04,
Kap. 5]. Sie lässt sich gemäß [Sch65] aus der Steigung der logarithmierten EDC bestimmen.
Bemerkenswert ist weiterhin die Tatsache, dass die Energie der frühen Reflexionen ebenfalls
exponentiell abklingt, jedoch manchmal mit einer anderen Abklingkonstanten. Dies führt da-
zu, dass der Verlauf der logarithmierten EDC nicht mehr affin, sondern nur noch stückweise
affin ist [Sch65].
Weiterhin ist zu beachten, dass sich das Abklingverhalten der Energie im Allgemeinen
frequenzabhängig ist. Diese Eigenschaft ist bedingt durch die Tatsache, dass Materialen die
Energie von Schallwellen unterschiedlicher Frequenzen unterschiedlich stark absorbieren. In
der Regel werden hochfrequente Anteile von Materialen stärker gedämpft als tieffrequente,
so dass die Energie der tieffrequenten Anteile langsamer abklingt. Dieses Phänomen wird
bei der Bestimmung der Nachhallzeit aus der EDC nach dem zuvor beschriebenen Prinzip
nicht berücksichtigt.
Während die Nachhallzeit sehr grob die Eigenschaft eines Raumes beschreibt, liefert sie
keine Auskunft über die Konfiguration des Sprechers und des Mikrophons innerhalb des
Raumes. Eine Möglichkeit einer qualitativen Charakterisierung des Abstandes beider bietet
das Verhältnis zwischen der Energie des direkten Schallanteils und der Energie des Nachhalls
Grundlagen zur automatischen Spracherkennung
15
einschließlich der frühen Reflexionen (engl. Direct-to-Reverberant Ratio (DRR)) , welches
durch
DRR :=10log10
lD
∑
l=0
h2(l)
∞
∑
l=lD+1
h2(l)
[dB](2.22)
definiert ist [Hab07]. Dabei wird angenommen, dass der Zeitindex lDjenem Zeitpunkt ent-
spricht, an dem der Hauptimpuls auftritt. Bei gemessenen RIAs ist die präzise Bestimmung
des Hauptimpulses meist nicht möglich, so dass der Wert von lD·TAoft so gewählt wird,
dass er 8 –16 ms größer als die Ankunftszeit des direkten Schalls ist. Dabei wird in dieser
Arbeit stets von 10 ms ausgegangen, falls Werte des DRR angegeben werden.
Neben dem DRR gibt es zahlreiche weitere Maße wie z. B. das Klarheitsmaß C50 bzw. C80,
welche zur Beschreibung der Auswirkungen der RIA auf die Verständlichkeit von Sprache
bzw. die Durchsichtigkeit von Musik für den Menschen verwendet werden können. Eine
ausführliche Übersicht über in der Literatur auftretende subjektive und objektive Maße zur
Bestimmung des Einflusses des Nachhalls findet sich beispielsweise in [Ric09, Kap. 4.4].
Auf eine detaillierte Darstellung dieser Maße wird hier verzichtet, da die Auswirkungen des
Nachhalls auf die Spracherkennung im Vordergrund stehen und mit den beiden Größen T60
und DRR bereits eine in diesem Zusammenhang vernünftige und in der Literatur übliche
qualitative Beschreibung der RIA gegeben ist.
Typischerweise ist die RIA in hohem Maße zeitvariant, was unter anderem auf Bewe-
gungen des Sprechers sowie bereits geringe Änderungen der Temperatur und Feuchtigkeit
innerhalb des Raumes zurückgeführt werden kann. Diese Änderungen betreffen jedoch in
der Regel den Direktanteil, die frühen Reflexionen sowie im Allgemeinen die feine Struktur
der RIA. Hingegen wird die grobe Charakteristik, mit der hier die Einhüllende des späten
Nachhalls sowie die Nachhallzeit T60 gemeint ist, dadurch kaum beeinflusst.
Die Auswirkungen des Nachhalls auf das Sprachsignal x(l)sind zweierlei. Während die
frühen Reflexionen zu einer sogenannten Färbung (engl. coloration) des Kurzzeit-Spektrums
führen [Kut04], bewirkt der späte Nachhall im Wesentlichen eine zeitliche Dispersion des
Sprachsignals, die sich entsprechend in der Trajektorie der log-MEL-spektralen Merkma-
le wiederfinden lässt. Dieser Effekt wird beispielhaft in Abb. 2.5, die die Trajektorien der
log-MEL-spektralen Merkmale einer sauberen und verhallten Version eines Sprachsignals
zeigt, veranschaulicht. Die zugehörige Sprachäußerung wurde der AURORA5-Datenbank
entnommen und entspricht der in amerikanischem Englisch ausgesprochenen Ziffernkette
“one,one,six,eight,five,two,two”. Zur Verhallung wurde die konstante RIA aus Abb. 2.3
verwendet. Bei dem Vergleich der Trajektorien fällt zum Beispiel auf, dass der Glottalschlag
(engl. glottal stop) bei der Aussprache der Ziffer “six” bei etwa 1,2 s, der in Abb. 2.5a sehr
deutlich zu erkennen ist, in Abb. 2.5b vollkommen durch den Nachhall verdeckt ist.
Die durch den Nachhall verursachte zeitliche Dispersion innerhalb der Trajektorie der log-
MEL-spektralen Merkmale des Sprachsignals führt offensichtlich zu einer Änderung ihrer
statistischen Eigenschaften, damit zu einer Diskrepanz zwischen den Trainings- und Testbe-
dingungen und letztendlich zu einer Erhöhung der Wortfehlerrate des Spracherkenners. Zu-
sätzlich werden die statistischen Eigenschaften der Merkmale durch Hintergrundstörungen
beeinflusst, was jedoch in einer grundsätzlich unterschiedlichen Art geschieht. Denn wäh-
rend für Hintergrundstörungen oft die Annahme gerechtfertigt ist, dass sie keine Korrelation
16
Grundlagen zur automatischen Spracherkennung
zum Sprachsignal aufweisen, besteht zwischen dem Nachhall und dem sauberen Sprachsi-
gnal eine starke Korrelation. Aufgrund dessen bewirkt der Nachhall eine stärkere Verletzung
der Annahme über die gegenseitige bedingte Unabhängigkeit von zeitlich aufeinanderfol-
genden Merkmalsvektoren (siehe Kap. 2.2). Vergleicht man folglich die Leistungsfähigkeit
von HMM-basierten Spracherkennern unter Trainings- und Testbedingungen, welche auf der
Verwendung von sauberen Sprachsignalen einerseits und verhallten Sprachsignalen anderer-
seits basieren, so wird diese in der Regel im zweiten Fall schlechter ausfallen.
Index des MEL-Bandes q
Zeit m·B·TA[s]
oneone twotwo two
five
six eight
5
5
10
10
15
15
20
20
0,51,01,52,02,5
(a) Trajektorie der log-MEL-spektralen Merkmale x(s)
m,qdes sauberen Sprachsignals samt der
entsprechenden Transkription
Index des MEL-Bandes q
Zeit m·B·TA[s]
5
5
10
10
15
15
20
20
0,51,01,52,02,5
(b) Trajektorie der log-MEL-spektralen Merkmale s(s)
m,qdes verhallten Sprachsignals
Abbildung 2.5.: Trajektorien der log-MEL-spektralen Merkmale einer sauberen und verhallten Versi-
on eines beispielhaften Sprachsignals zugehörig zu der Ziffernkettenäußerung “one,
one, six, eight, five, two, two”. Zur künstlichen Verhallung wurde die RIA aus Abb. 2.3
verwendet.
3. Stand der Forschung
Die in der Literatur bisher existenten Verfahren zur hall- und störrobusten Spracherkennung
lassen sich grob in drei Kategorien unterteilen. Diese unterscheiden sich dadurch, dass sie
jeweils an einer anderen Stelle innerhalb eines Spracherkennungssystems zum Einsatz kom-
men. Während die signalbasierten Verfahren bestrebt sind, das Sprachsignal bereits vor der
Merkmalsextraktion zu enthallen und zu entstören, besteht das Ziel der merkmalsbasierten
Verfahren in einer robusten Extraktion der akustischen Merkmale. Dazu gehört auch eine
sinnvolle Manipulation bereits extrahierter Merkmale im Hinblick auf deren Enthallung und
Entstörung. Die dritte Kategorie besteht aus den Methoden zur Anpassung des akustischen
Modells oder des Decoders an den Nachhall oder die Hintergrundstörung. Im Folgenden
werden die drei Kategorien detailliert vorgestellt. Dabei beschränkt sich der Überblick fast
ausschließlich auf die Verfahren, die im Zusammenhang mit der Robustheit gegenüber dem
Nachhall stehen, da dieses Thema den Schwerpunkt der Arbeit darstellt.
3.1. Verfahren zur Enthallung des akustischen Signals
Das Hauptaugenmerk der signalbasierten Verfahren liegt auf der Rekonstruktion des saube-
ren Sprachsignals aus dem verhallten und gestörten Sprachsignal. Im Hinblick auf eine hall-
und störrobuste Spracherkennung lässt sich das mit derartigen Methoden rekonstruierte Si-
gnal anschließend einer Merkmalsextraktion unterziehen. Dabei sei betont, dass die Sprach-
erkennung nicht die einzige Anwendung für die signalbasierte Enthallung und -entstörung
darstellt. So steht zum Beispiel für viele solcher Verfahren die Verbesserung der Sprachver-
ständlichkeit für den Menschen im Vordergrund. Da die signalbasierten Verfahren nicht den
Fokus dieser Dissertation bilden, wird an dieser Stelle nur ein sehr kurzer Überblick über
diese gegeben, der keinen Anspruch auf Vollständigkeit erhebt. Für weitere Details sei der
Leser auf die ausführlicheren Übersichten in [Hab07, Kap.3] und [HBC08] verwiesen.
Grundsätzlich lassen sich die signalbasierten Verfahren danach unterscheiden, ob ihr Ziel
darin besteht, den Nachhall vollständig zu entfernen oder aber nur zu unterdrücken. Wei-
terhin unterscheidet man zwischen ein- oder mehrkanaligen Methoden sowie dem Grad des
verwendeten A-priori-Wissens über das Sprachsignal oder die Umgebung, in der das Sprach-
signal aufgenommen wird [Hab07, Kap.3].
3.1.1. Verfahren zur Entfernung des Nachhalls
Einige der Verfahren zur Entfernung des Nachhalls verfolgen die Idee, einen Entzerrer auf
das verhallte Sprachsignal anzuwenden, welcher den Effekt der Faltung mit der RIA rück-
gängig macht. Da die RIA in gewöhnlichen Anwendungen unbekannt ist, muss diese zu-
17
18
Stand der Forschung
nächst aus dem verhallten Sprachsignal geschätzt werden. Ein wesentliches Problem dieses
Ansatzes ist die Tatsache, dass die exakte Inversion der RIA im Allgemeinen nicht möglich
ist. Denn dazu ist erforderlich, dass die zeitdiskrete RIA minimalphasig ist, was bedeutet,
dass die Nullstellen ihrer z-Transformierten innerhalb des Einheitskreises in der komplexen
Ebene liegen. Dieses trifft jedoch für typische Räume wie Büros und Wohnzimmer gewöhn-
lich nicht zu [NA79], so dass theoretisch nur eine approximative Inversion der RIA gelingen
kann. Außerdem liegen die Nullstellen der z-Transformierten der RIA oft nahe dem Einheits-
kreis, so dass Stabilitätsprobleme bedingt durch die Approximationen bei der numerischen
Umsetzung der Inversion auftreten können. Insbesondere weist das inverse Filter eine hohe
Sensibilität gegenüber kleinen Änderungen der RIA auf [Mou85, RWK00, TW02], welche
sowohl durch die Zeitvarianz der RIA bedingt durch beispielsweise geringe Bewegungen des
Sprechers als auch durch Fehlschätzungen der RIA verursacht werden können.
Unter der Voraussetzung, dass mehrere Mikrophone für die Aufnahme der akustischen Si-
gnale zur Verfügung stehen, konnte in [MK88] gezeigt werden, dass trotz der fehlenden Mi-
nimalphasigkeit der RIAs deren exakte Inversion unter relativ milden Bedingungen möglich
ist. Diese Aussage bildet den Kern des sogenannten Multiple Input/Output INverse Theorem
(MINT). Eine notwendige Bedingung besteht zum Beispiel darin, dass die z-Transformierten
der zeitdiskreten RIAs vom Sprecher zu sämtlichen Mikrophonen keine gemeinsamen Null-
stellen besitzen dürfen [MK88].
Für die Schätzung der RIA lassen sich eigenraumbasierte Verfahren nutzen, welche meh-
rere Mikrophone erfordern [GN95, GM03, Gan08, Gan10]. Dabei wird die RIA aus dem
Nullraum einer aus den Abtastwerten aller Mikrophonsignale konstruierten Korrelationsma-
trix extrahiert. Die Schätzung der RIA wird dabei insbesondere durch ihre Zeitvarianz sowie
die Präsenz von Hintergrundstörungen erschwert. Um den Einfluss der Fehler in der ge-
schätzten RIA auf die Bestimmung des inversen Filters zu reduzieren, wurde in [HDM06]
eine Regularisierung vorgeschlagen. Obwohl dadurch die Sensitivität gegenüber Schätzfeh-
lern reduziert wird, ist die erzielte Entzerrung nur suboptimal.
Eine weitere Möglichkeit zur Entfernung des Nachhalls unter der Voraussetzung der Prä-
senz mehrerer Mikrophonsignale besteht in der direkten Entfaltung des verhallten Sprachsi-
gnals, welche ohne die explizite Schätzung der RIA auskommt [TS05, DHM07, NYK+08].
Es basiert auf der Anwendung von linearer Prädiktion (engl. Linear Prediction (LP)) zur
blinden Entzerrung. Ein unerwünschter Effekt des Entzerrers ist die gleichzeitige Entzerrung
bezüglich der zeitvarianten Übertragungsfunktion des Vokaltraktes, welche für die Lautfor-
mung gemäß dem Quelle-Filter-Modell der Sprachsignalerzeugung [RJ93, Kap. 3.3] wesent-
lich ist. Zur Kompensation dieses Effektes muss die Übertragungsfunktion des Vokaltraktes
mit geschätzt werden, so dass ein entsprechendes inverses Filter bestimmt werden kann.
Um die im Vergleich zur RIA relativ kurze Impulsantwort des Vokaltraktes bei der linearen
Prädiktion außer Acht zu lassen, können alternativ Verfahren wie die mehrstufige lineare
Prädiktion (engl. Multi-Step Linear Prediction (MSLP)) [GD97, KDNM09] verwendet wer-
den. Dabei wird ein Abtastwert nicht durch seine direkten Vorgänger vorhergesagt, sondern
durch einige weiter zurückliegende, aufeinander folgende Abtastwerte. Dadurch werden also
nur durch den späten Nachhall eingeführten Korrelationen im Sprachsignal berücksichtigt.
Stand der Forschung
19
3.1.2. Verfahren zur Unterdrückung des Nachhalls
In Abgrenzung zu den eben erläuterten Verfahren zur vollständigen Entfernung des Nach-
halls existieren in der Literatur zahlreiche Ansätze zur Unterdrückung des Nachhalls. Dazu
gehört beispielsweise die Unterdrückung des späten Nachhalls mit Hilfe von spektraler Sub-
traktion [LBD01, Hab04, PS06], wobei die Verbesserung der Sprachverständlichkeit das pri-
märe Ziel darstellt. Dabei wird davon ausgegangen, dass die späten Reflexionen unkorreliert
zum direkten Anteil samt den frühen Reflexionen sind. Mit dieser Argumentation kann der
späte Nachhall als zum gewünschten Sprachsignal unkorrelierte, additive Störung aufgefasst
werden, so dass Methoden zur Störunterdrückung basierend auf der spektralen Subtraktion
angewendet werden können. Die Herausforderung bei solchen Methoden stellt die akkura-
te Schätzung des Kurzzeit-Leistungsdichtespektrums des späten Nachhalls dar, für welche
ein statistisches Modell der RIA herangezogen wird, das die Nachhallzeit T60 als einzigen
Parameter besitzt. Es ist bei diesem Verfahren ebenfalls möglich, frequenzabhängige Nach-
hallzeiten zur genaueren Modellierung des Absorptionseigenschaften der Oberflächen von
umgebenden Wänden und Objekten zu berücksichtigen [Hab04].
Alternative Ansätze zur Unterdrückung des Nachhalls basieren auf der Anwendung der
Modulationstheorie auf Sprachsignale. Beispielsweise wird in [HNKT00, UFSA03] ein sau-
beres Sprachsignal als Produkt eines weißen GAUSS’schen Zufallsprozesses und einer Ein-
hüllenden modelliert. Eine ähnliche Modellierung wird für die RIA vorgenommen, wobei
eine exponentiell abklingenden Einhüllende zugrunde gelegt wird. Aufbauend darauf lässt
sich die Einhüllende eines verhallten Sprachsignals durch die Faltung der Einhüllenden des
sauberen Sprachsignals und der der RIA ausdrücken. Diese Operation führt zu einer Verrin-
gerung der Modulationstiefe, deren Ausmaß mit Hilfe einer im Englischen als Modulation
Transfer Function (MTF) bezeichneten Übertragungsfunktion charakterisiert werden kann
[HS85]. Die Verringerung der Modulationstiefe insbesondere im Bereich der Modulations-
frequenzen zwischen etwa 0,5Hz und 20Hz geht dabei mit der Verschlechterung der Sprach-
verständlichkeit einher [HS85]. Zur Rekonstruktion der Einhüllenden des sauberen Sprach-
signals muss folglich eine inverse Filterung der Einhüllenden des verhallten Sprachsignals
durchgeführt werden. Es existieren dabei auch Methoden, welche das Sprachsignal inner-
halb einzelner kritischer Bänder als amplitudenmoduliertes Signal auffassen und dement-
sprechend eine Verbesserung von bandspezifischen Einhüllenden vornehmen [LS82, MH83].
In Abgrenzung dazu gibt es Verfahren, die die Enthallung durch eine Verbesserung des
Residuums, welches bei der Vorhersage eines Sprachsignals durch lineare Prädiktion ent-
steht, realisieren. Dabei wird das sogenannte LP-Residuum, was aus einer LPC-Analyse
von kurzen Segmenten des Sprachsignals resultiert, zunächst geeignet modifiziert, um dar-
aus anschließend das verbesserte Sprachsignal zu resynthetisieren. Grundsätzlich repräsen-
tiert das LP-Residuum gemäß dem Quelle-Filter-Modell der Sprachsignalerzeugung [RJ93,
Kap. 3.3] das Anregungssignal, welches durch den Vokaltrakt geformt wird. Daher wer-
den innerhalb von Bereichen, die stimmhaften Lauten entsprechen, Glottalschläge im LP-
Residuum als abschnittsweise periodisch auftretende Spitzen sichtbar. Durch den Einfluss
des Nachhalls werden diese über die Zeit verschmiert. Unter der wesentlichen Annahme,
dass die LPC-Koeffizienten durch den Nachhall nicht verändert werden, geschieht beispiels-
weise in [YM00] die Modifikation des LP-Residuums derart, dass versucht wird, die dem
direkten Anteil entsprechenden Spitzen zu verstärken. Ein ähnlich motivierter Ansatz wird
in [GMF01] verfolgt. Das Ausmaß der Verschmierung der Spitzen im LP-Residuum hängt
20
Stand der Forschung
direkt mit der Intensität des Nachhalls zusammen. Dabei verringert sich mit zunehmender In-
tensität des Nachhalls die Kurtosis des LP-Residuums. Ausgehend davon wird in [GMF01]
versucht, eine adaptive Filterung des LP-Residuums derart durchzuführen, dass die Kurtosis
des gefilterten Signals maximiert wird.
Die Annahme, dass die LPC-Koeffizienten durch den Nachhall nicht verändert werden,
trifft jedoch im Allgemeinen nicht zu. Eine solche Aussage ist nämlich nur gültig für den
Erwartungswert der LPC-Koeffizienten bezüglich aller räumlichen Positionen des Sprechers
und des Mikrophons, nicht jedoch für eine feste Anordnung beider. Dieses konnte mit der
Verwendung der statistischen Raumakustik [Kut00] in [GNW03] gezeigt werden. Als Fol-
ge dessen wird zur genaueren Bestimmung der LPC-Koeffizienten in [GNW03, GRTN10]
vorgeschlagen, mehrere Mikrophone zur Aufnahme des Sprachsignals zu verwenden, um
anschließend die auf jedem einzelnen Signal bestimmten LPC-Koeffizienten zu mitteln.
Sehr ähnlich dazu sind Verfahren, welche A-priori-Information über die Sprache in Form
ihrer harmonischen Struktur ausnutzen [NM03, KNM05, NJKM05, NMK05, NKM07]. Da-
bei werden Schätzungen der Stimmbandgrundfrequenz sowie der harmonischen Struktur des
Sprachsignals dazu verwendet, den direkten Anteil des verhallten Sprachsignals zu rekon-
struieren. Auch diese Methoden nehmen an, dass sich die Stimmbandgrundfrequenz durch
den Einfluss des Nachhalls nicht verändert und sich deshalb robust aus einem verhallten
Sprachsignal schätzen lässt.
Eine gänzlich anderes Prinzip liegt der akustischen Strahlformung zugrunde, welches ein
mehrkanaliges Verfahren darstellt [FJZE85]. Dabei wird die Sensitivität einer Mikrophon-
gruppe bezüglich der Sprecherrichtung erhöht, indem ein Sensitivitätsstrahl in diese Rich-
tung ausgebildet wird. Das hat zur Folge, dass Reflexionen des Quellsprachsignals, welche
aus anderen als der Sprecherrichtung auf das Mikrophon einfallen, unterdrückt werden, wo-
durch ein gewisser Enthallungseffekt auftritt. Zusätzlich werden dadurch auch Hintergrund-
störungen gedämpft. Eine Schwierigkeit im Zusammenhang mit diesem Verfahren ist die
robuste automatische Bestimmung der Sprecherrichtung.
Weiterhin existieren Verfahren, welche die Enthallung mit Hilfe von homomorphischer
Entfaltung [SCI75, SPW96] durchführen. Sie sind vom Ansatz her sehr ähnlich zur später in
Kap. 3.2.1 vorgestellten Mittelwertsubtraktion und werden daher hier nicht weiter beschrie-
ben.
Abschließend sei noch erwähnt, dass im Prinzip unterschiedliche Kombinationen von An-
sätzen vorstellbar sind. So wird zum Beispiel in [KNM06] die Energie des späten Nachhalls
mit Hilfe der mehrstufigen linearen Prädiktion geschätzt, um den späten Nachhall durch die
Anwendung von spektraler Subtraktion zu unterdrücken. Außerdem können Verfahren zur
Enthallung mit Verfahren zur Entstörung wie in [YNM09] verknüpft werden.
3.2. Verfahren zur Extraktion hallrobuster Merkmale
Zu dieser Kategorie gehören Verfahren, welche das Ziel verfolgen, die Merkmalsextraktion
derart zu gestalten, dass diese insensitiv gegenüber dem Einfluss von Nachhall und Hinter-
grundstörungen ist. Darunter befinden sich unter anderem zahlreiche Normierungsansätze
sowie auch Methoden, welche sich an der menschlichen Wahrnehmung orientieren. Da das
in dieser Dissertation vorgestellte Verfahren ebenfalls in diese Kategorie fällt, wird im Fol-
genden ein sehr detaillierter Überblick über die merkmalsbasierten Ansätze gegeben.
Stand der Forschung
21
3.2.1. Normierungsverfahren
Den Normierungsverfahren liegt die Motivation zugrunde, die langzeitigen statistischen Ei-
genschaften der akustischen Merkmale zu betrachten. Sie gehen von der Feststellung aus,
dass sich diese Eigenschaften in Abhängigkeit der Präsenz von Nachhall und Hintergrundstö-
rungen verändern. Als Folge dessen kann eine statistische Fehlanpassung bei der Beschrei-
bung von verhallten und gestörten Sprachsignalen durch das akustische Modell des Spracher-
kenners auftreten, wenn zuvor das Training unter Verwendung von sauberen Sprachsignalen
erfolgt ist. Zur Behebung dieser Diskrepanz lassen sich daher unterschiedliche Normalisie-
rungsstrategien verfolgen, die sich hauptsächlich in der Ordnung und Anzahl der normierten
Momente unterscheiden. Dazu muss streng genommen vorausgesetzt werden, dass die ent-
sprechenden Momente überhaupt existieren.
Die praktische Durchführung der Normalisierung erfordert in der Regel eine vorhergehen-
de Schätzung der entsprechenden Momente mit Hilfe der beobachteten Merkmale. Um eine
gewisse Genauigkeit dieser Schätzung zu erzielen, muss die Anzahl der dazu herangezoge-
nen Merkmale entsprechend groß sein, wobei sie im Allgemeinen mit der Ordnung des zu
schätzenden Momentes steigt. Da die Normierung erst nach der Schätzung stattfinden kann,
wird dadurch eine gewisse, oft beträchtliche, Zeitverzögerung im Gesamtsystem eingeführt,
worin ein entscheidender Nachteil der Normierungsverfahren liegt. Als Kompromiss las-
sen sich die Momente mit gleitenden Fenstern schätzen, woran jedoch die Genauigkeit der
Schätzung und damit verbunden auch die Effektivität der Normalisierung leidet.
Im Folgenden werden ausgewählte Normierungsverfahren im Detail vorgestellt.
Cepstrale Mittelwertsubtraktion
Der wohl berühmteste Vertreter der Normierungsverfahren ist die sogenannte cepstrale Mit-
telwertsubtraktion (engl. Cepstral Mean Subtraction (CMS)) [RLS94], die auf der folgen-
den Idee basiert. Die zeitdiskrete FOURIER-Transformierte (engl. Discrete-Time FOURIER
Transform (DTFT)) Sej
θ
des verhallten Sprachsignals s(l)lässt sich bekanntlich als Pro-
dukt der DTFT X ej
θ
des sauberen Sprachsignals und der DTFT H ej
θ
der RIA aus-
drücken:
Sej
θ
=Xej
θ
Hej
θ
.(3.1)
In Anlehnung daran lässt sich das Kurzzeit-Spektrum des verhallten Sprachsignals gemäß
S(m,k)≈X(m,k)H(0,k)(3.2)
approximieren, falls die zeitliche Ausdehnung des Analysefensters deutlich größer als die
der RIA ist [AC07a]. Für den natürlichen Logarithmus des Kurzzeit-Leistungsspektrums gilt
dann entsprechend folgende Näherung
ln|S(m,k)|2≈ln|X(m,k)|2+ln|H(0,k)|2.(3.3)
22
Stand der Forschung
Alternativ lässt sich eine Approximation direkt im log-MEL-spektralen Bereich gemäß
s(s)
m,q=ln
K(o)
q
∑
k=K(u)
q
|S(m,k)|2Λq(k)
(3.4)
≈ln
K(o)
q
∑
k=K(u)
q
|X(m,k)|2|H(0,k)|2Λq(k)
(3.5)
≈ln
K(o)
q
∑
k=K(u)
q
|X(m,k)|2Λq(k)
1
K(o)
q−K(u)
q+1
K(o)
q
∑
k=K(u)
q
|H(0,k)|2
(3.6)
=x(s)
m,q+ln
1
K(o)
q−K(u)
q+1
K(o)
q
∑
k=K(u)
q
|H(0,k)|2
(3.7)
angeben, woraus sich unmittelbar ein analoger Ausdruck im Cepstrum gewinnen lässt. Dabei
ist zu berücksichtigen, dass die jeweils letzten Terme in (3.3) und (3.7) segmentunabhängig
sind. Subtrahiert man folglich vom logarithmischen Kurzzeit-Leistungsspektrum oder vom
Cepstrum eines verhallten Sprachsignals seinen Mittelwert, so wird der Einfluss der RIA nä-
herungsweise eliminiert. Da das logarithmische Kurzzeit-Leistungsspektrum und das Cep-
strum gewöhnlich nicht mittelwertfrei sind, muss die Subtraktion ebenfalls bei der Extraktion
der Merkmale für das Training des Spracherkenners stattfinden.
Nun beträgt die Dauer eines Analysefensters zur Merkmalsextraktion in der Regel etwa
25 ms. Hingegen ist die zeitliche Ausdehnung einer typischen Impulsantwort deutlich länger
und liegt im Bereich von einigen Hundert Millisekunden. Daher ist CMS in der oben be-
schriebenen Form nicht dazu in der Lage, den Einfluss von Nachhall auf der Merkmalsebene
zu reduzieren, worin eine wesentliche Schwachstelle dieses Ansatzes besteht. Er eignet sich
viel eher dazu, den bei der Aufnahme der Sprachsignale durch Mikrophone mit unterschied-
lichen Frequenzcharakteristiken entstehenden Auswirkungen zu unterdrücken [RLS94].
Als Abhilfe wurde in [ATH97] vorgeschlagen, deutlich längere Analysefenster der Dauer
von etwa 2 s für die cepstrale Mittelwertsubtraktion zu verwenden. Um die resultierenden
Merkmale für die Spracherkennung nutzen zu können, müssen diese wieder in das gewöhn-
liche Format umgerechnet werden. Damit ist gemeint, dass die für den Erkenner übliche
Zeit-Frequenz-Auflösung wiederhergestellt werden muss. Dazu wird in [Ave97] eine appro-
ximative Transformation des Kurzzeit-Leistungsspektrums hergeleitet, welche dessen zeitli-
che Auflösung zulasten der Frequenzauflösung vergrößert. Anstatt diese sogenannte partiel-
le Synthese vorzunehmen, ist es auch möglich, das akustische Signal nach der Anwendung
von CMS zu resynthetisieren, um anschließend eine gewöhnliche Merkmalsextraktion durch-
zuführen [GM01]. Für diesen als Langzeit-CMS bezeichneten Ansatz wird zur Resynthese
neben dem Kurzzeit-Leistungsspektrum im Grunde noch die Kurzzeit-Phase des sauberen
Sprachsignals benötigt. Da sie jedoch im Allgemeinen unbekannt ist, wird statt dessen die
Kurzzeit-Phase des verhallten Signals verwendet. Mit Hilfe eines derartigen Verfahrens wird
zwischenzeitlich ein enthalltes Sprachsignal berechnet, weshalb es eigentlich zu den signal-
basierten Ansätzen gehört. Es konnte damit eine beachtliche Reduktion der Wortfehlerrate
in Gegenwart von sowohl künstlichem als auch natürlichen Nachhall im Vergleich zur Merk-
malsextraktion gemäß dem ETSI-Standard [ETSb] erzielt werden [GM01]. Da die Mittelung
Stand der Forschung
23
über 21 aufeinander folgende Segmente mit einem Überlapp von 50 % ausgeführt wurde,
entsprach die durch das Verfahren eingeführte zeitliche Verzögerung etwa 11s.
Weiterhin lässt sich Langzeit-CMS beispielsweise mit spektraler Subtraktion kombinie-
ren, um eine gemeinsame Enthallung und Entstörung akustischer Merkmale vorzunehmen
[GM02]. Für die spektrale Subtraktion kann ein zeitlich konstantes Kurzzeit-Leistungsspek-
trum der Hintergrundstörung angenommen werden, welches für die Dauer einer Sprachäuße-
rung gültig ist und mit Hilfe einer Sprachaktivitätsdetektion (engl. Voice Activity Detection
(VAD)) geschätzt wird.
Cepstrale Varianznormierung
Die cepstrale Varianznormierung (engl. Cepstral Variance Normalization (CVN)) wurde be-
dingt durch die historische Entwicklung der Spracherkennung zunächst im Sinne der Kom-
pensation von Hintergrundstörungen eingesetzt [CB07, VL98]. Die ursprüngliche Motiva-
tion für ihre Anwendung lag in der Beobachtung, dass aufgrund der Hintergrundstörungen
energiearme Bereiche des Kurzzeit-Leistungsspektrum ”aufgefüllt“ werden, sodass sich in
letzter Konsequenz die Varianz einzelner cepstraler Merkmale reduziert. Ein ähnlicher Effekt
tritt jedoch bedingt durch den zeitlich dispersiven Effekt des Nachhalls auf, so dass CVN da-
zu in der Lage ist, die Robustheit der Merkmalsextraktion gegenüber Nachhall in gewissem
Maße zu steigern [TTN07].
Histogrammangleichung
Der Grenzfall der Normierung einzelner Merkmalsvektorkomponenten bezüglich aller ih-
rer Momente kann äquivalent als gezielte Angleichung ihrer Verteilungsdichtefunktion an
eine Referenz angesehen werden [dlTPS+05, TTN07]. Dabei wird implizit vorausgesetzt,
dass zeitlich aufeinander folgende Merkmalsvektorkomponenten Realisierungen unabhängi-
ger und identisch verteilter Zufallsvariablen darstellen. Insbesondere folgt aus einer solchen
Voraussetzung, dass die zeitliche Trajektorie einer Merkmalsvektorkomponente als Reali-
sierung eines stationären Prozesses interpretiert werden kann, was im Falle von zugrunde
liegenden Sprachsignalen eigentlich nicht sinnvoll ist.
Die Notwendigkeit einer Angleichung der Verteilungsdichtefunktion erwächst nun basie-
rend auf dieser Annahme dadurch, dass der gemeinsame Effekt von Nachhall und Hinter-
grundstörungen approximativ zu einer nichtlinearen Transformation der cepstralen Merk-
male führt. Dazu muss zunächst die Verteilungsdichtefunktion einzelner Merkmalsvektor-
komponenten durch ein empirisch bestimmtes Histogramm hinreichend genau approximiert
werden, was offensichtlich eine ausreichende Menge an Beobachtungen erfordert. Um einen
Kompromiss zwischen der Zeitverzögerung des Verfahrens und einer möglichst großen Ge-
nauigkeit zu erreichen, wird die Schätzung des Histogramms gewöhnlich auf der Grundlage
ganzer Sprachäußerungen durchgeführt [TTN07]. Anschließend wird jede Merkmalsvektor-
komponente derart transformiert, dass das resultierende Histogramm einem Referenzhisto-
gramm entspricht. Man spricht in der Literatur deshalb auch von einer sogenannten Histo-
grammangleichung. Dabei muss angenommen werden, dass die entsprechende Transforma-
tion existiert, was äquivalent dadurch ausgedrückt werden kann, dass die Verteilungsfunktion
streng monoton wachsend ist. In der Praxis wird man sich damit begnügen, dass diese Ei-
genschaft nur näherungsweise erfüllt ist, da ihre Verifikation aufgrund von Fehlern bei der
24
Stand der Forschung
empirischen Schätzung der Verteilungsfunktion mit Hilfe von normierten kumulativen His-
togrammen unmöglich ist.
Das Verfahren bietet zwei wesentliche Vorteile. Zum einen lässt sich der Rechenaufwand
relativ gering halten, indem die gewöhnlich nichtlineare Transformation der Merkmalsvek-
torkomponenten mit Hilfe von Nachschlagetabellen realisiert wird. Zum anderen werden
keine Annahmen über die Art der Transformation getroffen, so dass sich die Methode prin-
zipiell zur Kompensation unterschiedlichster Arten von Störungen eignet. Es muss jedoch
betont werden, dass besonders im Falle von Nachhall eine starke Abhängigkeit zwischen
zeitlich aufeinander folgenden Merkmalsvektorkomponenten besteht, welche der bereits er-
wähnten Unabhängigkeitsannahme des Verfahrens deutlich widerspricht und folglich seine
Effektivität enorm verringert. Nichtsdestotrotz konnte mit der auf das Cepstrum angewende-
ten Histogrammangleichung eine merkbare Steigerung der Leistungsfähigkeit des Spracher-
kenners in Gegenwart von künstlich erzeugtem Nachhall erzielt werden [TTN07].
Affine Transformation von Merkmalsvektoren
Bei den bisher vorgestellten Normalisierungsstrategien wurden einzelne Merkmalsvektor-
komponenten getrennt voneinander betrachtet. Nun ist es jedoch auch möglich, eine affin
lineare Transformation auf den gesamten Merkmalsvektor anzuwenden, wobei das Kriteri-
um zur Bestimmung der Transformation in der Maximierung der sogenannten Likelihood-
funktion für eine Menge von Adaptionsdaten liegt. Dieser Ansatz wird im Englischen als
Constrained Maximum Likelihood Linear Regression (CMLLR) oder alternativ als Feature-
space Maximum Likelihood Linear Regression (FMLLR) bezeichnet [Gal98].
In der Regel können die Auswirkungen des Nachhalls auf das Cepstrum unter der An-
nahme von gewöhnlichen Analysefensterlängen nicht durch affin lineare Transformationen
ausgedrückt werden. Denn die zeitliche Verschmierung des Cepstrums erzeugt eine star-
ke Abhängigkeit von aufeinander folgenden Merkmalsvektoren. Beinhalten die Merkmals-
vektoren jedoch dynamische Komponenten, welche diese Abhängigkeit in einer gewissen
Weise erfassen, lässt sich die Anwendung von CMLLR zur Robustheit gegenüber Nachhall
zumindest in Ansätzen rechtfertigen. So wurde es vom Autor dieser Dissertation bereits in
[KHU10] durchaus erfolgreich zur Merkmalsenthallung eingesetzt. Die Resultate hingen je-
doch stark von der Menge der Adaptionsdaten sowie davon ab, ob deren Transkription zur
Bestimmung der Transformation vorlag.
3.2.2. Perzeptuell motivierte Verfahren
Die in diesem Abschnitt vorgestellten Verfahren gehen im Wesentlichen von der grundlegen-
den Feststellung aus, dass die Aufgabe der Spracherkennung in der Dekodierung einer lin-
guistischen Nachricht liegt, welche ursprünglich durch den Menschen beim Sprechen in die
Bewegungen des Vokaltraktes codiert wurde [HMBK91]. Da die physikalischen Eigenschaf-
ten des Vokaltraktes, vor allem seine Trägheit, nur gewisse Änderungsraten seiner Stellung
zulassen, prägen sie dadurch die Eigenschaften eines Sprachsignals. Diese Tatsache lässt
sich demzufolge auch bei der perzeptuell orientierten Analyse eines akustischen Signals in-
nerhalb einzelner kritischer (Frequenz-)Bänder beobachten. Fasst man nämlich die entspre-
chenden Bandpasssignale approximativ als amplitudenmodulierte Signale auf, so besitzen
die zugehörigen Einhüllenden hauptsächlich Anteile für Modulationsfrequenzen im Bereich
Stand der Forschung
25
zwischen 0,5 Hz und 16 Hz [HS85]. Insbesondere ist in diesem Zusammenhang bemerkens-
wert, dass das menschliche Gehör gegenüber Modulationsfrequenzen im Bereich von etwa
4 Hz eine erhöhte Sensitivität aufweist [HM94], welche der Rate von Silben innerhalb der
Sprache [HSP80] entspricht.
Berechnung relativer Kurzzeit-Leistungspektren
Die auf relativen Kurzzeit-Leistungsspektren basierenden Merkmale (engl. Relative Spectral
(RASTA)features) [HMBK91, HM94] basieren ursprünglich auf der Beobachtung, dass für
die menschliche Wahrnehmung hauptsächlich relative Unterschiede der Stimulation von Be-
deutung sind. Orientierend daran wird deshalb in [HMBK91] vorgeschlagen, eine Abkehr
von der bis dahin etablierten Verwendung absoluter Werte des Kurzzeit-Leistungsspektrums
zur Merkmalsextraktion vorzunehmen.
Die RASTA-Merkmale stellen eine modifizierte Version von Merkmalen dar, welche auf
einer perzeptuell motivierten linearen Prädiktion (engl. Perceptual Linear Prediction (PLP))
basieren [HHW85, Her90]. Für die Berechnung der PLP-Merkmale wird in einem ersten
Schritt die Leistung des Sprachsignals innerhalb der einzelnen kritischer Bänder [Gre61] be-
stimmt. Dieses geschieht unter Verwendung des Kurzzeit-Leistungsspektrums auf eine ähn-
liche Weise wie für die Berechnung der MFCCs in (2.4). Der einzige Unterschied liegt in
der Verwendung von Fensterfunktionen, welche bezüglich der MEL-Frequenzskala eine tra-
pezförmige Gestalt aufweisen. Im Anschluss erfolgt eine Gewichtung sowie Komprimierung
der Leistung innerhalb der kritischen Bänder zur approximativen Nachahmung der perzeptu-
ellen Lautheit. Das resultierende verzerrte Kurzzeit-Leistungsspektrum wird dann durch ein
autoregressives Modell approximiert, indem LPC-Koeffizienten berechnet werden. Der aus
den LPC-Koeffizienten bestehende Vektor wird anschließend ins Cepstrum transformiert.
Die Modifikation der PLP-Merkmale besteht nun in der Einführung einer kompressi-
ven Nichtlinearität, einer Bandpass-Filterung sowie einer dekompressiven Nichtlinearität
nach der Berechnung des Kurzzeit-Leistungsspektrums für kritische Bänder [HMBK91]. Die
grundsätzliche Idee der Bandpass-Filterung besteht in der Unterdrückung aller besonders
schnell oder besonders langsam veränderlichen Komponenten in der zeitlichen Trajektorie
der komprimierten Leistung einzelner kritischer Bänder, da diese typischerweise nicht die
linguistische Nachricht enthalten. So ähnelt der Durchlassbereich des Bandpass-Filters dem
bereits zu Beginn von Kap. 3.2.2 erwähnten Frequenzbereich zwischen 0,5 Hz und 16 Hz.
Variationen des Verfahrens entstehen beispielsweise durch unterschiedliche Wahlen der
kompressive Nichtlinearität. So zeichnen sich die sogenannten LOG-RASTA-PLP-Koeffizien-
ten [HMBK91] durch eine logarithmische Kompression aus, welche besonders geeignet ist,
um Effekte von Faltungsstörungen zu unterdrücken und damit eine Robustheit gegenüber
Kanaleinflüssen zu erzielen. Dabei wird dasselbe Prinzip der Additivität der Faltungsstörung
im logarithmischen Kurzzeit-Leistungsspektrum wie auch bei der cepstralen Subtraktion
ausgenutzt. Die sogenannten LIN-LOG-RASTA-PLP-Koeffizienten nutzen eine kompressive
Linearität, welche approximativ linear für kleine Werte des Argumentes und approximativ
logarithmisch für große Werte des Argumentes ist, wobei die Grenze zwischen den beiden
Bereichen signalabhängig gewählt wird [HM94]. Damit lassen sich zusätzlich zu Faltungs-
störungen additive Hintergrundstörungen unterdrücken, welche approximativ additiv im li-
nearen Kurzzeit-Leistungsspektrum sind.
In experimentellen Untersuchungen wurde festgestellt, dass die alleinige Verwendung von
26
Stand der Forschung
RASTA-PLP-Koeffizienten im Vergleich zur Verwendung der PLP-Koeffizienten zu keiner
Leistungssteigerung des Spracherkenners in Gegenwart von Nachhall führte [KM97]. Die-
ses änderte sich jedoch, als für die Spracherkennung beide Arten von Koeffizienten gemein-
sam verwendet wurden. Bei diesem Ansatz besteht eine starke Parallele zur Ergänzung der
MFCCs durch die DELTA-Merkmale zur Erfassung eines gewissen zeitlichen Kontexts (sie-
he auch Kap. 2.1). Die Berechnung der DELTA-Merkmale kann als ein Spezialfall der RAS-
TA-Verarbeitung aufgefasst werden kann, wobei die Bandpassfilterung mit Hilfe eines nicht
kausalen Filters mit endlicher Impulsantwort vorgenommen wird [HM94]. An dieser Stelle
soll darauf hingewiesen werden, dass auch die cepstrale Mittelwertsubtraktion eine große
Ähnlichkeit zur RASTA-Verarbeitung aufweist, wobei jedoch die Bandpassfilterung durch
eine Hochpassfilterung zur ausschließlichen Entfernung des Gleichanteils ersetzt ist.
Weiterhin existieren Ansätze für den Entwurf von datenabhängigen Bandpass-Filtern mit
Hilfe der linearen Diskriminantenanalyse unter Verwendung von verhallten Testsprachsigna-
len [vVH97]. Dabei findet im Wesentlichen eine Anpassung des Durchlassbereiches an das
Ausmaß des Nachhalls statt. Die Verwendung derartiger Methoden in Gegenwart von Nach-
hall offenbarte jedoch eine starke Sensibilität des Verfahrens im Bezug auf die Wahl von
Trainingsdaten [SC00], wobei bei einer Fehlanpassung der Trainingsdaten an die Testdaten
die Erkennungsleistungen sehr schlecht ausfallen können.
Modulationsspektrogramm
Das Modulationsspektrogramm stellt eine Verallgemeinerung der RASTA-PLP-Algorithmen
dar [GK97] [KMG98]. Das Sprachsignal wird hierbei auch in Anlehnung an Studien zur
menschlichen Wahrnehmung in kritischen Bändern analysiert, wobei jedoch anstelle einer
Kurzzeit-Spektralanalyse mittels der DFT eine Bank von Bandpass-Filtern mit endlicher
Impulsantwort zum Einsatz kommt. Die Bandpasssignale werden abschnittsweise approxi-
mativ als amplitudenmodulierte Signale aufgefasst, wobei das Ziel in der Darstellung von
Amplitudenmodulationen in ihrer Stärke und zeitlichem Verlauf im Bereich zwischen 0 Hz
und 8 Hz mit einer besonders hohen Sensitivität bei 4 Hz besteht. Dazu wird die Einhüllen-
de der Bandpasssignale bestimmt und zunächst einer Energienormalisierung unterworfen.
Anschließend erfolgt eine Bandpass-Filterung der Einhüllenden, wobei die Impulsantwort
des Bandpasses ein HAMMING-Fenster darstellt, welche durch eine komplexe Exponential-
schwingung der Frequenz von 4 Hz moduliert wird. Die Wirkung dieser Operation ähnelt der
eines signalangepassten Filters (engl. matched filter) zur Detektion von Signalen mit einer
temporalen Struktur, die derjenigen der Sprache entspricht (siehe Bemerkungen zu Beginn
von Kap. 3.2.2) [KMG98]. Als Folge dessen fällt die meiste Energie im Modulationsspek-
trogramm auf den Bereich von silbischen Kernen. In experimentellen Untersuchungen hat
sich gezeigt, dass das Modulationsspektrogramm bei Präsenz von gemäßigtem Nachhall kei-
ne Vorteile gegenüber den RASTA-Merkmalen im Hinblick auf die Spracherkennung bringt
[KMG98]. Hingegen konnten durch eine Kombination beider Methoden Verbesserungen ge-
genüber der alleinigen Verwendung der RASTA-Merkmale erzielt werden.
Analyse innerhalb Teilbändern mit linearer Prädiktion im Frequenzbereich
Ähnlich wie beim Modulationsspektrogramm wird in [TGH08a] die Einhüllende von Teil-
bandsignalen betrachtet und innerhalb sich nicht überlappender Segmente der Dauer von
Stand der Forschung
27
etwa 1 s analysiert. Die Untersuchung vollzieht sich jedoch mit Hilfe von linearer Prädiktion
im Frequenzbereich (engl. Frequency Domain Linear Prediction (FDLP)), wobei eine ge-
glättete, minimalphasige, parametrische Darstellung der zeitlichen Einhüllenden berechnet
wird. Die Methode orientiert sich an dem Vorbild der linearen Prädiktionscodierung [RJ93,
Kap. 3.3] [Mak75], wobei autoregressive Modelle zur parametrischen Repräsentation der
spektralen statt der zeitlichen Einhüllenden genutzt werden.
Ein wesentlicher Aspekt im Zusammenhang mit der Erkennung verhallter Sprache ist bei
diesem Ansatz die Tatsache, dass sich die spektrale Autokorrelationsfunktion eines zu ei-
nem verhallten Sprachsignal zugehörigen Teilbandsignals approximativ als Produkt zweier
weiterer Autokorrelationsfunktionen ausdrücken lässt, nämlich der des entsprechenden Teil-
bandsignals zugehörig zum sauberen Sprachsignal sowie der des Teilbandsignals zugehörig
zur RIA [TGH08b]. Die Herleitung dieser Aussage stützt sich darauf, dass zwischen der
komplexen Einhüllenden des verhallten Sprachsignals, des sauberen Sprachsignals und der
RIA ein Zusammenhang besteht, der sich näherungsweise durch eine Faltung beschreiben
lässt [MH83]. Da die komplexe Einhüllende eines Bandpasssignals die inverse FOURIER-
Transformierte dessen spektraler Autokorrelationsfunktion bildet [Her96], lässt sich die Aus-
sage über die Multiplikativität der spektralen Autokorrelationsfunktionen durch Ausnutzung
der Dualität zwischen dem Zeit- und Frequenzbereich gewinnen. Nimmt man nun weiter an,
dass für die RIA die spektrale Autokorrelationsfunktion einzelner Teilbandsignale nur sehr
langsam ändert, lässt sich durch eine bandspezifische Amplitudennormierung der komplexen
Einhüllenden der Einfluss der RIA unterdrücken.
Nach der Anwendung der linearen Prädiktion im Frequenzbereich und der Normierung
erhält man eine Menge von Einhüllenden für einzelne Teilbänder, welche als Zeit-Frequenz-
Repräsentation angesehen werden können. Diese wird anschließend bezüglich der Zeit auf
100 Hz unterabgetastet, um eine gewisse Konformität mit der gewöhnlichen Zeit-Frequenz-
Auflösung bei der Merkmalsextraktion herzustellen. Die resultierenden Kurzzeit-Energien
einzelner Segmente zusammengefasst über alle Subbänder werden danach ins Cepstrum
transformiert.
Ergebnisse der in [TGH08b] durchgeführten experimentellen Untersuchungen zeigen bei-
spielsweise einen deutlichen Vorteil des Verfahrens gegenüber CMS und Langzeit-CMS im
Bezug auf die Erkennung von verhallter Sprache. Die Leistungsfähigkeit kann dabei enorm
durch die Vergrößerung der Segmentlänge und der Vergrößerung der spektralen Auflösung
gesteigert werden, wodurch die Multiplikativitätsaussage bezüglich der spektralen Autokor-
relationsfunktion in ihrer Güte verbessert und somit die Normalisierung effektiver wird.
Modulationsanalyse als Ergänzung der MFCCs
In [MM10] wurde vorgeschlagen, eine abgewandelte Form der MFCCs mit Hilfe von auf der
Modulationsanalyse beruhenden Koeffizienten zu ergänzen. Die Modifikation der MFCCs
besteht prinzipiell in der Verwendung einer sogenannten GAMMATONE-Filterbank zur Ex-
traktion der Signale für einzelne kritische Bänder anstatt der Durchführung einer MEL-Fil-
terung beruhend auf dem Kurzzeit-Leistungsspektrum. Bei GAMMATONE-Filtern handelt es
sich um lineare Filter, welche die physiologisch motivierten Verarbeitung durch die Cochlea
nachahmen [PRH+92].
An Stelle dynamischer Merkmale wie der DELTA-Merkmale, welche die zeitliche Ent-
wicklung der MFCCs beschreiben, werden Merkmale verwendet, welche die Energie von
28
Stand der Forschung
Modulationen im Frequenzbereich zwischen 2 Hz und 16 Hz in der Trajektorie einzelner
cepstraler Koeffizienten darstellen. Das Modulationsspektrum wird mit Hilfe der FOURIER-
Transformation der zeitlichen Trajektorie der Energien innerhalb von Teilbändern berech-
net. Als Merkmal wird die Energie im Frequenzband zwischen 2 Hz und 16 Hz verwendet.
Anschließend werden die DELTA-DELTA-Merkmale durch numerische Differenziation der
Merkmale beruhend auf der Modulationsanalyse bestimmt.
Bezüglich der experimentellen Ergebnisse lässt sich zusammenfassen, dass bereits durch
die Ersetzung der MEL-spektralen Koeffizienten durch die auf der GAMMATONE-Filterung
basierenden Merkmale die Erkennungsleistung in Gegenwart von Nachhall deutlich gestei-
gert werden konnte. Durch den Austausch der DELTA-Merkmale konnte eine weitere Verbes-
serung der Erkennungsleistung erzielt werden [MM10]. Ein wahrscheinlicher Grund dafür
liegt darin, dass man sich bei der Erfassung der zeitlichen Veränderungen durch die alterna-
tiven dynamischen Merkmale auf den linguistisch relevanten Frequenzbereich konzentriert.
3.2.3. Sonstige merkmalsbasierte Verfahren
Abgesehen von den merkmalsbasierten Verfahren der ersten beiden Kategorien existieren in
der Literatur weitere Ansätze, die in dieser Dissertation nicht in der ganzen Ausführlichkeit
vorgestellt werden können. Es werden daher nur einige ausgewählte Verfahren kurz erläutert.
Berechnung der dynamischen Merkmale auf Grundlage der linear skalierten Energie
In [IFN10] wird vorgeschlagen, die Berechnung der dynamischen Merkmale im linearen
statt dem gewöhnlichen logarithmischen Energiebereich durchzuführen. Sie werden moti-
viert durch die Tatsache, dass die Energie des Nachhalls einen exponentiellen Abklang auf-
weist, welcher jedoch durch die Anwendung des Logarithmus affin linear wird. Als Folge
dessen bleiben die Werte der dynamischen Merkmale vorwiegend in kurzen Sprachpausen
lange unerwünscht konstant, so dass der Spracherkenner nicht vorhandene Wörter erkennt.
Da der Dynamikbereich der (linearen) Energie deutlich größer ist und die Energie des Nach-
halls exponentiell, also inbesondere sehr schnell, abklingt, werden die dynamischen Merk-
male deutlich weniger durch den Nachhall gestört. Um sicherzustellen, dass die Merkma-
le eine approximativ GAUSS-förmige Verteilungsdichtefunktion besitzen, welche für eine
Modellierung mit Hilfe von HMMs im Spracherkenner notwendig ist, muss zusätzlich eine
geeignete Normierung vorgenommen werden.
Ausnutzung der harmonischen Struktur der Sprache
Eine weitere Art zur Extraktion robuster Merkmale geht von der Annahme aus, dass har-
monische Komponenten der Sprache durch den Nachhall nur geringfügig verändert werden
[PLLH08]. Werden sie jedoch von stimmlosen Lauten gefolgt, werden diese durch die ab-
klingende Energie der stimmhaften Laute überlagert. Der Einfluss auf die stimmlosen Laute
ist besonders groß im niederfrequenten Bereich, wo die stimmlosen Laute in der Regel we-
nig Energie besitzen. Folglich besteht die Idee in [PLLH08] unter anderem darin, stimmhafte
und stimmlose Bereiche innerhalb des Sprachsignals zu detektieren und jegliche Energie in
unteren Teilbändern innerhalb von stimmlosen Bereichen zu entfernen. Dieser Ansatz wur-
de weiterhin in [PLU+08] mit einer darauf folgenden Analyse des Modulationsspektrums
Stand der Forschung
29
kombiniert.
Merkmalsverbesserung
Ähnlich dem in dieser Dissertation verfolgten Ansatz wird in [Wöl09] die gemeinsame Ent-
hallung und Entstörung der Merkmale als ein Problem der Verfolgung einer Trajektorie
aufgefasst, welches mit Hilfe einer BAYES’schen Methode gelöst wird. Ein entscheiden-
der Unterschied zum Verfahren, welches in dieser Dissertation vorgeschlagen wird, liegt
dabei darin, dass der Nachhall als additive Störung im MEL-spektralen Bereich aufgefasst
wird, dessen Ausmaß zunächst im Zeitbereich mit Hilfe der mehrstufigen linearen Prädik-
tion [GD97] geschätzt wird. Weitere deutliche Unterschiede bestehen in den verwendeten
A-priori-Modelle zur Beschreibung der Sprache und Störung im Merkmalsraum sowie der
Realisierung der Inferenz, wozu eine Partikelfilterung genutzt wird.
Ausnutzung von Unsicherheitsinformation
Die in [PBB02] präsentierte Methode wird motiviert durch die Feststellung, dass das mensch-
liche Gehörsystem einen Mechanismus besitzt, um mit unverlässlichen “Daten” umzugehen
[CGJV01]. Demzufolge wird versucht, verlässliche Bereiche im Kurzzeit-Leistungsspek-
trum aufzufinden, um diese anschließend an einen modifizierten Spracherkenner weiterzu-
leiten. Insofern handelt es sich bei diesem Ansatz um eine Kombination aus einer merkmals-
basierten und modellbasierten Methode, was als Nachteil bedingt durch den erforderlichen
Eingriff in den Erkenner gesehen werden kann.
Verlässliche Bereiche im Kurzzeit-Leistungsspektrum sind in der Regel dadurch gekenn-
zeichnet, dass sie energiereich sind und dadurch nicht stark durch den Einfluss des Nachhalls
verändert werden. Zum Auffinden dieser wird eine sogenannte Hallmaske verwendet. Damit
ein Bereich als verlässlich gilt, muss seine Energie eine vorgegebene, zuvor empirisch ermit-
telte Schranke übersteigen.
3.3. Verfahren basierend auf der Modifikation des
akustischen Modells oder des Decoders
Eine weitere Möglichkeit zur Kompensation der Auswirkungen des Nachhalls auf die statis-
tischen Eigenschaften der akustischen Merkmale besteht in der Modifikation des akustischen
Modells oder des Decoders.
3.3.1. Modifikation des akustischen Modells
Das akustische Modell lässt sich beispielsweise dadurch modifizieren, dass ein auf das Er-
kennungsszenario angepasstes Training mit verhallten und eventuell zusätzlich gestörten
Sprachsignalen durchgeführt wird. Da jedoch das Erkennungsszenario oft zum Zeitpunkt
des Trainings noch unbekannt ist, wird eine vielfältige und umfangreiche Menge an Trai-
ningsdaten benötigt, um vorab möglichst viele Einsatzbedingungen abzudecken. An Stelle
der Verwendung von echten Sprachäußerungen, deren Aufnahme aufwendig und teuer ist,
30
Stand der Forschung
bietet sich eine künstliche, modellbasierte Erzeugung der Daten [GMOS99, SFB01] an. Da-
bei ist es sinnvoll, eine Parametrisierung der künstlich erzeugten Sprachdaten und der damit
trainierten akustischen Modelle mit Hilfe der Nachhallzeit T60 vornehmen. Zur Spracher-
kennung muss anschließend nur noch das passende akustische Modell beruhend auf einer
Schätzung der Nachhallzeit ausgewählt werden [CC04]. Der Nachteil eines solchen Ver-
fahrens liegt in der großen Datenmenge, die zur Erfassung sämtlicher akustischer Modelle
notwendig ist.
Eine dazu alternative Methode ist die Adaption von akustischen Modellen, welche mit
sauberen Sprachsignalen trainiert wurden. Dabei unterscheidet man grundsätzlich zwischen
der statischen und der dynamischen Adaption.
Bei der statischen Adaption werden die akustischen Modelle vorab einmal an das Er-
kennungsszenario angepasst und bei der Erkennung nicht mehr verändert. Ein in diesem
Zusammenhang zu nennender Ansatz ist die Anwendung von affin linearen Transformatio-
nen auf einzelne Komponenten der GMMs zur Modellierung der Emissionsverteilungsdich-
tefunktionen von HMM-Zuständen. Da das Kriterium zur Bestimmung der Transformati-
on die Maximierung der Likelihood beruhend auf einer gegebenen Menge von Adaptions-
daten ist, wird diese Methode im Englischen als Maximum Likelihood Linear Regression
(MLLR) bezeichnet [GW96, Gal98]. Sie unterscheidet sich vom in Kap. 3.2.1 vorgestellten
CMLLR dadurch, dass statt einer globalen Transformation für alle Emissionsverteilungsdich-
tefunktionen nun viele unterschiedliche Transformationen abhängig vom HMM-Zustand und
GMM-Komponente ermöglicht werden. Die Menge der verschiedenen Transformation lässt
sich im Prinzip durch die Menge der zur Verfügung stehenden Adaptionsdaten steuern, da
gleiche Transformationen von vielen HMM-Zuständen und GMM-Komponenten gemeinsam
geteilt werden können. Dadurch lässt sich eine sinnvolle Adaption des akustischen Modells
bereits mit einer geringen Menge an Adaptionsdaten bewerkstelligen. Wie auch CMLLR wur-
de MLLR ursprünglich zur Adaption des akustischen Modells an unterschiedliche Sprecher
eingeführt. In [TTN06] wurde es jedoch auch zur Kompensation der Effekte des Nachhalls
eingesetzt. Die Wirkung von MLLR ist dabei hauptsächlich auf das Vorhandensein von dy-
namischen Komponenten innerhalb des Merkmalsvektors zurückzuführen, wodurch ein ge-
wisser zeitlicher Kontext erfasst wird. Dieser Kontext ist beispielsweise bei der in Kap. 2.1
beschriebenen Merkmalsextraktion auf 6 zeitlich vorhergehende Segmente beschränkt (vgl.
dazu Parameter in Tab. 2.1). Geht das Ausmaß der zeitlichen Verschmierung darüber hinaus,
so kann der Effekt nicht mehr ausreichend kompensiert werden. Aus dieser Sicht es vernünf-
tig, MLLR wie in [MOG00] im Sinne einer inkrementellen Adaption von akustischen Daten,
welche bereits mit verhallten Sprachsignalen trainiert wurden, zur Reduktion der verbleiben-
den Fehlanpassung zu nutzen. Ein weiteres Problem von MLLR stellt die Tatsache dar, dass
die Transkription des Adaptionsdaten für die Adaption bekannt sein muss. Da diese Voraus-
setzung gewöhnlich nicht gegeben ist, wird diese durch eine vorhergehende Erkennung mit
Hilfe von nicht adaptierten Modellen gewonnen. Man spricht dabei von unüberwachter Ad-
aption, die aufgrund einer gewöhnlich fehlerhaften Transkription die Leistungsfähigkeit der
Adaption zusätzlich verringert.
Eine aus physikalischer Sicht genauere Modellierung wird erzielt, indem die Auswirkung
des Nachhalls auf das MEL-Spektrum durch eine Faltung dessen bezüglich der Zeit mit ei-
ner Funktion, die in engem Zusammenhang mit der RIA steht, approximiert wird (siehe z. B.
Kap. 5.2.2 oder auch [SK08]). Diese Beschreibung lässt sich beispielsweise zur Modell-
adaption durch Aufspaltung von HMM-Zuständen in einzelne Teilzustände verwenden, um
Stand der Forschung
31
damit unterschiedliche Kompensationen abhängig von der genauen Verweildauer innerhalb
eines HMM-Zustandes vornehmen zu können [RNS05c, RNS05b]. Die Anzahl der Teil-
zustände hängt dann von der mittleren Verweildauer innerhalb eines HMM-Zustandes ab.
Die Repräsentation der RIA im MEL-spektralen Bereich lässt sich beispielsweise mit Hilfe
von Adaptionsdaten unter Verwendung des akustischen Modells für saubere Sprachsignale
durchführen [RNS05b].
Alternativ lässt sich die Modellanpassung durch eine sogenannte parallele Modellkombi-
nation (engl. Parallel Model Combination (PMC)) erzielen [GY95]. Diese wurde ursprüng-
lich entwickelt, um akustische Modelle der Sprache und der Hintergrundstörung geeignet
zu kombinieren. Sie basiert auf der Annahme, dass die Sprache und die Hintergrundstörung
im MEL-Spektrum approximativ additiv sind. In Folge dessen werden dazu die akustischen
Modelle vom cepstralen in den MEL-spektralen Bereich transformiert, dort zusammenge-
setzt und entsprechend zurücktransformiert. Für die Kombination werden nur Modifikatio-
nen der ersten beiden Momente einzelner GMM-Komponenten für das Cepstrum in Betracht
gezogen, weshalb diese relativ einfach vorzunehmen ist. Die Kombination ist jedoch höchst
approximativ, da sie unter anderem annimmt, dass die Summe zweier log-normalverteilter
Variablen wieder log-normalverteilt ist [GY95].
Unter Ausnutzung der Tatsache, dass die Auswirkungen des Nachhalls durch eine Faltung
im MEL-spektralen Merkmalsbereich beschrieben werden können, lässt sich die ursprüng-
lich eingeführte parallele Modellkombination zur entsprechenden Adaption der akustischen
Modelle modifizieren [RNS05a, HGH06]. Dabei muss berücksichtigt werden, dass die Ad-
aption auf der Basis von HMM-Zuständen und nicht Merkmalsvektoren erfolgt. Sie bedient
sich in [HGH06] eines Modells der EDC einer RIA, wobei die EDC durch eine exponenti-
ell abklingende Funktion approximiert wird und als einzigen Parameter die Nachhallzeit T60
besitzt. Damit kann durch Beachtung der mittleren Verweildauer in einem HMM-Zustand
der mittlere Anteil der Energie berechnet werden, welcher auf die zeitlich folgenden HMM-
Zustände verschmiert wird.
In [HGH06] wird die Adaption unabhängig auf einzelne HMMs, welche ganze Wörter
modellieren, angewendet. Es findet demnach keine Berücksichtigung der Verschmierung der
Energie über Wortgrenzen hinweg statt. Dies ist ein Problem, was im Allgemeinen bei der
statischen Adaption auftritt. Denn die Energie des Nachhalls hängt in hohem Maße vom vor-
hergehenden Kontext eines HMM-Zustandes ab, der vor der eigentlichen Erkennung natür-
lich nicht bekannt ist. Ein gewisser vorhergehender, HMM-übergreifender Kontext kann bei
der Adaption von triphonbasierten HMMs, welche zur Erkennung von Sprache mit großem
Vokabular eingesetzt werden, genutzt werden [HF08]. Denn ein Triphon beschreibt ein Pho-
nem in Abhängigkeit seines Vorgänger- und Nachfolgephonems. Der Kontext reicht jedoch
gewöhnlich nicht aus, um den Ursprung der Energie des Nachhalls ausreichend zu erfassen.
Denn die mittlere Dauer eines Phonems beträgt etwa 125 ms [RJ93, Kap. 2] und ist damit
deutlich kürzer als die Nachhallzeit, die in gewöhnlichen Büros und Wohnzimmern einige
Hundert Millisekunden betragen kann [Kut00].
Die dynamische Adaption der akustischen Modelle an den Nachhall findet parallel zur
Dekodierung statt [YNS04, TN04, SMK11]. Sie bietet den großen Vorteil, dass sich durch
die Dekodierung ein wahrscheinlicher, vorhergehender Kontext zu einem HMM-Zustand er-
schließt, wodurch die Energie des Nachhalls deutlich besser modelliert werden kann. Dieser
Vorteil wird jedoch zulasten eines deutlich erhöhten Rechenaufwandes bei der Spracherken-
nung erkauft.
32
Stand der Forschung
In [TN04] findet eine dynamische Adaption auf der Grundlage eines rekursiven Beob-
achtungsmodells zur Beschreibung der zeitlichen Trajektorie der MEL-spektralen Merkmale
des verhallten Sprachsignals statt. Das Beobachtungsmodell ist im Grunde ein Spezialfall
des in Kap. 5.2.4 hergeleiteten rekursiven Modells und wird in [TN04] als Prädiktion ers-
ter Ordnung bezeichnet. Dabei wird die Auswirkung des Nachhalls auf den aktuell gültigen
HMM-Zustand aufgrund des unmittelbar vorher beobachteten MEL-spektralen Merkmals
des verhallten Sprachsignals berechnet.
Eine weitere Variante der dynamischen Adaption erhält man, indem die Adaption der
akustischen Modelle nicht mit der Segmentrate, sondern deutlich seltener durchgeführt wird.
So wird beispielsweise in [HF08] die Adaption auf den Nachhall unter anderem mit einer Ad-
aption auf die Hintergrundstörung kombiniert. Die mittlere Leistung der Hintergrundstörung
wird dabei zunächst mit einer VAD innerhalb von Sprachpausen geschätzt, so dass unmit-
telbar vor dem Einsetzen der Sprache die bereits auf den Nachhall angepassten akustischen
Modelle zusätzlich auf die Hintergrundstörung adaptiert werden können.
3.3.2. Modifikation des Decoders
Der Effekt des Nachhalls kann schließlich auch erst bei der Dekodierung der Merkmals-
vektorsequenz berücksichtigt werden. Dies geschieht in [SZK06] beispielsweise durch eine
Modifikation des VITERBI-Algorithmus zur vereinfachten Dekodierung. Das Verfahren ba-
siert auf der Kombination des akustischen Modells, welches mit sauberen Sprachsignalen
trainiert wurde, mit einem Modell zur statistischen Beschreibung der RIA im Merkmals-
raum. Die ursprüngliche Herleitung des Verfahrens beschränkt sich auf die Dekodierung
mit MEL-spektralen Merkmalen. Die Änderung des VITERBI-Algorithmus besteht nun dar-
in, dass dabei parallel sowohl nach der optimalen HMM-Zustandssequenz als auch nach
der zugehörigen optimalen Sequenz der MEL-spektralen Merkmalsvektoren des sauberen
Sprachsignals gesucht wird. Dazu wird versucht, die gemeinsame Likelihood der Sequenz
der MEL-spektralen Merkmalsvektoren des sauberen Sprachsignals und der Repräsentati-
on der RIA im MEL-spektralen Bereich unter der Nebenbedingung zu maximieren, dass
deren Faltung die beobachtete Sequenz der MEL-spektralen Merkmalsvektoren des verhall-
ten Sprachsignals ergibt. Neben der Tatsache, dass die Dekodierung recht aufwendig ist,
werden die Emissionsverteilungsdichtefunktionen einzelner HMM-Zustände durch GAUSS-
Verteilungsdichtefunktionen beschrieben. Dies ist an sich schon eine deutliche Einschrän-
kung der Modellierungsmöglichkeit durch das HMM, da gewöhnlich GMMs an Stelle von
GAUSS-Verteilungsdichtefunktionen verwendet werden. Zusätzlich ist die Verwendung von
GAUSS-Verteilungsdichtefunktionen für den MEL-spektralen Bereich recht ungünstig, da die
Merkmale beispielsweise nur nichtnegative Werte annehmen können. Obwohl das Verfah-
ren in [SMK10] auf den log-MEL-spektralen Bereich erweitert werden konnte, blieb die
Einschränkung auf die Verwendung von GAUSS-Verteilungsdichtefunktionen statt GMMs
bestehen. Ein weiteres Problem, das sowohl im MEL- als im log-MEL-spektralen Bereich
vorhanden ist, ist die vorhandene Korrelation zwischen einzelnen Komponenten der Merk-
malsvektoren. Als Folge dessen müssen anders als bei der Verwendung von MFCCs voll-
besetzte statt diagonalen Kovarianzmatrizen für die Emissionsverteilungsdichtefunktionen
der HMM-Zustände zugrunde gelegt werden, was den Rechenaufwand bei der Dekodierung
deutlich erhöht.
Eine andere Variante des Decoders besteht in der Ausnutzung von Unsichersinformationen
Stand der Forschung
33
bezüglich der beobachteten Merkmale des verhallten Sprachsignals [PBB04]. Der Erkenner
nutzt für die Erkennung im Wesentlichen diejenigen Merkmale, welche durch den Nachhall
nur geringfügig verändert wurden.
Schließlich ist eine Kombination einer signalbasierten Enthallung mit einer entsprechen-
den Modifikationen des Decoders möglich [DNW09]. Die Idee besteht prinzipiell darin, dass
der Decoder den nach der Enthallung verbleibenden zeitvarianten Reststörungen Rechnung
trägt. Dies geschieht durch eine geeignete Anpassung der Varianzen zugehörig zu Emissi-
onsverteilungsdichtefunktionen einzelner HMM-Zustände.
4. Wissenschaftliche Ziele
Während in der Literatur bereits zahlreiche Verfahren für die modellbasierte Entstörung
akustischer Merkmale im Hinblick auf eine rauschrobuste Spracherkennung existieren, wel-
che auf dem BAYES’schen Prinzip basieren, besteht das Ziel der Arbeit in der Entwicklung
eines analogen Konzeptes zur gemeinsamen Kompensation des Nachhalls und der Hinter-
grundstörungen. Das Hauptaugenmerk liegt jedoch primär auf der Berücksichtigung des
Nachhalls.
Merkmalsbasierte Verfahren besitzen grundsätzlich den Vorteil, dass sie vollkommen un-
abhängig von der Art des verwendeten Spracherkenners betrieben werden können und da-
her in der Praxis ein hohes Maß an Flexibilität bieten. Sie können im Wesentlichen direkt
zwischen die Merkmalsextraktion und den Spracherkenner geschaltet werden, ohne jegliche
Modifikationen am Spracherkenner vornehmen zu müssen. Insbesondere wird dabei eine
meist aufwendige und komplizierte Adaption der Modellparameter des Spracherkenners auf
veränderte Einsatzumgebungen vermieden.
Als Merkmale werden die MFCCs betrachtet, da sie aufgrund ihrer perzeptuell orien-
tierten und relativ einfachen Berechnung in der Praxis eine weite Verbreitung gefunden
haben. Obwohl sich das in dieser Dissertation vorgeschlagene Verfahren im Prinzip mit
einigen Abwandlungen auch direkt im Cepstrum realisieren ließe, d.h. in dem Merkmals-
bereich, der auch für die automatische Spracherkennung genutzt wird, wird hier aus zwei
Gründen vorgeschlagen, dieses bereits eine Ebene vorher, d.h. im log-MEL-Spektrum, an-
zuwenden. Die Gründe bestehen zum einen darin, dass die LMSKs im Gegensatz zu den
MFCCs einen annähernd homogenen Wertebereich besitzen, was aus numerischen Gründen
vorteilhaft ist. Zum anderen werden die Einflüsse der Störung und des Nachhalls auf ein-
zelne MEL-Frequenzbänder approximativ unabhängig sein, wohingegen im Cepstrum diese
unabhängigen Einflüsse durch die Anwendung der DCT auf alle MFCCs verteilt werden.
Als Grundprinzip zur Merkmalsverbesserung dient die BAYES’sche Inferenz, die es er-
laubt, Wissen beruhend auf zwei unterschiedlichen Informationsquellen in einer statistisch
optimalen Art zu nutzen. Zu den Informationsquellen zählt einerseits das A-priori-Wissen
über die Eigenschaften des sauberen Sprachsignals sowie des Störsignals im Merkmals-
bereich. Zur Modellierung der Eigenschaften des sauberen Sprachsignals wird von intera-
gierenden autoregressiven, linearen Prädiktionsmodellen (engl. Switching Linear Dynamic
Models (SLDMs)) ausgegangen. Insbesondere werden auch Modelle höherer Ordnungen be-
trachtet, um Korrelation zwischen zeitlich weiter auseinander liegenden Sprachmerkmals-
vektoren zu berücksichtigen. In diesem Bereich konzentriert sich die Arbeit auf die Herlei-
tung und Untersuchung von Algorithmen zum iterativen Training und insbesondere einer
sinnvollen Initialisierung der entsprechenden Modellparameter.
Die andere Informationsquelle besteht in dem sogenannten Beobachtungsmodell, welches
die gemeinsamen Auswirkungen des Nachhalls und der Hintergrundstörungen auf die Form
35
36
Wissenschaftliche Ziele
der Merkmalsvektoren beschreibt und dessen Herleitung einen weiteren Schwerpunkt der
Arbeit bildet. Dabei muss insbesondere die Tatsache berücksichtigt werden, dass dazu im
Allgemeinen Wissen über die Ausbreitung akustischer Signale vom Sprecher zum Mikro-
fon, beispielsweise in Form einer RIA, zur Verfügung stehen muss. In der Regel hängt diese
von der Beschaffenheit des Raumes ab, benötigt viele Parameter zu ihrer Darstellung und
ist zudem zeitvariant. Ein weiterer wichtiger Aspekt in diesem Zusammenhang ist die An-
nahme eines sogenannten “blinden“ Szenarios, bei dem die Einsatzumgebung des Spracher-
kenners sowie die Positionen des gewünschten Sprechers und des Mikrophons innerhalb der
Umgebung unbekannt sind. Auf eine blinde Schätzung der gesamten detaillierten RIA beru-
hend auf dem eingehenden Mikrophonsignal wird hier allerdings verzichtet, da diese in der
Regel höchst sensitiv und fehleranfällig ist. Statt dessen wird von einem stark vereinfach-
ten Modell der RIA ausgegangen, das nur zwei Parameter besitzt: die Nachhallzeit sowie
die Energie der RIA. Diese können deutlich robuster aus dem eingehenden Mikrophonsi-
gnal geschätzt werden. So beschäftigt sich die Arbeit sehr genau mit der Fragestellung, wie
zu gegebenen RIA-Modellparametern ein adäquates Beobachtungsmodell berechnet werden
kann. Dazu zählen unter anderem die Berechnung der modellbasierten Repräsentation der
Raumimpulsantwort im Merkmalsraum und die Berechnung der statistischen Eigenschaften
des Modellierungsfehlers.
4.1. Gliederung der Arbeit
Der Kern der Arbeit gliedert sich in zwei Hauptabschnitte.
In Kap. 5 erfolgt zunächst eine detaillierte theoretische Herleitung des BAYES’schen Ver-
fahrens zur Merkmalsverbesserung. Dabei werden zunächst in Kap. 5.1 die verwendeten A-
priori-Modelle zur statistischen Charakterisierung der zeitlichen Trajektorie der akustischen
Merkmale des sauberen Sprachsignals sowie des Hintergrundstörsignals eingeführt. An-
schließend wird ein sogenannter EM-Algorithmus zum iterativen Training von SLDMs be-
liebiger Ordnung hergeleitet sowie ein neuartiges Verfahren zur Initialisierung der SLDMs-
Parameter vorgestellt. In Kap. 5.2 wird das Beobachtungsmodell zur Beschreibung des funk-
tionellen Zusammenhanges zwischen den beobachteten Merkmalen des verhallten und ge-
störten Sprachsignals und den Merkmalen des sauberen Sprachsignals und des Hintergrund-
störsignals hergeleitet. Dies geschieht anfangs unter der Annahme einer bekannten, zeitinva-
rianten RIA. Im Anschluss wird diese Voraussetzung jedoch fallen gelassen, wobei nun von
einem stark vereinfachten statistischen Modell der RIA ausgegangen wird. Dieses erlaubt
zudem die Formulierung eines zeitlich rekursiven Beobachtungsmodells, welches danach
vorgestellt wird. Ein weiterer Aspekt, dem sich dieses Kapitel widmet, ist eine adäquate Mo-
dellierung des Beobachtungsfehlers. Schließlich werden in Kap. 5.3 unterschiedliche Ver-
fahren zur approximativen Inferenz präsentiert, welche im Wesentlichen auf einem iterativen
KALMAN-Filter sowie Modellkombinationsalgorithmen basieren.
Kapitel 6 befasst sich mit experimentellen Untersuchungen bezüglich der Leistungsfähig-
keit des vorgestellten Verfahrens zur Merkmalsverbesserung. Diese werden mit Hilfe von
zwei unterschiedlichen Sprachdatenbanken, mit einerseits kleinem und andererseits großem
Vokabular, durchgeführt, welche in Kap. 6.1 ausführlich beschrieben werden. Als Kriterium
für die Beurteilung der Leistungsfähigkeit wird in dieser Arbeit die nach der Spracherken-
nung endgültig erzielte Wortfehlerrate herangezogen. Nach einer Darstellung von Referenz-
Wissenschaftliche Ziele
37
ergebnissen, welche ohne die Verwendung jeglicher Merkmalsverbesserung erzielt wurden,
und Ergebnissen einiger ausgewählter alternativer Verfahren in Kap. 6.2 und Kap. 6.3 wer-
den in Kap. 6.4 die Resultate zu Voruntersuchungen bezüglich des Beobachtungsmodells
aufgeführt, wobei die Schätzung der Parameter des Beobachtungsfehlers im Vordergrund
steht. Kapitel 6.5 stellt die erzielten Ergebnisse zur Merkmalsenthallung vor, wobei insbe-
sondere der Einfluss des A-priori-Sprachmodells sowie der des Beobachtungsmodells auf die
Leistungsfähigkeit der Merkmalsverbesserung analysiert werden. Schließlich liefert Kap. 6.6
Ergebnisse zur gemeinsamen Merkmalsenthallung und -enstörung.
Die Arbeit wird mit einer Zusammenfassung und einem Ausblick in Kap. 7 abgeschlossen.
5. Konzept der modellbasierten
BAYES’schen Merkmalsverbesserung
In diesem Kapitel wird eine modellbasierte Merkmalsverbesserung basierend auf BAYES’-
scher Inferenz vorgestellt. Eine Verbesserung auf der Merkmalsebene profitiert im Allge-
meinen davon, dass sie sich auf nur denjenigen Anteil der Information beschränken kann,
der auch tatsächlich für die Erkennung relevant ist. Natürlich können daraus auch Nachtei-
le dadurch entstehen, dass eventuell zur Verbesserung benötigte Information nicht mehr zur
Verfügung steht, wobei in der Regel dieser Aspekt eine untergeordnete Rolle spielt.
Das Ziel des hier vorgestellten Ansatzes besteht in der Bestimmung einer Folge ˆ
x(s)
1:Mvon
Schätzungen der LMSK-Vektoren des sauberen Sprachsignals
ˆ
x(s)
m:=ˆx(s)
m,0,...,ˆx(s)
m,Q−1T(5.1)
basierend auf der Beobachtung der Folge y(s)
1:Mder Merkmalsvektoren des verhallten und
gestörten Sprachsignals. Insbesondere soll dieses Ziel durch einen Online-Algorithmus um-
gesetzt werden, was bedeutet, dass für die Schätzung des Merkmalsvektors ˆ
x(s)
mnur alle ver-
gangenen, der aktuelle und insbesondere keine (oder nur sehr wenige) zukünftige Merkmals-
vektoren des verhallten und gestörten Sprachsignals verwendet werden dürfen.
Für die Schätzung wird zugrunde gelegt, dass es sich bei den nicht beobachtbaren Merk-
malsvektorfolgen x(s)
1:Mund n(s)
1:Msowie der beobachtbaren Merkmalsvektorfolge y(s)
1:Mum
Realisierungen von vektorwertigen Zufallsprozessen ˘
x(s)
1:M,˘
n(s)
1:Msowie ˘
y(s)
1:Mhandelt. Aus sta-
tistischer Sicht kann das Schätzproblem als gelöst angesehen werden, sobald die A-posteri-
ori-Verteilungsdichtefunktion px(s)
my(s)
1:mbekannt ist. Diese erlaubt die Bestimmung von
auf verschiedenen Kriterien basierenden Schätzwerten. So lässt sich beispielsweise zeigen,
dass derjenige Schätzwert ˆ
x(s)
mfür x(s)
m, welcher den mittleren quadratischen Schätzfehler
minimiert, durch den bedingten Erwartungswert
µ˘
x(s)
my(s)
1:m
:=Eh˘
x(s)
m˘
y(s)
1:m=y(s)
1:mi(5.2)
gegeben ist. In der englischsprachigen Literatur wird ein solcher Schätzwert als Minimum
Mean Squared Error (MMSE)estimate bezeichnet. In dem besonderen Fall, dass die A-
posteriori-Verteilungsdichtefunktion GAUSS-förmig ist, entspricht die zugehörige Kovari-
anzmatrix
Σ˘
x(s)
my(s)
1:m
:=E"˘
x(s)
m−µ˘
x(s)
my(s)
1:m˘
x(s)
m−µ˘
x(s)
my(s)
1:mT
˘
y(s)
1:m=y(s)
1:m#(5.3)
39
40
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
der Schätzfehlerkovarianzmatrix und kann daher als Maß der verbliebenen Unsicherheit be-
züglich der Schätzung angesehen werden. Das primäre Ziel bei dem hier vorgeschlagenen
Verfahren zur Merkmalsverbesserung wird daher im Wesentlichen darin bestehen, Schätz-
werte ˆ
x(s)
mund ˆ
Σ˘
x(s)
mfür die ersten beiden zentralen Momente µ˘
x(s)
my(s)
1:m
und Σ˘
x(s)
my(s)
1:m
der
A-posteriori-Verteilungsdichtefunktion zu bestimmen. Allerdings werden für die Schätzung
zusätzlich einige wenige zukünftige Beobachtungen mit berücksichtigt, wie im Folgenden
erläutert wird.
Ausgehend von diesen ersten Überlegungen wird zunächst der erweiterte Merkmalsvektor
z(s)
m:=χ(s)
mT,n(s)
mTT
(5.4)
mit
χ(s)
m:=x(s)
mT,...,x(s)
m−LC+1TT
(5.5)
definiert, welcher sich aus einer Menge von LC∈Naufeinander folgenden Merkmalsvek-
toren des sauberen Sprachsignals χ(s)
mund einem Merkmalsvektor der Störung n(s)
mzusam-
mensetzt. Der Grund für genau diese Definition wird etwas später ersichtlich. Unter Verwen-
dung von BAYES’scher Inferenz wird nun eine rekursive Formulierung für die A-posteriori-
Verteilungsdichtefunktion pz(s)
my(s)
1:mbezüglich der Zeit, d.h. bezüglich des Segmentin-
dexes m, vorgestellt. Dabei ist zu beachten, dass die benötigte Verteilungsdichtefunktion
px(s)
my(s)
1:mdurch Marginalisierung aus pz(s)
my(s)
1:mhervorgeht.
Die Rekursion vollzieht sich in zwei Schritten. Im ersten Schritt, der sogenannten Prä-
diktion, wird ausgehend von der A-posteriori-Verteilungsdichtefunktion pz(s)
m−1y(s)
1:m−1
für den Segmentindex mdie prädiktive Verteilungsdichtefunktion von ˘
z(s)
mbedingt auf die
vergangenen Beobachtungen y(s)
1:m−1durch
pz(s)
my(s)
1:m−1=Z
RQ
pz(s)
mz(s)
m−1,y(s)
1:m−1pz(s)
m−1y(s)
1:m−1dz(s)
m−1(5.6)
ausgedrückt. Im zweiten Schritt, der sogenannten Aktualisierung, wird dann die gesuchte A-
posteriori-Verteilungsdichtefunktion pz(s)
my(s)
1:mfür den Segmentindex mmit der BAYES’-
schen Regel gemäß
pz(s)
my(s)
1:m=
py(s)
mz(s)
m,y(s)
1:m−1pz(s)
my(s)
1:m−1
R
RQ
py(s)
m˜
z(s)
m,y(s)
1:m−1p˜
z(s)
my(s)
1:m−1d˜
z(s)
m
(5.7)
∝py(s)
mz(s)
m,y(s)
1:m−1pz(s)
my(s)
1:m−1(5.8)
berechnet.
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
41
Die Durchführung des ersten Teilschrittes erfordert die Kenntnis der Verteilungsdichte-
funktion pz(s)
mz(s)
m−1,y(s)
1:m−1, welche im Wesentlichen eine statistische Prädiktion der Dy-
namik der Sprache und der Störung liefert. Unter der Annahme, dass die Sprache und die
Störung unabhängig voneinander sind, lässt sich diese Verteilungsdichtefunktion als Produkt
pz(s)
mz(s)
m−1,y(s)
1:m−1=pχ(s)
mχ(s)
m−1,y(s)
1:m−1·pn(s)
mn(s)
m−1,y(s)
1:m−1(5.9)
darstellen. Im nächsten Abschnitt wird gezeigt, wie sich die beiden auftretenden Verteilungs-
dichtefunktionen mittels px(s)
mx(s)
m−LAR:m−1und pn(s)
mapproximieren lassen, wobei
LAR ≤LCvorausgesetzt wird. Diese beiden Verteilungsdichtefunktionen bilden das soge-
nannte A-priori-Modell.
Für den zweiten Teilschritt der Rekursion wird gemäß (5.8) die Verteilungsdichtefunktion
py(s)
mz(s)
m,y(s)
1:m−1benötigt, welche den Zusammenhang zwischen den LCvergangenen
Merkmalsvektoren x(s)
m−LC+1:mdes sauberen Sprachsignals, dem des Störsignals, n(s)
m, allen
vergangenen Merkmalsvektoren y(s)
1:m−1des verhallten und gestörten Sprachsignals und dem
aktuellen Merkmalsvektor y(s)
mdes verhallten und gestörten Sprachsignals beschreibt.
Aufgrund des dispersiven Effektes des Nachhalls wird ein Zusammenhang zwischen der
Merkmalsvektorfolge x(s)
m−LC+1:mund y(s)
mbestehen, woran auch die Motivation für die Wahl
des zusammengesetzten Merkmalsvektors z(s)
merkennbar wird. Wird dabei der Wert von LC
größer als ˆ
LHgewählt, wobei ˆ
LHeine von der RIA zwischen Sprecher und Mikrophon abhän-
gige und das zeitliche Ausmaß der Dispersion beschreibende geschätzte Größe ist, so kann
die Bedingung von ˘
y(s)
mauf y(s)
1:m−1vernachlässigt werden, ohne dass dabei ein zu großer
Fehler entsteht
py(s)
mz(s)
m,y(s)
1:m−1≈py(s)
mx(s)
m−ˆ
LH:m,n(s)
m.(5.10)
Diese Verteilungsdichtefunktion bildet das Beobachtungsmodell, welches die Beobachtung
mit den zu schätzenden Größen verknüpft.
Das gesamte Konzept der modellbasierten BAYES’schen Merkmalsverbesserung wird in
Abb. 5.1 veranschaulicht. Die Güte und Effizienz der Merkmalsverbesserung wird natürlich
stark vom verwendeten A-priori-Modell und Beobachtungsmodell abhängen. Diese Modelle
werden in den folgenden Kapiteln 5.1 und 5.2 sehr ausführlich beschrieben. An dieser Stelle
soll nur vorausgreifend erwähnt werden, dass das Beobachtungsmodell natürlich in hohem
Maße durch die RIA zwischen Sprecher und Mikrophon bedingt ist, welche im Allgemei-
nen sehr viele Parameter besitzt und als unbekannt angenommen wird. Diesem Problem wird
hier mit der Einführung eines stark vereinfachten Modells der RIA begegnet, welches nur die
zwei Parameter
τ
hund
σ
hbesitzt. Diese werden aus dem verhallten und gestörten Sprachsi-
gnal y(l)blind geschätzt.
5.1. A-priori-Modell
In diesem Abschnitt werden die für die Dynamik der Sprache und der Störung verwendeten
A-priori-Modelle beschrieben. Im Sinne einer Anpassung der Modelle an die Charakteristik
42
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Merkmalsextraktion
Beobachtungsmodell
ˆ
τ
h,ˆ
σ
h
Schätzung der
RIA-Parameter
Verhalltes und gestörtes
Sprachsignal y(l)
py(s)
mx(s)
m−ˆ
LH:m,n(s)
m
Inferenz
A-priori-Modell
LMSKs y(s)
mdes verhallten
und gestörten Sprachsignals
Verbesserte
LMSKs ˆ
x(s)
m
Schätzfehler-
kovarianzmatrix ˆ
Σ˘
x(s)
m
px(s)
my(s)
1:m
px(s)
mx(s)
m−LAR:m−1,pn(s)
m
Abbildung 5.1.: Blockschaltbild zur Veranschaulichung des Konzeptes der BAYES’schen Merkmals-
verbesserung.
des jeweiligen Signals und der Reduktion des Rechenaufwands durch eine niedrige Modell-
komplexität werden unterschiedliche Arten von Modellen für die Sprache und die Störung
vorgeschlagen.
5.1.1. Modell für die Sprache
Ein Sprachsignal ist in der Regel hochgradig instationär, denn die Änderungen im Signal
entsprechen ja gerade der transportierten Information. Um das hohe Ausmaß der enthaltenen
Dynamik explizit zu berücksichtigen, wird vorschlagen, die prädiktive Verteilungsdichte-
funktion für die Merkmalsvektoren des sauberen Sprachsignals durch eine Mischung von
I∈Nunterschiedlichen, miteinander interagierenden Teilmodellen gemäß
pχ(s)
mχ(s)
m−1,y(s)
1:m−1=
I
∑
i=1
pχ(s)
mχ(s)
m−1,y(s)
1:m−1,
ζ
m=iP
ζ
m=iχ(s)
m−1,y(s)
1:m−1
(5.11)
zu modellieren. Dabei bezeichnet
ζ
m∈ {1,...,I}eine Realisierung einer versteckten Zu-
fallsvariablen ˘
ζ
m, deren Zustand das aktive Teilmodell zum Segmentindex mangibt. Bedingt
durch die Definition des Merkmalsvektors χ(s)
mgemäß (5.5) lassen sich die teilmodellspezifi-
schen Verteilungsdichtefunktionen pχ(s)
mχ(s)
m−1,y(s)
1:m−1,
ζ
m=ivollständig nur unter Ver-
wendung der Kenntnis der Verteilungsdichtefunktionen px(s)
mχ(s)
m−1,y(s)
1:m−1,
ζ
m=iaus-
drücken. Diese werden hier unter Vernachlässigung der Bedingung auf y(s)
1:m−1durch lineare,
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
43
autoregressive Prädiktionsmodelle entsprechend
px(s)
mχ(s)
m−1,y(s)
1:m−1,
ζ
m=i≈px(s)
mx(s)
m−LAR:m−1,
ζ
m=i(5.12)
≈
Nx(s)
m;µx,i,Σx,ifür m≤LAR
Nx(s)
m;LAR
∑
ν
=1
Ai,
ν
x(s)
m−
ν
+bi,Vifür m>LAR.
(5.13)
approximiert. Gemäß dem i-ten Teilmodell gehen die Merkmalsvektoren x(s)
mfür Segmentin-
dizes m>LAR durch eine lineare Transformation aus ihren LAR Vorgängern hervor, welche
durch die Zustandsübergangsmatrizen Ai,
ν
∈RQ×Q, 1 ≤
ν
≤LAR, und den Biaskorrektur-
vektor bi∈RQspezifiziert wird. Der verbleibende Prädiktionsfehler wird als Realisierung ei-
ner GAUSS-verteilten, mittelwertfreien Zufallsvariablen mit der Kovarianzmatrix Vi∈RQ×Q
betrachtet. Für Segmentindizes m≤LAR sind für eine derartige Prädiktion zu wenige Vor-
gänger vorhanden, so dass die Vorhersage mittels eines vergleichsweise einfachen GMMs
mit den Mittelwertvektoren µx,i∈RQund den Kovarianzmatrizen Σx,i∈RQ×Qerfolgt.
Für die Mischungsgewichte kann bei Vernachlässigung der Bedingung auf χ(s)
m−1unter der
vereinfachten Annahme von zeitinvarianten Zustandsübergangswahrscheinlichkeiten
ak,i:=P
ζ
m=i
ζ
m−1=kfür m>LAR (5.14)
die Approximation
P
ζ
m=iχ(s)
m−1,y(s)
1:m−1≈P
ζ
m=iy(s)
1:m−1(5.15)
≈
ψ
ifür m≤LAR
I
∑
k=1
ak,iP
ζ
m−1=ky(s)
1:m−1für m>LAR
(5.16)
herangezogen werden, wobei
ψ
i:=P(
ζ
m=i)für m≤LAR (5.17)
die Zustandswahrscheinlichkeiten für die ersten LAR Segmente angeben.
Ein derartiges Modell ist in der Literatur als schaltendes, lineares dynamisches Modell
(engl. Switching Linear Dynamic Model (SLDM)) [Kim94] bekannt. Es berücksichtigt ex-
plizit die zwischen aufeinanderfolgenden Merkmalsvektoren auftretenden Korrelationen, die
einerseits durch die Spracherzeugung selbst bedingt sind und andererseits durch den Seg-
mentüberlapp bei der Merkmalsextraktion entstehen. In welchem Maße die Korrelationen
berücksichtigt werden, lässt sich durch die Ordnung LAR des autoregressiven Modells steu-
ern. Die Ordnung sollte natürlich von der Länge der Segmente zur Berechnung der Merk-
malsvektoren abhängen. Für den hier betrachteten Fall der Merkmalsextraktion nach dem
ETSI-Standard mit Parametern gemäß Tab. 2.1 sind Ordnungen der Größe 1 oder 2 typisch.
Die Parameter eines SLDM werden in der Regel unter Verwendung von Trainingsdaten-
banken bestehend aus akustischen Äußerungen geschätzt. Dabei handelt es sich um soge-
nanntes unüberwachtes Modelltraining, da die Transkription des Sprachsignals bezüglich
44
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
der Zeitspannen der Aktivität einzelner Teilmodelle nicht vorhanden ist. In der Regel besteht
sogar das Problem, dass die Anzahl der Teilmodelle sowie der Aspekt, welches Teilmodell
überhaupt welche Dynamikbereiche modelliert, vollständig unbekannt ist. Auf das Training
der SLDMs wird in Kap. 5.1.3 näher eingegangen.
5.1.2. Modell für die Störung
Die Charakteristik der Störung kann abhängig von der Umgebung stark variieren. Soll der
Einsatzort des Spracherkenners möglichst uneingeschränkt sein, so müsste das Modell für
die Störung alle möglichen Typen angemessen genau beschreiben können. Ein möglicher
Lösungsweg, welcher jedoch eine sehr große und vielfältige Menge an Trainingsdaten er-
fordert, besteht darin, separate Modelle für jede einzelne Art der Störung aufzustellen. Das
Kriterium zur Unterscheidung der Störungen könnte beispielsweise der Grad der Stationa-
rität oder aber die entsprechende Frequenzcharakteristik sein. Während der Merkmalsver-
besserung müsste dann basierend auf dem gestörten Signal das passende Modell gewählt
werden.
Dieser Lösungsansatz wird hier jedoch aufgrund der hohen Anforderung auf die Men-
ge und Vielfalt der Trainigsdaten nicht weiter verfolgt. Statt dessen wird hier von der ver-
einfachten Annahme ausgegangen, dass das Störsignal für kurze Zeitabschnitte, welche die
Dauer einzelner Sprachäußerungen umfassen, seine Charakteristik nicht ändert. Diese Cha-
rakteristik ließe sich im Prinzip ebenfalls durch ein SLDM modellieren, wobei die entspre-
chenden Parameter durch die Verwendung einer VAD innerhalb von Sprachpausen geschätzt
werden könnten. Obwohl zur Beschreibung der Störung in der Literatur bereits lineare dyna-
mische Modelle eingesetzt wurden, wird hier aus zwei Gründen darauf verzichtet und statt
dessen das Modell für die Störung (5.9) durch einen stationären weißen GAUSS’schen Zu-
fallsprozess beschrieben:
pn(s)
mn(s)
m−1,y(s)
1:m−1≈pn(s)
m≈Nn(s)
m;µn,Σn.(5.18)
Der Mittelwertvektor µnund die Kovarianzmatrix Σnwerden dabei als konstant für die Dau-
er einer Sprachäußerung angenommen. Die Gründe für diese Wahl bestehen zum einen darin,
dass SLDMs viele Modellparameter besitzen, so dass für eine zuverlässige Schätzung genü-
gend lange Zeitabschnitte benötigt werden. Dieses verzögert das Nachführen der Modellpa-
rameter zwischen einzelnen Sprachäußerungen. Viel schwerwiegender ist zum anderen die
Tatsache, dass durch die Verwendung eines SLDM die Stabilität der gesamten Merkmalsver-
besserung gefährdet ist. Damit ist gemeint, dass es bei einem SLDM keine Beschränkung des
Wertebereichs für den Schätzwert der Störung gibt, so dass bedingt durch das Zusammen-
spiel der rekursiven Art der Prädiktion durch ein SLDM und die auftretenden Schätzfehler
die geschätzte Trajektorie der Störung vollkommen in die falsche Richtung verlaufen kann.
Dieses Problem kann mit dem oben eingeführten Modell (5.18) nicht auftreten, da keine
Korrelationen zwischen aufeinanderfolgenden Merkmalsvektoren der Störung angenommen
werden und der Mittelwert µnüber der Zeit konstant bleibt.
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
45
5.1.3. Training von SLDMs
Für die Bestimmung der SLDM-Parameter
θ
:=µx,i,Σx,i,Ai,
ν
,bi,Vi,
ψ
i,ai,ki,k∈ {1,...,I},
ν
∈ {1,...,LAR}(5.19)
wird von der gewöhnlich vorherrschenden Situation ausgegangen, dass die Trainingsdaten
aus einer Menge von Nunabhängigen Sprachäußerungen bestehen, welche durch die Menge
der Merkmalsvektorsequenzen
X:=nx(n)
1:Mnn∈ {1,...,N}o(5.20)
repräsentiert werden, wobei x(n)
1:Mndie n-te Merkmalsvektorsequenz und Mnihre Länge an-
gibt. Dabei wird hier aus Gründen der Übersichtlichkeit auf die Kennzeichnung der Art der
Merkmalsvektoren verzichtet.
Die bisher etablierte Methode zur Schätzung der Parametermenge
θ
besteht in der An-
wendung des sogenannten EM-Algorithmus [DLR77]. Dabei handelt es sich um ein itera-
tives Verfahren zur lokalen Verbesserung einer initialen Parametermenge
θ
{0}, wobei das
Kriterium in der Maximierung der sogenannten Likelihoodfunktion
L(
θ
):=p(X|
θ
).(5.21)
besteht. Diese ist ein Maß für die Güte der Modellierung der Trainingsdaten mit Hilfe der
Parametermenge
θ
und hängt daher insbesondere implizit von der Art des Modells zur Be-
schreibung der Dynamik in Xab, was in dem hier betrachteten Fall das SLDM darstellt. Die
direkte Auswertung der Likelihoodfunktion basierend auf einem SLDM würde die Kenntnis
der zu der Xzugehörigen Menge
Z:=n
ζ
(n)
1:Mnn∈ {1,...,N}o(5.22)
von Zustandssequenzen erfordern, welche Auskunft über die Zeiträume der Aktivität ein-
zelner Teilmodelle des SLDM geben. Da diese Zustandssequenzen nicht beobachtbar sind,
wird statt der nicht realisierbaren, direkten Maximierung der Likelihoodfunktion L(
θ
)ein
Hilfsproblem betrachtet. Dazu wird im (l+1)-ten Iterationsschritt die Parametermenge
θ
{l}:=nµ{l}
x,i,Σ{l}
x,i,A{l}
i,
ν
,b{l}
i,V{l}
i,
ψ
{l}
i,a{l}
i,ki,k∈ {1,...,I},
ν
∈ {1,...,LAR}o(5.23)
durch die Maximierung der Hilfsfunktion
Ql+1(
θ
):=Ehlnnp˘
X,˘
Z(X,Z)oX;
θ
{l}i(5.24)
bestimmt. Das nicht vorhandene Wissen über die tatsächlichen Zustandssequenzen wird da-
bei durch eine weiche Entscheidung bezüglich der Aktivität einzelner Teilmodelle beruhend
auf der alten Parametermenge
θ
{l}approximiert. Die Anwendung des Logarithmus auf die
Likelihoodfunktion dient der Vereinfachung der resultierenden Ausdrücke, wobei die Ma-
ximumstelle bedingt durch die strenge Monotonie des Logarithmus nicht verändert wird.
Es kann gezeigt werden [DLR77], dass für die auf diese Weise mit dem EM-Algorithmus
46
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
für l≥1 iterativ bestimmten Parameterschätzungen
θ
{l}die Likelihoodfunktion monoton
wächst, d.h.
L
θ
{l}≥L
θ
{l−1}∀l∈N.(5.25)
Insbesondere konvergiert
θ
{l}für l→∞mit der Wahrscheinlichkeit (WSK) 1 gegen eine
lokale Maximumstelle von L(
θ
). Eine sehr ausführliche Herleitung für die Neuberechnung
der Modellparameter für SLDMs beliebiger Ordnung gemäß dem EM-Algorithmus findet
sich in Kap. A.1 im Anhang. An dieser Stelle werden der Vollständigkeit halber nur die
resultierenden Formeln aufgeführt.
Zunächst werden die auf die Modellparameter
θ
{l}bedingten Zustandswahrscheinlichkei-
ten
η
(n,l)
m(i):=P
ζ
(n)
m=ix(n)
1:Mn;
θ
{l}(5.26)
ξ
(n,l)
m(k,i):=P
ζ
(n)
m=i,
ζ
(n)
m−1=kx(n)
1:Mn;
θ
{l}(5.27)
geschickt durch eine abgewandelte Version des sogenannten BAUM-WELCH-Algorithmus
berechnet (siehe Kap. A.1.1). Die zu
θ
{l+1}gehörenden Parameter erhält man dann durch
µ{l+1}
x,i=
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)x(n)
m
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)
(5.28)
Σ{l+1}
x,i=
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)x(n)
m−µ{l}
x,ix(n)
m−µ{l}
x,iT
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)
(5.29)
V{l+1}
i=
N
∑
n=1
Mn
∑
m=LAR+1
η
(n,l)
m(i)x(n)
m−
LAR
∑
ν
=1
A{l}
i,
ν
x(n)
m−
ν
−b{l}
ix(n)
m−
LAR
∑
ν
=1
A{l}
i,
ν
x(n)
m−
ν
−b{l}
iT
N
∑
n=1
Mn
∑
m=LAR+1
η
(n,l)
m(i)
(5.30)
ψ
{l+1}
i=
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)
N·LAR
(5.31)
a{l+1}
k,i=
N
∑
n=1
Mn
∑
m=LAR+1
ξ
(n,l)
m(k,i)
N
∑
n=1
Mn
∑
m=LAR+1
η
(n,l)
m−1(k)
.(5.32)
Zur Berechnung der Zustandsübergangsmatrizen A{l+1}
i,
ν
,
ν
∈ {1,...,LAR}, und der Biaskor-
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
47
rekturvektoren bimuss für jedes i∈ {1,...,I}das lineare Gleichungssystem
G{l}
i
A{l+1}
i,1T
.
.
.
A{l+1}
i,LAR T
(bi)T
=H{l}
i.(5.33)
gelöst werden, wobei die darin auftretenden Matrizen G{l}
i∈R(LARQ+1)×(LARQ+1)und H{l}
i∈
R(LARQ+1)×Qgemäß
G{l}
i:=
Dx{l}(i)E[1,1]
LAR+1:Mn
... Dx{l}(i)E[1,LAR]
LAR+1:MnDx{l}(i)E[1]
LAR+1:Mn
.
.
.....
.
..
.
.
Dx{l}(i)E[LAR,1]
LAR+1:Mn
... Dx{l}(i)E[LAR,LAR]
LAR+1:MnDx{l}(i)E[LAR]
LAR+1:Mn
Dx{l}(i)E[1]
LAR+1:MnT
... Dx{l}(i)E[LAR]
LAR+1:MnTN
∑
n=1
Mn
∑
m=LAR+1
1
(5.34)
H{l}
i:=
Dx{l}(i)E[1,0]
LAR+1:Mn
.
.
.
Dx{l}(i)E[LAR,0]
LAR+1:Mn
Dx{l}(i)E[0]
LAR+1:MnT
(5.35)
und die in den Matrizen auftretenden Elemente durch
Dx{l}(i)E[
ν
,o]
m′:m′′ :=
N
∑
n=1
m′′
∑
m=m′
η
(n,l)
m(i)x(n)
m−
ν
x(n)
m−oT(5.36)
Dx{l}(i)E[
ν
]
m′:m′′ :=
N
∑
n=1
m′′
∑
m=m′
η
(n,l)
m(i)x(n)
m−
ν
(5.37)
definiert sind.
Gewöhnlich werden die Iterationen so lange ausgeführt, bis ein Abbruchkriterium erfüllt
ist. Hier wird vorgeschlagen, die Iterationen abzubrechen, sobald die mittlere relative Ver-
besserung der Likelihoodfunktion pro einzelne Äußerung, welche durch
δ
(l+1)
L:=exp1
NhlnhL
θ
{l+1}i−lnhL
θ
{l}ii(5.38)
definiert ist, eine vorgegebene Schranke
ε
Lunterschreitet. Dabei wird die mittlere Verbes-
serung
δ
(l+1)
Lbewusst über Loglikelihoodfunktionen definiert, da die entsprechenden Like-
lihoodfunktionen so geringe Werte annehmen, dass sie numerisch nicht berechenbar sind.
48
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Ein offensichtlicher Schwachpunkt des EM-Algorithmus besteht darin, dass er nur ei-
ne lokal optimale Lösung liefert. Zur Überwindung dieses Problems wurde in der bisher
erschienenen Literatur unter anderem die sogenannte deterministische Abkühlung (engl.
deterministic annealing) [UN98] vorgeschlagen, welche eine geeignete Modifikation des
EM-Algorithmus vornimmt. Dabei wird eine Parallele zur statistischen Mechanik gezogen,
die auf der Feststellung beruht, dass der Ausdruck für die negative Loglikelihoodfunktion
−ln[L(
θ
)] äquivalent zu dem für die sogenannte freie Energie eines thermodynamischen
Systems bei einer bestimmten festen Temperatur formuliert werden kann. In diesem Sinne
kann die Maximierung der Likelihoodfunktion als Minimierung der freien Energie des ent-
sprechenden Systems interpretiert werden. Das Besondere an der Feststellung dieser Ana-
logie ist die Tatsache, dass sich die Minimierung in der Regel deutlich vereinfacht, wenn
die Temperatur gegen den absoluten Nullpunkt strebt. Denn für den Grenzfall des absoluten
Nullpunktes sind die Zustandswahrscheinlichkeiten (5.26) für alle i∈ {1,...,I}gleich und
hängen insbesondere nicht von
θ
{l}ab. Daher besitzt dann die freie Energie als Funktion
der Parametermenge
θ
nur eine einzige globale Minimumstelle, die mit der lokalen über-
einstimmt und sofort angegeben werden kann. Durch die stetige Erhöhung der Temperatur
findet eine stetige Deformation der Energiefunktion statt, bis sie beim Erreichen der Aus-
gangstemperatur in die negative Loglikelihoodfunktion übergeht, die gewöhnlich eine sehr
komplexe Gestalt mit vielen lokalen Minimumstellen aufweist. Die Idee des Ansatzes liegt
nun darin, für vom Nullpunkt bis zur Ausgangstemperatur wachsende, diskrete Temperatu-
ren die lokalen Minimumstellen der Energiefunktion zu bestimmen und anzunehmen, dass
man bedingt durch die stetige Deformation in jedem Schritt auch tatsächlich die globalen Mi-
nimumstellen erhält. Es sei jedoch betont, dass auch dieses Verfahren keine global optimale
Lösung garantiert. Aufgrund dieses Problems sind Initialisierungsstrategien erforderlich, um
eine geeignete Modellparametermenge
θ
{0}zu bestimmen. Dieses Problem wird im nächs-
ten Abschnitt behandelt.
Ein weiterer Nachteil des EM-Algorithmus besteht in dem verwendeten Kriterium der
Maximierung der Likelihoodfunktion L(
θ
)zur Berechnung der Parametermenge
θ
. Denn
eine besonders gute Modellierung der Trainingsdaten durch ein SLDM, die in einem großen
Wert der Likelihoodfunktion zum Ausdruck kommt, muss nicht zwangsweise zu einer be-
sonders geringen Wortfehlerrate nach der Merkmalsverbesserung führen, die mit demselben
SLDM durchgeführt wurde. Bedauerlicherweise existieren in der Literatur, soweit es dem
Autor bekannt ist, bisher keine im Zusammenhang mit der Wortfehlerrate stehenden Kriteri-
en zum Training von SLDMs. Ein möglicher Grund dafür liegt sicherlich in der sehr hohen
Komplexität derartiger Kriterien bedingt durch die notwendige Berücksichtigung der Struk-
tur des Erkenners sowie des gesamten Prozesses der Merkmalsverbesserung. Basierend auf
diesen Ausführungen wird in dieser Arbeit trotz der angesprochenen Diskrepanz der EM-
Algorithmus verwendet.
5.1.4. Initialisierung von SLDM-Parametern
Dem Thema der Initialisierung von SLDM-Parametern wurde in der Literatur bisher nur mä-
ßige Beachtung geschenkt. Dabei sind die dafür soweit vorhandenen Methoden insofern un-
zufriedenstellend, als dass sie nicht speziell für die Initialisierung von SLDM-Parametern
entwickelt wurden, sondern sich eher behelfsmäßig an Verfahren zur Initialisierung von
GMM-Parametern orientieren. Soweit dem Autor bekannt existieren hauptsächlich zwei An-
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
49
sätze, die in unterschiedlichen Variationen ausgeführt werden können.
Beim ersten Ansatz wird die Anzahl der Teilmodelle von 1 bis zu der gewünschten Anzahl
Iiterativ erhöht. Die Methode beruht auf der Tatsache, dass im Falle nur eines Teilmodells
sich diejenigen SLDM-Parameter
θ
, welche die Likelihoodfunktion L(
θ
)maximieren, in
einem Schritt direkt berechnen lassen. Denn bei nur einem vorhandenen Modell stellt sich
offensichtlich die Frage nach den Zeiträumen der Modellaktivität nicht, so dass für die be-
dingte Modellwahrscheinlichkeit in (5.26) stets
η
(n,l)
m(i) = 1∀m,n,lgilt. Nun wird eine
iterative Erhöhung der Teilmodellanzahl durch eine Spaltung der bisher gefundenen Teil-
modelle vollzogen. Ein bestehendes Teilmodell gekennzeichnet durch die Modellparameter-
menge
θ
{i}wird dabei jeweils in zwei neue Teilmodelle mit den Parametermengen
θ
{i1}
und
θ
{i2}dadurch aufgeteilt, indem sowohl der GMM-Mittelwertvektor µx,ials auch der
Biaskorrekturvektor bijeweils in zwei entgegengesetzte Richtungen gemäß
µx,i1:=µx,i+
β
UΣx,iqdiagΛΣx,i(5.39)
µx,i2:=µx,i−
β
UΣx,iqdiagΛΣx,i(5.40)
und
bi1:=bi+
β
UViqdiag{ΛVi}(5.41)
bi2:=bi−
β
UViqdiag{ΛVi}(5.42)
mit einem Skalierungsfaktor 0 <
β
<1 perturbiert wird, wobei die Anwendung von diag{·}
auf eine Matrix derart zu verstehen ist, dass sie einen Vektor liefert, dessen Einträge aus
den Elementen der Hauptdiagonalen der Matrix bestehen. Außerdem ist die Anwendung
der Wurzel auf einen Vektor komponentenweise zu interpretieren. Die Richtungen der Ver-
schiebungen werden durch Eigenwertzerlegungen der beiden Kovarianzmatrizen Viund Σx,i
entsprechend
Vi=UViΛViUT
Vi(5.43)
Σx,i=UΣx,iΛΣx,iUT
Σx,i(5.44)
bestimmt. Die Kovarianzmatrizen der neuen Teilmodelle werden beide gleich gemäß
Vi1=Vi2:=1−
β
2Vi(5.45)
Σx,i1=Σx,i2:=1−
β
2Σx,i(5.46)
herunter skaliert. Diese Wahl der Skalierung stellt sicher, dass die KULLBACK-LEIBLER-
Divergenz zwischen den Verteilungsdichtefunktionen des Prädiktionsfehlers vor und nach
der Modellspaltung minimiert wird. Bedingt durch die Erhöhung der Modellanzahl werden
die Zustands- und Zustandsübergangswahrscheinlichkeiten
ψ
iund ai,kderart angepasst, dass
die durch die Spaltung entstandenen Teilmodelle jeweils die gleiche Wahrscheinlichkeit auf-
weisen. Die übrigen SLDM-Parameter bleiben bei der Spaltung unverändert.
In der Regel werden zwischen den einzelnen Spaltungen einige EM-Iteration zur Ver-
feinerung der neu entstandenen Teilmodelle durchgeführt. Variationen dieses Ansatzes un-
terscheiden sich weiterhin darin, ob in jedem Schritt alle vorhandenen oder nur die wahr-
scheinlichsten Teilmodelle gespaltet werden. Die beschriebene Art der iterativen Modellspal-
tung ist vom GMM-Training übernommen. Sie findet beispielsweise Einsatz im sogenannten
50
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Hidden MARKOV Modell Toolkit (HTK) [YEG+06], einer Programmbibliothek zur Erstel-
lung und zum Training von HMMs, welche an der Universität Cambridge entwickelt wurde.
Der zweite Ansatz zur Initialisierung von SLDMs basiert auf der Idee einer initialen Clus-
terbildung [DBY07]. Zur Initialisierung von I GMM-Mittelwertvektoren µx,iwerden zu-
nächst IVektoren gemäß einer Gleichverteilung aus der Menge
X1:LAR :=nx(n)
mm∈ {1,...,LAR},n∈ {1,...,N}o(5.47)
der LAR ersten Merkmalsvektoren aller Trainingsäußerungen gezogen. Diese bilden die ini-
tialen Clusterzentren. Anschließend werden diese Zentren durch beispielsweise den soge-
nannten K-MEANS- oder FUZZY-K-MEANS-Algorithmus [DHS01] iterativ verbessert. Die
Kovarianzmatrizen Σx,isowie Zustandswahrscheinlichkeiten
ψ
ilassen sich empirisch basie-
rend auf einer harten Zuordnung der Elemente aus X1:LAR zu den Clusterzentren berechnen.
Eine Übertragung dieses Verfahrens auf SLDMs lässt sich dadurch bewerkstelligen, in-
dem zunächts davon ausgegangen wird, dass das SLDM die Ordnung LAR =1 besitzt und
entsprechend alle Zustandsübergangsmatrizen Ai,
ν
für 1 <
ν
≤LAR und 1 ≤i≤Igleich
der Nullmatrix gesetzt werden. Die Zustandsübergangsmatrix Ai,1wird zur Einheitsmatrix
gesetzt und anschließend die initialen Biaskorrekturvektoren bidurch die Gruppierung der
Menge
∆X:=nx(n)
m+1−x(n)
mm∈ {1,...,Mn−1},n∈ {1,...,N}o(5.48)
bestehend aus den Differenzen aufeinanderfolgender Merkmalsvektoren bestimmt. Die Zu-
standsübergangswahrscheinlichkeiten ai,ksowie die Prädiktionsfehlerkovarianzmatrizen Vi
werden auch hier empirisch durch eine harte Zuordnung der Vektoren aus der Menge ∆Xzu
den einzelnen Teilmodellen ermittelt.
Der Nachteil der beiden Initialisierungsverfahren im Hinblick auf die Initialisierung der
SLDM-Parameter besteht darin, dass sich alle berechneten Teilmodelle sehr stark ähneln,
da insbesondere die Zustandsübergangsmatrizen Ai,
ν
aller Teilmodelle gleich sind. Dieses
widerspricht jedoch der Absicht, dass einzelne Teilmodelle möglichst unterschiedliche Dy-
namikbereiche der Sprachmerkmalsvektortrajektorie repräsentieren sollen.
Basierend auf dieser Diskrepanz wurde ein neuartiges stochastisches Verfahren zur Initia-
lisierung von SLDMs entwickelt, welches bereits vom Autor in [KLHU+10] veröffentlicht
wurde und in dieser Arbeit zum Teil erheblich modifiziert wurde. Es handelt sich dabei um
ein stochastisches Verfahren, welches sehr stark an den K-MEANS++-Algorithmus [AV07]
angelehnt ist und dessen Ziel darin besteht, möglichst signifikant unterschiedliche Teilmo-
delle zur Repräsentation der Trainingsdaten zu finden.
Genauer gesagt lässt sich die Initialisierung in zwei unabhängige Probleme aufteilen,
wenn man von der nicht besonders einschränkenden Annahme ausgeht, dass die Zustands-
übergangswahrscheinlichkeiten für den Segmentindex m=LAR alle gleich sind, d.h.
P
ζ
LAR+1=i
ζ
LAR =k=1
I∀i,k∈ {1,...,I}.(5.49)
Während das erste Problem darin besteht, initiale GMM-Parameter µx,i,Σx,iund
ψ
izu
finden, besteht das zweite Problem in der Bestimmung der initialen Parameter Ai,
ν
,bi,Viund
ai,kdes autoregressiven dynamischen Modells. Im Folgenden werden Lösungsvorschläge für
beide Probleme detailliert dargestellt.
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
51
Initialisierung der GMM-Parameter
Das hier vorgestellte Verfahren zur Initialisierung der GMM-Parameter ist durch Alg. 1 be-
schrieben und lässt sich in zwei Teile gliedern.
Im ersten Teil werden GMM-Mittelwertvektoren µx,igemäß der stochastischen Initiali-
sierung des K-MEANS++Algorithmus bestimmt, wobei das Ziel in der Minimierung des
Gesamtabstandes
DINIT :=∑
x(n)
m∈X1:LAR
min
1≤i≤I
µx,i−x(n)
m
2(5.50)
besteht. Dabei werden nacheinander die GMM-Mittelwertvektoren µx,1,...,µx,Izufällig
aus der Menge X1:LAR gezogen. Das besondere an der K-MEANS++-artigen Initialisierung
sind die Wahrscheinlichkeiten, die für die Ziehung einzelner Merkmalsvektoren verwen-
det werden. Bei der Ziehung des ersten GMM-Mittelwertvektors µx,1sind alle Merkmals-
vektoren aus X1:LAR gleich wahrscheinlich, wobei dazu die Annahme verwendet wird, dass
es keinen offensichtlichen Grund gibt, bestimmte Vektoren zu bevorzugen. Für alle wei-
teren Ziehungen werden die Wahrscheinlichkeiten für einzelne Merkmalsvektoren propor-
tional zu ihrem minimalen quadratischen EUKLIDISCHEN Abstand zu allen bisher gezoge-
nen GMM-Mittelwertvektoren gewählt. Durch diese Art der Wahl der Wahrscheinlichkeiten
soll verhindert werden, dass Merkmalsvektoren, die zu nah an den bisher gezogenen GMM-
Mittelwertvektoren liegen, als neue GMM-Mittelwertvektoren ausgewählt werden. Die sto-
chastische Komponente des Algorithmus ist motiviert durch das Bestreben, die Wahrschein-
lichkeit für die Wahl von eventuellen Ausreißern als GMM-Mittelwertvektoren zu minimie-
ren, da Ausreißer per Definition natürlich einen großen Abstand zu allen Vektoren aufweisen,
wobei ihre Anzahl jedoch sehr gering ist. Die Gesamtdistanz DINIT kann für jede einzelne
Initialisierung als Realisierung einer Zufallsvariablen ˜
DINIT angesehen werden, deren Erwar-
tungswert das folgende Optimalitätskriterium [AV07]
E˜
DINIT ≤8[ln(I)+2]DINIT,OPT (5.57)
erfüllt, wobei DINIT,OPT die minimal erreichbare Gesamtdistanz bei gegebener Menge der
Merkmalsvektoren X1:LAR bezeichnet.
Der zweite Teil des Algorithmus behandelt die Initialisierung der Kovarianzmatrizen Σx,i
und Teilmo-dellwahrscheinlichkeiten
ψ
i. Dazu erfolgt zunächst eine Zuordnung aller Merk-
malsvektoren aus X1:LAR zu den einzelnen GMM-Mittelwertvektoren µx,i. Mit den aus der
Zuordnung resultierenden Clustern Mivon Merkmalsvektoren lassen sich die Kovarianz-
matrizen Σx,ials empirische Kovarianzmatrizen aller Vektoren in Mibezüglich µx,igemäß
(5.55) und die Teilmodellwahrscheinlichkeiten
ψ
ials relative Anzahl der Merkmalsvektoren
in Migemäß (5.56) berechnen.
Initialisierung der SLDM-Parameter
Für die Initialisierung der Parameter Ai,
ν
,bi,Viund ai,kdes autoregressiven dynamischen
Modells wird die Ansatz der K-MEANS++-artigen Initialisierung geeignet modifiziert. Da-
bei wird jedoch die einschränkende Annahme gemacht, dass die Zustandsübergangsmatrizen
Ai,
ν
für
ν
>1 alle zur Nullmatrix gesetzt werden. Der Grund dafür wird an einer späteren
52
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Algorithmus 1 Initialisierung der GMM-Parameter
Für i=1..I
1. Ziehe einen Merkmalsvektor x(ni)
miaus der Menge X1:LAR zufällig mit der Wahr-
scheinlichkeit
Px(ni)
mi:=
1
N·LAR falls i=1
Dx(ni)
mi
N
∑
n=1
LAR
∑
m=1
Dx(n)
msonst
,(5.51)
wobei
Dx(n)
m:=min
1≤k≤i−1
µx,k−x(n)
m
2(5.52)
den minimalen quadratischen EUKLIDISCHEN Abstand des Merkmalsvektors
x(n)
mzu allen zuvor gezogenen GMM-Mittelwertvektoren bezeichnet.
2. Initialisiere den i-ten GMM-Mittelwertvektor durch µx,i:=x(ni)
mi.
Ende für
Für i=1..I
1. Berechne die Menge der zum i-ten Cluster zugeordneten Merkmalsvektoren
Mi:=nx(n)
m∈X1:LAR Ω(n)
m=io(5.53)
mit
Ω(n)
m=argmin
1≤k≤I
µx,k−x(n)
m
2.(5.54)
2. Initialisiere die Kovarianzmatrizen des Prädiktionsfehlers durch
Σx,i=1
|Mi|∑
x(n)
m∈Miµx,i−x(n)
mµx,i−x(n)
mT,(5.55)
wobei |·|die Kardinalität einer Menge bezeichnet.
3. Initialisiere die Teilmodellwahrscheinlichkeiten durch
ψ
i:=|Mi|
N·LAR
.(5.56)
Ende für
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
53
Stelle ersichtlich. Dessen ungeachtet sind alle Zustandsübergangsmatrizen Ai,1nach der Ini-
tialisierung im Allgemeinen unterschiedlich.
Die Initialisierung lässt sich auch in diesem Fall in zwei Teile separieren.
Im ersten Teil, der in Alg. 2 dargestellt ist, werden nacheinander die Parametermengen
S1,...,SImit
Si:=Ai,1,bi,Vi(5.58)
auf Merkmalsvektorsequenzen x(ni)
mi:mi+LS−1der Länge LSbestimmt, welche nacheinander zu-
fällig aus der Menge aller möglichen Sequenzen
XSEQ,LS:=nx(n)
m:m+LS−1m∈ {LAR,...,Mn−LS+1},n∈ {1,...,N}o(5.59)
gezogen werden. Im Gegensatz zur GMM-Initialisierung, wo einzelne Merkmalsvektoren
als Repräsentanten eines Clusters angesehen werden, werden hier nun die auf den gezoge-
nen Merkmalsvektorsequenzen bestimmten Parametermengen Sials Repräsentanten eines
Clusters verstanden.
Im Folgenden wird auf zwei Fragestellungen eingegangen, welche bei diesem Ansatz re-
levant sind:
1. Nach welchem Kriterium bestimmt man die Parametermenge Siberuhend auf der
gewählten Sequenz x(ni)
mi:mi+LS−1?
2. Nach welchem Kriterium wählt man die Sequenz x(ni)
mi:mi+LS−1zur Berechnung der Pa-
rameter Siaus?
Zur Lösung des ersten Problems wird hier vorgeschlagen, die Zustandsübergangsmatrix
Ai,1und den Biaskorrekturvektor bimit Hilfe von linearer Regression auf der Merkmals-
vektorsequenz x(ni)
mi:mi+LS−1zu bestimmen. Dazu wird die Lösung der kleinsten Quadrate des
linearen Gleichungssystems (5.67) berechnet. Es sei ausdrücklich darauf hingewiesen, dass
die Minimierung der Norm der Fehlerquadrate das Kriterium der Maximierung der Like-
lihoodfunktion px(ni)
mi:mi+LS−1Simpliziert, wenn man von der Nebenbedingung (5.68)
an die Zustandsübergangsmatrix Ai,1absieht. Dieses lässt sich daran erkennen, dass sich das
zur Maximierung der Likelihoodfunktion zu lösende, zuvor hergeleitete Gleichungssystem
(5.33) unter Beachtung der Annahme Ai,
ν
=0für
ν
>1 und der Tatsache, dass nur ein
Teilmodell für die Erzeugung der Sequenz x(ni)
mi:mi+LS−1verantwortlich ist, zu
LS−2
∑
m′=0
x(ni)
mi+m′x(ni)
mi+m′TLS−2
∑
m′=0
x(ni)
mi+m′
LS−2
∑
m′=0x(ni)
mi+m′TLS−1
AT
i,1
bT
i=
LS−2
∑
m′=0
x(ni)
mi+m′x(ni)
mi+m′+1T
LS−2
∑
m′=0x(ni)
mi+m′+1T
(5.60)
reduziert. Dabei handelt es sich jedoch um die sogenannte Normalengleichung zum Glei-
chungssystem (5.67), weshalb die Lösung der kleinsten Quadrate von (5.67) implizit eine
Lösung von (5.60) darstellt.
54
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Algorithmus 2: Initialisierung der SLDM-Parameter (Teil 1)
Setze i:=1.
Solange (i≤I)
1. Ziehe eine Merkmalsvektorsequenz x(ni)
mi:mi+LS−1der Länge LSaus der Menge XSEQ,LS
aller möglichen Merkmalsvektorsequenzen mit der Wahrscheinlichkeit
Px(ni)
mi:mi+LS−1:=
1
N
∑
n=1
Mn−LS−LAR+2
falls i=1
DS1:i−1x(ni)
mi:mi+LS−1
N
∑
n=1
Mn−LS+1
∑
m=LAR
DS1:i−1x(n)
m:m+LS−1sonst
,(5.61)
wobei
DS1:i−1x(n)
m:m+LS−1:=min
1≤k≤i−1DSk|1:i−1x(n)
m:m+LS−1(5.62)
mit
DSk|1:i−1x(n)
m:m+LS−1:=max
−ln
px(n)
m:m+LS−1Sk
max
1≤i′≤i−1px(ni′)
mi′:mi′+LS−1Si′
,0
(5.63)
px(n)
m:m+LS−1Sk:=
LS−1
∏
o=1
Nx(n)
m+o;Ak,1x(n)
m+o−1+bk,Vk(5.64)
=
LS−1
∏
o=1
Ne(n)
m+o,k;0,Vk(5.65)
e(n)
m+o,k:=x(n)
m+o−Ak,1x(n)
m+o−1+bk(5.66)
den minimalen Abstand der Sequenz x(n)
m:m+LS−1zu der Menge der bisher
initialisierten Teilmodelle S1:i−1bezeichnet.
2. Berechne die Zustandsübergangsmatrix Ai,1und den Biaskorrekturvektor bials
Lösung der kleinsten Quadrate des linearen Gleichungssystems
Ai,1bi"x(ni)
mi... x(ni)
mi+LS−2
1... 1#=hx(ni)
mi+1... x(ni)
mi+LS−1i(5.67)
unter der Nebenbedingung
Ai,1[r,s] = 0 für |r−s|>LS
2−2,(5.68)
wobei ⌊·⌋die Rundung auf die nächstkleinere oder gleich große, ganze Zahl bedeutet
und Ai,1[r,s]das Element in der r-ten Zeile und s-ten Spalte der Matrix Ai,1
bezeichnet.
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
55
3. Berechne die Kovarianzmatrix des Prädiktionsfehlers Vigemäß
Vi=1
LS−1
LS−1
∑
o=1e(ni)
mi+o,ie(ni)
mi+o,iT+
ε
V·diag
e(ni)
mi+o,i
2,...,
e(ni)
mi+o,i
2.
(5.69)
mit einem Regularisierungsfaktor 0 <
ε
V≪1.
4. Für k=1..i
a) Berechne die Menge der zum k-ten Teilmodell zugeordneten
Merkmalsvektorsequenzen
MSEQ,k(i):=nx(n)
m:m+LS−1∈XSEQ,LSΩ(n)
SEQ,m(i) = ko(5.70)
mit
Ω(n)
SEQ,m(i):=argmin
1≤i′≤i
DSi′|1:ix(n)
m:m+LS−1.(5.71)
b) Berechne die Teilmodellwahrscheinlichkeiten empirisch durch
Pk:=MSEQ,k(i)
N
∑
n=1
Mn−LS−LAR +2
.(5.72)
Ende für
5. Berechne die maximale Teilmodellwahrscheinlichkeit PMAX :=max
1≤k≤iPkund die
Indexmenge aller wohl repräsentierten Teilmodelle
I:=k|1≤k≤i,Pk≥
ε
P,REL ·PMAX.(5.73)
wobei
ε
P,REL eine Konstante mit 0 <
ε
P,REL <1 bezeichnet.
6. Verwerfe alle Teilmodelle k/∈Iund vergib neue, eindeutige Indizes {1,...,|I|}an
die Teilmodelle k∈I.
7. Setze i:=|I|+1.
Ende solange
Die Kovarianzmatrix Viwird gemäß (5.69) berechnet, wobei der zweite Summand in
(5.69) einen Regularisierungsterm darstellt, welcher die Invertierbarkeit von Vigewährleis-
tet. Sieht man von diesem Term ab, so verläuft die Berechnung der Kovarianzmatrix eben-
falls im Sinne der Maximierung der Likelihoodfunktion px(ni)
mi:mi+LS−1S, was aus einem
Vergleich von (5.69) und (5.30) ersichtlich wird.
Das zweite Problem, nämlich die Wahl der Merkmalsvektorsequenz x(ni)
mi:mi+LS−1, wird hier
mit demselben stochastischen Prinzip angegangen, dass der K-MEANS++-artigen Initiali-
sierung zugrunde liegt. Dazu kommen bei der Ziehung der ersten Sequenz x(n1)
m1:m1+LS−1alle
Sequenzen in XSEQ,LSgleich wahrscheinlich in Betracht, während die Wahrscheinlichkeit
für die Sequenzen zur Bestimmung der weiteren Parametermengen Si,i>1, proportional
56
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
zu ihrem minimalen Abstand (5.62) zu den bisher initialisierten Teilmodellen gesetzt wird.
Der Abstand einer Merkmalsvektorsequenz x(n)
m:m+LS−1zu einem durch die Parametermen-
ge Sk, 1 ≤k<idefinierten, bereits bestimmten Teilmodell wird dabei durch die negative,
normierte und nach unten durch Null beschränkte Loglikelihoodfunktion (5.63) definiert.
Diese Wahl lässt sich anschaulich derart interpretieren, dass die negative Loglikelihood-
funktion −lnhpx(n)
m:m+LS−1Skiumso größere Werte annimmt, je schlechter die Sequenz
x(n)
m:m+LS−1durch die Modellparametermenge Sidargestellt wird. Die Normierung gewähr-
leistet die Tatsache, dass die zur Berechnung der bisherigen Parametermengen Sk, 1 ≤k<i,
jeweils verwendeten Merkmalsvektorsequenzen x(nk)
mk:mk+LS−1einen nichtnegativen Abstand
erhalten, wobei die am besten modellierte Merkmalsvektorsequenz den Abstand Null er-
hält. Da es rein theoretisch möglich wäre, dass eine beliebige Merkmalsvektorsequenz in
der Menge XSEQ,LSdurch ein bereits bestimmtes Teilmodell Skbesser repräsentiert wird als
die Sequenz x(nk)
mk:mk+LS−1selbst, so dass der resultierende Abstand ein negatives Vorzeichen
erhielte, wird in diesem Fall der Abstand zu Null gesetzt. Eine solche Sequenz würde daher
nicht für die Bestimmung weiterer Teilmodelle in Betracht gezogen werden, da sie bereits
mit zufriedenstellender Genauigkeit durch die bestehenden Teilmodelle beschrieben wäre.
Ein weiterer Aspekt, dem besondere Beachtung geschenkt werden muss, ist die Wahl der
Länge LSder Merkmalsvektorsequenzen. Dabei müssen zwei gegensätzliche Argumente be-
achtet werden. Einerseits sollte die Sequenzlänge LSbesonders groß gewählt werden, um
die Unterbestimmtheit des zur linearen Regression verwendeten Gleichungssystems (5.67)
im Sinne der Bestimmung von aussagekräftigen Teilmodellen zu vermeiden. Zudem sollte
berücksichtigt werden, dass eine gewisse Mindestlänge bereits aufgrund der Trägheit des
menschlichen Vokaltraktes sinnvoll ist. Andererseits ist eine kürzere Sequenzlänge zu be-
vorzugen, da die Approximation eines instationären stochastischen Prozesses, als dessen
Realisierungen die Merkmalsvektorsequenzen per Annahme angesehen werden, durch die
Verwendung eines einzelnen linearen autoregressiven Modells nur lokal sinnvoll ist.
Hier wird der lokalen Charakterisierung durch einzelne lineare Teilmodelle eine höhere
Priorität beigemessen, da dieses insbesondere in Übereinstimmung mit dem Ziel der In-
itialisierung von möglichst unterschiedlichen Teilmodellen steht. Die zur Vermeidung der
Unterbestimmtheit des Gleichungssystems (5.67) gestellte Anforderung an eine große Se-
quenzlänge wird deshalb durch die Einführung der Nebenbedingung (5.68) abgeschwächt,
gemäß derer alle Zustandsübergangsmatrizen Ai,1nach der Initialisierung eine Bandstruktur
aufweisen müssen. Eine solche Nebenbedingung beschränkt die Anzahl der zu initialisieren-
den Parameter erheblich. Sie ist jedoch auch aus physikalischer Sicht sinnvoll, wenn, wie
hier, beliebige Arten von spektralen Sprachmerkmalsvektoren betrachtet werden, bei denen
Korrelationen vorwiegend zwischen benachbarten Vektorkomponenten auftreten.
Den gleichen Zweck wie die Einführung der Nebenbedingung (5.68) verfolgt auch das zu
Beginn von Kap. 5.1.4 angesprochene Nullsetzen aller Zustandsübergangsmatrizen Ai,
ν
für
ν
>1, das als zusätzliche Nebenbedingung angesehen werden kann. Ohne dieses Vorgehen
müsste die minimale Sequenzlänge LSentsprechend LAR mal so groß sein, um genügend
Bestimmungsgleichungen zur Initialisierung aller Zustandsübergangsmatrizen zu erhalten.
Bedingt durch die stochastische Natur des Algorithmus kann gelegentlich die Situation
auftreten, dass Ausreißer innerhalb der Menge der gezogenen Merkmalsvektorsequenzen
auftreten. Um diesem Problem zu begegnen, werden nach der Initialisierung des i-ten Teil-
modells zunächst die empirischen Teilmodellwahrscheinlichkeiten Pk, 1 ≤k≤i, durch eine
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
57
harte Zuordnung aller Sequenzen in XSEQ,LSzu den bisher initialisierten Teilmodellen gemäß
(5.72) berechnet. Danach werden alle unterrepräsentierten Teilmodelle k, welche
Pk≤
ε
P,REL ·max
1≤k′≤iPk′(5.74)
erfüllen, verworfen. Die Konstante
ε
P,REL mit 0 <
ε
P,REL <1 gibt dabei an, wie zahlreich
ein Teilmodell mindestens im Verhältnis zum am besten repräsentierten Teilmodell vertreten
sein sollte, um nicht verworfen zu werden.
Nachdem alle Parametermengen Si, 1 ≤i≤I, bestimmt sind, lassen sich die verbleiben-
den Zustandsübergangswahrscheinlichkeiten ak,igemäß Alg. 3 im Wesentlichen mit Hilfe
einer Zuordnung von Tupeln zweier aufeinanderfolgender Sequenzen zu jeweils zwei auf-
einanderfolgenden Teilmodellen berechnen. Man beachte hierbei die große Ähnlichkeit zur
Verfeinerung der Zustandsübergangswahrscheinlichkeiten gemäß (5.32) bei der Durchfüh-
rung des EM-Algorithmus.
Algorithmus 3 Initialisierung der SLDM-Parameter (Teil 2)
Für i=1..I
•Berechne die Menge der zum i-ten Cluster zugeordneten Merkmalsvektorsequenzen
MSEQ,i(I).
Ende für
Für i=1..I
Für k=1..I
a) Berechne die Menge von Merkmalsvektorsequenztupeln
MSEQ,k,i(I):=nx(n)
m:m+LS−1,x(n)
m+1:m+LSΩ(n)
SEQ,m(I) = k,Ω(n)
SEQ,m+1(I) = i,
m∈ {LAR,...,Mn−LS},n∈ {1,...,N}o,(5.75)
b) Setze die Zustandsübergangswahrscheinlichkeiten zu ak,i=|MSEQ,k,i(I)|
|MSEQ,k(I)|.
Ende für
Ende für
5.2. Beobachtungsmodell
Im Folgenden wird ein Beobachtungsmodell hergeleitet, welches einen Zusammenhang zwi-
schen den LMSK-Vektoren des verhallten und gestörten Sprachsignals, y(s)
m, und den LMSK-
Vektoren des sauberen Sprachsignals, x(s)
m, sowie denjenigen des Störsignals, n(s)
m, beschreibt.
58
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Den Ausgangspunkt dazu bildet die Beschreibung des verhallten und gestörten Sprachsignals
y(l)im Zeitbereich, wonach es durch die Überlagerung des verhallten Sprachsignals s(l)mit
einem Störsignal n(l)entsteht, d. h.
y(l) = s(l)+n(l).(5.76)
Das verhallte Sprachsignal s(l)geht dabei aus der Faltung des sauberen Sprachsignals x(l)
mit der RIA h(l)vom Sprecher zum Mikrophon hervor
s(l) = (x∗h)(l) =
Lh−1
∑
p′=0
h(p′)x(l−p′).(5.77)
Um zu einem handhabbaren analytischen Ausdruck im Beobachtungsmodell zu gelangen,
wird dabei zunächst in (5.77) die vereinfachende Annahme gemacht, dass die RIA h(l)zeit-
invariant und kausal ist und mit einer endlichen Anzahl von Abtastwerten Lhausreichend
approximiert werden kann, d.h.
h(l) = 0 für l<0∧l≥Lh.(5.78)
Ausgehend von den Modellen (5.76) und (5.77) wird nun zunächst ein exakter Zusammen-
hang zwischen den Kurzzeit-Spektren der auftretenden Zeitsignale x(l)und n(l)und y(l)
dargelegt. Anschließend wird ein auf (5.76) basierender, approximativer Zusammenhang
zwischen den LMSK-Vektoren y(s)
m,x(s)
mund n(s)
mformuliert, welcher die Grundlage für das
Beobachtungsmodell bildet.
5.2.1. Zusammenhang im Zeit-Frequenz-Bereich
Aufgrund der Linearität der DTSTFT folgt aus (5.76) direkt
Y(m,k) = S(m,k)+N(m,k).(5.79)
Um das Kurzzeit-Spektrum des verhallten Signals S(m,k)durch das des sauberen Sprachsi-
gnals X(m,k)darstellen zu können, muss die Annahme getroffen werden, dass die Kurzzeit-
Spektren durch Überabtastung berechnet werden. Dieses bedeutet, dass die Parameter zur
Berechnung der Kurzzeit-Spektren, nämlich die Länge des Analysefensters Lw, der Fenster-
vorschub Bund die Anzahl der Frequenzbins Kbei der DFT, so gewählt werden, dass sie
die beiden Bedingungen
B≤K(5.80)
B≤Lw(5.81)
erfüllen. Weiterhin soll sogar von der stärkeren Bedingung
B≤Lw≤K(5.82)
ausgegangen werden, die gemäß Tab. 2.1 bei der Merkmalsextraktion gemäß [ETSb] erfüllt
wird.
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
59
Im Fall der Überabtastung lässt sich das verhallte Signal s(l)mit Hilfe seiner GABOR-
Reihe [WR90, FR94]
s(l) =
∞
∑
m=−∞
K−1
∑
k=0
σ
m,k·wS(l−mB)ej2
π
Kkl (5.83)
darstellen, wobei die GABOR-Koeffizienten
σ
m,kdurch
σ
m,k=S(m,k)e−j2
π
KkmB (5.84)
mit dem Kurzzeit-Spektrum zusammenhängen. Dabei bezeichnet wS(l)ein zum Analyse-
fenster biorthogonales Synthesefenster, welches die sogenannte Vollständigkeitsbedingung
[FR94, Gl. (21)]
∞
∑
m=−∞
K−1
∑
k=0
wS(l−mB)wA(p′−mB)ej2
π
Kk(l−p′)=
δ
l−p′für l,p′∈Z(5.85)
erfüllt. Unter der Annahme, dass das Synthesefenster den gleichen Träger wie das Analyse-
fenster besitzt, d.h.
wS(l′) = 0 für l′<0∧l′≥Lw,(5.86)
lässt sich zeigen, dass sich die Vollständigkeitsbedingung (5.85) zu
∞
∑
m=−∞
wS(l−mB)wA(l−mB) = 1
Kfür 0 ≤l<B(5.87)
vereinfacht. Der entsprechende Beweis sowie die Herleitung einer einfachen Vorschrift für
die Berechnung eines Synthesefensters wS(l′)zu einem gegebenem Analysefenster wA(l′)
findet sich in Kap. A.2.1 im Anhang. Da das Synthesefenster im Allgemeinen nicht ein-
deutig bestimmt ist, wird die Berechnung desjenigen Synthesefensters betrachtet, welches
die kleinste ℓ2-Norm besitzt und damit die größtmögliche Konzentration im Zeitbereich auf-
weist [QC93].
Wird (5.84) in (5.83) eingesetzt, ergibt sich
s(l) =
∞
∑
m=−∞
wS(l−mB)
K−1
∑
k=0
S(m,k)·ej2
π
Kk(l−mB)(5.88)
und es lässt sich erkennen, dass sich das verhallte Signal s(l)perfekt aus seinem Kurzzeit-
Spektrum S(m,k)rekonstruieren lässt. Diese Art der Rekonstruktion ist in der englischspra-
chigen Literatur unter dem Namen Weighted Overlap Add (WOLA) bekannt [CR83].
Die bisher dargestellten Ergebnisse und insbesondere (5.88) gelten natürlich in gleicher
Weise für das saubere Sprachsignal x(l)
x(l) =
∞
∑
m=−∞
wS(l−mB)
K−1
∑
k=0
X(m,k)·ej2
π
Kk(l−mB).(5.89)
60
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Um nun zu einem Ausdruck von S(m,k)in Abhängigkeit von X(m,k)zu gelangen, wird
zunächst S(m,k)analog zu (2.3) unter Verwendung von (2.2) gemäß
S(m,k) =
Lw−1
∑
l′=0
wA(l′)s(l′+mB)·e−j2
π
Kkl′(5.90)
dargestellt. Anschließend werden, den Ausführungen in [AC07b] folgend, nacheinander die
Gleichungen (5.77) und (5.89) in (5.90) eingesetzt:
S(m,k) =
Lw−1
∑
l′=0
wA(l′)
Lh−1
∑
p′=0
h(p′)x(l′+mB−p′)·e−j2
π
Kkl′(5.91)
=
Lw−1
∑
l′=0
wA(l′)
Lh−1
∑
p′=0
h(p′)"∞
∑
m′=−∞
wS(l′+m−m′B−p′)
·
K−1
∑
k′=0
X(m′,k′)·ej2
π
Kk′[l′+(m−m′)B−p′]#·e−j2
π
Kkl′.(5.92)
Definiert man nun die Funktionen
hk,k′(m′′):=
Lh−1
∑
p′=0
h(p′)
Lw−1
∑
l′=0
wA(l′)wS(l′+m′′B−p′)·ej2
π
Kk′[l′+m′′B−p′]·e−j2
π
Kkl′,(5.93)
welche im Folgenden für k6=k′als Kreuzbandfilter und für k=k′als Band-zu-Band-Filter
bezeichnet werden, so lässt sich (5.92) durch
S(m,k) =
∞
∑
m′=−∞
K−1
∑
k′=0
X(m′,k′)hk,k′(m−m′)(5.94)
=
K−1
∑
k′=0
∞
∑
m′′=−∞
X(m−m′′,k′)hk,k′(m′′)(5.95)
ausdrücken. Man erkennt an (5.95), dass zur Berechnung des Kurzzeit-Spektrums des ver-
hallten Signals S(m,k)zunächst in jedem Frequenzbin k′separat eine Faltung des Kurzzeit-
Spektrums des unverhallten Signals X(m,k′)mit hk,k′(m)bezüglich mdurchgeführt wird und
anschließend alle Ergebnisse aufsummiert werden.
Der Betrag und damit der Einfluss der Kreuzbandfilter hk,k′(m)verringert sich mit wach-
sendem Abstand |k−k′|mod K. Um dieses zu erkennen, wird zunächst die Funktion
φ
k,k′(l):=
Lw−1
∑
l′=0
wA(l′)wS(l′+l)·ej2
π
Kk′(l′+l)·e−j2
π
Kkl′(5.96)
definiert. Damit lässt sich (5.93) derart interpretieren, dass eine Funktion durch die Faltung
zwischen der Impulsantwort h(l)und
φ
k,k′(l)gebildet wird
˜
hk,k′(l):=h∗
φ
k,k′(l)(5.97)
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
61
welche anschließend mit der Rate 1
Babgetastet wird
hk,k′(m) = ˜
hk,k′(mB)(5.98)
=
Lh−1
∑
p′=0
h(p′)
φ
k,k′(l−p′)l=mB .(5.99)
Bildet man nun die zeitdiskrete FOURIER-Transformierte (engl. DTFT) von (5.97)
˜
Hk,k′ej
θ
:=
∞
∑
l=−∞
˜
hk,k′(l)e−jl
θ
,(5.100)
so folgt aus (5.97) mit dem Faltungssatz für die DTFT sofort
˜
Hk,k′ej
θ
=Hej
θ
Φk,k′ej
θ
.(5.101)
Wenn man in einem nächsten Schritt die Funktion
φ
k,k′(l)als Faltung
φ
k,k′(l) = wMA,k∗wMS,k′(l)(5.102)
von zwei modulierten Fensterfunktionen
wMA,k(l):=wA(−l)·ej2
π
Kkl (5.103)
wMS,k′(l):=wS(l)·ej2
π
Kk′l(5.104)
beschreibt, so folgt für die DTFT von
φ
k,k′(l)mit Hilfe des Modulationssatzes
Φk,k′ej
θ
=W∗
Aej(
θ
−2
π
k
K)WSej
θ
−2
π
k′
K.(5.105)
Setzt man dieses Resultat in (5.101) ein, so erhält man
˜
Hk,k′ej
θ
=Hej
θ
W∗
Aej(
θ
−2
π
k
K)WSej
θ
−2
π
k′
K.(5.106)
Da geeignete Analyse- und Synthesefenster wA(l′)und wS(l′)gewöhnlich ein sehr schmal-
bandiges Spektrum besitzen, wird der “Überlapp“ zwischen den FunktionenW∗
Aej(
θ
−2
π
k
K)
und WSej
θ
−2
π
k′
Kmit wachsender Differenz |k−k′|mod Kgeringer und die Leistung
von ˜
Hk,k′ej
θ
nimmt ab. Da die DTFT von hk,k′(m)wegen (5.98) durch
Hk,k′ej
θ
=1
B
B−1
∑
m=0
˜
Hk,k′ej1
B(
θ
−2
π
m).(5.107)
ausgedrückt werden kann (siehe Kap. A.2.2), ist der Einfluss des Segmentvorschubs Bauf
die Kreuzbandfilter in der Regel kompliziert.
Aufgrund der aus (5.96) resultierenden Ungleichung
φ
k,k′(l)≤
Lw−1
∑
l′=0wA(l′)wS(l′+l)(5.108)
62
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
und der beiden Bedingungen (2.1) und (5.86) ist der Träger von
φ
k,k′(l)durch [−Lw+1,
Lw−1]gegeben. Daher sind die Kreuzbandfilter hk,k′(m′′), welche mit Hilfe von (5.98),
(5.97) und (5.78) durch
hk,k′(m′′) =
Lw−1
∑
l=−Lw+1
φ
k,k′(l)h(m′′B−l)(5.109)
=
min(Lw−1,m′′B)
∑
l=max(−Lw+1,m′′B−Lh+1)
φ
k,k′(l)h(m′′B−l)(5.110)
ausgedrückt werden können, im Allgemeinen bezüglich m′′ nicht kausal. Der Träger ergibt
sich zu [−LH,u,LH], wobei die Grenzen wie folgt definiert sind
LH,u:=Lw−1
B(5.111)
LH:=Lh+Lw−2
B.(5.112)
Als Folge dessen treten in (5.95) bei der Summation bezüglich m′′ nur endlich viele Sum-
manden auf, d. h.
S(m,k) =
K−1
∑
k′=0
LH
∑
m′′=−LH,u
X(m−m′′,k′)hk,k′(m′′).(5.113)
Wird in einem letzten Schritt (5.113) in (5.79) eingesetzt, erhält man den gesuchten Zu-
sammenhang für das Kurzzeit-Spektrum
Y(m,k) =
K−1
∑
k′=0
LH
∑
m′′=−LH,u
X(m−m′′,k′)hk,k′(m′′)+ N(m,k).(5.114)
5.2.2. Zusammenhang im log-MEL-spektralen Bereich
Die LMSKs y(s)
m,qwerden aus dem Kurzzeit-Leistungsspektrum des verhallten und gestörten
Signals y(l)gemäß
y(s)
m,q=lnYm,q=ln
K(o)
q
∑
k=K(u)
q
|Y(m,k)|2Λq(k)
(5.115)
berechnet, was durch Einsetzen von (2.4) in (2.5) ersichtlich wird. Stellt man das Kurzzeit-
Leistungsspektrum von y(l)mit Hilfe von (5.114) gemäß
|Y(m,k)|2=
K−1
∑
k′,k′′=0
LH
∑
m′,m′′=−LH,u
X(m−m′,k′)X∗(m−m′′,k′′)hk,k′(m′)h∗
k,k′′(m′′)
+
K−1
∑
k′=0
LH
∑
m′=−LH,u
2ℜX(m−m′,k′)hk,k′(m′)N∗(m,k)+|N(m,k)|2(5.116)
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
63
dar, wobei ℜ[·]den Realteil bezeichnet, so wird erkennbar, dass eine perfekte Darstellung
von y(s)
m,qnur mit Hilfe der Kenntnis von nx(s)
m,q,n(s)
m,q|m∈Z,q∈ {0,...,Q−1}osowie der
Impulsantwort h(l)schon deshalb nicht möglich sein kann, weil bei der Berechnung von x(s)
m,q
und n(s)
m,qanalog zu (5.115) jegliche Phaseninformation über die Kurzzeit-Spektren X(m,k)
und N(m,k)verloren geht, welche zur Berechnung von (5.115) notwendig ist.
Eine mögliche Approximation von (5.116), welche nur die Kurzzeit-Leistungsspektren
von x(l)und n(l)verwendet, ist durch
|Y(m,k)|2≈CE·
LH
∑
m′=0X(m−m′,k)2hk,k(m′)2+|N(m,k)|2(5.117)
mit CE∈Rgegeben, welche zudem durch die folgenden Überlegungen motiviert ist. Ers-
tens wird der zweite Summand in (5.116) mit dem Hintergrund vernachlässigt, dass dieser
unter der Annahme, dass das Störsignal ˘n(l)mittelwertfrei und unkorreliert mit dem Sprach-
signal ˘x(l)ist, im Mittel verschwindet. Zweitens wird zur Berechnung des ersten Summan-
den in (5.116) der Einfluss aller Kreuzbandfilter hk,k′(m′)bzw. hk,k′′ (m′′)mit k′6=kbzw.
k′′ 6=kignoriert, was dadurch gerechtfertigt werden kann, dass sich deren Einfluss gemäß
der Diskussion in Kap. 5.2.1 für wachsende Werte von |k′−k|mod Kbzw. |k′′ −k|mod K
verringert. Drittens werden im ersten Summanden von (5.116) alle Terme mit m′′ 6=m′fort-
gelassen. Diese Operation kann dadurch motiviert werden, dass die Korrelation zwischen
˘
X(m−m′,k′)und ˘
X∗(m−m′′,k′)in der Regel für wachsende Werte von |m′−m′′|geringer
wird.
Viertens werden in (5.117) im Gegensatz zu (5.116) nur Summanden für nichtnegative
Segmentindizes m′und m′′ betrachtet, um einen kausalen Zusammenhang zu erhalten. Dazu
ist bemerken, dass für die Merkmalsextraktion gemäß dem ETSI-SFE, die ja hier vorder-
gründig betrachtet wird, die Vernachlässigung der negativen Segmentindizes nur einen sehr
geringen Fehler für vernünftige Nachhallzeiten T60 liefert. Das hängt damit zusammen, dass
in diesem Fall die Kreuzbandfilter basierend auf (5.110) durch
hk,k′(m′′) =
m′′B
∑
l=−Lw+1
φ
k,k′(l)h(m′′B−l)für m′′ <0 (5.118)
berechnet werden können und der Betrag von
φ
k,k′(l)für wachsende |l|abnimmt.
Die Konstante CEsoll sicherstellen, dass die Approximation (5.117) erwartungstreu ist
und muss dazu folgende Bedingung erfüllen
E
K−1
∑
k′=0
LH
∑
m′=−LH,u
˘
X(m−m′,k′)hk,k′(m′)
2
!
=E"CE·
LH
∑
m′=0˘
X(m−m′,k)2hk,k(m′)2#,
(5.119)
wobei bei gegebener Impulsantwort h(l)der Erwartungswert über alle möglichen Realisie-
rungen von ˘x(l)zu bilden ist.
Setzt man die Approximation (5.117) des Kurzzeit-Leistungsspektrums des verhallten und
64
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
gestörten Signals y(l)in (5.115) ein, so erhält man
y(s)
m,q=ln
K(o)
q
∑
k=K(u)
q"CE·
LH
∑
m′=0X(m−m′,k)2hk,k(m′)2+|N(m,k)|2#Λq(k)
(5.120)
=ln
CE·
LH
∑
m′=0
K(o)
q
∑
k=K(u)
qX(m−m′,k)2hk,k(m′)2Λq(k)+
K(o)
q
∑
k=K(u)
q
|N(m,k)|2Λq(k)
.
(5.121)
Man erkennt an dieser Stelle, dass eine weitere endgültige Approximation notwendig ist,
um die log-MEL-spektralen Merkmale y(s)
m,qdes verhallten und gestörten Sprachsignals y(l)
durch die log-MEL-spektralen Merkmale x(s)
m,qund n(s)
m,qdes sauberen Sprachsignals x(l)und
des Störsignals n(l)beschreiben zu können. Dazu werden die MEL-spektralen Koeffizienten
Ym,qzusätzlich dadurch angenähert, dass der in (5.121) auftretende Term hk,k(m′)2durch
seinen Mittelwert über das q-te MEL-Band
¯
Hm′,q:=1
K(o)
q−K(u)
q+1
K(o)
q
∑
k=K(u)
qhk,k(m′)2(5.122)
ersetzt wird:
Ym,q≈CE·
LH
∑
m′=0
¯
Hm′,q
K(o)
q
∑
k=K(u)
qX(m−m′,k)2Λq(k)+
K(o)
q
∑
k=K(u)
q
|N(m,k)|2Λq(k)(5.123)
=CE·
LH
∑
m′=0
¯
Hm′,qXm−m′,q+Nm,q.(5.124)
Wird schließlich der Fehler, der bei dieser Approximation entsteht, durch
Em,q:=Ym,q−CE·
LH
∑
m′=0
¯
Hm′,qXm−m′,q+Nm,q(5.125)
definiert, ergibt sich das endgültige Beobachtungsmodell durch Einsetzen von (5.124) und
(5.125) in (5.115) zu
y(s)
m,q=ln(CE·
LH
∑
m′=0
¯
Hm′,qXm−m′,q+Nm,q+Em,q)(5.126)
=ln(LH
∑
m′=0
ex(s)
m−m′,q+¯
hm′,q+en(s)
m,q)+v(s)
m,q,(5.127)
wobei
¯
hm′,q:=lnCE·¯
Hm′,q(5.128)
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
65
als Koeffizienten der RIA im log-MEL-spektralen Bereich angesehen werden können und
v(s)
m,q:=ln
1+Em,q
CE·
LH
∑
m′=0
¯
Hm′,qXm−m′,q+Nm,q
.(5.129)
als Beobachtungsfehler interpretiert werden kann, der durch eine Prädiktion von y(s)
m,qbasie-
rend auf der alleinigen Kenntnis von nx(s)
m,q,...,x(s)
m−LH,q,¯
h0,q,...,¯
hLH,q,n(s)
m,qoentsteht.
Mit der Verwendung der Vektornotation und der Einführung der Beobachtungsfunktion
fO:R[2(LH+1)+1]Q→RQ,fOx(s)
m:m−LH,¯
h0:LH,n(s)
m:=ln(LH
∑
m′=0
ex(s)
m−m′+¯
hm′+en(s)
m),
(5.130)
wobei die Anwendung der mathematischen Operationen komponentenweise zu verstehen ist,
lässt sich der gefundene Zusammenhang (5.127) zwischen den LMSKs kompakt gemäß
y(s)
m=fOx(s)
m:m−LH,¯
h0:LH,n(s)
m+v(s)
m(5.131)
formulieren.
In Abwesenheit von Hintergrundstörungen vereinfacht sich die Beobachtungsfunktion
(5.130) zu
˜
fO:R[2(LH+1)]Q→RQ,˜
fOx(s)
m:m−LH,¯
h0:LH:=ln(LH
∑
m′=0
ex(s)
m−m′+¯
hm′),(5.132)
was ersichtlich wird, indem der Grenzwert von (5.130) für n(s)
m→(−∞,...,−∞)Tgebildet
wird. In diesem Fall gilt entsprechend
y(s)
m=s(s)
m≈˜
fOx(s)
m:m−LH,¯
h0:LH.(5.133)
Einen qualitativen Eindruck von der Güte dieser Approximation liefert der Vergleich der
Trajektorie der wahren LMSKs-Vektoren eines beispielhaften verhallten Sprachsignals mit
der entsprechenden Näherung gemäß (5.133), die jeweils in Abb. 5.5a und Abb. 5.5b darge-
stellt sind. Es lässt sich erkennen, dass in der approximativ berechneten Trajektorie zwar sehr
feine Details nicht mehr aufgelöst werden, jedoch zumindest der grobe Verlauf korrekt dar-
gestellt wird. Der glatte Verlauf resultiert dabei hauptsächlich aus den Näherungen (5.117)
und (5.123).
Interpretation der Koeffizienten der RIA
Die in (5.128) definierten Koeffizienten der RIA ¯
hm,qhaben große Ähnlichkeit zu den tat-
sächlichen LMSKs h(s)
m,q, welche sich gemäß (2.4) und (2.5) durch
h(s)
m,q=ln
K(o)
q
∑
k=K(u)
q
Λq(k)|H(m,k)|2
(5.134)
66
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
berechnen lassen. Dabei kann das Betragsquadrat von H(m,k)mit Hilfe von (2.3) und (2.2)
durch
|H(m,k)|2=
Lw−1
∑
l′=0
wA(l′)h(mB+l′)·e−j2
π
Kkl′
2
(5.135)
ausgedrückt werden. Die Ähnlichkeit von h(s)
m,qzu ¯
hm,qwird erkennbar, wenn zunächst ¯
hm′,q
unter Verwendung von (5.128) und (5.122) gemäß
¯
hm,q=ln
CE
K(o)
q
∑
k=K(u)
q
1
K(o)
q−K(u)
q+1hk,k(m)2
(5.136)
dargestellt und anschließend das Betragsquadrat von hk,k(m′)mit Hilfe von (5.109) und
(5.138) gemäß
hk,k(m′)2=
Lw−1
∑
p′=−Lw+1
φ
k,k(−p′)h(m′B+p′)
2
(5.137)
geschrieben wird. Zur weiteren Umformung von (5.137) lässt sich die aus der Definition
(5.96) resultierende Gleichheit
φ
k,k(−l) = w(l)e−j2
π
Kkl (5.138)
ausnutzen, wobei
w(l):=
Lw−1
∑
l′=0
wA(l′)wS(l′−l)(5.139)
eine Fensterfunktion ist, die aus der Faltung des Analysefensters wA(l)mit dem zeitumge-
kehrten Synthesefenster wS(−l)entsteht. Mit Hilfe von (5.138) erhält man schließlich
hk,k(m′)2=
Lw−1
∑
p′=−Lw+1
w(p′)h(m′B+p′)e−j2
π
Kkp′
2
.(5.140)
Durch den Vergleich von (5.134) mit (5.136) wird ersichtlich, dass sich die Berechnung von
¯
hm,qvon der Berechnung von h(s)
m,qeinerseits durch die Verwendung eines Rechteck- statt
Dreickfensters zur Berechnung der Leistung für einzelne MEL-Bänder sowie der zusätzli-
chen Verwendung der Konstanten CEin (5.136) unterscheidet. Andererseits offenbart der
Vergleich von (5.135) mit (5.140) eine unterschiedliche Wahl des Analysefensters.
5.2.3. Approximation durch vereinfachtes Modell der RIA
Im Hinblick auf eine Verwendung des hergeleiteten Zusammenhanges (5.131) als Beobach-
tungsmodell zur BAYES’schen Merkmalsverbesserung ergeben sich in der Praxis mehrere
Schwierigkeiten. Für ein Szenario, in dem die RIA vom Sprecher zum Mikrophon unbe-
kannt ist, besteht das grundsätzliche Problem der Berechnung der Koeffizienten (5.128).
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
67
Zwar ist es möglich, die RIA aus dem aufgenommenen Mikrophonsignal zu schätzen und
anschließend für die Berechnung der Koeffizienten (5.128) zu verwenden. Dabei wird je-
doch die Schätzung durch die Tatsache erschwert, dass die RIA in der Regel, bedingt u.a.
durch Bewegungen des Sprechers oder Änderungen der Temperatur und Feuchtigkeit inner-
halb des Raumes, zeitvariant ist. Die zeitlichen Änderungen betreffen dabei häufig nur die
feine Struktur, wobei die Einhüllende ihre Form beibehält (siehe Kap. 2.3). Außerdem be-
sitzt die RIA sehr viele Koeffizienten, so dass eine zuverlässige Schätzung insbesondere bei
Räumen mit größeren Nachhallzeiten im Allgemeinen nicht trivial ist.
Motiviert durch diese Überlegungen wird das stark vereinfachte Modell der RIA
˘
h(l) =
σ
h·˘vh(l)·
χ
h(l)·e−l
τ
h,(5.141)
verwendet, welches bereits in [Pol88] eingeführt wurde. Dabei bezeichnet ˘vh(l)einen mit-
telwertfreien weißen GAUSS’schen Zufallsprozess, dessen Autokorrelationsfunktion durch
E˘vh(l)˘vh(l′)=
δ
l−l′für l,l′∈Z(5.142)
gegeben ist und der durch die Zufälligkeit der Reflexionen der akustischen Wellen an Ober-
flächen motiviert ist. Der Faktor e−l
τ
herzeugt eine exponentiell abklingende Einhüllende,
wobei die Abklingkonstante
τ
hwie folgt mit der mittleren Nachhallzeit T60 und der Abtast-
dauer TAzusammenhängt (siehe Kap. A.2.3 im Anhang):
τ
h=T60
3ln(10)·TA
.(5.143)
Die Funktion
χ
h(l):=(1 für 0 ≤l≤Lh−1
0 sonst (5.144)
kann als Indikatorfunktion von h(l)angesehen werden und sorgt dafür, dass die RIA kausal
wird und eine endliche Länge Lhaufweist. Der Skalierungsfaktor
σ
hbestimmt die mittlere
Leistung der RIA, welche sich durch Anwendung der geometrischen Summe
L−1
∑
l=0
xl=xL−1
x−1für x∈C\{1},L∈N(5.145)
unter Berücksichtigung von (5.142) durch
E"Lh−1
∑
l=0
˘
h2(l)#=
σ
2
h
Lh−1
∑
l=0
e−2l
τ
h=
σ
2
h·e−2Lh
τ
h−1
e−2
τ
h−1
(5.146)
berechnen lässt.
Im Folgenden soll angenommen werden, dass keine detaillierte Kenntnis der RIA vor-
liegt, jedoch lediglich bekannt ist, dass diese eine Realisierung des in (5.141) definierten Zu-
fallsprozesses darstellt, wobei die beiden Parameter
τ
hund
σ
hgegeben sind. Bedingt durch
diese Annahme stellt nun jeder Koeffizient der RIA im log-MEL-spektralen Bereich ¯
hm′,q,
68
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
welcher sich gemäß (5.128) aus der der RIA berechnen lässt, ebenfalls eine Realisierung
einer Zufallsvariable ˘
¯
hm′,qdar. Um in dieser Situation zu einer sinnvollen Wahl für die Ko-
effizienten ¯
hm′,qzur Verwendung im Beobachtungsmodell (5.131) zu gelangen, erscheint es
sinnvoll, diese Koeffizienten durch ihren Erwartungswert
µ
˘
¯
hm′,q:=Eh˘
¯
hm′,qi.(5.147)
basierend auf dem Modell der RIA zu ersetzen. Eine analytische Berechnung dieses Er-
wartungswertes ist wegen der auftretenden Logarithmusoperation sehr aufwendig. Sie wird
jedoch stark durch die approximative Annahme vereinfacht, dass die Verteilungsdichtefunk-
tion von ˘
h(s)
m′,qdurch eine GAUSS-Verteilung mit dem Mittelwert
µ
˘
¯
hm′,qund der Varianz
σ
2
˘
¯
hm′,q
beschrieben werden kann, d.h.
p˘
¯
hm′,q¯
hm′,q=N¯
hm′,q;
µ
˘
¯
hm′,q,
σ
2
˘
¯
hm′,q.(5.148)
Basierend auf dieser Annahme und (5.128) sind die MEL-spektalen Koeffizienten der RIA
˘
¯
Hm′,qlog-normalverteilt, wobei sich insbesondere der Erwartungswert (5.147) aus dem Er-
wartungswert und der Varianz
µ
˘
¯
Hm′,q:=Eh˘
¯
Hm′,qi(5.149)
σ
2˘
¯
Hm′,q
:=E"˘
¯
Hm′,q−
µ
˘
¯
Hm′,q2#(5.150)
gemäß
µ
˘
¯
hm′,q=
µ
˘
¯
hm′,q(
τ
h,
σ
h) = 1
2ln
µ
˘
¯
Hm′,q4
σ
2˘
¯
Hm′,q
+
µ
˘
¯
Hm′,q2
.(5.151)
darstellen lässt [AB57]. Obwohl die Berechnung der Varianz im Sinne des Beobachtungs-
modells nicht notwendig ist, sei zur Vollständigkeit bemerkt, dass diese durch
σ
2
˘
¯
hm′,q
:=E"˘
¯
hm′,q−
µ
˘
¯
hm′,q2#=ln
σ
2˘
¯
Hm′,q
µ
˘
¯
Hm′,q2+1
(5.152)
gegeben ist. In Kap. A.2.4 im Anhang wird gezeigt, dass der Mittelwert (5.149) und die
Varianz (5.150) durch
µ
˘
¯
Hm′,q=
Lw−1
∑
p′=−Lw+1
δ
2
m′,p′,0(5.153)
σ
2˘
¯
Hm′,q
=1
K(o)
q−K(u)
q+12
K(o)
q
∑
k,k′=K(u)
q
Lw−1
∑
p′=−Lw+1
δ
2
m′,p′,k+k′
2
2
+
Lw−1
∑
p′=−Lw+1
δ
2
m′,p′,k−k′
2
2
(5.154)
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
69
berechnet werden können, wobei
δ
m′,p′,k:=
σ
h·
χ
h(m′B+p′)·e−m′B+p′
τ
hw(p′)e−j2
π
Kkp′.(5.155)
Dass diese Näherung sinnvoll ist, zeigt der Vergleich der mit Hilfe von MONTE-CAR-
LO-Simulationen erzeugten normierten Histogramme mit den entsprechenden analytischen
GAUSS-förmigen Approximationen in Abb. 5.2 und Abb. 5.3 für zwei beispielhafte Nach-
hallzeiten von T60 =0,1s und T60 =0,8s. Dabei wird erkennbar, dass die analytisch berech-
nete Approximation in der Regel umso besser ist, je größer der Index qdes MEL-Bandes ist.
Zudem kann beobachtet werden, dass die Varianz für wachsende Indizes qsinkt.
-2
-4
0,5
00
1
1,5
u
Analytisch
MONTE-CARLO
(a) ˆp˘
¯
h0,0(u)
-2
-4
0,5
00
1
1,5
u
(b) ˆp˘
¯
h0,11 (u)
-2
-4
0,5
00
1
1,5
u
(c) ˆp˘
¯
h0,22 (u)
-2
-4
0,5
00
1
1,5
u
(d) ˆp˘
¯
h4,0(u)
-2
-4
0,5
00
1
1,5
u
(e) ˆp˘
¯
h4,12 (u)
-2
-4
0,5
00
1
1,5
u
(f) ˆp˘
¯
h4,23 (u)
-2-4
0,5
00
1
1,5
u
(g) ˆp˘
¯
h14,0(u)
-2-4
0,5
00
1
1,5
u
(h) ˆp˘
¯
h14,11 (u)
-2-4
0,5
00
1
1,5
u
(i) ˆp˘
¯
h14,22 (u)
Abbildung 5.2.: Approximationen ˆp˘
¯
hm,q(u)der Verteilungsdichtefunktionen der log-MEL-spektralen
Repräsentationen der RIA ¯
hm,qfür m ∈ {0,4,14}und q ∈ {0,11,22}durch normier-
te Histogramme, resultierend aus MONTE-CARLO-Simulationen (blau) einerseits,
sowie aus einer analytischen Darstellung (rot) andererseits, für eine Nachhallzeit
von T60 =0,1s.
70
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Nachdem nun das Prinzip der Berechnung der log-MEL-spektralen Repräsentation der
RIA basierend auf dem Modell (5.141) mit gegebenen Parametern
τ
hsowie
σ
herläutert
wurde, soll das Augenmerk auf den Aspekt gerichtet werden, wie die Länge der RIA Lh
sowie die Leistungskompensationskonstante CEberechnet werden können.
-1
-2
-3
-4
-5
0,5
0
1
1,5
45
u
Analytisch
MONTE-CARLO
(a) ˆp˘
¯
h0,0(u)
-1
-2
-3
-4
-5
0,5
0
1
1,5
u
(b) ˆp˘
¯
h0,11 (u)
-1
-2
-3
-4
-5
0,5
0
1
1,5
u
(c) ˆp˘
¯
h0,22 (u)
-1
-2
-3
-4
-5
0,5
0
1
1,5
25
u
(d) ˆp˘
¯
h4,0(u)
-1
-2
-3
-4
-5
0,5
0
1
1,5
u
(e) ˆp˘
¯
h4,11 (u)
-1
-2
-3
-4
-5
0,5
0
1
1,5
u
(f) ˆp˘
¯
h4,22 (u)
-1
-2
-3
-4
-5
0,5
0
1
1,5
14
u
(g) ˆp˘
¯
h14,0(u)
-1
-2
-3
-4
-5
0,5
0
1
1,5
u
(h) ˆp˘
¯
h14,11 (u)
-1
-2
-3
-4
-5
0,5
0
1
1,5
u
(i) ˆp˘
¯
h14,22 (u)
Abbildung 5.3.: Approximationen ˆp˘
¯
hm,q(u)der Verteilungsdichtefunktionen der log-MEL-spektralen
Repräsentationen der RIA ¯
hm,qfür m ∈ {0,4,14}und q ∈ {0,11,22}durch normier-
te Histogramme, resultierend aus MONTE-CARLO-Simulationen (blau) einerseits,
sowie aus einer analytischen Darstellung (rot) andererseits, für eine Nachhallzeit
von T60 =0,8s.
Wahl der Länge Lhder RIA
Zunächst ist es wichtig festzustellen, dass eine sinnvolle Wahl der Länge Lhin irgendeiner
Art und Weise von der Nachhallzeit T60 bzw. von der Abklingkonstanten
τ
habhängen sollte.
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
71
Ein mögliches Kriterium für eine solche Wahl besteht darin, eine von
τ
hunabhängige Kon-
stante
ε
h<1 vorzugeben, welche die Güte der Modellierung basierend auf dem relativen
Leistungsverhältnis
r(Lh):=
ELh−1
∑
l′=0
˘
h2(l′)
E∞
∑
l′=0
˘
h2(l′)=1−
E"∞
∑
l′=Lh
˘
h2(l′)#
E∞
∑
l′=0
˘
h2(l′)=1−e−2Lh
τ
h(5.156)
zwischen der abgeschnittenen und der nicht abgeschnittenen RIA durch
r(Lh)>1−
ε
h(5.157)
beschreibt. Für die Umformungen in (5.156) wurden (2.21) sowie (A.104) verwendet. In
anderen Worten ausgedrückt bedeutet (5.157), dass die relative Leistung des abgeschnittenen
Anteils der RIA, welche gleich 1−r(Lh)ist, geringer als
ε
hsein muss. Die Länge der RIA
kann dann unter Einhaltung der Nebenbedingung (5.157) minimiert werden, was schließlich
in
ˆ
Lh(
τ
h):=argmin
Lh
r(Lh)unter der Nebenbedingung (5.157) (5.158)
=l−
τ
h
2ln(
ε
h)m(5.159)
resultiert.
Wahl der Leistungskompensationskonstante CE
Zur Erinnerung sei noch einmal erwähnt, dass die Leistungskompensationskonstante CEda-
zu dient, die Vernachlässigung von Termen zur vereinfachten Berechnung des Kurzzeit-
Leistungsspektrums des gestörten und verhallten Signals y(l)gemäß (5.117) zu kompen-
sieren. Sie kann theoretisch mit Hilfe der Bedingung (5.119) bestimmt werden, wobei der
Erwartungswert bei gegebener RIA über alle möglichen Realisierungen von x(l)zu bilden
ist. Für den Fall, dass die RIA sich gemäß dem stochastischen Modell (5.141) verhält, ist
es möglich, den Erwartungswert zusätzlich über alle möglichen Realisierungen von h(l)zu
betrachten, wobei die Parameter
τ
hund
σ
hdeterministische Größen sind.
Um die Erwartungswertbildung bezüglich x(l)überhaupt handhabbar zu gestalten, soll
weiterhin angenommen werden, dass es sich dabei um einen weißen GAUSS’schen Zu-
fallsprozess handelt. Unter dieser Annahme kann gezeigt werden (siehe Kap. A.2.5 im An-
hang), dass sich die Konstante CEaus dem Quotienten
CE=CZ
CN
(5.160)
ergibt, wobei der Zähler und Nenner durch
CZ:=K2
LH
∑
m′,m′′=−LH,u
Lw−1
∑
l=0
wA(l)wS(l)wA(l+m′′ −m′B)wS(l+m′′ −m′B)
·
Lw−1
∑
l′=−Lw+1
χ
h(m′B−l′)e−2(m′B−l′)
τ
hw2
A(−l′+l)(5.161)
72
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
und
CN:= Lw−1
∑
l=0
w2
A(l)!
LH
∑
m′=0
Lw−1
∑
l′=−Lw+1 Lw−1
∑
p′′=0
wA(p′′)wS(p′′ +l′)!2
χ
h(m′B−l′)e−2(m′B−l′)
τ
h
(5.162)
definiert sind. Sie hängt also nur von den bei der Merkmalsextraktion verwendeten Parame-
tern sowie der Abklingkonstante
τ
hab.
Schätzung der RIA-Parameter
Das Modell der RIA (5.141) wurde mit der Motivation eingeführt, dass es nur durch zwei
Parameter vollständig beschrieben ist, welche in einer dem automatischen Spracherkenner
unbekannten Umgebung in der Regel deutlich einfacher aus dem eingehenden Mikrophonsi-
gnal zu schätzen sind als die gesamter RIA selbst.
Für den Spezialfall, dass keine Störung während der Spracherkennung vorhanden ist, exis-
tieren in der Literatur hauptsächlich zwei Ansätze zur blinden Schätzung der Nachhallzeit
T60. Bei den Verfahren basierend auf dem Maximum Likelihood (ML)-Prinzip [RJW+03,
RJO04] wird versucht, die Abklingkonstante
τ
h, welche über (5.143) mit der Nachhallzeit
verknüpft ist, derart zu bestimmen, dass kurze Signalausschnitte, welche vorwiegend den
Übergang zwischen der Sprache und den Sprachpausen darstellen, durch das Modell der RIA
bestmöglich beschrieben werden. Aus dem Histogramm der aus vielen Signalausschnitten
resultierenden Schätzungen wird anschließend die gesuchte Abklingkonstante beispielswei-
se durch die Suche des ersten lokalen Maximums oder des 10 %-Quantils bestimmt. Hin-
gegen wird in [WHN08] ein etwas anderer Ansatz verfolgt. Zunächst wird auch hier ein
Histogramm aus Schätzungen von Abklingkonstanten geschätzt, was jedoch durch lineare
Regression aus dem logarithmierten Kurzzeit-Leistungsspektrum des verhallten Signal be-
stimmt wird. Die endgültige Schätzung der Abklingkonstante basiert auf einem beobachteten
nichtlinearen Zusammenhang zwischen der Schiefe des Histogramms und der Nachhallzeit.
Für den allgemeinen Fall, bei dem eine (nicht zu starke) Störung n(l)6=0 präsent ist, kann
eine Schätzung im Prinzip mit den gleichen Methoden erfolgen. Jedoch muss zuvor eine Ent-
störung des Signals beispielsweise mit Hilfe von spektraler Subtraktion oder eines WIENER
Filters [VM06] erfolgen.
Der Parameter
σ
hbeschreibt im Wesentlichen den relativen Einfluss der Raumimpulsan-
wort auf die Leistung des verhallten Signals ˘s(l). Aufgrund des instationären Charakters des
sauberen Sprachsignals ˘x(l)(und in manchen Situationen des Störsignals ˘n(l)) ist eine blinde
Schätzung nicht trivial. Anstatt an dieser Stelle eine detaillierte Methode zu seiner Schätzung
zu gegeben, soll hier nur das Prinzip unter der vereinfachten Annahme beschrieben werden,
dass sowohl das saubere Sprachsignal ˘x(l)als auch das Störsignal ˘n(l)durch stationäre Zu-
fallsprozesse mit den Leistungen
σ
2
x:=E˘x2(l)und
σ
2
n:=E˘n2(l)gegeben sind. Dann
lässt sich die Leistung des verhallten und gestörten Signals ˘y(l)mit Hilfe der Annahme, dass
das saubere Sprachsignal ˘x(l)und das Störsignal ˘n(l)miteinander unkorreliert sind, und des
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
73
Modells für die RIA (5.141) gemäß
σ
2
y:=E˘y2(l)=E˘s2(l)+E˘n2(l)(5.163)
=
σ
2
s+
σ
2
n(5.164)
=E"Lh−1
∑
p′=0
Lh−1
∑
p′′=0
˘
h(p′)˘
h(p′′)˘x(l−p′)˘x(l−p′′)#+
σ
2
n(5.165)
=
Lh−1
∑
p′=0
Lh−1
∑
p′′=0
E˘
h(p′)˘
h(p′′)E˘x(l−p′)˘x(l−p′′)+
σ
2
n(5.166)
=
Lh−1
∑
p′=0
E˘
h2(p′)E˘x2(l−p′)+
σ
2
n(5.167)
=
σ
2
x·E"Lh−1
∑
p′=0
˘
h2(p′)#+
σ
2
n(5.168)
=
σ
2
x
σ
2
h·e−2Lh
τ
h−1
e−2
τ
h−1
+
σ
2
n(5.169)
ausdrücken, wobei
σ
2
sin (5.164) die Leistung des verhallten Sprachsignals ˘s(l)bezeichnet
und für die Umformung von (5.168) nach (5.169) das Resultat (5.146) verwendet wurde.
Daraus ergibt sich der gesuchte Parameter
σ
hzu
σ
h=v
u
u
u
u
u
t
σ
2
y−
σ
2
n
σ
2
x
·e−2
τ
h−1
e−2Lh
τ
h−1.(5.170)
Seine Schätzung erfordert daher die Schätzung der Leistungen der Signale ˘y(l)und ˘n(l),
wenn man annimmt, dass die Leistung des zugrunde liegenden sauberen Sprachsignals ˘x(l)
bekannt ist.
In der Praxis werden die auftretenden Zufallsprozesse in der Regel instationär sein, so-
dass eine Approximation der Leistungen beispielsweise durch die Berechnung von gleiten-
den Mittelwerten vorgenommen werden muss. Um zwischen Signalausschnitten mit und oh-
ne Sprachaktivität unterscheiden zu können, kann eine Sprachaktivitätsdetektion eingesetzt
werden.
Anstelle der Schätzung des Parameters
σ
hkann auch äquivalent dazu das verhallte und
gestörte Sprachsignal ˘y(l)so normiert werden, dass
σ
2
s=
σ
2
xgilt, und der Parameter
σ
h
dann einfach zu
σ
h=v
u
u
u
u
u
t
e−2
τ
h−1
e−2Lh
τ
h−1(5.171)
gesetzt werden.
74
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Defizite des RIA-Modells
Die stark vereinfachte Charakterisierung der RIA durch nur zwei Parameter bringt natür-
lich nicht nur Vorteile mit sich. Strikt genommen würde eine derartige Beschreibung nur
für den späten Nachhall der RIA zutreffen, der durch ein vollkommen diffuses Schallfeld
erzeugt wird, bei dem die Reflexionen aus jeder Richtung mit derselben Wahrscheinlichkeit
und Intensität auf das Mikrophon einfallen. Diese Bedingung wird in den meisten Anwen-
dungen im Allgemeinen nicht zutreffen, sodass (besonders) die frühen Reflexionen bedingt
durch die Geometrie des Raumes Korrelationen untereinander aufweisen werden. Aufgrund
dessen besitzen RIAs typischerweise einen Abklang, der durch zwei unterschiedliche Ab-
klingkonstanten gekennzeichnet ist [Sch65]. Eine weitere Tatsache, die durch das Modell
(5.141) vernachlässigt wird, ist die unterschiedliche Art der Reflexion und Dämpfung von
akustischen Wellen unterschiedlicher Frequenzen, welche eine Frequenzabhängigkeit des
Energieabklangs der RIA mit sich bringt [Kut04]. In Abb. 5.4 werden beide Aspekte durch
die visuelle Darstellung der Koeffizienten der RIA aus Abb. 2.3 veranschaulicht, wobei die
wahren Koeffizienten in Abb. 5.4a ihrer Approximation in Abb. 5.4b gemäß (5.151) mit
ˆ
T60 =0,75s gegenüber gestellt sind.
-2
-4
-6
-8
-10
-12
0
5
7,0
10
10
15
20
20 30
q
m′+ 1
(a) Wahre Koeffizienten der RIA ¯
hm′,q
-2
-4
-6
-8
-10
-12
0
5
10
10
15
20
20 30
q
m′+ 1
(b) Approximative Koeffizienten der RIA
µ
˘
¯
hm′,qberechnet gemäß (5.151) mit
ˆ
T60 =0,75s
Abbildung 5.4.: Log-MEL-spektrale Repräsentation der RIA aus Abb. 2.3, wobei m′den Segmentin-
dex innerhalb der RIA und q den Index des MEL-Bandes bezeichnet.
Obwohl es prinzipiell möglich wäre, ähnlich wie in [WSNK09] das Modell der RIA
(5.141) derart zu verfeinern, dass die angesprochenen Eigenschaften der RIA mit erfasst
werden, wird in dieser Arbeit davon abgesehen. Der Grund liegt in der mit der Verfeinerung
des Modells einhergehenden steigenden Komplexität, welche sehr wahrscheinlich die Ge-
nauigkeit der blinden Schätzung der entsprechenden Modellparameter negativ beeinflussen
würde.
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
75
5.2.4. Rekursives Beobachtungsmodell
Für große Nachhallzeiten T60 wird der Wert von LHgroß, so dass in der Beobachtungsfunk-
tion (5.130) sehr viele Exponentialterme ausgewertet werden müssen. Außerdem sind bei
der Merkmalsverbesserung die Werte der LMSKs des sauberen Sprachsignals x(s)
m,qnatür-
lich unbekannt, so dass Schätzwerte eingesetzt werden müssen und der dadurch entstehende
Fehler zusätzlich berücksichtigt werden muss. Mit der Motivation der Lösung beider Pro-
bleme wird im Folgenden ein rekursives Beobachtungsmodell hergeleitet, welches auf dem
vereinfachten Modell der RIA (5.141) basiert.
Die Grundlage besteht in einem approximativ rekursiven Zusammenhang zwischen der
Leistung von Band-zu-Band-Filtern mit verschiedenen Segmentindizes, welcher sich aus der
in Kap. A.2.4 im Anhang hergeleiteten Beziehung (A.114) ergibt:
Eh˘
hk,k(m′+LR)2i=
Lw−1
∑
p′=−Lw+1
δ
2
m′+LR,p′,0(5.172)
=
Lw−1
∑
p′=−Lw+1
σ
2
h·
χ
h(m′+LRB+p′)·e−2[(m′+LR)B+p′]
τ
h·w2(p′)
(5.173)
≈e−2LRB
τ
h·Eh˘
hk,k(m′)2i∀m′,LR∈N0.(5.174)
Dabei ist die Approximation nur durch die zeitliche Begrenzung der RIA, welche durch
ihre Indikatorfunktion
χ
h(l)beschrieben wird, begründet, so dass unter der Annahme der
Gültigkeit des RIA-Modells (5.141) die Rekursion (5.174) für Lw−1
B≤m′+LR≤Lh−Lw
Bsogar
exakt ist.
Sie lässt sich sich verwenden, um einen approximativen rekursiven Ausdruck für den Er-
wartungswert des Leistungsspektrums des verhallten und gestörten Sprachsignals y(l)be-
züglich der RIA zu finden, welcher mit Hilfe von (5.117) und der Berücksichtigung der
Tatsache, dass hk,k(m′) = 0 für m′>LHgilt, zunächst durch
E˘
h(l)h˘
Y(m,k)2i≈CE·
LH
∑
m′=0X(m−m′,k)2Eh˘
hk,k(m′)2i+|N(m,k)|2(5.175)
=CE· LR−1
∑
m′=0X(m−m′,k)2Eh˘
hk,k(m′)2i
+
LH
∑
m′=LRX(m−m′,k)2Eh˘
hk,k(m′)2i!+|N(m,k)|2(5.176)
=CE· LR−1
∑
m′=0X(m−m′,k)2Eh˘
hk,k(m′)2i
+
LH
∑
m′=0X(m−m′−LR,k)2Eh˘
hk,k(m′+LR)2i!+|N(m,k)|2
(5.177)
76
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
für 1 ≤LR≤LHschreiben lässt. Setzt man nun die Approximation (5.174) in (5.177) ein
und verwendet die aus (5.175) resultierende Approximation
CE
LH
∑
m′=0X(m−m′−LR,k)2Eh˘
hk,k(m′)2i
≈maxnE˘
h(l)h˘
Y(m−LR,k)2i−|N(m−LR,k)|2,0o,(5.178)
so ergibt sich
E˘
h(l)h˘
Y(m,k)2i≈CE LR−1
∑
m′=0X(m−m′,k)2Eh˘
hk,k(m′)2i
+e−2LRB
τ
h
LH
∑
m′=0X(m−m′−LR,k)2Eh˘
hk,k(m′)2i!+|N(m,k)|2
(5.179)
≈CE
LR−1
∑
m′=0X(m−m′,k)2Eh˘
hk,k(m′)2i+|N(m,k)|2
+e−2LRB
τ
h·maxnE˘
h(l)h˘
Y(m−LR,k)2i−|N(m−LR,k)|2,0o.
(5.180)
Die Maximumbildung in (5.178) ist dadurch bedingt, dass der zu approximierende Ausdruck
stets nichtnegativ sein muss.
Motiviert durch die rekursive Approximation (5.180) lässt sich direkt eine entsprechende
Beziehung zwischen den MEL-spektralen Koeffizienten finden
Ym,q≈CE·
LR−1
∑
m′=0
¯
Hm′,qXm−m′,q+e−2LRB
τ
h·maxYm−LR,q−Nm−LR,q,0+Nm,q,(5.181)
wobei jetzt der Erwartungswert weggelassen wurde. Definiert man den mit dieser Approxi-
mation verbundenen Fehler durch
E(R)
m,LR,q:=Ym,q−CE·
LR−1
∑
m′=0
¯
Hm′,qXm−m′,q−e−2LRB
τ
h·maxYm−LR,q−Nm−LR,q,0−Nm,q,
(5.182)
so gelangt man zum gewünschten Ausdruck für die LMSKs
y(s)
m,q=ln(LR−1
∑
m′=0
ex(s)
m−m′,q+¯
hm′,q+e−2LRB
τ
h·maxhey(s)
m−LR,q−en(s)
m−LR,q,0i+en(s)
m,q)+v(s,R)
m,LR,q
(5.183)
mit
v(s,R)
m,LR,q:=ln
1+
E(R)
m,LR,q
LR−1
∑
m′=0
ex(s)
m−m′,q+¯
hm′,q+e−2LRB
τ
h·maxhey(s)
m−LR,q−en(s)
m−LR,q,0i+en(s)
m,q
.
(5.184)
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
77
Führt man schließlich die rekursive Beobachtungsfunktion
f(R)
O,LR:R[2LR+3]Q→RQ,f(R)
O,LRx(s)
m:m−LR+1,¯
h0:LR−1,y(s)
m−LR,n(s)
m,n(s)
m−LR
:=ln(LR−1
∑
m′=0
ex(s)
m−m′+¯
hm′+e−2LRB
τ
hmaxhey(s)
m−LR−en(s)
m−LR,0i+en(s)
m)
(5.185)
ein, so ergibt sich ein rekursives Beobachtungsmodell in Vektornotation
y(s)
m=f(R)
O,LRx(s)
m:m−LR+1,¯
h0:LR−1,y(s)
m−LR,n(s)
m,n(s)
m−LR+v(s,R)
m,LR.(5.186)
Für den Fall LR<< LHwird die Anzahl notwendiger Auswertungen der Exponentialfunk-
tion gegenüber (5.130) deutlich reduziert.
In Abwesenheit von Hintergrundstörungen lässt sich auch die rekursive Beobachtungs-
funktion durch Bildung des Grenzwertes von (5.185) für n(s)
m,n(s)
m−LR→(−∞,...,−∞)Tzu
˜
f(R)
O,LR:R[2LR+1]Q→RQ,˜
f(R)
O,LRx(s)
m:m−LR+1,¯
h0:LR−1,y(s)
m−LR
:=ln(LR−1
∑
m′=0
ex(s)
m−m′+¯
hm′+e−2LRB
τ
h·1+y(s)
m−LR)(5.187)
vereinfachen, wobei 1:= (1,...,1)T. Die LMSK-Vektoren des verhallten Sprachsignals las-
sen sich dann durch
y(s)
m=s(s)
m≈˜
f(R)
O,LRx(s)
m:m−LR+1,¯
h0:LR−1,y(s)
m−LR.(5.188)
annähern. Die qualitative Güte dieser Approximation wird bei dem Vergleich der Trajekto-
rie der wahren LMSK-Vektoren eines beispielhaften Sprachsignals mit den entsprechenden
Näherungen für LR=1 bzw. LR=6 in Abb. 5.5c bzw. Abb. 5.5d deutlich. Es lässt sich
beobachten, dass die Approximation durch die rekursive Beobachtungsfunktion für LR=1
im Vergleich zu der mit der nichtrekursive Beobachtungsfunktion (5.132) deutlich genauer
ist und dass sehr feine Details nachgebildet werden können. Mit wachsenden Werten von LR
wird der Verlauf der Trajektorie immer glatter und nähert sich für LR→LHdem in Abb. 5.5b
an, da in dem Fall die rekursive annähernd in die nichtrekursive Beobachtungsfunktion über-
geht.
5.2.5. Modellierung des Beobachtungsfehlers
In diesem Abschnitt geht es um die Modellierung der beiden Beobachtungsfehler
v(s)
m=y(s)
m−fOx(s)
m:m−LH,¯
h0:LH,n(s)
m(5.189)
und
v(s,R)
m,LR=y(s)
m−f(R)
O,LRx(s)
m:m−LR+1,¯
h0:LR−1,y(s)
m−LR,n(s)
m,n(s)
m−LR,(5.190)
78
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
5
5
10
10
15
15
20
20
Index des MEL-Bandes q
Zeit m·B·TA[s]
0,51,01,52,02,5
(a) Trajektorie der log-MEL-spektralen Merkmale s(s)
m,qdes verhallten Sprachsignals
5
5
10
10
15
15
20
20
Index des MEL-Bandes q
Zeit m·B·TA[s]
0,51,01,52,02,5
(b) Trajektorie der approximativen log-MEL-spektralen Merkmale ˆs(s)
m,qdes verhallten
Sprachsignals berechnet mit der nichtrekursiven Beobachtungsfunktion (5.132)
5
5
10
10
15
15
20
20
Index des MEL-Bandes q
Zeit m·B·TA[s]
0,51,01,52,02,5
(c) Trajektorie der approximativen log-MEL-spektralen Merkmale ˆs(s)
m,qdes verhallten
Sprachsignals berechnet mit der rekursiven Beobachtungsfunktion (LR=1)
5
5
10
10
15
15
20
20
Index des MEL-Bandes q
Zeit m·B·TA[s]
0,51,01,52,02,5
(d) Trajektorie der approximativen log-MEL-spektralen Merkmale ˆs(s)
m,qdes verhallten
Sprachsignals berechnet mit der nichtrekursiven Beobachtungsfunktion (LR=6)
Abbildung 5.5.: Trajektorien der log-MEL-spektralen Merkmale eines beispielhaften verhallten
Sprachsignals (selbes Signal wie in Abb. 2.5) und Approximationen durch unter-
schiedliche Beobachtungsmodelle.
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
79
die in den Beobachtungsmodellen (5.131) und (5.186) auftreten. Dabei muss zunächst ein-
mal berücksichtigt werden, dass bisher von der Annahme ausgegegangen wurde, dass die
im Argument der Beobachtungsfunktionen auftretenden Terme ¯
h0:LHbzw. ¯
h0:LR−1auf der
Grundlage einer bekannten, zeitinvarianten Raumimpulsantwort berechnet werden. In der
Praxis wird diese Annahme jedoch in der Regel nicht erfüllt sein, so dass die für die tat-
sächliche Auswertung der beiden Beobachtungsfunktionen fOund f(R)
O,LRbenötigten wahren,
zeitvarianten Koeffizienten der RIA im log-MEL-spektralen Bereich ¯
h0:LHnicht zur Verfü-
gung stehen. Statt dessen werden diese Koeffizienten durch die auf dem RIA-Modell (5.141)
und einer Schätzung der RIA-Parameter ˆ
τ
h,ˆ
σ
hund ˆ
LHbasierenden Erwartungswerte
ˆµ˘
¯
h0:ˆ
LH
:=µ˘
¯
h0:ˆ
LH
(ˆ
τ
h,ˆ
σ
h)(5.191)
ersetzt. Insofern sind für ein realistisches Szenario an Stelle der Fehler v(s)
mund v(s,R)
m,LRviel-
mehr die beiden Fehler
ˆ
v(s)
m:=y(s)
m−fOx(s)
m:m−ˆ
LH,ˆµ˘
¯
h0:ˆ
LH
,n(s)
m(5.192)
und
ˆ
v(s,R)
m,LR:=y(s)
m−f(R)
O,LRx(s)
m:m−LR+1,ˆµ˘
¯
h0:LR−1,y(s)
m−LR,n(s)
m,n(s)
m−LR(5.193)
interessant. Sie berücksichtigen sowohl Unzulänglichkeiten des RIA-Modells als auch Fehl-
schätzungen der Modellparameter. Da eine genaue analytische Beschreibung dieser Fehler
sehr kompliziert ist, wird in dieser Arbeit ein stark vereinfachter, approximativer Ansatz
verfolgt. Demnach werden beide Beobachtungsfehler als Realisierungen von stationären,
weißen GAUSS’schen Zufallsprozessen gemäß
pˆ
v(s)
m:=Nˆ
v(s)
m;µˆ
v(s),Σˆ
v(s)(5.194)
pˆ
v(s,R)
m,LR:=Nˆ
v(s,R)
m,LR;µˆ
v(s,R)
LR
,Σˆ
v(s,R)
LR(5.195)
modelliert, was die Berechnung der Inferenz (siehe Kap. 5.3) ungemein vereinfacht.
Unter der weiteren Annahme der Ergodizität der Zufallsprozesse lassen sich die Parame-
ter der Beobachtungsfehler µˆ
v(s)und Σˆ
v(s)sowie µˆ
v(s,R)
LR
und Σˆ
v(s,R)
LR
unter Verwendung von
Stereotrainingsdaten, d.h. sauberen Sprachsignalen samt ihren verhallten und gestörten Ver-
sionen, vor der eigentlichen Merkmalsverbesserung empirisch berechnen. Um diese Schätz-
werte sinnvoll verwenden zu können ist zu beachten, dass vor der Merkmalsverbesserung ei-
ne Normierung des Eingangssignals y(l)stattfinden muss, so dass
σ
2
s=
σ
2
xnäherungsweise
gilt (siehe Kap. 5.2.3). Der Skalierungsfaktor für die RIA
σ
hmuss in dem Fall entsprechend
(5.171) bestimmt werden.
Typischerweise sind die benötigten Stereotrainingsdaten, welche am Einsatzort des Sprach-
erkenners aufgenommen wurden, jedoch nicht vorhanden. Zumindest für den störungsfreien
Fall, d.h. n(s)
m,q≪x(s)
m,q∀m,q, bietet sich die Möglichkeit, die erforderlichen Stereotrainings-
daten künstlich zu erzeugen. Dieses lässt sich beispielsweise bewerkstelligen, indem man
80
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
saubere Sprachsignale mit künstlichen RIAs faltet, welche mit der sogenannten Spiegelquel-
lenmethode [All79] erzeugt werden. Bei dieser Methode wird die Schallausbreitung vom
Sprecher zum Mikrophon unter der stark vereinfachten Annahme eines quaderförmigen, lee-
ren Raumes mit starren Wänden simuliert. Die berechnete zeitinvariante RIA ist abhängig
von der Position des Sprechers und des Mikrophons, der Raumgeometrie und den Absorp-
tionseigenschaften der Wände. Zu gegebener Raumgeometrie sowie der Position des Spre-
chers und des Mikrophons lassen sich gemäß der Formel von SABINE [Kut00] die Absorb-
tionseigenschaften der Wände derart bestimmen, dass der simulierte Raum approximativ
eine gewünschte Nachhallzeit aufweist. Um flexibel auf beliebige Einsatzorte des Erkenners
vorbereitet zu sein, lassen sich auf diese Weise vorab Parameter des Beobachtungsmodells
für eine relevante diskrete Menge von vorgegebenen Nachhallzeiten bzw. Abklingkonstanten
berechnen, wobei jeweils zur Berechnung der Koeffizienten der Raumimpulsantwort ˆµ˘
¯
h0:ˆ
LH
in (5.192) und (5.193) der Skalierungsfaktor ˆ
σ
hgemäß (5.171) bestimmt wird. Während der
Merkmalsverbesserung können dann, beruhend auf einer Schätzung der Nachhallzeit, die
am besten passenden Parameter ausgewählt werden. Zur Berücksichtigung möglichst vie-
ler unterschiedlicher Erkennungsszenarien wird hier vorgeschlagen, viele unterschiedliche
RIAs zur Erzeugung der Stereotrainingsdaten zu verwenden, die sich in der Anordnung des
Sprechers und Mikrophons im Raum unterscheiden. Es ist weiterhin sinnvoll die Nachhall-
zeit innerhalb eines gewissen Intervalls um den vorgegebenen Wert zufällig zu variieren, um
während der Merkmalsverbesserung auftretende Schätzfehler der Nachhallzeit in Betracht
zu ziehen.
Experimentelle Untersuchungen zur Validierung der gemachten Annahmen (5.194) und
(5.195) für den störungsfreien Fall auf ausgewählten Sprachdatenbanken folgen in Kap. 6.4.
Für den Fall, dass neben dem Nachhall zusätzlich Hintergrundstörungen in dem Mikro-
phonsignal vorhanden sind, ist die Modellierung des Beobachtungsfehlers mit Hilfe eines
GAUSS’schen Zufallsprozesses gemäß (5.194) für das nichtrekursive bzw. gemäß (5.195) für
das rekursive Beobachtungsmodell eigentlich nicht mehr sinnvoll. Der Beobachtungsfehler
v(s)
m,qbzw. v(s,R)
m,q,LRist dann in hohem Maße abhängig vom lokalen Signal-zu-Rauschleistungs-
verhältnis (engl. Signal-to-Noise Ratio (SNR)) zum Zeitpunkt mim q-ten MEL-Band, wobei
grob drei Fälle zu unterscheiden sind.
Ist das lokale SNR sehr niedrig, dann dominiert die Störung stark im Verhältnis zum
Sprachanteil, so dass für den MEL-spektralen Koeffizienten Ym,qin sehr guter Näherung
Ym,q≈Nm,q(5.196)
Nm,q≫CE·¯
Hm′,qXm−m′,qfür m′∈{0,...,LH}(5.197)
gilt. Aufgrund dessen verschwindet der in (5.125) definierte Approximationsfehler Em,qnä-
herungsweise, so dass der resultierende Beobachtungsfehler v(s)
m,qgemäß (5.129) relativ klein
ist. Eine ähnliche Argumentation lässt sich für den in (5.182) definierten Approximations-
fehler E(R)
m,LR,qund den resultierenden Beobachtungsfehler v(s,R)
m,LR,qim Falle der Verwendung
der rekursiven Beobachtungsfunktion führen.
Ist im Gegensatz dazu die Sprache dominant, so liegt eine ähnliche Situation wie im stö-
rungsfreien Fall vor. Der Beobachtungsfehler ist dann im Vergleich zum Fall zuvor im Mittel
deutlich größer. Das liegt zum einen daran, dass der Approximationsfehler in (5.117) bedingt
durch die Vernachlässigung der Kreuzterme im ersten Summenterm von (5.116) relativ groß
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
81
ist. Zum anderen ist die Approximation in (5.124) durch die Ersetzung der in (5.121) auftre-
tende Terme hk,k(m′)2durch ihre Mittelwerte über das q-te MEL-Band ¯
Hm′,qrelativ grob.
In dem Fall, dass das Sprach- und das Störsignal lokal eine annähernd gleiche Leistung
aufweisen, ist der mittlere Beobachtungsfehler im Allgemeinen am größten. Denn dann wirkt
sich zusätzlich die Vernachlässigung des zweiten Summenterms in (5.116) im Hinblick auf
die Approximation (5.117) auf den Approximationsfehler aus.
Unter Berücksichtigung dieser Tatsachen hängt ein mit Hilfe von Trainingsdaten empi-
risch bestimmtes Histogramm des Beobachtungsfehlers ˆv(s)
m,qbzw. ˆv(s,R)
m,LR,qnicht nur in hohem
Maße von der Art der Störung und dem SNR ab, sondern auch vom Anteil der Sprachpausen
in den Trainingsäußerungen. Mit abnehmendem SNR und zunehmendem Anteil der Sprach-
pausen wird das Histogramm immer steilgipfliger, sodass es nicht mehr hinreichend genau
durch eine GAUSS-Verteilungsdichtefunktion approximiert werden kann.
Im Bewusstsein dessen, dass diese Art der Lösung sehr unzufriedenstellend und bei wei-
tem nicht optimal ist, wird in dieser Arbeit der stark vereinfachte Ansatz verfolgt, bei Vorhan-
densein der Störung dieselben Parameter des Beobachtungsfehlers wie im Fall ohne Störung
zu nutzen. Er ist zumindest für sehr hohe Werte des SNR gerechtfertigt. Eine Entwicklung
genauerer Modelle für den Beobachtungsfehler zur Berücksichtigung des Einflusses der Stö-
rung bleibt Gegenstand zukünftiger Forschung.
5.3. Inferenz
Nachdem zu Beginn von Kap. 5 das Konzept der BAYES’schen Merkmalsverbesserung vor-
gestellt und in Kap. 5.1 und Kap. 5.2 jeweils das dazu verwendete A-priori-Modell und
Beobachtungsmodell ausführlich beschrieben wurde, widmet sich dieser Abschnitt nun der
praktischen Umsetzung der Merkmalsverbesserung.
Zur Erinnerung sei noch einmal darauf hingewiesen, dass der Kern der BAYES’schen
Merkmalsverbesserung durch die rekursive Bestimmung der A-posteriori-Verteilungsdichte-
funktion pz(s)
my(s)
1:mgegeben ist. Im Allgemeinen gestaltet sich die dazu erforderliche re-
kursive Berechnung der Prädiktion und Aktualisierung gemäß der beiden Gleichungen (5.6)
und (5.7) sehr schwierig, da für den Fall einer beliebigen Form der Verteilungsdichtefunkti-
on pz(s)
m−1y(s)
1:m−1keine vernünftig handhabbare analytische Lösung für pz(s)
my(s)
1:m−1
und pz(s)
my(s)
1:mangegeben werden kann.
Eine Möglichkeit zur Lösung des Problems besteht dann in der Anwendung von MONTE-
CARLO-Methoden zur approximativen Berechnung der gesuchten Verteilungsdichtefunktio-
nen. Eine ausführliche und anschauliche Beschreibung solcher Verfahren findet sich bei-
spielsweise in [AMGC02]. Ihre Idee basiert auf der approximativen Darstellung einer Vertei-
lungsdichtefunktion mit Hilfe einer Menge von gewichteten Stichproben, sogenannten Parti-
keln, welchen dieselbe Verteilungsdichtefunktion zugrunde liegt. Ein entscheidender Nach-
teil liegt jedoch in der Tatsache, dass die Anzahl der benötigten Partikel, und damit auch der
Rechenaufwand, für eine hinreichend genaue Approximation einer Verteilungsdichtefunk-
tion im Allgemeinen exponentiell mit der Dimension der Zufallsvektoren wächst. Da die
82
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Dimension des hier betrachteten Merkmalsvektors
z(s)
m=x(s)
mT,...,x(s)
m−LC+1T,n(s)
mTT
(5.198)
durch (LC+1)Qgegeben ist, wobei gemäß Tab. 2.1 Q=23 gilt, werden derartige Verfahren
hier nicht weiter betrachtet.
Hingegen wird hier ein anderer vereinfachter, approximativer Ansatz verfolgt, dessen Mo-
tivation im Folgenden schrittweise verdeutlicht wird.
5.3.1. Iteratives erweitertes KALMAN-Filter
Geht man vorläufig von der approximativen Annahme aus, dass die A-priori-Verteilungs-
dichtefunktion pz(s)
m−1y(s)
1:m−1durch eine GAUSS-Verteilungsdichtefunktion gemäß
pz(s)
m−1y(s)
1:m−1=Nz(s)
m−1;ˆ
z(s)
m−1|m−1,ˆ
Σz(s)
m−1|m−1(5.199)
gegeben ist, so lässt sich zeigen, dass für den Fall eines linearen A-priori-Modells und Beob-
achtungsmodells sowie GAUSS-verteilten Prädiktions- und Beobachtungsfehlern die a poste-
riori-Verteilungsdichtefunktion pz(s)
my(s)
1:mselbst wieder eine GAUSS-Verteilung darstellt,
deren Mittelwert und Kovarianzmatrix mit Hilfe eines KALMAN-Filters berechnet werden
können [BSLK01]. In einer solchen Situation reduziert sich die Inferenz auf die Berechnung
der ersten beiden zentralen Momente.
In dem hier betrachteten Fall sind die dazu benötigten Voraussetzungen insofern nicht er-
füllt, als dass das A-priori-Modell zwar aus linearen Teilmodellen besteht, als Ganzes aber
nichtlinear ist. Zudem sind beide alternativen Beobachtungsfunktionen fOund f(R)
O,LRnichtli-
near. Eine approximative Lösung für die beiden ersten zentralen Momente ˆ
z(s)
m|m,iund ˆ
Σz(s)
m|m,i
der auf das i-te Teilmodell bedingten A-posteriori-Verteilungsdichtefunktion
pz(s)
my(s)
1:m,
ζ
m=i≈Nz(s)
m;ˆ
z(s)
m|m,i,ˆ
Σz(s)
m|m,i(5.200)
lässt sich dann mit einem sogenannten iterativen erweiterten KALMAN-Filter (engl. Iterated
Extended KALMAN Filter (IEKF)) [BSLK01] gemäß Alg. 4 berechnen. Als Eingabe wer-
den zusätzlich zu den bereits angesprochenen beiden zentralen Momenten der A-priori-Ver-
teilungsdichtefunktion ˆ
z(s)
m−1|m−1und ˆ
Σz(s)
m−1|m−1
unter anderem die Schätzwerte für die Mit-
telwertvektoren und Kovarianzmatrizen des sauberen Sprachsignals und des Störsignals ver-
gangener Zeitpunkte benötigt. Es ist wichtig zu bemerken, dass diese Schätzungen in den
vorhergehenden Inferenzschritten berechnet und zwischengespeichert werden müssen. Wei-
terhin hängt es von der verwendeten Beobachtungsfunktion ab, welche dieser Schätzungen
tatsächlich benötigt werden.
Im IEKF wird zunächst abhängig von dem Segmentindex mund dem Teilmodellindex idie
Prädiktion basierend auf (5.13) durchgeführt. Dieser Schritt ist aufgrund der Linearität des
A-priori-Teilmodells noch völlig identisch mit dem eines gewöhnlichen KALMAN-Filters.
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
83
Algorithmus 4: Iteratives erweitertes KALMAN-Filter
Eingabe: ˆ
z(s)
m−1|m−1,ˆ
Σz(s)
m−1|m−1
,ˆ
x(s)
m−ˆ
LH:m−LC+1,ˆ
Σ˘
x(s)
m−ˆ
LH:m−LC+1
,
ˆ
n(s)
m−LC,ˆ
Σ˘
n(s)
m−LC
,ˆ
x(s)
−LC+2:0,ˆ
Σ˘
x(s)
−LC+2:0
,y(s)
m−LC, ˆµ˘
¯
h0:ˆ
LH
,m,k.
Ausgabe: ˆ
z(s)
m|m,i,ˆ
Σz(s)
m|m,i
,ˆ
y(s),[1]
m,i,ˆ
Σy(s),[1]
m,i
.
1. Prädiktion:
Wenn m≤LAR dann
•Initialisiere den Mittelwertvektor ˆ
z(s)
m|m−1,iund die Kovarianzmatrix ˆ
Σz(s)
m|m−1,i
der
prädiktiven Verteilungsdichtefunktion pz(s)
m
ζ
m=igemäß
ˆ
z(s)
m|m−1,i=h(µx,i)T... (µx,i)T
|{z }
m-mal ˆ
x(s)
0T... ˆ
x(s)
−LC+m+1T(µn)TiT
(5.201)
ˆ
Σz(s)
m|m−1,i
=
blockdiagnm-mal
z}| {
Σx,i,...,Σx,io0... ... 0
0ˆ
Σ˘
x(s)
0
0... 0
.
.
.0.......
.
.
.
.
..
.
....ˆ
Σ˘
x(s)
−LC+m+1
0
0 0 ... 0Σn
.
(5.202)
sonst
•Berechne den Mittelwertvektor ˆ
z(s)
m|m−1,iund die Kovarianzmatrix ˆ
Σz(s)
m|m−1,i
der
prädiktiven Verteilungsdichtefunktion pz(s)
my(s)
1:m−1,
ζ
m=igemäß
ˆ
z(s)
m|m−1,i=Az,iˆ
z(s)
m−1|m−1+bz,i(5.203)
ˆ
Σz(s)
m|m−1,i
=Az,iˆ
Σz(s)
m−1|m−1
(Az,i)T+Vz,i(5.204)
mit
Az,i:=
Ai,1... Ai,LAR 0... 0
I 0 ... 0... 0
0 I ...0 0 .
.
.
.
.
.0.......
.
..
.
.
.
.
..
.
....I 0 .
.
.
0 0 ... 0 I 0
0... ... ... 0 0
,Vz,i:=
Vi0... 0 0
0 0 ... 0 0
.
.
..
.
.....
.
..
.
.
0 0 ... 0 0
0 0 ... 0Σn
,
(5.205)
bz,i:=(bi)T0... 0(µn)TT.(5.206)
Ende wenn
84
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
2. Aktualisierung:
a) Initialisiere die Linearisierungsstelle der Beobachtungsfunktion mit dem
Prädiktionsvektor gemäß
ˆ
z(s),[1]
m|m,i=ˆ
z(s)
m|m−1,i.(5.207)
b) Iteriere die Linearisierungsstelle:
Für r=1..R
i. Berechne die prädizierte Beobachtung ˆ
y(s),[r]
m,i, die zugehörige
Kovarianzmatrix ˆ
Σy(s),[r]
m,i
sowie die JACOBI-Matrix Hˆ
z(s),[r]
m|m,i
:
Wenn nichtrekursive Beobachtungsfunktion (5.130) verwendet wird dann
•Verwende Alg. 5:
Eingabe: ˆ
z(s),[r]
m|m,i,ˆ
x(s)
m−ˆ
LH:m−LC,ˆ
Σ˘
x(s)
m−ˆ
LH:m−LC
, ˆµ˘
¯
h0:ˆ
LH
.
Ausgabe: ˆ
y(s),[r]
m,i,ˆ
Σy(s),[r]
m,i
,Hˆ
z(s),[r]
m|m,i
.
Sonst (d.h. wenn rekursive Beobachtungsfunktion (5.185) verwendet wird)
•Verwende Alg. 6:
Eingabe: ˆ
z(s),[r]
m|m,i,y(s)
m−LC,ˆ
n(s)
m−LC,ˆ
Σ˘
n(s)
m−LC
, ˆµ˘
¯
h0:LC−1.
Ausgabe: ˆ
y(s),[r]
m,i,ˆ
Σy(s),[r]
m,i
,Hˆ
z(s),[r]
m|m,i
.
Ende wenn
ii. Aktualisiere die Linearisierungsstelle gemäß
ˆ
z(s),[r+1]
m|m,i=ˆ
z(s)
m|m−1,i+K[r]
m,iy(s)
m−ˆ
y(s),[r]
m,i+Hˆ
z(s),[r]
m|m,iˆ
z(s),[r]
m|m,i−ˆ
z(s)
m|m−1,i
(5.208)
mit der KALMAN-Verstärkungsmatrix
K[r]
m,i:=ˆ
Σz(s)
m|m−1,iHˆ
z(s),[r]
m|m,iTˆ
Σy(s),[r]
m,i−1
.(5.209)
Ende für
c) Berechne den Mittelwertvektor ˆ
z(s)
m|m,iund die Kovarianzmatrix ˆ
Σz(s)
m|m,i
der
A-posteriori-Verteilungsdichtefunktion pz(s)
my(s)
1:m,
ζ
m=igemäß
ˆ
z(s)
m|m,i=ˆ
z(s),[R+1]
m|m,i,(5.210)
ˆ
Σz(s)
m|m,i
=I−K[R]
m,iHˆ
z(s),[R]
m|m,iˆ
Σz(s)
m|m−1,i
.(5.211)
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
85
Der Grundgedanke besteht dabei darin, dass eine Zufallsvariable, die durch eine lineare
Transformation aus einer normalverteilten Zufallsvariablen hervorgeht, selbst wieder nor-
malverteilt ist. Bei der Berechnung der beiden Ausdrücke ˆ
z(s)
m|m−1,iund ˆ
Σz(s)
m|m−1,i
in (5.201)
und (5.202) in Alg. 4 ist darauf zu achten, dass die beiden Terme
ˆ
x(s)
0T... ˆ
x(s)
−LC+m+1T(5.212)
blockdiagˆ
Σ˘
x(s)
0
,..., ˆ
Σ˘
x(s)
−LC+m+1(5.213)
für −LC+m+1>0 zu ignorieren sind.
Zur Aktualisierung, dem zweiten Teilschritt, wird zur Ausnutzung dieses Prinzips die
nichtlineare Beobachtungsfunktion anfangs an der Prädiktionsstelle linearisiert. Die Linea-
risierungstelle wird anschließend RMal mit dem Ziel der Maximierung der A-posteriori-
Verteilungsdichtefunktion pz(s)
my(s)
1:m,
ζ
m=iiterativ verbessert [BSLK01]. Dazu werden
die ersten beiden zentralen Momente der prädiktiven Verteilungsdichtefunktion der Beob-
achtung y(s)
mbedingt auf die Linearisierungsstelle bestimmt. Bei der Verwendung des nicht-
rekursiven Beobachtungsmodells geschieht dieses mit Hilfe von Alg. 5. Für das rekursive
Beobachtungsmodell wird Alg. 6 herangezogen. Dabei ist zu beachten, dass die Rekursions-
länge LRgleich der Anzahl LCder Merkmalsvektoren des sauberen Sprachsignals innerhalb
des Zustandsvektors z(s)
mgewählt wird.
Außerdem wird durch eine Betrachtung von Alg. 5 ersichtlich, dass beim nichtrekursiven
Beobachtungsmodell die prädiktive Verteilungsdichtefunktion der Beobachtung y(s)
munter
anderem mit Hilfe der geschätzten Merkmalsvektorfolge ˆ
x(s)
m−ˆ
LH:m−LCdes sauberen Sprach-
signals sowie der zugehörigen geschätzten Kovarianzmatrizen ˆ
Σ˘
x(s)
m−ˆ
LH:m−LC
berechnet wird.
Nimmt man beispielweise eine Nachhallzeit T60 von 0,45 s an und approximiert die Länge
ˆ
Lheiner zugehörigen RIA gemäß (5.159) mit
ε
h=10−3, so ergibt sich nach (5.112) für
ˆ
LHein Wert von 24. Bei der Bestimmung der Kovarianzmatrix ˆ
Σy(s),[r]
m,i
in (5.215) wird ver-
einfacht angenommen, dass die einzelnen Schätzvektoren der Sequenz ˆ
x(s)
m−ˆ
LH:m−LCsowohl
untereinander als auch mit ˆ
z(s),[r]
m|m,iunkorreliert sind.
Hingegen werden bei der Verwendung des rekursiven Beobachtungsmodells in Alg. 6 statt
der Schätzvektorfolge ˆ
x(s)
m−ˆ
LH:m−LClediglich die vergangene Beobachtung y(s)
m−LC, der Schätz-
vektor ˆ
n(s)
m−LCdes zeitlich zurückliegenden Merkmalsvektors des Störsignals sowie die zuge-
hörige Kovarianzmatrix ˆ
Σ˘
n(s)
m−LC
benötigt. Dabei soll noch einmal betont werden, dass damit
im Vergleich zur Verwendung der nichtrekursiven Beobachtungsfunktion in Alg. 5 eine Re-
duktion des benötigten Rechen- und Speicheraufwands erzielt wird. Zur Berechnung der
Kovarianzmatrix ˆ
Σy(s),[r]
m,i
in (5.221) wird nur noch angenommen, dass die beiden Schätzvek-
toren ˆ
n(s)
m−LCund ˆ
z(s),[r]
m|m,iunkorreliert sind.
86
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Algorithmus 5 Berechnung der ersten beiden zentralen Momente der Verteilungsdichtefunk-
tion py(s)
mˆ
z(s),[r]
m|m,i,ˆ
x(s)
m−ˆ
LH:m−LC,ˆ
Σ˘
x(s)
m−ˆ
LH:m−LC
,ˆµ˘
¯
h0:ˆ
LHbasierend auf der nicht rekursiven Be-
obachtungsfunktion (5.130).
Eingabe: ˆ
z(s),[r]
m|m,i,ˆ
x(s)
m−ˆ
LH:m−LC,ˆ
Σ˘
x(s)
m−ˆ
LH:m−LC
, ˆµ˘
¯
h0:ˆ
LH
.
Ausgabe: ˆ
y(s),[r]
m,i,ˆ
Σy(s),[r]
m,i
,HfO,ˆ
z(s),[r]
m|m,i
.
•Berechne die prädizierte Beobachtung ˆ
y(s),[r]
m,iund die zugehörige Kovarianzmatrix
ˆ
Σy(s),[r]
m,i
basierend auf der Linearisierungsstelle ˆ
z(s),[r]
m|m,igemäß
ˆ
y(s),[r]
m,i=fOˆχ(s),[r]
m|m,i,ˆ
x(s)
m−LC:m−ˆ
LH,ˆµ˘
¯
h0:ˆ
LH
,ˆ
n(s),[r]
m|m,i+µˆ
v(s)(5.214)
ˆ
Σy(s),[r]
m,i=HfO,ˆ
z(s),[r]
m|m,i
ˆ
Σz(s)
m|m−1,iHfO,ˆ
z(s),[r]
m|m,iT
+
m−ˆ
LH
∑
m′=LC
HfO,ˆ
x(s)
m−m′
ˆ
Σ˘
x(s)
m−m′HfO,ˆ
x(s)
m−m′T
+Σˆ
v(s)(5.215)
wobei
HfO,ˆ
z(s),[r]
m|m,i
=hHfO,ˆχ(s),[r]
m|m,i
HfO,ˆ
n(s),[r]
m|m,ii(5.216)
mit
HfO,ˆχ(s),[r]
m|m,i
:=
∂
fOχ(s)
m,ˆ
x(s)
m−LC:m−ˆ
LH,ˆµ˘
¯
h0:ˆ
LH
,ˆ
n(s),[r]
m|m,i
∂
χ(s)
m
χ(s)
m=ˆχ(s),[r]
m|m,i
,(5.217)
HfO,ˆ
n(s),[r]
m|m,i
:=
∂
fOˆχ(s),[r]
m|m,i,ˆ
x(s)
m−LC:m−ˆ
LH,ˆµ˘
¯
h0:ˆ
LH
,n(s)
m
∂
n(s)
m
n(s)
m=ˆ
n(s),[r]
m|m,i
,(5.218)
HfO,ˆ
x(s)
m−m′
:=
∂
fOˆχ(s),[r]
m|m,i,ˆ
x(s)
m−LC,...,x(s)
m−m′,...,ˆ
x(s)
m−ˆ
LH,ˆµ˘
¯
h0:ˆ
LH
,ˆ
n(s),[r]
m|m,i
∂
x(s)
m−m′
x(s)
m−m′=ˆ
x(s)
m−m′
.
(5.219)
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
87
Algorithmus 6 Berechnung der ersten beiden zentralen Momente der Verteilungsdichtefunk-
tion py(s)
mˆ
z(s),[r]
m|m,i,y(s)
m−LC,ˆ
n(s)
m−LC,ˆ
Σ˘
n(s)
m−LC
,ˆµ˘
¯
h0:LC−1basierend auf der rekursiven Beobach-
tungsfunktion (5.185).
Eingabe: ˆ
z(s),[r]
m|m,i,y(s)
m−LC,ˆ
n(s)
m−LC,ˆ
Σ˘
n(s)
m−LC
, ˆµ˘
¯
h0:LC−1.
Ausgabe: ˆ
y(s),[r]
m,i,ˆ
Σy(s),[r]
m,i
,Hf(R)
O,LC,ˆ
z(s),[r]
m|m,i
.
•Berechne die prädizierte Beobachtung ˆ
y(s),[r]
m,iund die zugehörige Kovarianzmatrix
ˆ
Σy(s),[r]
m,i
basierend auf der aktuellen Linearisierungsstelle ˆ
z(s),[r]
m|m,igemäß
ˆ
y(s),[r]
m,i=f(R)
O,LCˆχ(s),[r]
m|m,i,ˆµ˘
¯
h0:LC−1,y(s)
m−LC,ˆ
n(s),[r]
m|m,i,ˆ
n(s)
m−LC+µˆ
v(s,R)
LC
(5.220)
ˆ
Σy(s),[r]
m,i=Hf(R)
O,LC,ˆχ(s),[r]
m|m,i
ˆ
Σz(s)
m|m−1,iHf(R)
O,LC,ˆχ(s),[r]
m|m,iT
+Hf(R)
O,LC,ˆ
n(s)
m−LC
ˆ
Σ˘
n(s)
m−LCHf(R)
O,LC,ˆ
n(s)
m−LCT
+Σˆ
v(s,R)
LC
,(5.221)
wobei
Hf(R)
O,LC,ˆ
z(s),[r]
m|m,i
=hHf(R)
O,LC,ˆχ(s),[r]
m|m,i
Hf(R)
O,LC,ˆ
n(s),[r]
m|m,ii(5.222)
mit
Hf(R)
O,LC,ˆχ(s),[r]
m|m,i
:=
∂
f(R)
O,LCχ(s)
m,ˆµ˘
¯
h0:LC−1,y(s)
m−LC,ˆ
n(s),[r]
m|m,i,ˆ
n(s)
m−LC
∂
χ(s)
m
χ(s)
m=ˆχ(s),[r]
m|m,i
,(5.223)
Hf(R)
O,LC,ˆ
n(s),[r]
m|m,i
:=
∂
f(R)
O,LCˆχ(s),[r]
m|m,i,ˆµ˘
¯
h0:LC−1,y(s)
m−LC,n(s)
m,ˆ
n(s)
m−LC
∂
n(s)
m
n(s)
m=ˆ
n(s),[r]
m|m,i
,(5.224)
Hf(R)
O,LC,ˆ
n(s)
m−LC+1
:=
∂
f(R)
O,LCˆχ(s),[r]
m|m,i,ˆµ˘
¯
h0:LC−1,y(s)
m−LC,ˆ
n(s),[r]
m|m,i,n(s)
m−LC
∂
n(s)
m−LC
n(s)
m−LC=ˆ
n(s)
m−LC
.
(5.225)
88
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
5.3.2. Modellkombinationsalgorithmen
Wird, wie im vorhergehenden Abschnitt, unter der Annahme einer GAUSS-förmigen A-pos-
teriori-Verteilungsdichtefunktion pz(s)
m−1y(s)
1:m−1zum Zeitpunkt m−1 die auf das i-te
Teilmodell bedingte A-posteriori-Verteilungsdichtefunktion pz(s)
my(s)
1:m,
ζ
m=izum Zeit-
punkt mdurch eine GAUSS-Verteilungsdichtefunktion approximiert, so folgt für die A-poste-
riori-Verteilungsdichtefunktion pz(s)
my(s)
1:mzwangsläufig, dass sie durch ein GMM gemäß
pz(s)
my(s)
1:m≈
I
∑
i=1
P
ζ
m=iy(s)
1:mNz(s)
m;ˆ
z(s)
m|m,i,ˆ
Σz(s)
m|m,i(5.226)
repräsentiert wird. Um die A-posteriori-Verteilungsdichtefunktion zum Zeitpunkt m+1 zu
bestimmen, ließe sich das zuvor beschriebene Prinzip auf jede Mischungskomponente ge-
trennt anwenden, so dass die Approximation
pz(s)
m+1y(s)
1:m+1≈
I
∑
i=1
I
∑
k=1
P
ζ
m=i,
ζ
m+1=ky(s)
1:m+1
·Nz(s)
m+1;ˆ
z(s)
m+1|m+1,i,k,ˆ
Σz(s)
m+1|m+1,i,k(5.227)
resultiert. Anhand dieses Beispiels lässt sich erkennen, dass die Anzahl der Mischungskom-
ponenten zur Darstellung der A-posteriori-Verteilungsdichtefunktion, und damit auch der
Rechenaufwand, exponentiell mit dem Segmentindex wächst. Um diesem Phänomen entge-
genzuwirken, werden hier drei mögliche Verfahren aus der Literatur vorgestellt. Darunter be-
finden sich die sogenannte generalisierte pseudo-BAYES’sche Schätzung (engl. Generalized
Pseudo BAYESIAN (GPB) estimation) erster und zweiter Ordnung sowie die Schätzung mit
interagierenden Modellen (engl. Interacting Multiple Model (IMM) estimation) [BSLK01].
Bei der GPB-Schätzung erster Ordnung (engl. Generalized Pseudo BAYESIAN estima-
tion of order 1(GPB1)), die ausführlich in Alg. 7 beschrieben ist, wird die A-posteriori-
Verteilungsdichtefunktion nach jedem Inferenzschritt durch eine GAUSS-Verteilungsdichte-
funktion approximiert. Der Mittelwertvektor ˆ
z(s)
m|mund die Kovarianzmatrix ˆ
Σz(s)
m|m
der A-
posteriori-Verteilungsdichtefunktion
pz(s)
my(s)
1:m≈Nz(s)
m;ˆ
z(s)
m|m,ˆ
Σz(s)
m|m(5.228)
werden dabei derart bestimmt, dass die KULLBACK-LEIBLER-Divergenz zwischen (5.228)
und dem GMM (5.226) minimiert wird. Daraus ergibt sich die Modellkombinationsvorschrift
gemäß (5.233) und (5.234).
Die IMM-Schätzung, aufgeführt in Alg. 8, basiert auf der Darstellung der auf das i-te
Teilmodell bedingten A-priori-Verteilungsdichtefunktion zum Zeitpunkt mgemäß
pz(s)
my(s)
1:m−1,
ζ
m=i=
I
∑
k=1
P
ζ
m−1=k
ζ
m=i,y(s)
1:m−1pz(s)
my(s)
1:m−1,
ζ
m=i,
ζ
m−1=k
(5.237)
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
89
Algorithmus 7 Modellkombination gemäß GPB1
•Initialisierung:
Initialisiere die Schätzwerte für die Mittelwertvektoren und Kovarianzmatrizen der Merkmals-
vektoren der sauberen Sprachsignals und des Störsignals für m∈−ˆ
LH+1,...,0durch
ˆ
x(s)
m= (xMIN,...,xMIN)T,ˆ
Σ˘
x(s)
m=
σ
2
MIN ·I,ˆ
n(s)
m=µn,ˆ
Σ˘
n(s)
m=
σ
2
MIN ·I(5.229)
sowie für m∈{−LC+1,...,0}die Merkmalsvektoren y(s)
mdurch y(s)
m=ˆ
x(s)
m.
•Filterung:
Für m=1..M
•Modellabhängige Inferenzen:
1. Berechne die A-priori-Modell-WSKs Pm|m−1,i:=P
ζ
m=i|y(s)
1:m−1für i∈{1,...,I}:
Wenn m=1dann
Pm|m−1,i=
ψ
i,(5.230)
Sonst
Pm|m−1,i=
I
∑
k=1
ak,iPm−1|m−1,k.(5.231)
Ende wenn
2. Wende für i∈ {1,...,I}das IEKF gemäß Alg. 4 an:
Eingabe: ˆ
z(s)
m−1|m−1,ˆ
Σz(s)
m−1|m−1
,ˆ
x(s)
m−ˆ
LH:m−LC,ˆ
Σ˘
x(s)
m−ˆ
LH:m−LC
,
ˆ
n(s)
m−LC,ˆ
Σ˘
n(s)
m−LC
,ˆ
x(s)
−LC+2:0,ˆ
Σ˘
x(s)
−LC+2:0
,y(s)
m−LC, ˆµ˘
¯
h0:ˆ
LH
,m,k.
Ausgabe: ˆ
z(s)
m|m,i,ˆ
Σz(s)
m|m,i
,ˆ
y(s),[1]
m,i,ˆ
Σy(s),[1]
m,i.
•Modellkombination:
1. Berechne für i∈ {1,...,I}die A-posteriori-Modell-WSKs Pm|m,i:=P
ζ
m=i|y(s)
1:m:
Pm|m,i∝Ny(s)
m;ˆ
y(s),[1]
m,i;ˆ
Σy(s),[1]
m,iPm|m−1,i.(5.232)
2. Berechne den Mittelwertvektor und die Kovarianzmatrix der A-posteriori-Vertei-
lungsdichtefunktion pz(s)
my(s)
1:mgemäß
ˆ
z(s)
m|m=
I
∑
i=1
Pm|m,iˆ
z(s)
m|m,i,(5.233)
ˆ
Σz(s)
m|m=
I
∑
i=1
Pm|m,iˆ
Σz(s)
m|m,i+ˆ
z(s)
m|m,i−ˆ
z(s)
m|mˆ
z(s)
m|m,i−ˆ
z(s)
m|mT.(5.234)
•Extraktion der Schätzungen:
1. Extrahiere den geschätzten Merkmalsvektor der Störung sowie zugehörige Schätz-
fehlerkovarianzmatrix aus dem Zustandsvektor und der Zustandskovarianzmatrix:
ˆ
n(s)
m=Mn,EXTR ˆ
z(s)
m|m,ˆ
Σ˘
n(s)
m=Mn,EXTR ˆ
Σz(s)
m|m(Mn,EXTR)T(5.235)
mit Mn,EXTR :=0... 0 I∈RQ×(LC+1)Q.
2. Wenn m≥LCdann
•Extrahiere den verbesserten Merkmalsvektor samt der Schätzfehlerkovarianz-
matrix aus dem Zustandsvektor und der Zustandskovarianzmatrix:
ˆ
x(s)
m−LC+1=Mx,EXTR ˆ
z(s)
m|m,ˆ
Σ˘
x(s)
m−LC+1
=Mx,EXTR ˆ
Σz(s)
m|m(Mx,EXTR)T(5.236)
mit Mx,EXTR :=0... 0 I 0∈RQ×(LC+1)Q.
Ende wenn
Ende für
90
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
und einer Approximation von pz(s)
my(s)
1:m−1,
ζ
m=i,
ζ
m−1=kdurch eine GAUSS-Vertei-
lungsdichtefunktion. Daher wird hierbei im Gegensatz zur GPB1-Schätzung zum Zeitpunkt
mfür jedes Teilmodell idas IEKF auf Grundlage eines teilmodellspezifischen initialen Mit-
telwertvektors ˆ
z(s,INIT)
m−1,iund einer Kovarianzmatrix ˆ
Σ(s,INIT)
m−1,iausgeführt.
Bei der GPB-Schätzung zweiter Ordnung (engl. Generalized Pseudo BAYESIAN estima-
tion of order 2(GPB2)), welche in Alg. 9 dargestellt ist, findet nach jedem Inferenzschritt
eine Approximation der A-posteriori-Verteilungsdichtefunktion durch ein GMM mit IMi-
schungskomponenten gemäß (5.226) statt. Die Anzahl der erforderlichen Aufrufe des IEKF
pro Inferenzschritt ist daher I2im Vergleich zu Ibei der GPB1- und IMM-Schätzung.
Die Initialisierung ist bei allen drei Verfahren identisch. Unter der Annahme, dass für
einen Dauer von ˆ
LH−1 Segmenten unmittelbar vor dem Zeitpunkt m=1 keine Sprache im
Signal auftritt und das Störsignal stationär ist, lässt sich diese gemäß (5.229) bewerkstelligen.
Vernünftige Werte für die Parameter xMIN und
σ
2
MIN sind beispielsweise xMIN =−50 und
σ
2
MIN =10−6.
Weiterhin muss bemerkt werden, dass im Sinne der Gewinnungen von Punktschätzun-
gen ˆ
z(s)
m|mund zugehörigen Schätzfehlerkovarianzmatrizen ˆ
Σz(s)
m|m
bei allen drei Verfahren die
A-posteriori-Verteilungsdichtefunktion gemäß (5.228) angenähert werden muss. Aus diesen
Schätzungen werden abschließend mit Hilfe von (5.235) und (5.236) die verbesserten Merk-
male ˆ
x(s)
m−LC+1und ˆ
n(s)
msowie die entsprechenden Schätzfehlerkovarianzmatrizen ˆ
Σ˘
n(s)
mund
ˆ
Σ˘
x(s)
m−LC+1
extrahiert.
Da die Schätzung ˆ
x(s)
m−LC+1bedingt auf die Beobachtungen y(s)
1:mist, beinhaltet sie Informa-
tion über einen gewissen Zeitraum der Dauer von LC−1 Segmenten in der Zukunft. Obwohl
diese Art der impliziten Glättung eine Latenz der gleichen Dauer verursacht, sind die hier
beschriebenen Verfahren in der Regel für eine Online-Verarbeitung geeignet, da die Werte
von LCrelativ klein gewählt werden können.
Für weitere grundlegende Details zu den hier aufgeführten Modellkombinationsalgorith-
men sei auf eine ausführliche Beschreibung in [BSLK01] verwiesen.
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
91
Algorithmus 8 Modellkombination gemäß IMM
•Initialisierung:
1. Initialisiere ˆ
x(s)
m,ˆ
Σ˘
x(s)
m,ˆ
n(s)
mund ˆ
Σ˘
n(s)
mfür m∈−ˆ
LH+1,...,0gemäß (5.229).
2. Initialisiere y(s)
mfür m∈{−LC+1,...,0}wie in Alg. 7.
3. Initialisiere für i∈ {1,...,I}den Zustandsvektor ˆ
z(s)
0|0,iund die Kovarianzmatrix ˆ
Σz(s)
0|0,i
:
ˆ
z(s)
0|0,i=hˆ
x(s)
0T,...,ˆ
x(s)
−LC+1T,ˆ
n(s)
0TiT
,ˆ
Σz(s)
0|0,i=blockdiag
σ
2
MINI,...,
σ
2
MINI.
(5.238)
•Filterung:
Für m=1..M
•Modellabhängige Inferenzen:
1. Berechne für i∈ {1,...,I}die A-priori-Modell-WSKs Pm|m−1,igemäß (5.230) und
(5.231).
2. Berechne für alle Tupel (i,k)mit i,k∈{1,...,I}die Mischungswahrscheinlichkei-
ten P(MIX)
i,k,m:=P
ζ
m−1=k
ζ
m=i,y(s)
1:m−1gemäß
P(MIX)
i,k,m∝ak,iPm−1|m−1,i.(5.239)
3. Berechne für i∈ {1,...,I}die initialen Mittelwertvektoren und Kovarianzmatrizen
für das i-te IEKF gemäß
ˆ
z(s,INIT)
m−1,i=
I
∑
k=1
P(MIX)
i,k,mˆ
z(s)
m−1|m−1,k,(5.240)
ˆ
Σ(s,INIT)
m−1,i=
I
∑
k=1
P(MIX)
i,k,mˆ
Σz(s)
m−1|m−1,k+ˆ
z(s)
m−1|m−1,k−ˆ
z(s,INIT)
m−1,iˆ
z(s)
m−1|m−1,k−ˆ
z(s,INIT)
m−1,iT.
(5.241)
4. Wende für i∈ {1,...,I}das IEKF gemäß Alg. 4 an:
Eingabe: ˆ
z(s,INIT)
m−1,i,ˆ
Σ(s,INIT)
m−1,i,ˆ
x(s)
m−ˆ
LH:m−LC,ˆ
Σ˘
x(s)
m−ˆ
LH:m−LC
,
ˆ
n(s)
m−LC,ˆ
Σ˘
n(s)
m−LC
,ˆ
x(s)
−LC+2:0,ˆ
Σ˘
x(s)
−LC+2:0
,y(s)
m−LC, ˆµ˘
¯
h0:ˆ
LH
,m,i.
Ausgabe: ˆ
z(s)
m|m,i,ˆ
Σz(s)
m|m,i
,ˆ
y(s),[1]
m,i,ˆ
Σy(s),[1]
m,i.
•Modellkombination:
1. Berechne für i∈ {1,...,I}die A-posteriori-Modell-WSKs Pm|m,igemäß (5.232).
2. Berechne den Mittelwertvektor und die Kovarianzmatrix der A-posteriori-Vertei-
lungsdichtefunktion pz(s)
my(s)
1:mgemäß
ˆ
z(s)
m|m=
I
∑
i=1
Pm|m,iˆ
z(s)
m|m,i,(5.242)
ˆ
Σz(s)
m|m=
I
∑
i=1
Pm|m,iˆ
Σz(s)
m|m,i+ˆ
z(s)
m|m,i−ˆ
z(s)
m|mˆ
z(s)
m|m,i−ˆ
z(s)
m|mT.(5.243)
•Extraktion der Schätzungen:
1. Extrahiere ˆ
n(s)
mund ˆ
Σ˘
n(s)
maus ˆ
z(s)
m|mund ˆ
Σz(s)
m|m
gemäß (5.235).
2. Wenn m≥LCdann
•Extrahiere ˆ
x(s)
m−LC+1und ˆ
Σ˘
x(s)
m−LC+1
aus ˆ
z(s)
m|mund ˆ
Σz(s)
m|m
gemäß (5.236).
Ende wenn
Ende für
92
Konzept der modellbasierten BAYES’schen Merkmalsverbesserung
Algorithmus 9 Modellkombination gemäß GPB2
•Initialisierung:
1. Initialisiere ˆ
x(s)
m,ˆ
Σ˘
x(s)
m,ˆ
n(s)
mund ˆ
Σ˘
n(s)
mfür m∈−ˆ
LH+1,...,0gemäß (5.229).
2. Initialisiere y(s)
mfür m∈{−LC+1,...,0}wie in Alg. 7.
3. Initialisiere ˆ
z(s)
0|0,iund ˆ
Σz(s)
0|0,i
für i∈ {1,...,I}gemäß (5.238).
4. Initialisiere für i∈ {1,...,I}die A-posteriori-Modell-WSKs durch P0|0,i=
ψ
i.
•Filterung:
Für m=1..M
•Modellabhängige Inferenzen:
1. Wende für alle Tupel (i,k)mit i,k∈ {1,...,I}das IEKF gemäß Alg. 4 an:
Eingabe: ˆ
z(s)
m−1|m−1,i,ˆ
Σz(s)
m−1|m−1,i
,ˆ
x(s)
m−ˆ
LH:m−LC,ˆ
Σ˘
x(s)
m−ˆ
LH:m−LC
,
ˆ
n(s)
m−LC,ˆ
Σ˘
n(s)
m−LC
,ˆ
x(s)
−LC+2:0,ˆ
Σ˘
x(s)
−LC+2:0
,y(s)
m−LC, ˆµ˘
¯
h0:ˆ
LH
,m,k.
Ausgabe: ˆ
z(s)
m|m,i,k,ˆ
Σz(s)
m|m,i,k
,ˆ
y(s),[1]
m,i,k,ˆ
Σy(s),[1]
m,i,k.
•Modellkombination:
1. Berechne für alle Tupel (i,k)mit i,k∈ {1,...,I}die Fusions-WSKs P(FUS)
m,k,i:=
P
ζ
m−1=k
ζ
m=i,y(s)
1:mgemäß
P(FUS)
m,k,i∝Ny(s)
m;ˆ
y(s),[1]
m,i,k,ˆ
Σy(s),[1]
m,i,kak,iPm−1|m−1,k(5.244)
2. Berechne für k∈ {1,...,I}den Mittelwertvektor und die Kovarianzmatrix der mo-
dellbedingten A-posteriori-Verteilungsdichtefunktion pz(s)
my(s)
1:m,
ζ
m=kgemäß
ˆ
z(s)
m|m,k=
I
∑
i=1
P(FUS)
m,k,iˆ
z(s)
m|m,i,k,(5.245)
ˆ
Σz(s)
m|m,k=
I
∑
i=1
P(FUS)
m,k,iˆ
Σz(s)
m|m,i,k+ˆ
z(s)
m|m,i,k−ˆ
z(s)
m|m,kˆ
z(s)
m|m,i,k−ˆ
z(s)
m|m,kT.(5.246)
3. Berechne für i∈ {1,...,I}die A-posteriori-Modellwahrscheinlichkeiten gemäß
Pm|m,i∝
I
∑
k=1
P(FUS)
m,k,i.(5.247)
4. Berechne den Mittelwertvektor und die Kovarianzmatrix der A-posteriori-Vertei-
lungsdichtefunktion pz(s)
my(s)
1:mgemäß
ˆ
z(s)
m|m=
I
∑
i=1
Pm|m,iˆ
z(s)
m|m,i,(5.248)
ˆ
Σz(s)
m|m=
I
∑
i=1
Pm|m,iˆ
Σz(s)
m|m,i+ˆ
z(s)
m|m,i−ˆ
z(s)
m|mˆ
z(s)
m|m,i−ˆ
z(s)
m|mT.(5.249)
•Extraktion der Schätzungen:
1. Extrahiere ˆ
n(s)
mund ˆ
Σ˘
n(s)
maus ˆ
z(s)
m|mund ˆ
Σz(s)
m|m
gemäß (5.235).
2. Wenn m≥LCdann
•Extrahiere ˆ
x(s)
m−LC+1und ˆ
Σ˘
x(s)
m−LC+1
aus ˆ
z(s)
m|mund ˆ
Σz(s)
m|m
gemäß (5.236).
Ende wenn
Ende für
6. Experimentelle Untersuchungen
In diesem Kapitel wird das zuvor vorgestellte Verfahren zur BAYES’schen Merkmalsver-
besserung ausführlich experimentell untersucht. Die dazu verwendeten Sprachdatenbanken
werden zunächst in Kap. 6.1 im Detail beschrieben. Anschließend werden in Kap. 6.2 Er-
kennungsergebnisse derzeit existierender Referenzverfahren auf diesen Datenbanken präsen-
tiert, um die Schwierigkeit der Spracherkennung unter Präsenz von Nachhall und Störungen
vor Augen zu führen. Danach werden in Kap. 6.4 Resultate von Voruntersuchungen zur
Merkmalsverbesserung dargelegt. In Kap. 6.5 folgen experimentelle Ergebnisse zur reinen
Merkmalsenthallung, wobei besonderes Augenmerk auf den Einfluss des A-priori-Modells
und des Beobachtungsmodells auf die Leistungsfähigkeit des Verfahrens gelegt wird. Ab-
schließend werden in Kap. 6.6 experimentelle Ergebnisse zur gemeinsamen Merkmalsent-
hallung und -entstörung dargeboten.
6.1. Sprachdatenbanken und Konfigurationen der
Spracherkenner
Die Datenbanken wurden derart ausgewählt bzw. selbst modifiziert, dass die Leistungsfä-
higkeit des zuvor vorgestellten Verfahrens zur Merkmalsverbesserung sowohl für Spracher-
kennungsaufgaben mit kleinem als auch großem Vokabular unter Einfluss von Nachhall
und Hintergrundstörungen untersucht werden konnte. Als Aufgabe mit einem kleinem Vo-
kabular wurde eine Erkennung von Ziffernketten betrachtet. Zu diesem Zweck wurde die
AURORA5-Datenbank verwendet, die in Kap. 6.1.1 beschrieben wird.
Soweit es dem Autor bekannt ist, existiert bislang keine Sprachdatenbank mit großem Vo-
kabular, bei der die Sprachäußerungen in halligen Umgebungen aufgenommen worden sind.
Aus diesem Grund wurde für die Erkennungsaufgabe mit großem Vokabular die AURORA4-
Datenbank, die nur durch Hintergrundstörungen beeinflusste Sprachäußerungen beinhaltet,
herangezogen und geeignet modifiziert, um zusätzlich den Effekt des Nachhalls einzubezie-
hen. Die AURORA4-Datenbank sowie die daran vorgenommenen Modifikationen sind in
Kap. 6.1.2 dokumentiert.
6.1.1. AURORA5-Datenbank
Die AURORA5-Datenbank [Hir07] wurde vorwiegend zur Untersuchung der Leistungsfä-
higkeit von Spracherkennungssystemen im Freihandsprachbetrieb in Gegenwart von Hin-
tergrundstörungen entwickelt. Sie besteht aus Sprachäußerungen erwachsener Personen von
Ziffernketten in amerikanischem Englisch und basiert auf der Texas Instruments (TI)-Digits-
Datenbank. Die für die TI-Digits-Datenbankmit mit einer Abtastrate von 20 kHz aufgenom-
93
94
Experimentelle Untersuchungen
menen Sprachsignale wurden dabei für die Erzeugung der AURORA5-Datenbank mit 8 kHz
unterabgetastet. Das Vokabular besteht aus insgesamt 11 Wörtern, da die Ziffer Null in den
beiden englischen Aussprachevarianten zero und oh vorkommt.
Das Hauptaugenmerk der Ersteller der AURORA5-Datenbank lag auf der Betrachtung von
realistischen Anwendungsszenarien, von denen zwei besondere ausgewählt wurden. Diese
umfassen erstens eine Freisprechsituation innerhalb eines Fahrzeugs unter Präsenz von Hin-
tergrundstörungen, bei der beispielsweise Geräte von einer Person innerhalb des Fahrzeugs
bedient oder Informationen von einem entfernten Sprachserver über das Telefon abgerufen
werden, und zweitens eine Freisprechsituation innerhalb eines Büros oder Wohnzimmers, bei
der beispielsweise ein Telefon oder Audio- und Videogeräte von einer Person bedient wer-
den. In dieser Arbeit wird nur auf denjenigen Teil der Datenbank Bezug genommen, der das
zweite Anwendungsszenario betrifft, da der Einfluss des Nachhalls, der hier im Vordergrund
steht, innerhalb von Räumen deutlich größer als innerhalb von Fahrzeugen ist.
Zur Erstellung der Datenbank wurden die Sprachsignale nicht tatsächlich mit Freisprech-
mikrophonen aufgenommen, sondern vielmehr künstlich durch eine Faltung von sauberen
Sprachsignalen mit zeitinvarianten RIAs berechnet. Die RIAs wurden mit Hilfe der Spie-
gelquellenmethode [All79] erzeugt, wobei zusätzlich später Nachhall zum Zweck eines na-
türlichen Nachhallklanges hinzugefügt wurde. Für die Spiegelquellenmethode wurden zwei
virtuelle Räume, bezeichnet als Büro und Wohnzimmer, angenommen, wobei für jeden der
beiden virtuellen Räume drei unterschiedliche Versionen von RIAs berechnet wurden. Die-
se unterschieden sich vorwiegend in der simulierten Nachhallzeit, die für das Büro jeweils
etwa 0,3 s, 0,35 s und 0,4 s und für das Wohnzimmer etwa 0,4 s, 0,45 s und 0,5 s betrug. Die
Werte des DRR liegen bei allen RIAs im Bereich zwischen −5 dB und −7 dB. Zur künst-
lichen raumspezifischen Verhallung jeder einzelnen Sprachäußerung wurde jeweils eine der
drei betreffenden RIAs zufällig ausgewählt. Eine detaillierte Darstellung aller verwendeten
RIAs samt ihren log-MEL-spektralen Repräsentationen findet sich in Kap. A.3 im Anhang.
Als Trainingsdaten werden in dieser Arbeit stets nur die in dem Trainingsdatensatz der
AURORA5-Datenbank enthaltenen 8623 Sprachäußerungen in Form von sauberen Signa-
len verwendet. Die Testdaten bestehen aus 8700 Sprachäußerungen mit insgesamt 28583
Wörtern. Neben den sauberen Sprachsignalen liegen verhallte Versionen derselben Signale
für die beiden simulierten Räume vor, die keine Hintergrundstörungen beinhalten. Weiterhin
enthalten die Testdaten gemeinsam gestörte und verhallte Versionen derselben Sprachsigna-
le, die durch additive Überlagerung der verhallten Sprachsignale mit Störsignalen mit einem
SNR zwischen 0 dB und 15 dB erzeugt wurden. Als Störsignale wurden zufällige Ausschnit-
te aus 5 Signalen der Länge von jeweils etwa 3 Minuten herangezogen, welche in einem
Einkaufszentrum, einem Restaurant, einer Ausstellungshalle, einem Büro und einer Hotel-
empfangshalle aufgenommen wurden.
Für den Spracherkenner wurde ein Unigramm als Sprachmodell und ein HMM-basiertes
akustisches Modell verwendet. Für jedes der 11 Wörter wurde ein geschlechtsunabhängi-
ges HMM mit Links-Rechts-Topologie bestehend aus insgesamt 16 Zuständen verwendet,
wobei das Überspringen von Zuständen nicht zugelassen war. Die Emissionsverteilungs-
dichtefunktionen für jeden dieser Zustände wurden durch ein GMM mit 4 Mischungskom-
ponenten beschrieben. Außerdem wurde ein HMM zur Modellierung von Sprachpausen
bestehend aus 3 Zuständen eingeführt, wobei ebenfalls ein GMM mit 4 Mischungskom-
ponenten zur Darstellung der Emissionsverteilungsdichtefunktionen genutzt wurde. Für die
GAUSS-Mischungsverteilungen wurden diagonale Kovarianzmatrizen zugrunde gelegt. Der
Experimentelle Untersuchungen
95
Spracherkenner wurde mit Hilfe von HTK [YEG+06] in einem überwachten Modus trai-
niert, wobei zwar die Transkription der Sprachäußerungen bekannt war, jedoch nicht die
zeitliche Anpassung der Transkription an die Äußerung. Die Merkmalsextraktion wurde wie
in Kap. 2.1 beschrieben mit Hilfe des ETSI-SFE durchgeführt, so dass als Merkmale die
MFCCs gemeinsam mit den DELTA- und DELTA-DELTA-Merkmalen (siehe (2.9)) dienten.
6.1.2. Modifizierte AURORA4-Datenbank
Die AURORA4-Datenbank [PP02] wurde unter anderem mit dem Ziel entwickelt, die Ro-
bustheit von Spracherkennungssystemen mit unterschiedlichen Verfahren zur Merkmalsex-
traktion gegenüber additiven Störungen sowie der Variation von Mikrophoncharakteristi-
ken zu untersuchen. Sie besteht aus Aufnahmen von kontinuierlich gesprochener engli-
scher Sprache mit einem Vokabular von 5000 Wörtern basierend auf dem sogenannten
Defense Advanced Research Projects Agency (DARPA)Wall Street Journal (WSJ)Cor-
pus [PB92], wobei die Grundlage für die Äußerungen gelesene Zeitungsartikel aus dem
WSJ bilden. Für die Experimente in dieser Arbeit wurden die unterabgetasteten Versio-
nen der Sprachsignale verwendet, wobei die Abtastrate 8 kHz betrug. Die Sprachsignale
sind gemäß dem G.712 Standard der Internationalen Fernmeldeunion (engl. International
Telecommunication Union (ITU)) [Int96] gefiltert.
Die Trainingsdaten beinhalten unter anderem Sprachäußerungen in Form von sauberen Si-
gnalen bestehend aus 7138 Sätzen von insgesamt 83 verschiedenen Sprechern und besitzen
eine Aufnahmedauer von etwa 14 Stunden. Für alle Experimente bezüglich der AURORA4-
Datenbank wurden ausschließlich diese Daten zum Training des Erkenners verwendet. Als
Testdatensatz wurde der sogenannte National Institute of Standards and Technology (NIST)
Nov’92 Evaluierungsdatensatz betrachtet. Dieser umfasst in seiner originalen Form insge-
samt 14 Testsätze, von denen 7 mit einem Sennheiser HMD414 Mikrophon und 7 mit 18
weiteren Mikrophonen aufgenommen worden sind. In dieser Arbeit wurden lediglich die mit
dem Sennheiser HMD414 Mikrophon gemachten Aufnahmen herangezogen. Die 7 Testsät-
ze stellen jeweils 7 unterschiedliche Versionen eines Datensatzes bestehend aus 166 Sätzen
und 2715 Wörtern dar. Eine dieser Versionen bilden die sauberen Sprachsignale, während
die weiteren 6 Versionen durch additive Überlagerung der sauberen Sprachsignale mit un-
terschiedlichen Arten von Störsignalen mit einem SNR zwischen 5 dB und 15 dB entstan-
den sind. Die Störsignale sind unter anderem innerhalb von Fahrzeugen oder auf der Stra-
ße aufgenommen worden und sind daher im Hinblick auf die Untersuchungen dieser Ar-
beit ungeeignet, da sie für Innenräume untypisch sind. Da zudem bei der Erstellung der
AURORA4-Datenbank keine Berücksichtigung von Freisprechszenarien stattfand, wurden
diese 6 Testsätze hier vollständig verworfen. Statt dessen wurde durch den Autor ein mo-
difizierter Testdatensatz unter Einbezug von Nachhall und typischen Störungen aus Innen-
räumen erstellt. Dazu wurden die sauberen Sprachsignale des Standardtestdatensatzes der
AURORA4-Datenbank mit denselben künstlich erzeugten Raumimpulsantworten wie bei
der AURORA5-Datenbank gefaltet, um verhallte Testsprachsignale für die zwei virtuelle
Räume, bezeichnet als Büro und Wohnzimmer, zu erhalten. Zusätzlich wurden die verhall-
ten Sprachsignale additiv mit Störungen mit einem SNRs von 0dB, 5dB, 10dB und 15 dB
überlagert, um gemeinsam verhallte und gestörte Sprachsignale zu erzeugen.
Für den Spracherkenner wurde ein Bigramm als Sprachmodell und ein HMM-basiertes
akustisches Modell verwendet. Im Gegensatz zur AURORA5-Datenbank wurden hierbei
96
Experimentelle Untersuchungen
HMMs für einzelne Triphone trainiert, wobei das gesamte akustische Modell etwa 3240
Zustände aufweist, deren Emissionsverteilungsdichtefunktionen durch GMMs mit jeweils
10 Mischungskomponenten, gekennzeichnet durch diagonale Kovarianzmatrizen, dargestellt
wurden. Das Training des Erkenners fand mit Hilfe von HTK in einem überwachten Modus
statt. Um dem Sprachmodell gegenüber dem akustischen Modell mehr Gewicht bei der De-
codierung zu verleihen, wurde die Konstante
α
(SM)zu 16 gesetzt. Die Merkmalsextraktion
erfolgte wie auch bei der AURORA5-Datenbank mit dem ETSI-SFE gemäß der Beschrei-
bung in Kap. 2.1.
6.2. Referenzergebnisse
Als Qualitätsmaß zur Bewertung der Leistungsfähigkeit eines Systems zur automatischen
Spracherkennung fungiert in dieser Arbeit ausschließlich die erzielte Wortfehlerrate
λ
w, wel-
che durch
λ
w:=NSubst +NAusl +NEinf
NGes
(6.1)
definiert ist. Dabei bezeichnen NSubst,NAusl,NEinf und NGes in dieser Reihenfolge jeweils
die Anzahl der fälschlicherweise ersetzten, ausgelöschten und eingefügten Wörter sowie die
Gesamtanzahl der Wörter innerhalb der Testdaten.
Die Referenzergebnisse, welche ohne Anwendung jeglicher Merkmalsverbesserung für
die AURORA5-Datenbank bzw. die modifizierte AURORA4-Datenbank erzielt wurden, sind
in Tab. 6.1 bzw. Tab. 6.2 aufgeführt. Für die modifizierte AURORA4-Datenbank ist wie in
Tabelle 6.1.: Wortfehlerraten
λ
w[%] für die AURORA5-Datenbank erzielt mit dem ETSI-SFE.
Raum
Büro Wohnzimmer
SNR [dB]
∞6,32 14,94
15 19,93 35,58
10 44,75 57,38
571,73 79,01
088,10 89,72
der Literatur üblich die Wortfehlerrate zusätzlich in die Raten der Ersetzungs- der Auslö-
schungs- und Einfügefehler definiert durch
λ
Subst :=NSubst
NGes
,
λ
Ausl :=NAusl
NGes
,
λ
Einf :=NEinf
NGes
(6.2)
aufgeschlüsselt. Die einzelnen Fehlerraten wurden aus den erkannten Wortsequenzen mit
Hilfe von HTK [YEG+06] berechnet. Für die sauberen Testsprachsignale liegt die Wort-
fehlerrate für die AURORA5-Datenbank bei 0,66 % und für die modifizierte AURORA4-
Datenbank bei 14,00 %. Die Referenzergebnisse zeigen unter anderem den starken negati-
ven Einfluss des Nachhalls auf die Wortfehlerrate, die sich beispielsweise für das Wohn-
zimmerszenario um etwa 2200% für die AURORA5-Datenbank und um etwa 500 % für die
Experimentelle Untersuchungen
97
Tabelle 6.2.: Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit dem ETSI-SFE.
Raum
Büro Wohnzimmer
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
SNR [dB]
∞34,84 5,52 7,00 47,37 56,06 10,87 6,52 73,44
15 49,13 9,80 8,58 67,51 58,64 16,80 7,55 82,98
10 57,90 20,77 7,11 85,78 55,58 32,15 4,05 91,79
547,88 44,27 2,39 94,55 38,93 56,98 1,25 97,16
027,55 70,72 0,66 98,93 18,97 80,00 0,15 99,12
modifizierte AURORA4-Datenbank relativ im Vergleich zu den sauberen Testsprachsigna-
len erhöht. Weiterhin wächst die Wortfehlerrate bei vorhandener Störung mit abnehmendem
SNR und erreicht bei einem SNR von 0 dB für beide Datenbanken Werte über 85 %, welche
für praktische Anwendungen nicht mehr akzeptabel sind. Diese Ergebnisse verdeutlichen
den Bedarf an Verfahren zur robusten Spracherkennung in Gegenwart von Nachhall und
Hintergrundstörungen.
6.3. Ergebnisse alternativer Verfahren
Zusätzlich zu den Ergebnissen des Standarderkennungssystems werden in diesem Abschnitt
die Resultate dreier alternativer Referenzverfahren präsentiert.
Das erste Verfahren ist dadurch gekennzeichnet, dass die Merkmalsextraktion mit dem
sogenannten ETSI-Advanced Front End (AFE) [ETSa] bewerkstelligt wird. Dieses wurde
speziell für den Zweck einer störungsrobusten Spracherkennung entwickelt und bietet eine
sehr hohe Leistungsfähigkeit, die bis heute kaum von einem anderen Verfahren überboten
wird. Es unterscheidet sich vom Standardverfahren des ETSI-SFE im Wesentlichen durch
ein zusätzliches zweistufiges WIENER-Filter zur Störsignalunterdrückung sowie eine Blind-
entzerrung (engl. blind equalization) zur Kompensation einer akustischen Fehlanpassung,
welche durch die Verwendung unterschiedlicher Aufnahmegeräte beim Training und beim
Test entsteht.
Das zweite Verfahren nutzt weiterhin das ETSI-SFE zur Merkmalsextraktion. Für das
Training des Spracherkenners wurden jedoch nicht wie gewöhnlich die sauberen Trainings-
sprachsignale verwendet. Statt dessen wurde der Erkenner separat für jedes Testszenario, d.h.
für das Büro und das Wohnzimmer, mit raumspezifischen verhallten Sprachsignalen trainiert.
Die RIAs zur Berechnung der verhallten Trainingsignale wurden mit Hilfe der Spiegelquel-
lenmethode [All79] künstlich erzeugt (siehe Kap. 6.4). Ein derartig grob auf das Testszenario
abgestimmtes Training ist für die Praxis durchaus geeignet.
Beim dritten Verfahren erfolgt eine Adaption der HMM-Parameter auf den Effekt des
Nachhalls und der Hintergrundstörungen gemäß der PMC-Methode [HF08]. Dabei wird zur
Anpassung der Emissionsverteilungsdichtefunktionen einzelner HMM-Zustände der Ein-
fluss vorhergehender HMM-Zustände über ein deterministisches Modell der EDC berück-
sichtigt. Insbesondere soll darauf hingewiesen werden, dass im Hinblick auf die Adaption
auf Hintergrundstörungen für jede Testsprachäußerung das Störsignal als instationär ange-
98
Experimentelle Untersuchungen
nommen wird. Deshalb wird zunächst dessen zeitvariante Charakteristik mit Hilfe einer VAD
aus dem verhallten und gestörten Sprachsignal gemäß [HE95] geschätzt. Anschließend er-
folgt eine entsprechende dynamische Adaption der HMM-Parameter.
Die Ergebnisse der drei Referenzverfahren für die AURORA5-Datenbank sind in Tab. 6.3
dargestellt. Dabei wurden die Resultate, welche sich auf die Adaption der HMM-Parameter
Tabelle 6.3.: Wortfehlerraten
λ
w[%] für die AURORA5-Datenbank erzielt mit alternativen Verfahren.
Raum
Büro Wohnzimmer
SNR [dB]
∞6,11 14,53
15 10,92 21,31
10 17,26 29,17
530,09 43,06
051,41 62,65
(a) ETSI-AFE
Szenario
Büro Wohnzimmer
SNR [dB]
∞1,29 2,61
15 15,44 14,58
10 38,31 51,19
567,81 77,88
087,63 91,88
(b) Training des Erkenners mit verhallten
Sprachsignalen
Szenario
Büro Wohnzimmer
SNR [dB]
∞3,30 8,00
15 6,20 9,20
10 11,50 16,90
524,30 32,00
049,20 60,00
(c) Adaption der HMM-Parameter gemäß
der PMC-Methode (Ergebnisse aus
[HF08])
beziehen, direkt aus Diagrammen in [HF08] abgelesen. Es muss jedoch bei deren Beurtei-
lung darauf geachtet werden, dass zu ihrer Erzeugung eine geringfügig abweichende Kon-
figuration des Merkmalsextraktors und des Spracherkenners verwendet worden ist, so dass
streng genommen keine direkte Vergleichbarkeit gewährleistet ist. So wurde einerseits zur
Berechnung der dynamischen Merkmale ∆y(c)
m,
κ
′das entsprechende Zeitfenster kleiner als in
den Experimenten in dieser Arbeit gewählt, wobei die Konstante I1zu 3 anstatt 4 gesetzt wur-
de (siehe Tab. 2.1). Andererseits wurden an Stelle von geschlechtsunabhängigen geschlechts-
spezifische HMMs verwendet, wobei die Emissionsverteilungsdichtefunktionen der HMM-
Zustände einzelner Wörter durch GAUSS-Mischungsverteilungsdichtefunktionen mit jeweils
2 Komponenten modelliert wurden. Zur Beschreibung der Emissionsverteilungsdichtefunk-
tionen der Zustände des Sprachpause-HMM wurden 8 GAUSS-förmige Mischungskompo-
nenten eingesetzt. Es ist jedoch davon auszugehen, dass die genannten Abweichungen der
Spracherkennerkonfiguration nur geringfügige Auswirkungen auf die Leistungsfähigkeit des
Spracherkenners ausüben, so dass zumindest ein grober Vergleich zulässig ist.
Weiterhin sind in Tab. 6.4 die Ergebnisse von zwei Referenzverfahren für die modifizier-
te AURORA4-Datenbank aufgeführt. Bedauerlicherweise existieren in [HF08] keine detail-
Experimentelle Untersuchungen
99
Tabelle 6.4.: Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit alternativen Ver-
fahren.
Raum
Büro Wohnzimmer
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
SNR [dB]
∞34,03 6,48 6,08 46,59 55,99 11,16 5,45 72,60
15 35,14 7,07 7,40 49,61 50,68 8,14 9,10 67,92
10 44,01 9,47 9,43 62,91 59,08 10,72 9,21 79,01
554,84 13,41 8,73 76,98 67,33 15,29 7,00 89,61
063,98 21,62 6,11 91,71 67,18 24,71 3,54 95.43
(a) ETSI-AFE
Raum
Büro Wohnzimmer
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
SNR [dB]
∞18,01 3,06 3,17 24,24 26,26 6,08 3,98 36,32
15 28,40 4,90 12,97 46,26 36,13 6,85 11,57 54,55
10 43,09 9,54 13,33 65,97 48,25 12,78 10,20 71,23
551,90 24,83 7,07 83,79 47,73 36,24 4,68 88,66
036,39 56,35 1,92 94,66 28,73 66,52 1,62 96,87
(b) Training des Erkenners mit verhallten Sprachsignalen
lierten Ergebnisse für diese Datenbank. Jedoch haben die Autoren von [HF08] ein ähnliches
Experiment durchgeführt, wobei eine triphonbasierte HMM-Adaption auf den Nachhall in
einem Büro mit einer Nachhallzeit T60 von etwa 0,4 s vorgenommen wurde. Die Wortfeh-
lerrate von 48,8 %, welche mit den auf sauberen Sprachsignalen trainierten HMMs auf den
verhallten Testsprachsignalen erzielt wurde, konnte unter Verwendung der HMM-Adaption
auf 39,8 % reduziert werden. Für die Erkennung von Sprachäußerungen in Form von sau-
beren Sprachsignalen wird eine Wortfehlerrate von 11,21 % angegeben. Obwohl in diesem
Experiment die Abtastfrequenz des Sprachsignals fA16 kHz beträgt sowie die Art der Merk-
malsextraktion und die Konfiguration des Erkenners geringfügig von der in dieser Arbeit
verwendeten abweicht (vgl. Kap. 6.1.2 mit [HF08]), lässt die Ähnlichkeit der Worterken-
nungsraten für den Fall ohne Adaption (vgl. 48,8 % mit 47,37 % aus Tab. 6.2) eine gewisse
Vergleichbarkeit zu.
Im Hinblick auf die Interpretation der Ergebnisse in Tab. 6.3a und Tab. 6.4a lässt sich
zunächst feststellen, dass das ETSI-AFE generell nicht dazu geeignet ist, die Wortfehlerra-
ten in störungsfreien halligen Umgebungen gegenüber dem ETSI-SFE zu verbessern. Dieses
kann darauf zurückgeführt werden, dass für die Berechnung der Übertragungsfunktion des
WIENER-Filters keine Berücksichtigung der Korrelation zwischen dem Direktanteil und den
durch den Nachhall bedingten Anteil der Sprache stattfindet. Bei Vorhandensein von zusätz-
licher unkorrelierter, additiver Störung lässt sich dann wiederum wie erwartet eine deutliche
100
Experimentelle Untersuchungen
Leistungsverbesserung gegenüber dem ETSI-SFE feststellen.
Die Ergebnisse für das Training des Erkenners mit künstlich verhallten Sprachsignalen
in Tab. 6.3b und Tab. 6.4b zeigen ein gegensätzliches Verhalten. Während für störungsfreie
hallige Umgebungen für beide Datenbanken ein deutliches Absinken der Wortfehlerrate ge-
genüber dem Standardtraining zu verzeichnen ist, nahm die Leistungsfähigkeit bei Vorhan-
densein von zusätzlicher additiver Störung mit sinkendem SNR ab. Diese Resultate sind nicht
überraschend, da bei der Erkennung additive Störungen vollkommen außer Betracht gelassen
wurden.
Die Adaption der HMM-Parameter führte in Abwesenheit von Hintergrundstörungen zu
einer beeindruckenden Reduktion der Wortfehlerrate, wobei auf der AURORA5-Datenbank
für beide Räume etwa 50 % der durch den Nachhall verursachten Fehler korrigiert werden
konnten. Im Vergleich dazu betrug der Anteil der korrigierten Fehler auf der modifizierten
AURORA4-Datenbank für das Büro nur noch etwa 24 %. Die Leistungsfähigkeit wie beim
Training des Erkenners mit künstlich verhallten Sprachsignalen konnte jedoch auf beiden
Datenbanken nicht erreicht werden, was zum Teil sicherlich darauf zurückzuführen ist, dass
der linksseitige Kontext bei der Adaption der HMMs nicht hinreichend genug berücksichtigt
wurde.
In Gegenwart von Hintergrundstörungen liefert die Modelladaption die besten Ergebnisse
im Vergleich mit den beiden anderen vorgestellten Verfahren. Ein wesentlicher Aspekt dabei
ist höchstwahrscheinlich die dynamische Adaption der Charakteristik der Hintergrundstö-
rung.
6.4. Voruntersuchungen zum Beobachtungsmodell
Die tatsächliche praktische Durchführung der Merkmalsverbesserung gemäß der Beschrei-
bung in Kap. 5.3 erfordert vorab die Festlegung oder Bestimmung gewisser Parameter. Dazu
gehören unter anderem Schätzungen der Koeffizienten der RIA im log-MEL-spektralen Be-
reich sowie die Mittelwerte und Kovarianzmatrizen des Beobachtungsfehlers.
Für die weiteren Untersuchungen wurde von einer optimalen mittleren geschätzten Nach-
hallzeit ˆ
T60 von 0,35 s für das Büro und 0,45 s für das Wohnzimmer ausgegangen, welche
unter Zuhilfenahme von (5.143) in geschätzten Abklingkonstanten ˆ
τ
hvon etwa 7,05·10−2
bzw. 6,22 ·10−2resultierten. Weiterhin ist zu berücksichtigen, dass für jede der beiden un-
tersuchten Datenbanken die Trainings- und Testdaten derselben Energienormierung unterlie-
gen, so dass der Skalierungsparameter für die RIA ˆ
σ
hgemäß (5.171) gewählt wurde. Eine
sinnvolle Festlegung der RIA-Länge ˆ
Lh, aus der sich anschließend die gesuchte Größe ˆ
LH
gemäß (5.112) berechnen lässt, kann durch die Festlegung des Parameters
ε
hgemäß (5.157)
geschehen. Sie ist jedoch nur bei der Verwendung des nichtrekursiven Beobachtungsmo-
dells notwendig, dessen Modellierungsfähigkeit im Allgemeinen durch eine Verringerung
des Wertes von
ε
hverbessert wird. Dabei ist jedoch zu beachten, dass beim Unterschreiten
eines gewissen Wertebereiches aufgrund von Modellunzulänglichkeiten und Parameterfehl-
schätzungen keine genauere Modellierung mehr zu erwarten ist.
Beruhend auf diesen Überlegungen wurde ein sinnvoller Wert von
ε
hexperimentell be-
stimmt. Dazu wurde mit Hilfe von Trainingsdaten der Beobachtungsfehler jeweils gemäß
(5.192) für unterschiedliche Werte von
ε
hberechnet. Dieses wurde zunächst nur für den
störungsfreien Fall umgesetzt. Um eine praxisrelevante Situation zu simulieren, in der ge-
Experimentelle Untersuchungen
101
wöhnlich keine verhallten Sprachsignale für das Erkennungsszenario zur Verfügung stehen,
wurden die verhallten Signale durch Faltung von sauberen Sprachsignalen mit durch die
Spiegelquellenmethode [All79] künstlich berechneten RIAs generiert. Für die Spiegelquel-
lenmethode wurde für beide Szenarien, d.h. für das Büro und das Wohnzimmer, derselbe
quaderförmige Raum gemäß Abb. 6.1 eingesetzt. Die Ausmaße des Raumes wurden basie-
rend auf der Annahme, dass die Raumgröße in praktischen Anwendungen in der Regel vorab
unbekannt ist, vollkommen willkürlich gewählt. Der Beobachtungsfehler basierte für beide
00000000000
00000000000
00000000000
00000000000
00000000000
00000000000
11111111111
11111111111
11111111111
11111111111
11111111111
11111111111
0000000000
0000000000
0000000000
0000000000
0000000000
0000000000
1111111111
1111111111
1111111111
1111111111
1111111111
1111111111
0,5 m0,5 m
0,5 m 0,5 m
3 m
5 m
6 m
1,5 m
PosMik PosSpr
Abbildung 6.1.: Zur Anwendung der Spiegelquellenmethode verwendeter quaderförmiger, virtueller
Raum, in dem die Position des Sprechers und des Mikrophons gleichverteilt inner-
halb der durch die PosSpr und PosMik gekennzeichneten Flächen variiert wurde.
Datenbanken auf jeweils 575 Sprachäußerungen, wobei für jede einzelne Äußerung zufäl-
lig eine von 50 individuellen RIAs verwendet wurde, für deren Erzeugung die Position des
Sprechers und des Mikrophons zufällig innerhalb der in Abb. 6.1 durch PosSpr und PosMik
gekennzeichneten Flächen ausgewählt wurde. Zusätzlich wurde für die Berechnung jeder
einzelnen RIA die Nachhallzeit T60 gleichförmig zufällig aus dem Intervall [0,3s,0,4s]für
das Büro und aus dem Intervall [0,4s,0,5s]für das Wohnzimmer selektiert.
In einem ersten Experiment wurde für unterschiedliche Werte von
ε
heine Schätzung ˆ
Σˆ
v(s)
für die Kovarianzmatrix Σˆ
v(s)empirisch mit der Maximum-Likelihood-Methode aus der Fol-
ge der Beobachtungsfehler bestimmt und anschließend ihr Spektralradius
ρ
ˆ
Σˆ
v(s):=max|
λ
|
λ
ist Eigenwert von ˆ
Σˆ
v(s)(6.3)
berechnet. Der Spektralradius
ρ
ˆ
Σˆ
v(s)diente dabei als Maß für die im Beobachtungsmodell
enthaltene Unsicherheit. Die resultierenden Werte in Abhängigkeit des negativen Exponen-
ten von
ε
hzur Basis 10, definiert durch
α
h:=−log10 (
ε
h),(6.4)
102
Experimentelle Untersuchungen
sind für die AURORA5- und die modifizierte AURORA4-Datenbank in Abb. 6.2 dargestellt.
Es lässt sich erkennen, dass zunächst für beide Datenbanken der Spektralradius
ρ
ˆ
Σˆ
v(s)mit
01234
5
5
10
15
20
26
α
h
ρ
ˆ
Σˆ
v(s)
AURORA5
AURORA4
(a) Büro
01234
5
5
10
15
20
α
h
ρ
ˆ
Σˆ
v(s)
AURORA5
AURORA4
(b) Wohnzimmer
Abbildung 6.2.: Spektralradius
ρ
ˆ
Σˆ
v(s)der empirisch berechneten Kovarianzmatrix des Beobachtungs-
fehlers ˆ
Σˆ
v(s)in Abhängigkeit von
α
h.
wachsenden Werten von
α
habnimmt, wobei ab etwa einem Wert von
α
h=3 keine oder nur
noch eine relativ marginale Verringerung des Spektralradius auftritt. Als Kompromiss wurde
deshalb als Grundlage für alle weiteren Experimente im Zusammenhang mit der nichtre-
kursiven Beobachtungsfunktion
ε
h=10−3angenommen, was zu approximativen Längen
der Repräsentation der RIA im log-MEL-spektralen Bereich von ˆ
LH=19 für das Büro und
ˆ
LH=24 für das Wohnzimmer führte.
Die entsprechenden Approximationen der log-MEL-spektralen Repräsentationen der RIAs
beider Räume werden in Abb. 6.3 veranschaulicht. Einen qualitativen Eindruck der Güte der
Index des MEL-Bandes q
Segmentindex m+1
5
5
10
10
15
15
20
20
0
−2
−4
−6
−8
−10
−12
(a) Büro ( ˆ
T60 =0,35s)
Index des MEL-Bandes q
Segmentindex m+1
5
5
10
10
15
15
20
20 25
0
−2
−4
−6
−8
−10
−12
(b) Wohnzimmer ( ˆ
T60 =0,45s)
Abbildung 6.3.: Approximative log-MEL-spekrale Repräsentationen der RIAs
µ
˘
¯
hm,qder beiden virtu-
ellen Räume der AURORA5-Datenbank.
Experimentelle Untersuchungen
103
Approximation erhält man durch einen Vergleich mit den entsprechenden wahren raumspe-
zifischen log-MEL-spektralen Repräsentationen in Abb. A.2 im Anhang.
Weiterhin sind in Abb. 6.4 die Kovarianzmatrizen des Beobachtungsfehlers ˆ
Σˆ
v(s)beispiel-
haft für die AURORA5-Datenbank für
α
h=1,3,5 dargestellt, wobei q1den Zeilen- und q2
den Spaltenindex kennzeichnet. Es lässt sich beobachten, dass mit zunehmenden Werten von
0,5
0
1
5
5
1,5
10
10
15
15
20
20
q2
q1
(a) Büro,
α
h=1
0,5
0
1
5
5
1,5
10
10
15
15
20
20
q2
q1
(b) Büro,
α
h=3
0,5
0
1
5
5
1,5
10
10
15
15
20
20
q2
q1
(c) Büro,
α
h=5
0,5
0
1
5
5
1,5
10
10
15
15
20
20
q2
q1
(d) Wohnzimmer,
α
h=1
0,5
0
1
5
5
1,5
10
10
15
15
20
20
q2
q1
(e) Wohnzimmer,
α
h=3
0,5
0
1
5
5
1,5
10
10
15
15
20
20
q2
q1
(f) Wohnzimmer,
α
h=5
Abbildung 6.4.: Empirisch berechnete Kovarianzmatrizen des Beobachtungsfehlers ˆ
Σˆ
v(s)ermittelt
auf der AURORA5-Datenbank für die beiden untersuchten virtuellen Räume für ver-
schiedene Werte von
α
h.
α
hnicht nur die Beträge der Werte der Diagonalelemente abnehmen, sondern insbesondere
die der Nebendiagonalelemente. Dieses lässt sich darauf zurückführen, dass bedingt durch
die Art der Berechnung der log-MEL-spektralen Merkmalsvektoren hauptsächlich Korre-
lationen zwischen benachbarten Vektorkomponenten auftreten, die durch die Überlappung
benachbarter MEL-Bänder verursacht werden. Motiviert durch die approximativ diagonale
Gestalt der Kovarianzmatrizen ˆ
Σˆ
v(s)für größere Werte von
α
hwurden für die weiteren Expe-
rimente stets diagonale Kovarianzmatrizen verwendet. Durch hier nicht weiter beschriebene
Experimente wurde zudem festgestellt, dass die Verwendung von voll besetzten Kovarianz-
matrizen im Vergleich zu diagonalen Kovarianzmatrizen zu einer insgesamt schlechteren
Leistungsfähigkeit der Merkmalsverbesserung führte, auf die durch eine höhere Wortfehler-
rate bei der anschließenden Erkennung geschlossen wurde.
Abbildung 6.5 zeigt die Histogramme für ausgewählte Komponenten ˆv(s)
m,qdes Beobach-
tungsfehlervektors ˆ
v(s)
m, welche auf der modifizierten AURORA4-Datenbank für das Wohn-
zimmer ermittelt wurden, samt den entsprechenden Approximationen durch GAUSS-Vertei-
lungsdichtefunktionen. Es lässt sich erkennen, dass trotz einer geringen Linksschiefe der
Histogramme die vorgenommenen Näherungen durchaus sinnvoll sind. Da sich sowohl für
das Büro als auch für die AURORA5-Datenbank ähnliche Verläufe ergaben, sind die Resul-
104
Experimentelle Untersuchungen
-1
-2
-3
0,2
0,4
0,6
0,8
00
1
123
41
u
p˘
ˆv(s)
m,q(u)
q=0, Messung
q=6, Messung
q=13, Messung
q=22, Messung
q=0, Approximation
q=6, Approximation
q=13, Approximation
q=22, Approximation
Abbildung 6.5.: Empirisch berechnete normierte Histogramme ausgewählter Komponenten ˆv(s)
m,q
des Beobachtungsfehlervektors für das Wohnzimmerszenario der modifizierten
AURORA4-Datenbank sowie zugehörige Approximationen durch GAUSS-Vertei-
lungsdichtefunktionen.
tate hier nicht explizit aufgeführt.
In einem weiteren Experiment wurde der Beobachtungsfehler ˆ
v(s,R)
m,LRunter Verwendung des
rekursiven Beobachtungsmodells und derselben Trainingsdaten wie im Experiment zuvor für
die beiden untersuchten Räume und beide Datenbanken berechnet. Dabei ist zu beachten,
dass für das rekursive Beobachtungsmodell keine Schätzung der Länge ˆ
LHder Repräsenta-
tion der RIA im log-MEL-spektralen Bereich erforderlich ist. Statt dessen muss eine Rekur-
sionslänge LRvorgegeben werden, welche den Beobachtungsfehler beeinflusst. In Abb. 6.6
sind exemplarisch die normierten Histogramme des Beobachtungsfehlers ˆv(s,R)
LR,m,q, welche für
das Wohnzimmer auf der AURORA4-Datenbank bestimmt wurden und als Schätzungen der
entsprechenden Verteilungsdichtefunktionen angesehen werden können, für unterschiedli-
che Rekursionslängen LRund zwei ausgewählte MEL-Bänder (q=0 und q=22) illustriert.
Wie in Abb. 6.6a am Beispiel für q=0 ersichtlich wird, zeichnen sich die normierten His-
togramme des Beobachtungsfehlers für niedrige MEL-Bänder qund sehr kleine Werte von
LRdurch eine geringe Steilgipfligkeit und Linksschiefe aus. Das Ausmaß der Steilgipfligkeit
wird jedoch mit der Erhöhung der Rekursionslänge LRreduziert. Für höhere MEL-Bänder,
d.h. für q>10, treten beide Phänomene nur in einer sehr geringfügigen Ausprägung auf.
Zudem besteht dann nur noch ein sehr kleiner Unterschied zwischen den Histogrammen für
unterschiedliche Werte von LR, wie am Beispiel für q=22 in Abb. 6.6b deutlich wird.
Da die empirisch berechneten Kovarianzmatrizen des Beobachtungsfehlers ˆ
v(s,R)
LR,mbei der
Verwendung der rekursiven Beobachtungsfunktion eine ähnliche Form wie jene im Fall der
nichtrekursiven Beobachtungsfunktion aufwiesen, wurden diese ebenfalls für alle weiteren
Experimente durch Diagonalmatrizen approximiert.
Experimentelle Untersuchungen
105
-2
0,2
0,4
0,6
0,8
00
1
2
LR=1
LR=2
LR=3
LR=4
LR=5
LR=6
u
ˆp˘
ˆv(s,R)
LR,m,0
(u)
(a) q=0
-2
0,2
0,4
0,6
0,8
00
1
2
LR=1
LR=2
LR=3
LR=4
LR=5
LR=6
u
ˆp˘
ˆ
v(s,R)
LR,m,22
(u)
(b) q=22
Abbildung 6.6.: Empirisch berechnete normierte Histogramme des Beobachtungsfehlers ˆv(s,R)
LR,m,qfür
unterschiedliche Rekursionslängen LRund zwei ausgewählte MEL-Bänder (q =
0und q =22), ermittelt für das Wohnzimmer auf der modifizierten AURORA4-
Datenbank.
6.5. Ergebnisse zur Merkmalsenthallung
In diesem Abschnitt werden Ergebnisse des vorgestellten Verfahrens zur Merkmalsverbesse-
rung für den Fall präsentiert, in dem keine Hintergrundstörungen im Mikrophonsignal prä-
sent sind. Es wird daher zunächst nur die Leistungsfähigkeit des Verfahrens im Bezug auf
die Enthallung von akustischen Merkmalen experimentell untersucht.
Dazu wurde in einem ersten Experiment die Leistungsfähigkeit verschiedener Modell-
kombinationsalgorithmen analysiert. Gleichzeitig wurden dabei die Anzahl Ider A-priori-
Teilmodelle sowie die Anzahl LC−1 der vorhergehenden sauberen Merkmalsvektoren in-
nerhalb des Zustandsvektors variiert. Das A-priori-Modell wurde dabei mit Hilfe der in
Kap. 5.1.4 beschriebenen iterativen Modellspaltung trainiert. Die Anzahl LEM der EM-Itera-
tionen nach jeder Modellspaltung wurde so gewählt, dass die mittlere relative Verbesserung
der Likelihoodfunktion einen Wert von 10 zum ersten Mal unterschritt, d.h.
δ
(LEM)
L<10 und
δ
(l)
L≥10 ∀l<LEM.
Die resultierenden Wortfehlerraten für die AURORA5-Datenbank sind in Tab. 6.5 ange-
geben. Bei der Betrachtung der Ergebnisse fällt auf, dass durchgehend für alle Modellkom-
binationsalgorithmen bis auf GPB1 für I=16 und kleine Werte von LCeine Verringerung
der Wortfehlerrate erzielt worden ist. Insbesondere ist zu beobachten, dass sich die Resultate
mit steigenden Werten von LCzunächst deutlich verbessern, wobei die Verbesserung mono-
ton abnimmt und bei etwa LC=6 eine Sättigung auftritt. Der Grund für diese Verbesserung
liegt wie bereits weiter oben erwähnt darin, dass durch eine Vergrößerung von LCeine stär-
kere Berücksichtigung der Zukunft stattfindet, die ihre Wirkung im Zusammenhang mit dem
dispersiven Effekt des Nachhalls entfaltet. Das Auftreten einer Sättigung der Wortfehlerrate
bestärkt diese Interpretation, da die zeitliche Ausdehnung der Verschmierung beschränkt ist.
Im Hinblick auf das A-priori-Modell ist bemerkenswert, dass bereits mit einem einzigen
Teilmodell, d.h. I=1, die Wortfehlerrate um bis zu etwa 70 % bei beiden Räumen reduziert
106
Experimentelle Untersuchungen
Tabelle 6.5.: Wortfehlerraten
λ
w[%] erzielt mit Hilfe der Merkmalsverbesserung auf der AURORA5-
Datenbank.
Büro Wohnzimmer
I I
1 2 4 8 16 1 2 4 8 16
GPB1 LC
14,47 4,75 4,35 5,01 18,70 11,28 12,62 11,35 12,70 25,54
2 2,97 2,73 2,64 2,73 10,81 6,69 6,59 6,15 6,31 14,29
3 2,53 2,41 2,30 2,27 7,41 5,62 5,34 4,80 4,86 9,76
4 2,38 2,19 2,09 2,07 5,12 5,00 4,68 4,16 4,05 7,44
5 2,17 2,07 1,93 1,97 3,96 4,58 4,26 3,72 3,67 6,23
6 2,09 1,99 1,87 1,91 3,24 4,24 4,04 3,52 3,43 5,86
IMM LC
14,47 4,07 3,81 4,05 5,20 11,28 10,87 9,30 9,16 10,12
2 2,97 2,57 2,69 2,71 3,31 6,69 6,16 6,07 5,94 6,36
3 2,53 2,23 2,35 2,37 2,60 5,62 4,97 4,96 4,80 4,97
4 2,38 2,12 2,17 2,20 2,28 5,00 4,32 4,28 4,04 4,08
5 2,17 1,98 1,99 2,01 2,09 4,58 3,91 3,82 3,61 3,57
6 2,09 1,93 1,97 1,93 1,93 4,24 3,77 3,61 3,40 3,32
GPB2 LC
14,47 3,80 3,76 – – 11,28 10,10 9,09 – –
2 2,97 2,55 2,58 – – 6,69 6,19 6,23 – –
3 2,53 2,26 2,34 – – 5,62 5,06 4,98 – –
4 2,38 2,12 2,17 – – 5,00 4,36 4,30 – –
5 2,17 1,97 2,04 – – 4,58 3,95 3,83 – –
6 2,09 1,92 1,96 – – 4,24 3,85 3,64 – –
werden kann. Dieses entspricht einer relativen Reduktion derjenigen Fehler, die durch den
Nachhall verursacht worden sind, um etwa 75 %. In diesem Fall ist im Grunde keine Mo-
dellkombination erforderlich, so dass für die Merkmalsverbesserung ein gewöhnliches IEKF
eingesetzt werden kann.
Die Vergrößerung der Anzahl der Teilmodelle Iwirkt sich nicht immer positiv auf die
Reduktion der Wortfehlerrate aus. Insbesondere ist die Tendenz zu beobachten, dass die Ver-
größerung der Anzahl der Teilmodelle erst bei einem genügend groß gewählten Wert von
LCsinnvoll ist. Außerdem lässt sich feststellen, dass sie bei den im Vergleich zur GPB1-
Schätzung komplizierteren und genaueren Modellkombinationsverfahren wie der IMM- und
GPB2-Schätzung eher zu einer Reduktion der Wortfehlerrate führt. Aufgrund der Subop-
timalität aller drei verwendeten Modellkombinationsalgorithmen kann eine Reduktion der
Wortfehlerrate durch die Vergrößerung von Ijedoch in keinem einzigen Fall gewährleistet
werden. Einen weiteren Grund dafür, dass die Erhöhung der Teilmodellanzahl nicht immer
mit einer Verringerung der Wortfehlerrate einhergeht, bildet die Tatsache, dass das zum Trai-
ning des SLDM angewendete Kriterium der Maximierung der Loglikelihoodfunktion damit
nicht unbedingt im Einklang steht. Es zeigt sich weiterhin, dass das GPB2-Verfahren trotz
des deutlich höheren Aufwandes, der etwa quadratisch mit der Anzahl der Teilmodelle I
wächst, keinen sichtbaren Vorteil gegenüber den GPB1- und IMM-Verfahren bietet.
Im Sinne einer vorsichtigen Beurteilung der Wortfehlerraten ist zu bemerken, dass in
dieser Arbeit keine Signifikanztests bezüglich des Unterschieds von Wortfehlerraten unter-
Experimentelle Untersuchungen
107
schiedlicher Verfahren durchgeführt wurden. Aus den Ergebnissen soll hier lediglich auf
grobe Tenzenden geschlossen werden ohne dabei marginale, jedoch eventuell signifikante,
Unterschiede zu interpretieren. In Kap. A.4 im Anhang wird aber dennoch zusätzlich dar-
auf eingegangen, wie eine sehr grobe Beurteilung der Signifikanz der Unterschiede zweier
Wortfehlerraten nur mit Hilfe der Erkennungsergebnisse berechnet werden kann und welche
Aspekte eigentlich für eine genauere Betrachtung berücksichtigt werden müssen.
Um einen qualitativen Eindruck von der Leistungsfähigkeit der Merkmalsenthallung zu
vermitteln, sind in Abb. 6.7 die Trajektorien der LMSK-Vektoren jeweils für ein beispiel-
haftes sauberes Sprachsignal und dessen verhallte Version (im Wohnzimmer) sowie die ent-
sprechenden Trajektorien der verbesserten LMSK-Vektoren jeweils für LC=2 und LC=6
abgebildet. Es lässt sich deutlich erkennen, dass die mit Hilfe der Merkmalsverbesserung die
Auswirkungen der durch den Nachhall bedingten zeitlichen Dispersion merkbar reduziert
werden können. Beispielsweise ist der Glottalschlag bei der Aussprache der Ziffer “six”
bei etwa 1,2s, der in der Trajektorie der log-MEL-spektralen Merkmale y(s)
m,qdes verhallten
Sprachsignals in Abb. 6.7b vollkommen verdeckt ist, in den Trajektorien der verbesserten
log-MEL-spektralen Merkmale ˆx(s)
m,qin Abb. 6.7c und Abb. 6.7d teilweise wieder erkenn-
bar. Insbesondere wird durch Abb. 6.7c und Abb. 6.7d veranschaulicht, dass der Verlauf der
Trajektorien verbesserten log-MEL-spektralen Merkmale ˆx(s)
m,qin der Regel mit wachsenden
Werten von LCzunehmend glatter wird, wobei die Auswirkungen der zeitlichen Dispersion
weiter abnehmen.
Zur Beurteilung des Rechenaufwandes des Verfahrens ist zu bemerken, dass die unter-
schiedlichen Inferenzalgorithmen (siehe Kap. 5.3) in C/C++ implementiert wurden und auf
einem Rechner mit einem Intel Core i7/2,67 GHz-Prozessor ausgeführt wurden. Die Echt-
zeitfaktoren für unterschiedliche Parameterwahlen für das Wohnzimmer sind in Tab. 6.6 auf-
geführt. Sie zeigen, dass das Verfahren auch aus Sicht des Rechenaufwandes echtzeitfähig
ist, wobei wie bereits erwähnt eine Latenz der Dauer von LC−1 Segmenten zu berücksichti-
gen ist. Insbesondere soll darauf hingewiesen werden, dass die Rechendauer für LC>1 mit
Hilfe einer parallelen Berechnung der teilmodellspezifischen Inferenzen deutlich reduziert
werden kann.
Für die Erkennungsaufgabe mit einem großen Vokabular zeigte sich ein ähnliches Ver-
halten bezüglich der Wahl des Modellkombinationsalgorithmus sowie der Anzahl der Teil-
modelle Iund des Wertes von LC. Die Wortfehlerraten für die modifizierte AURORA4-
Datenbank für I=1 in Tab. 6.7 veranschaulichen die Bedeutung der Erhöhung von LCfür
die Leistungsfähigkeit des Verfahrens zur Merkmalsverbesserung. Die Wortfehlerrate konnte
bei beiden Räumen bis um etwa 40 % reduziert werden. Dieses entspricht einer relativen Re-
duktion der durch den Nachhall verursachten Fehler um etwa 55 % beim Büro und um etwa
50 % beim Wohnzimmer. Die relativen Verbesserungen fielen erwartungsgemäß geringer aus
als für die Ziffernkettenerkennung, da nach der Merkmalsverbesserung verbliebene Fehler
aufgrund der hohen Komplexität der Erkennungsaufgabe schwerwiegendere Auswirkungen
hatten.
Die Wortfehlerraten für I>1 und unterschiedliche Modellkombinationsalgorithmen und
Werte von LClassen sich für das Büro aus Tab. 6.8 und für das Wohnzimmer aus Tab. 6.9
entnehmen. Hervorzuheben ist die Tatsache, dass alle drei Modellkombinationsalgorith-
men auch in diesem Fall ähnliche Ergebnisse lieferten, obwohl der Aufwand für das GPB2-
Verfahren deutlich größer war (siehe Tab. 6.6). Durch eine Vergrößerung der Anzahl der
108
Experimentelle Untersuchungen
5
5
10
10
15
15
20
20
45
Index des MEL-Bandes q
Zeit m·B·TA[s]
0,51,01,52,02,5
(a) Trajektorie der log-MEL-spektralen Merkmale x(s)
m,qdes sauberen Sprachsignals
5
5
10
10
15
15
20
20
24
Index des MEL-Bandes q
Zeit m·B·TA[s]
0,51,01,52,02,5
(b) Trajektorie der log-MEL-spektralen Merkmale y(s)
m,qdes verhallten Sprachsignals
5
5
10
10
12
15
15
20
20
Index des MEL-Bandes q
Zeit m·B·TA[s]
0,51,01,52,02,5
(c) Trajektorie der verbesserten log-MEL-spektralen Merkmale ˆx(s)
m,qfür LC=2
5
5
3,7
10
10
15
15
20
20
Index des MEL-Bandes q
Zeit m·B·TA[s]
0,51,01,52,02,5
(d) Trajektorie der verbesserten log-MEL-spektralen Merkmale ˆx(s)
m,qfür LC=6
Abbildung 6.7.: Trajektorien der log-MEL-spektralen Merkmale eines beispielhaften Sprachsignals
der AURORA5-Datenbank zugehörig zu der Ziffernkettenäußerung “one, one, six,
eight, five, two, two”.
Experimentelle Untersuchungen
109
Tabelle 6.6.: Echtzeitfaktoren für die Merkmalsverbesserung für das Wohnzimmer (ˆ
LH=25).
I
1 2 4 8 16
GPB1 LC
10,03 0,06 0,12 0,23 0,46
2 0,04 0,08 0,17 0,32 0,63
3 0,06 0,11 0,22 0,44 0,88
4 0,08 0,15 0,30 0,59 1,17
5 0,10 0,19 0,38 0,76 1,51
6 0,12 0,24 0,48 0,95 1,92
IMM LC
10,03 0,06 0,12 0,24 0,49
2 0,04 0,08 0,17 0,34 0,72
3 0,06 0,12 0,24 0,49 1,07
4 0,08 0,16 0,32 0,67 1,50
5 0,10 0,20 0,42 0,88 2,02
6 0,12 0,26 0,54 1,15 2,66
GPB2 LC
10,03 0,12 0,47 – –
2 0,04 0,16 0,66 – –
3 0,06 0,23 0,91 – –
4 0,08 0,31 1,21 – –
5 0,10 0,39 1,57 – –
6 0,13 0,50 1,94 – –
Tabelle 6.7.: Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifizierten
AURORA4-Datenbank für I =1.
Raum
Büro Wohnzimmer
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
LC
133,85 3,57 7,22 44,64 54,44 7,00 8,62 70,06
226,74 2,76 7,85 37,35 42,50 3,76 9,72 55,99
323,83 2,65 7,00 33,48 38,45 3,68 9,76 51,90
422,14 2,69 6,56 31,38 36,61 3,35 8,58 48,55
521,44 2,87 5,97 30,28 33,81 3,79 8,62 46,22
620,77 2,58 5,56 28,91 32,38 4,16 8,21 44,75
110
Experimentelle Untersuchungen
Tabelle 6.8.: Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifizierten
AURORA4-Datenbank für das Büro.
I
2 4
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
GPB1 LC
135,80 3,87 8,21 47,88 33,55 3,46 8,43 45,45
2 25,86 2,54 7,44 35,84 25,01 2,50 7,55 35,06
3 22,80 2,58 7,07 32,45 22,50 2,58 7,15 32,23
4 21,40 2,84 6,22 30,46 20,99 2,32 6,37 29,69
5 20,96 2,80 5,82 29,58 20,66 2,28 5,78 28,73
6 19,85 2,91 5,45 28,21 20,11 2,62 5,41 28,14
IMM LC
133,48 4,20 7,92 45,60 30,31 3,28 8,03 41,62
2 26,08 2,69 7,81 36,57 25,38 2,28 7,73 35,40
3 23,39 2,28 6,74 32,41 23,02 2,43 7,18 32,63
4 21,80 2,69 6,26 30,76 21,44 2,65 6,52 30,61
5 21,07 2,80 5,52 29,39 20,96 2,36 5,41 28,73
6 20,52 2,69 5,23 28,43 20,07 2,54 5,16 27,77
GPB2 LC
132,41 3,68 7,88 43,98 31,90 2,95 7,51 42,36
2 26,52 2,62 7,66 36,80 25,49 2,39 7,44 35,32
3 23,31 2,47 6,96 32,74 22,91 2,28 7,11 32,30
4 21,84 2,69 6,48 31,01 21,73 2,32 6,11 30,17
5 20,92 2,69 5,56 29,17 21,33 2,36 5,64 29,32
6 20,26 2,58 5,34 28,18 20,44 2,69 5,08 28,21
(a) I=2,4
I
8 16
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
GPB1 LC
131,93 3,24 8,77 43,94 31,16 2,58 8,29 42,03
2 25,49 2,32 7,62 35,43 25,27 2,25 7,85 35,36
3 22,50 2,25 6,63 31,38 22,73 2,25 6,56 31,53
4 20,81 2,47 6,11 29,39 21,18 2,32 5,93 29,43
5 20,85 2,32 5,64 28,80 20,41 2,06 5,30 27,77
6 20,77 2,10 5,41 28,29 20,41 2,06 5,12 27,59
IMM LC
129,32 3,31 8,58 41,22 28,77 2,62 8,84 40,22
2 25,75 2,32 8,29 36,35 25,78 2,17 8,10 36,06
3 23,13 2,50 7,29 32,93 23,50 2,54 7,85 33,89
4 21,58 2,54 7,22 31,34 22,65 2,50 6,78 31,93
5 20,74 2,32 5,82 28,88 21,47 2,03 5,97 29,47
6 20,66 2,54 5,82 29,02 21,44 2,06 5,71 29,21
(b) I=8,16
Experimentelle Untersuchungen
111
Tabelle 6.9.: Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifizierten
AURORA4-Datenbank für das Wohnzimmer.
I
2 4
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
GPB1 LC
155,51 8,36 8,40 72,27 54,40 6,78 9,32 70,50
2 41,69 4,24 9,65 55,58 41,80 3,65 10,57 56,02
3 37,50 3,72 9,76 50,98 36,80 3,54 8,99 49,32
4 34,99 3,24 8,47 46,70 33,30 3,39 8,21 44,90
5 32,60 3,98 8,55 45,12 31,31 3,39 8,18 42,87
6 30,90 4,01 7,92 42,84 29,06 3,65 7,51 40,22
IMM LC
155,99 6,30 9,02 71,31 49,94 4,79 9,98 64,71
2 41,29 3,65 10,09 55,03 39,26 3,50 10,31 53,08
3 37,35 3,20 9,24 49,80 36,39 3,28 9,43 49,10
4 33,26 3,13 8,51 44,90 32,71 3,35 9,47 45,52
5 31,71 3,68 8,58 43,98 30,94 3,20 8,47 42,62
6 30,39 3,90 7,73 42,03 29,10 3,61 7,73 40,44
GPB2 LC
154,03 5,56 10,28 69,87 50,50 5,30 10,98 66,78
2 42,62 3,54 9,80 55,95 40,15 3,68 11,09 54,92
3 37,72 3,13 9,24 50,09 36,43 3,43 9,36 49,21
4 32,89 3,24 8,43 44,57 32,60 3,35 8,95 44,90
5 31,86 3,54 8,36 43,76 31,45 3,09 8,91 43,46
6 31,12 3,61 8,14 42,87 29,36 3,65 7,85 40,85
(a) I=2,4
I
8 16
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
GPB1 LC
153,08 5,19 10,57 68,84 50,94 5,23 10,28 66,45
2 39,67 3,87 9,94 53,48 39,85 3,39 10,20 53,44
3 35,21 3,35 8,58 47,15 35,14 3,54 9,10 47,77
4 31,90 3,46 8,14 43,50 31,49 3,50 8,14 43,13
5 30,17 3,24 7,51 40,92 29,76 3,43 7,37 40,55
6 28,66 3,39 7,26 39,30 28,84 3,54 6,96 39,34
IMM LC
149,69 4,71 10,17 64,57 47,77 4,24 11,27 63,28
2 39,37 3,68 10,13 53,19 38,78 3,35 10,64 52,78
3 35,95 3,20 9,02 48,18 34,81 2,98 9,69 47,48
4 32,89 3,09 9,10 45,08 32,71 3,17 9,24 45,12
5 30,64 3,13 8,43 42,21 30,64 3,24 8,73 42,62
6 29,76 3,20 8,25 41,22 28,99 3,17 8,03 40,18
(b) I=8,16
112
Experimentelle Untersuchungen
Teilmodelle Ikonnte die Wortfehlerrate in den meisten Fällen geringfügig reduziert wer-
den. Die erzielte Verbesserung bei der Nutzung vieler Teilmodelle steht dabei in einem sehr
ungünstigen Verhältnis zum aufgebrachten Rechenaufwand.
Im Sinne eines vernünftigen Kompromisses zwischen Rechenaufwand und Leistungsfä-
higkeit wurden für die weiteren Experimente I=4 Teilmodelle verwendet, wobei als Mo-
dellkombinationsalgorithmus die IMM-Methode diente. Da die Erhöhung von LCin hohem
Maße zur Reduktion der Wortfehlerrate beitrug und der Rechenaufwand im Verhältnis zur
Verbesserung der Leistungsfähigkeit der Merkmalsverbesserung vertretbar anstieg, wurde
für die folgenden Untersuchungen LC=6 gewählt.
6.5.1. Einfluss des A-priori-Sprachmodells
In diesem Abschnitt wird der Einfluss des A-priori-Sprachmodells auf die Leistungsfähigkeit
der Merkmalsverbesserung untersucht. Das Ziel liegt hierbei nicht in der Bestimmung eines
optimalen Sprachmodells für die betrachteten Sprachdatenbanken, sondern vielmehr darin,
den Einfluss der in Kap. 5.1.4 diskutierten Initialisierung und einzelner EM-Iterationen des
Trainings des Sprachmodells sowie den Einfluss der Ordnung des Sprachmodells zu veran-
schaulichen.
Einfluss der Initialisierung
Zunächst wurden für beide Sprachdatenbanken für das Wohnzimmer jeweils 70 unterschied-
liche initiale Parametermengen
θ
{0,j}des A-priori-Sprachmodells mit I=4 Teilmodellen
mit der in Kap. 5.1.4 vorgeschlagenen K-MEANS++-artigen Methode bestimmt, wobei j∈
{1,...,70}den Index der Initialisierung bezeichnet. Die Länge der aus den Trainingsdaten
zufällig ausgewählten Segmente zur Bestimmung lokaler Teilmodelle wurde zu LS=10 ge-
wählt um einen vernünftigen Kompromiss zwischen Lokalität und Informationsgehalt der
Teilmodelle zu gewährleisten. Die Konstante
ε
P,REL zur Steuerung des Verwerfens unter-
repräsentierter Teilmodelle wurde zu 0,01 gesetzt (siehe Alg. 2). Anschließend wurde je-
des dieser derart initialisierten Sprachmodelle unter Anwendung von jeweils 20 Iterationen
des EM-Algorithmus trainiert. Dabei wurden die nach der l-ten Iteration berechneten Para-
metermengen
θ
{l,j}jeweils zwischengespeichert, so dass eine Menge von insgesamt 1400
A-priori-Sprachmodellen resultierte. Außerdem wurde, wie bereits im letzten Abschnitt be-
schrieben, ein initiales A-priori-Sprachmodell
θ
{0,71}mit I=4 Teilmodellen mit Hilfe der
Modellspaltung erzeugt und ebenfalls mit 20 Iterationen des EM-Algorithmus verfeinert. Mit
jedem der beschriebenen A-priori-Sprachmodelle wurde eine Merkmalsverbesserung mit an-
schließender Spracherkennung durchgeführt.
In Abb. 6.8 sind für ausgewählte Indizes jder initialen Modellparameter die Verläufe
der Wortfehlerrate
λ
w
θ
{l,j}sowie mit 10−7skalierte Werte der Loglikelihoodfunktion
lnhL
θ
{l,j}iin Abhängigkeit von der Anzahl der EM-Iterationen lfür die AURORA5-
und die modifizierte AURORA4-Datenbank dargestellt. Bei allen mit der K-MEANS++-ar-
tigen Methode initialisierten Parametermengen ließ sich feststellen, dass die Wortfehlerrate
innerhalb der ersten 3 EM-Iterationen beträchtlich abnahm. Dieses ist darauf zurückzufüh-
ren, dass die Initialisierung lediglich mit Hilfe weniger zufällig ausgewählter Merkmals-
vektorsequenzen erfolgte, so dass die entsprechenden A-priori-Modelle lediglich eine sehr
Experimentelle Untersuchungen
113
λ
w
θ
{l,j}
Anzahl der EM-Iterationen l
Modellspaltung, j=71
5
3,2
3,3
3,4
3,5
3,6
3,7
3,8
3,9
10 15 20
K-MEANS++-artig, j=5
K-MEANS++-artig, j=39
K-MEANS++-artig, j=50
K-MEANS++-artig, j=67
K-MEANS++-artig, j=70
Anzahl der EM-Iterationen l
-2,2
-2,4
-2,6
510 15 20
lnhL
θ
{l,j}i·10−7
(a) AURORA5-Datenbank
λ
w
θ
{l,j}
Anzahl der EM-Iterationen l
Modellspaltung, j=71
5 10 15 20
39
40
41
42
43
44
45 K-MEANS++-artig, j=12
K-MEANS++-artig, j=35
K-MEANS++-artig, j=43
K-MEANS++-artig, j=68
K-MEANS++-artig, j=69
Anzahl der EM-Iterationen l
-9
-10
-8,5
-9,5
510 15 20
lnhL
θ
{l,j}i·10−7
(b) Modifizierte AURORA4-Datenbank
Abbildung 6.8.: Wortfehlerraten
λ
w
θ
{l,j}sowie mit 10−7skalierte Werte der Loglikelihoodfunktion
lnhL
θ
{l,j}iin Abhängigkeit von der Anzahl l der für das Training des A-priori-
Sprachmodells verwendeten EM-Iterationen für beispielhaft ausgewählte initiale Pa-
rametermengen
θ
{0,j}für das Wohnzimmer.
lokale anstatt einer globalen Charakterisierung der Sprache boten. Innerhalb der ersten EM-
Iterationen erfolgte eine Anpassung der lokalen Modelle an die globalen Daten, was sich
durch einen enormen Anstieg der Werte der Loglikelihoodfunktion bemerkbar machte. Dar-
aus lässt sich ableiten, dass eine gute Modellierung der Sprachdaten durch das A-priori-
Sprachmodell in gewisser Weise zu einer niedrigen Wortfehlerrate beiträgt.
Dass beide Kriterien jedoch nicht äquivalent sind, zeigt folgende Beobachtung, die in
den meisten Experimenten gemacht wurde und mit Hilfe der Verläufe der Wortfehlerrate in
Abb. 6.8a und Abb. 6.8b veranschaulicht werden soll. Nachdem die Wortfehlerrate nach ei-
nigen EM-Iterationen ihr Minimum erreichte, stieg sie danach in geringem Maße wieder an.
Aus Sicht der Merkmalsverbesserung wird eine Beschreibung der Sprachdaten mit Hilfe von
Teilmodellen Simit geringen Unsicherheiten, welche sich in kleinen Spektralradien der Ko-
varianzmatrizen Viausdrücken, favorisiert. Eine mögliche Ursache für den erneuten Anstieg
der Wortfehlerrate könnte darin bestehen, dass diese Nebenbedingung bei der Durchführung
114
Experimentelle Untersuchungen
des EM-Algorithmus zur Maximierung der Likelihoodfunktion nicht beachtet wurde. Ein
weiterer Grund liegt sicherlich in der Suboptimalität der Modellkombination, deren negati-
ver Einfluss auf die Wortfehlerrate auch vom A-priori-Sprachmodell abhängt.
Ein ziemlich unerwünschter Effekt war dabei die Tatsache, dass die Anzahl der EM-Ite-
rationen, nach denen das Minimum der Wortfehlerrate erreicht wurdw, stets unterschiedlich
war. Diese Beobachtung weist auf das grundsätzliche Problem hin, dass sich während des
Trainings des A-priori-Modells nicht vorhersagen lässt, welche Anzahl von EM-Iterationen
eine minimale Wortfehlerrate im Nachhinein erzielen wird. Eine sinnvolle Lösung dieses
Problems sollte bereits beim Optimierungskriterium für das Training ansetzen. Bedauerli-
cherweise ist die Formulierung eines geeigneten Kriteriums recht kompliziert und das Pro-
blem immer noch offener Forschungsgegenstand.
Nichtsdestotrotz zeigen die Histogramme der minimalen Wortfehlerrate
λ
j
w,MIN :=min
1≤l≤20
λ
w
θ
{l,j}(6.5)
in Abb. 6.9, dass die Leistungsfähigkeit der Merkmalsverbesserung im Hinblick auf die
Spracherkennung nur durch eine andere Art der Initialisierung des A-priori-Sprachmodells
verbessert werden konnte, wenn auch nur geringfügig. Es ist außerdem davon auszugehen,
dass die Initialisierung bei Sprachmodellen mit einer größeren Anzahl von Teilmodellen
einen wesentlich größeren Einfluss besitzen wird.
λ
j
w,MIN
Absolute Häufigkeit
0
5
10
13
15
20
3,2 3,3 3,4 3,5 3,6
(a) AURORA5-Datenbank
λ
j
w,MIN
Absolute Häufigkeit
K-MEANS++-artig
Modellspaltung
0
5
10
15
39 39,5 40 40,5 41
(b) Modifizierte AURORA4-Datenbank
Abbildung 6.9.: Histogramme der minimalen Wortfehlerrate
λ
j
w,MIN für das Wohnzimmer.
Insgesamt lässt sich schlussfolgern, dass die vorgeschlagene Art der Initialisierung bei
Weitem noch keine optimale Lösung bietet, sondern lediglich Potentiale aufzeigt.
Einfluss der Modellordnung
Dieser Abschnitt widmet sich der Fragestellung, ob und inwieweit die Erhöhung der Ord-
nung LAR des A-priori-Sprachmodells zu einer weiteren Reduktion der Wortfehlerrate bei-
tragen kann. Durch die Erhöhung der Ordnung lassen sich Korrelationen zwischen zeitlich
weiter auseinander liegenden Merkmalsvektoren der Sprache berücksichtigen, so dass der
Prädiktionsfehler durch das A-priori-Sprachmodell prinzipiell verringert werden kann.
Experimentelle Untersuchungen
115
In einem ersten Experiment wurden A-priori-Sprachmodelle unterschiedlicher Ordnung
LAR bestehend aus jeweils nur einem Teilmodell, d.h. I=1, für beide untersuchten Sprach-
datenbanken berechnet und anschließend für die Merkmalsenthallung verwendet. Die sich
ergebenden Wortfehlerraten bei der darauf folgenden Spracherkennung in Tab. 6.10 ver-
deutlichen, dass in den meisten Fällen eine deutliche Verbesserung der Leistungsfähigkeit
hauptsächlich durch die Erhöhung der Ordnung von 1 auf 2 erzielt werden konnte. Eine
Tabelle 6.10.: Fehlerraten [%] für verschiedene Ordnungen LAR des A-priori-Sprachmodells beste-
hend aus einem Teilmodell, d.h. I =1.
Raum
Büro Wohnzimmer
λ
w
LAR
12,09 4,24
21,82 3,84
31,73 3,75
41,74 3,72
(a) AURORA5-Datenbank
Raum
Büro Wohnzimmer
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
LAR
120,77 2,58 5,56 28,91 32,38 4,16 8,21 44,75
221,80 2,62 6,30 30,72 31,38 3,83 8,36 43,57
321,47 2,58 6,22 30,28 31,23 3,72 8,47 43,43
421,14 2,54 6,22 29,91 31,12 3,76 8,62 43,50
(b) Modifizierte AURORA4-Datenbank
weitere Erhöhung der Ordnung hatte nur marginale Effekte, da sich die Güte der Prädikti-
on dadurch nur in geringem Maße verbessert. Denn die Korrelation zwischen zeitlich be-
nachbarten Merkmalsvektoren der Sprache nimmt erheblich mit der Erhöhung des zeitlichen
Abstandes ab.
In einem weiteren Experiment wurden SLDMs der Ordnung 2 und 3 bestehend aus I=
4 Modellen trainiert, wobei für das EM-Training dieselben initialen Parametermengen Si
wie für das Training von SLDMs der Ordnung 1 zugrunde gelegt wurden. Jedes A-priori-
Sprachmodell wurde nach jeder einzelnen EM-Iteration zwischengespeichert und zur Merk-
malsenthallung eingesetzt. Bei einem Vergleich der bei der anschließenden Spracherken-
nung resultierenden Wortfehlerraten mit denen, die mit SLDMs erster Ordnung erzielt wor-
den sind, ließ sich kein Gewinn in der Leistungsfähigkeit durch die Erhöhung der Ordnung
LAR feststellen. Die Wortfehlerraten lagen im Gegenteil sogar geringfügig höher, obwohl die
Werte der Loglikelihoodfunktion deutlich größer als im Falle von SLDMs der Ordnung 1
waren. Dieses Resultat deutet erneut auf die Suboptimalität des Kriteriums zum Training des
SLDM im Hinblick für die Verwendung zur Merkmalsverbesserung als auch auf die Subopti-
116
Experimentelle Untersuchungen
malität der Modellkombinationsalgorithmen, deren Einsatz zur vernünftigen Beschränkung
des Rechenaufwandes beim Vorhandensein mehrerer Teilmodelle notwendig ist, hin. Auf ei-
ne detaillierte Darstellung der experimentellen Ergebnisse für LAR >1 und I>1 wird hier
verzichtet, da aus Sicht des Autors keine sinnvollen Erkenntnisse daraus gezogen werden
können.
6.5.2. Einfluss des Beobachtungsmodells
In diesem Abschnitt soll der Einfluss des Beobachtungsmodells auf die Leistungsfähigkeit
der Merkmalsenthallung untersucht werden. Dabei stehen zwei Aspekte im Vordergrund.
Erstens soll experimentell bestätigt werden, dass mit der rekursiven Beobachtungsfunktion,
die ursprünglich zur Reduktion des Rechen- und Speicheraufwands eingeführt wurde, ähn-
liche Resultate wie mit der nichtrekursiven Beobachtungsfunktion erzielt werden können.
Zweitens soll die Robustheit des Verfahrens zur Merkmalsenthallung gegenüber Fehlschät-
zungen der Parameter des RIA-Modells analysiert werden.
Ergebnisse mit der rekursiven Beobachtungsfunktion
Die Merkmalsenthallung wurde nun unter Verwendung des rekursiven Beobachtungsmodells
und der IMM-Schätzung für verschiedene Rekursionslängen LRund Anzahl von Teilmodel-
len Idurchgeführt. Dabei wurde die Anzahl LCvon aufeinander folgenden Merkmalsvekto-
ren der sauberen Sprache innerhalb des Zustandsvektors stets gleich LRgewählt.
Die resultierenden Wortfehlerraten sind für die AURORA5-Datenbank in Tab. 6.11 und
für die modifizierte AURORA4-Datenbank in Tab. 6.12 aufgeführt. Es zeigt sich bei bei-
Tabelle 6.11.: Wortfehlerraten
λ
w[%] erzielt mit dem rekursiven Beobachtungsmodell und der IMM-
Schätzung auf der AURORA5-Datenbank.
Raum
Büro Wohnzimmer
LR
12,83 8,12
22,44 6,21
32,53 5,79
42,48 5,52
52,48 5,30
62,36 4,97
72,35 4,76
82,32 4,55
(a) I=1
Raum
Büro Wohnzimmer
LR
12,87 7,83
22,17 5,24
32,30 4,87
42,30 4,72
52,19 4,36
62,17 4,13
72,13 3,91
82,17 3,76
(b) I=4
den Datenbanken, dass die Wortfehlerrate deutlich mit der Erhöhung der Rekursionslänge
bis zum Eintreten einer Sättigung bei etwa LR=8 abnahm, was sich als Ergebnis der Ver-
wendung von immer mehr Wissen aus der Zukunft zur Merkmalsenthallung erklären lässt.
Insbesondere ist dieses Verhalten nicht auf einen geringer werdenden Beobachtungsfehler
Experimentelle Untersuchungen
117
Tabelle 6.12.: Fehlerraten [%] erzielt mit dem rekursiven Beobachtungsmodell und der IMM-
Schätzung auf der AURORA4-Datenbank.
Raum
Büro Wohnzimmer
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
LR
126,48 4,38 6,08 36,94 53,37 9,91 6,08 69,36
222,06 3,02 5,67 30,76 41,40 6,41 6,63 54,44
321,47 2,95 6,15 30,57 36,72 4,38 6,78 47,88
421,73 2,62 6,37 30,72 35,17 3,76 7,44 46,37
521,25 2,39 5,97 29,61 32,82 3,90 7,51 44,24
621,07 2,87 5,67 29,61 32,89 4,01 7,81 44,71
720,70 2,87 5,30 28,88 31,27 4,24 7,37 42,87
820,11 2,91 5,08 28,10 31,05 4,20 6,89 42,14
(a) I=1
Raum
Büro Wohnzimmer
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
LR
125,64 3,79 5,82 35,25 54,84 7,88 7,51 70,24
221,58 2,58 5,86 30,02 41,07 5,16 7,40 53,63
320,99 2,50 6,26 29,76 34,36 3,98 7,62 45,97
420,74 2,39 6,30 29,43 31,79 3,79 7,73 43,31
519,93 2,50 5,75 28,18 31,49 3,54 7,59 42,62
619,08 2,54 5,01 26,63 30,13 3,65 7,81 41,58
719,08 2,73 5,41 27,22 29,80 3,43 7,66 40,88
818,31 2,73 5,19 26,22 28,66 4,16 7,37 40,18
(b) I=4
118
Experimentelle Untersuchungen
für wachsende Werte von LRzurückzuführen, da sich die statistischen Eigenschaften des
Beobachtungsfehlers für LR>3 nur noch unwesentlich ändern (siehe Abb. 6.6).
Bei einem Vergleich der Resultate mit denen für das nichtrekursive Beobachtungsmodell
in Tab. 6.5, Tab. 6.7, Tab. 6.8 und Tab. 6.9 lässt sich feststellen, dass für sehr kleine Werte
von LC=LRdas rekursive Beobachtungsmodell zu geringfügig besseren Ergebnisse führte.
Für LR>3 lieferten jedoch beide Beobachtungsmodelle ähnliche Resultate.
Die Echtzeitfaktoren, die bei der Merkmalsenthallung mit dem rekursiven Beobachtungs-
modell gemessen wurden, sind in Tab. 6.13 aufgelistet. Es zeigt sich, dass diese im Vergleich
Tabelle 6.13.: Echtzeitfaktoren für die Merkmalsenthallung unter Verwendung des rekursiven Beob-
achtungsmodells.
LR
12345678
I10,02 0,03 0,05 0,07 0,09 0,12 0,15 0,19
40,08 0,13 0,20 0,29 0,40 0,50 0,69 0,84
zur Merkmalsenthallung mit dem nichtrekursiven Beobachtungsmodell etwa um 0,01 für
I=1 und 0,04 für I=4 absolut geringer sind. Der Gewinn bezüglich des Rechenaufwands
ist also wie erwartet linear in der Anzahl Ider Teilmodelle. Jedoch ist er im Vergleich zum
Gesamtaufwand für größere Werte von LRrelativ gering.
Durch experimentelle Untersuchungen, deren Ergebnisse hier nicht explizit aufgeführt
sind, konnte weiterhin festgestellt werden, dass sich die Erhöhung der Ordnung LAR des
SLDM ähnlich wie im Falle der nichtrekursiven Beobachtungsfunktion auswirkte. Insbeson-
dere konnte bei der Verwendung eines einzigen linearen dynamischen Modells zur Model-
lierung der Sprache, d. h. I=1, durch die Erhöhung der Ordnung von 1 auf 2 eine relativ
große Reduktion der Wortfehlerrate erzielt werden. Bei der Verwendung mehrerer Teilmo-
delle, d. h. I>1, führte die Erhöhung der Ordnung LAR des SLDM hingegen sogar zu einer
leichten Erhöhung der Wortfehlerrate. Der Grund dafür liegt hier, wie auch beim nicht re-
kursiven Modell, in der Suboptimalität des verwendeten Kriteriums zum Training des SLDM
und in der Suboptimalität der Modellkombinationsalgorithmen.
Sensitivität gegenüber Fehlschätzungen der Modellparameter
In dieser Arbeit wird davon ausgegangen wird, dass die Schätzung der zur Merkmalsenthal-
lung benötigten RIA-Parameter ˆ
T60 und ˆ
σ
2
hmit Hilfe von externen Verfahren geschieht. Da
sie jedoch in der Regel fehlerbehaftet ist, wurde in einem weiteren Experiment die Sensiti-
vität der Merkmalsenthallung gegenüber Schätzfehlern in den RIA-Parametern untersucht.
Für die Simulationen wurde angenommen, dass für jede einzelne Sprachäußerung innerhalb
der Testdaten jeweils unabhängige Schätzungen der Nachhallzeit und des Energieparameters
vorlagen, welche durch
ˆ
T60 =T60 +eˆ
T60 (6.6)
ˆ
σ
2
h=
σ
2
h1+eˆ
σ
2
h,REL(6.7)
Experimentelle Untersuchungen
119
gegeben waren. Dabei bezeichnet T60 die angenommene wahre Nachhallzeit, welche für das
Büro stets zu 0,35 s und für das Wohnzimmer stets zu 0,45 s gesetzt wurde. Für die wah-
re Energiekonstante ˆ
σ
2
hwurde angenommen, dass diese durch (5.171) bestimmt ist, da wie
bereits erwähnt die Trainings- und die Testdaten beider Datenbanken derselben Energienor-
mierung unterlagen. Weiterhin wurde davon ausgegangen, dass die Schätzfehler eˆ
T60 und
eˆ
σ
2
h,REL jeweils Realisierungen der beiden mittelwertfreien Zufallsvariablen ˘eˆ
T60 und ˘eˆ
σ
2
h,REL
darstellen, deren Verteilungsdichtefunktionen wie folgt definiert sind:
p˘eˆ
T60 eˆ
T60 :=
c1·Neˆ
T60 ;0,
σ
2
˘eˆ
T60 für eˆ
T60 <2
σ
˘eˆ
T60 +0,025
0 sonst
(6.8)
p˘eˆ
σ
2
h,REL eˆ
σ
2
h,REL:=
c2·Neˆ
σ
2
h,REL;0,
σ
2
˘eˆ
σ
2
h,REL für eˆ
σ
2
h,REL<2
σ
˘eˆ
σ
2
h,REL
0 sonst
.(6.9)
Das beidseitige “Abschneiden“ der GAUSS-förmigen Verteilungsdichtefunktionen sollte da-
bei vermeiden, dass die Schätzwerte ˆ
T60 und ˆ
σ
2
hnegativ wurden. Die beiden positiven, re-
ellen Normierungskonstanten c1und c2wurden dabei derart gewählt, dass das Integral über
die beiden Verteilungsdichtefunktionen jeweils gleich 1 ist. Der Schätzwert der Nachhallzeit
wurde zusätzlich vor der Durchführung der Merkmalsenthallung auf ganze Vielfache von
0,05 s gerundet, sodass für diese Werte der Nachhallzeit zuvor empirisch bestimmte Parame-
ter des Beobachtungsfehlers eingesetzt werden konnten. Im Zusammenhang mit der Simu-
lation von Schätzfehlern in der Nachhallzeit muss außerdem beachtet werden, dass bedingt
durch die Erzeugung der Datenbanken die Nachhallzeit einzelner Sprachäußerungen jeweils
gleichmäßig zwischen 0,3 s, 0,35 s und 0,4 s für das Büro und zwischen 0,4 s, 0,45 s und
0,5 s für das Wohnzimmer variierte, so dass bereits bei einer Standardabweichung
σ
˘eˆ
T60 =0
Schätzfehler in der Nachhallzeit vorlagen.
Für die Merkmalsenthallung wurde die IMM-Schätzung mit LC=6 eingesetzt und als A-
priori-Sprachmodell dasselbe SLDM mit I=4 Teilmodellen verwendet, das zuvor für die
Untersuchungen bezüglich der Leistungsfähigkeit unterschiedlicher Modellkombinationsal-
gorithmen diente. Die resultierenden Wortfehlerraten in Abhängigkeit von den Standardab-
weichungen für die Schätzfehler in den RIA-Parametern sind jeweils für das nichtrekursive
sowie das rekursive Beobachtungsmodell in Tab. 6.14 für die AURORA5-Datenbank und in
Tab. 6.15 für die modifizierte AURORA4-Datenbank zusammengetragen.
Es ließ sich beobachten, dass die Auswirkungen von Schätzfehlern in den RIA-Parame-
tern für beide Beobachtungsmodelle ähnlich waren. Die Wortfehlerrate stieg dabei für beide
untersuchten Räume und Datenbanken gemittelt über alle betrachteten Werte für die Stan-
dardabweichung des Schätzfehlers im Energieparameter lediglich um etwa 10 % relativ an,
wenn die Standardabweichung des Schätzfehlers in der Nachhallzeit 0,1 s betrug. Daher lässt
sich schlussfolgern, dass eine zufriedenstellende Robustheit des vorgestellten Verfahrens zur
Merkmalsenthallung gegenüber Schätzfehlern in den RIA-Parametern vorliegt.
6.5.3. Adaption des Erkenners auf Artefakte der Merkmalsenthallung
Im Allgemeinen lässt sich die Trajektorie der LMSK-Vektoren des sauberen Sprachsignals
mit Hilfe der Merkmalsverbesserung nicht perfekt aus der Trajektorie der LMSK-Vektoren
120
Experimentelle Untersuchungen
Tabelle 6.14.: Wortfehlerraten
λ
w[%] in Abhängigkeit von den Standardabweichungen für die
Schätzfehler in den RIA-Parametern für die AURORA5-Datenbank.
Raum
Büro Wohnzimmer
σ
˘eˆ
σ
2
h,REL [dB]
−∞-15 -10 -5 −∞-15 -10 -5
σ
˘eˆ
T60
01,97 1,97 1,97 1,97 3,61 3,59 3,58 3,59
0,075 2,21 2,18 2,21 2,23 4,03 4,15 4,16 4,21
0,1 2,34 2,22 2,41 2,35 4,21 4,22 4,27 4,35
(a) Nichtrekursives Beobachtungsmodell
Raum
Büro Wohnzimmer
σ
˘eˆ
σ
2
h,REL [dB]
−∞-15 -10 -5 −∞-15 -10 -5
σ
˘eˆ
T60
02,17 2,14 2,13 2,15 4,13 4,16 4,17 4,24
0,075 2,30 2,32 2,30 2,39 4,25 4,18 4,22 4,32
0,1 2,29 2,40 2,38 2,35 4,31 4,37 4,43 4,47
(b) Rekursives Beobachtungsmodell
Tabelle 6.15.: Wortfehlerraten
λ
w[%] in Abhängigkeit von den Standardabweichungen für die
Schätzfehler in den RIA-Parametern für die AURORA4-Datenbank.
Raum
Büro Wohnzimmer
σ
˘eˆ
σ
2
h,REL [dB]
−∞-15 -10 -5 −∞-15 -10 -5
σ
˘eˆ
T60
027,77 27,55 27,44 27,44 40,44 40,52 40,70 41,07
0,075 29,17 29,13 29,28 29,50 42,65 42,95 41,03 41,84
0,1 29,94 29,98 33,30 28,84 41,99 44,09 44,35 43,68
(a) Nichtrekursives Beobachtungsmodell
Raum
Büro Wohnzimmer
σ
˘eˆ
σ
2
h,REL [dB]
−∞-15 -10 -5 −∞-15 -10 -5
σ
˘eˆ
T60
026,22 26,85 26,92 27,22 40,18 41,62 41,36 41,73
0,075 28,55 28,21 28,21 28,66 42,69 41.73 41.92 41.77
0,1 28,40 29.43 29.69 29.58 43,68 42.84 43.54 43.31
(b) Rekursives Beobachtungsmodell
Experimentelle Untersuchungen
121
des verhallten Sprachsignals rekonstruieren. Die verbleibenden Artefakte führen dann zu
einer Veränderung der statistischen Eigenschaften der Trajektorien gegenüber dem Fall in
Abwesenheit von Nachhall. Beruhend auf dieser Diskrepanz zwischen Test- und Trainings-
bedingungen steigt die Wortfehlerrate bei der Spracherkennung gewöhnlich an. Eine Mög-
lichkeit diesem Problem zu begegnen besteht in einer sinnvollen Anpassung der Trainings-
bedingungen. Dies lässt sich bewerkstelligen, indem die sauberen Trainingssprachsignale
zunächst umgebungsspezifisch künstlich verhallt und anschließend mit Hilfe der Merkmals-
verbesserung wieder enthallt werden. Die Erzeugung der künstlichen RIAs kann dabei mit
Hilfe der Spiegelquellenmethode auf dieselbe Art und Weise wie in Kap. 6.4 geschehen.
In Tab. 6.16 sind die auf diese Weise erzielten Fehlerraten für die AURORA5- und die
modifizierte AURORA4-Datenbank zusammengetragen. Zusätzlich sind in derselben Tabel-
Tabelle 6.16.: Fehlerraten [%] für ausgewählte Kombinationen von unterschiedlichen Trainingsbe-
dingungen und der An- bzw. Abwesenheit der Merkmalsverbesserung.
Konditionen Raum
Büro Wohnzimmer
λ
w
Training auf sauberen
Sprachsignalen,
Merkmalsverbesserung
vor der Erkennung
1,97 3,61
Training auf enthallten
Sprachsignalen,
Merkmalsverbesserung
vor der Erkennung
2,00 3,35
Training auf verhallten
Sprachsignalen,
Erkennung ohne
Merkmalsverbesserung
1,29 2,61
(a) AURORA5-Datenbank
Konditionen Raum
Büro Wohnzimmer
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
Training auf sauberen
Sprachsignalen,
Merkmalsverbesserung
vor der Erkennung
20,07 2,54 5,16 27,77 29,10 3,61 7,73 40,44
Training auf enthallten
Sprachsignalen,
Merkmalsverbesserung
vor der Erkennung
17,46 2,43 4,49 24,38 23,72 3,61 5,64 32,97
Training auf verhallten
Sprachsignalen,
Erkennung ohne
Merkmalsverbesserung
18,01 3,06 3,17 24,24 26,26 6,08 3,98 36,32
(b) Modifizierte AURORA4-Datenbank
122
Experimentelle Untersuchungen
le die Resultate für das Training des Erkenners mit verhallten Sprachsignalen, wie sie bereits
auch in Tab. 6.3b und Tab. 6.4b aufgeführt sind, sowie die Resultate für die zuvor betrachtete
Merkmalsenthallung in Kombination mit einem Training des Spracherkenners auf sauberen
Sprachäußerungen aus Tab. 6.5, Tab. 6.8a und Tab. 6.9a gegenübergestellt.
Für die AURORA5-Datenbank ließ sich beobachten, dass das Training des Spracherken-
ners auf Artefakte nach der Merkmalsverbesserung lediglich für das Wohnzimmer zu ei-
ner geringfügigen Abnahme der Wortfehlerrate führte. Bedauerlicher ließ sich damit nicht
die Leistungsfähigkeit erreichen, die beim Training des Erkenners mit verhallten Sprachsi-
gnalen erzielt werden konnte. Hingegen nahm für die modifizierte AURORA4-Datenbank
die Wortfehlerrate bedingt durch das Training des Spracherkenners auf Artefakte nach der
Merkmalsverbesserung deutlich stärker ab, insbesondere für das Wohnzimmer. Während für
das Büro eine ähnliche Leistungsfähigkeit wie beim Training des Erkenners mit verhallten
Sprachsignalen erreicht werden konnte, wurde diese für das Wohnzimmer sogar übertroffen.
Eine mögliche Erklärung könnte darin bestehen, dass im Falle eines sehr umfangreichen
Vokabulars in Kombination mit einer hohen Nachhallzeit T60 der Effekt des Nachhalls aus
verhallten Trainingssprachsignalen schlechter gelernt werden kann, da der zu berücksichti-
gende links- bzw. rechtsseitige Kontext zu einem HMM-Zustand deutlich stärker variieren
kann. Dieses Problem tritt beim Training mit enthallten Trainingsdaten in deutlich geringe-
rem Maße auf, da durch die Enthallung die zeitliche Dispersion reduziert und damit der links-
und rechtsseitige Kontext teilweise eingeschränkt wird. Ein weitere Ursache für den stärke-
ren Effekt des Trainings der Parameter des akustischen Modells auf die nach der Merkmals-
verbesserung verbleibenden Artefakte bei der modifizierten AURORA4-Datenbank besteht
darin, dass die Auswirkung dieser Artefakte an sich im Vergleich zur AURORA5-Datenbank
größer ist, weil zwischen einer größeren Anzahl an Wörtern unterschieden werden muss.
Zusammenfassend lässt sich feststellen, dass sich mit einem derartigen kombinierten An-
satz auf der AURORA5-Datenbank etwa 80 % und auf der AURORA4-Datenbank etwa 70 %
der Fehler, die durch den Nachhall entstanden sind, beheben ließen.
6.6. Ergebnisse zur gemeinsamen Merkmalsenthallung und
-entstörung
In einem letzten Experiment wurde die Leistungsfähigkeit des vorgestellten Verfahrens in
Gegenwart von sowohl Nachhall als auch Hintergrundstörungen untersucht. Als A-priori-
Sprachmodell wurde für jede Datenbank dasjenige SLDM ausgewählt, welches bereits bei
den Experimenten zur Merkmalsenthallung die niedrigste Wortfehlerrate lieferte. Die Para-
meter des A-priori-Modells für die Störung, d.h. der Mittelwertvektor µnund die Kovarianz-
matrix Σn(siehe Kap. 5.1.2), wurden empirisch unter Verwendung der jeweils 15 ersten und
letzten Segmente einer Sprachäußerung auf der AURORA5-Datenbank bestimmt, da in den
entsprechenden Zeiträumen keine Sprachaktivität vorlag. Bei der modifizierten AURORA4-
Datenbank wurden für diesen Zweck die 50 ersten und letzten Segmente einer Sprachäuße-
rung verwendet. Die Merkmalsverbesserung wurde jeweils mit Hilfe des nichtrekursiven und
des rekursiven Beobachtungsmodells durchgeführt, wobei LC=LR=6 angenommen wurde.
Die bei der Spracherkennung erzielten Wortfehlerraten sind in Tab. 6.17 für die AURORA5-
Datenbank und in Tab. 6.18 für die modifizierte AURORA4-Datenbank aufgeführt. Aus den
Ergebnissen lässt sich eine leichte Tendenz zugunsten des nichtrekursiven Beobachtungs-
Experimentelle Untersuchungen
123
Tabelle 6.17.: Wortfehlerraten
λ
w[%] für die AURORA5-Datenbank erzielt mit der gemeinsamen
Merkmalsenthallung und -entstörung.
Raum
Büro Wohnzimmer
SNR [dB]
15 7,47 12,21
10 16,83 24,04
535,13 44,33
062,44 69,51
(a) Nichtrekursives Beobachtungsmodell
Raum
Büro Wohnzimmer
SNR [dB]
15 7,77 12,54
10 17,27 24,62
535,67 44,70
062,93 70,77
(b) Rekursives Beobachtungsmodell
Tabelle 6.18.: Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit der gemeinsa-
men Merkmalsenthallung und -entstörung.
Raum
Büro Wohnzimmer
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
SNR [dB]
15 31,09 4,53 10,64 46,26 43,76 5,45 11,57 60,77
10 46,15 7,29 12,63 66,08 55,32 10,28 14,11 79,71
562,10 14,22 10,31 86,63 65,60 16,87 9,65 92,12
061,80 28,88 4,75 95,43 62,14 31,68 3,28 97,09
(a) Nichtrekursives Beobachtungsmodell
Raum
Büro Wohnzimmer
λ
Subst
λ
Ausl
λ
Einf
λ
w
λ
Subst
λ
Ausl
λ
Einf
λ
w
SNR [dB]
15 31,45 4,71 10,94 47,11 42,36 5,67 11,23 59,26
10 46,30 7,26 11,93 65,49 56,17 9,80 11,68 77,64
561,55 14,62 9,39 85,56 64,86 17,13 8,80 90,79
058,05 32,52 4,38 94,95 57,46 36,83 2,84 97,13
(b) Rekursives Beobachtungsmodell
124
Experimentelle Untersuchungen
modells auf der AURORA5-Datenbank erkennen, die jedoch auf der AURORA4-Datenbank
ins Gegenteil umschlägt. Die Unterschiede der Ergebnisse sind jedoch nur gering, so dass
auf keinen sinnvollen Vorteil eines bestimmten Beobachtungsmodells anhand dieser Simu-
lationsergebnisse geschlossen werden sollte.
Bei einem Vergleich der Ergebnisse mit denen des gewöhnlichen ETSI-SFE ohne nach-
geschaltete Merkmalsverbesserung in Tab. 6.1 und Tab. 6.2 fällt auf, dass die Leistungsfä-
higkeit deutlich mit sinkendem SNR abnahm. Konnten bei einem SNR von 15 dB bei der
AURORA5-Datenbank immerhin noch etwa 65 % der durch den Nachhall und die Hinter-
grundstörungen verursachten Fehler behoben werden, so waren es bei einem SNR von 0 dB
nur noch maximal etwa 30%. Ein ähnliches Verhalten zeigte sich auch bei der modifizierten
AURORA4-Datenbank, wobei die erzielten Verbesserungen im Vergleich zur AURORA5-
Datenbank insgesamt deutlich geringer waren. Während bei einem SNR von 15 dB noch etwa
40 % bzw. 53 % der Fehler beim Büro bzw. Wohnzimmer korrigiert werden konnten, betrug
der Anteil korrigierter Fehler bei einem SNR von 0 dB nur noch etwa 5 % beim Büro und
etwa 2 % beim Wohnzimmer. Die schlechtere Leistungsfähigkeit der Merkmalsverbesserung
auf der AURORA4-Datenbank hängt auch hier mit dem deutlich größeren Vokabular zu-
sammen, wodurch nach der Verbesserung verbleibende Artefakte vom Spracherkenner eher
falsch interpretiert werden können.
Die abnehmende Leistungsfähigkeit bei sinkenden Werten des SNR besitzt hauptsächlich
zwei Ursachen. Zum einen ist das zur Beschreibung der Hintergrundstörung verwendete A-
priori-Modell nur bedingt geeignet, da die Störungen, welche zur Erzeugung beider unter-
suchter Datenbanken herangezogen wurden, einen besonders instationären Charakter besit-
zen. Zum anderen sind, wie bereits in Kap. 6.4 angemerkt, das Modell des Beobachtungsfeh-
lers sowie dessen Parameter bei Vorhandensein von Störungen stark abhängig vom lokalen
SNR. In den Experimenten in dieser Arbeit wurde diese Tatsache im Sinne einer Vereinfa-
chung nicht berücksichtigt, wodurch jedoch starke Einbußen in der Leistungsfähigkeit der
Merkmalsverbesserung hingenommen werden mussten.
Trotz dieser beiden starken Vereinfachungen übertraf die Leistungsfähigkeit des in dieser
Arbeit vorgeschlagenen Verfahrens deutlich jene des ETSI-AFE für hohe Werte des SNR, wie
durch einen Vergleich der Wortfehlerraten in Tab. 6.17 bzw. Tab. 6.18 mit den in Tab. 6.3 und
Tab. 6.4 ersichtlich wird. Erst für sehr niedrige SNR-Werte von 5 dB bzw. 0 dB lieferte das
speziell zur Entstörung konzipierte ETSI-AFE bessere Ergebnisse.
Obwohl das Training des Spracherkenners mit verhallten Sprachsignalen nicht zur Robust-
heit gegenüber Hintergrundstörungen beiträgt, waren die damit erzielten Wortfehlerraten auf
der AURORA4-Datenbank durchgehend besser als diejenigen, welche mit der Merkmalsver-
besserung oder mit dem ETSI-AFE erhalten worden sind. Im Gegenteil dazu war jedoch die
Merkmalsverbesserung auf der AURORA5-Datenbank bei Vorhandensein von Hintergrund-
störungen im Vergleich dazu stets dominant.
Aufgrund der sehr groben Modellierung der Störung durch das A-priori-Modell sowie der
groben Modellierung des Beobachtungsfehlers wird davon ausgegangen, dass die Leistungs-
fähigkeit des vorgestellten Verfahrens durch die Verbesserung beider Modelle beträchtlich
gesteigert werden kann. Diese Aspekte bleiben jedoch der zukünftigen Forschung vorbehal-
ten und werden in dieser Arbeit nicht weiter behandelt.
7. Zusammenfassung und Ausblick
Im Rahmen dieser Arbeit wurde ein Verfahren zur Verbesserung akustischer Merkmale im
Hinblick auf eine robuste Spracherkennung in Gegenwart von Nachhall und Hintergrund-
störungen entwickelt, wobei der Schwerpunkt auf der Kompensation des Nachhalls lag. Als
akustische Merkmale wurden dabei die log-MEL-spektralen Merkmale betrachtet, da sie die
unmittelbare Vorstufe zur Berechnung der MFCCs darstellen. Es ist dabei besonders zu beto-
nen, dass aufgrund der weiten Verbreitung der MFCCs in Verbindung mit der dabei erzielten
hohen Erkennungsleistung eine hohe Relevanz des hier vorgestellten Ansatzes gegeben ist.
Die hohe Relevanz wird zudem unterstützt durch eine hohe Flexibilität einer jeden merk-
malsbasierten Methode, da diese prinzipiell beliebige Strukturen des Spracherkenners zu-
lässt.
Das Konzept der auf BAYES’scher Inferenz basierenden Merkmalsverbesserung wurde
in Kap. 5 vorgestellt. Es nutzt die Information von A-priori-Modellen der Sprache und der
Hintergrundstörung sowie eines Beobachtungsmodells in einer statistisch optimalen Art. Da-
bei wurden zur Beschreibung des A-priori-Wissens über die Merkmalsvektortrajektorie der
sauberen Sprache schaltende, lineare dynamische Modelle eingesetzt, wobei insbesondere
auch Modelle höherer Ordnung als eins in Betracht gezogen wurden. Die entsprechenden
Modellparameter wurden mit Hilfe des EM-Algorithmus und einer Menge von Trainings-
sprachäußerungen bestimmt. Als Folge dessen, dass der EM-Algorithmus an sich eher ein
Prinzip als einen konkreten Algorithmus darstellt, wurden dafür zunächst die notwendigen
Schätzformeln für sämtliche SLDM-Parameter hergeleitet. Da es sich beim EM-Algorithmus
um ein iteratives Verfahren handelt, werden zu seiner Anwendung Startwerte für die SLDM-
Parameter benötigt. Zu diesem Zweck wurde eine neuartige, stochastische Initialisierungs-
methode vorgeschlagen, deren Prinzip ähnlich dem des K-MEANS++-Algorithmus ist.
Ein weiterer besonderer Aspekt, der in Kap. 5 behandelt wurde, liegt in der Herleitung
des Beobachtungsmodells zur Beschreibung des Zusammenhanges zwischen den log-MEL-
spektralen Merkmalen des verhallten und gestörten Sprachsignals sowie den log-MEL-spek-
tralen Merkmalen des sauberen Sprachsignals und des Störsignals. Dieser Zusammenhang
wurde zunächst auf der Grundlage der RIA zwischen dem Sprecher und dem Mikrophon,
welche die Mehrwegeausbreitung des Signals kennzeichnet, hergeleitet. Um eine in der Re-
gel hoch sensible, blinde Schätzung der in praktisch relevanten Anwendungen gewöhnlich
unbekannten und zudem zeitvarianten RIA zu vermeiden, wurde diese durch ein statistisches
Modell beschrieben. Das verwendete Modell besitzt nur zwei Parameter, welche die Energie
und das Abklingverhalten der RIA charakterisieren. Die beiden Parameter können deutlich
einfacher und robuster als die vollständige RIA blind aus dem eingehenden Mikrophonsignal
geschätzt werden. In der Arbeit wurde nun vorgeschlagen, wie auf der Basis des statistischen
Modells der RIA lediglich unter Verwendung der Modellparameter ein sinnvolles Beobach-
tungsmodells berechnet werden kann.
125
126
Zusammenfassung und Ausblick
Aufgrund des dispersiven Effektes hängt ein log-MEL-spektrales Merkmal eines verhall-
ten Sprachsignals gewöhnlich von mehreren, zeitlich zurückliegenden log-MEL-spektralen
Merkmalen des zugehörigen sauberen Sprachsignals ab, welche bei der Auswertung der Be-
obachtungsfunktion berücksichtigt werden müssen. Zur Reduktion des damit im Zusammen-
hang stehenden Rechen- und Speicheraufwandes wurde ein rekursives Beobachtungsmodell
hergeleitet, wobei die Rekursionslänge vollkommen variabel gewählt werden kann.
Sowohl für das nicht rekursive als auch das rekursive Beobachtungsmodell wurde der
Beobachtungsfehler stark vereinfacht als eine Realisierung eines weißen, GAUSS’schen Zu-
fallsprozesses beschrieben. Obwohl die Unabhängigkeit einzelner zeitlich aufeinander fol-
gender Fehler bei Weitem nicht gegeben ist, konnte später in Kap. 6 jedoch zumindest mit
Hilfe von Merkmalen realer Sprachsignale experimentell gezeigt werden, dass das Histo-
gramm des Beobachtungsfehlers eine annähernd GAUSS-glockenförmige Gestalt aufweist.
Zur praktischen Umsetzung der Inferenz wurden in dieser Arbeit suboptimale Modellkom-
binationsalgorithmen verwendet, um einen zeitlich konstant bleibenden Aufwand an Stelle
eines exponentiell wachsenden zu erzielen. Das Prinzip der dabei kombinierten, teilmodell-
spezifischen Inferenzen beruhte auf dem eines erweiterten iterativen KALMAN-Filters.
In Kap. 6 wurden experimentelle Untersuchungen zum Verfahren der Merkmalsverbes-
serung durchgeführt. Dazu wurden zwei verschiedene Sprachdatenbanken, die AURORA5-
Datenbank und eine modifizierte Version der AURORA4-Datenbank, herangezogen. Wäh-
rend die AURORA5-Datenbank unter anderem Sprachäußerungen von einzelnen Ziffern und
Ziffernketten beinhaltet, sind in der AURORA4-Datenbank Äußerungen kontinuierlich ge-
sprochener Sprache in Form ganzer Sätze enthalten. Beide Datenbanken bestehen aus saube-
ren Sprachsignalen und deren künstlich erzeugten verhallten sowie verhallten und zusätzlich
gestörten Versionen. Zur künstlichen Verhallung wurden für beide Datenbanken zwei unter-
schiedliche virtuelle Räume mit Nachhallzeiten von jeweils etwa 0,35 s und 0,45 s angenom-
men. Als additive Hintergrundstörungen wurden Ausschnitte aus Aufnahmen aus typischen
Innenräumen benutzt, um realistisch Störungen nachzuahmen.
Die Leistungsfähigkeit der Merkmalsverbesserung wurde in dieser Arbeit indirekt über die
nach einer Spracherkennung erzielte Wortfehlerrate bewertet. Es wurden dabei Untersuchun-
gen sowohl zur ausschließlichen Merkmalsenthallung als auch zur gemeinsamen Entstörung
und Enthallung von Merkmalen durchgeführt.
Die Ergebnisse zur Merkmalsenthallung zeigen eine deutliche Reduktion der Wortfeh-
lerrate für alle drei betrachteten Modellkombinationsalgorithmen gegenüber dem Fall ohne
der Verwendung jeglicher Merkmalsenthallung. Insbesondere steigerte sich die Leistungs-
fähigkeit bei einer Berücksichtigung eines gewissen zeitlichen Kontexts aus der Zukunft,
was durch eine geeignete Erweiterung des Zustandsvektors bei der erweiterten KALMAN-
Filterung erreicht wurde. Bemerkenswert im Bezug auf die Wahl des A-priori-Modells zur
Beschreibung der Sprache im Merkmalsbereich ist die Tatsache, dass bereits mit einem einzi-
gen linearen dynamischen Modell die Wortfehler, die durch den Nachhall verursacht worden
sind, um bis zu 75 % für die Ziffernkettenerkennung reduziert werden konnten. Durch eine
moderate Vergrößerung der Anzahl der Teilmodelle des SLDM auf 4 ließ sich der Prozen-
tanteil auf bis zu 80 % erhöhen. Bei der Erkennung von kontinuierlich gesprochener Sprache
mit großem Vokabular betrug dieser Prozentanteil immerhin noch etwa 50 %, da die nach
der Verbesserung verbliebenen Fehler tendenziell schwerwiegendere Auswirkungen bedingt
durch die erhöhte Komplexität der Erkennungsaufgabe hatten.
Bezüglich der Wahl des A-priori-Modells der Sprache konnte weiterhin beobachtet wer-
Zusammenfassung und Ausblick
127
den, dass die vorgeschlagene Methode der Initalisierung der SLDM-Parameter unter der An-
nahme einer geeigneten Wahl der Anzahl der EM-Iterationen letzendlich zu einer geringfü-
gig verringerten Wortfehlerrate führen kann. Jedoch war der erzielte Gewinn nur minimal,
was nach Ansicht des Autors mit dem verwendeten Kriterium zum Training der SLDM-
Parameter, nämlich der Maximierung der Likelihood der Trainingsdaten, zusammenhängt,
welches nicht unmittelbar mit dem der Minimierung der Wortfehlerrate zusammenhängt.
Es ist zu vermuten, dass durch ein geeigneteres Kriterium, welches zusätzlich eine zeitlich
lokale und getrennte Aktivität einzelner Teilmodelle des SLDM fordert, die vorgeschlage
Initialisierungsmethode an Bedeutung gewinnen wird.
Die Erhöhung der SLDM-Ordnung bewirkte nur bei der Nutzung eines einzigen linearen,
dynamischen Modells als A-priori-Modell der Sprache eine Reduktion der Wortfehlerrate,
wobei der Anteil der Verbesserung mit der Erhöhung der Ordnung abnahm. In diesem be-
sonderen Fall ist keine Anwendung des EM-Algorithmus zum SLDM-Training notwendig,
da ein analytischer Ausdruck zur direkten Berechnung der Parameter existiert. Zudem ist
bei einem einzigen Teilmodell keine suboptimale Modellkombination zur approximativen
Umsetzung der Inferenz erforderlich. Beide Aspekte können als Ursache dafür angesehen
werden, dass durch die Verwendung mehrerer Teilmodelle des SLDM keine Verringerung
der Wortfehlerrate erreicht werden konnte.
Bezüglich des Beobachtungsmodells konnte einerseits experimentell festgestellt werden,
dass mit dem rekursiven Beobachtungsmodell ähnliche Wortfehlerraten erzielt werden konn-
ten, wobei sowohl der Rechen- als auch Speicheraufwand im Vergleich zum nicht rekursi-
ven Beobachtungsmodell geringfügig reduziert werden konnten. Andererseits konnte eine
gewisse Robustheit der Merkmalsverbesserung gegenüber Schätzfehlern in den beiden Pa-
rametern der RIA experimentell festgestellt werden. Unter der Annahme eines annähernd
GAUSS-verteilten Schätzfehlers in der Nachhallzeit stieg die Wortfehlerrate beispielsweise
lediglich um 10 % an, wenn die Standardabweichung des Schätzfehlers approximativ 0,1 s
betrug.
Um den Erkenner auf nach der Merkmalsverbesserung noch vorhandene Artefakte an-
zupassen, wurden überdies Experimente durchgeführt, bei dem die für das Training des
Spracherkenners verwendeten Sprachsignale vorab künstlich verhallt und anschließend auf
Merkmalsebene wieder enthallt wurden, bevor das Training der akustischen Modelle des
Spracherkenners erfolgte. Dieses Vorgehen zeigte den größten Effekt bei der Verwendung
der Sprachdatenbank mit großem Vokabular, d. h. der AURORA4-Datenbank. Ein möglicher
Grund dafür könnte darin bestehen, dass sich Artefakte stärker auswirken, wenn zwischen
einer größeren Anzahl an Wörtern bei der Erkennung unterschieden werden muss. Bei der
AURORA5-Datenbank war deshalb nur eine geringe Wirkung zu beobachten.
In den abschließenden Experimenten zur gemeinsamen Enthallung und Entstörung der
akustischen Merkmale lieferten das rekursive und das nicht rekursive Beobachtungsmodell
sehr ähnliche Ergebnisse. Zusammenfassend lässt sich festhalten, dass sich die Leistungsfä-
higkeit der Merkmalsverbesserung mit sinkendem SNR deutlich verringerte. Konnten bei der
Ziffernkettenerkennung bei einem SNR von 15 dB noch etwa 65 % der durch den Nachhahll
und die Hintergrundstörungen eingeführten Fehler behoben werden, waren es bei einem SNR
von 0 dB nur noch etwa 30 %. Bei der Erkennung kontinuierlicher Sprache waren es dage-
gen maximal 53 % bei einem SNR von 15 dB und nur noch maximal 5 % bei einem SNR von
0 dB. Dieser Effekt besitzt hauptsächlich zwei Ursachen.
Zum einen ist das verwendete A-priori-Modell zur Beschreibung der Charakteristik der
128
Zusammenfassung und Ausblick
Störung relativ grob in der Hinsicht, als dass es nur stationäre Störungen vernünftig erfas-
sen kann. Da die verwendeten Signale der Hintergrundstörung jedoch einen vorwiegend in-
stationären Charakter aufwiesen, war die Modellierung der Störung überaus ungenau, was
sich am meisten bei niedrigen Werten des SNR bemerkbar machte. Als Ausblick in diesem
Zusammenhang ist eine Verbesserung des A-priori-Modells der Störung zu nennen, wovon
anzunehmen ist, dass dies deutlich zur Verbesserung der Leistungsfähigkeit der Merkmals-
verbesserung beitragen kann.
Zum anderen ist die Modellierung des Beobachtungsfehlers in Gegenwart von Hinter-
grundstörungen unzureichend, da dabei die Hintergrundstörung vollständig ignoriert wird.
Eine Möglichkeit der Verbesserung besteht in der Annahme eines Modells mit zeitvarian-
ten Parametern, deren Wahl beispielsweise abhängig von einer Schätzung des SNR gemacht
werden könnte.
Trotz beider Defizite übertraf die Leistungsfähigkeit des vorgestellten Verfahrens zur ge-
meinsamen Enthallung und Entstörung akustischer Merkmale bei hohen Werten des SNR die
des ETSI-AFE, welches ein renommiertes Verfahren zur Merkmalsentstörung darstellt.
A. Anhang
A.1. Herleitung des EM-Algorithmus zum Training von
SLDMs beliebiger Ordnung
In diesem Abschnitt werden die Rekursionsgleichungen zur Schätzung der SLDM-Parameter
θ
=µx,i,Σx,i,Ai,
ν
,bi,Vi,
ψ
i,ai,ki,k∈ {1,...,I},
ν
∈ {1,...,LAR}(A.1)
mit Hilfe von Trainingsdaten in Form einer Menge von unabhängigen Merkmalsvektorse-
quenzen Xgemäß dem EM-Algorithmus hergeleitet. Dabei wird ausgehend von einer initia-
len Parametermenge
θ
{0}iterativ eine Folge von Parametermengen n
θ
{l}l∈Nobestimmt.
Die Berechnung der Menge
θ
{l+1}vollzieht sich in zwei Teilschritten, dem Expectation- und
dem Maximization-Schritt, welche dem Algorithmus seinen Namen geben und im Folgenden
detailliert beschrieben werden. Die Herleitung ist stark angelehnt an diejenige in [Mur98],
wo jedoch nur der Fall der Modellordnung LAR =1 behandelt wird.
A.1.1. Expectation-Schritt
Im ersten Schritt wird der Erwartungswert der Loglikelihood der kompletten Daten beste-
hend aus der Menge der Merkmalsvektorsequenzen Xund der Menge der zugehörigen, nicht
beobachtbaren Zustandssequenzen Zbedingt auf Xund die zuvor berechnete Parametermen-
ge
θ
{l}gemäß
Ql+1(
θ
):=Ehlnnp˘
X,˘
Z(X,Z)oX;
θ
{l}i(A.2)
=∑
{Z}
ln{p(X,Z)}PZ|X;
θ
{l}.(A.3)
berechnet, wobei in (A.3) die Summation als Summation über alle möglichen Realisierungen
Zzu verstehen ist und im Sinne der Lesbarkeit die Indizes der Verteilungsdichtefunktionen
und der Wahrscheinlichkeitsmassefunktionen weggelassen wurden. Dabei wird der Erwar-
tungswert gebildet, um die Abhängigkeit der Loglikelihood von der nicht beobachtbaren und
daher unbekannten Menge der Zustandssequenzen Zzu eliminieren.
Unter Ausnutzung der Unabhängigkeit der Sprachäußerungen sowie der Definition des
129
130
Anhang
SLDM in (5.13) lässt sich die Loglikelihood der kompletten Daten gemäß
ln{p(X,Z)}=
N
∑
n=1
lnnpx(n)
1:Mn,
ζ
(n)
1:Mno (A.4)
=
N
∑
n=1(LAR
∑
m=1hlnnpx(n)
m
ζ
(n)
mo+lnnP
ζ
(n)
moi
+
Mn
∑
m=LAR+1hlnnpx(n)
mx(n)
m−LAR:m−1,
ζ
(n)
mo+lnnP
ζ
(n)
m
ζ
(n)
m−1oi)
(A.5)
ausdrücken. Der Erwartungswert der Loglikelihood (A.2) kann damit unter Verwendung von
(A.5) und der bereits in (5.26) und (5.27) definierten bedingten Zustandswahrscheinlichkei-
ten
η
(n,l)
m(i) = P
ζ
(n)
m=ix(n)
1:Mn;
θ
{l}(A.6)
ξ
(n,l)
m(k,i) = P
ζ
(n)
m=i,
ζ
(n)
m−1=kx(n)
1:Mn;
θ
{l}(A.7)
gemäß
Ql+1(
θ
)
=
N
∑
n=1∑
n
ζ
(n)
1:Mno
lnnpx(n)
1:Mn,
ζ
(n)
1:MnoP
ζ
(n)
1:Mnx(n)
1:Mn;
θ
{l}(A.8)
=
N
∑
n=1(LAR
∑
m=1
I
∑
i=1
P
ζ
(n)
m=ix(n)
1:Mn;
θ
{l}lnnpx(n)
m
ζ
(n)
m=io+lnnP
ζ
(n)
m=io
+
Mn
∑
m=LAR+1
I
∑
i=1P
ζ
(n)
m=ix(n)
1:Mn;
θ
{l}lnnpx(n)
mx(n)
m−LAR:m−1,
ζ
(n)
m=io
+
I
∑
k=1
P
ζ
(n)
m=i,
ζ
(n)
m−1=kx(n)
1:Mn;
θ
{l}lnnP
ζ
(n)
m=i
ζ
(n)
m−1=ko).
(A.9)
=
N
∑
n=1(LAR
∑
m=1
I
∑
i=1
η
(n,l)
m(i)lnnpx(n)
m
ζ
(n)
m=io+ln{
ψ
i}
+
Mn
∑
m=LAR+1
I
∑
i=1
η
(n,l)
m(i)lnnpx(n)
mx(n)
m−LAR:m−1,
ζ
(n)
m=io
+
I
∑
k=1
ξ
(n,l)
m(k,i)lnak,i).(A.10)
formuliert werden. Ersetzt man in einem letzten Schritt noch die verbleibenden Verteilungs-
dichtefunktionen px(n)
m
ζ
(n)
m=iund px(n)
mx(n)
m−LAR:m−1,
ζ
(n)
m=idurch die gemäß der
Anhang
131
Definition des SLDM gegebenen Ausdrücke in (5.13), so erhält man das endgültige Resultat
Ql+1(
θ
)
=
N
∑
n=1(LAR
∑
m=1
I
∑
i=1
η
(n,l)
m(i)lnnNx(n)
m;µx,i,Σx,io+ln{
ψ
i}
+
Mn
∑
m=LAR+1
I
∑
i=1
η
(n,l)
m(i)ln(N x(n)
m;
LAR
∑
ν
=1
Ai,
ν
x(n)
m−
ν
+bi,Vi!)
+
I
∑
k=1
ξ
(n,l)
m(k,i)lnak,i)(A.11)
=
N
∑
n=1(LAR
∑
m=1
I
∑
i=1
η
(n,l)
m(i)−1
2x(n)
m−µx,iT
Σ−1
x,ix(n)
m−µx,i
+Qln(2
π
)+ln(det{Σx,i})+ln{
ψ
i}
+
Mn
∑
m=LAR+1
I
∑
i=1
η
(n,l)
m(i)
·−1
2 x(n)
m−
LAR
∑
ν
=1
Ai,
ν
x(n)
m−
ν
−bi!T
V−1
i x(n)
m−
LAR
∑
ν
=1
Ai,
ν
x(n)
m−
ν
−bi!
+Qln(2
π
)+ln(det{Vi})!+
I
∑
k=1
ξ
(n,l)
m(k,i)lnak,i),
(A.12)
wobei det{·}die Determinante einer Matrix bezeichnet. Die in diesem Ausdruck auftreten-
den bedingten Zustandswahrscheinlichkeiten
η
(n,l)
m(i)und
ξ
(n,l)
m(k,i)lassen sich sehr effi-
zient durch eine modifizierte Version des BAUM-WELCH-Algorithmus [RJ93], welche im
nächsten Unterabschnitt detailliert beschrieben wird, berechnen.
Berechnung der bedingten Zustandswahrscheinlichkeiten
Gemäß der Idee des BAUM-WELCH-Algorithmus [RJ93] werden die bedingten Zustands-
wahrscheinlichkeiten
η
(n,l)
m(i)und
ξ
(n,l)
m(k,i), die in (5.26) und (5.27) definiert sind, mit
Hilfe der sogenannten Vorwärts- und Rückwärtswahrscheinlichkeiten
α
(n,l)
m(i):=px(n)
1:m,
ζ
(n)
m=i
θ
{l}für 1 ≤m≤Mn(A.13)
β
(n,l)
m(i):=px(n)
m+1:Mnx(n)
m−LAR+1:m,
ζ
(n)
m=i;
θ
{l}für 1 ≤m≤Mn(A.14)
132
Anhang
gemäß
η
(n,l)
m(i) =
p
ζ
(n)
m=i,x(n)
1:Mn
θ
{l}
px(n)
1:Mn(A.15)
∝px(n)
1:m,x(n)
m+1:Mn,
ζ
(n)
m=i
θ
{l}(A.16)
∝px(n)
m+1:Mnx(n)
1:m,
ζ
(n)
m=i;
θ
{l}px(n)
1:m,
ζ
(n)
m=i
θ
{l}(A.17)
∝px(n)
m+1:Mnx(n)
m−LAR+1:m,
ζ
(n)
m=i;
θ
{l}px(n)
1:m,
ζ
(n)
m=i
θ
{l}(A.18)
∝
β
(n,l)
m(i)
α
(n,l)
m(i)für 1 ≤m≤Mn(A.19)
und
ξ
(n,l)
m(k,i)(A.20)
=
p
ζ
(n)
m=i,
ζ
(n)
m−1=k,x(n)
1:m,x(n)
m+1:Mn
θ
{l}
px(n)
1:Mn(A.21)
∝px(n)
m:Mn,
ζ
(n)
m=i
ζ
(n)
m−1=k,x(n)
1:m−1;
θ
{l}p
ζ
(n)
m−1=k,x(n)
1:m−1
θ
{l}(A.22)
∝px(n)
m:Mn
ζ
(n)
m=i,
ζ
(n)
m−1=k,x(n)
1:m−1;
θ
{l}
·p
ζ
(n)
m=i
ζ
(n)
m−1=k,x(n)
1:m−1;
θ
{l}
α
(n,l)
m−1(k)(A.23)
∝px(n)
m+1:Mn
ζ
(n)
m=i,
ζ
(n)
m−1=k,x(n)
1:m;
θ
{l}
·px(n)
m
ζ
(n)
m=i,
ζ
(n)
m−1=k,x(n)
1:m−1;
θ
{l}a{l}
k,i
α
(n,l)
m−1(k)(A.24)
∝px(n)
m+1:Mnx(n)
m−LAR+1:m,
ζ
(n)
m=i;
θ
{l}
·px(n)
mx(n)
m−LAR:m−1,
ζ
(n)
m=i;
θ
{l}a{l}
k,i
α
(n,l)
m−1(k)(A.25)
∝
β
(n,l)
m(i)px(n)
mx(n)
m−LAR:m−1,
ζ
(n)
m=i;
θ
{l}a{l}
k,i
α
(n,l)
m−1(k)für LAR +1≤m≤Mn
(A.26)
ausgedrückt. Dabei ist zu berücksichtigen, dass hier und im weiteren Verlauf des Anhangs
im Sinne einer besseren Lesbarkeit darauf verzichtet wurde, die Segmentindizes zur Kenn-
zeichnung des zeitlichen Anfanges und Endes von Merkmalsvektorsequenzen derart zu be-
schränken, dass sie stets positiv sind. Im Falle von auftretenden nicht positiven Segmentin-
dizes existieren die entsprechenden Merkmalsvektorsequenzen offensichtlich nicht und sind
deshalb zu ignorieren.
Die zur eindeutigen Berechnung notwendigen Proportionalitätskonstanten lassen sich aus
Anhang
133
den beiden Normierungsbedingungen
I
∑
i=1
η
(n,l)
m(i) = 1 (A.27)
I
∑
k=1
ξ
(n,l)
m(k,i) =
η
(n,l)
m(i)(A.28)
bestimmen.
Der Vorteil der beiden Darstellungen (A.19) und (A.26) besteht nun darin, dass sich so-
wohl die Vorwärts- als auch Rückwärtswahrscheinlichkeiten rekursiv berechnen lassen. Da-
zu werden zunächst die Vorwärtswahrscheinlichkeiten für 1 ≤m≤LAR und i∈ {1,..., I}
durch
α
(n,l)
m(i) = px(n)
1:m
ζ
(n)
m=i;
θ
{l}P
ζ
(n)
m=i
θ
{l}="m
∏
m′=1
Nx(n)
m′;µ{l}
x,i,Σ{l}
x,i#
ψ
{l}
i
(A.29)
initialisiert. Anschließend wird ihre Berechnung für m=LAR +1,...,Mnund i∈ {1,...,I}
gemäß der Rekursion
α
(n,l)
m(i) = px(n)
1:m,
ζ
(n)
m=i
θ
{l}(A.30)
=
I
∑
k=1
px(n)
1:m,
ζ
(n)
m=i,
ζ
(n)
m−1=k
θ
{l}(A.31)
=
I
∑
k=1
px(n)
m
ζ
(n)
m=i,
ζ
(n)
m−1=k,x(n)
1:m−1;
θ
{l}
·P
ζ
(n)
m=i
ζ
(n)
m−1=k,x(n)
1:m−1;
θ
{l}P
ζ
(n)
m−1=k,x(n)
1:m−1
θ
{l}(A.32)
=
I
∑
k=1
px(n)
mx(n)
m−LAR:m−1,
ζ
(n)
m=i;
θ
{l}a{l}
k,i
α
(n,l)
m−1(k)(A.33)
=
I
∑
k=1
N x(n)
m;
LAR
∑
ν
=1
A{l}
i,
ν
x(n)
m−
ν
+b{l}
i,V{l}
i!a{l}
k,i
α
(n,l)
m−1(k)(A.34)
durchgeführt, wobei für die letzte Umformung (5.13) verwendet wurde.
Die Initialisierung der Rückwärtswahrscheinlichkeiten für i∈ {1,...,I}erfolgt durch
β
(n,l)
Mn(i) = 1.(A.35)
134
Anhang
Da sich die Rückwärtswahrscheinlichkeiten
β
(n,l)
m(i)für m=Mn−1,...,1 gemäß
β
(n,l)
m(i) = px(n)
m+1:Mnx(n)
m−LAR+1:m,
ζ
(n)
m=i;
θ
{l}(A.36)
=
I
∑
k=1
px(n)
m+1:Mnx(n)
m−LAR+1:m,
ζ
(n)
m=i,
ζ
(n)
m+1=k;
θ
{l}
·P
ζ
(n)
m+1=kx(n)
m−LAR+1:m,
ζ
(n)
m=i;
θ
{l}(A.37)
=
I
∑
k=1
px(n)
m+2:Mnx(n)
m−LAR+1:m+1,
ζ
(n)
m=i,
ζ
(n)
m+1=k;
θ
{l}
·px(n)
m+1x(n)
m−LAR+1:m,
ζ
(n)
m=i,
ζ
(n)
m+1=k;
θ
{l}
·P
ζ
(n)
m+1=kx(n)
m−LAR+1:m,
ζ
(n)
m=i;
θ
{l}(A.38)
=
I
∑
k=1
px(n)
m+2:Mnx(n)
m−LAR+2:m+1,
ζ
(n)
m+1=k;
θ
{l}
·px(n)
m+1x(n)
m−LAR+1:m,
ζ
(n)
m+1=k;
θ
{l}
·P
ζ
(n)
m+1=kx(n)
m−LAR+1:m,
ζ
(n)
m=i;
θ
{l}(A.39)
=
I
∑
k=1
β
(n,l)
m+1(k)px(n)
m+1x(n)
m−LAR+1:m,
ζ
(n)
m+1=k;
θ
{l}
·P
ζ
(n)
m+1=kx(n)
m−LAR+1:m,
ζ
(n)
m=i;
θ
{l}(A.40)
audrücken lassen, ergibt sich daraus unter Verwendung des Modells (5.13) folgende Rekur-
sionsvorschrift:
β
(n,l)
m(i) =
I
∑
k=1
β
(n,l)
m+1(k)Nx(n)
m+1;LAR
∑
ν
=1
A{l}
k,
ν
x(n)
m+1−
ν
+b{l}
k,V{l}
ka{l}
i,kfür m≥LAR
I
∑
k=1
β
(n,l)
m+1(k)Nx(n)
m+1;µ{l}
x,k,Σ{l}
x,k
ψ
kfür m<LAR
.
(A.41)
Aus der Definition der Vorwärtswahrscheinlichkeiten in (A.13) folgt weiterhin, dass sich
die Likelihood für die n-te Merkmalsvektorsequenz mit ihrer Kenntnis gemäß
px(n)
1:Mn
θ
{l}=
I
∑
i=1
α
(n,l)
Mn(i)(A.42)
berechnen lässt. Weiterhin soll an dieser Stelle bemerkt werden, dass die Vorwärts- bzw.
Rückwärtswahrscheinlichkeiten für wachsenden bzw. sinkende Segmentindizes approxima-
tiv exponentiell abnehmen und deshalb sehr kleine Werte annehmen können, so dass es sinn-
voll ist, die Berechnung beider im logarithmischen Bereich durchzuführen.
Anhang
135
A.1.2. Maximization-Schritt
Die Parametermenge
θ
{l+1}wird nun im zweiten Schritt durch die Maximierung des Erwar-
tungswertes der Loglikelihood gemäß
θ
{l+1}=argmax
θ
Ql+1(
θ
)(A.43)
bestimmt. Es kann gezeigt werden, dass die lokalen Maximumstellen von Ql+1(
θ
)gleich-
zeitig auch globale sind. Deshalb kann die Parametermenge
θ
{l+1}durch die Suche der
Nullstellen der partiellen Ableitungen von Ql+1(
θ
)nach den Komponenten von
θ
ermittelt
werden.
Für diesen Zweck werden folgende Ableitungsregeln herangezogen, die für Vektoren a,b
∈RQund Matrizen A,B∈RQ×Qgelten, wobei Aals symmetrisch und positiv definit vor-
ausgesetzt wird [PP08, (51), (64), (78), (80)]:
∂
ln(det{A})
∂
A=A−1(A.44)
∂
aTAa
∂
A=aaT(A.45)
∂
(a−b)TA(a−b)
∂
bT=−2A(a−b)(A.46)
∂
(a−Bb)TA(a−Bb)
∂
B=−2A(a−Bb)bT.(A.47)
Bildet man die partielle Ableitung von Ql+1(
θ
)nach µT
x,iunter Verwendung von (A.46),
so erhält man
∂
Ql+1(
θ
)
∂
µT
x,i
=Σ−1
x,i
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)x(n)
m−µ{l}
x,i.(A.48)
Aus der Bedingung
∂
Ql+1(
θ
)
∂
µT
x,iµx,i=µ{l+1}
x,i
=0folgt:
µ{l+1}
x,i=
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)x(n)
m
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)
.(A.49)
Die partielle Ableitungen von Ql+1(
θ
)nach Σ−1
x,iund V−1
iergeben sich mit Berücksichti-
gung von (A.44), (A.45), der Tatsache, dass beide Matrizen Σx,iund Visymmetrisch positiv
definit sind, und
ln(det{A}) = −lndetA−1 (A.50)
136
Anhang
zu
∂
Ql+1(
θ
)
∂
Σ−1
x,i
=−1
2
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)x(n)
m−µ{l}
x,ix(n)
m−µ{l}
x,iT−Σx,i(A.51)
∂
Ql+1(
θ
)
∂
V−1
i
=−1
2
N
∑
n=1
Mn
∑
m=LAR+1
η
(n,l)
m(i)
·
x(n)
m−
LAR
∑
ν
=1
A{l}
i,
ν
x(n)
m−
ν
−b{l}
i! x(n)
m−
LAR
∑
ν
=1
A{l}
i,
ν
x(n)
m−
ν
−b{l}
i!T
−Vi
.
(A.52)
Die beiden Bedingungen
∂
Ql+1(
θ
)
∂
Σ−1
x,iΣx,i=Σ{l+1}
x,i
=0und
∂
Ql+1(
θ
)
∂
V−1
iVi=V{l+1}
i
=0liefern
Σ{l+1}
x,i=
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)x(n)
m−µ{l}
x,ix(n)
m−µ{l}
x,iT
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)
(A.53)
V{l+1}
i=
N
∑
n=1
Mn
∑
m=LAR+1
η
(n,l)
m(i)x(n)
m−
LAR
∑
ν
=1
A{l}
i,
ν
x(n)
m−
ν
−b{l}
ix(n)
m−
LAR
∑
ν
=1
A{l}
i,
ν
x(n)
m−
ν
−b{l}
iT
N
∑
n=1
Mn
∑
m=LAR+1
η
(n,l)
m(i)
.
(A.54)
Schließlich sind die partiellen Ableitungen von Ql+1(
θ
)nach bT
iund Ai,odurch
∂
Ql+1(
θ
)
∂
bT
i
=V−1
i
N
∑
n=1
Mn
∑
m=LAR+1
η
(n,l)
m(i) x(n)
m−
LAR
∑
ν
=1
Ai,
ν
x(n)
m−
ν
−bi!(A.55)
∂
Ql+1(
θ
)
∂
Ai,o=V−1
i
N
∑
n=1
Mn
∑
m=LAR+1
η
(n,l)
m(i) x(n)
m−
LAR
∑
ν
=1
Ai,
ν
x(n)
m−
ν
−bi!x(n)
m−oT(A.56)
gegeben, was aus (A.46) und (A.47) folgt. Die Bedingungen
∂
Ql+1(
θ
)
∂
bT
ibi=b{l+1}
i
=0und
∂
Ql+1(
θ
)
∂
Ai,oAi,o=A{l+1}
i,o
=0für o∈ {1,...,LAR}führen zu einem linearen Gleichungssystem,
welches mit den abkürzenden Bezeichnungen
Dx{l}(i)E[
ν
,o]
m′:m′′ =
N
∑
n=1
m′′
∑
m=m′
η
(n,l)
m(i)x(n)
m−
ν
x(n)
m−oT(A.57)
Dx{l}(i)E[
ν
]
m′:m′′ =
N
∑
n=1
m′′
∑
m=m′
η
(n,l)
m(i)x(n)
m−
ν
(A.58)
Anhang
137
sowie den Matrizen
G{l}
i=
Dx{l}(i)E[1,1]
LAR+1:Mn
... Dx{l}(i)E[1,LAR]
LAR+1:MnDx{l}(i)E[1]
LAR+1:Mn
.
.
.....
.
..
.
.
Dx{l}(i)E[LAR,1]
LAR+1:Mn
... Dx{l}(i)E[LAR,LAR]
LAR+1:MnDx{l}(i)E[LAR]
LAR+1:Mn
Dx{l}(i)E[1]
LAR+1:MnT
... Dx{l}(i)E[LAR]
LAR+1:MnTN
∑
n=1
Mn
∑
m=LAR+1
1
(A.59)
und
H{l}
i=
Dx{l}(i)E[1,0]
LAR+1:Mn
.
.
.
Dx{l}(i)E[LAR,0]
LAR+1:Mn
Dx{l}(i)E[0]
LAR+1:MnT
(A.60)
wie folgt geschrieben werden kann:
G{l}
i
A{l+1}
i,1T
.
.
.
A{l+1}
i,LAR T
(bi)T
=H{l}
i.(A.61)
Dazu ist zu bemerken, dass für den Fall, dass der Rang von G{l}
i∈R(LARQ+1)×(LARQ+1)klei-
ner als LARQ+1 ist, bekanntlich unendlich viele Lösungen von (5.33) existieren. Da die Lö-
sungsmenge aber zusammenhängend ist und für jede Lösung die entsprechenden partiellen
Ableitungen verschwinden, ist jede Lösung auch eine lokale Maximumstelle von Ql+1(
θ
).
In der Praxis wird der Einfachheit halber oft die Lösung mit der geringsten euklidischen
Norm verwendet.
Die Maximierung von Ql+1(
θ
)bezüglich der Parameter
ψ
iund ak,imuss unter Einhaltung
der beiden Nebenbedingungen
I
∑
k=1
ψ
k=1 (A.62)
I
∑
i′=1
ak,i′=1 für k∈ {1,...,I}(A.63)
erfolgen, welche jeweils über die LAGRANGE-Multiplikatoren
λ
1und
λ
2berücksichtigt wer-
138
Anhang
den, so dass sich die beiden Bedingungen
∂
∂ψ
i"Ql+1(
θ
)+
λ
1 I
∑
k=1
ψ
k−1!#
ψ
i=
ψ
{l+1}
i
=
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)1
ψ
{l+1}
i
+
λ
1=0
(A.64)
∂
∂
ak,i"Ql+1(
θ
)+
λ
2 I
∑
i′=1
ak,i′−1!#ak,i=a{l+1}
k,i
=
N
∑
n=1
Mn
∑
m=LAR+1
ξ
(n,l)
m(k,i)1
a{l+1}
k,i
+
λ
2=0
(A.65)
ergeben. Löst man die Gleichungen nach den gesuchten Parameter auf, so erhält man
ψ
{l+1}
i=−
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)
λ
1
(A.66)
a{l+1}
k,i=−
N
∑
n=1
Mn
∑
LAR+1
ξ
(n,l)
m(k,i)
λ
2
.(A.67)
Die unbekannten LAGRANGE-Multiplikatoren können mit Hilfe der Summation von (A.66)
und (A.67) über iunter Ausnutzung von (A.62), (A.27), (A.63) und (A.28) gemäß
1=
I
∑
i=1
ψ
{l+1}
i=−
N
∑
n=1
LAR
∑
m=1
I
∑
i=1
η
(n,l)
m(i)
λ
1
=−N·LAR
λ
1
(A.68)
1=
I
∑
i=1
a{l+1}
k,i=−
N
∑
n=1
Mn
∑
LAR+1
I
∑
i=1
ξ
(n,l)
m(k,i)
λ
2
=−
N
∑
n=1
Mn
∑
LAR+1
η
(n,l)
m−1(k)
λ
2
(A.69)
ermittelt werden. Setzt man die resultierenden Lösungen für die LAGRANGE-Multiplikatoren
λ
1=−N·LAR (A.70)
λ
2=−
N
∑
n=1
Mn
∑
LAR+1
η
(n,l)
m−1(k)(A.71)
in (A.66) und (A.67) ein, gelangt man zu den gesuchten Parametern:
ψ
{l+1}
i=
N
∑
n=1
LAR
∑
m=1
η
(n,l)
m(i)
N·LAR
(A.72)
a{l+1}
k,i=
N
∑
n=1
Mn
∑
m=LAR+1
ξ
(n,l)
m(k,i)
N
∑
n=1
Mn
∑
m=LAR+1
η
(n,l)
m−1(k)
.(A.73)
Damit sind alle Komponenten von
θ
{l+1}bestimmt und die (l+1)-te Iteration des EM-
Algorithmus ist abgeschlossen.
Anhang
139
A.2. Herleitungen und Beweise zum Beobachtungsmodell
A.2.1. Eigenschaften und Berechnung des Synthesefensters
Möchte man ein Signal gemäß (5.88) aus seinem Kurzzeit-Spektrum berechnen, wird ein
Synthesefenster wS(l′)benötigt, welches die sogenannte Vollständigkeitsbedingung (5.85)
erfüllt. An dieser Stelle soll gezeigt werden, dass sich diese Vollständigkeitsbedingung zu
(5.87) vereinfacht, falls das Synthesefenster den gleichen Träger wie das Analysefenster
besitzt, d.h. falls (5.86) erfüllt ist.
Dazu wird zunächst (5.85) gemäß
K−1
∑
k=0
ej2
π
Kk(l−p′)!∞
∑
m=−∞
wS(l−mB)wA(p′−mB) =
δ
l−p′für l,p′∈Z(A.74)
umformuliert. Da das Analyse- und Synthesefenster den gleichen Träger besitzen, d.h. dass
(2.1) und (5.86) erfüllt sind, folgt ∀B∈Z
wS(l−mB)wA(p′−mB) = 0 für l−p′≥Lw.(A.75)
Damit ist (A.74) für |l−p′|≥Lwohnehin erfüllt, so dass nur noch
K−1
∑
k=0
ej2
π
Kk(l−p′)!∞
∑
m=−∞
wS(l−mB)wA(p′−mB) =
δ
l−p′für l−p′<Lw
(A.76)
zu erfüllen ist. Unter Beachtung der Summenorthogonalität
1
K
K−1
∑
k=0
ej2
π
Kk
µ
=
∞
∑
ν
=−∞
δ
(
µ
−
ν
K)für
µ
∈Z,K∈N(A.77)
und der Bedingung Lw≤Kfolgt, dass (A.76) auch für l6=p′erfüllt ist. Daher verbleibt nur
noch die Bedingung
∞
∑
m=−∞
wS(l−mB)wA(l−mB) = 1
Kfür l∈Z.(A.78)
Da der linke Ausdruck in (A.78) die Periode Bbezüglich lbesitzt, genügt es, dass (A.78) nur
für alle linnerhalb einer Periode erfüllt wird, so dass schließlich das zu zeigende Ergebnis
∞
∑
m=−∞
wS(l−mB)wA(l−mB) = 1
Kfür 0 ≤l<B(A.79)
resultiert. Bedingt durch den Träger des Analyse- und Synthesefensters (siehe (2.1) und
(5.86)) beinhaltet die Summe im linken Ausdruck von (A.79) nur endlich viele Summan-
den ungleich Null. Daher kann (A.79) auch äquivalent durch
α
∑
m=0
wS(l−mB)wA(l−mB) = 1
Kfür 0 ≤l<B(A.80)
140
Anhang
mit
α
:=Lw
B(A.81)
ausgedrückt werden. An der Symmetrie dieser Bedingung bezüglich der Fenster erkennt
man, dass die Bestimmung eines Synthesefensters zu einem gegebenen Analysefenster völlig
analog zur Bestimmung eines Analysefensters zu einem gegebenen Synthesefenster verläuft.
Übrigens lässt sich die Bedingung (A.79) auch dadurch herleiten, dass (5.88) unter An-
wendung der inversen diskreten FOURIER-Transformation (engl. Inverse Discrete FOURIER
Transform (IDFT)) und durch Anwendung des Verschiebungssatzes gemäß
1
K
K−1
∑
k=0
Y(m,k)·ej2
π
Kk(l−mB)=ywA(m,l−mB),(A.82)
wie folgt umformuliert wird
y(l) =
∞
∑
m=−∞
wS(l−mB)KywA(m,l−mB)(A.83)
=y(l)
∞
∑
m=−∞
wS(l−mB)KwA(l−mB).(A.84)
Zur Berechnung eines Synthesefensters lässt sich die Bedingung (A.80) in Matrixschreib-
weise wie folgt ausdrücken
WAwS=1
K1,(A.85)
wobei
1:= (1,...,1)T∈RB(A.86)
wS:= (wS(0),...,wS(Lw−1))T∈RLw(A.87)
WA:=W(1)
A,...,W(
α
+1)
A∈RB×Lw(A.88)
mit
W(i)
A:=
diag{wA((i−1)B),...,wA(iB−1)}∈RB×Bfür 1 ≤i≤
α
"diag{wA(
α
B),...,wA(Lw−1)}
0#∈RB×(Lw−
α
B)für i=
α
+1.(A.89)
An dieser Stelle wird erkennbar, dass das Synthesefenster im Allgemeinen nicht eindeutig ist,
da das Gleichungssystem unterbestimmt ist. Unter der Annahme, dass WAWT
Anicht singulär
ist, lässt sich jedoch die Lösung mit kleinster ℓ2-Norm durch
wS,ℓ2=1
KWT
AWAWT
A−11(A.90)
Anhang
141
bestimmen. Unter Berücksichtigung von
WAWT
A−1=diag1
∑
α
m=0w2
A(mB),..., 1
∑
α
m=0w2
A(B−1+mB)∈RB×B,(A.91)
lässt sich (A.90) äquivalent durch
wS,ℓ2=1
KwA(0)
∑
α
m=0w2
A(mB),..., wA(B−1)
∑
α
m=0w2
A(B−1+mB),...,
wA((
α
−1)B)
∑
α
m=0w2
A(mB),..., wA(
α
B−1)
∑
α
m=0w2
A(B−1+mB),
wA(
α
B)
∑
α
m=0w2
A(mB),..., wA(Lw−1)
∑
α
m=0w2
A(Lw−1−
α
B+mB)T
.(A.92)
ausdrücken.
A.2.2. Stauchungssatz für die zeitdiskrete FOURIER-Transformation
Satz 1. Sei x(l)ein zeitdiskretes Signal, welches die zeitdiskrete FOURIER-Transformation
Xej
θ
besitzt. Betrachtet werde nun ein weiteres zeitdiskretes Signal y(l):=x(lB), welches
durch Abtastung von x(l)mit der Abtastfrequenz 1
B, B ∈N, entsteht. Dessen zeitdiskrete
FOURIER-Transformation Y ej
θ
hängt dabei mit X ej
θ
wie folgt zusammen:
Yej
θ
=1
B
B−1
∑
m=0
Xej1
B(
θ
−2
π
m).(A.93)
Beweis. Die inverse zeitdiskrete FOURIER-Transformation von Yej
θ
ist durch
y(l) = 1
2
π
π
Z
−
π
Yej
θ
ej
θ
ld
θ
(A.94)
gegeben. Setzt man (A.93) in (A.94) ein, so folgt
y(l) = 1
2
π
π
Z
−
π
1
B
B−1
∑
m=0
Xej1
B(
θ
−2
π
m)ej
θ
ld
θ
.(A.95)
Unter Verwendung der Variablensubstitution
φ
:=1
B(
θ
−2
π
m)erhält man
y(l) = 1
2
π
Z1
B(
π
−2
π
m)
1
B(−
π
−2
π
m) 1
B
B−1
∑
m=0
Xej
φ
ej(B
φ
+2
π
m)l!Bd
φ
(A.96)
=1
2
π
B−1
∑
m=0Z1
B(
π
−2
π
m)
1
B(−
π
−2
π
m)
Xej
φ
ej
φ
Bld
φ
.(A.97)
142
Anhang
Beachtet man schließlich, dass die Grenzen der Integrale der Summanden jeweils aneinander
stoßen, gelangt man zum gesuchten Ergebnis
y(l) = 1
2
π
π
Z
−
π
Xej
φ
ej
φ
Bld
φ
(A.98)
=x(lB).(A.99)
A.2.3. Zusammenhang zwischen der Abklingkonstanten und der
Nachhallzeit
In diesem Abschnitt wird ein Zusammenhang zwischen der mittleren Nachhallzeit T60 und
der Abklingkonstanten
τ
hhergeleitet, falls die Raumimpulsantwort einen Zufallsprozess dar-
stellt, welcher durch (5.141) gegeben ist.
Die Nachhallzeit T60 ist als diejenige Zeit definiert, die benötigt wird, damit die Energie
der Raumimpulsantwort um 60dB abklingt. Nimmt man zur Vereinfachung bei der Behand-
lung von zeitdiskreten Signalen an, dass die Nachhallzeit T60 ein Vielfaches der Abtastdauer
TAdarstellt, d.h. T60 =l0TAmit l0∈N, so muss l0die Bedingung
10log10
E∞
∑
l′=l
h2(l′)
E∞
∑
l′=0
h2(l′)
=−60 (A.100)
erfüllen. In Anbetracht der Tatsache, dass es sich bei der Raumimpulsantwort nach Modell
(5.141) um einen Zufallsprozess handelt, werden in (A.100) die Erwartungswerte der Ener-
gien verwendet.
Unter Verwendung von (5.146) und der Annahme, dass der Erwartungswert und der Limes
vertauscht werden dürfen, erhält man
E"∞
∑
l′=l
˘
h2(l′)#=E"∞
∑
l′=0
˘
h2(l′)#−E"l−1
∑
l′=0
˘
h2(l′)#(A.101)
=lim
Lh→∞E"Lh−1
∑
l′=0
˘
h2(l′)#−E"l−1
∑
l′=0
˘
h2(l′)#(A.102)
=lim
Lh→∞
σ
2
h·e−2Lh
τ
h−1
e−2
τ
h−1
−
σ
2
h·e−2l
τ
h−1
e−2
τ
h−1
(A.103)
=
σ
2
h·e−2l
τ
h
1−e−2
τ
h
.(A.104)
Damit lässt sich der linke Term in (A.100) durch
10log10
E∞
∑
l′=l
h2(l′)
E∞
∑
l′=0
h2(l′)
=10·log10 e−2l0
τ
h=10·−2l0
τ
h
ln(10)(A.105)
Anhang
143
ausdrücken, so dass nach dem Umstellen nach l0die Bedingung
l0=3
τ
hln(10)(A.106)
folgt. Nach einer Multiplikation beider Seite von (A.106) mit der Abtastdauer TAergibt sich
der gesuchte Zusammenhang
T60 =l0TA=3TA
τ
hln(10).(A.107)
A.2.4. Herleitung der Erwartungswerte und Varianzen der
Koeffizienten der Raumimpulsantwort im MEL-spektralen
Bereich
In diesem Abschnitt werden die Erwartungswerte
µ
˘
¯
Hm′,qsowie Varianzen
σ
2˘
¯
Hm′,q
der Ko-
effizienten der Raumimpulsantwort im MEL-spektralen Bereich ¯
Hm′unter Annahme des
vereinfachten Modells der Raumimpulsantwort (5.141) hergeleitet.
Für den Mittelwert ergibt sich zunächst gemäß der Definitionen (5.149) und (5.122)
µ
˘
¯
Hm′,q=Eh˘
¯
Hm′,qi=1
K(o)
q−K(u)
q+1
K(o)
q
∑
k=K(u)
q
Eh˘
hk,k(m′)2i.(A.108)
Der Erwartungswert des Betragsquadrates der Band-zu-Band-Filter lässt sich mit Hilfe von
(5.140) und des Modells der Raumimpulsantwort (5.141) gemäß
Eh˘
hk,k(m′)2i=E
Lw−1
∑
p′=−Lw+1
w(p′)˘
h(m′B+p′)e−j2
π
Kkp′
2
(A.109)
=E
Lw−1
∑
p′=−Lw+1
w(p′)·
σ
h·˘vh(m′B+p′)·
χ
h(m′B+p′)·e−m′B+p′
τ
he−j2
π
Kkp′
2
(A.110)
formulieren. Unter Verwendung der Abkürzungen
δ
m′,p′,k:=
σ
h·
χ
h(m′B+p′)·e−m′B+p′
τ
hw(p′)e−j2
π
Kkp′(A.111)
δ
m′,p′:=
δ
m′,p′,k=
σ
h·
χ
h(m′B+p′)·e−m′B+p′
τ
hw(p′)(A.112)
˘
ν
m′,p′:=˘vh(m′B+p′)(A.113)
und der Korrelationsfunktion (5.142) des der Raumimpulsantwort zugrunde liegenden wei-
ßen, GAUSS’schen Zufallsprozesses ˘vh(l)lässt sich dieser Ausdruck zu
Eh˘
hk,k(m′)2i=E
Lw−1
∑
p′=−Lw+1
δ
m′,p′,k˘
ν
m′,p′
2
=
Lw−1
∑
p′=−Lw+1
δ
m′,p′,k2=
Lw−1
∑
p′=−Lw+1
δ
2
m′,p′
(A.114)
144
Anhang
vereinfachen. Aufgrund der offensichtlichen Frequenzunabhängigkeit dieses Terms folgt für
den Mittelwert
µ
˘
¯
Hm′,qmit (A.108)
µ
˘
¯
Hm′,q=
Lw−1
∑
p′=−Lw+1
δ
2
m′,p′.(A.115)
Für die Varianz
σ
2˘
¯
Hm′,q
erhält man mit der Definition (5.150) und der Ausnutzung der
Linearität des Erwartungswertes
σ
2˘
¯
Hm′,q
=E"˘
¯
Hm′,q−
µ
˘
¯
Hm′,q2#=E˘
¯
Hm′,q2−
µ
˘
¯
Hm′,q2
,(A.116)
wobei sich E˘
¯
Hm′,q2mit Hilfe von (5.122) gemäß
E˘
¯
Hm′,q2= 1
K(o)
q−K(u)
q+1!2K(o)
q
∑
k=K(u)
q
K(o)
q
∑
k′=K(u)
q
Eh˘
hk,k(m′)2˘
hk′,k′(m′)2i(A.117)
ausdrücken lässt. Dabei lassen sich die einzelnen Summanden mit (5.140) und den Abkür-
zungen (A.111) und (A.113) durch
Eh˘
hk,k(m′)2˘
hk′,k′(m′)2i
=E
Lw−1
∑
p′=−Lw+1
δ
m′,p′,k˘
ν
m′,p′
2
Lw−1
∑
p′′=−Lw+1
δ
m′,p′′,k′˘
ν
m′,p′′
2
(A.118)
=
Lw−1
∑
p′,p′′,p′′′,p′′′′=−Lw+1
δ
m′,p′,k
δ
∗
m′,p′′,k
δ
m′,p′′′,k′
δ
∗
m′,p′′′′,k′E˘
ν
m′,p′˘
ν
m′,p′′ ˘
ν
m′,p′′′ ˘
ν
m′,p′′′′ (A.119)
beschreiben. Unter Berücksichtigung der Tatsache, dass es sich bei ˘vh(l)um einen weißen,
GAUSS’schen Zufallsprozess mit der Autokorrelationsfunktion (5.142) handelt, folgt mit der
Definition (A.113) und [Iss18]
E˘
ν
m′,p′˘
ν
m′,p′′ ˘
ν
m′,p′′′ ˘
ν
m′,p′′′′ =
3 für p′=p′′ =p′′′ =p′′′′
1 für (p′′ =p′∧p′′′′ =p′′′ ∧p′′′ 6=p′)
∨(p′′′ =p′∧p′′′′ =p′′ ∧p′′ 6=p′)
∨(p′′′′ =p′∧p′′′ =p′′ ∧p′′ 6=p′)
0 sonst
.(A.120)
Damit vereinfacht sich der Ausdruck (A.119) zu
Eh˘
hk,k(m′)2˘
hk′,k′(m′)2i=3
Lw−1
∑
p′=−Lw+1
δ
4
m′,p′+
ζ
(1)
m′+
ζ
(2)
m′,k,k′,(A.121)
Anhang
145
wobei
ζ
(1)
m′:=
Lw−1
∑
p′=−Lw+1
Lw−1
∑
p′′′=−Lw+1
p′′′6=p′
δ
2
m′,p′
δ
2
m′,p′′′ (A.122)
ζ
(2)
m′,k,k′:=
Lw−1
∑
p′=−Lw+1
Lw−1
∑
p′′=−Lw+1
p′′6=p′
δ
m′,p′,k
δ
∗
m′,p′′,k
δ
m′,p′,k′
δ
∗
m′,p′′,k′
+
Lw−1
∑
p′=−Lw+1
Lw−1
∑
p′′=−Lw+1
p′′6=p′
δ
m′,p′,k
δ
∗
m′,p′′,k
δ
m′,p′′,k′
δ
∗
m′,p′,k′.(A.123)
Stellt man mit Hilfe einfacher Umformungen
ζ
(1)
m′und
ζ
(2)
m′,k,k′gemäß
ζ
(1)
m′= Lw−1
∑
p′=−Lw+1
δ
2
m′,p′!2
−
Lw−1
∑
p′=−Lw+1
δ
4
m′,p′(A.124)
ζ
(2)
m′,k,k′=
Lw−1
∑
p′=−Lw+1
δ
m′,p′,k
δ
m′,p′,k′
2
+
Lw−1
∑
p′=−Lw+1
δ
m′,p′,k
δ
∗
m′,p′,k′
2
−2
Lw−1
∑
p′=−Lw+1
δ
4
m′,p′
(A.125)
=
Lw−1
∑
p′=−Lw+1
δ
2
m′,p′,k+k′
2
2
+
Lw−1
∑
p′=−Lw+1
δ
2
m′,p′,k−k′
2
2
−2
Lw−1
∑
p′=−Lw+1
δ
4
m′,p′(A.126)
dar und setzt das Resultat in (A.121) ein, dann erhält man
Eh˘
hk,k(m′)2˘
hk′,k′(m′)2i
= Lw−1
∑
p′=−Lw+1
δ
2
m′,p′!2
+
Lw−1
∑
p′=−Lw+1
δ
2
m′,p′,k+k′
2
2
+
Lw−1
∑
p′=−Lw+1
δ
2
m′,p′,k−k′
2
2
(A.127)
Durch das aufeinanderfolgende Einsetzen von (A.127) in (A.117) sowie (A.117) und (A.115)
in (A.116) folgt der gesuchte vereinfachte Ausdruck für die Varianz
σ
2˘
¯
Hm′,q
=1
K(o)
q−K(u)
q+12
K(o)
q
∑
k,k′=K(u)
q
Lw−1
∑
p′=−Lw+1
δ
2
m′,p′,k+k′
2
2
+
Lw−1
∑
p′=−Lw+1
δ
2
m′,p′,k−k′
2
2
.
(A.128)
A.2.5. Herleitung der Leistungskompensationskonstanten
Die Leistungskompensationskonstante CEwird verwendet, um das Kurzzeit-Leistungsspek-
trum gemäß (5.117) zu approximieren. Sie soll dazu die Bedingung (5.119), welche äquiva-
146
Anhang
lent gemäß
E"K−1
∑
k′,k′′=0
LH
∑
m′,m′′=−LH,u
˘
X(m−m′,k′)˘
X∗(m−m′′,k′′)˘
hk,k′(m′)˘
h∗
k,k′′(m′′)#
!
=E"CE·
LH
∑
m′=0˘
X(m−m′,k)2˘
hk,k(m′)2#,(A.129)
ausgedrückt werden kann, erfüllen. Dabei soll der Erwartungswert nicht nur über alle mög-
lichen Eingangssignale gebildet werden, sondern ebenfalls über alle möglichen Impulsant-
worten, die sich gemäß dem vereinfachten Modell (5.141) ergeben können.
Um zu einer handhabbaren Lösung zu gelangen, wird in dieser Herleitung davon ausge-
gangen, dass es sich beim unverhallten Eingangssignal ˘x(l)um einen reellen weißen GAUSS’-
schen Zufallsprozess handelt, welcher unkorreliert mit der Raumimpulsantwort ist und des-
sen Autokorrelationsfunktion
E˘x(l)˘x(l′)=
σ
2
x
δ
l−l′(A.130)
erfüllt, wobei
σ
2
xdie Leistung von ˘x(l)bezeichnet. Die Autokorrelationsfunktion des Spek-
trums kann daher durch
E˘
X(m−m′,k′)˘
X∗(m−m′′,k′′)
=
Lw−1
∑
l=0
Lw−1
∑
l′=0
wA(l)wA(l′)E˘x(l+m−m′B)˘x(l′+m−m′′B)e−j2
π
K(k′l−k′′l′)(A.131)
=
σ
2
x
Lw−1
∑
l=0
wA(l)wA(l+m′′ −m′B)e−j2
π
K{k′l−k′′[l+(m′′−m′)B]}(A.132)
beschrieben werden. Weiterhin gilt für die Autokorrelationsfunktion der Raumimpulsantwort
˘
h(l)unter Berücksichtigung von (5.142)
E˘
h(l)˘
h(l′)=
σ
2
h
δ
l−l′
χ
h(l)e−2l
τ
h,(A.133)
so dass sich die Autokorrelationsfunktion der Kreuzbandfilter mit Hilfe von (5.99) und
(A.133) zu
Eh˘
hk,k′(m′)˘
h∗
k,k′′(m′′)i(A.134)
=E"Lh−1
∑
l=0
Lh−1
∑
l′=0
˘
h(l)˘
h(l′)
φ
k,k′(m′B−l)
φ
∗
k,k′′(m′′B−l′)#(A.135)
=
σ
2
h
Lh−1
∑
l=0
χ
h(l)
φ
k,k′(m′B−l)
φ
∗
k,k′′(m′′B−l)e−2l
τ
h.(A.136)
ergibt. Beachtet man weiterhin, dass der Träger von
φ
k,k′(l)durch [−Lw+1,Lw−1]gegeben
ist, so lässt sich (A.136) mit der Variablensubstitution l′=m′B−lauch derart formulieren
Eh˘
hk,k′(m′)˘
h∗
k,k′′(m′′)i
=
σ
2
h
Lw−1
∑
l′=−Lw+1
φ
k,k′(l′)
φ
∗
k,k′′(l′+m′′ −m′B)·
χ
h(m′B−l′)e−2(m′B−l′)
τ
h.(A.137)
Anhang
147
Bildet man den Erwartungswert des Betragsquadrates von Y(m,k), was dem linken Term
in (A.129) entspricht, und setzt anschließend die gefundenen Ausdrücke (A.132) und (A.137)
ein, so erhält man
Eh˘
Y(m,k)2i
=
LH
∑
m′,m′′=−LH,u
K−1
∑
k′=0
K−1
∑
k′′=0
E˘
X(m−m′,k′)˘
X∗(m−m′′,k′′)Eh˘
hk,k′(m′)˘
h∗
k,k′′(m′′)i(A.138)
=
σ
2
x
σ
2
h
LH
∑
m′,m′′=−LH,u
Lw−1
∑
l=0
wA(l)wA(l+m′′ −m′B)
Lw−1
∑
l′=−Lw
χ
h(m′B−l′)e−2(m′B−l′)
τ
h·
ξ
m′′−m′,l,l′,k,
(A.139)
wobei
ξ
m′′−m′,l,l′,k:=
K−1
∑
k′=0
K−1
∑
k′′=0
φ
k,k′(l′)
φ
∗
k,k′′(l′+m′′ −m′B)e−j2
π
K[k′l−k′′(l+(m′′−m′)B)].(A.140)
Setzt man in (A.140) die Definition von
φ
k,k′(l)gemäß (5.96) ein, so folgt
ξ
m′′−m′,l,l′,k=
K−1
∑
k′=0
K−1
∑
k′′=0"Lw−1
∑
p′=0
wA(p′)wS(p′+l′)ej2
π
Kk′(p′+l′)e−j2
π
Kkp′#
·"Lw−1
∑
p′′=0
wA(p′′)wS(p′′ +l′+m′′ −m′B)e−j2
π
Kk′′(p′′+l′+(m′′−m′)B)ej2
π
Kkp′′ #
·e−j2
π
K[k′l−k′′(l+(m′′−m′)B)] (A.141)
=
Lw−1
∑
p′=0
wA(p′)wS(p′+l′)e−j2
π
Kkp′Lw−1
∑
p′′=0
wA(p′′)wS(p′′ +l′+m′′ −m′B)ej2
π
Kkp′′
·
ψ
p′,p′′,l,l′(A.142)
mit
ψ
p′,p′′,l,l′:="K−1
∑
k′=0
ej2
π
Kk′(p′+l′−l)#"K−1
∑
k′′=0
e−j2
π
Kk′′(p′′+l′−l)#(A.143)
schreiben. Aufgrund der Summenorthogonalität (A.77) vereinfacht sich
ψ
p′,p′′,l,l′zu
ψ
p′,p′′,l,l′=K2∞
∑
ν
′=−∞
∞
∑
ν
′′=−∞
δ
p′+l′−l−
ν
′K
δ
p′′ +l′−l−
ν
′′K.(A.144)
Beachtet man noch die Identität
δ
(l−
µ
)
δ
l−
µ
′=
δ
(l−
µ
)
δ
µ
−
µ
′für l,
µ
,
µ
′∈Z,(A.145)
dann erhält man
ψ
p′,p′′,l,l′=K2∞
∑
ν
′=−∞
∞
∑
ν
′′=−∞
δ
p′+l′−l−
ν
′K
δ
p′′ −p′−
ν
′′ −
ν
′K.(A.146)
148
Anhang
Da die Differenz p′′ −p′stets im Intervall [−Lw+1,Lw−1]liegt und K>Lwgilt, kann das
Argument der zweiten DIRAC-Funktion in (A.146) überhaupt nur für
ν
′′ =
ν
′Null werden,
so dass sich
ψ
p′,p′′,l,l′=K2∞
∑
ν
′=−∞
δ
p′+l′−l−
ν
′K
δ
p′′ −p′(A.147)
ergibt. Setzt man noch (A.147) in (A.142) ein, so erhält man den Ausdruck
ξ
m′′−m′,l,l′,k=K2∞
∑
ν
′=−∞
Lw−1
∑
p′=0
wA(p′)wS(p′+l′)
Lw−1
∑
p′′=0
wA(p′′)wS(p′′ +l′+m′′ −m′B)
·
δ
p′+l′−l−
ν
′K
δ
p′′ −p′e−j2
π
Kk(p′−p′′)(A.148)
=K2∞
∑
ν
′=−∞
Lw−1
∑
p′=0
w2
A(p′)wS(p′+l′)·wS(p′+l′+m′′ −m′B)
·
δ
p′+l′−l−
ν
′K(A.149)
=K2∞
∑
ν
′=−∞
w2
A(−l′+l+
ν
′K)wS(l+
ν
′K)·wS(l+
ν
′K+m′′ −m′B),
(A.150)
woran zu erkennen ist, dass
ξ
m′′−m′,l,l′,kgar nicht von kabhängt. Für l∈[−Lw+1,Lw−1]
gilt wS(l+
ν
′K) = 0∀
ν
′6=0, so dass
ξ
m′′−m′,l,l′,k=K2w2
A(−l′+l)wS(l)wS(l+m′′ −m′B).(A.151)
Setzt man (A.151) in (A.139) ein, so ergibt sich
Eh˘
Y(m,k)2i=
σ
2
x
σ
2
h·CZ(A.152)
mit
CZ:=K2
LH
∑
m′,m′′=−LH,u
Lw−1
∑
l=0
wA(l)wS(l)wA(l+m′′ −m′B)wS(l+m′′ −m′B)
·
Lw−1
∑
l′=−Lw+1
χ
h(m′B−l′)e−2(m′B−l′)
τ
hw2
A(−l′+l).(A.153)
Der rechte Ausdruck in (A.129) lässt sich mit (A.132) und (A.137) zu
E"CE·
LH
∑
m′=0˘
X(m−m′,k)2˘
hk,k(m′)2#
=CE
LH
∑
m′=0
Eh˘
X(m−m′,k)2iEh˘
hk,k(m′)2i(A.154)
=CE
LH
∑
m′=0
σ
2
x
Lw−1
∑
l=0
w2
A(l)!·
σ
2
h
Lw−1
∑
l′=−Lw+1
φ
k,k(l′)2
χ
h(m′B−l′)e−2(m′B−l′)
τ
h!(A.155)
=CE·
σ
2
x
σ
2
h·CN(A.156)
Anhang
149
vereinfachen, wobei CNunter Beachtung von (5.96) durch
CN:= Lw−1
∑
l=0
w2
A(l)!
LH
∑
m′=0
Lw−1
∑
l′=−Lw+1 Lw−1
∑
p′′=0
wA(p′′)wS(p′′ +l′)!2
χ
h(m′B−l′)e−2(m′B−l′)
τ
h
(A.157)
definiert ist.
Die gesuchte Leistungskompensationskonstante CEresultiert schließlich aus dem Gleich-
setzen der beiden Ausdrücke (A.156) und (A.152):
CE=CZ
CN
.(A.158)
A.3. Raumimpulsantworten zur Erzeugung der
AURORA5-Datenbank
Bei der ursprünglichen Erstellung der AURORA5-Datenbank [Hir07] wurden zwei unter-
schiedliche simulierte Freisprechumgebungen betrachtet, welche stellvertretend als Büro und
Wohnzimmer bezeichnet wurden. Für jeden dieser zwei Räume wurden zunächst 3 unter-
schiedliche RIAs erzeugt, welche jeweils 3 unterschiedliche Ausprägungen bzw. Beschaf-
fenheiten dieser Räume repräsentieren sollten. Dabei wiesen die 3 RIAs für das Büro Nach-
hallzeiten T60 von etwa 0,3s, 0,35s und 0,4s und entsprechende DRRs von etwa −6,0dB,
−6,4dB und −6,8dB auf. Beim Wohnzimmer nahm die Nachhallzeit Werte von etwa 0,4s,
0,45s und 0,5s an, wobei die entsprechenden DRRs etwa −5,7dB, −6,5dB und −7,0dB
betrugen. Zur Berechnung aller 6 RIAs wurde im Wesentlichen der direkte Anteil samt den
frühen Reflexionen mit Hilfe der Spiegelquellenmethode [All79] erzeugt, wobei anschlie-
ßend der Anteil des späten Nachhalls künstlich hinzugefügt wurde. Für weitere Details sei
auf die ausführlichere Dokumentation in [HF05] verwiesen. Die verhallten Testdaten für je-
den der zwei Räume wurden anschließend dadurch erzeugt, indem saubere Sprachsignale
der TI-Digits-Datenbank mit jeweils einer der 3 raumspezifischen RIAs gefaltet wurden.
Die insgesamt 6 RIAs sind in Abb. A.1 illustriert. Zudem zeigt Abb. A.2 die entsprechen-
den log-MEL-spektrale Repräsentationen ¯
hm,q.
A.4. Statistische Signifikanz der Unterschiede zwischen
Wortfehlerraten
Zur approximativen Untersuchung der statistischen Signifikanz der Unterschiede der Wort-
fehlerraten zweier Verfahren,
λ
w,1und
λ
w,2, sei hier nur eine stark vereinfachte Methode aus
[GC89] angegeben, deren Defizite im Anschluss diskutiert werden sollen. Diese geht von
der Annahme aus, dass es sich bei der Erkennungsaufgabe um ein BERNOULLI-Experiment
bestehend aus NGes unabhängigen Einzelexperimenten handelt, bei dem jeweils ein Wort ent-
weder falsch oder richtig erkannt werden kann. Die Wahrscheinlichkeit ein Wort richtig zu
erkennen liegt bei den beiden Verfahren jeweils näherungsweise bei
λ
w,1bzw.
λ
w,2. Bei die-
sen beiden Wahrscheinlichkeiten handelt es sich um Schätzungen, wobei sich die Varianzen
150
Anhang
-0,1
-0,2
0,1
0,1
0,2
0,2 0,3 0,4
0
0
27
Zeit l·TA[s]
h(l)
(a) Büro (T60 ≈0,3s, DRR ≈ −6,0dB)
-0,1
-0,2
0,1
0,1
0,2
0,2 0,3 0,4
0
0Zeit l·TA[s]
h(l)
(b) Wohnzimmer (T60 ≈0,4s,
DRR ≈ −5,7dB)
-0,1
-0,2
0,1
0,1
0,2
0,2 0,3 0,4
0
0
12
Zeit l·TA[s]
h(l)
(c) Büro (T60 ≈0,35s, DRR ≈ −6,4dB)
-0,1
-0,2
0,1
0,1
0,2
0,2 0,3 0,4
0
0Zeit l·TA[s]
h(l)
(d) Wohnzimmer (T60 ≈0,45s,
DRR ≈ −6,5dB)
-0,1
-0,2
0,1
0,1
0,2
0,2 0,3 0,4
0
0
3,2
Zeit l·TA[s]
h(l)
(e) Büro (T60 ≈0,4s, DRR ≈ −6,8dB)
-0,1
-0,2
0,1
0,1
0,2
0,2 0,3 0,4
0
0Zeit l·TA[s]
h(l)
(f) Wohnzimmer (T60 ≈0,5s,
DRR ≈ −7,0dB)
Abbildung A.1.: Zur Erstellung der AURORA5-Datenbank verwendete RIAs.
Anhang
151
Index des MEL-Bandes q
Segmentindex m+1
5
5
10
10
15
15
20
20
0
−2
−4
−6
−8
−10
−12
(a) Büro (T60 ≈0,3s, DRR ≈ −6,0dB)
Index des MEL-Bandes q
Segmentindex m+1
5
5
10
10
15
15
20
20 25
0
−2
−4
−6
−8
−10
−12
(b) Wohnzimmer (T60 ≈0,4s,
DRR ≈ −5,7dB)
Index des MEL-Bandes q
Segmentindex m+1
5
5
10
10
15
15
20
20
0
−2
−4
−6
−8
−10
−12
(c) Büro (T60 ≈0,35s, DRR ≈ −6,4dB)
Index des MEL-Bandes q
Segmentindex m+1
5
5
10
10
15
15
20
20 25
0
−2
−4
−6
−8
−10
−12
(d) Wohnzimmer (T60 ≈0,45s,
DRR ≈ −6,5dB)
Index des MEL-Bandes q
Segmentindex m+1
5
5
10
10
15
15
20
20
0
−2
−4
−6
−8
−10
−12
(e) Büro (T60 ≈0,4s, DRR ≈ −6,8dB)
Index des MEL-Bandes q
Segmentindex m+1
5
5
10
10
15
15
20
20 25
0
−2
−4
−6
−8
−10
−12
(f) Wohnzimmer (T60 ≈0,5s,
DRR ≈ −7,0dB)
Abbildung A.2.: Log-MEL-spektrale Repräsentationen ¯
hm,qder RIAs, die ursprünglich zur Erstellung
der AURORA5-Datenbank verwendet worden sind.
152
Anhang
des Schätzfehlers bedingt durch das BERNOULLI-Experiment gemäß
σ
2
λ
w,j=
λ
w,j1−
λ
w,j
NGes
für j=1,2 (A.159)
berechnen lassen. Aufgrund der sehr hohen Anzahl an Einzelexperimenten NGes können die
Schätzfehler unter Beachtung des Zentralen Grenzwertsatzes [Man64] als annähernd nor-
malverteilt angesehen werden. Unter der Nullhypothese, dass beide Verfahren im Mittel die-
selbe Fehlerrate liefern, und der weiteren Annahme, dass die Schätzfehler beider Verfahren
unabhängig sind, ist die Differenz ∆
λ
w:=
λ
w,1−
λ
w,2ebenfalls normalverteilt mit der Vari-
anz
σ
2
λ
w,1+
σ
2
λ
w,2. In diesem Fall ist der Unterschied zwischen den Wortfehlerraten der beiden
betrachteten Verfahren dann als statistisch signifikant mit einem Signifikanzniveau von 5%
anzusehen, wenn die Differenz ∆
λ
waußerhalb des 95%-Konfidenzintervalls
I95% :=h−q
σ
2
λ
w,1+
σ
2
λ
w,2,q
σ
2
λ
w,1+
σ
2
λ
w,2i,(A.160)
liegt.
Diese Art des Signifikanztests geht jedoch von Annahmen aus, die für die in dieser Ar-
beit betrachteten Testszenarien im Allgemeinen nicht zutreffend sind. So ist die Annahme,
dass die Erkennungsergebnisse für einzelne Wörter als unabhängige Ereignisse angesehen
werden können, wenn überhaupt nur für die Einzelworterkennung, die mit der AURORA5-
Datenbank durchgeführt wird, gerechtfertigt. Für Erkennungsaufgaben, die im Zusammen-
hang mit der AURORA4-Datenbank stehen und bei denen ein Sprachmodell verwendet wird,
besteht offensichtlich eine Abhängigkeit zwischen aufeinanderfolgenden erkannten Wörtern.
Aber auch im Falle der Einzelworterkennung muss berücksichtigt werden, dass pro Wort
mehrere Einfügefehler auftreten können, so dass die Wahrscheinlichkeiten für die richtige
Erkennung eines Wortes in der Regel von Wort zu Wort variieren. Eine weitere unzutreffen-
de Annahme ist die Unabhängigkeit der Schätzfehler beider Verfahren, da beiden Verfahren
dieselben oder zumindest sehr ähnliche Testdaten zugrunde liegen. Daher kann davon ausge-
gangen werden, dass aufgrund der Ähnlichkeit beider Verfahren eine Ähnlichkeit der Fehler
zu erwarten ist.
Eine Möglichkeit zur Berücksichtigung der Abhängigkeit der Ergebnisse zweier Verfah-
ren bietet der sogenannte MCNEMAR’sche Test [GC89]. Dabei können Aussagen über die
relative Leistungsfähigkeit zweier Verfahren beruhend auf der Information darüber gemacht
werden, wie viele Wörter des Testdatensatzes existieren, die vom ersten Verfahren richtig
und vom zweiten falsch erkannt wurden, und umgekehrt. Zur Lösung des Problems der Ab-
hängigkeit von aufeinanderfolgenden Wörtern bietet sich der sogenannte Test mit gepaarten
Stichproben (engl. matched pairs test) [GC89] an, bei dem die Testdaten in unabhängige
Segmente wie einzelne Sätze unterteilt werden und anschließend die durchschnittliche An-
zahl der Fehler pro Segment beider Verfahren verglichen wird. Auf die Durchführung von
Signifikanztests dieser Art wurde in dieser Arbeit jedoch verzichtet, da das primäre Ziel in
der Feststellung von groben Tendenzen lag und nicht in der Interpretation von marginalen,
eventuell signfikanten, Unterschieden.
Abkürzungsverzeichnis
153
Formelzeichen
Allgemeine Bemerkungen
•Wahrscheinlichkeiten werden durchgehend durch P(·)gekennzeichnet, Verteilungs-
dichtefunktionen hingegen durch p(·). Dabei wird von der in der Literatur häufig ver-
wendeten Notation, die Zufallsvariable als Index zu verwenden, zugunsten der Lesbar-
keit der Ausdrücke in den Fällen abgesehen, wo die Zufallsvariable aus dem Argument
der Verteilungsdichtefunktion ersichtlich wird.
•Für den Erwartungswert einer Zufallsvariable wird die Notation E [·]verwendet. Um
deutlich zu machen, bezüglich welcher Zufallsvariablen der Erwartungswert zu bilden
ist, wird die entsprechende Zufallsvariable als Index verwendet.
•Zufallsvariablen werden stets mit einem Breve gemäß ˘
(·)versehen. Die entsprechen-
den Realisierungen tragen dasselbe Symbol, jedoch ohne das Breve.
•Geschätzte Werte werden stets durch ein zusätzliches Dach gemäß ˆ
(·)gekennzeichnet.
Spezielle Symbole und Definitionen
1. . . . . . . . . . . . . . Vektor bestehend aus Einsen
I. . . . . . . . . . . . . . Einheitsmatrix
0. . . . . . . . . . . . . . Nullvektor
∗. . . . . . . . . . . . . . Faltung
(·)∗. . . . . . . . . . . Komplexe Konjugation
(·)T. . . . . . . . . . . Transposition
⌊·⌋. . . . . . . . . . . . Rundung auf die nächstkleinere oder gleich große, ganze Zahl
det{·}. . . . . . . . . Determinante
ℜ[·]. . . . . . . . . . . Realteil
•Zeitdiskreter
δ
-Impuls:
δ
(l):=(1 für l=0
0 für l∈Z\{0}.(161)
•Diagonalmatrix oder Vektor bestehend aus den Diagonalelementen einer Matrix:
Das Ergebnis der in dieser Arbeit verwendeten Operation diag{·}hängt vom Typ
ihres Argumentes ab. Handelt es sich beim Argument um einen Vektor, so ist das
155
156
Formelzeichen
Ergebnis eine Diagonalmatrix mit den Elementen des Vektors auf der
Hauptdiagonalen gemäß
diagn(x1,x2,...,xN−1,xN)To:=
x10 0 ... 0
0x20... 0
0 0 .......
.
.
.
.
..
.
....xN−10
0 0 ... 0xN
.(162)
Ist das Argument jedoch eine Matrix, so liefert die Anwendung von diag{·}einen
Vektor, dessen Einträge aus den Elementen der Hauptdiagonalen der Matrix bestehen:
diag
x1,1x1,2x1,3... x1,N
x2,1x2,2x2,3... x2,N
x3,1x3,2
.......
.
.
.
.
..
.
....xN−1,N−1xN−1,N
xN,1xN,2... xN,N−1xN,N
:=
x1,1
x2,2
.
.
.
xN−1,N−1
xN,N
.(163)
•Blockdiagonalmatrix:
blockdiag{A1,A2,...,AN−1,AN}:=
A10 0 ... 0
0 A20... 0
0 0 .......
.
.
.
.
..
.
....AN−10
0 0 ... 0 AN
.(164)
Römische Formelzeichen
ai,k. . . . . . . . . . . Wahrscheinlichkeit für den Wechsel von dem i-ten zum k-ten Teilmodell
eines SLDM
a{l}
i,k. . . . . . . . . . . Wahrscheinlichkeit für den Wechsel von dem i-ten zum k-ten Teilmodell
eines SLDM berechnet nach der l-ten EM-Iteration
Ai,
ν
. . . . . . . . . . Zustandsübergangsmatrix des i-ten Teilmodells eines SLDM für den Ver-
satzindex
ν
A{l}
i,
ν
. . . . . . . . . . Zustandsübergangsmatrix des i-ten Teilmodells eines SLDM für den Ver-
satzindex
ν
berechnet nach der l-ten EM-Iteration
bi. . . . . . . . . . . . Biaskorrekturvektor des i-ten Teilmodells eines SLDM
b{l}
i. . . . . . . . . . . Biaskorrekturvektor des i-ten Teilmodells eines SLDM berechnet nach
der l-ten EM-Iteration
B. . . . . . . . . . . . . Fenstervorschub (bei der Merkmalsextraktion)
CE. . . . . . . . . . . . Multiplikative Konstante zur Kompensation der Fehler bei der approxi-
mativen Darstellung des Kurzzeit-Leistungsspektrums eines verhallten
Signals
C50 . . . . . . . . . . . Klarheitsmaß zur Beschreibung der Verständlichkeit von Sprache
Formelzeichen
157
C80 . . . . . . . . . . . Klarheitsmaß zur Beschreibung der Durchsichtigkeit von Musik
DINIT . . . . . . . . . Zu minimierender Gesamtabstand bei der GMM-Initialisierung (definiert
in (5.50))
DRR . . . . . . . . . Verhältnis zwischen der Energie des direkten Schallanteils der Raumim-
pulsantwort und der Energie des Nachhalls einschließlich der frühen Re-
flexionen
eˆ
T60 . . . . . . . . . . . Fehler in der Schätzung der Nachhallzeit
e(n)
m,k. . . . . . . . . . . Fehler bei der Prädiktion eines Merkmalsvektors durch ein SLDM
eˆ
σ
2
h,REL . . . . . . . Relativer Schätzfehler in der Energie der Raumimpulsantwort
EDCh(l). . . . . . . Energieabfallkurve der Raumimpulsantwort
fA. . . . . . . . . . . . Abtastfrequenz
fO. . . . . . . . . . . . Nichtrekursive Beobachtungsfunktion
˜
fO. . . . . . . . . . . . Vereinfachte nichtrekursive Beobachtungsfunktion (gültig bei Abwesen-
heit von Hintergrundstörungen)
f(R)
O,LR. . . . . . . . . . Rekursive Beobachtungsfunktion mit der Rekursionslänge LR
˜
f(R)
O,LR. . . . . . . . . . Vereinfachte rekursive Beobachtungsfunktion mit der Rekursionslänge
LR(gültig bei Abwesenheit von Hintergrundstörungen)
h(l). . . . . . . . . . . Zeitdiskrete Raumimpulsantwort
hk,k′(m′′). . . . . . Kreuzbandfilter für k6=k′bzw. Band-zu-Band-Filter für k=k′(definiert
in (5.93))
˜
hk,k′(l). . . . . . . . Hilfsfunktion zur anschaulichen Darstellung der Kreuzbandfilter (defi-
niert in (5.97))
h(s)
m,q. . . . . . . . . . Log-MEL-spektraler Koeffizient der Raumimpulsantwort
¯
hm′,q. . . . . . . . . . Koeffizient der Raumimpulsantwort im log-MEL-spektralen Bereich
¯
hm′. . . . . . . . . . . . Vektor der Koeffizient der Raumimpulsantwort im log-MEL-spektralen
Bereich
H(m,k). . . . . . . . Diskretes Kurzzeit-Spektrum der Raumimpulsantwort
Hej
θ
. . . . . . . Zeitdiskrete FOURIER-Transformierte der Raumimpulsantwort
Hk,k′ej
θ
. . . . . Zeitdiskrete FOURIER-Transformierte eines Kreuzbandfilters hk,k′(m′′)
˜
Hk,k′ej
θ
. . . . . Zeitdiskrete FOURIER-Transformierte von ˜
hk,k′(l)
HfO,ˆ
n(s),[r]
m|m,i
. . . . . . JACOBI-Matrix von fObezüglich n(s)
mausgewertet an der Stelle ˆ
n(s),[r]
m|m,i
(genaue Definition in (5.218))
HfO,ˆ
x(s)
m. . . . . . . . JACOBI-Matrix von fObezüglich x(s)
mausgewertet an der Stelle ˆ
x(s)
m(ge-
naue Definition in (5.219))
HfO,ˆ
z(s),[r]
m|m,i
. . . . . . JACOBI-Matrix von fObezüglich z(s)
mausgewertet an der Stelle ˆ
z(s),[r]
m|m,i(ge-
naue Definition in (5.216))
HfO,ˆχ(s),[r]
m|m,i
. . . . . JACOBI-Matrix von fObezüglich χ(s)
mausgewertet an der Stelle ˆχ(s),[r]
m|m,i
(genaue Definition in (5.217))
Hf(R)
O,LC,ˆ
n(s)
m. . . . . JACOBI-Matrix von f(R)
O,LC−LCbezüglich n(s)
mausgewertet an der Stelle
ˆ
n(s)
m−LC(genaue Definition in (5.225))
Hf(R)
O,LC,ˆ
n(s),[r]
m|m,i
. . . . JACOBI-Matrix von f(R)
O,LCbezüglich n(s)
mausgewertet an der Stelle ˆ
n(s),[r]
m|m,i
(genaue Definition in (5.224))
158
Formelzeichen
Hf(R)
O,LC,ˆ
z(s),[r]
m|m,i
. . . . JACOBI-Matrix von f(R)
O,LCbezüglich z(s)
mausgewertet an der Stelle ˆ
z(s),[r]
m|m,i
(genaue Definition in (5.222))
Hf(R)
O,LC,ˆχ(s),[r]
m|m,i
. . . JACOBI-Matrix von f(R)
O,LCbezüglich χ(s)
mausgewertet an der Stelle ˆχ(s),[r]
m|m,i
(genaue Definition in (5.223))
Hˆ
z(s),[r]
m|m,i
. . . . . . . . JACOBI-Matrix der verwendeten Beobachtungsfunktion bezüglich z(s)
m
ausgewertet an der Stelle ˆ
z(s),[r]
m|m,i
i. . . . . . . . . . . . . . Index eines SLDM-Teilmodells
I. . . . . . . . . . . . . Anzahl der Teilmodelle eines SLDM
I1. . . . . . . . . . . . . Einseitige Länge des Fensters (in Anzahl von Segmenten) zur Berech-
nung der DELTA-Merkmale
I2. . . . . . . . . . . . . Einseitige Länge des Fensters (in Anzahl von Segmenten) zur Berech-
nung der DELTA-DELTA-Merkmale
I. . . . . . . . . . . . Indexmenge aller wohl repräsentierten Teilmodelle eines SLDM
j. . . . . . . . . . . . . Imaginäre Einheit oder Index einzelner Experimente (aus dem Zusam-
menhang erkennbar)
J. . . . . . . . . . . . . Gesamtanzahl der Experimente
k. . . . . . . . . . . . . Frequenzindex
K. . . . . . . . . . . . . Anzahl der Frequenzbins (bei der DFT zur Merkmalsextraktion)
K′. . . . . . . . . . . . Anzahl der cepstralen Koeffizienten (bei der Merkmalsextraktion)
Kq. . . . . . . . . . . . Breite des q-ten MEL-Bandes (in Anzahl von Frequenzindizes)
K(o)
q. . . . . . . . . . Obere Grenze des q-ten MEL-Bandes (in Form eines Frequenzindex)
K(u)
q. . . . . . . . . . Untere Grenze des q-ten MEL-Bandes (in Form eines Frequenzindex)
K[r]
m,i. . . . . . . . . . KALMAN-Verstärkungsmatrix
l. . . . . . . . . . . . . Zeitindex (diskret) oder Index der EM-Iterationen (aus Zusammenhang
erkennbar)
lD. . . . . . . . . . . . Zeitindex zur Bezeichnung des Zeitpunktes innerhalb der Raumimpul-
santwort, an dem der Hauptimpuls auftritt
L(
θ
). . . . . . . . . Likelihoodfunktion
LAR . . . . . . . . . . Ordnung eines SLDM
LC. . . . . . . . . . . . Anzahl von aufeinanderfolgenden Merkmalsvektoren des sauberen
Sprachsignals innerhalb des Zustandsvektors bei der KALMAN-Filterung
LEM . . . . . . . . . . Anzahl von EM-Iterationen
Lh. . . . . . . . . . . . Länge der Raumimpulsantwort
LH. . . . . . . . . . . . Länge der Repräsentation der RIA im log-MEL-spektralen Bereich
LR. . . . . . . . . . . . Rekursionslänge für das rekursive Beobachtungsmodell
LS. . . . . . . . . . . . Länge der Merkmalsvektorsequenzen bei der K-Means++-artigen Initia-
lisierung der SLDM-Parameter
Lw. . . . . . . . . . . . Fensterlänge (bei der Merkmalsextraktion)
m. . . . . . . . . . . . . Segmentindex (diskret)
M. . . . . . . . . . . . Anzahl von Merkmalsvektoren (bzw. Segmenten) innerhalb einer Sprach-
äußerung
Mn. . . . . . . . . . . Anzahl von Merkmalsvektoren innerhalb der n-ten Sprachäußerung
MSEQ,k(i). . . . . Menge der zum k-ten Modell zugeordneten Merkmalsvektorsequenzen
bei der Initialisierung der SLDM-Parameter (definiert in (5.70))
Formelzeichen
159
MSEQ,k,i(I). . . Menge von Merkmalsvektorsequenztupeln (definiert in (5.75))
n. . . . . . . . . . . . . Index der Sprachäußerung innerhalb der Trainingsdaten
n(l). . . . . . . . . . . Zeitdiskretes Störsignal (nach der Versatzkompensation und der Hö-
henanhebung)
n(s)
m. . . . . . . . . . . Vektor der log-MEL-spektralen Koeffizienten des Störsignals
ˆ
n(s)
m. . . . . . . . . . . A-posteriori-Schätzwert des Vektors der log-MEL-spektralen Koeffizien-
ten des Störsignals
ˆ
n(s),[r]
m|m,i. . . . . . . . . Teilvektor von ˆ
z(s),[r]
m|m,ibestehend aus der Schätzung des LMSK-Vektors
des Störsignals
N. . . . . . . . . . . . . Anzahl der Sprachäußerungen innerhalb der Trainingsdaten
Nw. . . . . . . . . . . Anzahl von Wörtern innerhalb einer Sprachäußerung
N(SM). . . . . . . . . Anzahl (minus eins) vorhergehender Wörter, von denen ein Wort inner-
halb eines Sprachmodells abhängig ist
N(m,k). . . . . . . Diskretes Kurzzeit-Spektrum des Störsignals
Nm,q. . . . . . . . . MEL-spektraler Koeffizient des Störsignals
NEinf . . . . . . . . . . Anzahl von Einfügefehlern bei der Spracherkennung
NAusl . . . . . . . . . Anzahl von Auslöschungsfehlern bei der Spracherkennung
NSubst . . . . . . . . . Anzahl von Ersetzungsfehlern bei der Spracherkennung
NGes . . . . . . . . . . Gesamtanzahl der Wörter innerhalb der Testdaten
Pk. . . . . . . . . . . . Empirisch bestimmte Modellwahrscheinlickeiten
Pm|m−1,i. . . . . . . A-priori-Modellwahrscheinlichkeiten (definiert in (5.230))
Pm|m,i. . . . . . . . . A-posteriori-Modellwahrscheinlichkeiten (definiert in (5.232))
q. . . . . . . . . . . . . Index des MEL-Bandes
Q. . . . . . . . . . . . . Anzahl der MEL-Bänder (bei der Merkmalsextraktion)
Ql(
θ
). . . . . . . . . Zu maximierende Hilfsfunktion beim EM-Algorithmus (definiert in
(5.24))
r. . . . . . . . . . . . . Index der Iterationen beim IEKF
R. . . . . . . . . . . . . Anzahl der Iterationen beim IEKF
s(l). . . . . . . . . . . Zeitdiskretes verhalltes Sprachsignal (nach der Versatzkompensation und
der Höhenanhebung)
s(s)
m,q. . . . . . . . . . . Log-MEL-spektraler Koeffizient des verhallten Sprachsignals
ˆs(s)
m,q. . . . . . . . . . . A-posteriori-Schätzwert des log-MEL-spektralen Koeffizienten des ver-
hallten Sprachsignals
s(s)
m. . . . . . . . . . . Vektor der log-MEL-spektralen Koeffizienten des verhallten Sprachsi-
gnals
Si. . . . . . . . . . . . Teilmenge der Parameter des i-ten Teilmodells eines SLDM (definiert in
(5.58))
Sej
θ
. . . . . . . . Zeitdiskrete FOURIER-Transformierte des verhallten Sprachsignals
S(m,k). . . . . . . . Diskretes Kurzzeit-Spektrum des verhallten Sprachsignals
t. . . . . . . . . . . . . Zeit (kontinuierlich)
TA. . . . . . . . . . . . Abtastdauer
T60 . . . . . . . . . . . Nachhallzeit
UVi. . . . . . . . . . . Eigenvektormatrix von Vi
UΣx,i. . . . . . . . . Eigenvektormatrix von Σx,i
160
Formelzeichen
vh(l). . . . . . . . . . Zeitdiskreter weißer GAUSS’scher Zufallsprozess zur Erzeugung der
Raumimpulsantwort gemäß einem vereinfachten Modell
v(s)
m,q. . . . . . . . . . Beobachtungsfehler beim nichtrekursiven Beobachtungsmodell
v(s,R)
m,q,LR. . . . . . . . Beobachtungsfehler beim rekursiven Beobachtungsmodell mit der Rekur-
sionslänge LR
v(s)
m. . . . . . . . . . . Vektor der Beobachtungsfehler beim nichtrekursiven Beobachtungsmo-
dell
ˆ
v(s)
m. . . . . . . . . . . Vektor der approximativen Beobachtungsfehler beim nichtrekursiven Be-
obachtungsmodell unter Berücksichtigung von Modellunzulänglichkei-
ten und Schätzfehler in den Modellparametern
v(s,R)
m,LR. . . . . . . . . Vektor der Beobachtungsfehler beim rekursiven Beobachtungsmodell mit
der Rekursionslänge LR
Vi. . . . . . . . . . . . Kovarianzmatrix des Prädiktionsfehlers durch das i-te Teilmodell eines
SLDM
V{l}
i. . . . . . . . . . Kovarianzmatrix des Prädiktionsfehlers durch das i-te Teilmodell eines
SLDM berechnet nach der l-ten EM-Iteration
w(l). . . . . . . . . . Zeitdiskretes Fenster entstehend aus der Faltung des Analysefensters
wA(l)mit dem zeitumgekehrten Synthesefenster wS(−l)
wA(l). . . . . . . . . Zeitdiskretes Analysefenster
wMA,k(l). . . . . . . Zeitdiskretes und zeitumgekehrtes, moduliertes Analysefenster
wS(l). . . . . . . . . Zeitdiskretes Synthesefenster
wMS,k(l). . . . . . . Zeitdiskretes moduliertes Synthesefenster
w
ν
. . . . . . . . . . . .
ν
-tes Wort innerhalb einer Sprachäußerung
WAej
θ
. . . . . . Zeitdiskrete FOURIER-Transformierte des Analysefensters
WSej
θ
. . . . . . Zeitdiskrete FOURIER-Transformierte des Synthesefensters
x(l). . . . . . . . . . . Zeitdiskretes sauberes Sprachsignal (nach der Versatzkompensation und
der Höhenanhebung)
x(s)
m. . . . . . . . . . . Vektor der log-MEL-spektralen Koeffizienten des sauberen Sprachsignals
x(n)
m. . . . . . . . . . . Zum Training eines SLDM verwendeter Merkmalsvektor zugehörig zum
Segment mder n-ten Sprachäußerung
xm. . . . . . . . . . . . Merkmalsvektor zusammengesetzt aus den cepstralen Koeffizienten und
den DELTA- und DELTA-DELTA-Merkmalen des sauberen Sprachsignals
ˆ
x(s)
m. . . . . . . . . . . A-posteriori-Schätzwert des Vektors der log-MEL-spektralen Koeffizien-
ten des sauberen Sprachsignals
X. . . . . . . . . . . . . Menge der Merkmalsvektorsequenzen aller Sprachäußerungen innerhalb
der Trainingsdaten
X1:LAR . . . . . . . . Menge der LAR ersten Merkmalsvektoren aller Sprachäußerungen inner-
halb der Trainingsdaten
XSEQ,LS. . . . . . . Menge aller möglichen Merkmalsvektorsequenzen innerhalb der Trai-
ningsdaten
Xej
θ
. . . . . . . Zeitdiskrete FOURIER-Transformierte des sauberen Sprachsignals
X(m,k). . . . . . . Diskretes Kurzzeit-Spektrum des sauberen Sprachsignals
Xm,q. . . . . . . . . . MEL-spektraler Koeffizient des sauberen Sprachsignals
Formelzeichen
161
y(l). . . . . . . . . . . Zeitdiskretes verhalltes und gestörtes Sprachsignal (nach der Versatzkom-
pensation und der Höhenanhebung)
yMIC(l). . . . . . . . Zeitdiskretes (verhalltes und gestörtes) Mikrofonsignal (nach der Versatz-
kompensation und der Höhenanhebung)
ywA(m,l′). . . . . Gefenstertes zeitdiskretes verhalltes und gestörtes Sprachsignal
y(c)
m,
κ
′. . . . . . . . . . Cepstraler Koeffizient des verhallten und gestörten Sprachsignals
y(s)
m,q. . . . . . . . . . Log-MEL-spektraler Koeffizient des verhallten und gestörten Sprachsi-
gnals
ˆy(s)
m,q. . . . . . . . . . A-posteriori-Schätzwert des log-MEL-spektralen Koeffizienten des ver-
hallten und gestörten Sprachsignals
ym. . . . . . . . . . . . Merkmalsvektor zusammengesetzt aus den cepstralen Koeffizienten und
ihren DELTA- und DELTA-DELTA-Merkmalen des verhallten und gestör-
ten Sprachsignals
y(s)
m. . . . . . . . . . . Vektor der log-MEL-spektralen Koeffizienten des verhallten und gestör-
ten Sprachsignals
ˆ
y(s),[r]
m,i. . . . . . . . . Prädiktion für den beobachteten LMSK-Vektor des verhallten und gestör-
ten Sprachsignals beruhend auf der Linearierungsstelle ˆ
z(s),[r]
m|m,i
ˆ
y(s),[r]
m,i,k. . . . . . . . . Prädiktion für den beobachteten LMSK-Vektor des verhallten und gestör-
ten Sprachsignals beruhend auf der Linearierungsstelle ˆ
z(s),[r]
m|m,i,k
Yej
θ
. . . . . . . Zeitdiskrete FOURIER-Transformierte des verhallten und gestörten
Sprachsignals
Y(m,k). . . . . . . Diskretes Kurzzeit-Spektrum des verhallten und gestörten Sprachsignals
Ym,q. . . . . . . . . . MEL-spektraler Koeffizient des verhallten und gestörten Sprachsignals
Z. . . . . . . . . . . . . Menge der Zustandssequenzen aller Sprachäußerungen innerhalb der
Trainingsdaten
z(s)
m. . . . . . . . . . . Zusammengesetzter Vektor bestehend aus χ(s)
mund n(s)
m
ˆ
z(s)
m|m−1. . . . . . . . Geschätzter Mittelwertvektor beruhend auf der prädiktiven Verteilungs-
dichtefunktion pz(s)
my(s)
1:m−1
ˆ
z(s)
m|m. . . . . . . . . . Geschätzter Mittelwertvektor beruhend auf der A-posteriori-
Verteilungsdichtefunktion pz(s)
my(s)
1:m
ˆ
z(s)
m|m−1,i. . . . . . . . Geschätzter Mittelwertvektor beruhend auf der prädiktiven Verteilungs-
dichtefunktion pz(s)
my(s)
1:m−1,
ζ
m=i
ˆ
z(s)
m|m,i. . . . . . . . . Geschätzter Mittelwertvektor beruhend auf der A-posteriori-
Verteilungsdichtefunktion pz(s)
my(s)
1:m,
ζ
m=i
ˆ
z(s)
m|m,i,k. . . . . . . . Geschätzter Mittelwertvektor beruhend auf der A-posteriori-
Verteilungsdichtefunktion pz(s)
my(s)
1:m,
ζ
m−1=i,
ζ
m=k
ˆ
z(s),[r]
m|m,i. . . . . . . . . Linearisierungsstelle der Beobachtungsfunktion bei der r-ten Iteration
des IEKF zur Berechnung von ˆ
z(s)
m|m,i
162
Formelzeichen
ˆ
z(s),[r]
m|m,i,k. . . . . . . . Linearisierungsstelle der Beobachtungsfunktion bei der r-ten Iteration
des IEKF zur Berechnung von ˆ
z(s)
m|m,i,k
Griechische Formelzeichen
α
(SM). . . . . . . . . Konstante zur Skalierung des Gewichtes des Sprachmodells gegenüber
dem des akustischen Modells
α
(n,l)
m(i). . . . . . . Vorwärtswahrscheinlichkeit (definiert in (A.13))
α
h. . . . . . . . . . . . Negativer Exponent von
ε
hzur Basis 10
β
. . . . . . . . . . . . . Skalierungsfaktor zur Festlegung des Ausmaßes der Pertubation bei der
Modellspaltung
β
(n,l)
m(i). . . . . . . Rückwärtswahrscheinlichkeit (definiert int (A.14))
γ
1:M. . . . . . . . . . Sequenz der Zustände innerhalb eines HMM
δ
(l)
L. . . . . . . . . . . Mittlere relative Verbesserung der Likelihoodfunktion pro einzelne Äu-
ßerung (definiert in (5.38))
∆X. . . . . . . . . . . Menge bestehend aus den Differenzen aufeinanderfolgender Merkmals-
vektoren aller Sprachäußerungen innerhalb der Trainingsdaten
∆y(c)
m,
κ
′. . . . . . . . DELTA-Merkmal des verhallten und gestörten Sprachsignals
∆∆y(c)
m,
κ
′. . . . . . . DELTA-DELTA-Merkmal des verhallten und gestörten Sprachsignals
ε
h. . . . . . . . . . . . Konstante zur Festlegung des maximalen relativen Fehlers in der Ener-
gie der Raumimpulsantwort, der durch zeitliches Abschneiden eingeführt
wird
ε
L. . . . . . . . . . . Untere Schranke für die mittlere relative Verbesserung der Likelihood-
funktion pro einzelne Äußerung
ε
P,REL . . . . . . . . . Konstante, die angibt, wie zahlreich ein Teilmodell bei der SLDM-
Initialisierung mindestens im Verhältnis zum bestrepräsentierten Teilmo-
dell vertreten sein sollte
ζ
m. . . . . . . . . . . . Aktives Teilmodell innerhalb eines SLDM zum Segmentindex m
ζ
(n)
m. . . . . . . . . . Aktives Teilmodell innerhalb eines SLDM zum Segmentindex mder n-ten
Sprachäußerung
η
(n,l)
m(i). . . . . . . Bedingte Wahrscheinlichkeit für die Aktivität des i-ten Teilmodells eines
SLDM (definiert in (5.26))
Ω(n)
SEQ,m(i). . . . . Zugehörigkeit der Merkmalsvektorsequenz einer Sprachäußerung zu ei-
nem Teilmodell eines SLDM (definiert in (5.71))
θ
. . . . . . . . . . . . . Normierte Kreisfrequenz
θ
. . . . . . . . . . . . . Menge aller Parameter eines SLDM
κ
′. . . . . . . . . . . . Index der cepstralen Koeffizienten
λ
Ausl . . . . . . . . . . Rate der Auslöschungsfehler bei der Spracherkennung
λ
Einf . . . . . . . . . . Rate der Einfügefehler bei der Spracherkennung
λ
Subst . . . . . . . . . Rate der Ersetzungsfehler bei der Spracherkennung
λ
w. . . . . . . . . . . . Wortfehlerrate bei der Spracherkennung
Formelzeichen
163
ΛVi. . . . . . . . . . . Eigenwertmatrix von Vi
ΛΣx,i. . . . . . . . . Eigenwertmatrix von Σx,i
µ
˘
¯
hm′,q. . . . . . . . . Mittelwert des Koeffizienten der Raumimpulsantwort im log-MEL-spek-
tralen Bereich beruhend auf dem Modell der Raumimpulsantwort
µ˘
¯
hm′. . . . . . . . . . . Vektor der Mittelwerte der Koeffizienten der Raumimpulsantwort im log-
MEL-spektralen Bereich beruhend auf dem Modell der Raumimpulsant-
wort
µn. . . . . . . . . . . Mittelwertvektor für das A-priori-Modell für die LMSK-Vektoren des
Störsignals
µx,i. . . . . . . . . . . Mittelwertvektor der i-ten Mischungskomponente des GMM zur Model-
lierung der ersten LAR LMSK-Vektoren des sauberen Sprachsignals in-
nerhalb einer Sprachäußerung
µ{l}
x,i. . . . . . . . . . Mittelwertvektor der i-ten Mischungskomponente des GMM zur Model-
lierung der ersten LAR LMSK-Vektoren des sauberen Sprachsignals in-
nerhalb einer Sprachäußerung berechnet nach der l-ten EM-Iteration
µ˘
x(s)
my(s)
1:m
. . . . . . Mittelwert von ˘
x(s)
mbedingt auf die Beobachtung von ˘
y(s)
1:m
µˆ
v(s). . . . . . . . . . Mittelwertvektor des approximativen Beobachtungsfehlervektors beim
nichtrekursiven Beobachtungsmodell
µˆ
v(s,R)
LR
. . . . . . . . . Mittelwertvektor des approximativen Beobachtungsfehlervektors beim
rekursiven Beobachtungsmodell mit der Rekursionslänge LR
ξ
(n,l)
m(k,i). . . . . Bedingte Wahrscheinlichkeit für die aufeinanderfolgende Aktivität zwei-
er Teilmodelle eines SLDM (definiert in (5.27))
ρ
ˆ
Σˆ
v(s). . . . . . . . . Spektralradius von Σˆ
v(s)
σ
m,k. . . . . . . . . . GABOR-Koeffizient zur Darstellung des verhallten Sprachsignals s(l)
σ
2
˘
¯
hm′,q
. . . . . . . . . Varianz des Koeffizienten der Raumimpulsantwort im log-MEL-spektra-
len Bereich beruhend auf dem Modell der Raumimpulsantwort
σ
2
h. . . . . . . . . . . . Energie der Raumimpulsantwort
σ
2
n. . . . . . . . . . . . Leistung des Störsignals
σ
2
s. . . . . . . . . . . . Leistung des verhallten Sprachsignals
σ
2
x. . . . . . . . . . . . Leistung des sauberen Sprachsignals
σ
2
y. . . . . . . . . . . . Leistung des verhallten und gestörten Sprachsignals
Σn. . . . . . . . . . . Kovarianzmatrix für das A-priori-Modell für die LMSK-Vektoren des
Störsignals
ˆ
Σ˘
n(s)
m. . . . . . . . . . Approximative Schätzfehlerkovarianzmatrix für die Schätzung des Vek-
tors der log-MEL-spektralen Koeffizienten des Störsignals
Σx,i. . . . . . . . . . Kovarianzmatrix der i-ten Mischungskomponente des GMM zur Model-
lierung der ersten LAR LMSK-Vektoren des sauberen Sprachsignals in-
nerhalb einer Sprachäußerung
Σ{l}
x,i. . . . . . . . . . Kovarianzmatrix der i-ten Mischungskomponente des GMM zur Model-
lierung der ersten LAR LMSK-Vektoren des sauberen Sprachsignals in-
nerhalb einer Sprachäußerung berechnet nach der l-ten EM-Iteration
Σ˘
x(s)
my(s)
1:m
. . . . . . Kovarianzmatrix von ˘
x(s)
mbedingt auf die Beobachtung von ˘
y(s)
1:m
164
Formelzeichen
ˆ
Σ˘
x(s)
m. . . . . . . . . . Approximative Schätzfehlerkovarianzmatrix für die Schätzung des Vek-
tors der log-MEL-spektralen Koeffizienten des sauberen Sprachsignals
Σˆ
v(s). . . . . . . . . . Kovarianzmatrix des approximativen Beobachtungsfehlervektors beim
nichtrekursiven Beobachtungsmodell
Σˆ
v(s,R)
LR
. . . . . . . . Kovarianzmatrix des approximativen Beobachtungsfehlervektors beim
rekursiven Beobachtungsmodell mit der Rekursionslänge LR
ˆ
Σy(s),[r]
m,i
. . . . . . . . Kovarianzmatrix der Prädiktion ˆ
y(s),[r]
m,ifür den beobachteten LMSK-
Vektor des verhallten und gestörten Sprachsignals
ˆ
Σy(s),[r]
m,i,k
. . . . . . . . Kovarianzmatrix der Prädiktion ˆ
y(s),[r]
m,i,kfür den beobachteten LMSK-
Vektor des verhallten und gestörten Sprachsignals
ˆ
Σz(s)
m|m−1
. . . . . . . Geschätzte Kovarianzmatrix beruhend auf der prädiktiven Verteilungs-
dichtefunktion pz(s)
my(s)
1:m−1
ˆ
Σz(s)
m|m
. . . . . . . . . Geschätzte Kovarianzmatrix beruhend auf der A-posteriori-
Verteilungsdichtefunktion pz(s)
my(s)
1:m
ˆ
Σz(s)
m|m−1,i
. . . . . . . Geschätzte Kovarianzmatrix beruhend auf der prädiktiven Verteilungs-
dichtefunktion pz(s)
my(s)
1:m−1,
ζ
m=i
ˆ
Σz(s)
m|m,i
. . . . . . . . Geschätzte Kovarianzmatrix beruhend auf der A-posteriori-
Verteilungsdichtefunktion pz(s)
my(s)
1:m,
ζ
m=i
ˆ
Σz(s)
m|m,i,k
. . . . . . . Geschätzte Kovarianzmatrix beruhend auf der A-posteriori-
Verteilungsdichtefunktion pz(s)
my(s)
1:m,
ζ
m−1=i,
ζ
m=k
τ
h. . . . . . . . . . . . Abklingkonstante der Raumimpulsantwort
φ
k,k′(l). . . . . . . . Zeitdiskrete Hilfsfunktion zur vereinfachten Darstellung der Kreuzband-
filter (definiert in (5.96))
Φk,k′ej
θ
. . . . . Zeitdiskrete FOURIER-Transformierte von
φ
k,k′(l)
χ
h(l). . . . . . . . . . Zeitdiskrete Indikatorfunktion der Raumimpulsantwort
χ(s)
m. . . . . . . . . . Zusammengesetzter Vektor bestehend aus LCzeitlich aufeinanderfolgen-
den Vektoren der log-MEL-spektralen Koeffizienten des sauberen Sprach-
signals, d.h. x(s)
m,...,x(s)
m−LC+1
ˆχ(s),[r]
m|m,i. . . . . . . . Teilvektor von ˆ
z(s),[r]
m|m,ibestehend aus Schätzungen von LCaufeinanderfol-
genden LMSK-Vektoren des sauberen Sprachsignals
ψ
i. . . . . . . . . . . . Wahrscheinlichkeit für die Aktivität des i-ten Teilmodells des SLDM in-
nerhalb der ersten LAR Merkmalsvektoren einer Sprachäußerung
ψ
{l}
i. . . . . . . . . . Wahrscheinlichkeit für die Aktivität des i-ten Teilmodells des SLDM in-
nerhalb der ersten LAR Merkmalsvektoren einer Sprachäußerung berech-
net nach der l-ten EM-Iteration
Abbildungsverzeichnis
2.1. Prinzipieller Aufbau eines statistischen Spracherkennungssystems. . . . . . 6
2.2. Blockschaltbild zur Extraktion von MFCCs aus einem zeitdiskreten akusti-
schen Signal gemäß einer leichten Abwandlung des ETSI-Standards. . . . . 7
2.3. Beispielhafte Raumimpulsantwort gemessen in einem großen Büro. . . . . 13
2.4. Energieabfallkurve zur Raumimpulsantwort in Abb. 2.3. . . . . . . . . . . 14
2.5. Trajektorien der log-MEL-spektralen Merkmale einer sauberen und verhall-
ten Version eines beispielhaften Sprachsignals. . . . . . . . . . . . . . . . 16
5.1. Blockschaltbild zum Konzept der BAYES’schen Merkmalsverbesserung. . . 42
5.2. Approximationen der Verteilungsdichtefunktionen der log-MEL-spektralen
Repräsentationen der RIA durch normierte Histogramme, resultierend aus
MONTE-CARLO-Simulationen einerseits, sowie aus einer analytischen Dar-
stellung andererseits, für eine Nachhallzeit von T60 =0,1s. . . . . . . . . . 69
5.3. Approximationen der Verteilungsdichtefunktionen der log-MEL-spektralen
Repräsentationen der RIA durch normierte Histogramme, resultierend aus
MONTE-CARLO-Simulationen einerseits, sowie aus einer analytischen Dar-
stellung andererseits, für eine Nachhallzeit von T60 =0,8s. . . . . . . . . . 70
5.4. Log-MEL-spektrale Repräsentation der RIA aus Abb. 2.3. . . . . . . . . . . 74
5.5. Trajektorien der log-MEL-spektralen Merkmale eines beispielhaften verhall-
ten Sprachsignals und Approximationen durch unterschiedliche Beobach-
tungsmodelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
6.1. Zur Anwendung der Spiegelquellenmethode verwendeter virtueller Raum. . 101
6.2. Spektralradius
ρ
ˆ
Σˆ
v(s)der empirisch berechneten Kovarianzmatrix des Beob-
achtungsfehlers ˆ
Σˆ
v(s)in Abhängigkeit von
α
h. . . . . . . . . . . . . . . . . 102
6.3. Approximative log-MEL-spekrale Repräsentationen der RIAs
µ
˘
¯
hm,qder bei-
den virtuellen Räume der AURORA5-Datenbank. . . . . . . . . . . . . . . 102
6.4. Empirisch berechnete Kovarianzmatrizen des Beobachtungsfehlers ˆ
Σˆ
v(s)er-
mittelt auf der AURORA5-Datenbank für die beiden untersuchten virtuellen
Räume für verschiedene Werte von
α
h. . . . . . . . . . . . . . . . . . . . . 103
6.5. Empirisch berechnete normierte Histogramme ausgewählter Komponenten
ˆv(s)
m,qdes Beobachtungsfehlervektors für das Wohnzimmerszenario der modi-
fizierten AURORA4-Datenbank sowie zugehörige Approximationen durch
GAUSS-Verteilungsdichtefunktionen. . . . . . . . . . . . . . . . . . . . . . 104
165
166
Abbildungsverzeichnis
6.6. Empirisch berechnete normierte Histogramme des Beobachtungsfehlers für
unterschiedliche Rekursionslängen LRdes Beobachtungsmodells und zwei
ausgewählte MEL-Bänder (q=0 und q=22), ermittelt für das Wohnzimmer
auf der modifizierten AURORA4-Datenbank. . . . . . . . . . . . . . . . . 105
6.7. Trajektorien der log-MEL-spektralen Merkmale eines beispielhaften Sprach-
signals der AURORA5-Datenbank zugehörig zu der Ziffernkettenäußerung
“one,one,six,eight,five,two,two”. . . . . . . . . . . . . . . . . . . . . . 108
6.8. Wortfehlerraten sowie mit 10−7skalierte Werte der Loglikelihoodfunktion in
Abhängigkeit von der Anzahl der für das Training des A-priori-Sprachmo-
dells verwendeten EM-Iterationen für beispielhaft ausgewählte initiale Para-
metermengen für das Wohnzimmer. . . . . . . . . . . . . . . . . . . . . . 113
6.9. Histogramme der minimalen Wortfehlerrate
λ
j
w,MIN für das Wohnzimmer. . 114
A.1. Zur Erstellung der AURORA5-Datenbank verwendete RIAs. . . . . . . . . 150
A.2. Log-MEL-spektrale Repräsentationen ¯
hm,qder RIAs, die ursprünglich zur
Erstellung der AURORA5-Datenbank verwendet worden sind. . . . . . . . 151
Tabellenverzeichnis
2.1. Zur Merkmalsextraktion verwendete Parameter. . . . . . . . . . . . . . . . 10
6.1. Wortfehlerraten
λ
w[%] für die AURORA5-Datenbank erzielt mit dem ETSI-
SFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
6.2. Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit dem
ETSI-SFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
6.3. Wortfehlerraten
λ
w[%] für die AURORA5-Datenbank erzielt mit alternati-
ven Verfahren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.4. Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit alter-
nativen Verfahren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.5. Wortfehlerraten
λ
w[%] erzielt mit Hilfe der Merkmalsverbesserung auf der
AURORA5-Datenbank. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.6. Echtzeitfaktoren für die Merkmalsverbesserung für das Wohnzimmer. . . . 109
6.7. Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifi-
zierten AURORA4-Datenbank für I=1. . . . . . . . . . . . . . . . . . . . 109
6.8. Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifi-
zierten AURORA4-Datenbank für das Büro. . . . . . . . . . . . . . . . . . 110
6.9. Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifi-
zierten AURORA4-Datenbank für das Wohnzimmer. . . . . . . . . . . . . 111
6.10. Fehlerraten [%] für verschiedene Ordnungen LAR des A-priori-Sprachmo-
dells bestehend aus einem Teilmodell, d.h. I=1. . . . . . . . . . . . . . . 115
6.11. Wortfehlerraten
λ
w[%] erzielt mit dem rekursiven Beobachtungsmodell und
der IMM-Schätzung auf der AURORA5-Datenbank. . . . . . . . . . . . . 116
6.12. Fehlerraten [%] erzielt mit dem rekursiven Beobachtungsmodell und der
IMM-Schätzung auf der AURORA4-Datenbank. . . . . . . . . . . . . . . . 117
6.13. Echtzeitfaktoren für die Merkmalsenthallung unter Verwendung des rekursi-
ven Beobachtungsmodells. . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.14. Wortfehlerraten
λ
w[%] in Abhängigkeit von den Standardabweichungen für
die Schätzfehler in den RIA-Parametern für die AURORA5-Datenbank. . . 120
6.15. Wortfehlerraten
λ
w[%] in Abhängigkeit von den Standardabweichungen für
die Schätzfehler in den RIA-Parametern für die AURORA4-Datenbank. . . 120
6.16. Fehlerraten [%] für ausgewählte Kombinationen von unterschiedlichen Trai-
ningsbedingungen und der An- bzw. Abwesenheit der Merkmalsverbesserung.121
6.17. Wortfehlerraten
λ
w[%] für die AURORA5-Datenbank erzielt mit der ge-
meinsamen Merkmalsenthallung und -entstörung. . . . . . . . . . . . . . . 123
6.18. Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit der
gemeinsamen Merkmalsenthallung und -entstörung. . . . . . . . . . . . . . 123
167
Literaturverzeichnis
[AB57] J. Aitchison und J. A. C. Brown: The Lognormal Distribution: with Special
Reference to its Uses in Economics, Cambridge University Press, Cambridge,
1957.
[AC07a] Y. Avargel und I. Cohen: „On Multiplicative Transfer Function Approxima-
tion in the Short-Time Fourier Transform Domain“, IEEE Signal Processing
Letters, Band 14(5), S. 337–340, Mai 2007.
[AC07b] Y. Avargel und I. Cohen: „System Identification in the Short-Time Fourier
Transform Domain With Crossband Filtering“, IEEE Transactions on Audio,
Speech, and Language Processing, Band 15(4), S. 1305–1319, Mai 2007.
[All79] J. B. Allen: „Image Method for Efficiently Simulating Small-Room Acous-
tics“, The Journal of the Acoustical Society of America, Band 65(4), S. 943–
950, Apr. 1979.
[AMGC02] M. Arulampalam, S. Maskell, N. Gordon und T. Clapp: „A Tutorial on Particle
Filters for Online Nonlinear/Non-Gaussian Bayesian Tracking“, IEEE Trans-
actions on Signal Processing, Band 50(2), S. 174–188, Febr. 2002.
[Ata95] B. S. Atal: „Speech Technology in 2001: New Research Directions“, Pro-
ceedings of the National Academy of Sciences of the United States of America,
Band 92(22), S. 10046–10051, Okt. 1995.
[ATH97] C. Avendano, S. Tibrewala und H. Hermansky: „Multiresolution Channel Nor-
malization for ASR in Reverberant Environments“, Proc. of European Confer-
ence on Speech Communication and Technology (EUROSPEECH), S. 1107–
1110, Rhodes, Greece, Sept. 1997.
[AV07] D. Arthur und S. Vassilvitskii: „K-Means++: the Advantages of Careful Seed-
ing“, Proc. of Symposium on Discrete Algorithms (SODA), S. 1027–1035,
2007.
[Ave97] C. Avendano: Temporal Processing of Speech in a Time-Feature Space, Dis-
sertation, Oregon Graduate Institute of Science & Technology, 1997.
[BD86] G. E. P. Box und N. R. Draper: Empirical Model-Building and Response Sur-
face, John Wiley & Sons, Inc., New York, NY, USA, 1986.
169
170
Literaturverzeichnis
[BSLK01] Y. Bar-Shalom, X. R. Li und T. Kirubarajan: Estimation with Applications
to Tracking and Navigation: Theory, Algorithms, and Software, Wiley, New
York, 2001.
[CB07] C.-P. Chen und J. A. Bilmes: „MVA Processing of Speech Features“, IEEE
Transactions on Audio, Speech, and Language Processing, Band 15(1), S.257–
270, 2007.
[CC04] L. Couvreur und C. Couvreur: „Blind Model Selection for Automatic Speech
Recognition in Reverberant Environments“, Band 36(2/3), S. 189–203, 2004.
[CGJV01] M. Cooke, P. Green, L. Josifovski und A. Vizinho: „Robust Automatic Speech
Recognition with Missing and Unreliable Acoustic Data“, Speech Communi-
cation, Band 34(3), S. 267–285, 2001.
[CR83] R. E. Crochiere und L. R. Rabiner: Multirate Digital Signal Processing, Pren-
tice Hall, 1983.
[CZ98] R. A. Cole und V. Zue: „Spoken Language Input“, R. A. Cole, J. Mariani,
H. Uszkoreit, A. Zaenen, V. Zue, G. Varile und A. Zampolli, Hrsg., Survey
of the State of the Art in Human Language Technology (Studies in Natural
Language Processing), S. 1–62, Cambridge University Press, 1998.
[DBY07] J. Deng, M. Bouchard und T. H. Yeap: „Noisy Speech Feature Estimation on
the Aurora2 Database Using a Switching Linear Dynamic Model“, Journal of
Multimedia, Band 2(2), S. 47–52, 2007.
[DHM07] M. Delcroix, T. Hikichi und M. Miyoshi: „Precise Dereverberation Using Mul-
tichannel Linear Prediction“, IEEE Transactions on Audio, Speech, and Lan-
guage Processing, Band 15(2), S. 430–440, Febr. 2007.
[DHS01] R. O. Duda, P. E. Hart und D. G. Stork: Pattern Classification, Wiley-
Interscience, 2. Aufl., Nov. 2001.
[DLR77] A. P. Dempster, N. M. Laird und D. B. Rubin: „Maximum Likelihood from In-
complete Data via the EM Algorithm“, Journal of the Royal Statistical Society.
Series B (Methodological), Band 39(1), S. 1–38, 1977.
[dlTPS+05] A. de la Torre, A. Peinado, J. Segura, J. Perez-Cordoba, M. Benitez und
A. Rubio: „Histogram Equalization of Speech Representation for Robust
Speech Recognition“, IEEE Transactions on Speech and Audio Processing,
Band 13(3), S. 355–366, Mai 2005.
[DM80] S. Davis und P. Mermelstein: „Comparison of Parametric Representations for
Monosyllabic Word Recognition in Continuously Spoken Sentences“, IEEE
Transactions on Acoustics, Speech, and Signal Processing, Band 28(4), S.357–
366, Aug. 1980.
Literaturverzeichnis
171
[DNW09] M. Delcroix, T. Nakatani und S. Watanabe: „Static and Dynamic Variance
Compensation for Recognition of Reverberant Speech With Dereverberation
Preprocessing“, IEEE Transactions on Audio, Speech, and Language Process-
ing, Band 17(2), S. 324–334, Febr. 2009.
[ETSa] ETSI: ETSI standard document, Speech Processing, Transmission and Qual-
ity Aspects (STQ); Distributed speech recognition; Advanced front-end fea-
ture extraction algorithm; Compression algorithms, ETSI ES 202 050 V1.1.5
(2007-01).
[ETSb] ETSI: ETSI standard document, Speech Processing, Transmission and Quality
Aspects (STQ); Distributed speech recognition; Front-end feature extraction
algorithm; Compression algorithms, ETSI ES 201 108 V1.1.3 (2003-09).
[FJZE85] J. L. Flanagan, J. D. Johnston, R. Zahn und G. W. Elko: „Computer-Steered
Microphone Arrays for Sound Transduction in Large Rooms“, The Journal of
the Acoustical Society of America, Band 78(5), S. 1508–1518, 1985.
[FR94] S. Farkash und S. Raz: „Linear Systems in Gabor Time-Frequency Space“,
IEEE Transactions on Signal Processing, Band 42(3), S. 611–617, März 1994.
[Fur81] S. Furui: „Cepstral Analysis Technique for Automatic Speaker Verification“,
IEEE Transactions on Acoustics, Speech, and Signal Processing, Band 29(2),
S. 254–272, 1981.
[Gal98] M. J. F. Gales: „Maximum Likelihood Linear Transformations for HMM-
Based Speech Recognition“, Band 12(2), S. 75–98, 1998.
[Gan08] S. Gannot: „Multi-Microphone Speech Dereverberation Based on Eigen-
Decomposition: A Study“, Proc. of Asilomar Conference on Signals, Systems
and Computers (ACSSC), S. 801–805, Pacific Grove, CA, USA, Okt. 2008.
[Gan10] S. Gannot: „Multi-Microphone Speech Dereverberation Using Eigen-
Decomposition“, P. A. N. und Nikolay D. Gaubitch, Hrsg., Speech Derever-
beration, Kap. 5, Springer, 2010.
[GC89] L. Gillick und S. Cox: „Some Statistical Issues in the Comparison of Speech
Recognition Algorithms“, Proc. of IEEE International Conference on Acous-
tics, Speech and Signal Processing (ICASSP), Band 1, S. 532–535, Mai 1989.
[GD97] D. Gesbert und P. Duhamel: „Robust Blind Channel Identification and Equal-
ization Based on Multi-Step Predictors“, Proc. of IEEE International Confer-
ence on Acoustics, Speech and Signal Processing (ICASSP), S. 3621–3624,
Munich, Germany, Apr. 1997.
[GK97] S. Greenberg und B. Kingsbury: „The Modulation Spectrogram: In Pursuit of
an Invariant Representation of Speech“, Proc. of IEEE International Confer-
ence on Acoustics, Speech and Signal Processing (ICASSP), S. 1647–1650,
Munich, Germany, Apr. 1997.
172
Literaturverzeichnis
[GM01] D. Gelbart und N. Morgan: „Evaluating Long-Term Spectral Subtraction for
Reverberant ASR“, Proc. of IEEE Workshop on Automatic Speech Recognition
and Understanding (ASRU), S. 103–106, Madonna Di Campiglio, Italy, Dez.
2001.
[GM02] D. Gelbart und N. Morgan: „Double the Trouble: Handling Noise and Rever-
beration in Far-Field Automatic Speech Recognition“, Proc. of International
Conference on Spoken Language Processing (ICSLP), S. 2185–2188, Denver,
CO, USA, Sept. 2002.
[GM03] S. Gannot und M. Moonen: „Subspace Methods for Multi-Microphone Speech
Dereverberation“, Band 11, S. 1074–1090, 2003.
[GMF01] B. Gillespie, H. Malvar und D. Florencio: „Speech Dereverberation via
Maximum-Kurtosis Subband Adaptive Filtering“, Proc. of IEEE International
Conference on Acoustics, Speech and Signal Processing (ICASSP), S. 3701–
3704, Salt Lake City, UT, USA, Mai 2001.
[GMOS99] D. Giuliani, M. Matassoni, M. Omologo und P. Svaizer: „Training of HMM
with Filtered Speech Material for Hands-Free Recognition“, Proc. of IEEE In-
ternational Conference on Acoustics, Speech and Signal Processing (ICASSP),
S. 449–452, Phoenix, AZ, USA, März 1999.
[GN95] M. Gürelli und C. Nikias: „EVAM: An Eigenvector-Based Algorithm for Mul-
tichannel Blind Deconvolution of Input Colored Signals“, IEEE Transactions
on Signal Processing, Band 43(1), S. 134–149, Jan. 1995.
[GNW03] N. Gaubitch, P. Naylor und D. Ward: „On the Use of Linear Prediction for
Dereverberation of Speech“, Proc. of International Workshop on Acoustic
Echo and Noise Control (IWAENC), S. 99–102, Kyoto, Japan, Sept. 2003.
[Gol67] J. L. Goldstein: „Auditory Spectral Filtering and Monaural Phase Perception“,
The Journal of the Acoustical Society of America, Band 41(2), S. 458–479,
1967.
[GPAF04] S. Greenberg, A. N. Popper, W. A. Ainsworth und R. R. Fay: Speech Process-
ing in the Auditory System, Springer Verlag, 2004.
[Gre61] D. D. Greenwood: „Critical Bandwidth and the Frequency Coordinates of
the Basilar Membrane“, The Journal of the Acoustical Society of America,
Band 33(10), S. 1344–1356, 1961.
[GRTN10] N. D. Gaubitch, M. R, P. Thomas und P. A. Naylor: „Dereverberation Us-
ing LPC-based Approaches“, Speech Dereverberation, Kap. 4, S. 95–128,
Springer, 2010.
[GW96] M. J. F. Gales und P. C. Woodland: „Mean and Variance Adaptation within the
MLLR Framework“, Band 10(4), S. 249–264, 1996.
Literaturverzeichnis
173
[GY95] M. F. J. Gales und S. J. Young: „Robust Speech Recognition in Additive and
Convolutional Noise Using Parallel Model Combination“, Computer Speech
& Language, Band 9(4), S. 289–307, 1995.
[Hab04] E. A. P. Habets: „Single-Channel Speech Dereverberation Based on Spectral
Subtraction“, Proc. of Annual Workshop on Circuits, Systems and Signal Pro-
cessing (ProRISC), S. 250–254, Veldhoven, The Netherlands, Nov. 2004.
[Hab07] E. Habets: Single- and Multi-Microphone Speech Dereverberation Using
Spectral Enhancement, Dissertation, Technische Universiteit Eindhoven, Juni
2007.
[HBC08] Y. A. Huang, J. Benesty und J. Chen: „Dereverberation“, J. Benesty, M. M.
Sondhi und Y. A. Huang, Hrsg., Springer Handbook of Speech Processing,
S. 929–944, Springer Berlin Heidelberg, 2008.
[HDM06] T. Hikichi, M. Delcroix und M. Miyoshi: „On Robust Inverse Filtering Design
For Room Transfer Function Fluctuations“, Proc. of European Signal Process-
ing Conference (EUSIPCO), Florence, Italy, Sept. 2006.
[HE95] H. G. Hirsch und C. Ehrlicher: „Noise Estimation Techniques for Robust
Speech Recognition“, Proc. of IEEE International Conference on Acoustics,
Speech and Signal Processing (ICASSP), S. 153–156, Detroit, MI, USA, 1995.
[Her90] H. Hermansky: „Perceptual Linear Predictive (PLP) Analysis of Speech“, The
Journal of the Acoustical Society of America, Band 87(4), S.1738–1752, 1990.
[Her96] J. D. Herre, Jürgen; Johnston: „Enhancing the Performance of Perceptual Au-
dio Coders by Using Temporal Noise Shaping (TNS)“, Proc. of Audio Engi-
neering Society (AES) Convention, Los Angeles, CA, USA, Nov. 1996.
[HF05] H.-G. Hirsch und H. Finster: „The Simulation of Realistic Acoustic Input Sce-
narios for Speech Recognition Systems“, Proc. of Annual Conference of the In-
ternational Speech Communication Association (Interspeech), S. 2697–2700,
Lisbon, Portugal, Sept. 2005.
[HF08] H.-G. Hirsch und H. Finster: „A New Approach for the Adaptation of
HMMs to Reverberation and Background Noise“, Speech Communication,
Band 50(3), S. 244–263, 2008.
[HGH06] H. F. Hans-Günter Hirsch: „A New HMM Adaptation Approach for the Case
of a Hands-Free Speech Input in Reverberant Rooms“, Proc. of Annual Con-
ference of the International Speech Communication Association (Interspeech),
Pittsburgh, PA, USA, Sept. 2006.
[HHW85] H. Hermansky, B. Hanson und H. Wakita: „Perceptually Based Linear Predic-
tive Analysis of Speech“, Proc. of IEEE International Conference on Acous-
tics, Speech and Signal Processing (ICASSP), S. 509–512, Tampa, FL, USA,
Apr. 1985.
174
Literaturverzeichnis
[Hir07] H. Hirsch: „Aurora-5 Experimental Framework for the Performance Evalu-
ation of Speech Recognition in Case of a Hands-free Speech Input in Noisy
Environments“, Tech. Rep., Niederrhein University of Applied Sciences, 2007.
[HM94] H. Hermansky und N. Morgan: „RASTA Processing of Speech“, IEEE Trans-
actions on Speech and Audio Processing, Band 2(4), S. 578–589, Okt. 1994.
[HMBK91] H. Hermansky, N. Morgan, A. Bayya und P. Kohn: „The Challenge of Inverse-
E: the RASTA-PLP Method“, Proc. of Asilomar Conference on Signals, Sys-
tems and Computers (ACSSC), S. 800–804, Pacific Grove, CA, USA, Nov.
1991.
[HNKT00] S. Hirobayashi, H. Nomura, T. Koike und M. Tohyama: „Speech Wave-
form Recovery from a Reverberant Speech Signal Using Inverse Filtering of
the Power Envelope Transfer Function“, Electronics and Communications in
Japan (Part III: Fundamental Electronic Science), Band 83(6), S.77–85, 2000.
[HS85] T. Houtgast und H. J. M. Steeneken: „A Review of the MTF Concept in Room
Acoustics and its Use for Estimating Speech Intelligibility in Auditoria“, The
Journal of the Acoustical Society of America, Band 77(3), S.1069–1077, 1985.
[HSP80] T. Houtgast, H. Steeneken und R. Plomp: „Predicting Speech Intelligibility in
Rooms from the Modulation Transfer Function I General Room Acoustics“,
Acustica, Band 46(1), S. 60–72, 1980.
[IFN10] O. Ichikawa, T. Fukuda und M. Nishimura: „Dynamic Features in the Linear-
Logarithmic Hybrid Domain for Automatic Speech Recognition in a Rever-
berant Environment“, IEEE Journal of Selected Topics in Signal Processing,
Band 4(5), S. 816–823, Okt. 2010.
[Int96] International Telecommunication Union (ITU), Geneva, Switzerland: Recom-
mendation G.712 – Transmission Performance Characteristics of Pulse Code
Modulation Channels, Nov. 1996.
[Iss18] L. Isserlis: „On a Formula for the Product-Moment Coefficient of Any Order
of a Normal Frequency Distribution in Any Number of Variables“, Biometrika,
Band 12(1-2), S. 134–139, 1918.
[KDNM09] K. Kinoshita, M. Delcroix, T. Nakatani und M. Miyoshi: „Suppression of Late
Reverberation Effect on Speech Signal Using Long-Term Multiple-step Linear
Prediction“, IEEE Transactions on Audio, Speech, and Language Processing,
Band 17(4), S. 534–545, Mai 2009.
[KHU10] A. Krueger und R. Haeb-Umbach: „Model-Based Feature Enhancement for
Reverberant Speech Recognition“, IEEE Transactions on Audio, Speech, and
Language Processing, Band 18(7), S. 1692–1707, 2010.
[Kim94] C.-J. Kim: „Dynamic Linear Models with Markov-Switching“, Journal of
Econometrics, Band 60(1-2), S. 1–22, 1994.
Literaturverzeichnis
175
[KK09] K.-D. Kammeyer und K. Kroschel: Digitale Signalverarbeitung - Fil-
terung und Spektralanalyse mit MATLAB R
-Übungen, Vieweg+Teubner-
Verlag, Wiesbaden, 7. Aufl., Apr. 2009.
[KLHU+10] A. Krueger, V. Leutnant, R. Haeb-Umbach, A. Marcel und J. Bloemer: „On the
Initialization of Dynamic Models for Speech Features“, Proc. of ITG Fachta-
gung Sprachkommunikation, Bochum, Okt. 2010.
[KM97] B. Kingsbury und N. Morgan: „Recognizing Reverberant Speech with
RASTA-PLP“, Proc. of IEEE International Conference on Acoustics, Speech
and Signal Processing (ICASSP), S.1259–1262, Munich, Germany, Apr. 1997.
[KMG98] B. E. D. Kingsbury, N. Morgan und S. Greenberg: „Robust Speech Recogni-
tion Using the Modulation Spectrogram“, Speech Communication, Band 25(1-
3), S. 117–132, 1998.
[KNM05] K. Kinoshita, T. Nakatani und M. Miyoshi: „Fast Estimation of a Precise Dere-
verberation Filter based on Speech Harmonicity“, Proc. of IEEE International
Conference on Acoustics, Speech and Signal Processing (ICASSP), S. 1073–
1076, Philadelphia, PA, USA, 2005.
[KNM06] K. Kinoshita, T. Nakatani und M. Miyoshi: „Spectral Subtraction Steered by
Multi-Step Forward Linear Prediction For Single Channel Speech Derever-
beration“, Proc. of IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP), S. 817–820, Toulouse, France, 2006.
[Kut00] H. Kuttruff: Room Acoustics, Spon Press, London, UK, 4. Aufl., 2000.
[Kut04] H. Kuttruff: Akustik: Eine Einführung, S. Hirzel Verlag, 2004.
[LBD01] K. Lebart, J. Boucher und P. Denbigh: „A New Method Based on Spectral
Subtraction for Speech Dereverberation“, Acta Acustica united with Acustica,
Band 87, S. 359–366(8), 2001.
[LS82] T. Langhans und H. Strube: „Speech Enhancement by Nonlinear Multiband
Envelope Filtering“, Proc. of IEEE International Conference on Acoustics,
Speech and Signal Processing (ICASSP), S.156–159, Paris, France, Mai 1982.
[Mak75] J. Makhoul: „Linear Prediction: A Tutorial Review“, Proceedings of the IEEE,
Band 63(4), S. 561–580, Apr. 1975.
[Man64] J. Mandel: The Statistical Analysis of Experimental Data, Interscience, New
York, 1964.
[MH83] J. Mourjopoulos und J. Hammond: „Modelling and Enhancement of Rever-
berant Speech Using an Envelope Convolution Method“, Proc. of IEEE Inter-
national Conference on Acoustics, Speech and Signal Processing (ICASSP),
Band 8, S. 1144–1147, Boston, MA, USA, Apr. 1983.
176
Literaturverzeichnis
[MK88] M. Miyoshi und Y. Kaneda: „Inverse Filtering of Room Acoustics“, IEEE
Transactions on Acoustics, Speech, and Signal Processing, Band 36(2), S.145–
152, Febr. 1988.
[MM10] H. K. Maganti und M. Matassoni: „An Auditory Based Modulation Spectral
Feature for Reverberant Speech Recognition“, Proc. of Annual Conference of
the International Speech Communication Association (Interspeech), S. 570–
573, Makuhari, Japan, Sept. 2010.
[MOG00] M. Matassoni, M. Omologo und D. Giuliani: „Hands-free Speech Recognition
Using a Filtered Clean Corpus and Incremental HMM Adaptation“, Proc. of
IEEE International Conference on Acoustics, Speech and Signal Processing
(ICASSP), S. 1407–1410, Istanbul, Turkey, Juni 2000.
[Mou85] J. Mourjopoulos: „On the Variation and Invertibility of Room Impulse Re-
sponse Functions“, Journal of Sound and Vibration, Band 102(2), S. 217–228,
1985.
[MS95] J. Makhoul und R. Schwartz: „State of the Art in Continuous Speech Recog-
nition“, Proceedings of the National Academy of Sciences of the United States
of America, Band 92(22), S. 9956–9963, 1995.
[Mur98] K. Murphy: „Switching Kalman Filters“, Tech. Rep., U.C. Berkeley, 1998.
[NA79] S. T. Neely und J. B. Allen: „Invertibility of a Room Impulse Response“, The
Journal of the Acoustical Society of America, Band 66(1), S. 165–169, 1979.
[NJKM05] T. Nakatani, B.-H. Juang, K. Kinoshita und M. Miyoshi: „Harmonicity Based
Dereverberation with Maximum A Posteriori Estimation“, Proc. of IEEE ASSP
Workshop on Applications of Signal Processing to Audio and Acoustics, S.94–
97, New Paltz, NY, USA, Okt. 2005.
[NKM07] T. Nakatani, K. Kinoshita und M. Miyoshi: „Harmonicity-Based Blind Dere-
verberation for Single-Channel Speech Signals“, IEEE Transactions on Audio,
Speech, and Language Processing, Band 15(1), S. 80–95, Jan. 2007.
[NM03] T. Nakatani und M. Miyoshi: „Blind Dereverberation of Single Channel
Speech Signal Based on Harmonic Structure“, Proc. of IEEE International
Conference on Acoustics, Speech and Signal Processing (ICASSP), S. 92–95,
Hong Kong, Hong Kong, Apr. 2003.
[NMK05] T. Nakatani, M. Miyoshi und K. Kinoshita: „Single-Microphone Blind Dere-
verberation“, T. Nakatani, M. Miyoshi und K. Kinoshita, Hrsg., Speech En-
hancement, Signals and Communication Technology, S. 247–270, Springer
Berlin Heidelberg, 2005.
[NYK+08] T. Nakatani, T. Yoshioka, K. Kinoshita, M. Miyoshi und B.-H. Juang: „Blind
Speech Dereverberation with Multi-Channel Linear Prediction Based on Short
Time Fourier Transform Representation“, Proc. of IEEE International Con-
ference on Acoustics, Speech and Signal Processing (ICASSP), S. 85–88, Las
Vegas, NV, USA, Apr. 2008.
Literaturverzeichnis
177
[OSB99] A. V. Oppenheim, R. W. Schafer und J. R. Buck: Discrete-Time Signal Pro-
cessing, Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 2. Aufl., 1999.
[PB92] D. B. Paul und J. M. Baker: „The Design for the Wall Street Journal-based
CSR corpus“, Proc. of International Conference on Spoken Language Pro-
cessing (ICSLP), S. 899–902, Banff, Alberta, Canada, Okt. 1992.
[PBB02] K. J. Palomaki, G. J. Brown und J. Barker: „Missing Data Speech Recogni-
tion in Reverberant Conditions“, Proc. of IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP), S. 65–68, Orlando, FL,
USA, Mai 2002.
[PBB04] K. J. Palomäki, G. J. Brown und J. P. Barker: „Techniques for Handling Con-
volutional Distortion with ‘Missing Data’ Automatic Speech Recognition“,
Speech Communication, Band 43(1-2), S. 123–142, 2004.
[PLLH08] R. Petrick, K. Lohde, M. Lorenz und R. Hoffmann: „A New Feature Analy-
sis Method for Robust ASR in Reverberant Environments Based on the Har-
monic Structure of Speech“, Proc. of European Signal Processing Conference
(EUSIPCO), Lausanne, Switzerland, Aug. 2008.
[PLU+08] R. Petrick, X. Lu, M. Unoki, M. Akagi und R. Hoffmann: „Robust Front End
Processing for Speech Recognition in Reverberant Environments: Utilization
of Speech Characteristics“, Proc. of Annual Conference of the International
Speech Communication Association (Interspeech), S.658–661, Brisbane, Aus-
tralia, Sept. 2008.
[Pol88] J. Polack: La Transmission de l’Énergie Sonore dans les Salles, Dissertation,
Université du Maine, 1988.
[PP02] N. Parihar und J. Picone: „DSR Front End LVCSR Evaluation“, Tech. Rep.
AU/384/02, Aurora Working Group, 2002.
[PP08] K. B. Petersen und M. S. Pedersen: The Matrix Cookbook, Technical Uni-
versity of Denmark, Okt. 2008, [URL] http://www2.imm.dtu.dk/pubdb/p.php?
3274, Version 20081110.
[PRH+92] R. Patterson, K. Robinson, J. Holdsworth, D. McKeown, C. Zhang und
M. Allerhand: „Complex Sounds and Auditory Images“, Y. Cazals, L. De-
many, und K. Horner, Hrsg., Auditory Physiology and Perception, S. 429–446,
Pergamon, Oxford, 1992.
[PS06] F. Pacheco und R. Seara: „Spectral Subtraction for Reverberation Reduction
Applied to Automatic Speech Recognition“, Proc. of International Telecom-
munications Symposium (ITS), S. 795–800, Fortaleza, Ceara, Brazil, Sept.
2006.
[QC93] S. Qian und D. Chen: „Discrete Gabor Transform“, IEEE Transactions on
Signal Processing, Band 41(7), S. 2429–2438, Juli 1993.
178
Literaturverzeichnis
[Ric09] P. Rico: Robuste Spracherkennung unter raumakustischen Umgebungsbedin-
gungen, Dissertation, Technische Universität Dresden, 2009.
[RJ93] L. Rabiner und B. H. Juang: Fundamentals of Speech Recognition, Prentice
Hall, 1993.
[RJO04] R. Ratnam, D. Jones und J. O’Brien, W.D.: „Fast Algorithms for Blind Esti-
mation of Reverberation Time“, IEEE Signal Processing Letters, Band 11(6),
S. 537 – 540, Juni 2004.
[RJW+03] R. Ratnam, D. L. Jones, B. C. Wheeler, W. D. O’Brien, C. R. Lansing und
A. S. Feng: „Blind Estimation of Reverberation Time“, The Journal of the
Acoustical Society of America, Band 114(5), S. 2877–2892, Nov. 2003.
[RLS94] A. E. Rosenberg, C.-H. Lee und F. K. Soong: „Cepstral Channel Normaliza-
tion Techniques for HMM-Based Speaker Verification“, Proc. of International
Conference on Spoken Language Processing (ICSLP), S. 1835–1838, 1994.
[RNS05a] C. Raut, T. Nishimoto und S. Sagayama: „Maximum Likelihood Based HMM
State Filtering Approach to Model Adaptation for Long Reverberation“, Proc.
of IEEE Workshop on Automatic Speech Recognition and Understanding
(ASRU), S. 353–356, Nov. 2005.
[RNS05b] C. K. Raut, T. Nishimoto und S. Sagayama: „Acoustic Model Adaptation for
Reverberant Speech by State Splitting of HMM and Convolution of Distribu-
tions“, Techn. Report of Institute of Electronics, Information and Communica-
tion Engineers (IEIC), Band 104, S. 37–42, 2005.
[RNS05c] C. K. Raut, T. Nishimoto und S. Sagayama: „Model Adaptation by State Split-
ting of HMM for Long Reverberation“, Proc. of European Conference on
Speech Communication and Technology (EUROSPEECH), S. 277–280, Lis-
bon, Portugal, Sept. 2005.
[RWK00] B. Radlovic, R. Williamson und R. Kennedy: „Equalization in an Acoustic
Reverberant Environment: Robustness Results“, IEEE Transactions on Speech
and Audio Processing, Band 8(3), S. 311–319, Mai 2000.
[SC00] M. Shire und B. Chen: „Data-Driven RASTA Filters in Reverberation“, Proc.
of IEEE International Conference on Acoustics, Speech and Signal Processing
(ICASSP), S. 1627–1630, Istanbul, Turkey, Juni 2000.
[Sch65] M. R. Schroeder: „New Method of Measuring Reverberation Time“, The Jour-
nal of the Acoustical Society of America, Band 37(6), S. 1187–1188, 1965.
[SCI75] J. Stockham, T.G., T. Cannon und R. Ingebretsen: „Blind Deconvolution
Through Digital Signal Processing“, Proceedings of the IEEE, Band 63(4),
S. 678–692, Apr. 1975.
Literaturverzeichnis
179
[SFB01] V. Stahl, A. Fischer und R. Bippus: „Acoustic Synthesis of Training Data
for Speech Recognition in Living Room Environments“, Proc. of IEEE Inter-
national Conference on Acoustics, Speech and Signal Processing (ICASSP),
S. 21–24, Salt Lake City, Utah, Mai 2001.
[SK08] A. Sehr und W. Kellermann: „Towards Robust Distant-Talking Auto-
matic Speech Recognition in Reverberant Environments“, E. Hänsler und
G. Schmidt, Hrsg., Speech and Audio Processing in Adverse Environments,
Signals and Communication Technology, S. 679–728, Springer Berlin Heidel-
berg, 2008.
[SMK10] A. Sehr, R. Maas und W. Kellermann: „Reverberation Model-Based Decoding
in the Logmelspec Domain for Robust Distant-Talking Speech Recognition“,
IEEE Transactions on Audio, Speech, and Language Processing, Band 18(7),
S. 1676–1691, 2010.
[SMK11] A. Sehr, R. Maas und W. Kellermann: „Frame-Wise HMM Adaptation Using
State-Dependent Reverberation Estimates“, Proc. of IEEE International Con-
ference on Acoustics, Speech and Signal Processing (ICASSP), Prague, Czech
Republik, Mai 2011.
[SPW96] S. Subramaniam, A. Petropulu und C. Wendt: „Cepstrum-Based Deconvolu-
tion for Speech Dereverberation“, IEEE Transactions on Speech and Audio
Processing, Band 4(5), S. 392–396, Sept. 1996.
[ST95] E. G. Schukat-Talamazzini: Automatische Spracherkennung - Grundla-
gen, statistische Modelle und effiziente Algorithmen, Künstliche Intelligenz,
Vieweg, 1995.
[SZK06] A. Sehr, M. Zeller und W. Kellermann: „Distant-Talking Continuous Speech
Recognition Based on a Novel Reverberation Model in the Feature Domain“,
Proc. of Annual Conference of the International Speech Communication Asso-
ciation (Interspeech), S. 769–772, Pittsburgh, PA, USA, Sept. 2006.
[TGH08a] S. Thomas, S. Ganapathy und H. Hermansky: „Hilbert Envelope Based Fea-
tures for Far-Field Speech Recognition“, Proc. of Joint Workshop on Ma-
chine Learning and Multimodal Interaction (MLMI), S.119–124, Utrecht, The
Netherlands, Sept. 2008.
[TGH08b] S. Thomas, S. Ganapathy und H. Hermansky: „Recognition of Reverberant
Speech Using Frequency Domain Linear Prediction“, IEEE Signal Processing
Letters, Band 15, S. 681–684, 2008.
[TN04] T. Takiguchi und M. Nishimura: „Acoustic Model Adaptation Using First Or-
der Prediction for Reverberant Speech“, Proc. of IEEE International Confer-
ence on Acoustics, Speech and Signal Processing (ICASSP), S.869–872, Mon-
treal, Quebec, Canada, Mai 2004.
180
Literaturverzeichnis
[TS05] M. Triki und D. T. M. Slock: „Blind Dereverberation of a Single Source
Based on Multichannel Linear Prediction“, Proc. of International Workshop
on Acoustic Echo and Noise Control (IWAENC), S. 173–176, Eindhoven, The
Netherlands, Sept. 2005.
[TTN06] A. M. Toh, R. Togneri und S. Nordholm: „Combining MLLR Adaptation and
Feature Extraction for Robust Speech Recognition in Reverberant Environ-
ments“, Proc. of International Conference on Speech Science and Technology
(SST), S. 88–93, Auckland, New Zealand, Dez. 2006.
[TTN07] A. M. Toh, R. Togneri und S. Nordholm: „Feature and Distribution Normal-
ization Schemes for Statistical Mismatch Reduction in Reverberant Speech
Recognition“, Proc. of Annual Conference of the International Speech Com-
munication Association (Interspeech), S. 234–237, Antwerp, Belgium, Aug.
2007.
[TW02] F. Talantzis und D. Ward: „Investigation of Performance of Acoustic Arrays
for Equalization in a Reverberant Environment“, Proc. of International Con-
ference on Digital Signal Processing (DSP), S. 247–250, Santorini, Greece,
Juli 2002.
[UFSA03] M. Unoki, M. Furukawa, K. Sakata und M. Akagi: „A Method Based on the
MTF Concept for Dereverberating the Power Envelope from the Reverberant
Signal“, Proc. of IEEE International Conference on Acoustics, Speech and
Signal Processing (ICASSP), S. 888–891, Hong Kong, China, Apr. 2003.
[UN98] N. Ueda und R. Nakano: „Deterministic Annealing EM Algorithm“, Neural
Networks, Band 11(2), S. 271–282, 1998.
[VL98] O. Viikki und K. Laurila: „Cepstral Domain Segmental Feature Vector Nor-
malization for Noise Robust Speech Recognition“, Speech Communication,
Band 25(1-3), S. 133–147, 1998.
[VM06] P. Vary und R. Martin: Digital Speech Transmission: Enhancement, Coding
and Error Concealment, JohnWiley & Sons, 2006.
[vVH97] S. van Vuuren und H. Hermansky: „Data-Driven Design of RASTA-Like Fil-
ters“, Proc. of European Conference on Speech Communication and Technol-
ogy (EUROSPEECH), S. 409–412, Rhodes, Greece, Sept. 1997.
[WHN08] J. Wen, E. Habets und P. Naylor: „Blind Estimation of Reverberation Time
Based on the Distribution of Signal Decay Rates“, Proc. of IEEE International
Conference on Acoustics, Speech and Signal Processing (ICASSP), S. 329 –
332, Las Vegas, USA, Apr. 2008.
[Wöl09] M. Wölfel: „Enhanced Speech Features by Single-Channel Joint Compensa-
tion of Noise and Reverberation“, IEEE Transactions on Audio, Speech, and
Language Processing, Band 17(2), S. 312–323, Febr. 2009.
Literaturverzeichnis
181
[WR90] J. Wexler und S. Raz: „Discrete Gabor Expansions“, Signal Processing,
Band 21(3), S. 207–220, Nov. 1990.
[WSNK09] J. Y. C. Wen, A. Sehr, P. A. Naylor und W. Kellermann: „Blind Estima-
tion of a Feature-Domain Reverberation Model in Non-Diffuse Environments
with Variance Adjustment“, Proc. of European Signal Processing Conference
(EUSIPCO), S. 175–178, Glasgow, Scotland, Aug. 2009.
[YEG+06] S. J. Young, G. Evermann, M. J. F. Gales, T. Hain, D. Kershaw, G. Moore,
J. Odell, D. Ollason, D. Povey, V. Valtchev und P. C. Woodland: The HTK
Book, version 3.4, Cambridge University Engineering Department, Cam-
bridge, UK, 2006.
[YM00] B. Yegnanarayana und P. Murthy: „Enhancement of Reverberant Speech Using
LP Residual Signal“, IEEE Transactions on Speech and Audio Processing,
Band 8(3), S. 267–281, Mai 2000.
[YNM09] T. Yoshioka, T. Nakatani und M. Miyoshi: „Integrated Speech Enhancement
Method Using Noise Suppression and Dereverberation“, IEEE Transactions
on Audio, Speech, and Language Processing, Band 17(2), S. 231–246, Febr.
2009.
[YNS04] H. Yamamoto, T. Nishimoto und S. Sagayama: „Frame-by-Frame HMM
Adaptation for Reverberant Speech Recognition“, Proc. of Special Workshop
in Maui (SWIM), Maui, Jan. 2004.
[You08] S. Young: „HMMs and Related Speech Recognition Technologies“, J. Ben-
esty, M. Mohan Sondhi und Y. Huang, Hrsg., Springer Handbook of Speech
Processing, Kap. 27, Springer, Berlin, 2008.
Eigene Publikationen
[HUKus] R. Haeb-Umbach und A. Krueger: „Reverberant Speech Recognition“, T. Vir-
tanen, B. Raj und R. Singh, Hrsg., Techniques for Noise Robustness in
Automatic Speech Recognition, Kap. 10, John Wiley & Sons, Ltd., Veröf-
fentlichung steht noch aus.
[KHU09] A. Krueger und R. Haeb-Umbach: „Model Based Feature Enhancement for
Automatic Speech Recognition in Reverberant Environments“, Proc. of An-
nual Conference of the International Speech Communication Association
(Interspeech), S. 1231–1234, Brighton, U.K., Sept. 2009.
[KHU10] A. Krueger und R. Haeb-Umbach: „Model-Based Feature Enhancement for
Reverberant Speech Recognition“, IEEE Transactions on Audio, Speech, and
Language Processing, Band 18(7), S. 1692–1707, 2010.
[KHU11a] A. Krueger und R. Haeb-Umbach: „MAP-Based Estimation of the Parameters
of Non-Stationary Gaussian Processes from Noisy Observations“, Proc. of
IEEE International Conference on Acoustics, Speech and Signal Processing
(ICASSP), Prague, Czech Republic, Mai 2011.
[KHU11b] A. Krueger und R. Haeb-Umbach: „A Model Based Approach to Joint Com-
pensation of Noise and Reverberation for Speech Recognition“, R. Haeb-
Umbach und D. Kolossa, Hrsg., Robust Speech Recognition of Uncertain or
Missing Data, Kap. 10, Springer, 2011.
[KLHU+10] A. Krueger, V. Leutnant, R. Haeb-Umbach, A. Marcel und J. Bloemer: „On
the Initialization of Dynamic Models for Speech Features“, Proc. of ITG
Fachtagung Sprachkommunikation, Bochum, Okt. 2010.
[KWHU08] A. Krueger, E. Warsitz und R. Haeb-Umbach: „Blinde Akustische Strahlfor-
mung für Anwendungen im KFZ“, Proc. of Deutsche Jahrestagung für
Akustik (DAGA), S. 863–864, Dresden, März 2008.
[KWHU11] A. Krueger, E. Warsitz und R. Haeb-Umbach: „Speech Enhancement With a
GSC-Like Structure Employing Eigenvector-Based Transfer Function Ratios
Estimation“, IEEE Transactions on Audio, Speech, and Language Processing,
Band 19(1), S. 206–219, 2011.
183
184
Eigene Publikationen
[LKHU11] V. Leutnant, A. Krueger und R. Haeb-Umbach: „A Versatile Gaussian Split-
ting Approach to Non-Linear State Estimation and Its Application to Noise-
Robust ASR“, Proc. of Annual Conference of the International Speech Com-
munication Association (Interspeech), Florence, Italy, Aug. 2011.
[RWKHU10] B. Raj, K. Wilson, A. Krueger und R. Haeb-Umbach: „Ungrounded Inde-
pendent Non-Negative Factor Analysis“, Proc. of Annual Conference of the
International Speech Communication Association (Interspeech), S. 330–333,
Makuhari, Japan, Sept. 2010.
[TVKHU08] D. H. Tran Vu, A. Krueger und R. Haeb-Umbach: „Generalized Eigenvec-
tor Blind Speech Separation Under Coherent Noise in a GSC Configura-
tion“, Proc. of International Workshop on Acoustic Echo and Noise Control
(IWAENC), Seattle, Washington, USA, Sept. 2008.
[WKHU08] E. Warsitz, A. Krueger und R. Haeb-Umbach: „Speech Enhancement With a
New Generalized Eigenvector Blocking Matrix for Application in a General-
ized Sidelobe Canceller“, Proc. of IEEE International Conference on Acous-
tics, Speech and Signal Processing (ICASSP), S.73–76, Las Vegas, NV, USA,
März 2008.