Document [original]

Modellbasierte Merkmalsverbesserung

zur robusten automatischen Spracherkennung

in Gegenwart von Nachhall und Hintergrundstörungen

Von der Fakultät für Elektrotechnik, Informatik und Mathematik

der Universität Paderborn

zur Erlangung des akademischen Grades

Doktor der Ingenieurwissenschaften (Dr.-Ing.)

genehmigte Dissertation

von

Dipl.-Math. Alexander Krüger

Erster Gutachter: Prof. Dr.-Ing. Reinhold Häb-Umbach

Zweiter Gutachter: Prof. Dr.-Ing. Klaus Meerkötter

Tag der mündlichen Prüfung: 16. Dezember 2011

Paderborn 2011

Diss. EIM-E/282

Danksagung

Die vorliegende Arbeit entstand während meiner Tätigkeit im Fachgebiet Nachrichtentech-

nik der Universität Paderborn. Während der ersten drei Jahre gehörte ich dabei dem Gra-

duiertenkolleg des Paderborn Institute for Scientific Computation (PaSCo) als Mitglied an,

für dessen wissenschaftliche und finanzielle Förderung in Form eines Stipendiums ich mich

hiermit herzlich bedanke.

Mein besonderer Dank gilt dem Leiter des Fachgebiets Nachrichtentechnik, Herrn Prof.

Dr.-Ing. Reinhold Häb-Umbach, für eine angenehme Arbeitsatmosphäre sowie eine hervor-

ragende Betreuung durch zahlreiche fachliche Ratschläge und Diskussionen, die wesentlich

zum Erfolg der Arbeit beigetragen haben. Weiterhin danke ich Herrn Prof. Dr.-Ing. Klaus

Meerkötter für die Übernahme des Korreferates dieser Arbeit und ebenfalls für viele fachli-

che Gespräche, die sich stets als positive Denkanregungen auch im Hinblick auf diese Arbeit

erwiesen.

Allen meinen Arbeitskollegen im Fachgebiet Nachrichtentechnik danke ich für ihre steti-

ge Hilsbereitschaft und eine freundschaftliche Arbeitsatmosphäre. Einen besonderen Dank

möchte ich in diesem Zusammenhang Herrn Dipl.-Ing. Volker Leutnant, Herrn Dipl.-Ing.

Dang Hai Tran Vu, Herrn Dr.-Ing. Maik Bevermeier sowie Herrn Dr.-Ing. Jörg Schmalen-

ströer aussprechen. In zahlreichen fachlichen Diskussionen mit ihnen sind viele wertvolle

Ideen entstanden, die in diese Arbeit eingeflossen sind.

Herrn Dipl.-Ing. Volker Leutnant sowie meinem Bruder, Herrn Waldemar Krüger, danke

ich für ein sorgfältiges Korrekturlesen dieser Dissertation und für das Anbringen von kon-

struktiver Kritik.

Schließlich gilt ein großer Dank meinen Eltern, die mich während der gesamten Zeit be-

dingungslos unterstützt haben. Dadurch hat sich für mich überhaupt erst die Möglichkeit für

eine wissenschaftliche Laufbahn eröffnet.

Inhaltsverzeichnis

1. Einleitung 1

2. Grundlagen zur automatischen Spracherkennung 5

2.1. Merkmalsextraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2. Decodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.3. Spracherkennung in halligen Umgebungen . . . . . . . . . . . . . . . . . . 12

3. Stand der Forschung 17

3.1. Verfahren zur Enthallung des akustischen Signals . . . . . . . . . . . . . . 17

3.1.1. Verfahren zur Entfernung des Nachhalls . . . . . . . . . . . . . . . 17

3.1.2. Verfahren zur Unterdrückung des Nachhalls . . . . . . . . . . . . . 19

3.2. Verfahren zur Extraktion hallrobuster Merkmale . . . . . . . . . . . . . . . 20

3.2.1. Normierungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2.2. Perzeptuell motivierte Verfahren . . . . . . . . . . . . . . . . . . . 24

3.2.3. Sonstige merkmalsbasierte Verfahren . . . . . . . . . . . . . . . . 28

3.3. Verfahren basierend auf der Modifikation des akustischen Modells oder des

Decoders . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.3.1. Modifikation des akustischen Modells . . . . . . . . . . . . . . . . 29

3.3.2. Modifikation des Decoders . . . . . . . . . . . . . . . . . . . . . . 32

4. Wissenschaftliche Ziele 35

4.1. Gliederung der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5. Konzept der modellbasierten BAYES’schen Merkmalsverbesserung 39

5.1. A-priori-Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.1.1. Modell für die Sprache . . . . . . . . . . . . . . . . . . . . . . . . 42

5.1.2. Modell für die Störung . . . . . . . . . . . . . . . . . . . . . . . . 44

5.1.3. Training von SLDMs . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.1.4. Initialisierung von SLDM-Parametern . . . . . . . . . . . . . . . . 48

5.2. Beobachtungsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.2.1. Zusammenhang im Zeit-Frequenz-Bereich . . . . . . . . . . . . . 58

5.2.2. Zusammenhang im log-MEL-spektralen Bereich . . . . . . . . . . 62

5.2.3. Approximation durch vereinfachtes Modell der RIA . . . . . . . . 66

5.2.4. Rekursives Beobachtungsmodell . . . . . . . . . . . . . . . . . . . 75

5.2.5. Modellierung des Beobachtungsfehlers . . . . . . . . . . . . . . . 77

5.3. Inferenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

5.3.1. Iteratives erweitertes KALMAN-Filter . . . . . . . . . . . . . . . . 82

Inhaltsverzeichnis

5.3.2. Modellkombinationsalgorithmen . . . . . . . . . . . . . . . . . . . 88

6. Experimentelle Untersuchungen 93

6.1. Sprachdatenbanken und Konfigurationen der Spracherkenner . . . . . . . . 93

6.1.1. AURORA5-Datenbank . . . . . . . . . . . . . . . . . . . . . . . . 93

6.1.2. Modifizierte AURORA4-Datenbank . . . . . . . . . . . . . . . . . 95

6.2. Referenzergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.3. Ergebnisse alternativer Verfahren . . . . . . . . . . . . . . . . . . . . . . . 97

6.4. Voruntersuchungen zum Beobachtungsmodell . . . . . . . . . . . . . . . . 100

6.5. Ergebnisse zur Merkmalsenthallung . . . . . . . . . . . . . . . . . . . . . 105

6.5.1. Einfluss des A-priori-Sprachmodells . . . . . . . . . . . . . . . . . 112

6.5.2. Einfluss des Beobachtungsmodells . . . . . . . . . . . . . . . . . . 116

6.5.3. Adaption des Erkenners auf Artefakte der Merkmalsenthallung . . . 119

6.6. Ergebnisse zur gemeinsamen Merkmalsenthallung und -entstörung . . . . . 122

7. Zusammenfassung und Ausblick 125

A. Anhang 129

A.1. Herleitung des EM-Algorithmus zum Training von SLDMs beliebiger Ordnung129

A.1.1. Expectation-Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . 129

A.1.2. Maximization-Schritt . . . . . . . . . . . . . . . . . . . . . . . . . 135

A.2. Herleitungen und Beweise zum Beobachtungsmodell . . . . . . . . . . . . 139

A.2.1. Eigenschaften und Berechnung des Synthesefensters . . . . . . . . 139

A.2.2. Stauchungssatz für die zeitdiskrete FOURIER-Transformation . . . 141

A.2.3. Zusammenhang zwischen der Abklingkonstanten und der Nachhallzeit142

A.2.4. Herleitung der Erwartungswerte und Varianzen der Koeffizienten der

Raumimpulsantwort im MEL-spektralen Bereich . . . . . . . . . . 143

A.2.5. Herleitung der Leistungskompensationskonstanten . . . . . . . . . 145

A.3. Raumimpulsantworten zur Erzeugung der AURORA5-Datenbank . . . . . 149

A.4. Statistische Signifikanz der Unterschiede zwischen Wortfehlerraten . . . . . 149

Abkürzungsverzeichnis 153

Formelzeichen 155

Abbildungsverzeichnis 165

Tabellenverzeichnis 167

Literaturverzeichnis 169

Eigene Publikationen 183

“Essentially, all models are wrong, but some are useful.”

George E. P. Box [BD86]

1. Einleitung

Die automatische Spracherkennung bezeichnet den Prozess der Konversion eines akusti-

schen Signals in eine Menge von Wörtern [CZ98] und kann unter anderem zum Informa-

tionsaustausch zwischen dem Menschen und dem Computer genutzt werden. Obwohl sich

für diesen Zweck theoretisch auch visuelle oder taktile Kommunikationskanäle eignen, bietet

die gesprochene Kommunikation einige entscheidende Vorteile. Zum einen lässt sich damit

beispielsweise gegenüber der Eingabe von Wörtern und Zeichen über eine Tastatur oder

in handschriftlicher Form mittels eines graphischen Tabletts eine deutlich höhere Datenrate

erzielen [ST95]. Zum anderen erfordert die gesprochene Kommunikation in der Regel kei-

ne langwierigen Schulungsphasen, wie sie zum Beispiel zum Erreichen einer vernünftigen

Schreibgeschwindigkeit mit der Tastatur in der Regel notwendig sind. Das liegt daran, dass

die Sprache wohl das wichtigste und natürlichste Mittel der zwischenmenschlichen Kommu-

nikation darstellt und daher von den meisten Menschen in gewissem, ausreichenden Maße

beherrscht wird. Ein weiterer wesentlicher Vorteil besteht in dem Erhalt des vollen Funkti-

onsumfanges unter bestimmten, erschwerenden Umständen, wie zum Beispiel bei Dunkel-

heit oder extremen Bewegungseinschränkungen [ST95]. Ein unbezweifelbarer Nachteil liegt

in der gewöhnlich deutlich geringeren Erkennungsleistung im Vergleich zur Eingabe über

die Tastatur, wo von einer nahezu hundertprozentigen Erkennung auszugehen ist [ST95].

Eine zentrale Schwierigkeit der automatischen Spracherkennung ist die Variabilität eines

Sprachsignals, welches eine hochredundante Codierung einer zu übermittelnden Nachricht

darstellt. Damit ist gemeint, dass dieselbe Nachricht prinzipiell auf viele Arten ausgespro-

chen werden kann, die sich unter anderem in der Sprechweise und in den individuellen

und habituellen Sprechermerkmalen unterscheiden. Insbesondere treten auch kontextuelle

Aussprachevariationen auf [ST95]. Zur Berücksichtigung der Variabilität basieren aktuelle

Spracherkennungssysteme gewöhnlich auf einer statistischen Beschreibung der Sprache mit

Modellen, deren Parameter mit Hilfe von Datenbanken vor der eigentlichen Erkennungspha-

se geschätzt werden. So besteht ein Spracherkenner im Allgemeinen aus zwei Einheiten, der

sogenannten Merkmalsextraktion und der Decodierung. Bei der Merkmalsextraktion wird

versucht, aus dem Sprachsignal den redundanten Anteil der Information zu entfernen, so

dass anschließend bei der Decodierung mit dem relevanten Anteil der Information die ei-

gentliche Suche nach der zugrunde liegenden Wortsequenz stattfinden kann. Mit diesem An-

satz wurden in der Vergangenheit enorme Fortschritte in der automatischen Erkennung von

sowohl einzelnen Wörtern als auch von kontinuierlich gesprochener Sprache erzielt [Ata95].

Diese Fortschritte motivierten die Entwicklung einer breiten Palette von kommerziellen An-

wendungen und Produkten, welche in den Bereichen der Datenerfassung, der Steuerung von

Systemen oder Geräten sowie der automatischen Informationsgewinnung liegen [ST95]. Die

potentiellen Anwendungsgebiete umfassen dabei unter anderem Haushalt, Büro, Industrie,

Medizin und Militär.

Einleitung

Trotz der enormen Fortschritte in der automatischen Spracherkennung bleibt festzustellen,

dass die Leistungsfähigkeit eines Menschen nur unter kontrollierten Aufnahmebedingungen

annähernd erreicht wird [Ata95, MS95]. In realistischen Anwendungen können die Auf-

nahmebedingungen jedoch aufgrund der Verwendung von unterschiedlichen Mikrophonen

sowie der etwaigen Präsenz von akustischen Störquellen drastisch variieren. Ein in diesem

Zusammenhang für diese Dissertation wesentlicher Aspekt ist die Variation durch die Ver-

wendung von Freisprechsystemen, wobei Fernfeld- an Stelle von Nahbereichsmikrophonen

zum Einsatz kommen. Solche Systeme sind für bestimmte Anwendungen entweder uner-

lässlich oder können zur Steigerung des Komforts und der Sicherheit beitragen [SK08]. Man

denke dabei beispielsweise an die kabellose Bedienung von medizinischen diagnostischen

Geräten durch einen Chirurgen während einer Operation oder aber auch an die Bedienung

eines Fernsehers mittels Sprachsteuerung durch einen Konsumenten [SK08].

Nun führt der erhöhte Abstand des Sprechers zum Mikrophon, der im Bereich von etwa

einem bis mehreren Metern liegt, einerseits dazu, dass sich die akustischen Signale eventuell

vorhandener Störquellen deutlich stärker bemerkbar machen. Andererseits wird das akusti-

sche Signal des gewünschten Sprechers an Oberflächen von Wänden und Gegenständen re-

flektiert und erfährt dadurch eine sogenannte Mehrwegeausbreitung. Das aufgenommene Si-

gnal beinhaltet dann neben dem gewünschten, gedämpften Sprachsignal dessen unterschied-

lich zeitlich verzögerte und gedämpfte Versionen, welche in ihrer Gesamtheit als Nachhall

bezeichnet werden. Während der Einfluss der additiven Hintergrundstörungen vom Verhält-

nis zwischen der Energie des Sprach- und des Störsignals abhängt und prinzipiell durch ein

bewusstes lauteres Sprechen verringert werden kann, trifft dies für den Nachhall nicht zu, da

er eine Faltungsstörung darstellt.

Die soeben beschriebene Variabilität des Sprachsignals, die mit der Verwendung von Frei-

sprecheinrichtungen einhergeht, spiegelt sich erwartungsgemäß in dessen statistischen Ei-

genschaften wider. Unterscheiden sich diese von denen, welche zum Zeitpunkt des Trainings

vorlagen, muss aufgrund dieser Diskrepanz mit beträchtlichen Einbußen in der Leistungsfä-

higkeit des Spracherkennungssystems gerechnet werden.

Gewöhnlich ist der Mensch jedoch nicht gewillt, zugunsten eines erhöhten Kommuni-

kationskomforts durch Freisprechsysteme eine geringere Erkennungsleistung hinzunehmen.

Insbesondere werden diesbezüglich an einen automatischen Spracherkenner oft dieselben

Erwartungen wie an einen Menschen gestellt, der nur in geringem Maße empfindlich gegen-

über Nachhall sowie Hintergrundstörungen ist. Zur Erfüllung dieser Erwartungen besteht ein

hohes Interesse an Methoden zur robusten Spracherkennung.

Während die Forschung im Bereich der Robustheit gegenüber additiven Hintergrundstö-

rungen bereits einige Jahrzehnte andauert [SK08], reichen die ersten Bemühungen um die

Robustheit gegenüber dem Nachhall etwa in das Ende der Neunziger Jahre zurück. Trotz

intensiver Forschung reicht die Leistungsfähigkeit von automatischen Spracherkennern im

Freisprechbetrieb bei Weitem nicht an die eines Menschen heran.

Im Rahmen dieser Arbeit wird nun ein neuartiges Verfahren zur modellbasierten Verbesse-

rung akustischer Merkmale zur robusten Spracherkennung in Gegenwart von Nachhall sowie

Hintergrundstörungen vorgestellt, wobei der Fokus deutlich auf der Behandlung des Nach-

halls liegt. Der einleitende Teil dieser Dissertation ist wie folgt aufgebaut. Zunächst werden

in Kap. 2 die Grundlagen der statistisch motivierten Spracherkennung vorgestellt. Dabei wer-

den die beiden weiter oben erwähnten Bestandteile eines Spracherkennungssystems, nämlich

die Merkmalsextraktion und die Decodierung, ausführlich beschrieben. Anschließend wird

Einleitung

in Kap. 3 eine Übersicht über die in der Literatur bisher existenten Methoden zur hallro-

busten Spracherkennung gegeben. In Kap. 4 werden dann die wissenschaftlichen Ziele der

Arbeit formuliert. Darin findet sich auch der detaillierte Aufbau der weiteren Arbeit.

2. Grundlagen zur automatischen

Spracherkennung

Die in der heutigen Literatur existenten Ansätze zur automatischen Spracherkennung können

grob in drei Kategorien unterteilt werden [RJ93]:

1. Akustisch-phonetische Ansätze

2. Mustererkennungsansätze

3. Ansätze basierend auf künstlicher Intelligenz.

Die akustisch-phonetischen Ansätze gehen von der Annahme aus, dass sich ein Sprachsignal

aus einer Folge von endlichen, unverwechselbaren phonetischen Einheiten zusammensetzt.

Dementsprechend besteht der Prozess der Erkennung im Wesentlichen aus einer sinnvollen

Segmentierung des Signals, einer anschließenden Zuordnung der Segmente zu Phonemen

und einer darauf aufbauenden Bestimmung der zugrunde liegenden Wortsequenz gemäß vor-

gegebenen syntaktischen und semantischen Regeln sowie einer durch ein Lexikon gegebenen

Menge an gültigen Wörtern.

Die Mustererkennungsansätze basieren auf der Vorstellung, dass die Aussprache von Wör-

tern oder Wortuntereinheiten bestimmte (nicht unbedingt an die Phonetik gebundene) Mus-

ter im Sprachsignal hervorruft, die in einer vorhergehenden Trainingsphase gelernt werden

müssen. Die eigentliche Erkennung wird dann als Klassifikationsaufgabe aufgefasst, die auf

einem Vergleich zwischen den trainierten und den zu klassifizierenden Mustern beruht.

Die auf künstlicher Intelligenz basierenden Ansätze stellen im Prinzip eine Kombination

beider vorhergehender Ansätze dar. Sie versuchen den Vorgang der Erkennung derart zu ge-

stalten, wie eine menschliche Person ihre Intelligenz anwenden würde, um das Sprachsignal

zu analysieren und eine abschließende Entscheidung über die vermeintliche Wortsequenz

zu fällen. Dabei werden für einzelne Teilaufgaben der Erkennung eine große Anzahl von

verschiedenen Informationsquellen herangezogen. Beispielsweise zählen dazu Verfahren,

welche bereits für die Segmentierung des Sprachsignals abgesehen von dem rein akustisch-

phonetischen unter anderem auch lexikalisches, syntaktisches und semantisches Wissen nut-

zen. Eine große Untergruppe dieser Kategorie bilden die sogenannten neuronalen Netze, mit

Hilfe derer (nichtlineare) Zusammenhänge zwischen unterschiedlichen Kontextinformatio-

nen gelernt werden können.

Der Fokus dieser Arbeit richtet sich auf die Hidden-MARKOV-Modell (HMM)-basierte

Spracherkennung, welche zur Klasse der Mustererkennungsansätze gehört und die heute die

am weitesten verbreitete Methode darstellt. Die Grundlage dieser Art der Spracherkennung

bildet die Annahme, dass das Sprachsignal als eine Realisierung eines parametrischen Zu-

fallsprozesses charakterisiert werden kann. Sie beruht auf der Tatsache, dass die einem Wort

Grundlagen zur automatischen Spracherkennung

zugrunde liegende Sequenz von akustischen Merkmalen in der Regel von unterschiedlichen

Einflussfaktoren wie dem Alter, dem Geschlecht und dem Gemütszustand des Sprechers, der

Sprachgeschwindigkeit, der Intonation usw. abhängt und somit Variationen erfährt.

Der prinzipielle Aufbau eines derartigen statistischen Spracherkennungssystems ist in

Abb. 2.1 dargestellt [You08].

hypothese

Wortsequenz−

Merkmals-

extraktion

Akustisches

Modell Sprachmodell

Decodierung

Lexikon

Sprachsignal

ˆw

Merkmalsvektor-

sequenz

yMIC(l)ym

Abbildung 2.1.: Prinzipieller Aufbau eines statistischen Spracherkennungssystems.

Ein solches System gliedert sich grob in zwei Untereinheiten. Bei der sogenannten Merk-

malsextraktion findet eine akustische Vorverarbeitung statt, bei der aus einem zeitdiskre-

ten Sprachsignal yMIC(l)akustische Merkmale berechnet werden, welche die für die Erken-

nung relevante Information tragen. Dabei wird davon ausgegangen, dass das entsprechende

zeitkontinuierliche Sprachsignal zuvor bereits sinnvoll tiefpassgefiltert und einer Analog-

Digital-Umwandlung (ADU) unterzogen wurde.

Anschließend erfolgt eine Decodierung der extrahierten Merkmalsvektorsequenz ymin ei-

ne hypothetische Wortsequenz ˆw

. Für die Decodierung werden gewöhnlich die drei folgen-

den statistischen Informationsquellen verwendet. Das akustische Modell beschreibt die akus-

tische Realisierung von Wörtern oder Wortuntereinheiten wie Triphonen, wobei die Men-

ge an zulässigen Wörtern sowie deren mögliche Zusammensetzung aus Wortuntereinheiten

durch das Lexikon spezifiziert wird. Das Sprachmodell beschreibt die Auftrittswahrschein-

lichkeit von bestimmten Wörtern oder Wortfolgen. Die Parameter dieser drei Informations-

quellen werden vor der eigentlichen Erkennung mit Hilfe von Trainingsdaten geschätzt.

In den beiden folgenden Abschnitten werden die beiden Untereinheiten des aufgeführten

Spracherkennungssystems, Merkmalsextraktion und Decodierung, detaillierter beschrieben,

da sie die Grundlage für das weitere Verständnis der Arbeit bilden.

2.1. Merkmalsextraktion

Die Merkmalsextraktion verfolgt das Ziel einer parametrischen Repräsentation der akusti-

schen Daten [DM80]. Im Hinblick auf die folgende automatische Spracherkennung erfolgt

dabei eine Informationskompression derart, dass jegliche für die phonetische Analyse irre-

levanten Aspekte entfernt werden und dass bestenfalls nur diejenige Information verbleibt,

welche in hohem Maße dazu beiträgt, phonetische Unterschiede zu detektieren. Die in der Li-

teratur am weitesten verbreiteten Methoden zur Merkmalsextraktion basieren entweder auf

Grundlagen zur automatischen Spracherkennung

einer spektralen Filterbankanalyse oder einer linearen Prädiktionskodierung (engl. Linear

Predictive Coding (LPC)) [RJ93, GPAF04, YEG+06].

An dieser Stelle soll nun eine detaillierte Beschreibung der sogenannten MEL-Frequenz-

Cepstrum-Koeffizienten (engl. Mel Frequency Cepstral Coefficients (MFCCs)) erfolgen,

welche in die erste Kategorie eingeordnet werden können. Ihre Berechnung basiert auf ei-

ner Kurzzeit-Spektralanalyse und orientiert sich stark an der menschlichen Gehörwahrneh-

mung. Sie wurden ursprünglich von Davis und Mermelstein [DM80] eingeführt und sind

heutzutage durch das europäische Institut für Telekommunikationsnormen (engl. European

Telecommunications Standards Institute (ETSI)) standardisiert [ETSb]. Abbildung 2.2 zeigt

ein Blockschaltbild zur Extraktion von MFCCs aus einem zeitdiskreten akustischen Signal

yMIC(l)gemäß einer leichten Abwandlung dieses Standards. Diese Art der Vorverarbeitung

ist in der englischsprachigen Literatur unter dem Namen Standard Front End (SFE) bekannt.

yMIC(l)Versatz-

kompensation

Höhen-

anhebung

y(l)Fensterung ywA(m,l′)DFT Y(m,k)

|·|2MEL-Filterbank

Ym,qln(·)y(s)

m,qDCT y(c)

′

Abbildung 2.2.: Blockschaltbild zur Extraktion von MFCCs aus einem zeitdiskreten akustischen Si-

gnal yMIC(l)gemäß einer leichten Abwandlung des ETSI-Standards [ETSb]. Die

Änderung gegenüber [ETSb] besteht in der Ersetzung des Kurzzeit-Amplitudenspek-

trums durch das Kurzzeit-Leistungsspektrum zur Vereinfachung der Berechnung.

Wie bereits weiter oben angesprochen wird davon ausgegangen, dass das entsprechende

zeitkontinuierliche Sprachsignal bereits einer Tiefpassfilterung sowie einer ADU unterzogen

wurde, wobei die Abtastfrequenz mit fAund die Abtastdauer mit TA=1

fAbezeichnet werden

soll. Obwohl der ETSI-Standard [ETSb] für die drei Abtastfrequenzen 8 kHz, 11 kHz und

16 kHz spezifiziert ist, soll für diese Arbeit generell fA=8kHz angenommen werden, weil

diese Abtastfrequenz für die Spracherkennung in der Praxis eine größere Verwendung findet.

Nach der ADU folgt eine Versatzkompensation sowie eine Anhebung der hohen Frequen-

zen, welche insgesamt eine Abflachung der spektralen Einhüllenden bewirkt. Damit soll der

typische −6 dB/oct-Abklang des akustischen Spektrums kompensiert werden [GPAF04].

Das resultierende zeitdiskrete Signal y(l), wobei l∈Zden Zeitindex bezeichnet, wird nun

in kleine Segmente unterteilt, in denen das Signal als stationärer Zufallsprozess angesehen

werden kann. Dieses geschieht durch die Multiplikation mit einer kausalen HAMMING-

Analysefensterfunktion wA(l)der endlichen Länge Lw, d. h.

wA(l) = 0 für l<0∧l>Lw.(2.1)

Das Analysefenster wird dabei von einem Merkmal zum nächsten jeweils um B∈NAbtast-

werte weitergeschoben, sodass die gefensterten Signalausschnitte

ywA(m,l′):=wA(l′)y(l′+mB)(2.2)

Grundlagen zur automatischen Spracherkennung

entstehen, wobei m∈N0den Segmentindex und l′den Zeitindex für das entsprechende Seg-

ment bezeichnet. Das Analysefenster erfüllt zudem die Funktion, den bei der weiteren Be-

rechnung des Kurzzeit-Spektrums auftretenden Leck-Effekt (engl. leakage effect) geeignet

zu steuern [KK09].

Die gefensterten Signalsegmente werden anschließend durch die Anwendung einer dis-

kreten FOURIER-Transformation (engl. Discrete FOURIER Transform (DFT)) in den Fre-

quenzbereich transformiert, woraus das diskrete Kurzzeit-Spektrum

Y(m,k) =

Lw−1

∑

l′=0

ywA(m,l′)·e−j2

Kkl′(2.3)

resultiert. Dabei handelt es sich um eine in der Zeit und der Frequenz abgetastete Version der

sogenannten zeitdiskreten Kurzzeit-FOURIER-Transformation (engl. Discrete-Time Short-

Time FOURIER Transform (DTSTFT)) [OSB99], wobei K∈Ndie Anzahl der Frequenzbins,

k∈Nden Frequenzindex und jdie imaginäre Einheit bezeichnet. Da Y(m,k)die Periode K

bezüglich kbesitzt, genügt es, nur die Indizes k∈ {0,...,K−1}zu betrachten.

Anschließend wird das Kurzzeit-Leistungsspektrum gebildet und damit die Phaseninfor-

mation im Spektrum verworfen. Diese Operation wird motiviert durch perzeptuelle Studien,

welche gezeigt haben, dass bei der menschlichen akustischen Wahrnehmung der Phase eine

im Vergleich zur Amplitude deutlich untergeordnete Bedeutung zukommt [Gol67].

Der nächste Schritt besteht in der Berechnung der MEL-spektralen Koeffizienten Ym,q

durch eine perzeptuell motivierte Glättung des Kurzzeit-Leistungsspektrums gemäß

Ym,q:=

K(o)

∑

k=K(u)

|Y(m,k)|2Λq(k).(2.4)

Dabei werden überlappende Dreieckfilter Λq(k),q∈ {0,...,Q−1}eingesetzt, deren Zen-

tren auf der gehörorientierten Frequenzskala, der sogenannten MEL-Frequenzskala [Kut04],

äquidistant angeordnet sind. Die Abbildung zwischen tatsächlicher und wahrgenommener

Frequenz verläuft bis etwa 1000 Hz näherungsweise linear und oberhalb von 1000 Hz nähe-

rungsweise logarithmisch. Die Operation, Leistungen benachbarten Frequenzbins gewichtet

zusammenzufassen, ist der Eigenschaft des menschlichen Gehörs nachempfunden, die Laut-

stärke über Frequenzgruppen, sogenannte kritische Bänder [Gre61], gemittelt wahrzuneh-

men. Die Breite des q-ten Dreickfilters ergibt sich dabei jeweils aus der Differenz der oberen

und unteren Grenzen K(o)

qund K(u)

Im Anschluss daran erfolgt eine Kompression des MEL-Spektrums durch die Anwen-

dung des natürlichen Logarithmus zur Berechnung der log-MEL-spektralen Koeffizienten

(LMSKs)

y(s)

m,q:=lnYm,q.(2.5)

Sie ist motiviert durch die Beobachtung, dass die sogenannte Lautheit, welche das Lautstär-

keempfinden des Menschen widerspiegelt, sich näherungsweise logarithmisch zur tatsächli-

chen Schallintensität verhält. Dabei wird jedoch nicht berücksichtigt, dass das menschliche

Lautstärkeempfinden frequenzabhängig ist [Kut04].

Grundlagen zur automatischen Spracherkennung

Als Folge des Überlapps der MEL-Bänder sind die LMSKs miteinander korreliert, wo-

bei die entsprechende Kovarianzmatrix approximativ eine TOEPLITZ-Strukur aufweist. Mit

Hilfe einer diskreten Kosinustransformation (engl. Discrete Cosine Transform (DCT)) wird

deshalb eine näherungsweise Dekorrelation durchgeführt, woraus die MFCCs

y(c)

′:=

Q−1

∑

q=0

y(s)

m,q·cos

′

Qq+1

2 (2.6)

resultieren, wobei

′den Index und K′die Anzahl der cepstralen Komponenten angibt. Ge-

mäß dem sogenannten Quelle-Filter-Modell lässt sich die Erzeugung eines Sprachsignals

vereinfacht durch eine Faltung eines Anregungssignals mit der Impulsantwort des mensch-

lichen Vokaltraktes beschreiben [RJ93]. Für die Spracherkennung ist jedoch nur die relativ

zum Anregungssignal langsame Änderung des Vokaltraktes interessant, da diese den geform-

ten Laut bestimmt. Deshalb werden nur MFCCs niederer Ordnung verwendet, was in einem

kleinen Wert für K′zum Ausdruck kommt.

Bei den MFCCs handelt es sich um sogenannte statische Merkmale, da jeder cepstra-

le Koeffizient nur Auskunft über einen sehr kurzen Zeitausschnitt liefert. Die Information

über einen gesprochenen Laut ist jedoch auch in der zeitlichen Änderung dieser Koeffizi-

enten enthalten. Eine sinnvolle Ergänzung der MFCCs liefern die in [Fur81] eingeführten

dynamischen Merkmale erster und zweiter Ordnung, die sogenannten DELTA- und DELTA-

DELTA-Merkmale

∆y(c)

′:=

∑

i=1

iy(c)

m+i,

′−y(c)

m−i,

′

2I1

∑

i=1

(2.7)

∆∆y(c)

′:=

∑

i=1

i∆y(c)

m+i,

′−∆y(c)

m−i,

′

2I2

∑

i=1

.(2.8)

Sie stellen eine Approximation der ersten sowie zweiten Ableitung der cepstralen Merk-

male nach der Zeit dar, welche durch den Segmentindex mrepräsentiert wird. Die beiden

Konstanten I1und I2bestimmen dabei die Größe des Zeitfensters zur Berechnung der appro-

ximativen Ableitungen. Die Hinzunahme dieser Merkmale verbessert die Erkennungsrate

von Systemen zur automatischen Spracherkennung beträchtlich, was zum Teil darauf zu-

rückzuführen ist, dass dadurch dem Erkenner für jeden Zeitausschnitt zusätzliche zeitliche

Kontextinformation zur Verfügung gestellt wird.

Alle statischen und dynamischen Merkmale werden schließlich zu einem Merkmalsvektor

ym:=y(c)

m,0,...,y(c)

m,K′−1,∆y(c)

m,0,...,∆y(c)

m,K′−1,∆∆y(c)

m,0,...,∆∆y(c)

m,K′−1T(2.9)

zusammengefasst, mit Hilfe dessen die Wortsuche im Erkenner durchgeführt wird.

Abschließend sind in Tab. 2.1 die Werte der zur Merkmalsextraktion verwendeten Para-

meter aufgeführt.

Grundlagen zur automatischen Spracherkennung

Tabelle 2.1.: Zur Merkmalsextraktion verwendete Parameter orientierend am ETSI-Standard [ETSb].

Segment-

länge Segment-

vorschub Anzahl der

Frequenzbins Anzahl der

MEL-Bänder Anzahl der

cepstr. Koeff. Einseitige Fensterlängen

für dyn. Merkmale

LwB K Q K′I1I2

200 80 256 23 13 4 2

2.2. Decodierung

Die Decodierung ordnet einer endlichen Merkmalsvektorfolge y1:M:=y1,...,yMbestehend

aus MMerkmalsvektoren eine hypothetische, endliche Wortfolge ˆw1: ˆ

Nw:=ˆw1,..., ˆwˆ

Nwbe-

stehend aus ˆ

NwWörtern zu. Dabei soll zunächst angenommen werden, dass das am Mi-

krophon aufgenommene Sprachsignal unverhallt und ungestört ist. Dieses wird in der hier

verwendeten Notation dadurch ausgedrückt, dass die Merkmalsvektorfolge y1:Mdes gewöh-

lich verhallten und gestörten Mikrophonsignals mit der Merkmalsvektorfolge des sauberen

Sprachsignals, welche mit x1:Mbezeichnet werden soll, gleichgesetzt wird. Es gilt daher

y1:M=x1:M.

Die Bestimmung der Wortfolge ˆw1: ˆ

Nwerfolgt gemäß der BAYES’schen Entscheidungsregel

ˆw1: ˆ

Nw=argmax

Nw,w1:Nw

P˘w1:Nw|˘

x1:M(w1:Nw|x1:M),(2.10)

wobei ˘w1:Nwund ˘

x1:Mdie der Wortfolge w1:Nwund der Merkmalsvektorfolge x1:Mzugrunde

liegenden Zufallsprozesse bezeichnen und P˘w1:Nw|˘

x1:Mdie auf ˘

x1:Mbedingte Wahrscheinlich-

keitsmassefunktion von ˘w1:Nwdarstellt. Im Sinne einer verbesserten Lesbarkeit werden im

Folgenden die Subskripte von Wahrscheinlichkeitsmasse- und Verteilungsdichtefunktionen

überall dort weggelassen, wo die jeweilige Zufallsvariable oder der jeweilige Zufallsprozess

offensichtlich aus dem Argument der entsprechenden Funktion erkennbar wird. Damit lässt

sich (2.10) verkürzt auch gemäß

ˆw1: ˆ

Nw=argmax

Nw,w1:Nw

P(w1:Nw|x1:M)(2.11)

darstellen. Durch die Anwendung der BAYES’schen Regel für bedingte Wahrscheinlichkeiten

lässt sich (2.11) wie folgt formulieren:

ˆw1: ˆ

Nw=argmax

Nw,w1:Nw

p(x1:M|w1:Nw)P(w1:Nw)

p(x1:M)(2.12)

=argmax

Nw,w1:Nw

p(x1:M|w1:Nw)P(w1:Nw).(2.13)

wobei für die Umformung (2.12) die BAYES’sche Regel für bedingte Wahrscheinlichkeiten

verwendet wurde und in (2.13) schließlich ausgenutzt wurde, dass der Term p(x1:M)für die

Maximierung irrelevant ist.

Man erkennt, dass für die Lösung der Decodieraufgabe die Verteilungsdichtefunktionen

p˘

x1:M|˘w1:Nwund die Wahrscheinlichkeitsmassefunktionen P˘w1:Nwbenötigt werden, welche je-

weils parametrisch durch das akustische Modell und das Sprachmodell beschrieben werden.

In der Praxis wird das Sprachmodell oft mit einer empirisch bestimmten Konstanten

(SM)

Grundlagen zur automatischen Spracherkennung

skaliert, um dem Sprachmodell gegenüber dem akustischen Modell mehr Gewicht zu verlei-

hen. Dadurch resultiert eine im Vergleich zu (2.13) etwas veränderte Decodiervorschrift

ˆw1: ˆ

Nw=argmax

Nw,w1:Nw

p(x1:M|w1:Nw)P

(SM)(w1:Nw).(2.14)

Akustisches Modell

Das akustische Modell nimmt an, dass der beobachteten Merkmalsvektorfolge x1:Meine von

der entsprechenden Wortfolge w1:Nwabhängige, jedoch verborgene Zustandssequenz

1:Mzu-

grunde liegt. Diese wird wiederum als Realisierung eines Zufallsprozesses ˘

1:Mbetrachtet,

um damit Variationen in der Aussprache der Wortfolge Rechnung zu tragen. Mit dem Ge-

setz der totalen Wahrscheinlichkeit kann die Verteilungsdichtefunktion p(x1:M|w1:Nw)dann

gemäß

p(x1:M|w1:Nw) = ∑

{

1:M}

p(x1:M|

1:M,w1:Nw)P(

1:M|w1:Nw)(2.15)

dargestellt werden, wobei die Summation über alle möglichen Zustandssequenzen

1:Mzu

bilden ist. Im Sinne einer handhabbaren Auswertung der Verteilungsdichtefunktion (2.15)

werden anschließend zwei einschneidende Annahmen gemacht.

Zum einen wird der Zufallsprozess ˘

1:Mals eine diskrete, endliche MARKOV-Kette erster

Ordnung [RJ93] modelliert, woraus auch die Bezeichnung HMM für das akustische Modell

resultiert. Gemäß dieser Modellierung hängt die Wahrscheinlichkeit, dass ˘

meinen bestimm-

ten Wert

mannimmt, nur vom Wert

m−1der Zufallsvariable ˘

m−1ab.

Zum anderen wird davon ausgegangen, dass ein Merkmalsvektor xmmit dem Segment-

index mnur vom Zustand

m, jedoch insbesondere nicht von vorhergehenden oder nach-

folgenden Merkmalsvektoren, abhängt. Diese im Englischen unter dem Begriff conditional

independence assumption weit verbreitete Annahme modelliert sämtliche Abhängigkeiten

zwischen den Merkmalsvektoren nur über den Zustandsprozess ˘

1:M. In ihr besteht auch der

größte Schwachpunkt der Modellierung, da mit Hilfe der MARKOV-Kette nur ein relativ be-

grenzter zeitlicher Kontext erfasst wird. Mit der Hinzunahme von in Kap. 2.1 eingeführten

dynamischen Merkmalen wird versucht, diesem Problem teilweise entgegen zu wirken.

Unter den beiden genannten Voraussetzungen lässt sich (2.15) durch

p(x1:M|w1:Nw)≈∑

{

1:M}

∏

m=1

p(xm|

m,w1:Nw)P(

m−1,w1:Nw)(2.16)

approximieren. Dabei beschreiben die Wahrscheinlichkeiten P(

m−1,w1:Nw), 1 ≤m≤M,

die auf die Wortfolge w1:Nwbedingten Zustandsübergänge. Entsprechende Wahrscheinlich-

keiten basieren auf dem Konzept, dass zunächst abhängig von der Größe des Lexikons

einzelne HMMs für Wörter oder Wortuntereinheiten aufgestellt und anschließend sinnvoll

konkateniert werden. Als Wortuntereinheiten werden meist die sogenannten Triphone ver-

wendet. Darunter versteht man kontextabhängige Phoneme, welche von ihrem Vorgänger-

und Nachfolgephonem bestimmt werden. Die zustandsbedingten Verteilungsdichtefunktio-

nen p(xm|

m,w1:Nw), 1 ≤m≤M, die auch als Emissionsverteilungsdichtefunktionen be-

zeichnet werden, werden in der Regel durch GAUSS-Mischungsmodelle (engl. GAUSSIAN

Mixture Models (GMMs)) beschrieben.

Grundlagen zur automatischen Spracherkennung

Die Parameter des akustischen Modells werden mit Hilfe von Trainingsdaten, welche aus

gesprochenen Äußerungen in Form von akustischen Signalen sowie deren Transkription be-

stehen, mit dem Expectation Maximization (EM)-Algorithmus [RJ93] geschätzt. Man spricht

dabei auch von überwachtem Training, da die Transkription bekannt ist.

Sprachmodell

Das Sprachmodell ist typischerweise ein N(SM)-Gram, was bedeutet, dass die Auftrittswahr-

scheinlichkeit eines Wortes nur von den N(SM)−1 vorhergehenden Wörtern abhängt. Die

Wahrscheinlichkeit für das Auftreten einer bestimmten Wortfolge w1:Nwlässt sich damit

durch

P(w1:Nw)≈

∏

Pw

−N(SM):

−1(2.17)

annähern. Die zur Auswertung des rechten Terms benötigten bedingten Wortwahrschein-

lichkeiten Pw

−N(SM):

−1werden in der Trainingsphase unter Verwendung von reinen

Textdatenbanken geschätzt, indem jeweils die relative Häufigkeit des Auftretens des Wortes

nach der Wortfolge w

−N(SM):

−1bestimmt wird.

Als Ergebnis der durch das akustische und das Sprachmodell eingeführten Approximatio-

nen (2.16) und (2.17) erfolgt die Decodierung nach der vereinfachten Regel

ˆw1: ˆ

Nw=argmax

Nw,w1:Nw

∑

{

1:M}

∏

m=1

p(xm|

m,w1:Nw)P(

m−1,w1:Nw)

∏

Pw

−N(SM):

−1.

(2.18)

Mit einer weiteren Vereinfachung, bei der die Summation durch die Maximumbildung über

alle möglichen Zustandssequenzen ersetzt wird, lässt sich die Maximierungsaufgabe sehr

effizient mit dem VITERBI-Algorithmus [RJ93] lösen. Eine zusätzliche Operation, bei der

sehr viele Rechenoperationen eingespart werden können, ist das frühzeitige Verwerfen (engl.

pruning) bestimmter Wort- bzw. Zustandskombinationen, falls diese zu unwahrscheinlich

werden. Damit kann eine erhebliche Einschränkung des Suchraums erreicht werden, wobei

zu berücksichtigen ist, dass das Ergebnis dann im Allgemeinen nur suboptimal ist.

2.3. Spracherkennung in halligen Umgebungen

Bedingt durch den vergrößerten Abstand des Sprechers zum Mikrophon bei der Verwendung

einer Freisprecheinrichtung muss das Sprachsignal in Form von Schallwellen einen größe-

ren direkten Weg von der Quelle zur Senke zurücklegen, so dass es einerseits eine Dämpfung

durch die Energieabsorption durch das Medium erfährt. Andererseits gelangt das Signal nicht

nur über den direkten Pfad vom Sprecher zum Mikrophon, sondern auch über Umwege, wel-

che sich aus Reflexionen der Schallwellen an Oberflächen von Wänden oder Gegenständen

ergeben. Die daraus resultierenden verzögerten und gedämpften Versionen des Sprachsignals

überlagern das eigentliche Sprachsignal und werden als Nachhall wahrgenommen [Kut04,

Kap. 4]. Zusätzlich beinhaltet das Mikrophonsignal in der Regel Hintergrundstörungen, wel-

che zum Teil auch aus der Sprache konkurrierender Sprecher bestehen können.

Grundlagen zur automatischen Spracherkennung

Das Mikrophonsignal lässt sich vereinfacht gemäß

y(l) = s(l)+n(l)(2.19)

darstellen, wobei n(l)das Störsignal und s(l)das verhallte Sprachsignal bezeichnet. Das

letztere kann vereinfacht durch eine Faltung des sauberen Sprachsignals x(l)mit einer soge-

nannten Raumimpulsantwort (RIA) h(l)gemäß

s(l) = (x∗h)(l)(2.20)

beschrieben werden, wobei die RIA das Übertragungsverhalten der Umgebung vom Spre-

cher zum Mikrophon charakterisiert. Die Vereinfachung bei dieser Darstellung besteht in

der Annahme einer zeitinvarianten RIA, welche in der Regel nicht gerechtfertigt ist wie aus

den folgenden Ausführungen deutlich wird.

Eine beispielhafte RIA, welche in einem großen Büro gemessen wurde, ist in Abb. 2.3

dargestellt. Sie lässt sich typischerweise grob in drei Bereiche einteilen, die auf einer geo-

Zeit l·TA[s]

h(l)

−0,2

−0,4

−0,6

0,05 0,1 0,15

0,2

0,2 0,25 0,3 0,35

0,4

0,4 0,45

Abbildung 2.3.: Beispielhafte Raumimpulsantwort gemessen in einem großen Büro (T60 ≈0,75s,

DRR ≈0dB).

metrischen Interpretation beruhen [Kut04, Kap. 4]. Der erste ist durch den direkten Anteil

gegeben, der sich in dem ersten verzögerten Impuls mit einer verhältnismäßig großen Am-

plitude äußert. Der zweite Bereich besteht aus einigen sporadisch auftretenden und stärker

gedämpften Impulsen, welche von signifikanten frühen Reflexionen herrühren. Die unter-

schiedlichen Vorzeichen der einzelnen Impulse entstehen durch Phasensprünge, welche bei

Reflexionen stattfinden. Die temporale Dichte der Impulse vergrößert sich quadratisch mit

der Zeit, so dass sich diese nach einiger Zeit zwangsläufig überlagern und die Anzahl der

gleichzeitig überlagerten Impulse im Mittel weiter zunimmt. So ist der dritte Bereich, der ab

etwa 50 ms nach dem Hauptimpuls beginnt, durch scheinbar zufällig auftretende, aufeinan-

derfolgende Impulse gekennzeichnet, die näherungsweise als Stichproben von unabhängigen

GAUSS-verteilten Zufallsvariablen interpretiert werden können. Dabei nimmt die Energie der

späten Reflexionen approximativ exponentiell mit der Zeit ab, was grob, aber anschaulich,

dadurch erklärt werden kann, dass bei jeder stattfindenden Reflexion ein gewisser Anteil der

Energie der Schallwelle absorbiert wird. Das Abklingverhalten der Energie lässt sich mit

Grundlagen zur automatischen Spracherkennung

Hilfe der sogenannten Energieabfallkurve (engl. Energy Decay Curve (EDC)) beschreiben,

die durch eine normierte Rückwärtsintegration der quadratischen Raumimpulsantwort wie

folgt berechnet werden kann:

EDCh(l):=

∞

∑

p′=l

h2(p′)

∞

∑

p′=0

h2(p′)

.(2.21)

Abbildung 2.4 zeigt die zur RIA in Abb. 2.3 gehörige EDC in einer logarithmischen Dar-

stellung. Erwartungsgemäß lässt sich eine affine Zeitabhängigkeit für den Bereich der späten

Zeit l TA[s]

10 ·log10EDCh(l)

−20

−40

−60

−80

00,1 0,2 0,3 0,4

Abbildung 2.4.: Energieabfallkurve (in einer logarithmischen Darstellung) zur Raumimpulsantwort

in Abb. 2.3.

Reflexionen beobachten.

Eine wesentliche Größe zur Charakterisierung von Räumen bzw. RIAs ist die sogenannte

Nachhallzeit T60. Sie ist definiert als diejenige Zeit, welche benötigt wird, damit die Energie

des (eigentlich späten) Nachhalls um 60 dB gegenüber dem initialen Wert abklingt [Kut04,

Kap. 5]. Sie lässt sich gemäß [Sch65] aus der Steigung der logarithmierten EDC bestimmen.

Bemerkenswert ist weiterhin die Tatsache, dass die Energie der frühen Reflexionen ebenfalls

exponentiell abklingt, jedoch manchmal mit einer anderen Abklingkonstanten. Dies führt da-

zu, dass der Verlauf der logarithmierten EDC nicht mehr affin, sondern nur noch stückweise

affin ist [Sch65].

Weiterhin ist zu beachten, dass sich das Abklingverhalten der Energie im Allgemeinen

frequenzabhängig ist. Diese Eigenschaft ist bedingt durch die Tatsache, dass Materialen die

Energie von Schallwellen unterschiedlicher Frequenzen unterschiedlich stark absorbieren. In

der Regel werden hochfrequente Anteile von Materialen stärker gedämpft als tieffrequente,

so dass die Energie der tieffrequenten Anteile langsamer abklingt. Dieses Phänomen wird

bei der Bestimmung der Nachhallzeit aus der EDC nach dem zuvor beschriebenen Prinzip

nicht berücksichtigt.

Während die Nachhallzeit sehr grob die Eigenschaft eines Raumes beschreibt, liefert sie

keine Auskunft über die Konfiguration des Sprechers und des Mikrophons innerhalb des

Raumes. Eine Möglichkeit einer qualitativen Charakterisierung des Abstandes beider bietet

das Verhältnis zwischen der Energie des direkten Schallanteils und der Energie des Nachhalls

Grundlagen zur automatischen Spracherkennung

einschließlich der frühen Reflexionen (engl. Direct-to-Reverberant Ratio (DRR)) , welches

durch

DRR :=10log10 





∑

l=0

h2(l)

∞

∑

l=lD+1

h2(l)







[dB](2.22)

definiert ist [Hab07]. Dabei wird angenommen, dass der Zeitindex lDjenem Zeitpunkt ent-

spricht, an dem der Hauptimpuls auftritt. Bei gemessenen RIAs ist die präzise Bestimmung

des Hauptimpulses meist nicht möglich, so dass der Wert von lD·TAoft so gewählt wird,

dass er 8 –16 ms größer als die Ankunftszeit des direkten Schalls ist. Dabei wird in dieser

Arbeit stets von 10 ms ausgegangen, falls Werte des DRR angegeben werden.

Neben dem DRR gibt es zahlreiche weitere Maße wie z. B. das Klarheitsmaß C50 bzw. C80,

welche zur Beschreibung der Auswirkungen der RIA auf die Verständlichkeit von Sprache

bzw. die Durchsichtigkeit von Musik für den Menschen verwendet werden können. Eine

ausführliche Übersicht über in der Literatur auftretende subjektive und objektive Maße zur

Bestimmung des Einflusses des Nachhalls findet sich beispielsweise in [Ric09, Kap. 4.4].

Auf eine detaillierte Darstellung dieser Maße wird hier verzichtet, da die Auswirkungen des

Nachhalls auf die Spracherkennung im Vordergrund stehen und mit den beiden Größen T60

und DRR bereits eine in diesem Zusammenhang vernünftige und in der Literatur übliche

qualitative Beschreibung der RIA gegeben ist.

Typischerweise ist die RIA in hohem Maße zeitvariant, was unter anderem auf Bewe-

gungen des Sprechers sowie bereits geringe Änderungen der Temperatur und Feuchtigkeit

innerhalb des Raumes zurückgeführt werden kann. Diese Änderungen betreffen jedoch in

der Regel den Direktanteil, die frühen Reflexionen sowie im Allgemeinen die feine Struktur

der RIA. Hingegen wird die grobe Charakteristik, mit der hier die Einhüllende des späten

Nachhalls sowie die Nachhallzeit T60 gemeint ist, dadurch kaum beeinflusst.

Die Auswirkungen des Nachhalls auf das Sprachsignal x(l)sind zweierlei. Während die

frühen Reflexionen zu einer sogenannten Färbung (engl. coloration) des Kurzzeit-Spektrums

führen [Kut04], bewirkt der späte Nachhall im Wesentlichen eine zeitliche Dispersion des

Sprachsignals, die sich entsprechend in der Trajektorie der log-MEL-spektralen Merkma-

le wiederfinden lässt. Dieser Effekt wird beispielhaft in Abb. 2.5, die die Trajektorien der

log-MEL-spektralen Merkmale einer sauberen und verhallten Version eines Sprachsignals

zeigt, veranschaulicht. Die zugehörige Sprachäußerung wurde der AURORA5-Datenbank

entnommen und entspricht der in amerikanischem Englisch ausgesprochenen Ziffernkette

“one,one,six,eight,five,two,two”. Zur Verhallung wurde die konstante RIA aus Abb. 2.3

verwendet. Bei dem Vergleich der Trajektorien fällt zum Beispiel auf, dass der Glottalschlag

(engl. glottal stop) bei der Aussprache der Ziffer “six” bei etwa 1,2 s, der in Abb. 2.5a sehr

deutlich zu erkennen ist, in Abb. 2.5b vollkommen durch den Nachhall verdeckt ist.

Die durch den Nachhall verursachte zeitliche Dispersion innerhalb der Trajektorie der log-

MEL-spektralen Merkmale des Sprachsignals führt offensichtlich zu einer Änderung ihrer

statistischen Eigenschaften, damit zu einer Diskrepanz zwischen den Trainings- und Testbe-

dingungen und letztendlich zu einer Erhöhung der Wortfehlerrate des Spracherkenners. Zu-

sätzlich werden die statistischen Eigenschaften der Merkmale durch Hintergrundstörungen

beeinflusst, was jedoch in einer grundsätzlich unterschiedlichen Art geschieht. Denn wäh-

rend für Hintergrundstörungen oft die Annahme gerechtfertigt ist, dass sie keine Korrelation

Grundlagen zur automatischen Spracherkennung

zum Sprachsignal aufweisen, besteht zwischen dem Nachhall und dem sauberen Sprachsi-

gnal eine starke Korrelation. Aufgrund dessen bewirkt der Nachhall eine stärkere Verletzung

der Annahme über die gegenseitige bedingte Unabhängigkeit von zeitlich aufeinanderfol-

genden Merkmalsvektoren (siehe Kap. 2.2). Vergleicht man folglich die Leistungsfähigkeit

von HMM-basierten Spracherkennern unter Trainings- und Testbedingungen, welche auf der

Verwendung von sauberen Sprachsignalen einerseits und verhallten Sprachsignalen anderer-

seits basieren, so wird diese in der Regel im zweiten Fall schlechter ausfallen.

Index des MEL-Bandes q

Zeit m·B·TA[s]

oneone twotwo two

five

six eight

0,51,01,52,02,5

(a) Trajektorie der log-MEL-spektralen Merkmale x(s)

m,qdes sauberen Sprachsignals samt der

entsprechenden Transkription

Index des MEL-Bandes q

Zeit m·B·TA[s]

0,51,01,52,02,5

(b) Trajektorie der log-MEL-spektralen Merkmale s(s)

m,qdes verhallten Sprachsignals

Abbildung 2.5.: Trajektorien der log-MEL-spektralen Merkmale einer sauberen und verhallten Versi-

on eines beispielhaften Sprachsignals zugehörig zu der Ziffernkettenäußerung “one,

one, six, eight, five, two, two”. Zur künstlichen Verhallung wurde die RIA aus Abb. 2.3

verwendet.

3. Stand der Forschung

Die in der Literatur bisher existenten Verfahren zur hall- und störrobusten Spracherkennung

lassen sich grob in drei Kategorien unterteilen. Diese unterscheiden sich dadurch, dass sie

jeweils an einer anderen Stelle innerhalb eines Spracherkennungssystems zum Einsatz kom-

men. Während die signalbasierten Verfahren bestrebt sind, das Sprachsignal bereits vor der

Merkmalsextraktion zu enthallen und zu entstören, besteht das Ziel der merkmalsbasierten

Verfahren in einer robusten Extraktion der akustischen Merkmale. Dazu gehört auch eine

sinnvolle Manipulation bereits extrahierter Merkmale im Hinblick auf deren Enthallung und

Entstörung. Die dritte Kategorie besteht aus den Methoden zur Anpassung des akustischen

Modells oder des Decoders an den Nachhall oder die Hintergrundstörung. Im Folgenden

werden die drei Kategorien detailliert vorgestellt. Dabei beschränkt sich der Überblick fast

ausschließlich auf die Verfahren, die im Zusammenhang mit der Robustheit gegenüber dem

Nachhall stehen, da dieses Thema den Schwerpunkt der Arbeit darstellt.

3.1. Verfahren zur Enthallung des akustischen Signals

Das Hauptaugenmerk der signalbasierten Verfahren liegt auf der Rekonstruktion des saube-

ren Sprachsignals aus dem verhallten und gestörten Sprachsignal. Im Hinblick auf eine hall-

und störrobuste Spracherkennung lässt sich das mit derartigen Methoden rekonstruierte Si-

gnal anschließend einer Merkmalsextraktion unterziehen. Dabei sei betont, dass die Sprach-

erkennung nicht die einzige Anwendung für die signalbasierte Enthallung und -entstörung

darstellt. So steht zum Beispiel für viele solcher Verfahren die Verbesserung der Sprachver-

ständlichkeit für den Menschen im Vordergrund. Da die signalbasierten Verfahren nicht den

Fokus dieser Dissertation bilden, wird an dieser Stelle nur ein sehr kurzer Überblick über

diese gegeben, der keinen Anspruch auf Vollständigkeit erhebt. Für weitere Details sei der

Leser auf die ausführlicheren Übersichten in [Hab07, Kap.3] und [HBC08] verwiesen.

Grundsätzlich lassen sich die signalbasierten Verfahren danach unterscheiden, ob ihr Ziel

darin besteht, den Nachhall vollständig zu entfernen oder aber nur zu unterdrücken. Wei-

terhin unterscheidet man zwischen ein- oder mehrkanaligen Methoden sowie dem Grad des

verwendeten A-priori-Wissens über das Sprachsignal oder die Umgebung, in der das Sprach-

signal aufgenommen wird [Hab07, Kap.3].

3.1.1. Verfahren zur Entfernung des Nachhalls

Einige der Verfahren zur Entfernung des Nachhalls verfolgen die Idee, einen Entzerrer auf

das verhallte Sprachsignal anzuwenden, welcher den Effekt der Faltung mit der RIA rück-

gängig macht. Da die RIA in gewöhnlichen Anwendungen unbekannt ist, muss diese zu-

Stand der Forschung

nächst aus dem verhallten Sprachsignal geschätzt werden. Ein wesentliches Problem dieses

Ansatzes ist die Tatsache, dass die exakte Inversion der RIA im Allgemeinen nicht möglich

ist. Denn dazu ist erforderlich, dass die zeitdiskrete RIA minimalphasig ist, was bedeutet,

dass die Nullstellen ihrer z-Transformierten innerhalb des Einheitskreises in der komplexen

Ebene liegen. Dieses trifft jedoch für typische Räume wie Büros und Wohnzimmer gewöhn-

lich nicht zu [NA79], so dass theoretisch nur eine approximative Inversion der RIA gelingen

kann. Außerdem liegen die Nullstellen der z-Transformierten der RIA oft nahe dem Einheits-

kreis, so dass Stabilitätsprobleme bedingt durch die Approximationen bei der numerischen

Umsetzung der Inversion auftreten können. Insbesondere weist das inverse Filter eine hohe

Sensibilität gegenüber kleinen Änderungen der RIA auf [Mou85, RWK00, TW02], welche

sowohl durch die Zeitvarianz der RIA bedingt durch beispielsweise geringe Bewegungen des

Sprechers als auch durch Fehlschätzungen der RIA verursacht werden können.

Unter der Voraussetzung, dass mehrere Mikrophone für die Aufnahme der akustischen Si-

gnale zur Verfügung stehen, konnte in [MK88] gezeigt werden, dass trotz der fehlenden Mi-

nimalphasigkeit der RIAs deren exakte Inversion unter relativ milden Bedingungen möglich

ist. Diese Aussage bildet den Kern des sogenannten Multiple Input/Output INverse Theorem

(MINT). Eine notwendige Bedingung besteht zum Beispiel darin, dass die z-Transformierten

der zeitdiskreten RIAs vom Sprecher zu sämtlichen Mikrophonen keine gemeinsamen Null-

stellen besitzen dürfen [MK88].

Für die Schätzung der RIA lassen sich eigenraumbasierte Verfahren nutzen, welche meh-

rere Mikrophone erfordern [GN95, GM03, Gan08, Gan10]. Dabei wird die RIA aus dem

Nullraum einer aus den Abtastwerten aller Mikrophonsignale konstruierten Korrelationsma-

trix extrahiert. Die Schätzung der RIA wird dabei insbesondere durch ihre Zeitvarianz sowie

die Präsenz von Hintergrundstörungen erschwert. Um den Einfluss der Fehler in der ge-

schätzten RIA auf die Bestimmung des inversen Filters zu reduzieren, wurde in [HDM06]

eine Regularisierung vorgeschlagen. Obwohl dadurch die Sensitivität gegenüber Schätzfeh-

lern reduziert wird, ist die erzielte Entzerrung nur suboptimal.

Eine weitere Möglichkeit zur Entfernung des Nachhalls unter der Voraussetzung der Prä-

senz mehrerer Mikrophonsignale besteht in der direkten Entfaltung des verhallten Sprachsi-

gnals, welche ohne die explizite Schätzung der RIA auskommt [TS05, DHM07, NYK+08].

Es basiert auf der Anwendung von linearer Prädiktion (engl. Linear Prediction (LP)) zur

blinden Entzerrung. Ein unerwünschter Effekt des Entzerrers ist die gleichzeitige Entzerrung

bezüglich der zeitvarianten Übertragungsfunktion des Vokaltraktes, welche für die Lautfor-

mung gemäß dem Quelle-Filter-Modell der Sprachsignalerzeugung [RJ93, Kap. 3.3] wesent-

lich ist. Zur Kompensation dieses Effektes muss die Übertragungsfunktion des Vokaltraktes

mit geschätzt werden, so dass ein entsprechendes inverses Filter bestimmt werden kann.

Um die im Vergleich zur RIA relativ kurze Impulsantwort des Vokaltraktes bei der linearen

Prädiktion außer Acht zu lassen, können alternativ Verfahren wie die mehrstufige lineare

Prädiktion (engl. Multi-Step Linear Prediction (MSLP)) [GD97, KDNM09] verwendet wer-

den. Dabei wird ein Abtastwert nicht durch seine direkten Vorgänger vorhergesagt, sondern

durch einige weiter zurückliegende, aufeinander folgende Abtastwerte. Dadurch werden also

nur durch den späten Nachhall eingeführten Korrelationen im Sprachsignal berücksichtigt.

Stand der Forschung

3.1.2. Verfahren zur Unterdrückung des Nachhalls

In Abgrenzung zu den eben erläuterten Verfahren zur vollständigen Entfernung des Nach-

halls existieren in der Literatur zahlreiche Ansätze zur Unterdrückung des Nachhalls. Dazu

gehört beispielsweise die Unterdrückung des späten Nachhalls mit Hilfe von spektraler Sub-

traktion [LBD01, Hab04, PS06], wobei die Verbesserung der Sprachverständlichkeit das pri-

märe Ziel darstellt. Dabei wird davon ausgegangen, dass die späten Reflexionen unkorreliert

zum direkten Anteil samt den frühen Reflexionen sind. Mit dieser Argumentation kann der

späte Nachhall als zum gewünschten Sprachsignal unkorrelierte, additive Störung aufgefasst

werden, so dass Methoden zur Störunterdrückung basierend auf der spektralen Subtraktion

angewendet werden können. Die Herausforderung bei solchen Methoden stellt die akkura-

te Schätzung des Kurzzeit-Leistungsdichtespektrums des späten Nachhalls dar, für welche

ein statistisches Modell der RIA herangezogen wird, das die Nachhallzeit T60 als einzigen

Parameter besitzt. Es ist bei diesem Verfahren ebenfalls möglich, frequenzabhängige Nach-

hallzeiten zur genaueren Modellierung des Absorptionseigenschaften der Oberflächen von

umgebenden Wänden und Objekten zu berücksichtigen [Hab04].

Alternative Ansätze zur Unterdrückung des Nachhalls basieren auf der Anwendung der

Modulationstheorie auf Sprachsignale. Beispielsweise wird in [HNKT00, UFSA03] ein sau-

beres Sprachsignal als Produkt eines weißen GAUSS’schen Zufallsprozesses und einer Ein-

hüllenden modelliert. Eine ähnliche Modellierung wird für die RIA vorgenommen, wobei

eine exponentiell abklingenden Einhüllende zugrunde gelegt wird. Aufbauend darauf lässt

sich die Einhüllende eines verhallten Sprachsignals durch die Faltung der Einhüllenden des

sauberen Sprachsignals und der der RIA ausdrücken. Diese Operation führt zu einer Verrin-

gerung der Modulationstiefe, deren Ausmaß mit Hilfe einer im Englischen als Modulation

Transfer Function (MTF) bezeichneten Übertragungsfunktion charakterisiert werden kann

[HS85]. Die Verringerung der Modulationstiefe insbesondere im Bereich der Modulations-

frequenzen zwischen etwa 0,5Hz und 20Hz geht dabei mit der Verschlechterung der Sprach-

verständlichkeit einher [HS85]. Zur Rekonstruktion der Einhüllenden des sauberen Sprach-

signals muss folglich eine inverse Filterung der Einhüllenden des verhallten Sprachsignals

durchgeführt werden. Es existieren dabei auch Methoden, welche das Sprachsignal inner-

halb einzelner kritischer Bänder als amplitudenmoduliertes Signal auffassen und dement-

sprechend eine Verbesserung von bandspezifischen Einhüllenden vornehmen [LS82, MH83].

In Abgrenzung dazu gibt es Verfahren, die die Enthallung durch eine Verbesserung des

Residuums, welches bei der Vorhersage eines Sprachsignals durch lineare Prädiktion ent-

steht, realisieren. Dabei wird das sogenannte LP-Residuum, was aus einer LPC-Analyse

von kurzen Segmenten des Sprachsignals resultiert, zunächst geeignet modifiziert, um dar-

aus anschließend das verbesserte Sprachsignal zu resynthetisieren. Grundsätzlich repräsen-

tiert das LP-Residuum gemäß dem Quelle-Filter-Modell der Sprachsignalerzeugung [RJ93,

Kap. 3.3] das Anregungssignal, welches durch den Vokaltrakt geformt wird. Daher wer-

den innerhalb von Bereichen, die stimmhaften Lauten entsprechen, Glottalschläge im LP-

Residuum als abschnittsweise periodisch auftretende Spitzen sichtbar. Durch den Einfluss

des Nachhalls werden diese über die Zeit verschmiert. Unter der wesentlichen Annahme,

dass die LPC-Koeffizienten durch den Nachhall nicht verändert werden, geschieht beispiels-

weise in [YM00] die Modifikation des LP-Residuums derart, dass versucht wird, die dem

direkten Anteil entsprechenden Spitzen zu verstärken. Ein ähnlich motivierter Ansatz wird

in [GMF01] verfolgt. Das Ausmaß der Verschmierung der Spitzen im LP-Residuum hängt

Stand der Forschung

direkt mit der Intensität des Nachhalls zusammen. Dabei verringert sich mit zunehmender In-

tensität des Nachhalls die Kurtosis des LP-Residuums. Ausgehend davon wird in [GMF01]

versucht, eine adaptive Filterung des LP-Residuums derart durchzuführen, dass die Kurtosis

des gefilterten Signals maximiert wird.

Die Annahme, dass die LPC-Koeffizienten durch den Nachhall nicht verändert werden,

trifft jedoch im Allgemeinen nicht zu. Eine solche Aussage ist nämlich nur gültig für den

Erwartungswert der LPC-Koeffizienten bezüglich aller räumlichen Positionen des Sprechers

und des Mikrophons, nicht jedoch für eine feste Anordnung beider. Dieses konnte mit der

Verwendung der statistischen Raumakustik [Kut00] in [GNW03] gezeigt werden. Als Fol-

ge dessen wird zur genaueren Bestimmung der LPC-Koeffizienten in [GNW03, GRTN10]

vorgeschlagen, mehrere Mikrophone zur Aufnahme des Sprachsignals zu verwenden, um

anschließend die auf jedem einzelnen Signal bestimmten LPC-Koeffizienten zu mitteln.

Sehr ähnlich dazu sind Verfahren, welche A-priori-Information über die Sprache in Form

ihrer harmonischen Struktur ausnutzen [NM03, KNM05, NJKM05, NMK05, NKM07]. Da-

bei werden Schätzungen der Stimmbandgrundfrequenz sowie der harmonischen Struktur des

Sprachsignals dazu verwendet, den direkten Anteil des verhallten Sprachsignals zu rekon-

struieren. Auch diese Methoden nehmen an, dass sich die Stimmbandgrundfrequenz durch

den Einfluss des Nachhalls nicht verändert und sich deshalb robust aus einem verhallten

Sprachsignal schätzen lässt.

Eine gänzlich anderes Prinzip liegt der akustischen Strahlformung zugrunde, welches ein

mehrkanaliges Verfahren darstellt [FJZE85]. Dabei wird die Sensitivität einer Mikrophon-

gruppe bezüglich der Sprecherrichtung erhöht, indem ein Sensitivitätsstrahl in diese Rich-

tung ausgebildet wird. Das hat zur Folge, dass Reflexionen des Quellsprachsignals, welche

aus anderen als der Sprecherrichtung auf das Mikrophon einfallen, unterdrückt werden, wo-

durch ein gewisser Enthallungseffekt auftritt. Zusätzlich werden dadurch auch Hintergrund-

störungen gedämpft. Eine Schwierigkeit im Zusammenhang mit diesem Verfahren ist die

robuste automatische Bestimmung der Sprecherrichtung.

Weiterhin existieren Verfahren, welche die Enthallung mit Hilfe von homomorphischer

Entfaltung [SCI75, SPW96] durchführen. Sie sind vom Ansatz her sehr ähnlich zur später in

Kap. 3.2.1 vorgestellten Mittelwertsubtraktion und werden daher hier nicht weiter beschrie-

ben.

Abschließend sei noch erwähnt, dass im Prinzip unterschiedliche Kombinationen von An-

sätzen vorstellbar sind. So wird zum Beispiel in [KNM06] die Energie des späten Nachhalls

mit Hilfe der mehrstufigen linearen Prädiktion geschätzt, um den späten Nachhall durch die

Anwendung von spektraler Subtraktion zu unterdrücken. Außerdem können Verfahren zur

Enthallung mit Verfahren zur Entstörung wie in [YNM09] verknüpft werden.

3.2. Verfahren zur Extraktion hallrobuster Merkmale

Zu dieser Kategorie gehören Verfahren, welche das Ziel verfolgen, die Merkmalsextraktion

derart zu gestalten, dass diese insensitiv gegenüber dem Einfluss von Nachhall und Hinter-

grundstörungen ist. Darunter befinden sich unter anderem zahlreiche Normierungsansätze

sowie auch Methoden, welche sich an der menschlichen Wahrnehmung orientieren. Da das

in dieser Dissertation vorgestellte Verfahren ebenfalls in diese Kategorie fällt, wird im Fol-

genden ein sehr detaillierter Überblick über die merkmalsbasierten Ansätze gegeben.

Stand der Forschung

3.2.1. Normierungsverfahren

Den Normierungsverfahren liegt die Motivation zugrunde, die langzeitigen statistischen Ei-

genschaften der akustischen Merkmale zu betrachten. Sie gehen von der Feststellung aus,

dass sich diese Eigenschaften in Abhängigkeit der Präsenz von Nachhall und Hintergrundstö-

rungen verändern. Als Folge dessen kann eine statistische Fehlanpassung bei der Beschrei-

bung von verhallten und gestörten Sprachsignalen durch das akustische Modell des Spracher-

kenners auftreten, wenn zuvor das Training unter Verwendung von sauberen Sprachsignalen

erfolgt ist. Zur Behebung dieser Diskrepanz lassen sich daher unterschiedliche Normalisie-

rungsstrategien verfolgen, die sich hauptsächlich in der Ordnung und Anzahl der normierten

Momente unterscheiden. Dazu muss streng genommen vorausgesetzt werden, dass die ent-

sprechenden Momente überhaupt existieren.

Die praktische Durchführung der Normalisierung erfordert in der Regel eine vorhergehen-

de Schätzung der entsprechenden Momente mit Hilfe der beobachteten Merkmale. Um eine

gewisse Genauigkeit dieser Schätzung zu erzielen, muss die Anzahl der dazu herangezoge-

nen Merkmale entsprechend groß sein, wobei sie im Allgemeinen mit der Ordnung des zu

schätzenden Momentes steigt. Da die Normierung erst nach der Schätzung stattfinden kann,

wird dadurch eine gewisse, oft beträchtliche, Zeitverzögerung im Gesamtsystem eingeführt,

worin ein entscheidender Nachteil der Normierungsverfahren liegt. Als Kompromiss las-

sen sich die Momente mit gleitenden Fenstern schätzen, woran jedoch die Genauigkeit der

Schätzung und damit verbunden auch die Effektivität der Normalisierung leidet.

Im Folgenden werden ausgewählte Normierungsverfahren im Detail vorgestellt.

Cepstrale Mittelwertsubtraktion

Der wohl berühmteste Vertreter der Normierungsverfahren ist die sogenannte cepstrale Mit-

telwertsubtraktion (engl. Cepstral Mean Subtraction (CMS)) [RLS94], die auf der folgen-

den Idee basiert. Die zeitdiskrete FOURIER-Transformierte (engl. Discrete-Time FOURIER

Transform (DTFT)) Sej

des verhallten Sprachsignals s(l)lässt sich bekanntlich als Pro-

dukt der DTFT X ej

des sauberen Sprachsignals und der DTFT H ej

der RIA aus-

drücken:

Sej

=Xej

Hej

.(3.1)

In Anlehnung daran lässt sich das Kurzzeit-Spektrum des verhallten Sprachsignals gemäß

S(m,k)≈X(m,k)H(0,k)(3.2)

approximieren, falls die zeitliche Ausdehnung des Analysefensters deutlich größer als die

der RIA ist [AC07a]. Für den natürlichen Logarithmus des Kurzzeit-Leistungsspektrums gilt

dann entsprechend folgende Näherung

ln|S(m,k)|2≈ln|X(m,k)|2+ln|H(0,k)|2.(3.3)

Stand der Forschung

Alternativ lässt sich eine Approximation direkt im log-MEL-spektralen Bereich gemäß

s(s)

m,q=ln





K(o)

∑

k=K(u)

|S(m,k)|2Λq(k)





(3.4)

≈ln





K(o)

∑

k=K(u)

|X(m,k)|2|H(0,k)|2Λq(k)





(3.5)

≈ln





K(o)

∑

k=K(u)

|X(m,k)|2Λq(k)

1

K(o)

q−K(u)

q+1

K(o)

∑

k=K(u)

|H(0,k)|2







(3.6)

=x(s)

m,q+ln





K(o)

q−K(u)

q+1

K(o)

∑

k=K(u)

|H(0,k)|2





(3.7)

angeben, woraus sich unmittelbar ein analoger Ausdruck im Cepstrum gewinnen lässt. Dabei

ist zu berücksichtigen, dass die jeweils letzten Terme in (3.3) und (3.7) segmentunabhängig

sind. Subtrahiert man folglich vom logarithmischen Kurzzeit-Leistungsspektrum oder vom

Cepstrum eines verhallten Sprachsignals seinen Mittelwert, so wird der Einfluss der RIA nä-

herungsweise eliminiert. Da das logarithmische Kurzzeit-Leistungsspektrum und das Cep-

strum gewöhnlich nicht mittelwertfrei sind, muss die Subtraktion ebenfalls bei der Extraktion

der Merkmale für das Training des Spracherkenners stattfinden.

Nun beträgt die Dauer eines Analysefensters zur Merkmalsextraktion in der Regel etwa

25 ms. Hingegen ist die zeitliche Ausdehnung einer typischen Impulsantwort deutlich länger

und liegt im Bereich von einigen Hundert Millisekunden. Daher ist CMS in der oben be-

schriebenen Form nicht dazu in der Lage, den Einfluss von Nachhall auf der Merkmalsebene

zu reduzieren, worin eine wesentliche Schwachstelle dieses Ansatzes besteht. Er eignet sich

viel eher dazu, den bei der Aufnahme der Sprachsignale durch Mikrophone mit unterschied-

lichen Frequenzcharakteristiken entstehenden Auswirkungen zu unterdrücken [RLS94].

Als Abhilfe wurde in [ATH97] vorgeschlagen, deutlich längere Analysefenster der Dauer

von etwa 2 s für die cepstrale Mittelwertsubtraktion zu verwenden. Um die resultierenden

Merkmale für die Spracherkennung nutzen zu können, müssen diese wieder in das gewöhn-

liche Format umgerechnet werden. Damit ist gemeint, dass die für den Erkenner übliche

Zeit-Frequenz-Auflösung wiederhergestellt werden muss. Dazu wird in [Ave97] eine appro-

ximative Transformation des Kurzzeit-Leistungsspektrums hergeleitet, welche dessen zeitli-

che Auflösung zulasten der Frequenzauflösung vergrößert. Anstatt diese sogenannte partiel-

le Synthese vorzunehmen, ist es auch möglich, das akustische Signal nach der Anwendung

von CMS zu resynthetisieren, um anschließend eine gewöhnliche Merkmalsextraktion durch-

zuführen [GM01]. Für diesen als Langzeit-CMS bezeichneten Ansatz wird zur Resynthese

neben dem Kurzzeit-Leistungsspektrum im Grunde noch die Kurzzeit-Phase des sauberen

Sprachsignals benötigt. Da sie jedoch im Allgemeinen unbekannt ist, wird statt dessen die

Kurzzeit-Phase des verhallten Signals verwendet. Mit Hilfe eines derartigen Verfahrens wird

zwischenzeitlich ein enthalltes Sprachsignal berechnet, weshalb es eigentlich zu den signal-

basierten Ansätzen gehört. Es konnte damit eine beachtliche Reduktion der Wortfehlerrate

in Gegenwart von sowohl künstlichem als auch natürlichen Nachhall im Vergleich zur Merk-

malsextraktion gemäß dem ETSI-Standard [ETSb] erzielt werden [GM01]. Da die Mittelung

Stand der Forschung

über 21 aufeinander folgende Segmente mit einem Überlapp von 50 % ausgeführt wurde,

entsprach die durch das Verfahren eingeführte zeitliche Verzögerung etwa 11s.

Weiterhin lässt sich Langzeit-CMS beispielsweise mit spektraler Subtraktion kombinie-

ren, um eine gemeinsame Enthallung und Entstörung akustischer Merkmale vorzunehmen

[GM02]. Für die spektrale Subtraktion kann ein zeitlich konstantes Kurzzeit-Leistungsspek-

trum der Hintergrundstörung angenommen werden, welches für die Dauer einer Sprachäuße-

rung gültig ist und mit Hilfe einer Sprachaktivitätsdetektion (engl. Voice Activity Detection

(VAD)) geschätzt wird.

Cepstrale Varianznormierung

Die cepstrale Varianznormierung (engl. Cepstral Variance Normalization (CVN)) wurde be-

dingt durch die historische Entwicklung der Spracherkennung zunächst im Sinne der Kom-

pensation von Hintergrundstörungen eingesetzt [CB07, VL98]. Die ursprüngliche Motiva-

tion für ihre Anwendung lag in der Beobachtung, dass aufgrund der Hintergrundstörungen

energiearme Bereiche des Kurzzeit-Leistungsspektrum ”aufgefüllt“ werden, sodass sich in

letzter Konsequenz die Varianz einzelner cepstraler Merkmale reduziert. Ein ähnlicher Effekt

tritt jedoch bedingt durch den zeitlich dispersiven Effekt des Nachhalls auf, so dass CVN da-

zu in der Lage ist, die Robustheit der Merkmalsextraktion gegenüber Nachhall in gewissem

Maße zu steigern [TTN07].

Histogrammangleichung

Der Grenzfall der Normierung einzelner Merkmalsvektorkomponenten bezüglich aller ih-

rer Momente kann äquivalent als gezielte Angleichung ihrer Verteilungsdichtefunktion an

eine Referenz angesehen werden [dlTPS+05, TTN07]. Dabei wird implizit vorausgesetzt,

dass zeitlich aufeinander folgende Merkmalsvektorkomponenten Realisierungen unabhängi-

ger und identisch verteilter Zufallsvariablen darstellen. Insbesondere folgt aus einer solchen

Voraussetzung, dass die zeitliche Trajektorie einer Merkmalsvektorkomponente als Reali-

sierung eines stationären Prozesses interpretiert werden kann, was im Falle von zugrunde

liegenden Sprachsignalen eigentlich nicht sinnvoll ist.

Die Notwendigkeit einer Angleichung der Verteilungsdichtefunktion erwächst nun basie-

rend auf dieser Annahme dadurch, dass der gemeinsame Effekt von Nachhall und Hinter-

grundstörungen approximativ zu einer nichtlinearen Transformation der cepstralen Merk-

male führt. Dazu muss zunächst die Verteilungsdichtefunktion einzelner Merkmalsvektor-

komponenten durch ein empirisch bestimmtes Histogramm hinreichend genau approximiert

werden, was offensichtlich eine ausreichende Menge an Beobachtungen erfordert. Um einen

Kompromiss zwischen der Zeitverzögerung des Verfahrens und einer möglichst großen Ge-

nauigkeit zu erreichen, wird die Schätzung des Histogramms gewöhnlich auf der Grundlage

ganzer Sprachäußerungen durchgeführt [TTN07]. Anschließend wird jede Merkmalsvektor-

komponente derart transformiert, dass das resultierende Histogramm einem Referenzhisto-

gramm entspricht. Man spricht in der Literatur deshalb auch von einer sogenannten Histo-

grammangleichung. Dabei muss angenommen werden, dass die entsprechende Transforma-

tion existiert, was äquivalent dadurch ausgedrückt werden kann, dass die Verteilungsfunktion

streng monoton wachsend ist. In der Praxis wird man sich damit begnügen, dass diese Ei-

genschaft nur näherungsweise erfüllt ist, da ihre Verifikation aufgrund von Fehlern bei der

Stand der Forschung

empirischen Schätzung der Verteilungsfunktion mit Hilfe von normierten kumulativen His-

togrammen unmöglich ist.

Das Verfahren bietet zwei wesentliche Vorteile. Zum einen lässt sich der Rechenaufwand

relativ gering halten, indem die gewöhnlich nichtlineare Transformation der Merkmalsvek-

torkomponenten mit Hilfe von Nachschlagetabellen realisiert wird. Zum anderen werden

keine Annahmen über die Art der Transformation getroffen, so dass sich die Methode prin-

zipiell zur Kompensation unterschiedlichster Arten von Störungen eignet. Es muss jedoch

betont werden, dass besonders im Falle von Nachhall eine starke Abhängigkeit zwischen

zeitlich aufeinander folgenden Merkmalsvektorkomponenten besteht, welche der bereits er-

wähnten Unabhängigkeitsannahme des Verfahrens deutlich widerspricht und folglich seine

Effektivität enorm verringert. Nichtsdestotrotz konnte mit der auf das Cepstrum angewende-

ten Histogrammangleichung eine merkbare Steigerung der Leistungsfähigkeit des Spracher-

kenners in Gegenwart von künstlich erzeugtem Nachhall erzielt werden [TTN07].

Affine Transformation von Merkmalsvektoren

Bei den bisher vorgestellten Normalisierungsstrategien wurden einzelne Merkmalsvektor-

komponenten getrennt voneinander betrachtet. Nun ist es jedoch auch möglich, eine affin

lineare Transformation auf den gesamten Merkmalsvektor anzuwenden, wobei das Kriteri-

um zur Bestimmung der Transformation in der Maximierung der sogenannten Likelihood-

funktion für eine Menge von Adaptionsdaten liegt. Dieser Ansatz wird im Englischen als

Constrained Maximum Likelihood Linear Regression (CMLLR) oder alternativ als Feature-

space Maximum Likelihood Linear Regression (FMLLR) bezeichnet [Gal98].

In der Regel können die Auswirkungen des Nachhalls auf das Cepstrum unter der An-

nahme von gewöhnlichen Analysefensterlängen nicht durch affin lineare Transformationen

ausgedrückt werden. Denn die zeitliche Verschmierung des Cepstrums erzeugt eine star-

ke Abhängigkeit von aufeinander folgenden Merkmalsvektoren. Beinhalten die Merkmals-

vektoren jedoch dynamische Komponenten, welche diese Abhängigkeit in einer gewissen

Weise erfassen, lässt sich die Anwendung von CMLLR zur Robustheit gegenüber Nachhall

zumindest in Ansätzen rechtfertigen. So wurde es vom Autor dieser Dissertation bereits in

[KHU10] durchaus erfolgreich zur Merkmalsenthallung eingesetzt. Die Resultate hingen je-

doch stark von der Menge der Adaptionsdaten sowie davon ab, ob deren Transkription zur

Bestimmung der Transformation vorlag.

3.2.2. Perzeptuell motivierte Verfahren

Die in diesem Abschnitt vorgestellten Verfahren gehen im Wesentlichen von der grundlegen-

den Feststellung aus, dass die Aufgabe der Spracherkennung in der Dekodierung einer lin-

guistischen Nachricht liegt, welche ursprünglich durch den Menschen beim Sprechen in die

Bewegungen des Vokaltraktes codiert wurde [HMBK91]. Da die physikalischen Eigenschaf-

ten des Vokaltraktes, vor allem seine Trägheit, nur gewisse Änderungsraten seiner Stellung

zulassen, prägen sie dadurch die Eigenschaften eines Sprachsignals. Diese Tatsache lässt

sich demzufolge auch bei der perzeptuell orientierten Analyse eines akustischen Signals in-

nerhalb einzelner kritischer (Frequenz-)Bänder beobachten. Fasst man nämlich die entspre-

chenden Bandpasssignale approximativ als amplitudenmodulierte Signale auf, so besitzen

die zugehörigen Einhüllenden hauptsächlich Anteile für Modulationsfrequenzen im Bereich

Stand der Forschung

zwischen 0,5 Hz und 16 Hz [HS85]. Insbesondere ist in diesem Zusammenhang bemerkens-

wert, dass das menschliche Gehör gegenüber Modulationsfrequenzen im Bereich von etwa

4 Hz eine erhöhte Sensitivität aufweist [HM94], welche der Rate von Silben innerhalb der

Sprache [HSP80] entspricht.

Berechnung relativer Kurzzeit-Leistungspektren

Die auf relativen Kurzzeit-Leistungsspektren basierenden Merkmale (engl. Relative Spectral

(RASTA)features) [HMBK91, HM94] basieren ursprünglich auf der Beobachtung, dass für

die menschliche Wahrnehmung hauptsächlich relative Unterschiede der Stimulation von Be-

deutung sind. Orientierend daran wird deshalb in [HMBK91] vorgeschlagen, eine Abkehr

von der bis dahin etablierten Verwendung absoluter Werte des Kurzzeit-Leistungsspektrums

zur Merkmalsextraktion vorzunehmen.

Die RASTA-Merkmale stellen eine modifizierte Version von Merkmalen dar, welche auf

einer perzeptuell motivierten linearen Prädiktion (engl. Perceptual Linear Prediction (PLP))

basieren [HHW85, Her90]. Für die Berechnung der PLP-Merkmale wird in einem ersten

Schritt die Leistung des Sprachsignals innerhalb der einzelnen kritischer Bänder [Gre61] be-

stimmt. Dieses geschieht unter Verwendung des Kurzzeit-Leistungsspektrums auf eine ähn-

liche Weise wie für die Berechnung der MFCCs in (2.4). Der einzige Unterschied liegt in

der Verwendung von Fensterfunktionen, welche bezüglich der MEL-Frequenzskala eine tra-

pezförmige Gestalt aufweisen. Im Anschluss erfolgt eine Gewichtung sowie Komprimierung

der Leistung innerhalb der kritischen Bänder zur approximativen Nachahmung der perzeptu-

ellen Lautheit. Das resultierende verzerrte Kurzzeit-Leistungsspektrum wird dann durch ein

autoregressives Modell approximiert, indem LPC-Koeffizienten berechnet werden. Der aus

den LPC-Koeffizienten bestehende Vektor wird anschließend ins Cepstrum transformiert.

Die Modifikation der PLP-Merkmale besteht nun in der Einführung einer kompressi-

ven Nichtlinearität, einer Bandpass-Filterung sowie einer dekompressiven Nichtlinearität

nach der Berechnung des Kurzzeit-Leistungsspektrums für kritische Bänder [HMBK91]. Die

grundsätzliche Idee der Bandpass-Filterung besteht in der Unterdrückung aller besonders

schnell oder besonders langsam veränderlichen Komponenten in der zeitlichen Trajektorie

der komprimierten Leistung einzelner kritischer Bänder, da diese typischerweise nicht die

linguistische Nachricht enthalten. So ähnelt der Durchlassbereich des Bandpass-Filters dem

bereits zu Beginn von Kap. 3.2.2 erwähnten Frequenzbereich zwischen 0,5 Hz und 16 Hz.

Variationen des Verfahrens entstehen beispielsweise durch unterschiedliche Wahlen der

kompressive Nichtlinearität. So zeichnen sich die sogenannten LOG-RASTA-PLP-Koeffizien-

ten [HMBK91] durch eine logarithmische Kompression aus, welche besonders geeignet ist,

um Effekte von Faltungsstörungen zu unterdrücken und damit eine Robustheit gegenüber

Kanaleinflüssen zu erzielen. Dabei wird dasselbe Prinzip der Additivität der Faltungsstörung

im logarithmischen Kurzzeit-Leistungsspektrum wie auch bei der cepstralen Subtraktion

ausgenutzt. Die sogenannten LIN-LOG-RASTA-PLP-Koeffizienten nutzen eine kompressive

Linearität, welche approximativ linear für kleine Werte des Argumentes und approximativ

logarithmisch für große Werte des Argumentes ist, wobei die Grenze zwischen den beiden

Bereichen signalabhängig gewählt wird [HM94]. Damit lassen sich zusätzlich zu Faltungs-

störungen additive Hintergrundstörungen unterdrücken, welche approximativ additiv im li-

nearen Kurzzeit-Leistungsspektrum sind.

In experimentellen Untersuchungen wurde festgestellt, dass die alleinige Verwendung von

Stand der Forschung

RASTA-PLP-Koeffizienten im Vergleich zur Verwendung der PLP-Koeffizienten zu keiner

Leistungssteigerung des Spracherkenners in Gegenwart von Nachhall führte [KM97]. Die-

ses änderte sich jedoch, als für die Spracherkennung beide Arten von Koeffizienten gemein-

sam verwendet wurden. Bei diesem Ansatz besteht eine starke Parallele zur Ergänzung der

MFCCs durch die DELTA-Merkmale zur Erfassung eines gewissen zeitlichen Kontexts (sie-

he auch Kap. 2.1). Die Berechnung der DELTA-Merkmale kann als ein Spezialfall der RAS-

TA-Verarbeitung aufgefasst werden kann, wobei die Bandpassfilterung mit Hilfe eines nicht

kausalen Filters mit endlicher Impulsantwort vorgenommen wird [HM94]. An dieser Stelle

soll darauf hingewiesen werden, dass auch die cepstrale Mittelwertsubtraktion eine große

Ähnlichkeit zur RASTA-Verarbeitung aufweist, wobei jedoch die Bandpassfilterung durch

eine Hochpassfilterung zur ausschließlichen Entfernung des Gleichanteils ersetzt ist.

Weiterhin existieren Ansätze für den Entwurf von datenabhängigen Bandpass-Filtern mit

Hilfe der linearen Diskriminantenanalyse unter Verwendung von verhallten Testsprachsigna-

len [vVH97]. Dabei findet im Wesentlichen eine Anpassung des Durchlassbereiches an das

Ausmaß des Nachhalls statt. Die Verwendung derartiger Methoden in Gegenwart von Nach-

hall offenbarte jedoch eine starke Sensibilität des Verfahrens im Bezug auf die Wahl von

Trainingsdaten [SC00], wobei bei einer Fehlanpassung der Trainingsdaten an die Testdaten

die Erkennungsleistungen sehr schlecht ausfallen können.

Modulationsspektrogramm

Das Modulationsspektrogramm stellt eine Verallgemeinerung der RASTA-PLP-Algorithmen

dar [GK97] [KMG98]. Das Sprachsignal wird hierbei auch in Anlehnung an Studien zur

menschlichen Wahrnehmung in kritischen Bändern analysiert, wobei jedoch anstelle einer

Kurzzeit-Spektralanalyse mittels der DFT eine Bank von Bandpass-Filtern mit endlicher

Impulsantwort zum Einsatz kommt. Die Bandpasssignale werden abschnittsweise approxi-

mativ als amplitudenmodulierte Signale aufgefasst, wobei das Ziel in der Darstellung von

Amplitudenmodulationen in ihrer Stärke und zeitlichem Verlauf im Bereich zwischen 0 Hz

und 8 Hz mit einer besonders hohen Sensitivität bei 4 Hz besteht. Dazu wird die Einhüllen-

de der Bandpasssignale bestimmt und zunächst einer Energienormalisierung unterworfen.

Anschließend erfolgt eine Bandpass-Filterung der Einhüllenden, wobei die Impulsantwort

des Bandpasses ein HAMMING-Fenster darstellt, welche durch eine komplexe Exponential-

schwingung der Frequenz von 4 Hz moduliert wird. Die Wirkung dieser Operation ähnelt der

eines signalangepassten Filters (engl. matched filter) zur Detektion von Signalen mit einer

temporalen Struktur, die derjenigen der Sprache entspricht (siehe Bemerkungen zu Beginn

von Kap. 3.2.2) [KMG98]. Als Folge dessen fällt die meiste Energie im Modulationsspek-

trogramm auf den Bereich von silbischen Kernen. In experimentellen Untersuchungen hat

sich gezeigt, dass das Modulationsspektrogramm bei Präsenz von gemäßigtem Nachhall kei-

ne Vorteile gegenüber den RASTA-Merkmalen im Hinblick auf die Spracherkennung bringt

[KMG98]. Hingegen konnten durch eine Kombination beider Methoden Verbesserungen ge-

genüber der alleinigen Verwendung der RASTA-Merkmale erzielt werden.

Analyse innerhalb Teilbändern mit linearer Prädiktion im Frequenzbereich

Ähnlich wie beim Modulationsspektrogramm wird in [TGH08a] die Einhüllende von Teil-

bandsignalen betrachtet und innerhalb sich nicht überlappender Segmente der Dauer von

Stand der Forschung

etwa 1 s analysiert. Die Untersuchung vollzieht sich jedoch mit Hilfe von linearer Prädiktion

im Frequenzbereich (engl. Frequency Domain Linear Prediction (FDLP)), wobei eine ge-

glättete, minimalphasige, parametrische Darstellung der zeitlichen Einhüllenden berechnet

wird. Die Methode orientiert sich an dem Vorbild der linearen Prädiktionscodierung [RJ93,

Kap. 3.3] [Mak75], wobei autoregressive Modelle zur parametrischen Repräsentation der

spektralen statt der zeitlichen Einhüllenden genutzt werden.

Ein wesentlicher Aspekt im Zusammenhang mit der Erkennung verhallter Sprache ist bei

diesem Ansatz die Tatsache, dass sich die spektrale Autokorrelationsfunktion eines zu ei-

nem verhallten Sprachsignal zugehörigen Teilbandsignals approximativ als Produkt zweier

weiterer Autokorrelationsfunktionen ausdrücken lässt, nämlich der des entsprechenden Teil-

bandsignals zugehörig zum sauberen Sprachsignal sowie der des Teilbandsignals zugehörig

zur RIA [TGH08b]. Die Herleitung dieser Aussage stützt sich darauf, dass zwischen der

komplexen Einhüllenden des verhallten Sprachsignals, des sauberen Sprachsignals und der

RIA ein Zusammenhang besteht, der sich näherungsweise durch eine Faltung beschreiben

lässt [MH83]. Da die komplexe Einhüllende eines Bandpasssignals die inverse FOURIER-

Transformierte dessen spektraler Autokorrelationsfunktion bildet [Her96], lässt sich die Aus-

sage über die Multiplikativität der spektralen Autokorrelationsfunktionen durch Ausnutzung

der Dualität zwischen dem Zeit- und Frequenzbereich gewinnen. Nimmt man nun weiter an,

dass für die RIA die spektrale Autokorrelationsfunktion einzelner Teilbandsignale nur sehr

langsam ändert, lässt sich durch eine bandspezifische Amplitudennormierung der komplexen

Einhüllenden der Einfluss der RIA unterdrücken.

Nach der Anwendung der linearen Prädiktion im Frequenzbereich und der Normierung

erhält man eine Menge von Einhüllenden für einzelne Teilbänder, welche als Zeit-Frequenz-

Repräsentation angesehen werden können. Diese wird anschließend bezüglich der Zeit auf

100 Hz unterabgetastet, um eine gewisse Konformität mit der gewöhnlichen Zeit-Frequenz-

Auflösung bei der Merkmalsextraktion herzustellen. Die resultierenden Kurzzeit-Energien

einzelner Segmente zusammengefasst über alle Subbänder werden danach ins Cepstrum

transformiert.

Ergebnisse der in [TGH08b] durchgeführten experimentellen Untersuchungen zeigen bei-

spielsweise einen deutlichen Vorteil des Verfahrens gegenüber CMS und Langzeit-CMS im

Bezug auf die Erkennung von verhallter Sprache. Die Leistungsfähigkeit kann dabei enorm

durch die Vergrößerung der Segmentlänge und der Vergrößerung der spektralen Auflösung

gesteigert werden, wodurch die Multiplikativitätsaussage bezüglich der spektralen Autokor-

relationsfunktion in ihrer Güte verbessert und somit die Normalisierung effektiver wird.

Modulationsanalyse als Ergänzung der MFCCs

In [MM10] wurde vorgeschlagen, eine abgewandelte Form der MFCCs mit Hilfe von auf der

Modulationsanalyse beruhenden Koeffizienten zu ergänzen. Die Modifikation der MFCCs

besteht prinzipiell in der Verwendung einer sogenannten GAMMATONE-Filterbank zur Ex-

traktion der Signale für einzelne kritische Bänder anstatt der Durchführung einer MEL-Fil-

terung beruhend auf dem Kurzzeit-Leistungsspektrum. Bei GAMMATONE-Filtern handelt es

sich um lineare Filter, welche die physiologisch motivierten Verarbeitung durch die Cochlea

nachahmen [PRH+92].

An Stelle dynamischer Merkmale wie der DELTA-Merkmale, welche die zeitliche Ent-

wicklung der MFCCs beschreiben, werden Merkmale verwendet, welche die Energie von

Stand der Forschung

Modulationen im Frequenzbereich zwischen 2 Hz und 16 Hz in der Trajektorie einzelner

cepstraler Koeffizienten darstellen. Das Modulationsspektrum wird mit Hilfe der FOURIER-

Transformation der zeitlichen Trajektorie der Energien innerhalb von Teilbändern berech-

net. Als Merkmal wird die Energie im Frequenzband zwischen 2 Hz und 16 Hz verwendet.

Anschließend werden die DELTA-DELTA-Merkmale durch numerische Differenziation der

Merkmale beruhend auf der Modulationsanalyse bestimmt.

Bezüglich der experimentellen Ergebnisse lässt sich zusammenfassen, dass bereits durch

die Ersetzung der MEL-spektralen Koeffizienten durch die auf der GAMMATONE-Filterung

basierenden Merkmale die Erkennungsleistung in Gegenwart von Nachhall deutlich gestei-

gert werden konnte. Durch den Austausch der DELTA-Merkmale konnte eine weitere Verbes-

serung der Erkennungsleistung erzielt werden [MM10]. Ein wahrscheinlicher Grund dafür

liegt darin, dass man sich bei der Erfassung der zeitlichen Veränderungen durch die alterna-

tiven dynamischen Merkmale auf den linguistisch relevanten Frequenzbereich konzentriert.

3.2.3. Sonstige merkmalsbasierte Verfahren

Abgesehen von den merkmalsbasierten Verfahren der ersten beiden Kategorien existieren in

der Literatur weitere Ansätze, die in dieser Dissertation nicht in der ganzen Ausführlichkeit

vorgestellt werden können. Es werden daher nur einige ausgewählte Verfahren kurz erläutert.

Berechnung der dynamischen Merkmale auf Grundlage der linear skalierten Energie

In [IFN10] wird vorgeschlagen, die Berechnung der dynamischen Merkmale im linearen

statt dem gewöhnlichen logarithmischen Energiebereich durchzuführen. Sie werden moti-

viert durch die Tatsache, dass die Energie des Nachhalls einen exponentiellen Abklang auf-

weist, welcher jedoch durch die Anwendung des Logarithmus affin linear wird. Als Folge

dessen bleiben die Werte der dynamischen Merkmale vorwiegend in kurzen Sprachpausen

lange unerwünscht konstant, so dass der Spracherkenner nicht vorhandene Wörter erkennt.

Da der Dynamikbereich der (linearen) Energie deutlich größer ist und die Energie des Nach-

halls exponentiell, also inbesondere sehr schnell, abklingt, werden die dynamischen Merk-

male deutlich weniger durch den Nachhall gestört. Um sicherzustellen, dass die Merkma-

le eine approximativ GAUSS-förmige Verteilungsdichtefunktion besitzen, welche für eine

Modellierung mit Hilfe von HMMs im Spracherkenner notwendig ist, muss zusätzlich eine

geeignete Normierung vorgenommen werden.

Ausnutzung der harmonischen Struktur der Sprache

Eine weitere Art zur Extraktion robuster Merkmale geht von der Annahme aus, dass har-

monische Komponenten der Sprache durch den Nachhall nur geringfügig verändert werden

[PLLH08]. Werden sie jedoch von stimmlosen Lauten gefolgt, werden diese durch die ab-

klingende Energie der stimmhaften Laute überlagert. Der Einfluss auf die stimmlosen Laute

ist besonders groß im niederfrequenten Bereich, wo die stimmlosen Laute in der Regel we-

nig Energie besitzen. Folglich besteht die Idee in [PLLH08] unter anderem darin, stimmhafte

und stimmlose Bereiche innerhalb des Sprachsignals zu detektieren und jegliche Energie in

unteren Teilbändern innerhalb von stimmlosen Bereichen zu entfernen. Dieser Ansatz wur-

de weiterhin in [PLU+08] mit einer darauf folgenden Analyse des Modulationsspektrums

Stand der Forschung

kombiniert.

Merkmalsverbesserung

Ähnlich dem in dieser Dissertation verfolgten Ansatz wird in [Wöl09] die gemeinsame Ent-

hallung und Entstörung der Merkmale als ein Problem der Verfolgung einer Trajektorie

aufgefasst, welches mit Hilfe einer BAYES’schen Methode gelöst wird. Ein entscheiden-

der Unterschied zum Verfahren, welches in dieser Dissertation vorgeschlagen wird, liegt

dabei darin, dass der Nachhall als additive Störung im MEL-spektralen Bereich aufgefasst

wird, dessen Ausmaß zunächst im Zeitbereich mit Hilfe der mehrstufigen linearen Prädik-

tion [GD97] geschätzt wird. Weitere deutliche Unterschiede bestehen in den verwendeten

A-priori-Modelle zur Beschreibung der Sprache und Störung im Merkmalsraum sowie der

Realisierung der Inferenz, wozu eine Partikelfilterung genutzt wird.

Ausnutzung von Unsicherheitsinformation

Die in [PBB02] präsentierte Methode wird motiviert durch die Feststellung, dass das mensch-

liche Gehörsystem einen Mechanismus besitzt, um mit unverlässlichen “Daten” umzugehen

[CGJV01]. Demzufolge wird versucht, verlässliche Bereiche im Kurzzeit-Leistungsspek-

trum aufzufinden, um diese anschließend an einen modifizierten Spracherkenner weiterzu-

leiten. Insofern handelt es sich bei diesem Ansatz um eine Kombination aus einer merkmals-

basierten und modellbasierten Methode, was als Nachteil bedingt durch den erforderlichen

Eingriff in den Erkenner gesehen werden kann.

Verlässliche Bereiche im Kurzzeit-Leistungsspektrum sind in der Regel dadurch gekenn-

zeichnet, dass sie energiereich sind und dadurch nicht stark durch den Einfluss des Nachhalls

verändert werden. Zum Auffinden dieser wird eine sogenannte Hallmaske verwendet. Damit

ein Bereich als verlässlich gilt, muss seine Energie eine vorgegebene, zuvor empirisch ermit-

telte Schranke übersteigen.

3.3. Verfahren basierend auf der Modifikation des

akustischen Modells oder des Decoders

Eine weitere Möglichkeit zur Kompensation der Auswirkungen des Nachhalls auf die statis-

tischen Eigenschaften der akustischen Merkmale besteht in der Modifikation des akustischen

Modells oder des Decoders.

3.3.1. Modifikation des akustischen Modells

Das akustische Modell lässt sich beispielsweise dadurch modifizieren, dass ein auf das Er-

kennungsszenario angepasstes Training mit verhallten und eventuell zusätzlich gestörten

Sprachsignalen durchgeführt wird. Da jedoch das Erkennungsszenario oft zum Zeitpunkt

des Trainings noch unbekannt ist, wird eine vielfältige und umfangreiche Menge an Trai-

ningsdaten benötigt, um vorab möglichst viele Einsatzbedingungen abzudecken. An Stelle

der Verwendung von echten Sprachäußerungen, deren Aufnahme aufwendig und teuer ist,

Stand der Forschung

bietet sich eine künstliche, modellbasierte Erzeugung der Daten [GMOS99, SFB01] an. Da-

bei ist es sinnvoll, eine Parametrisierung der künstlich erzeugten Sprachdaten und der damit

trainierten akustischen Modelle mit Hilfe der Nachhallzeit T60 vornehmen. Zur Spracher-

kennung muss anschließend nur noch das passende akustische Modell beruhend auf einer

Schätzung der Nachhallzeit ausgewählt werden [CC04]. Der Nachteil eines solchen Ver-

fahrens liegt in der großen Datenmenge, die zur Erfassung sämtlicher akustischer Modelle

notwendig ist.

Eine dazu alternative Methode ist die Adaption von akustischen Modellen, welche mit

sauberen Sprachsignalen trainiert wurden. Dabei unterscheidet man grundsätzlich zwischen

der statischen und der dynamischen Adaption.

Bei der statischen Adaption werden die akustischen Modelle vorab einmal an das Er-

kennungsszenario angepasst und bei der Erkennung nicht mehr verändert. Ein in diesem

Zusammenhang zu nennender Ansatz ist die Anwendung von affin linearen Transformatio-

nen auf einzelne Komponenten der GMMs zur Modellierung der Emissionsverteilungsdich-

tefunktionen von HMM-Zuständen. Da das Kriterium zur Bestimmung der Transformati-

on die Maximierung der Likelihood beruhend auf einer gegebenen Menge von Adaptions-

daten ist, wird diese Methode im Englischen als Maximum Likelihood Linear Regression

(MLLR) bezeichnet [GW96, Gal98]. Sie unterscheidet sich vom in Kap. 3.2.1 vorgestellten

CMLLR dadurch, dass statt einer globalen Transformation für alle Emissionsverteilungsdich-

tefunktionen nun viele unterschiedliche Transformationen abhängig vom HMM-Zustand und

GMM-Komponente ermöglicht werden. Die Menge der verschiedenen Transformation lässt

sich im Prinzip durch die Menge der zur Verfügung stehenden Adaptionsdaten steuern, da

gleiche Transformationen von vielen HMM-Zuständen und GMM-Komponenten gemeinsam

geteilt werden können. Dadurch lässt sich eine sinnvolle Adaption des akustischen Modells

bereits mit einer geringen Menge an Adaptionsdaten bewerkstelligen. Wie auch CMLLR wur-

de MLLR ursprünglich zur Adaption des akustischen Modells an unterschiedliche Sprecher

eingeführt. In [TTN06] wurde es jedoch auch zur Kompensation der Effekte des Nachhalls

eingesetzt. Die Wirkung von MLLR ist dabei hauptsächlich auf das Vorhandensein von dy-

namischen Komponenten innerhalb des Merkmalsvektors zurückzuführen, wodurch ein ge-

wisser zeitlicher Kontext erfasst wird. Dieser Kontext ist beispielsweise bei der in Kap. 2.1

beschriebenen Merkmalsextraktion auf 6 zeitlich vorhergehende Segmente beschränkt (vgl.

dazu Parameter in Tab. 2.1). Geht das Ausmaß der zeitlichen Verschmierung darüber hinaus,

so kann der Effekt nicht mehr ausreichend kompensiert werden. Aus dieser Sicht es vernünf-

tig, MLLR wie in [MOG00] im Sinne einer inkrementellen Adaption von akustischen Daten,

welche bereits mit verhallten Sprachsignalen trainiert wurden, zur Reduktion der verbleiben-

den Fehlanpassung zu nutzen. Ein weiteres Problem von MLLR stellt die Tatsache dar, dass

die Transkription des Adaptionsdaten für die Adaption bekannt sein muss. Da diese Voraus-

setzung gewöhnlich nicht gegeben ist, wird diese durch eine vorhergehende Erkennung mit

Hilfe von nicht adaptierten Modellen gewonnen. Man spricht dabei von unüberwachter Ad-

aption, die aufgrund einer gewöhnlich fehlerhaften Transkription die Leistungsfähigkeit der

Adaption zusätzlich verringert.

Eine aus physikalischer Sicht genauere Modellierung wird erzielt, indem die Auswirkung

des Nachhalls auf das MEL-Spektrum durch eine Faltung dessen bezüglich der Zeit mit ei-

ner Funktion, die in engem Zusammenhang mit der RIA steht, approximiert wird (siehe z. B.

Kap. 5.2.2 oder auch [SK08]). Diese Beschreibung lässt sich beispielsweise zur Modell-

adaption durch Aufspaltung von HMM-Zuständen in einzelne Teilzustände verwenden, um

Stand der Forschung

damit unterschiedliche Kompensationen abhängig von der genauen Verweildauer innerhalb

eines HMM-Zustandes vornehmen zu können [RNS05c, RNS05b]. Die Anzahl der Teil-

zustände hängt dann von der mittleren Verweildauer innerhalb eines HMM-Zustandes ab.

Die Repräsentation der RIA im MEL-spektralen Bereich lässt sich beispielsweise mit Hilfe

von Adaptionsdaten unter Verwendung des akustischen Modells für saubere Sprachsignale

durchführen [RNS05b].

Alternativ lässt sich die Modellanpassung durch eine sogenannte parallele Modellkombi-

nation (engl. Parallel Model Combination (PMC)) erzielen [GY95]. Diese wurde ursprüng-

lich entwickelt, um akustische Modelle der Sprache und der Hintergrundstörung geeignet

zu kombinieren. Sie basiert auf der Annahme, dass die Sprache und die Hintergrundstörung

im MEL-Spektrum approximativ additiv sind. In Folge dessen werden dazu die akustischen

Modelle vom cepstralen in den MEL-spektralen Bereich transformiert, dort zusammenge-

setzt und entsprechend zurücktransformiert. Für die Kombination werden nur Modifikatio-

nen der ersten beiden Momente einzelner GMM-Komponenten für das Cepstrum in Betracht

gezogen, weshalb diese relativ einfach vorzunehmen ist. Die Kombination ist jedoch höchst

approximativ, da sie unter anderem annimmt, dass die Summe zweier log-normalverteilter

Variablen wieder log-normalverteilt ist [GY95].

Unter Ausnutzung der Tatsache, dass die Auswirkungen des Nachhalls durch eine Faltung

im MEL-spektralen Merkmalsbereich beschrieben werden können, lässt sich die ursprüng-

lich eingeführte parallele Modellkombination zur entsprechenden Adaption der akustischen

Modelle modifizieren [RNS05a, HGH06]. Dabei muss berücksichtigt werden, dass die Ad-

aption auf der Basis von HMM-Zuständen und nicht Merkmalsvektoren erfolgt. Sie bedient

sich in [HGH06] eines Modells der EDC einer RIA, wobei die EDC durch eine exponenti-

ell abklingende Funktion approximiert wird und als einzigen Parameter die Nachhallzeit T60

besitzt. Damit kann durch Beachtung der mittleren Verweildauer in einem HMM-Zustand

der mittlere Anteil der Energie berechnet werden, welcher auf die zeitlich folgenden HMM-

Zustände verschmiert wird.

In [HGH06] wird die Adaption unabhängig auf einzelne HMMs, welche ganze Wörter

modellieren, angewendet. Es findet demnach keine Berücksichtigung der Verschmierung der

Energie über Wortgrenzen hinweg statt. Dies ist ein Problem, was im Allgemeinen bei der

statischen Adaption auftritt. Denn die Energie des Nachhalls hängt in hohem Maße vom vor-

hergehenden Kontext eines HMM-Zustandes ab, der vor der eigentlichen Erkennung natür-

lich nicht bekannt ist. Ein gewisser vorhergehender, HMM-übergreifender Kontext kann bei

der Adaption von triphonbasierten HMMs, welche zur Erkennung von Sprache mit großem

Vokabular eingesetzt werden, genutzt werden [HF08]. Denn ein Triphon beschreibt ein Pho-

nem in Abhängigkeit seines Vorgänger- und Nachfolgephonems. Der Kontext reicht jedoch

gewöhnlich nicht aus, um den Ursprung der Energie des Nachhalls ausreichend zu erfassen.

Denn die mittlere Dauer eines Phonems beträgt etwa 125 ms [RJ93, Kap. 2] und ist damit

deutlich kürzer als die Nachhallzeit, die in gewöhnlichen Büros und Wohnzimmern einige

Hundert Millisekunden betragen kann [Kut00].

Die dynamische Adaption der akustischen Modelle an den Nachhall findet parallel zur

Dekodierung statt [YNS04, TN04, SMK11]. Sie bietet den großen Vorteil, dass sich durch

die Dekodierung ein wahrscheinlicher, vorhergehender Kontext zu einem HMM-Zustand er-

schließt, wodurch die Energie des Nachhalls deutlich besser modelliert werden kann. Dieser

Vorteil wird jedoch zulasten eines deutlich erhöhten Rechenaufwandes bei der Spracherken-

nung erkauft.

Stand der Forschung

In [TN04] findet eine dynamische Adaption auf der Grundlage eines rekursiven Beob-

achtungsmodells zur Beschreibung der zeitlichen Trajektorie der MEL-spektralen Merkmale

des verhallten Sprachsignals statt. Das Beobachtungsmodell ist im Grunde ein Spezialfall

des in Kap. 5.2.4 hergeleiteten rekursiven Modells und wird in [TN04] als Prädiktion ers-

ter Ordnung bezeichnet. Dabei wird die Auswirkung des Nachhalls auf den aktuell gültigen

HMM-Zustand aufgrund des unmittelbar vorher beobachteten MEL-spektralen Merkmals

des verhallten Sprachsignals berechnet.

Eine weitere Variante der dynamischen Adaption erhält man, indem die Adaption der

akustischen Modelle nicht mit der Segmentrate, sondern deutlich seltener durchgeführt wird.

So wird beispielsweise in [HF08] die Adaption auf den Nachhall unter anderem mit einer Ad-

aption auf die Hintergrundstörung kombiniert. Die mittlere Leistung der Hintergrundstörung

wird dabei zunächst mit einer VAD innerhalb von Sprachpausen geschätzt, so dass unmit-

telbar vor dem Einsetzen der Sprache die bereits auf den Nachhall angepassten akustischen

Modelle zusätzlich auf die Hintergrundstörung adaptiert werden können.

3.3.2. Modifikation des Decoders

Der Effekt des Nachhalls kann schließlich auch erst bei der Dekodierung der Merkmals-

vektorsequenz berücksichtigt werden. Dies geschieht in [SZK06] beispielsweise durch eine

Modifikation des VITERBI-Algorithmus zur vereinfachten Dekodierung. Das Verfahren ba-

siert auf der Kombination des akustischen Modells, welches mit sauberen Sprachsignalen

trainiert wurde, mit einem Modell zur statistischen Beschreibung der RIA im Merkmals-

raum. Die ursprüngliche Herleitung des Verfahrens beschränkt sich auf die Dekodierung

mit MEL-spektralen Merkmalen. Die Änderung des VITERBI-Algorithmus besteht nun dar-

in, dass dabei parallel sowohl nach der optimalen HMM-Zustandssequenz als auch nach

der zugehörigen optimalen Sequenz der MEL-spektralen Merkmalsvektoren des sauberen

Sprachsignals gesucht wird. Dazu wird versucht, die gemeinsame Likelihood der Sequenz

der MEL-spektralen Merkmalsvektoren des sauberen Sprachsignals und der Repräsentati-

on der RIA im MEL-spektralen Bereich unter der Nebenbedingung zu maximieren, dass

deren Faltung die beobachtete Sequenz der MEL-spektralen Merkmalsvektoren des verhall-

ten Sprachsignals ergibt. Neben der Tatsache, dass die Dekodierung recht aufwendig ist,

werden die Emissionsverteilungsdichtefunktionen einzelner HMM-Zustände durch GAUSS-

Verteilungsdichtefunktionen beschrieben. Dies ist an sich schon eine deutliche Einschrän-

kung der Modellierungsmöglichkeit durch das HMM, da gewöhnlich GMMs an Stelle von

GAUSS-Verteilungsdichtefunktionen verwendet werden. Zusätzlich ist die Verwendung von

GAUSS-Verteilungsdichtefunktionen für den MEL-spektralen Bereich recht ungünstig, da die

Merkmale beispielsweise nur nichtnegative Werte annehmen können. Obwohl das Verfah-

ren in [SMK10] auf den log-MEL-spektralen Bereich erweitert werden konnte, blieb die

Einschränkung auf die Verwendung von GAUSS-Verteilungsdichtefunktionen statt GMMs

bestehen. Ein weiteres Problem, das sowohl im MEL- als im log-MEL-spektralen Bereich

vorhanden ist, ist die vorhandene Korrelation zwischen einzelnen Komponenten der Merk-

malsvektoren. Als Folge dessen müssen anders als bei der Verwendung von MFCCs voll-

besetzte statt diagonalen Kovarianzmatrizen für die Emissionsverteilungsdichtefunktionen

der HMM-Zustände zugrunde gelegt werden, was den Rechenaufwand bei der Dekodierung

deutlich erhöht.

Eine andere Variante des Decoders besteht in der Ausnutzung von Unsichersinformationen

Stand der Forschung

bezüglich der beobachteten Merkmale des verhallten Sprachsignals [PBB04]. Der Erkenner

nutzt für die Erkennung im Wesentlichen diejenigen Merkmale, welche durch den Nachhall

nur geringfügig verändert wurden.

Schließlich ist eine Kombination einer signalbasierten Enthallung mit einer entsprechen-

den Modifikationen des Decoders möglich [DNW09]. Die Idee besteht prinzipiell darin, dass

der Decoder den nach der Enthallung verbleibenden zeitvarianten Reststörungen Rechnung

trägt. Dies geschieht durch eine geeignete Anpassung der Varianzen zugehörig zu Emissi-

onsverteilungsdichtefunktionen einzelner HMM-Zustände.

4. Wissenschaftliche Ziele

Während in der Literatur bereits zahlreiche Verfahren für die modellbasierte Entstörung

akustischer Merkmale im Hinblick auf eine rauschrobuste Spracherkennung existieren, wel-

che auf dem BAYES’schen Prinzip basieren, besteht das Ziel der Arbeit in der Entwicklung

eines analogen Konzeptes zur gemeinsamen Kompensation des Nachhalls und der Hinter-

grundstörungen. Das Hauptaugenmerk liegt jedoch primär auf der Berücksichtigung des

Nachhalls.

Merkmalsbasierte Verfahren besitzen grundsätzlich den Vorteil, dass sie vollkommen un-

abhängig von der Art des verwendeten Spracherkenners betrieben werden können und da-

her in der Praxis ein hohes Maß an Flexibilität bieten. Sie können im Wesentlichen direkt

zwischen die Merkmalsextraktion und den Spracherkenner geschaltet werden, ohne jegliche

Modifikationen am Spracherkenner vornehmen zu müssen. Insbesondere wird dabei eine

meist aufwendige und komplizierte Adaption der Modellparameter des Spracherkenners auf

veränderte Einsatzumgebungen vermieden.

Als Merkmale werden die MFCCs betrachtet, da sie aufgrund ihrer perzeptuell orien-

tierten und relativ einfachen Berechnung in der Praxis eine weite Verbreitung gefunden

haben. Obwohl sich das in dieser Dissertation vorgeschlagene Verfahren im Prinzip mit

einigen Abwandlungen auch direkt im Cepstrum realisieren ließe, d.h. in dem Merkmals-

bereich, der auch für die automatische Spracherkennung genutzt wird, wird hier aus zwei

Gründen vorgeschlagen, dieses bereits eine Ebene vorher, d.h. im log-MEL-Spektrum, an-

zuwenden. Die Gründe bestehen zum einen darin, dass die LMSKs im Gegensatz zu den

MFCCs einen annähernd homogenen Wertebereich besitzen, was aus numerischen Gründen

vorteilhaft ist. Zum anderen werden die Einflüsse der Störung und des Nachhalls auf ein-

zelne MEL-Frequenzbänder approximativ unabhängig sein, wohingegen im Cepstrum diese

unabhängigen Einflüsse durch die Anwendung der DCT auf alle MFCCs verteilt werden.

Als Grundprinzip zur Merkmalsverbesserung dient die BAYES’sche Inferenz, die es er-

laubt, Wissen beruhend auf zwei unterschiedlichen Informationsquellen in einer statistisch

optimalen Art zu nutzen. Zu den Informationsquellen zählt einerseits das A-priori-Wissen

über die Eigenschaften des sauberen Sprachsignals sowie des Störsignals im Merkmals-

bereich. Zur Modellierung der Eigenschaften des sauberen Sprachsignals wird von intera-

gierenden autoregressiven, linearen Prädiktionsmodellen (engl. Switching Linear Dynamic

Models (SLDMs)) ausgegangen. Insbesondere werden auch Modelle höherer Ordnungen be-

trachtet, um Korrelation zwischen zeitlich weiter auseinander liegenden Sprachmerkmals-

vektoren zu berücksichtigen. In diesem Bereich konzentriert sich die Arbeit auf die Herlei-

tung und Untersuchung von Algorithmen zum iterativen Training und insbesondere einer

sinnvollen Initialisierung der entsprechenden Modellparameter.

Die andere Informationsquelle besteht in dem sogenannten Beobachtungsmodell, welches

die gemeinsamen Auswirkungen des Nachhalls und der Hintergrundstörungen auf die Form

Wissenschaftliche Ziele

der Merkmalsvektoren beschreibt und dessen Herleitung einen weiteren Schwerpunkt der

Arbeit bildet. Dabei muss insbesondere die Tatsache berücksichtigt werden, dass dazu im

Allgemeinen Wissen über die Ausbreitung akustischer Signale vom Sprecher zum Mikro-

fon, beispielsweise in Form einer RIA, zur Verfügung stehen muss. In der Regel hängt diese

von der Beschaffenheit des Raumes ab, benötigt viele Parameter zu ihrer Darstellung und

ist zudem zeitvariant. Ein weiterer wichtiger Aspekt in diesem Zusammenhang ist die An-

nahme eines sogenannten “blinden“ Szenarios, bei dem die Einsatzumgebung des Spracher-

kenners sowie die Positionen des gewünschten Sprechers und des Mikrophons innerhalb der

Umgebung unbekannt sind. Auf eine blinde Schätzung der gesamten detaillierten RIA beru-

hend auf dem eingehenden Mikrophonsignal wird hier allerdings verzichtet, da diese in der

Regel höchst sensitiv und fehleranfällig ist. Statt dessen wird von einem stark vereinfach-

ten Modell der RIA ausgegangen, das nur zwei Parameter besitzt: die Nachhallzeit sowie

die Energie der RIA. Diese können deutlich robuster aus dem eingehenden Mikrophonsi-

gnal geschätzt werden. So beschäftigt sich die Arbeit sehr genau mit der Fragestellung, wie

zu gegebenen RIA-Modellparametern ein adäquates Beobachtungsmodell berechnet werden

kann. Dazu zählen unter anderem die Berechnung der modellbasierten Repräsentation der

Raumimpulsantwort im Merkmalsraum und die Berechnung der statistischen Eigenschaften

des Modellierungsfehlers.

4.1. Gliederung der Arbeit

Der Kern der Arbeit gliedert sich in zwei Hauptabschnitte.

In Kap. 5 erfolgt zunächst eine detaillierte theoretische Herleitung des BAYES’schen Ver-

fahrens zur Merkmalsverbesserung. Dabei werden zunächst in Kap. 5.1 die verwendeten A-

priori-Modelle zur statistischen Charakterisierung der zeitlichen Trajektorie der akustischen

Merkmale des sauberen Sprachsignals sowie des Hintergrundstörsignals eingeführt. An-

schließend wird ein sogenannter EM-Algorithmus zum iterativen Training von SLDMs be-

liebiger Ordnung hergeleitet sowie ein neuartiges Verfahren zur Initialisierung der SLDMs-

Parameter vorgestellt. In Kap. 5.2 wird das Beobachtungsmodell zur Beschreibung des funk-

tionellen Zusammenhanges zwischen den beobachteten Merkmalen des verhallten und ge-

störten Sprachsignals und den Merkmalen des sauberen Sprachsignals und des Hintergrund-

störsignals hergeleitet. Dies geschieht anfangs unter der Annahme einer bekannten, zeitinva-

rianten RIA. Im Anschluss wird diese Voraussetzung jedoch fallen gelassen, wobei nun von

einem stark vereinfachten statistischen Modell der RIA ausgegangen wird. Dieses erlaubt

zudem die Formulierung eines zeitlich rekursiven Beobachtungsmodells, welches danach

vorgestellt wird. Ein weiterer Aspekt, dem sich dieses Kapitel widmet, ist eine adäquate Mo-

dellierung des Beobachtungsfehlers. Schließlich werden in Kap. 5.3 unterschiedliche Ver-

fahren zur approximativen Inferenz präsentiert, welche im Wesentlichen auf einem iterativen

KALMAN-Filter sowie Modellkombinationsalgorithmen basieren.

Kapitel 6 befasst sich mit experimentellen Untersuchungen bezüglich der Leistungsfähig-

keit des vorgestellten Verfahrens zur Merkmalsverbesserung. Diese werden mit Hilfe von

zwei unterschiedlichen Sprachdatenbanken, mit einerseits kleinem und andererseits großem

Vokabular, durchgeführt, welche in Kap. 6.1 ausführlich beschrieben werden. Als Kriterium

für die Beurteilung der Leistungsfähigkeit wird in dieser Arbeit die nach der Spracherken-

nung endgültig erzielte Wortfehlerrate herangezogen. Nach einer Darstellung von Referenz-

Wissenschaftliche Ziele

ergebnissen, welche ohne die Verwendung jeglicher Merkmalsverbesserung erzielt wurden,

und Ergebnissen einiger ausgewählter alternativer Verfahren in Kap. 6.2 und Kap. 6.3 wer-

den in Kap. 6.4 die Resultate zu Voruntersuchungen bezüglich des Beobachtungsmodells

aufgeführt, wobei die Schätzung der Parameter des Beobachtungsfehlers im Vordergrund

steht. Kapitel 6.5 stellt die erzielten Ergebnisse zur Merkmalsenthallung vor, wobei insbe-

sondere der Einfluss des A-priori-Sprachmodells sowie der des Beobachtungsmodells auf die

Leistungsfähigkeit der Merkmalsverbesserung analysiert werden. Schließlich liefert Kap. 6.6

Ergebnisse zur gemeinsamen Merkmalsenthallung und -enstörung.

Die Arbeit wird mit einer Zusammenfassung und einem Ausblick in Kap. 7 abgeschlossen.

5. Konzept der modellbasierten

BAYES’schen Merkmalsverbesserung

In diesem Kapitel wird eine modellbasierte Merkmalsverbesserung basierend auf BAYES’-

scher Inferenz vorgestellt. Eine Verbesserung auf der Merkmalsebene profitiert im Allge-

meinen davon, dass sie sich auf nur denjenigen Anteil der Information beschränken kann,

der auch tatsächlich für die Erkennung relevant ist. Natürlich können daraus auch Nachtei-

le dadurch entstehen, dass eventuell zur Verbesserung benötigte Information nicht mehr zur

Verfügung steht, wobei in der Regel dieser Aspekt eine untergeordnete Rolle spielt.

Das Ziel des hier vorgestellten Ansatzes besteht in der Bestimmung einer Folge ˆ

x(s)

1:Mvon

Schätzungen der LMSK-Vektoren des sauberen Sprachsignals

x(s)

m:=ˆx(s)

m,0,...,ˆx(s)

m,Q−1T(5.1)

basierend auf der Beobachtung der Folge y(s)

1:Mder Merkmalsvektoren des verhallten und

gestörten Sprachsignals. Insbesondere soll dieses Ziel durch einen Online-Algorithmus um-

gesetzt werden, was bedeutet, dass für die Schätzung des Merkmalsvektors ˆ

x(s)

mnur alle ver-

gangenen, der aktuelle und insbesondere keine (oder nur sehr wenige) zukünftige Merkmals-

vektoren des verhallten und gestörten Sprachsignals verwendet werden dürfen.

Für die Schätzung wird zugrunde gelegt, dass es sich bei den nicht beobachtbaren Merk-

malsvektorfolgen x(s)

1:Mund n(s)

1:Msowie der beobachtbaren Merkmalsvektorfolge y(s)

1:Mum

Realisierungen von vektorwertigen Zufallsprozessen ˘

x(s)

1:M,˘

n(s)

1:Msowie ˘

y(s)

1:Mhandelt. Aus sta-

tistischer Sicht kann das Schätzproblem als gelöst angesehen werden, sobald die A-posteri-

ori-Verteilungsdichtefunktion px(s)

my(s)

1:mbekannt ist. Diese erlaubt die Bestimmung von

auf verschiedenen Kriterien basierenden Schätzwerten. So lässt sich beispielsweise zeigen,

dass derjenige Schätzwert ˆ

x(s)

mfür x(s)

m, welcher den mittleren quadratischen Schätzfehler

minimiert, durch den bedingten Erwartungswert

µ˘

x(s)

my(s)

1:m

:=Eh˘

x(s)

m˘

y(s)

1:m=y(s)

1:mi(5.2)

gegeben ist. In der englischsprachigen Literatur wird ein solcher Schätzwert als Minimum

Mean Squared Error (MMSE)estimate bezeichnet. In dem besonderen Fall, dass die A-

posteriori-Verteilungsdichtefunktion GAUSS-förmig ist, entspricht die zugehörige Kovari-

anzmatrix

Σ˘

x(s)

my(s)

1:m

:=E"˘

x(s)

m−µ˘

x(s)

my(s)

1:m˘

x(s)

m−µ˘

x(s)

my(s)

1:mT

y(s)

1:m=y(s)

1:m#(5.3)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

der Schätzfehlerkovarianzmatrix und kann daher als Maß der verbliebenen Unsicherheit be-

züglich der Schätzung angesehen werden. Das primäre Ziel bei dem hier vorgeschlagenen

Verfahren zur Merkmalsverbesserung wird daher im Wesentlichen darin bestehen, Schätz-

werte ˆ

x(s)

mund ˆ

Σ˘

x(s)

mfür die ersten beiden zentralen Momente µ˘

x(s)

my(s)

1:m

und Σ˘

x(s)

my(s)

1:m

der

A-posteriori-Verteilungsdichtefunktion zu bestimmen. Allerdings werden für die Schätzung

zusätzlich einige wenige zukünftige Beobachtungen mit berücksichtigt, wie im Folgenden

erläutert wird.

Ausgehend von diesen ersten Überlegungen wird zunächst der erweiterte Merkmalsvektor

z(s)

m:=χ(s)

mT,n(s)

mTT

(5.4)

mit

χ(s)

m:=x(s)

mT,...,x(s)

m−LC+1TT

(5.5)

definiert, welcher sich aus einer Menge von LC∈Naufeinander folgenden Merkmalsvek-

toren des sauberen Sprachsignals χ(s)

mund einem Merkmalsvektor der Störung n(s)

mzusam-

mensetzt. Der Grund für genau diese Definition wird etwas später ersichtlich. Unter Verwen-

dung von BAYES’scher Inferenz wird nun eine rekursive Formulierung für die A-posteriori-

Verteilungsdichtefunktion pz(s)

my(s)

1:mbezüglich der Zeit, d.h. bezüglich des Segmentin-

dexes m, vorgestellt. Dabei ist zu beachten, dass die benötigte Verteilungsdichtefunktion

px(s)

my(s)

1:mdurch Marginalisierung aus pz(s)

my(s)

1:mhervorgeht.

Die Rekursion vollzieht sich in zwei Schritten. Im ersten Schritt, der sogenannten Prä-

diktion, wird ausgehend von der A-posteriori-Verteilungsdichtefunktion pz(s)

m−1y(s)

1:m−1

für den Segmentindex mdie prädiktive Verteilungsdichtefunktion von ˘

z(s)

mbedingt auf die

vergangenen Beobachtungen y(s)

1:m−1durch

pz(s)

my(s)

1:m−1=Z

pz(s)

mz(s)

m−1,y(s)

1:m−1pz(s)

m−1y(s)

1:m−1dz(s)

m−1(5.6)

ausgedrückt. Im zweiten Schritt, der sogenannten Aktualisierung, wird dann die gesuchte A-

posteriori-Verteilungsdichtefunktion pz(s)

my(s)

1:mfür den Segmentindex mmit der BAYES’-

schen Regel gemäß

pz(s)

my(s)

1:m=

py(s)

mz(s)

m,y(s)

1:m−1pz(s)

my(s)

1:m−1

py(s)

m˜

z(s)

m,y(s)

1:m−1p˜

z(s)

my(s)

1:m−1d˜

z(s)

(5.7)

∝py(s)

mz(s)

m,y(s)

1:m−1pz(s)

my(s)

1:m−1(5.8)

berechnet.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Die Durchführung des ersten Teilschrittes erfordert die Kenntnis der Verteilungsdichte-

funktion pz(s)

mz(s)

m−1,y(s)

1:m−1, welche im Wesentlichen eine statistische Prädiktion der Dy-

namik der Sprache und der Störung liefert. Unter der Annahme, dass die Sprache und die

Störung unabhängig voneinander sind, lässt sich diese Verteilungsdichtefunktion als Produkt

pz(s)

mz(s)

m−1,y(s)

1:m−1=pχ(s)

mχ(s)

m−1,y(s)

1:m−1·pn(s)

mn(s)

m−1,y(s)

1:m−1(5.9)

darstellen. Im nächsten Abschnitt wird gezeigt, wie sich die beiden auftretenden Verteilungs-

dichtefunktionen mittels px(s)

mx(s)

m−LAR:m−1und pn(s)

mapproximieren lassen, wobei

LAR ≤LCvorausgesetzt wird. Diese beiden Verteilungsdichtefunktionen bilden das soge-

nannte A-priori-Modell.

Für den zweiten Teilschritt der Rekursion wird gemäß (5.8) die Verteilungsdichtefunktion

py(s)

mz(s)

m,y(s)

1:m−1benötigt, welche den Zusammenhang zwischen den LCvergangenen

Merkmalsvektoren x(s)

m−LC+1:mdes sauberen Sprachsignals, dem des Störsignals, n(s)

m, allen

vergangenen Merkmalsvektoren y(s)

1:m−1des verhallten und gestörten Sprachsignals und dem

aktuellen Merkmalsvektor y(s)

mdes verhallten und gestörten Sprachsignals beschreibt.

Aufgrund des dispersiven Effektes des Nachhalls wird ein Zusammenhang zwischen der

Merkmalsvektorfolge x(s)

m−LC+1:mund y(s)

mbestehen, woran auch die Motivation für die Wahl

des zusammengesetzten Merkmalsvektors z(s)

merkennbar wird. Wird dabei der Wert von LC

größer als ˆ

LHgewählt, wobei ˆ

LHeine von der RIA zwischen Sprecher und Mikrophon abhän-

gige und das zeitliche Ausmaß der Dispersion beschreibende geschätzte Größe ist, so kann

die Bedingung von ˘

y(s)

mauf y(s)

1:m−1vernachlässigt werden, ohne dass dabei ein zu großer

Fehler entsteht

py(s)

mz(s)

m,y(s)

1:m−1≈py(s)

mx(s)

m−ˆ

LH:m,n(s)

m.(5.10)

Diese Verteilungsdichtefunktion bildet das Beobachtungsmodell, welches die Beobachtung

mit den zu schätzenden Größen verknüpft.

Das gesamte Konzept der modellbasierten BAYES’schen Merkmalsverbesserung wird in

Abb. 5.1 veranschaulicht. Die Güte und Effizienz der Merkmalsverbesserung wird natürlich

stark vom verwendeten A-priori-Modell und Beobachtungsmodell abhängen. Diese Modelle

werden in den folgenden Kapiteln 5.1 und 5.2 sehr ausführlich beschrieben. An dieser Stelle

soll nur vorausgreifend erwähnt werden, dass das Beobachtungsmodell natürlich in hohem

Maße durch die RIA zwischen Sprecher und Mikrophon bedingt ist, welche im Allgemei-

nen sehr viele Parameter besitzt und als unbekannt angenommen wird. Diesem Problem wird

hier mit der Einführung eines stark vereinfachten Modells der RIA begegnet, welches nur die

zwei Parameter

hund

hbesitzt. Diese werden aus dem verhallten und gestörten Sprachsi-

gnal y(l)blind geschätzt.

5.1. A-priori-Modell

In diesem Abschnitt werden die für die Dynamik der Sprache und der Störung verwendeten

A-priori-Modelle beschrieben. Im Sinne einer Anpassung der Modelle an die Charakteristik

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Merkmalsextraktion

Beobachtungsmodell

h,ˆ

Schätzung der

RIA-Parameter

Verhalltes und gestörtes

Sprachsignal y(l)

py(s)

mx(s)

m−ˆ

LH:m,n(s)

m

Inferenz

A-priori-Modell

LMSKs y(s)

mdes verhallten

und gestörten Sprachsignals

Verbesserte

LMSKs ˆ

x(s)

Schätzfehler-

kovarianzmatrix ˆ

Σ˘

x(s)

px(s)

my(s)

1:m

px(s)

mx(s)

m−LAR:m−1,pn(s)

m

Abbildung 5.1.: Blockschaltbild zur Veranschaulichung des Konzeptes der BAYES’schen Merkmals-

verbesserung.

des jeweiligen Signals und der Reduktion des Rechenaufwands durch eine niedrige Modell-

komplexität werden unterschiedliche Arten von Modellen für die Sprache und die Störung

vorgeschlagen.

5.1.1. Modell für die Sprache

Ein Sprachsignal ist in der Regel hochgradig instationär, denn die Änderungen im Signal

entsprechen ja gerade der transportierten Information. Um das hohe Ausmaß der enthaltenen

Dynamik explizit zu berücksichtigen, wird vorschlagen, die prädiktive Verteilungsdichte-

funktion für die Merkmalsvektoren des sauberen Sprachsignals durch eine Mischung von

I∈Nunterschiedlichen, miteinander interagierenden Teilmodellen gemäß

pχ(s)

mχ(s)

m−1,y(s)

1:m−1=

∑

i=1

pχ(s)

mχ(s)

m−1,y(s)

1:m−1,

m=iP

m=iχ(s)

m−1,y(s)

1:m−1

(5.11)

zu modellieren. Dabei bezeichnet

m∈ {1,...,I}eine Realisierung einer versteckten Zu-

fallsvariablen ˘

m, deren Zustand das aktive Teilmodell zum Segmentindex mangibt. Bedingt

durch die Definition des Merkmalsvektors χ(s)

mgemäß (5.5) lassen sich die teilmodellspezifi-

schen Verteilungsdichtefunktionen pχ(s)

mχ(s)

m−1,y(s)

1:m−1,

m=ivollständig nur unter Ver-

wendung der Kenntnis der Verteilungsdichtefunktionen px(s)

mχ(s)

m−1,y(s)

1:m−1,

m=iaus-

drücken. Diese werden hier unter Vernachlässigung der Bedingung auf y(s)

1:m−1durch lineare,

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

autoregressive Prädiktionsmodelle entsprechend

px(s)

mχ(s)

m−1,y(s)

1:m−1,

m=i≈px(s)

mx(s)

m−LAR:m−1,

m=i(5.12)

≈









Nx(s)

m;µx,i,Σx,ifür m≤LAR

Nx(s)

m;LAR

∑

Ai,

x(s)

m−

+bi,Vifür m>LAR.

(5.13)

approximiert. Gemäß dem i-ten Teilmodell gehen die Merkmalsvektoren x(s)

mfür Segmentin-

dizes m>LAR durch eine lineare Transformation aus ihren LAR Vorgängern hervor, welche

durch die Zustandsübergangsmatrizen Ai,

∈RQ×Q, 1 ≤

≤LAR, und den Biaskorrektur-

vektor bi∈RQspezifiziert wird. Der verbleibende Prädiktionsfehler wird als Realisierung ei-

ner GAUSS-verteilten, mittelwertfreien Zufallsvariablen mit der Kovarianzmatrix Vi∈RQ×Q

betrachtet. Für Segmentindizes m≤LAR sind für eine derartige Prädiktion zu wenige Vor-

gänger vorhanden, so dass die Vorhersage mittels eines vergleichsweise einfachen GMMs

mit den Mittelwertvektoren µx,i∈RQund den Kovarianzmatrizen Σx,i∈RQ×Qerfolgt.

Für die Mischungsgewichte kann bei Vernachlässigung der Bedingung auf χ(s)

m−1unter der

vereinfachten Annahme von zeitinvarianten Zustandsübergangswahrscheinlichkeiten

ak,i:=P

m=i

m−1=kfür m>LAR (5.14)

die Approximation

P

m=iχ(s)

m−1,y(s)

1:m−1≈P

m=iy(s)

1:m−1(5.15)

≈





ifür m≤LAR

∑

k=1

ak,iP

m−1=ky(s)

1:m−1für m>LAR

(5.16)

herangezogen werden, wobei

i:=P(

m=i)für m≤LAR (5.17)

die Zustandswahrscheinlichkeiten für die ersten LAR Segmente angeben.

Ein derartiges Modell ist in der Literatur als schaltendes, lineares dynamisches Modell

(engl. Switching Linear Dynamic Model (SLDM)) [Kim94] bekannt. Es berücksichtigt ex-

plizit die zwischen aufeinanderfolgenden Merkmalsvektoren auftretenden Korrelationen, die

einerseits durch die Spracherzeugung selbst bedingt sind und andererseits durch den Seg-

mentüberlapp bei der Merkmalsextraktion entstehen. In welchem Maße die Korrelationen

berücksichtigt werden, lässt sich durch die Ordnung LAR des autoregressiven Modells steu-

ern. Die Ordnung sollte natürlich von der Länge der Segmente zur Berechnung der Merk-

malsvektoren abhängen. Für den hier betrachteten Fall der Merkmalsextraktion nach dem

ETSI-Standard mit Parametern gemäß Tab. 2.1 sind Ordnungen der Größe 1 oder 2 typisch.

Die Parameter eines SLDM werden in der Regel unter Verwendung von Trainingsdaten-

banken bestehend aus akustischen Äußerungen geschätzt. Dabei handelt es sich um soge-

nanntes unüberwachtes Modelltraining, da die Transkription des Sprachsignals bezüglich

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

der Zeitspannen der Aktivität einzelner Teilmodelle nicht vorhanden ist. In der Regel besteht

sogar das Problem, dass die Anzahl der Teilmodelle sowie der Aspekt, welches Teilmodell

überhaupt welche Dynamikbereiche modelliert, vollständig unbekannt ist. Auf das Training

der SLDMs wird in Kap. 5.1.3 näher eingegangen.

5.1.2. Modell für die Störung

Die Charakteristik der Störung kann abhängig von der Umgebung stark variieren. Soll der

Einsatzort des Spracherkenners möglichst uneingeschränkt sein, so müsste das Modell für

die Störung alle möglichen Typen angemessen genau beschreiben können. Ein möglicher

Lösungsweg, welcher jedoch eine sehr große und vielfältige Menge an Trainingsdaten er-

fordert, besteht darin, separate Modelle für jede einzelne Art der Störung aufzustellen. Das

Kriterium zur Unterscheidung der Störungen könnte beispielsweise der Grad der Stationa-

rität oder aber die entsprechende Frequenzcharakteristik sein. Während der Merkmalsver-

besserung müsste dann basierend auf dem gestörten Signal das passende Modell gewählt

werden.

Dieser Lösungsansatz wird hier jedoch aufgrund der hohen Anforderung auf die Men-

ge und Vielfalt der Trainigsdaten nicht weiter verfolgt. Statt dessen wird hier von der ver-

einfachten Annahme ausgegangen, dass das Störsignal für kurze Zeitabschnitte, welche die

Dauer einzelner Sprachäußerungen umfassen, seine Charakteristik nicht ändert. Diese Cha-

rakteristik ließe sich im Prinzip ebenfalls durch ein SLDM modellieren, wobei die entspre-

chenden Parameter durch die Verwendung einer VAD innerhalb von Sprachpausen geschätzt

werden könnten. Obwohl zur Beschreibung der Störung in der Literatur bereits lineare dyna-

mische Modelle eingesetzt wurden, wird hier aus zwei Gründen darauf verzichtet und statt

dessen das Modell für die Störung (5.9) durch einen stationären weißen GAUSS’schen Zu-

fallsprozess beschrieben:

pn(s)

mn(s)

m−1,y(s)

1:m−1≈pn(s)

m≈Nn(s)

m;µn,Σn.(5.18)

Der Mittelwertvektor µnund die Kovarianzmatrix Σnwerden dabei als konstant für die Dau-

er einer Sprachäußerung angenommen. Die Gründe für diese Wahl bestehen zum einen darin,

dass SLDMs viele Modellparameter besitzen, so dass für eine zuverlässige Schätzung genü-

gend lange Zeitabschnitte benötigt werden. Dieses verzögert das Nachführen der Modellpa-

rameter zwischen einzelnen Sprachäußerungen. Viel schwerwiegender ist zum anderen die

Tatsache, dass durch die Verwendung eines SLDM die Stabilität der gesamten Merkmalsver-

besserung gefährdet ist. Damit ist gemeint, dass es bei einem SLDM keine Beschränkung des

Wertebereichs für den Schätzwert der Störung gibt, so dass bedingt durch das Zusammen-

spiel der rekursiven Art der Prädiktion durch ein SLDM und die auftretenden Schätzfehler

die geschätzte Trajektorie der Störung vollkommen in die falsche Richtung verlaufen kann.

Dieses Problem kann mit dem oben eingeführten Modell (5.18) nicht auftreten, da keine

Korrelationen zwischen aufeinanderfolgenden Merkmalsvektoren der Störung angenommen

werden und der Mittelwert µnüber der Zeit konstant bleibt.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

5.1.3. Training von SLDMs

Für die Bestimmung der SLDM-Parameter

:=µx,i,Σx,i,Ai,

,bi,Vi,

i,ai,ki,k∈ {1,...,I},

∈ {1,...,LAR}(5.19)

wird von der gewöhnlich vorherrschenden Situation ausgegangen, dass die Trainingsdaten

aus einer Menge von Nunabhängigen Sprachäußerungen bestehen, welche durch die Menge

der Merkmalsvektorsequenzen

X:=nx(n)

1:Mnn∈ {1,...,N}o(5.20)

repräsentiert werden, wobei x(n)

1:Mndie n-te Merkmalsvektorsequenz und Mnihre Länge an-

gibt. Dabei wird hier aus Gründen der Übersichtlichkeit auf die Kennzeichnung der Art der

Merkmalsvektoren verzichtet.

Die bisher etablierte Methode zur Schätzung der Parametermenge

besteht in der An-

wendung des sogenannten EM-Algorithmus [DLR77]. Dabei handelt es sich um ein itera-

tives Verfahren zur lokalen Verbesserung einer initialen Parametermenge

{0}, wobei das

Kriterium in der Maximierung der sogenannten Likelihoodfunktion

):=p(X|

).(5.21)

besteht. Diese ist ein Maß für die Güte der Modellierung der Trainingsdaten mit Hilfe der

Parametermenge

und hängt daher insbesondere implizit von der Art des Modells zur Be-

schreibung der Dynamik in Xab, was in dem hier betrachteten Fall das SLDM darstellt. Die

direkte Auswertung der Likelihoodfunktion basierend auf einem SLDM würde die Kenntnis

der zu der Xzugehörigen Menge

Z:=n

(n)

1:Mnn∈ {1,...,N}o(5.22)

von Zustandssequenzen erfordern, welche Auskunft über die Zeiträume der Aktivität ein-

zelner Teilmodelle des SLDM geben. Da diese Zustandssequenzen nicht beobachtbar sind,

wird statt der nicht realisierbaren, direkten Maximierung der Likelihoodfunktion L(

)ein

Hilfsproblem betrachtet. Dazu wird im (l+1)-ten Iterationsschritt die Parametermenge

{l}:=nµ{l}

x,i,Σ{l}

x,i,A{l}

,b{l}

i,V{l}

{l}

i,a{l}

i,ki,k∈ {1,...,I},

∈ {1,...,LAR}o(5.23)

durch die Maximierung der Hilfsfunktion

Ql+1(

):=Ehlnnp˘

X,˘

Z(X,Z)oX;

{l}i(5.24)

bestimmt. Das nicht vorhandene Wissen über die tatsächlichen Zustandssequenzen wird da-

bei durch eine weiche Entscheidung bezüglich der Aktivität einzelner Teilmodelle beruhend

auf der alten Parametermenge

{l}approximiert. Die Anwendung des Logarithmus auf die

Likelihoodfunktion dient der Vereinfachung der resultierenden Ausdrücke, wobei die Ma-

ximumstelle bedingt durch die strenge Monotonie des Logarithmus nicht verändert wird.

Es kann gezeigt werden [DLR77], dass für die auf diese Weise mit dem EM-Algorithmus

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

für l≥1 iterativ bestimmten Parameterschätzungen

{l}die Likelihoodfunktion monoton

wächst, d.h.

L

{l}≥L

{l−1}∀l∈N.(5.25)

Insbesondere konvergiert

{l}für l→∞mit der Wahrscheinlichkeit (WSK) 1 gegen eine

lokale Maximumstelle von L(

). Eine sehr ausführliche Herleitung für die Neuberechnung

der Modellparameter für SLDMs beliebiger Ordnung gemäß dem EM-Algorithmus findet

sich in Kap. A.1 im Anhang. An dieser Stelle werden der Vollständigkeit halber nur die

resultierenden Formeln aufgeführt.

Zunächst werden die auf die Modellparameter

{l}bedingten Zustandswahrscheinlichkei-

ten

(n,l)

m(i):=P

(n)

m=ix(n)

1:Mn;

{l}(5.26)

(n,l)

m(k,i):=P

(n)

m=i,

(n)

m−1=kx(n)

1:Mn;

{l}(5.27)

geschickt durch eine abgewandelte Version des sogenannten BAUM-WELCH-Algorithmus

berechnet (siehe Kap. A.1.1). Die zu

{l+1}gehörenden Parameter erhält man dann durch

µ{l+1}

x,i=

∑

n=1

LAR

∑

m=1

(n,l)

m(i)x(n)

∑

n=1

LAR

∑

m=1

(n,l)

m(i)

(5.28)

Σ{l+1}

x,i=

∑

n=1

LAR

∑

m=1

(n,l)

m(i)x(n)

m−µ{l}

x,ix(n)

m−µ{l}

x,iT

∑

n=1

LAR

∑

m=1

(n,l)

m(i)

(5.29)

V{l+1}

∑

n=1

∑

m=LAR+1

(n,l)

m(i)x(n)

m−

LAR

∑

A{l}

x(n)

m−

−b{l}

ix(n)

m−

LAR

∑

A{l}

x(n)

m−

−b{l}

iT

∑

n=1

∑

m=LAR+1

(n,l)

m(i)

(5.30)

{l+1}

∑

n=1

LAR

∑

m=1

(n,l)

m(i)

N·LAR

(5.31)

a{l+1}

k,i=

∑

n=1

∑

m=LAR+1

(n,l)

m(k,i)

∑

n=1

∑

m=LAR+1

(n,l)

m−1(k)

.(5.32)

Zur Berechnung der Zustandsübergangsmatrizen A{l+1}

∈ {1,...,LAR}, und der Biaskor-

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

rekturvektoren bimuss für jedes i∈ {1,...,I}das lineare Gleichungssystem

G{l}







A{l+1}

i,1T

A{l+1}

i,LAR T

(bi)T







=H{l}

i.(5.33)

gelöst werden, wobei die darin auftretenden Matrizen G{l}

i∈R(LARQ+1)×(LARQ+1)und H{l}

i∈

R(LARQ+1)×Qgemäß

G{l}

i:=







Dx{l}(i)E[1,1]

LAR+1:Mn

... Dx{l}(i)E[1,LAR]

LAR+1:MnDx{l}(i)E[1]

LAR+1:Mn

.....

Dx{l}(i)E[LAR,1]

LAR+1:Mn

... Dx{l}(i)E[LAR,LAR]

LAR+1:MnDx{l}(i)E[LAR]

LAR+1:Mn

Dx{l}(i)E[1]

LAR+1:MnT

... Dx{l}(i)E[LAR]

LAR+1:MnTN

∑

n=1

∑

m=LAR+1







(5.34)

H{l}

i:=







Dx{l}(i)E[1,0]

LAR+1:Mn

Dx{l}(i)E[LAR,0]

LAR+1:Mn

Dx{l}(i)E[0]

LAR+1:MnT







(5.35)

und die in den Matrizen auftretenden Elemente durch

Dx{l}(i)E[

,o]

m′:m′′ :=

∑

n=1

m′′

∑

m=m′

(n,l)

m(i)x(n)

m−

x(n)

m−oT(5.36)

Dx{l}(i)E[

]

m′:m′′ :=

∑

n=1

m′′

∑

m=m′

(n,l)

m(i)x(n)

m−

(5.37)

definiert sind.

Gewöhnlich werden die Iterationen so lange ausgeführt, bis ein Abbruchkriterium erfüllt

ist. Hier wird vorgeschlagen, die Iterationen abzubrechen, sobald die mittlere relative Ver-

besserung der Likelihoodfunktion pro einzelne Äußerung, welche durch

(l+1)

L:=exp1

NhlnhL

{l+1}i−lnhL

{l}ii(5.38)

definiert ist, eine vorgegebene Schranke

Lunterschreitet. Dabei wird die mittlere Verbes-

serung

(l+1)

Lbewusst über Loglikelihoodfunktionen definiert, da die entsprechenden Like-

lihoodfunktionen so geringe Werte annehmen, dass sie numerisch nicht berechenbar sind.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Ein offensichtlicher Schwachpunkt des EM-Algorithmus besteht darin, dass er nur ei-

ne lokal optimale Lösung liefert. Zur Überwindung dieses Problems wurde in der bisher

erschienenen Literatur unter anderem die sogenannte deterministische Abkühlung (engl.

deterministic annealing) [UN98] vorgeschlagen, welche eine geeignete Modifikation des

EM-Algorithmus vornimmt. Dabei wird eine Parallele zur statistischen Mechanik gezogen,

die auf der Feststellung beruht, dass der Ausdruck für die negative Loglikelihoodfunktion

−ln[L(

)] äquivalent zu dem für die sogenannte freie Energie eines thermodynamischen

Systems bei einer bestimmten festen Temperatur formuliert werden kann. In diesem Sinne

kann die Maximierung der Likelihoodfunktion als Minimierung der freien Energie des ent-

sprechenden Systems interpretiert werden. Das Besondere an der Feststellung dieser Ana-

logie ist die Tatsache, dass sich die Minimierung in der Regel deutlich vereinfacht, wenn

die Temperatur gegen den absoluten Nullpunkt strebt. Denn für den Grenzfall des absoluten

Nullpunktes sind die Zustandswahrscheinlichkeiten (5.26) für alle i∈ {1,...,I}gleich und

hängen insbesondere nicht von

{l}ab. Daher besitzt dann die freie Energie als Funktion

der Parametermenge

nur eine einzige globale Minimumstelle, die mit der lokalen über-

einstimmt und sofort angegeben werden kann. Durch die stetige Erhöhung der Temperatur

findet eine stetige Deformation der Energiefunktion statt, bis sie beim Erreichen der Aus-

gangstemperatur in die negative Loglikelihoodfunktion übergeht, die gewöhnlich eine sehr

komplexe Gestalt mit vielen lokalen Minimumstellen aufweist. Die Idee des Ansatzes liegt

nun darin, für vom Nullpunkt bis zur Ausgangstemperatur wachsende, diskrete Temperatu-

ren die lokalen Minimumstellen der Energiefunktion zu bestimmen und anzunehmen, dass

man bedingt durch die stetige Deformation in jedem Schritt auch tatsächlich die globalen Mi-

nimumstellen erhält. Es sei jedoch betont, dass auch dieses Verfahren keine global optimale

Lösung garantiert. Aufgrund dieses Problems sind Initialisierungsstrategien erforderlich, um

eine geeignete Modellparametermenge

{0}zu bestimmen. Dieses Problem wird im nächs-

ten Abschnitt behandelt.

Ein weiterer Nachteil des EM-Algorithmus besteht in dem verwendeten Kriterium der

Maximierung der Likelihoodfunktion L(

)zur Berechnung der Parametermenge

. Denn

eine besonders gute Modellierung der Trainingsdaten durch ein SLDM, die in einem großen

Wert der Likelihoodfunktion zum Ausdruck kommt, muss nicht zwangsweise zu einer be-

sonders geringen Wortfehlerrate nach der Merkmalsverbesserung führen, die mit demselben

SLDM durchgeführt wurde. Bedauerlicherweise existieren in der Literatur, soweit es dem

Autor bekannt ist, bisher keine im Zusammenhang mit der Wortfehlerrate stehenden Kriteri-

en zum Training von SLDMs. Ein möglicher Grund dafür liegt sicherlich in der sehr hohen

Komplexität derartiger Kriterien bedingt durch die notwendige Berücksichtigung der Struk-

tur des Erkenners sowie des gesamten Prozesses der Merkmalsverbesserung. Basierend auf

diesen Ausführungen wird in dieser Arbeit trotz der angesprochenen Diskrepanz der EM-

Algorithmus verwendet.

5.1.4. Initialisierung von SLDM-Parametern

Dem Thema der Initialisierung von SLDM-Parametern wurde in der Literatur bisher nur mä-

ßige Beachtung geschenkt. Dabei sind die dafür soweit vorhandenen Methoden insofern un-

zufriedenstellend, als dass sie nicht speziell für die Initialisierung von SLDM-Parametern

entwickelt wurden, sondern sich eher behelfsmäßig an Verfahren zur Initialisierung von

GMM-Parametern orientieren. Soweit dem Autor bekannt existieren hauptsächlich zwei An-

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

sätze, die in unterschiedlichen Variationen ausgeführt werden können.

Beim ersten Ansatz wird die Anzahl der Teilmodelle von 1 bis zu der gewünschten Anzahl

Iiterativ erhöht. Die Methode beruht auf der Tatsache, dass im Falle nur eines Teilmodells

sich diejenigen SLDM-Parameter

, welche die Likelihoodfunktion L(

)maximieren, in

einem Schritt direkt berechnen lassen. Denn bei nur einem vorhandenen Modell stellt sich

offensichtlich die Frage nach den Zeiträumen der Modellaktivität nicht, so dass für die be-

dingte Modellwahrscheinlichkeit in (5.26) stets

(n,l)

m(i) = 1∀m,n,lgilt. Nun wird eine

iterative Erhöhung der Teilmodellanzahl durch eine Spaltung der bisher gefundenen Teil-

modelle vollzogen. Ein bestehendes Teilmodell gekennzeichnet durch die Modellparameter-

menge

{i}wird dabei jeweils in zwei neue Teilmodelle mit den Parametermengen

{i1}

und

{i2}dadurch aufgeteilt, indem sowohl der GMM-Mittelwertvektor µx,ials auch der

Biaskorrekturvektor bijeweils in zwei entgegengesetzte Richtungen gemäß

µx,i1:=µx,i+

UΣx,iqdiagΛΣx,i(5.39)

µx,i2:=µx,i−

UΣx,iqdiagΛΣx,i(5.40)

und

bi1:=bi+

UViqdiag{ΛVi}(5.41)

bi2:=bi−

UViqdiag{ΛVi}(5.42)

mit einem Skalierungsfaktor 0 <

<1 perturbiert wird, wobei die Anwendung von diag{·}

auf eine Matrix derart zu verstehen ist, dass sie einen Vektor liefert, dessen Einträge aus

den Elementen der Hauptdiagonalen der Matrix bestehen. Außerdem ist die Anwendung

der Wurzel auf einen Vektor komponentenweise zu interpretieren. Die Richtungen der Ver-

schiebungen werden durch Eigenwertzerlegungen der beiden Kovarianzmatrizen Viund Σx,i

entsprechend

Vi=UViΛViUT

Vi(5.43)

Σx,i=UΣx,iΛΣx,iUT

Σx,i(5.44)

bestimmt. Die Kovarianzmatrizen der neuen Teilmodelle werden beide gleich gemäß

Vi1=Vi2:=1−

2Vi(5.45)

Σx,i1=Σx,i2:=1−

2Σx,i(5.46)

herunter skaliert. Diese Wahl der Skalierung stellt sicher, dass die KULLBACK-LEIBLER-

Divergenz zwischen den Verteilungsdichtefunktionen des Prädiktionsfehlers vor und nach

der Modellspaltung minimiert wird. Bedingt durch die Erhöhung der Modellanzahl werden

die Zustands- und Zustandsübergangswahrscheinlichkeiten

iund ai,kderart angepasst, dass

die durch die Spaltung entstandenen Teilmodelle jeweils die gleiche Wahrscheinlichkeit auf-

weisen. Die übrigen SLDM-Parameter bleiben bei der Spaltung unverändert.

In der Regel werden zwischen den einzelnen Spaltungen einige EM-Iteration zur Ver-

feinerung der neu entstandenen Teilmodelle durchgeführt. Variationen dieses Ansatzes un-

terscheiden sich weiterhin darin, ob in jedem Schritt alle vorhandenen oder nur die wahr-

scheinlichsten Teilmodelle gespaltet werden. Die beschriebene Art der iterativen Modellspal-

tung ist vom GMM-Training übernommen. Sie findet beispielsweise Einsatz im sogenannten

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Hidden MARKOV Modell Toolkit (HTK) [YEG+06], einer Programmbibliothek zur Erstel-

lung und zum Training von HMMs, welche an der Universität Cambridge entwickelt wurde.

Der zweite Ansatz zur Initialisierung von SLDMs basiert auf der Idee einer initialen Clus-

terbildung [DBY07]. Zur Initialisierung von I GMM-Mittelwertvektoren µx,iwerden zu-

nächst IVektoren gemäß einer Gleichverteilung aus der Menge

X1:LAR :=nx(n)

mm∈ {1,...,LAR},n∈ {1,...,N}o(5.47)

der LAR ersten Merkmalsvektoren aller Trainingsäußerungen gezogen. Diese bilden die ini-

tialen Clusterzentren. Anschließend werden diese Zentren durch beispielsweise den soge-

nannten K-MEANS- oder FUZZY-K-MEANS-Algorithmus [DHS01] iterativ verbessert. Die

Kovarianzmatrizen Σx,isowie Zustandswahrscheinlichkeiten

ilassen sich empirisch basie-

rend auf einer harten Zuordnung der Elemente aus X1:LAR zu den Clusterzentren berechnen.

Eine Übertragung dieses Verfahrens auf SLDMs lässt sich dadurch bewerkstelligen, in-

dem zunächts davon ausgegangen wird, dass das SLDM die Ordnung LAR =1 besitzt und

entsprechend alle Zustandsübergangsmatrizen Ai,

für 1 <

≤LAR und 1 ≤i≤Igleich

der Nullmatrix gesetzt werden. Die Zustandsübergangsmatrix Ai,1wird zur Einheitsmatrix

gesetzt und anschließend die initialen Biaskorrekturvektoren bidurch die Gruppierung der

Menge

∆X:=nx(n)

m+1−x(n)

mm∈ {1,...,Mn−1},n∈ {1,...,N}o(5.48)

bestehend aus den Differenzen aufeinanderfolgender Merkmalsvektoren bestimmt. Die Zu-

standsübergangswahrscheinlichkeiten ai,ksowie die Prädiktionsfehlerkovarianzmatrizen Vi

werden auch hier empirisch durch eine harte Zuordnung der Vektoren aus der Menge ∆Xzu

den einzelnen Teilmodellen ermittelt.

Der Nachteil der beiden Initialisierungsverfahren im Hinblick auf die Initialisierung der

SLDM-Parameter besteht darin, dass sich alle berechneten Teilmodelle sehr stark ähneln,

da insbesondere die Zustandsübergangsmatrizen Ai,

aller Teilmodelle gleich sind. Dieses

widerspricht jedoch der Absicht, dass einzelne Teilmodelle möglichst unterschiedliche Dy-

namikbereiche der Sprachmerkmalsvektortrajektorie repräsentieren sollen.

Basierend auf dieser Diskrepanz wurde ein neuartiges stochastisches Verfahren zur Initia-

lisierung von SLDMs entwickelt, welches bereits vom Autor in [KLHU+10] veröffentlicht

wurde und in dieser Arbeit zum Teil erheblich modifiziert wurde. Es handelt sich dabei um

ein stochastisches Verfahren, welches sehr stark an den K-MEANS++-Algorithmus [AV07]

angelehnt ist und dessen Ziel darin besteht, möglichst signifikant unterschiedliche Teilmo-

delle zur Repräsentation der Trainingsdaten zu finden.

Genauer gesagt lässt sich die Initialisierung in zwei unabhängige Probleme aufteilen,

wenn man von der nicht besonders einschränkenden Annahme ausgeht, dass die Zustands-

übergangswahrscheinlichkeiten für den Segmentindex m=LAR alle gleich sind, d.h.

P

LAR+1=i

LAR =k=1

I∀i,k∈ {1,...,I}.(5.49)

Während das erste Problem darin besteht, initiale GMM-Parameter µx,i,Σx,iund

izu

finden, besteht das zweite Problem in der Bestimmung der initialen Parameter Ai,

,bi,Viund

ai,kdes autoregressiven dynamischen Modells. Im Folgenden werden Lösungsvorschläge für

beide Probleme detailliert dargestellt.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Initialisierung der GMM-Parameter

Das hier vorgestellte Verfahren zur Initialisierung der GMM-Parameter ist durch Alg. 1 be-

schrieben und lässt sich in zwei Teile gliedern.

Im ersten Teil werden GMM-Mittelwertvektoren µx,igemäß der stochastischen Initiali-

sierung des K-MEANS++Algorithmus bestimmt, wobei das Ziel in der Minimierung des

Gesamtabstandes

DINIT :=∑

x(n)

m∈X1:LAR

min

1≤i≤I



µx,i−x(n)

m



2(5.50)

besteht. Dabei werden nacheinander die GMM-Mittelwertvektoren µx,1,...,µx,Izufällig

aus der Menge X1:LAR gezogen. Das besondere an der K-MEANS++-artigen Initialisierung

sind die Wahrscheinlichkeiten, die für die Ziehung einzelner Merkmalsvektoren verwen-

det werden. Bei der Ziehung des ersten GMM-Mittelwertvektors µx,1sind alle Merkmals-

vektoren aus X1:LAR gleich wahrscheinlich, wobei dazu die Annahme verwendet wird, dass

es keinen offensichtlichen Grund gibt, bestimmte Vektoren zu bevorzugen. Für alle wei-

teren Ziehungen werden die Wahrscheinlichkeiten für einzelne Merkmalsvektoren propor-

tional zu ihrem minimalen quadratischen EUKLIDISCHEN Abstand zu allen bisher gezoge-

nen GMM-Mittelwertvektoren gewählt. Durch diese Art der Wahl der Wahrscheinlichkeiten

soll verhindert werden, dass Merkmalsvektoren, die zu nah an den bisher gezogenen GMM-

Mittelwertvektoren liegen, als neue GMM-Mittelwertvektoren ausgewählt werden. Die sto-

chastische Komponente des Algorithmus ist motiviert durch das Bestreben, die Wahrschein-

lichkeit für die Wahl von eventuellen Ausreißern als GMM-Mittelwertvektoren zu minimie-

ren, da Ausreißer per Definition natürlich einen großen Abstand zu allen Vektoren aufweisen,

wobei ihre Anzahl jedoch sehr gering ist. Die Gesamtdistanz DINIT kann für jede einzelne

Initialisierung als Realisierung einer Zufallsvariablen ˜

DINIT angesehen werden, deren Erwar-

tungswert das folgende Optimalitätskriterium [AV07]

E˜

DINIT ≤8[ln(I)+2]DINIT,OPT (5.57)

erfüllt, wobei DINIT,OPT die minimal erreichbare Gesamtdistanz bei gegebener Menge der

Merkmalsvektoren X1:LAR bezeichnet.

Der zweite Teil des Algorithmus behandelt die Initialisierung der Kovarianzmatrizen Σx,i

und Teilmo-dellwahrscheinlichkeiten

i. Dazu erfolgt zunächst eine Zuordnung aller Merk-

malsvektoren aus X1:LAR zu den einzelnen GMM-Mittelwertvektoren µx,i. Mit den aus der

Zuordnung resultierenden Clustern Mivon Merkmalsvektoren lassen sich die Kovarianz-

matrizen Σx,ials empirische Kovarianzmatrizen aller Vektoren in Mibezüglich µx,igemäß

(5.55) und die Teilmodellwahrscheinlichkeiten

ials relative Anzahl der Merkmalsvektoren

in Migemäß (5.56) berechnen.

Initialisierung der SLDM-Parameter

Für die Initialisierung der Parameter Ai,

,bi,Viund ai,kdes autoregressiven dynamischen

Modells wird die Ansatz der K-MEANS++-artigen Initialisierung geeignet modifiziert. Da-

bei wird jedoch die einschränkende Annahme gemacht, dass die Zustandsübergangsmatrizen

Ai,

für

>1 alle zur Nullmatrix gesetzt werden. Der Grund dafür wird an einer späteren

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Algorithmus 1 Initialisierung der GMM-Parameter

Für i=1..I

1. Ziehe einen Merkmalsvektor x(ni)

miaus der Menge X1:LAR zufällig mit der Wahr-

scheinlichkeit

Px(ni)

mi:=









N·LAR falls i=1

Dx(ni)

mi

∑

n=1

LAR

∑

m=1

Dx(n)

msonst

,(5.51)

wobei

Dx(n)

m:=min

1≤k≤i−1



µx,k−x(n)

m



2(5.52)

den minimalen quadratischen EUKLIDISCHEN Abstand des Merkmalsvektors

x(n)

mzu allen zuvor gezogenen GMM-Mittelwertvektoren bezeichnet.

2. Initialisiere den i-ten GMM-Mittelwertvektor durch µx,i:=x(ni)

mi.

Ende für

Für i=1..I

1. Berechne die Menge der zum i-ten Cluster zugeordneten Merkmalsvektoren

Mi:=nx(n)

m∈X1:LAR Ω(n)

m=io(5.53)

mit

Ω(n)

m=argmin

1≤k≤I



µx,k−x(n)

m



2.(5.54)

2. Initialisiere die Kovarianzmatrizen des Prädiktionsfehlers durch

Σx,i=1

|Mi|∑

x(n)

m∈Miµx,i−x(n)

mµx,i−x(n)

mT,(5.55)

wobei |·|die Kardinalität einer Menge bezeichnet.

3. Initialisiere die Teilmodellwahrscheinlichkeiten durch

i:=|Mi|

N·LAR

.(5.56)

Ende für

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Stelle ersichtlich. Dessen ungeachtet sind alle Zustandsübergangsmatrizen Ai,1nach der Ini-

tialisierung im Allgemeinen unterschiedlich.

Die Initialisierung lässt sich auch in diesem Fall in zwei Teile separieren.

Im ersten Teil, der in Alg. 2 dargestellt ist, werden nacheinander die Parametermengen

S1,...,SImit

Si:=Ai,1,bi,Vi(5.58)

auf Merkmalsvektorsequenzen x(ni)

mi:mi+LS−1der Länge LSbestimmt, welche nacheinander zu-

fällig aus der Menge aller möglichen Sequenzen

XSEQ,LS:=nx(n)

m:m+LS−1m∈ {LAR,...,Mn−LS+1},n∈ {1,...,N}o(5.59)

gezogen werden. Im Gegensatz zur GMM-Initialisierung, wo einzelne Merkmalsvektoren

als Repräsentanten eines Clusters angesehen werden, werden hier nun die auf den gezoge-

nen Merkmalsvektorsequenzen bestimmten Parametermengen Sials Repräsentanten eines

Clusters verstanden.

Im Folgenden wird auf zwei Fragestellungen eingegangen, welche bei diesem Ansatz re-

levant sind:

1. Nach welchem Kriterium bestimmt man die Parametermenge Siberuhend auf der

gewählten Sequenz x(ni)

mi:mi+LS−1?

2. Nach welchem Kriterium wählt man die Sequenz x(ni)

mi:mi+LS−1zur Berechnung der Pa-

rameter Siaus?

Zur Lösung des ersten Problems wird hier vorgeschlagen, die Zustandsübergangsmatrix

Ai,1und den Biaskorrekturvektor bimit Hilfe von linearer Regression auf der Merkmals-

vektorsequenz x(ni)

mi:mi+LS−1zu bestimmen. Dazu wird die Lösung der kleinsten Quadrate des

linearen Gleichungssystems (5.67) berechnet. Es sei ausdrücklich darauf hingewiesen, dass

die Minimierung der Norm der Fehlerquadrate das Kriterium der Maximierung der Like-

lihoodfunktion px(ni)

mi:mi+LS−1Simpliziert, wenn man von der Nebenbedingung (5.68)

an die Zustandsübergangsmatrix Ai,1absieht. Dieses lässt sich daran erkennen, dass sich das

zur Maximierung der Likelihoodfunktion zu lösende, zuvor hergeleitete Gleichungssystem

(5.33) unter Beachtung der Annahme Ai,

=0für

>1 und der Tatsache, dass nur ein

Teilmodell für die Erzeugung der Sequenz x(ni)

mi:mi+LS−1verantwortlich ist, zu







LS−2

∑

m′=0

x(ni)

mi+m′x(ni)

mi+m′TLS−2

∑

m′=0

x(ni)

mi+m′

LS−2

∑

m′=0x(ni)

mi+m′TLS−1





AT

i,1

i=





LS−2

∑

m′=0

x(ni)

mi+m′x(ni)

mi+m′+1T

LS−2

∑

m′=0x(ni)

mi+m′+1T



(5.60)

reduziert. Dabei handelt es sich jedoch um die sogenannte Normalengleichung zum Glei-

chungssystem (5.67), weshalb die Lösung der kleinsten Quadrate von (5.67) implizit eine

Lösung von (5.60) darstellt.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Algorithmus 2: Initialisierung der SLDM-Parameter (Teil 1)

Setze i:=1.

Solange (i≤I)

1. Ziehe eine Merkmalsvektorsequenz x(ni)

mi:mi+LS−1der Länge LSaus der Menge XSEQ,LS

aller möglichen Merkmalsvektorsequenzen mit der Wahrscheinlichkeit

Px(ni)

mi:mi+LS−1:=









∑

n=1

Mn−LS−LAR+2

falls i=1

DS1:i−1x(ni)

mi:mi+LS−1

∑

n=1

Mn−LS+1

∑

m=LAR

DS1:i−1x(n)

m:m+LS−1sonst

,(5.61)

wobei

DS1:i−1x(n)

m:m+LS−1:=min

1≤k≤i−1DSk|1:i−1x(n)

m:m+LS−1(5.62)

mit

DSk|1:i−1x(n)

m:m+LS−1:=max









−ln





px(n)

m:m+LS−1Sk

max

1≤i′≤i−1px(ni′)

mi′:mi′+LS−1Si′



,0









(5.63)

px(n)

m:m+LS−1Sk:=

LS−1

∏

o=1

Nx(n)

m+o;Ak,1x(n)

m+o−1+bk,Vk(5.64)

LS−1

∏

o=1

Ne(n)

m+o,k;0,Vk(5.65)

e(n)

m+o,k:=x(n)

m+o−Ak,1x(n)

m+o−1+bk(5.66)

den minimalen Abstand der Sequenz x(n)

m:m+LS−1zu der Menge der bisher

initialisierten Teilmodelle S1:i−1bezeichnet.

2. Berechne die Zustandsübergangsmatrix Ai,1und den Biaskorrekturvektor bials

Lösung der kleinsten Quadrate des linearen Gleichungssystems

Ai,1bi"x(ni)

mi... x(ni)

mi+LS−2

1... 1#=hx(ni)

mi+1... x(ni)

mi+LS−1i(5.67)

unter der Nebenbedingung

Ai,1[r,s] = 0 für |r−s|>LS

2−2,(5.68)

wobei ⌊·⌋die Rundung auf die nächstkleinere oder gleich große, ganze Zahl bedeutet

und Ai,1[r,s]das Element in der r-ten Zeile und s-ten Spalte der Matrix Ai,1

bezeichnet.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

3. Berechne die Kovarianzmatrix des Prädiktionsfehlers Vigemäß

Vi=1

LS−1

∑

o=1e(ni)

mi+o,ie(ni)

mi+o,iT+

V·diag



e(ni)

mi+o,i



2,...,



e(ni)

mi+o,i



2.

(5.69)

mit einem Regularisierungsfaktor 0 <

V≪1.

4. Für k=1..i

a) Berechne die Menge der zum k-ten Teilmodell zugeordneten

Merkmalsvektorsequenzen

MSEQ,k(i):=nx(n)

m:m+LS−1∈XSEQ,LSΩ(n)

SEQ,m(i) = ko(5.70)

mit

Ω(n)

SEQ,m(i):=argmin

1≤i′≤i

DSi′|1:ix(n)

m:m+LS−1.(5.71)

b) Berechne die Teilmodellwahrscheinlichkeiten empirisch durch

Pk:=MSEQ,k(i)

∑

n=1

Mn−LS−LAR +2

.(5.72)

Ende für

5. Berechne die maximale Teilmodellwahrscheinlichkeit PMAX :=max

1≤k≤iPkund die

Indexmenge aller wohl repräsentierten Teilmodelle

I:=k|1≤k≤i,Pk≥

P,REL ·PMAX.(5.73)

wobei

P,REL eine Konstante mit 0 <

P,REL <1 bezeichnet.

6. Verwerfe alle Teilmodelle k/∈Iund vergib neue, eindeutige Indizes {1,...,|I|}an

die Teilmodelle k∈I.

7. Setze i:=|I|+1.

Ende solange

Die Kovarianzmatrix Viwird gemäß (5.69) berechnet, wobei der zweite Summand in

(5.69) einen Regularisierungsterm darstellt, welcher die Invertierbarkeit von Vigewährleis-

tet. Sieht man von diesem Term ab, so verläuft die Berechnung der Kovarianzmatrix eben-

falls im Sinne der Maximierung der Likelihoodfunktion px(ni)

mi:mi+LS−1S, was aus einem

Vergleich von (5.69) und (5.30) ersichtlich wird.

Das zweite Problem, nämlich die Wahl der Merkmalsvektorsequenz x(ni)

mi:mi+LS−1, wird hier

mit demselben stochastischen Prinzip angegangen, dass der K-MEANS++-artigen Initiali-

sierung zugrunde liegt. Dazu kommen bei der Ziehung der ersten Sequenz x(n1)

m1:m1+LS−1alle

Sequenzen in XSEQ,LSgleich wahrscheinlich in Betracht, während die Wahrscheinlichkeit

für die Sequenzen zur Bestimmung der weiteren Parametermengen Si,i>1, proportional

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

zu ihrem minimalen Abstand (5.62) zu den bisher initialisierten Teilmodellen gesetzt wird.

Der Abstand einer Merkmalsvektorsequenz x(n)

m:m+LS−1zu einem durch die Parametermen-

ge Sk, 1 ≤k<idefinierten, bereits bestimmten Teilmodell wird dabei durch die negative,

normierte und nach unten durch Null beschränkte Loglikelihoodfunktion (5.63) definiert.

Diese Wahl lässt sich anschaulich derart interpretieren, dass die negative Loglikelihood-

funktion −lnhpx(n)

m:m+LS−1Skiumso größere Werte annimmt, je schlechter die Sequenz

x(n)

m:m+LS−1durch die Modellparametermenge Sidargestellt wird. Die Normierung gewähr-

leistet die Tatsache, dass die zur Berechnung der bisherigen Parametermengen Sk, 1 ≤k<i,

jeweils verwendeten Merkmalsvektorsequenzen x(nk)

mk:mk+LS−1einen nichtnegativen Abstand

erhalten, wobei die am besten modellierte Merkmalsvektorsequenz den Abstand Null er-

hält. Da es rein theoretisch möglich wäre, dass eine beliebige Merkmalsvektorsequenz in

der Menge XSEQ,LSdurch ein bereits bestimmtes Teilmodell Skbesser repräsentiert wird als

die Sequenz x(nk)

mk:mk+LS−1selbst, so dass der resultierende Abstand ein negatives Vorzeichen

erhielte, wird in diesem Fall der Abstand zu Null gesetzt. Eine solche Sequenz würde daher

nicht für die Bestimmung weiterer Teilmodelle in Betracht gezogen werden, da sie bereits

mit zufriedenstellender Genauigkeit durch die bestehenden Teilmodelle beschrieben wäre.

Ein weiterer Aspekt, dem besondere Beachtung geschenkt werden muss, ist die Wahl der

Länge LSder Merkmalsvektorsequenzen. Dabei müssen zwei gegensätzliche Argumente be-

achtet werden. Einerseits sollte die Sequenzlänge LSbesonders groß gewählt werden, um

die Unterbestimmtheit des zur linearen Regression verwendeten Gleichungssystems (5.67)

im Sinne der Bestimmung von aussagekräftigen Teilmodellen zu vermeiden. Zudem sollte

berücksichtigt werden, dass eine gewisse Mindestlänge bereits aufgrund der Trägheit des

menschlichen Vokaltraktes sinnvoll ist. Andererseits ist eine kürzere Sequenzlänge zu be-

vorzugen, da die Approximation eines instationären stochastischen Prozesses, als dessen

Realisierungen die Merkmalsvektorsequenzen per Annahme angesehen werden, durch die

Verwendung eines einzelnen linearen autoregressiven Modells nur lokal sinnvoll ist.

Hier wird der lokalen Charakterisierung durch einzelne lineare Teilmodelle eine höhere

Priorität beigemessen, da dieses insbesondere in Übereinstimmung mit dem Ziel der In-

itialisierung von möglichst unterschiedlichen Teilmodellen steht. Die zur Vermeidung der

Unterbestimmtheit des Gleichungssystems (5.67) gestellte Anforderung an eine große Se-

quenzlänge wird deshalb durch die Einführung der Nebenbedingung (5.68) abgeschwächt,

gemäß derer alle Zustandsübergangsmatrizen Ai,1nach der Initialisierung eine Bandstruktur

aufweisen müssen. Eine solche Nebenbedingung beschränkt die Anzahl der zu initialisieren-

den Parameter erheblich. Sie ist jedoch auch aus physikalischer Sicht sinnvoll, wenn, wie

hier, beliebige Arten von spektralen Sprachmerkmalsvektoren betrachtet werden, bei denen

Korrelationen vorwiegend zwischen benachbarten Vektorkomponenten auftreten.

Den gleichen Zweck wie die Einführung der Nebenbedingung (5.68) verfolgt auch das zu

Beginn von Kap. 5.1.4 angesprochene Nullsetzen aller Zustandsübergangsmatrizen Ai,

für

>1, das als zusätzliche Nebenbedingung angesehen werden kann. Ohne dieses Vorgehen

müsste die minimale Sequenzlänge LSentsprechend LAR mal so groß sein, um genügend

Bestimmungsgleichungen zur Initialisierung aller Zustandsübergangsmatrizen zu erhalten.

Bedingt durch die stochastische Natur des Algorithmus kann gelegentlich die Situation

auftreten, dass Ausreißer innerhalb der Menge der gezogenen Merkmalsvektorsequenzen

auftreten. Um diesem Problem zu begegnen, werden nach der Initialisierung des i-ten Teil-

modells zunächst die empirischen Teilmodellwahrscheinlichkeiten Pk, 1 ≤k≤i, durch eine

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

harte Zuordnung aller Sequenzen in XSEQ,LSzu den bisher initialisierten Teilmodellen gemäß

(5.72) berechnet. Danach werden alle unterrepräsentierten Teilmodelle k, welche

Pk≤

P,REL ·max

1≤k′≤iPk′(5.74)

erfüllen, verworfen. Die Konstante

P,REL mit 0 <

P,REL <1 gibt dabei an, wie zahlreich

ein Teilmodell mindestens im Verhältnis zum am besten repräsentierten Teilmodell vertreten

sein sollte, um nicht verworfen zu werden.

Nachdem alle Parametermengen Si, 1 ≤i≤I, bestimmt sind, lassen sich die verbleiben-

den Zustandsübergangswahrscheinlichkeiten ak,igemäß Alg. 3 im Wesentlichen mit Hilfe

einer Zuordnung von Tupeln zweier aufeinanderfolgender Sequenzen zu jeweils zwei auf-

einanderfolgenden Teilmodellen berechnen. Man beachte hierbei die große Ähnlichkeit zur

Verfeinerung der Zustandsübergangswahrscheinlichkeiten gemäß (5.32) bei der Durchfüh-

rung des EM-Algorithmus.

Algorithmus 3 Initialisierung der SLDM-Parameter (Teil 2)

Für i=1..I

•Berechne die Menge der zum i-ten Cluster zugeordneten Merkmalsvektorsequenzen

MSEQ,i(I).

Ende für

Für i=1..I

Für k=1..I

a) Berechne die Menge von Merkmalsvektorsequenztupeln

MSEQ,k,i(I):=nx(n)

m:m+LS−1,x(n)

m+1:m+LSΩ(n)

SEQ,m(I) = k,Ω(n)

SEQ,m+1(I) = i,

m∈ {LAR,...,Mn−LS},n∈ {1,...,N}o,(5.75)

b) Setze die Zustandsübergangswahrscheinlichkeiten zu ak,i=|MSEQ,k,i(I)|

|MSEQ,k(I)|.

Ende für

5.2. Beobachtungsmodell

Im Folgenden wird ein Beobachtungsmodell hergeleitet, welches einen Zusammenhang zwi-

schen den LMSK-Vektoren des verhallten und gestörten Sprachsignals, y(s)

m, und den LMSK-

Vektoren des sauberen Sprachsignals, x(s)

m, sowie denjenigen des Störsignals, n(s)

m, beschreibt.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Den Ausgangspunkt dazu bildet die Beschreibung des verhallten und gestörten Sprachsignals

y(l)im Zeitbereich, wonach es durch die Überlagerung des verhallten Sprachsignals s(l)mit

einem Störsignal n(l)entsteht, d. h.

y(l) = s(l)+n(l).(5.76)

Das verhallte Sprachsignal s(l)geht dabei aus der Faltung des sauberen Sprachsignals x(l)

mit der RIA h(l)vom Sprecher zum Mikrophon hervor

s(l) = (x∗h)(l) =

Lh−1

∑

p′=0

h(p′)x(l−p′).(5.77)

Um zu einem handhabbaren analytischen Ausdruck im Beobachtungsmodell zu gelangen,

wird dabei zunächst in (5.77) die vereinfachende Annahme gemacht, dass die RIA h(l)zeit-

invariant und kausal ist und mit einer endlichen Anzahl von Abtastwerten Lhausreichend

approximiert werden kann, d.h.

h(l) = 0 für l<0∧l≥Lh.(5.78)

Ausgehend von den Modellen (5.76) und (5.77) wird nun zunächst ein exakter Zusammen-

hang zwischen den Kurzzeit-Spektren der auftretenden Zeitsignale x(l)und n(l)und y(l)

dargelegt. Anschließend wird ein auf (5.76) basierender, approximativer Zusammenhang

zwischen den LMSK-Vektoren y(s)

m,x(s)

mund n(s)

mformuliert, welcher die Grundlage für das

Beobachtungsmodell bildet.

5.2.1. Zusammenhang im Zeit-Frequenz-Bereich

Aufgrund der Linearität der DTSTFT folgt aus (5.76) direkt

Y(m,k) = S(m,k)+N(m,k).(5.79)

Um das Kurzzeit-Spektrum des verhallten Signals S(m,k)durch das des sauberen Sprachsi-

gnals X(m,k)darstellen zu können, muss die Annahme getroffen werden, dass die Kurzzeit-

Spektren durch Überabtastung berechnet werden. Dieses bedeutet, dass die Parameter zur

Berechnung der Kurzzeit-Spektren, nämlich die Länge des Analysefensters Lw, der Fenster-

vorschub Bund die Anzahl der Frequenzbins Kbei der DFT, so gewählt werden, dass sie

die beiden Bedingungen

B≤K(5.80)

B≤Lw(5.81)

erfüllen. Weiterhin soll sogar von der stärkeren Bedingung

B≤Lw≤K(5.82)

ausgegangen werden, die gemäß Tab. 2.1 bei der Merkmalsextraktion gemäß [ETSb] erfüllt

wird.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Im Fall der Überabtastung lässt sich das verhallte Signal s(l)mit Hilfe seiner GABOR-

Reihe [WR90, FR94]

s(l) =

∞

∑

m=−∞

K−1

∑

k=0

m,k·wS(l−mB)ej2

Kkl (5.83)

darstellen, wobei die GABOR-Koeffizienten

m,kdurch

m,k=S(m,k)e−j2

KkmB (5.84)

mit dem Kurzzeit-Spektrum zusammenhängen. Dabei bezeichnet wS(l)ein zum Analyse-

fenster biorthogonales Synthesefenster, welches die sogenannte Vollständigkeitsbedingung

[FR94, Gl. (21)]

∞

∑

m=−∞

K−1

∑

k=0

wS(l−mB)wA(p′−mB)ej2

Kk(l−p′)=

l−p′für l,p′∈Z(5.85)

erfüllt. Unter der Annahme, dass das Synthesefenster den gleichen Träger wie das Analyse-

fenster besitzt, d.h.

wS(l′) = 0 für l′<0∧l′≥Lw,(5.86)

lässt sich zeigen, dass sich die Vollständigkeitsbedingung (5.85) zu

∞

∑

m=−∞

wS(l−mB)wA(l−mB) = 1

Kfür 0 ≤l<B(5.87)

vereinfacht. Der entsprechende Beweis sowie die Herleitung einer einfachen Vorschrift für

die Berechnung eines Synthesefensters wS(l′)zu einem gegebenem Analysefenster wA(l′)

findet sich in Kap. A.2.1 im Anhang. Da das Synthesefenster im Allgemeinen nicht ein-

deutig bestimmt ist, wird die Berechnung desjenigen Synthesefensters betrachtet, welches

die kleinste ℓ2-Norm besitzt und damit die größtmögliche Konzentration im Zeitbereich auf-

weist [QC93].

Wird (5.84) in (5.83) eingesetzt, ergibt sich

s(l) =

∞

∑

m=−∞

wS(l−mB)

K−1

∑

k=0

S(m,k)·ej2

Kk(l−mB)(5.88)

und es lässt sich erkennen, dass sich das verhallte Signal s(l)perfekt aus seinem Kurzzeit-

Spektrum S(m,k)rekonstruieren lässt. Diese Art der Rekonstruktion ist in der englischspra-

chigen Literatur unter dem Namen Weighted Overlap Add (WOLA) bekannt [CR83].

Die bisher dargestellten Ergebnisse und insbesondere (5.88) gelten natürlich in gleicher

Weise für das saubere Sprachsignal x(l)

x(l) =

∞

∑

m=−∞

wS(l−mB)

K−1

∑

k=0

X(m,k)·ej2

Kk(l−mB).(5.89)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Um nun zu einem Ausdruck von S(m,k)in Abhängigkeit von X(m,k)zu gelangen, wird

zunächst S(m,k)analog zu (2.3) unter Verwendung von (2.2) gemäß

S(m,k) =

Lw−1

∑

l′=0

wA(l′)s(l′+mB)·e−j2

Kkl′(5.90)

dargestellt. Anschließend werden, den Ausführungen in [AC07b] folgend, nacheinander die

Gleichungen (5.77) und (5.89) in (5.90) eingesetzt:

S(m,k) =

Lw−1

∑

l′=0

wA(l′)

Lh−1

∑

p′=0

h(p′)x(l′+mB−p′)·e−j2

Kkl′(5.91)

Lw−1

∑

l′=0

wA(l′)

Lh−1

∑

p′=0

h(p′)"∞

∑

m′=−∞

wS(l′+m−m′B−p′)

K−1

∑

k′=0

X(m′,k′)·ej2

Kk′[l′+(m−m′)B−p′]#·e−j2

Kkl′.(5.92)

Definiert man nun die Funktionen

hk,k′(m′′):=

Lh−1

∑

p′=0

h(p′)

Lw−1

∑

l′=0

wA(l′)wS(l′+m′′B−p′)·ej2

Kk′[l′+m′′B−p′]·e−j2

Kkl′,(5.93)

welche im Folgenden für k6=k′als Kreuzbandfilter und für k=k′als Band-zu-Band-Filter

bezeichnet werden, so lässt sich (5.92) durch

S(m,k) =

∞

∑

m′=−∞

K−1

∑

k′=0

X(m′,k′)hk,k′(m−m′)(5.94)

K−1

∑

k′=0

∞

∑

m′′=−∞

X(m−m′′,k′)hk,k′(m′′)(5.95)

ausdrücken. Man erkennt an (5.95), dass zur Berechnung des Kurzzeit-Spektrums des ver-

hallten Signals S(m,k)zunächst in jedem Frequenzbin k′separat eine Faltung des Kurzzeit-

Spektrums des unverhallten Signals X(m,k′)mit hk,k′(m)bezüglich mdurchgeführt wird und

anschließend alle Ergebnisse aufsummiert werden.

Der Betrag und damit der Einfluss der Kreuzbandfilter hk,k′(m)verringert sich mit wach-

sendem Abstand |k−k′|mod K. Um dieses zu erkennen, wird zunächst die Funktion

k,k′(l):=

Lw−1

∑

l′=0

wA(l′)wS(l′+l)·ej2

Kk′(l′+l)·e−j2

Kkl′(5.96)

definiert. Damit lässt sich (5.93) derart interpretieren, dass eine Funktion durch die Faltung

zwischen der Impulsantwort h(l)und

k,k′(l)gebildet wird

hk,k′(l):=h∗

k,k′(l)(5.97)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

welche anschließend mit der Rate 1

Babgetastet wird

hk,k′(m) = ˜

hk,k′(mB)(5.98)

Lh−1

∑

p′=0

h(p′)

k,k′(l−p′)l=mB .(5.99)

Bildet man nun die zeitdiskrete FOURIER-Transformierte (engl. DTFT) von (5.97)

Hk,k′ej

:=

∞

∑

l=−∞

hk,k′(l)e−jl

,(5.100)

so folgt aus (5.97) mit dem Faltungssatz für die DTFT sofort

Hk,k′ej

=Hej

Φk,k′ej

.(5.101)

Wenn man in einem nächsten Schritt die Funktion

k,k′(l)als Faltung

k,k′(l) = wMA,k∗wMS,k′(l)(5.102)

von zwei modulierten Fensterfunktionen

wMA,k(l):=wA(−l)·ej2

Kkl (5.103)

wMS,k′(l):=wS(l)·ej2

Kk′l(5.104)

beschreibt, so folgt für die DTFT von

k,k′(l)mit Hilfe des Modulationssatzes

Φk,k′ej

=W∗

Aej(

−2

K)WSej

−2

k′

K.(5.105)

Setzt man dieses Resultat in (5.101) ein, so erhält man

Hk,k′ej

=Hej

W∗

Aej(

−2

K)WSej

−2

k′

K.(5.106)

Da geeignete Analyse- und Synthesefenster wA(l′)und wS(l′)gewöhnlich ein sehr schmal-

bandiges Spektrum besitzen, wird der “Überlapp“ zwischen den FunktionenW∗

Aej(

−2

K)

und WSej

−2

k′

Kmit wachsender Differenz |k−k′|mod Kgeringer und die Leistung

von ˜

Hk,k′ej

nimmt ab. Da die DTFT von hk,k′(m)wegen (5.98) durch

Hk,k′ej

=1

B−1

∑

m=0

Hk,k′ej1

−2

m).(5.107)

ausgedrückt werden kann (siehe Kap. A.2.2), ist der Einfluss des Segmentvorschubs Bauf

die Kreuzbandfilter in der Regel kompliziert.

Aufgrund der aus (5.96) resultierenden Ungleichung



k,k′(l)≤

Lw−1

∑

l′=0wA(l′)wS(l′+l)(5.108)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

und der beiden Bedingungen (2.1) und (5.86) ist der Träger von

k,k′(l)durch [−Lw+1,

Lw−1]gegeben. Daher sind die Kreuzbandfilter hk,k′(m′′), welche mit Hilfe von (5.98),

(5.97) und (5.78) durch

hk,k′(m′′) =

Lw−1

∑

l=−Lw+1

k,k′(l)h(m′′B−l)(5.109)

min(Lw−1,m′′B)

∑

l=max(−Lw+1,m′′B−Lh+1)

k,k′(l)h(m′′B−l)(5.110)

ausgedrückt werden können, im Allgemeinen bezüglich m′′ nicht kausal. Der Träger ergibt

sich zu [−LH,u,LH], wobei die Grenzen wie folgt definiert sind

LH,u:=Lw−1

B(5.111)

LH:=Lh+Lw−2

B.(5.112)

Als Folge dessen treten in (5.95) bei der Summation bezüglich m′′ nur endlich viele Sum-

manden auf, d. h.

S(m,k) =

K−1

∑

k′=0

∑

m′′=−LH,u

X(m−m′′,k′)hk,k′(m′′).(5.113)

Wird in einem letzten Schritt (5.113) in (5.79) eingesetzt, erhält man den gesuchten Zu-

sammenhang für das Kurzzeit-Spektrum

Y(m,k) =

K−1

∑

k′=0

∑

m′′=−LH,u

X(m−m′′,k′)hk,k′(m′′)+ N(m,k).(5.114)

5.2.2. Zusammenhang im log-MEL-spektralen Bereich

Die LMSKs y(s)

m,qwerden aus dem Kurzzeit-Leistungsspektrum des verhallten und gestörten

Signals y(l)gemäß

y(s)

m,q=lnYm,q=ln



K(o)

∑

k=K(u)

|Y(m,k)|2Λq(k)

(5.115)

berechnet, was durch Einsetzen von (2.4) in (2.5) ersichtlich wird. Stellt man das Kurzzeit-

Leistungsspektrum von y(l)mit Hilfe von (5.114) gemäß

|Y(m,k)|2=

K−1

∑

k′,k′′=0

∑

m′,m′′=−LH,u

X(m−m′,k′)X∗(m−m′′,k′′)hk,k′(m′)h∗

k,k′′(m′′)

K−1

∑

k′=0

∑

m′=−LH,u

2ℜX(m−m′,k′)hk,k′(m′)N∗(m,k)+|N(m,k)|2(5.116)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

dar, wobei ℜ[·]den Realteil bezeichnet, so wird erkennbar, dass eine perfekte Darstellung

von y(s)

m,qnur mit Hilfe der Kenntnis von nx(s)

m,q,n(s)

m,q|m∈Z,q∈ {0,...,Q−1}osowie der

Impulsantwort h(l)schon deshalb nicht möglich sein kann, weil bei der Berechnung von x(s)

m,q

und n(s)

m,qanalog zu (5.115) jegliche Phaseninformation über die Kurzzeit-Spektren X(m,k)

und N(m,k)verloren geht, welche zur Berechnung von (5.115) notwendig ist.

Eine mögliche Approximation von (5.116), welche nur die Kurzzeit-Leistungsspektren

von x(l)und n(l)verwendet, ist durch

|Y(m,k)|2≈CE·

∑

m′=0X(m−m′,k)2hk,k(m′)2+|N(m,k)|2(5.117)

mit CE∈Rgegeben, welche zudem durch die folgenden Überlegungen motiviert ist. Ers-

tens wird der zweite Summand in (5.116) mit dem Hintergrund vernachlässigt, dass dieser

unter der Annahme, dass das Störsignal ˘n(l)mittelwertfrei und unkorreliert mit dem Sprach-

signal ˘x(l)ist, im Mittel verschwindet. Zweitens wird zur Berechnung des ersten Summan-

den in (5.116) der Einfluss aller Kreuzbandfilter hk,k′(m′)bzw. hk,k′′ (m′′)mit k′6=kbzw.

k′′ 6=kignoriert, was dadurch gerechtfertigt werden kann, dass sich deren Einfluss gemäß

der Diskussion in Kap. 5.2.1 für wachsende Werte von |k′−k|mod Kbzw. |k′′ −k|mod K

verringert. Drittens werden im ersten Summanden von (5.116) alle Terme mit m′′ 6=m′fort-

gelassen. Diese Operation kann dadurch motiviert werden, dass die Korrelation zwischen

X(m−m′,k′)und ˘

X∗(m−m′′,k′)in der Regel für wachsende Werte von |m′−m′′|geringer

wird.

Viertens werden in (5.117) im Gegensatz zu (5.116) nur Summanden für nichtnegative

Segmentindizes m′und m′′ betrachtet, um einen kausalen Zusammenhang zu erhalten. Dazu

ist bemerken, dass für die Merkmalsextraktion gemäß dem ETSI-SFE, die ja hier vorder-

gründig betrachtet wird, die Vernachlässigung der negativen Segmentindizes nur einen sehr

geringen Fehler für vernünftige Nachhallzeiten T60 liefert. Das hängt damit zusammen, dass

in diesem Fall die Kreuzbandfilter basierend auf (5.110) durch

hk,k′(m′′) =

m′′B

∑

l=−Lw+1

k,k′(l)h(m′′B−l)für m′′ <0 (5.118)

berechnet werden können und der Betrag von

k,k′(l)für wachsende |l|abnimmt.

Die Konstante CEsoll sicherstellen, dass die Approximation (5.117) erwartungstreu ist

und muss dazu folgende Bedingung erfüllen

E



K−1

∑

k′=0

∑

m′=−LH,u

X(m−m′,k′)hk,k′(m′)

2

!

=E"CE·

∑

m′=0˘

X(m−m′,k)2hk,k(m′)2#,

(5.119)

wobei bei gegebener Impulsantwort h(l)der Erwartungswert über alle möglichen Realisie-

rungen von ˘x(l)zu bilden ist.

Setzt man die Approximation (5.117) des Kurzzeit-Leistungsspektrums des verhallten und

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

gestörten Signals y(l)in (5.115) ein, so erhält man

y(s)

m,q=ln





K(o)

∑

k=K(u)

q"CE·

∑

m′=0X(m−m′,k)2hk,k(m′)2+|N(m,k)|2#Λq(k)





(5.120)

=ln





CE·

∑

m′=0

K(o)

∑

k=K(u)

qX(m−m′,k)2hk,k(m′)2Λq(k)+

K(o)

∑

k=K(u)

|N(m,k)|2Λq(k)





(5.121)

Man erkennt an dieser Stelle, dass eine weitere endgültige Approximation notwendig ist,

um die log-MEL-spektralen Merkmale y(s)

m,qdes verhallten und gestörten Sprachsignals y(l)

durch die log-MEL-spektralen Merkmale x(s)

m,qund n(s)

m,qdes sauberen Sprachsignals x(l)und

des Störsignals n(l)beschreiben zu können. Dazu werden die MEL-spektralen Koeffizienten

Ym,qzusätzlich dadurch angenähert, dass der in (5.121) auftretende Term hk,k(m′)2durch

seinen Mittelwert über das q-te MEL-Band

Hm′,q:=1

K(o)

q−K(u)

q+1

K(o)

∑

k=K(u)

qhk,k(m′)2(5.122)

ersetzt wird:

Ym,q≈CE·

∑

m′=0

Hm′,q

K(o)

∑

k=K(u)

qX(m−m′,k)2Λq(k)+

K(o)

∑

k=K(u)

|N(m,k)|2Λq(k)(5.123)

=CE·

∑

m′=0

Hm′,qXm−m′,q+Nm,q.(5.124)

Wird schließlich der Fehler, der bei dieser Approximation entsteht, durch

Em,q:=Ym,q−CE·

∑

m′=0

Hm′,qXm−m′,q+Nm,q(5.125)

definiert, ergibt sich das endgültige Beobachtungsmodell durch Einsetzen von (5.124) und

(5.125) in (5.115) zu

y(s)

m,q=ln(CE·

∑

m′=0

Hm′,qXm−m′,q+Nm,q+Em,q)(5.126)

=ln(LH

∑

m′=0

ex(s)

m−m′,q+¯

hm′,q+en(s)

m,q)+v(s)

m,q,(5.127)

wobei

hm′,q:=lnCE·¯

Hm′,q(5.128)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

als Koeffizienten der RIA im log-MEL-spektralen Bereich angesehen werden können und

v(s)

m,q:=ln









1+Em,q

CE·

∑

m′=0

Hm′,qXm−m′,q+Nm,q











.(5.129)

als Beobachtungsfehler interpretiert werden kann, der durch eine Prädiktion von y(s)

m,qbasie-

rend auf der alleinigen Kenntnis von nx(s)

m,q,...,x(s)

m−LH,q,¯

h0,q,...,¯

hLH,q,n(s)

m,qoentsteht.

Mit der Verwendung der Vektornotation und der Einführung der Beobachtungsfunktion

fO:R[2(LH+1)+1]Q→RQ,fOx(s)

m:m−LH,¯

h0:LH,n(s)

m:=ln(LH

∑

m′=0

ex(s)

m−m′+¯

hm′+en(s)

m),

(5.130)

wobei die Anwendung der mathematischen Operationen komponentenweise zu verstehen ist,

lässt sich der gefundene Zusammenhang (5.127) zwischen den LMSKs kompakt gemäß

y(s)

m=fOx(s)

m:m−LH,¯

h0:LH,n(s)

m+v(s)

m(5.131)

formulieren.

In Abwesenheit von Hintergrundstörungen vereinfacht sich die Beobachtungsfunktion

(5.130) zu

fO:R[2(LH+1)]Q→RQ,˜

fOx(s)

m:m−LH,¯

h0:LH:=ln(LH

∑

m′=0

ex(s)

m−m′+¯

hm′),(5.132)

was ersichtlich wird, indem der Grenzwert von (5.130) für n(s)

m→(−∞,...,−∞)Tgebildet

wird. In diesem Fall gilt entsprechend

y(s)

m=s(s)

m≈˜

fOx(s)

m:m−LH,¯

h0:LH.(5.133)

Einen qualitativen Eindruck von der Güte dieser Approximation liefert der Vergleich der

Trajektorie der wahren LMSKs-Vektoren eines beispielhaften verhallten Sprachsignals mit

der entsprechenden Näherung gemäß (5.133), die jeweils in Abb. 5.5a und Abb. 5.5b darge-

stellt sind. Es lässt sich erkennen, dass in der approximativ berechneten Trajektorie zwar sehr

feine Details nicht mehr aufgelöst werden, jedoch zumindest der grobe Verlauf korrekt dar-

gestellt wird. Der glatte Verlauf resultiert dabei hauptsächlich aus den Näherungen (5.117)

und (5.123).

Interpretation der Koeffizienten der RIA

Die in (5.128) definierten Koeffizienten der RIA ¯

hm,qhaben große Ähnlichkeit zu den tat-

sächlichen LMSKs h(s)

m,q, welche sich gemäß (2.4) und (2.5) durch

h(s)

m,q=ln



K(o)

∑

k=K(u)

Λq(k)|H(m,k)|2

(5.134)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

berechnen lassen. Dabei kann das Betragsquadrat von H(m,k)mit Hilfe von (2.3) und (2.2)

durch

|H(m,k)|2=

Lw−1

∑

l′=0

wA(l′)h(mB+l′)·e−j2

Kkl′

(5.135)

ausgedrückt werden. Die Ähnlichkeit von h(s)

m,qzu ¯

hm,qwird erkennbar, wenn zunächst ¯

hm′,q

unter Verwendung von (5.128) und (5.122) gemäß

hm,q=ln

CE

K(o)

∑

k=K(u)

K(o)

q−K(u)

q+1hk,k(m)2

(5.136)

dargestellt und anschließend das Betragsquadrat von hk,k(m′)mit Hilfe von (5.109) und

(5.138) gemäß

hk,k(m′)2=

Lw−1

∑

p′=−Lw+1

k,k(−p′)h(m′B+p′)

(5.137)

geschrieben wird. Zur weiteren Umformung von (5.137) lässt sich die aus der Definition

(5.96) resultierende Gleichheit

k,k(−l) = w(l)e−j2

Kkl (5.138)

ausnutzen, wobei

w(l):=

Lw−1

∑

l′=0

wA(l′)wS(l′−l)(5.139)

eine Fensterfunktion ist, die aus der Faltung des Analysefensters wA(l)mit dem zeitumge-

kehrten Synthesefenster wS(−l)entsteht. Mit Hilfe von (5.138) erhält man schließlich

hk,k(m′)2=

Lw−1

∑

p′=−Lw+1

w(p′)h(m′B+p′)e−j2

Kkp′

.(5.140)

Durch den Vergleich von (5.134) mit (5.136) wird ersichtlich, dass sich die Berechnung von

hm,qvon der Berechnung von h(s)

m,qeinerseits durch die Verwendung eines Rechteck- statt

Dreickfensters zur Berechnung der Leistung für einzelne MEL-Bänder sowie der zusätzli-

chen Verwendung der Konstanten CEin (5.136) unterscheidet. Andererseits offenbart der

Vergleich von (5.135) mit (5.140) eine unterschiedliche Wahl des Analysefensters.

5.2.3. Approximation durch vereinfachtes Modell der RIA

Im Hinblick auf eine Verwendung des hergeleiteten Zusammenhanges (5.131) als Beobach-

tungsmodell zur BAYES’schen Merkmalsverbesserung ergeben sich in der Praxis mehrere

Schwierigkeiten. Für ein Szenario, in dem die RIA vom Sprecher zum Mikrophon unbe-

kannt ist, besteht das grundsätzliche Problem der Berechnung der Koeffizienten (5.128).

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Zwar ist es möglich, die RIA aus dem aufgenommenen Mikrophonsignal zu schätzen und

anschließend für die Berechnung der Koeffizienten (5.128) zu verwenden. Dabei wird je-

doch die Schätzung durch die Tatsache erschwert, dass die RIA in der Regel, bedingt u.a.

durch Bewegungen des Sprechers oder Änderungen der Temperatur und Feuchtigkeit inner-

halb des Raumes, zeitvariant ist. Die zeitlichen Änderungen betreffen dabei häufig nur die

feine Struktur, wobei die Einhüllende ihre Form beibehält (siehe Kap. 2.3). Außerdem be-

sitzt die RIA sehr viele Koeffizienten, so dass eine zuverlässige Schätzung insbesondere bei

Räumen mit größeren Nachhallzeiten im Allgemeinen nicht trivial ist.

Motiviert durch diese Überlegungen wird das stark vereinfachte Modell der RIA

h(l) =

h·˘vh(l)·

h(l)·e−l

h,(5.141)

verwendet, welches bereits in [Pol88] eingeführt wurde. Dabei bezeichnet ˘vh(l)einen mit-

telwertfreien weißen GAUSS’schen Zufallsprozess, dessen Autokorrelationsfunktion durch

E˘vh(l)˘vh(l′)=

l−l′für l,l′∈Z(5.142)

gegeben ist und der durch die Zufälligkeit der Reflexionen der akustischen Wellen an Ober-

flächen motiviert ist. Der Faktor e−l

herzeugt eine exponentiell abklingende Einhüllende,

wobei die Abklingkonstante

hwie folgt mit der mittleren Nachhallzeit T60 und der Abtast-

dauer TAzusammenhängt (siehe Kap. A.2.3 im Anhang):

h=T60

3ln(10)·TA

.(5.143)

Die Funktion

h(l):=(1 für 0 ≤l≤Lh−1

0 sonst (5.144)

kann als Indikatorfunktion von h(l)angesehen werden und sorgt dafür, dass die RIA kausal

wird und eine endliche Länge Lhaufweist. Der Skalierungsfaktor

hbestimmt die mittlere

Leistung der RIA, welche sich durch Anwendung der geometrischen Summe

L−1

∑

l=0

xl=xL−1

x−1für x∈C\{1},L∈N(5.145)

unter Berücksichtigung von (5.142) durch

E"Lh−1

∑

l=0

h2(l)#=

Lh−1

∑

l=0

e−2l

h·e−2Lh

h−1

e−2

h−1

(5.146)

berechnen lässt.

Im Folgenden soll angenommen werden, dass keine detaillierte Kenntnis der RIA vor-

liegt, jedoch lediglich bekannt ist, dass diese eine Realisierung des in (5.141) definierten Zu-

fallsprozesses darstellt, wobei die beiden Parameter

hund

hgegeben sind. Bedingt durch

diese Annahme stellt nun jeder Koeffizient der RIA im log-MEL-spektralen Bereich ¯

hm′,q,

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

welcher sich gemäß (5.128) aus der der RIA berechnen lässt, ebenfalls eine Realisierung

einer Zufallsvariable ˘

hm′,qdar. Um in dieser Situation zu einer sinnvollen Wahl für die Ko-

effizienten ¯

hm′,qzur Verwendung im Beobachtungsmodell (5.131) zu gelangen, erscheint es

sinnvoll, diese Koeffizienten durch ihren Erwartungswert

hm′,q:=Eh˘

hm′,qi.(5.147)

basierend auf dem Modell der RIA zu ersetzen. Eine analytische Berechnung dieses Er-

wartungswertes ist wegen der auftretenden Logarithmusoperation sehr aufwendig. Sie wird

jedoch stark durch die approximative Annahme vereinfacht, dass die Verteilungsdichtefunk-

tion von ˘

h(s)

m′,qdurch eine GAUSS-Verteilung mit dem Mittelwert

hm′,qund der Varianz

hm′,q

beschrieben werden kann, d.h.

p˘

hm′,q¯

hm′,q=N¯

hm′,q;

hm′,q,

hm′,q.(5.148)

Basierend auf dieser Annahme und (5.128) sind die MEL-spektalen Koeffizienten der RIA

Hm′,qlog-normalverteilt, wobei sich insbesondere der Erwartungswert (5.147) aus dem Er-

wartungswert und der Varianz

Hm′,q:=Eh˘

Hm′,qi(5.149)

2˘

Hm′,q

:=E"˘

Hm′,q−

Hm′,q2#(5.150)

gemäß

hm′,q=

hm′,q(

h) = 1

2ln











Hm′,q4

2˘

Hm′,q

+

Hm′,q2









.(5.151)

darstellen lässt [AB57]. Obwohl die Berechnung der Varianz im Sinne des Beobachtungs-

modells nicht notwendig ist, sei zur Vollständigkeit bemerkt, dass diese durch

hm′,q

:=E"˘

hm′,q−

hm′,q2#=ln









2˘

Hm′,q



Hm′,q2+1









(5.152)

gegeben ist. In Kap. A.2.4 im Anhang wird gezeigt, dass der Mittelwert (5.149) und die

Varianz (5.150) durch

Hm′,q=

Lw−1

∑

p′=−Lw+1

m′,p′,0(5.153)

2˘

Hm′,q

K(o)

q−K(u)

q+12

K(o)

∑

k,k′=K(u)





Lw−1

∑

p′=−Lw+1

m′,p′,k+k′

2

+

Lw−1

∑

p′=−Lw+1

m′,p′,k−k′

2

2



(5.154)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

berechnet werden können, wobei

m′,p′,k:=

h·

h(m′B+p′)·e−m′B+p′

hw(p′)e−j2

Kkp′.(5.155)

Dass diese Näherung sinnvoll ist, zeigt der Vergleich der mit Hilfe von MONTE-CAR-

LO-Simulationen erzeugten normierten Histogramme mit den entsprechenden analytischen

GAUSS-förmigen Approximationen in Abb. 5.2 und Abb. 5.3 für zwei beispielhafte Nach-

hallzeiten von T60 =0,1s und T60 =0,8s. Dabei wird erkennbar, dass die analytisch berech-

nete Approximation in der Regel umso besser ist, je größer der Index qdes MEL-Bandes ist.

Zudem kann beobachtet werden, dass die Varianz für wachsende Indizes qsinkt.

-2

-4

0,5

1,5

Analytisch

MONTE-CARLO

(a) ˆp˘

h0,0(u)

-2

-4

0,5

1,5

(b) ˆp˘

h0,11 (u)

-2

-4

0,5

1,5

h0,22 (u)

-2

-4

0,5

1,5

(d) ˆp˘

h4,0(u)

-2

-4

0,5

1,5

(e) ˆp˘

h4,12 (u)

-2

-4

0,5

1,5

(f) ˆp˘

h4,23 (u)

-2-4

0,5

1,5

(g) ˆp˘

h14,0(u)

-2-4

0,5

1,5

(h) ˆp˘

h14,11 (u)

-2-4

0,5

1,5

(i) ˆp˘

h14,22 (u)

Abbildung 5.2.: Approximationen ˆp˘

hm,q(u)der Verteilungsdichtefunktionen der log-MEL-spektralen

Repräsentationen der RIA ¯

hm,qfür m ∈ {0,4,14}und q ∈ {0,11,22}durch normier-

te Histogramme, resultierend aus MONTE-CARLO-Simulationen (blau) einerseits,

sowie aus einer analytischen Darstellung (rot) andererseits, für eine Nachhallzeit

von T60 =0,1s.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Nachdem nun das Prinzip der Berechnung der log-MEL-spektralen Repräsentation der

RIA basierend auf dem Modell (5.141) mit gegebenen Parametern

hsowie

herläutert

wurde, soll das Augenmerk auf den Aspekt gerichtet werden, wie die Länge der RIA Lh

sowie die Leistungskompensationskonstante CEberechnet werden können.

-1

-2

-3

-4

-5

0,5

1,5

Analytisch

MONTE-CARLO

(a) ˆp˘

h0,0(u)

-1

-2

-3

-4

-5

0,5

1,5

(b) ˆp˘

h0,11 (u)

-1

-2

-3

-4

-5

0,5

1,5

h0,22 (u)

-1

-2

-3

-4

-5

0,5

1,5

(d) ˆp˘

h4,0(u)

-1

-2

-3

-4

-5

0,5

1,5

(e) ˆp˘

h4,11 (u)

-1

-2

-3

-4

-5

0,5

1,5

(f) ˆp˘

h4,22 (u)

-1

-2

-3

-4

-5

0,5

1,5

(g) ˆp˘

h14,0(u)

-1

-2

-3

-4

-5

0,5

1,5

(h) ˆp˘

h14,11 (u)

-1

-2

-3

-4

-5

0,5

1,5

(i) ˆp˘

h14,22 (u)

Abbildung 5.3.: Approximationen ˆp˘

hm,q(u)der Verteilungsdichtefunktionen der log-MEL-spektralen

Repräsentationen der RIA ¯

hm,qfür m ∈ {0,4,14}und q ∈ {0,11,22}durch normier-

te Histogramme, resultierend aus MONTE-CARLO-Simulationen (blau) einerseits,

sowie aus einer analytischen Darstellung (rot) andererseits, für eine Nachhallzeit

von T60 =0,8s.

Wahl der Länge Lhder RIA

Zunächst ist es wichtig festzustellen, dass eine sinnvolle Wahl der Länge Lhin irgendeiner

Art und Weise von der Nachhallzeit T60 bzw. von der Abklingkonstanten

habhängen sollte.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Ein mögliches Kriterium für eine solche Wahl besteht darin, eine von

hunabhängige Kon-

stante

h<1 vorzugeben, welche die Güte der Modellierung basierend auf dem relativen

Leistungsverhältnis

r(Lh):=

ELh−1

∑

l′=0

h2(l′)

E∞

∑

l′=0

h2(l′)=1−

E"∞

∑

l′=Lh

h2(l′)#

E∞

∑

l′=0

h2(l′)=1−e−2Lh

h(5.156)

zwischen der abgeschnittenen und der nicht abgeschnittenen RIA durch

r(Lh)>1−

h(5.157)

beschreibt. Für die Umformungen in (5.156) wurden (2.21) sowie (A.104) verwendet. In

anderen Worten ausgedrückt bedeutet (5.157), dass die relative Leistung des abgeschnittenen

Anteils der RIA, welche gleich 1−r(Lh)ist, geringer als

hsein muss. Die Länge der RIA

kann dann unter Einhaltung der Nebenbedingung (5.157) minimiert werden, was schließlich

Lh(

h):=argmin

r(Lh)unter der Nebenbedingung (5.157) (5.158)

=l−

2ln(

h)m(5.159)

resultiert.

Wahl der Leistungskompensationskonstante CE

Zur Erinnerung sei noch einmal erwähnt, dass die Leistungskompensationskonstante CEda-

zu dient, die Vernachlässigung von Termen zur vereinfachten Berechnung des Kurzzeit-

Leistungsspektrums des gestörten und verhallten Signals y(l)gemäß (5.117) zu kompen-

sieren. Sie kann theoretisch mit Hilfe der Bedingung (5.119) bestimmt werden, wobei der

Erwartungswert bei gegebener RIA über alle möglichen Realisierungen von x(l)zu bilden

ist. Für den Fall, dass die RIA sich gemäß dem stochastischen Modell (5.141) verhält, ist

es möglich, den Erwartungswert zusätzlich über alle möglichen Realisierungen von h(l)zu

betrachten, wobei die Parameter

hund

hdeterministische Größen sind.

Um die Erwartungswertbildung bezüglich x(l)überhaupt handhabbar zu gestalten, soll

weiterhin angenommen werden, dass es sich dabei um einen weißen GAUSS’schen Zu-

fallsprozess handelt. Unter dieser Annahme kann gezeigt werden (siehe Kap. A.2.5 im An-

hang), dass sich die Konstante CEaus dem Quotienten

CE=CZ

(5.160)

ergibt, wobei der Zähler und Nenner durch

CZ:=K2

∑

m′,m′′=−LH,u

Lw−1

∑

l=0

wA(l)wS(l)wA(l+m′′ −m′B)wS(l+m′′ −m′B)

Lw−1

∑

l′=−Lw+1

h(m′B−l′)e−2(m′B−l′)

hw2

A(−l′+l)(5.161)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

und

CN:= Lw−1

∑

l=0

A(l)!



∑

m′=0

Lw−1

∑

l′=−Lw+1 Lw−1

∑

p′′=0

wA(p′′)wS(p′′ +l′)!2

h(m′B−l′)e−2(m′B−l′)

h



(5.162)

definiert sind. Sie hängt also nur von den bei der Merkmalsextraktion verwendeten Parame-

tern sowie der Abklingkonstante

hab.

Schätzung der RIA-Parameter

Das Modell der RIA (5.141) wurde mit der Motivation eingeführt, dass es nur durch zwei

Parameter vollständig beschrieben ist, welche in einer dem automatischen Spracherkenner

unbekannten Umgebung in der Regel deutlich einfacher aus dem eingehenden Mikrophonsi-

gnal zu schätzen sind als die gesamter RIA selbst.

Für den Spezialfall, dass keine Störung während der Spracherkennung vorhanden ist, exis-

tieren in der Literatur hauptsächlich zwei Ansätze zur blinden Schätzung der Nachhallzeit

T60. Bei den Verfahren basierend auf dem Maximum Likelihood (ML)-Prinzip [RJW+03,

RJO04] wird versucht, die Abklingkonstante

h, welche über (5.143) mit der Nachhallzeit

verknüpft ist, derart zu bestimmen, dass kurze Signalausschnitte, welche vorwiegend den

Übergang zwischen der Sprache und den Sprachpausen darstellen, durch das Modell der RIA

bestmöglich beschrieben werden. Aus dem Histogramm der aus vielen Signalausschnitten

resultierenden Schätzungen wird anschließend die gesuchte Abklingkonstante beispielswei-

se durch die Suche des ersten lokalen Maximums oder des 10 %-Quantils bestimmt. Hin-

gegen wird in [WHN08] ein etwas anderer Ansatz verfolgt. Zunächst wird auch hier ein

Histogramm aus Schätzungen von Abklingkonstanten geschätzt, was jedoch durch lineare

Regression aus dem logarithmierten Kurzzeit-Leistungsspektrum des verhallten Signal be-

stimmt wird. Die endgültige Schätzung der Abklingkonstante basiert auf einem beobachteten

nichtlinearen Zusammenhang zwischen der Schiefe des Histogramms und der Nachhallzeit.

Für den allgemeinen Fall, bei dem eine (nicht zu starke) Störung n(l)6=0 präsent ist, kann

eine Schätzung im Prinzip mit den gleichen Methoden erfolgen. Jedoch muss zuvor eine Ent-

störung des Signals beispielsweise mit Hilfe von spektraler Subtraktion oder eines WIENER

Filters [VM06] erfolgen.

Der Parameter

hbeschreibt im Wesentlichen den relativen Einfluss der Raumimpulsan-

wort auf die Leistung des verhallten Signals ˘s(l). Aufgrund des instationären Charakters des

sauberen Sprachsignals ˘x(l)(und in manchen Situationen des Störsignals ˘n(l)) ist eine blinde

Schätzung nicht trivial. Anstatt an dieser Stelle eine detaillierte Methode zu seiner Schätzung

zu gegeben, soll hier nur das Prinzip unter der vereinfachten Annahme beschrieben werden,

dass sowohl das saubere Sprachsignal ˘x(l)als auch das Störsignal ˘n(l)durch stationäre Zu-

fallsprozesse mit den Leistungen

x:=E˘x2(l)und

n:=E˘n2(l)gegeben sind. Dann

lässt sich die Leistung des verhallten und gestörten Signals ˘y(l)mit Hilfe der Annahme, dass

das saubere Sprachsignal ˘x(l)und das Störsignal ˘n(l)miteinander unkorreliert sind, und des

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Modells für die RIA (5.141) gemäß

y:=E˘y2(l)=E˘s2(l)+E˘n2(l)(5.163)

n(5.164)

=E"Lh−1

∑

p′=0

Lh−1

∑

p′′=0

h(p′)˘

h(p′′)˘x(l−p′)˘x(l−p′′)#+

n(5.165)

Lh−1

∑

p′=0

Lh−1

∑

p′′=0

E˘

h(p′)˘

h(p′′)E˘x(l−p′)˘x(l−p′′)+

n(5.166)

Lh−1

∑

p′=0

E˘

h2(p′)E˘x2(l−p′)+

n(5.167)

x·E"Lh−1

∑

p′=0

h2(p′)#+

n(5.168)

x



h·e−2Lh

h−1

e−2

h−1

+

n(5.169)

ausdrücken, wobei

sin (5.164) die Leistung des verhallten Sprachsignals ˘s(l)bezeichnet

und für die Umformung von (5.168) nach (5.169) das Resultat (5.146) verwendet wurde.

Daraus ergibt sich der gesuchte Parameter

hzu

h=v

t

y−

n

·e−2

h−1

e−2Lh

h−1.(5.170)

Seine Schätzung erfordert daher die Schätzung der Leistungen der Signale ˘y(l)und ˘n(l),

wenn man annimmt, dass die Leistung des zugrunde liegenden sauberen Sprachsignals ˘x(l)

bekannt ist.

In der Praxis werden die auftretenden Zufallsprozesse in der Regel instationär sein, so-

dass eine Approximation der Leistungen beispielsweise durch die Berechnung von gleiten-

den Mittelwerten vorgenommen werden muss. Um zwischen Signalausschnitten mit und oh-

ne Sprachaktivität unterscheiden zu können, kann eine Sprachaktivitätsdetektion eingesetzt

werden.

Anstelle der Schätzung des Parameters

hkann auch äquivalent dazu das verhallte und

gestörte Sprachsignal ˘y(l)so normiert werden, dass

xgilt, und der Parameter

dann einfach zu

h=v

e−2

h−1

e−2Lh

h−1(5.171)

gesetzt werden.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Defizite des RIA-Modells

Die stark vereinfachte Charakterisierung der RIA durch nur zwei Parameter bringt natür-

lich nicht nur Vorteile mit sich. Strikt genommen würde eine derartige Beschreibung nur

für den späten Nachhall der RIA zutreffen, der durch ein vollkommen diffuses Schallfeld

erzeugt wird, bei dem die Reflexionen aus jeder Richtung mit derselben Wahrscheinlichkeit

und Intensität auf das Mikrophon einfallen. Diese Bedingung wird in den meisten Anwen-

dungen im Allgemeinen nicht zutreffen, sodass (besonders) die frühen Reflexionen bedingt

durch die Geometrie des Raumes Korrelationen untereinander aufweisen werden. Aufgrund

dessen besitzen RIAs typischerweise einen Abklang, der durch zwei unterschiedliche Ab-

klingkonstanten gekennzeichnet ist [Sch65]. Eine weitere Tatsache, die durch das Modell

(5.141) vernachlässigt wird, ist die unterschiedliche Art der Reflexion und Dämpfung von

akustischen Wellen unterschiedlicher Frequenzen, welche eine Frequenzabhängigkeit des

Energieabklangs der RIA mit sich bringt [Kut04]. In Abb. 5.4 werden beide Aspekte durch

die visuelle Darstellung der Koeffizienten der RIA aus Abb. 2.3 veranschaulicht, wobei die

wahren Koeffizienten in Abb. 5.4a ihrer Approximation in Abb. 5.4b gemäß (5.151) mit

T60 =0,75s gegenüber gestellt sind.

-2

-4

-6

-8

-10

-12

7,0

20 30

m′+ 1

(a) Wahre Koeffizienten der RIA ¯

hm′,q

-2

-4

-6

-8

-10

-12

20 30

m′+ 1

(b) Approximative Koeffizienten der RIA

hm′,qberechnet gemäß (5.151) mit

T60 =0,75s

Abbildung 5.4.: Log-MEL-spektrale Repräsentation der RIA aus Abb. 2.3, wobei m′den Segmentin-

dex innerhalb der RIA und q den Index des MEL-Bandes bezeichnet.

Obwohl es prinzipiell möglich wäre, ähnlich wie in [WSNK09] das Modell der RIA

(5.141) derart zu verfeinern, dass die angesprochenen Eigenschaften der RIA mit erfasst

werden, wird in dieser Arbeit davon abgesehen. Der Grund liegt in der mit der Verfeinerung

des Modells einhergehenden steigenden Komplexität, welche sehr wahrscheinlich die Ge-

nauigkeit der blinden Schätzung der entsprechenden Modellparameter negativ beeinflussen

würde.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

5.2.4. Rekursives Beobachtungsmodell

Für große Nachhallzeiten T60 wird der Wert von LHgroß, so dass in der Beobachtungsfunk-

tion (5.130) sehr viele Exponentialterme ausgewertet werden müssen. Außerdem sind bei

der Merkmalsverbesserung die Werte der LMSKs des sauberen Sprachsignals x(s)

m,qnatür-

lich unbekannt, so dass Schätzwerte eingesetzt werden müssen und der dadurch entstehende

Fehler zusätzlich berücksichtigt werden muss. Mit der Motivation der Lösung beider Pro-

bleme wird im Folgenden ein rekursives Beobachtungsmodell hergeleitet, welches auf dem

vereinfachten Modell der RIA (5.141) basiert.

Die Grundlage besteht in einem approximativ rekursiven Zusammenhang zwischen der

Leistung von Band-zu-Band-Filtern mit verschiedenen Segmentindizes, welcher sich aus der

in Kap. A.2.4 im Anhang hergeleiteten Beziehung (A.114) ergibt:

Eh˘

hk,k(m′+LR)2i=

Lw−1

∑

p′=−Lw+1

m′+LR,p′,0(5.172)

Lw−1

∑

p′=−Lw+1

h·

h(m′+LRB+p′)·e−2[(m′+LR)B+p′]

h·w2(p′)

(5.173)

≈e−2LRB

h·Eh˘

hk,k(m′)2i∀m′,LR∈N0.(5.174)

Dabei ist die Approximation nur durch die zeitliche Begrenzung der RIA, welche durch

ihre Indikatorfunktion

h(l)beschrieben wird, begründet, so dass unter der Annahme der

Gültigkeit des RIA-Modells (5.141) die Rekursion (5.174) für Lw−1

B≤m′+LR≤Lh−Lw

Bsogar

exakt ist.

Sie lässt sich sich verwenden, um einen approximativen rekursiven Ausdruck für den Er-

wartungswert des Leistungsspektrums des verhallten und gestörten Sprachsignals y(l)be-

züglich der RIA zu finden, welcher mit Hilfe von (5.117) und der Berücksichtigung der

Tatsache, dass hk,k(m′) = 0 für m′>LHgilt, zunächst durch

E˘

h(l)h˘

Y(m,k)2i≈CE·

∑

m′=0X(m−m′,k)2Eh˘

hk,k(m′)2i+|N(m,k)|2(5.175)

=CE· LR−1

∑

m′=0X(m−m′,k)2Eh˘

hk,k(m′)2i

∑

m′=LRX(m−m′,k)2Eh˘

hk,k(m′)2i!+|N(m,k)|2(5.176)

=CE· LR−1

∑

m′=0X(m−m′,k)2Eh˘

hk,k(m′)2i

∑

m′=0X(m−m′−LR,k)2Eh˘

hk,k(m′+LR)2i!+|N(m,k)|2

(5.177)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

für 1 ≤LR≤LHschreiben lässt. Setzt man nun die Approximation (5.174) in (5.177) ein

und verwendet die aus (5.175) resultierende Approximation

∑

m′=0X(m−m′−LR,k)2Eh˘

hk,k(m′)2i

≈maxnE˘

h(l)h˘

Y(m−LR,k)2i−|N(m−LR,k)|2,0o,(5.178)

so ergibt sich

E˘

h(l)h˘

Y(m,k)2i≈CE LR−1

∑

m′=0X(m−m′,k)2Eh˘

hk,k(m′)2i

+e−2LRB

∑

m′=0X(m−m′−LR,k)2Eh˘

hk,k(m′)2i!+|N(m,k)|2

(5.179)

≈CE

LR−1

∑

m′=0X(m−m′,k)2Eh˘

hk,k(m′)2i+|N(m,k)|2

+e−2LRB

h·maxnE˘

h(l)h˘

Y(m−LR,k)2i−|N(m−LR,k)|2,0o.

(5.180)

Die Maximumbildung in (5.178) ist dadurch bedingt, dass der zu approximierende Ausdruck

stets nichtnegativ sein muss.

Motiviert durch die rekursive Approximation (5.180) lässt sich direkt eine entsprechende

Beziehung zwischen den MEL-spektralen Koeffizienten finden

Ym,q≈CE·

LR−1

∑

m′=0

Hm′,qXm−m′,q+e−2LRB

h·maxYm−LR,q−Nm−LR,q,0+Nm,q,(5.181)

wobei jetzt der Erwartungswert weggelassen wurde. Definiert man den mit dieser Approxi-

mation verbundenen Fehler durch

E(R)

m,LR,q:=Ym,q−CE·

LR−1

∑

m′=0

Hm′,qXm−m′,q−e−2LRB

h·maxYm−LR,q−Nm−LR,q,0−Nm,q,

(5.182)

so gelangt man zum gewünschten Ausdruck für die LMSKs

y(s)

m,q=ln(LR−1

∑

m′=0

ex(s)

m−m′,q+¯

hm′,q+e−2LRB

h·maxhey(s)

m−LR,q−en(s)

m−LR,q,0i+en(s)

m,q)+v(s,R)

m,LR,q

(5.183)

mit

v(s,R)

m,LR,q:=ln









E(R)

m,LR,q

LR−1

∑

m′=0

ex(s)

m−m′,q+¯

hm′,q+e−2LRB

h·maxhey(s)

m−LR,q−en(s)

m−LR,q,0i+en(s)

m,q











(5.184)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Führt man schließlich die rekursive Beobachtungsfunktion

f(R)

O,LR:R[2LR+3]Q→RQ,f(R)

O,LRx(s)

m:m−LR+1,¯

h0:LR−1,y(s)

m−LR,n(s)

m,n(s)

m−LR

:=ln(LR−1

∑

m′=0

ex(s)

m−m′+¯

hm′+e−2LRB

hmaxhey(s)

m−LR−en(s)

m−LR,0i+en(s)

(5.185)

ein, so ergibt sich ein rekursives Beobachtungsmodell in Vektornotation

y(s)

m=f(R)

O,LRx(s)

m:m−LR+1,¯

h0:LR−1,y(s)

m−LR,n(s)

m,n(s)

m−LR+v(s,R)

m,LR.(5.186)

Für den Fall LR<< LHwird die Anzahl notwendiger Auswertungen der Exponentialfunk-

tion gegenüber (5.130) deutlich reduziert.

In Abwesenheit von Hintergrundstörungen lässt sich auch die rekursive Beobachtungs-

funktion durch Bildung des Grenzwertes von (5.185) für n(s)

m,n(s)

m−LR→(−∞,...,−∞)Tzu

f(R)

O,LR:R[2LR+1]Q→RQ,˜

f(R)

O,LRx(s)

m:m−LR+1,¯

h0:LR−1,y(s)

m−LR

:=ln(LR−1

∑

m′=0

ex(s)

m−m′+¯

hm′+e−2LRB

h·1+y(s)

m−LR)(5.187)

vereinfachen, wobei 1:= (1,...,1)T. Die LMSK-Vektoren des verhallten Sprachsignals las-

sen sich dann durch

y(s)

m=s(s)

m≈˜

f(R)

O,LRx(s)

m:m−LR+1,¯

h0:LR−1,y(s)

m−LR.(5.188)

annähern. Die qualitative Güte dieser Approximation wird bei dem Vergleich der Trajekto-

rie der wahren LMSK-Vektoren eines beispielhaften Sprachsignals mit den entsprechenden

Näherungen für LR=1 bzw. LR=6 in Abb. 5.5c bzw. Abb. 5.5d deutlich. Es lässt sich

beobachten, dass die Approximation durch die rekursive Beobachtungsfunktion für LR=1

im Vergleich zu der mit der nichtrekursive Beobachtungsfunktion (5.132) deutlich genauer

ist und dass sehr feine Details nachgebildet werden können. Mit wachsenden Werten von LR

wird der Verlauf der Trajektorie immer glatter und nähert sich für LR→LHdem in Abb. 5.5b

an, da in dem Fall die rekursive annähernd in die nichtrekursive Beobachtungsfunktion über-

geht.

5.2.5. Modellierung des Beobachtungsfehlers

In diesem Abschnitt geht es um die Modellierung der beiden Beobachtungsfehler

v(s)

m=y(s)

m−fOx(s)

m:m−LH,¯

h0:LH,n(s)

m(5.189)

und

v(s,R)

m,LR=y(s)

m−f(R)

O,LRx(s)

m:m−LR+1,¯

h0:LR−1,y(s)

m−LR,n(s)

m,n(s)

m−LR,(5.190)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Index des MEL-Bandes q

Zeit m·B·TA[s]

0,51,01,52,02,5

(a) Trajektorie der log-MEL-spektralen Merkmale s(s)

m,qdes verhallten Sprachsignals

Index des MEL-Bandes q

Zeit m·B·TA[s]

0,51,01,52,02,5

(b) Trajektorie der approximativen log-MEL-spektralen Merkmale ˆs(s)

m,qdes verhallten

Sprachsignals berechnet mit der nichtrekursiven Beobachtungsfunktion (5.132)

Index des MEL-Bandes q

Zeit m·B·TA[s]

0,51,01,52,02,5

m,qdes verhallten

Sprachsignals berechnet mit der rekursiven Beobachtungsfunktion (LR=1)

Index des MEL-Bandes q

Zeit m·B·TA[s]

0,51,01,52,02,5

(d) Trajektorie der approximativen log-MEL-spektralen Merkmale ˆs(s)

m,qdes verhallten

Sprachsignals berechnet mit der nichtrekursiven Beobachtungsfunktion (LR=6)

Abbildung 5.5.: Trajektorien der log-MEL-spektralen Merkmale eines beispielhaften verhallten

Sprachsignals (selbes Signal wie in Abb. 2.5) und Approximationen durch unter-

schiedliche Beobachtungsmodelle.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

die in den Beobachtungsmodellen (5.131) und (5.186) auftreten. Dabei muss zunächst ein-

mal berücksichtigt werden, dass bisher von der Annahme ausgegegangen wurde, dass die

im Argument der Beobachtungsfunktionen auftretenden Terme ¯

h0:LHbzw. ¯

h0:LR−1auf der

Grundlage einer bekannten, zeitinvarianten Raumimpulsantwort berechnet werden. In der

Praxis wird diese Annahme jedoch in der Regel nicht erfüllt sein, so dass die für die tat-

sächliche Auswertung der beiden Beobachtungsfunktionen fOund f(R)

O,LRbenötigten wahren,

zeitvarianten Koeffizienten der RIA im log-MEL-spektralen Bereich ¯

h0:LHnicht zur Verfü-

gung stehen. Statt dessen werden diese Koeffizienten durch die auf dem RIA-Modell (5.141)

und einer Schätzung der RIA-Parameter ˆ

h,ˆ

hund ˆ

LHbasierenden Erwartungswerte

ˆµ˘

h0:ˆ

:=µ˘

h0:ˆ

(ˆ

h,ˆ

h)(5.191)

ersetzt. Insofern sind für ein realistisches Szenario an Stelle der Fehler v(s)

mund v(s,R)

m,LRviel-

mehr die beiden Fehler

v(s)

m:=y(s)

m−fOx(s)

m:m−ˆ

LH,ˆµ˘

h0:ˆ

,n(s)

m(5.192)

und

v(s,R)

m,LR:=y(s)

m−f(R)

O,LRx(s)

m:m−LR+1,ˆµ˘

h0:LR−1,y(s)

m−LR,n(s)

m,n(s)

m−LR(5.193)

interessant. Sie berücksichtigen sowohl Unzulänglichkeiten des RIA-Modells als auch Fehl-

schätzungen der Modellparameter. Da eine genaue analytische Beschreibung dieser Fehler

sehr kompliziert ist, wird in dieser Arbeit ein stark vereinfachter, approximativer Ansatz

verfolgt. Demnach werden beide Beobachtungsfehler als Realisierungen von stationären,

weißen GAUSS’schen Zufallsprozessen gemäß

pˆ

v(s)

m:=Nˆ

v(s)

m;µˆ

v(s),Σˆ

v(s)(5.194)

pˆ

v(s,R)

m,LR:=Nˆ

v(s,R)

m,LR;µˆ

v(s,R)

,Σˆ

v(s,R)

LR(5.195)

modelliert, was die Berechnung der Inferenz (siehe Kap. 5.3) ungemein vereinfacht.

Unter der weiteren Annahme der Ergodizität der Zufallsprozesse lassen sich die Parame-

ter der Beobachtungsfehler µˆ

v(s)und Σˆ

v(s)sowie µˆ

v(s,R)

und Σˆ

v(s,R)

unter Verwendung von

Stereotrainingsdaten, d.h. sauberen Sprachsignalen samt ihren verhallten und gestörten Ver-

sionen, vor der eigentlichen Merkmalsverbesserung empirisch berechnen. Um diese Schätz-

werte sinnvoll verwenden zu können ist zu beachten, dass vor der Merkmalsverbesserung ei-

ne Normierung des Eingangssignals y(l)stattfinden muss, so dass

xnäherungsweise

gilt (siehe Kap. 5.2.3). Der Skalierungsfaktor für die RIA

hmuss in dem Fall entsprechend

(5.171) bestimmt werden.

Typischerweise sind die benötigten Stereotrainingsdaten, welche am Einsatzort des Sprach-

erkenners aufgenommen wurden, jedoch nicht vorhanden. Zumindest für den störungsfreien

Fall, d.h. n(s)

m,q≪x(s)

m,q∀m,q, bietet sich die Möglichkeit, die erforderlichen Stereotrainings-

daten künstlich zu erzeugen. Dieses lässt sich beispielsweise bewerkstelligen, indem man

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

saubere Sprachsignale mit künstlichen RIAs faltet, welche mit der sogenannten Spiegelquel-

lenmethode [All79] erzeugt werden. Bei dieser Methode wird die Schallausbreitung vom

Sprecher zum Mikrophon unter der stark vereinfachten Annahme eines quaderförmigen, lee-

ren Raumes mit starren Wänden simuliert. Die berechnete zeitinvariante RIA ist abhängig

von der Position des Sprechers und des Mikrophons, der Raumgeometrie und den Absorp-

tionseigenschaften der Wände. Zu gegebener Raumgeometrie sowie der Position des Spre-

chers und des Mikrophons lassen sich gemäß der Formel von SABINE [Kut00] die Absorb-

tionseigenschaften der Wände derart bestimmen, dass der simulierte Raum approximativ

eine gewünschte Nachhallzeit aufweist. Um flexibel auf beliebige Einsatzorte des Erkenners

vorbereitet zu sein, lassen sich auf diese Weise vorab Parameter des Beobachtungsmodells

für eine relevante diskrete Menge von vorgegebenen Nachhallzeiten bzw. Abklingkonstanten

berechnen, wobei jeweils zur Berechnung der Koeffizienten der Raumimpulsantwort ˆµ˘

h0:ˆ

in (5.192) und (5.193) der Skalierungsfaktor ˆ

hgemäß (5.171) bestimmt wird. Während der

Merkmalsverbesserung können dann, beruhend auf einer Schätzung der Nachhallzeit, die

am besten passenden Parameter ausgewählt werden. Zur Berücksichtigung möglichst vie-

ler unterschiedlicher Erkennungsszenarien wird hier vorgeschlagen, viele unterschiedliche

RIAs zur Erzeugung der Stereotrainingsdaten zu verwenden, die sich in der Anordnung des

Sprechers und Mikrophons im Raum unterscheiden. Es ist weiterhin sinnvoll die Nachhall-

zeit innerhalb eines gewissen Intervalls um den vorgegebenen Wert zufällig zu variieren, um

während der Merkmalsverbesserung auftretende Schätzfehler der Nachhallzeit in Betracht

zu ziehen.

Experimentelle Untersuchungen zur Validierung der gemachten Annahmen (5.194) und

(5.195) für den störungsfreien Fall auf ausgewählten Sprachdatenbanken folgen in Kap. 6.4.

Für den Fall, dass neben dem Nachhall zusätzlich Hintergrundstörungen in dem Mikro-

phonsignal vorhanden sind, ist die Modellierung des Beobachtungsfehlers mit Hilfe eines

GAUSS’schen Zufallsprozesses gemäß (5.194) für das nichtrekursive bzw. gemäß (5.195) für

das rekursive Beobachtungsmodell eigentlich nicht mehr sinnvoll. Der Beobachtungsfehler

v(s)

m,qbzw. v(s,R)

m,q,LRist dann in hohem Maße abhängig vom lokalen Signal-zu-Rauschleistungs-

verhältnis (engl. Signal-to-Noise Ratio (SNR)) zum Zeitpunkt mim q-ten MEL-Band, wobei

grob drei Fälle zu unterscheiden sind.

Ist das lokale SNR sehr niedrig, dann dominiert die Störung stark im Verhältnis zum

Sprachanteil, so dass für den MEL-spektralen Koeffizienten Ym,qin sehr guter Näherung

Ym,q≈Nm,q(5.196)

Nm,q≫CE·¯

Hm′,qXm−m′,qfür m′∈{0,...,LH}(5.197)

gilt. Aufgrund dessen verschwindet der in (5.125) definierte Approximationsfehler Em,qnä-

herungsweise, so dass der resultierende Beobachtungsfehler v(s)

m,qgemäß (5.129) relativ klein

ist. Eine ähnliche Argumentation lässt sich für den in (5.182) definierten Approximations-

fehler E(R)

m,LR,qund den resultierenden Beobachtungsfehler v(s,R)

m,LR,qim Falle der Verwendung

der rekursiven Beobachtungsfunktion führen.

Ist im Gegensatz dazu die Sprache dominant, so liegt eine ähnliche Situation wie im stö-

rungsfreien Fall vor. Der Beobachtungsfehler ist dann im Vergleich zum Fall zuvor im Mittel

deutlich größer. Das liegt zum einen daran, dass der Approximationsfehler in (5.117) bedingt

durch die Vernachlässigung der Kreuzterme im ersten Summenterm von (5.116) relativ groß

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

ist. Zum anderen ist die Approximation in (5.124) durch die Ersetzung der in (5.121) auftre-

tende Terme hk,k(m′)2durch ihre Mittelwerte über das q-te MEL-Band ¯

Hm′,qrelativ grob.

In dem Fall, dass das Sprach- und das Störsignal lokal eine annähernd gleiche Leistung

aufweisen, ist der mittlere Beobachtungsfehler im Allgemeinen am größten. Denn dann wirkt

sich zusätzlich die Vernachlässigung des zweiten Summenterms in (5.116) im Hinblick auf

die Approximation (5.117) auf den Approximationsfehler aus.

Unter Berücksichtigung dieser Tatsachen hängt ein mit Hilfe von Trainingsdaten empi-

risch bestimmtes Histogramm des Beobachtungsfehlers ˆv(s)

m,qbzw. ˆv(s,R)

m,LR,qnicht nur in hohem

Maße von der Art der Störung und dem SNR ab, sondern auch vom Anteil der Sprachpausen

in den Trainingsäußerungen. Mit abnehmendem SNR und zunehmendem Anteil der Sprach-

pausen wird das Histogramm immer steilgipfliger, sodass es nicht mehr hinreichend genau

durch eine GAUSS-Verteilungsdichtefunktion approximiert werden kann.

Im Bewusstsein dessen, dass diese Art der Lösung sehr unzufriedenstellend und bei wei-

tem nicht optimal ist, wird in dieser Arbeit der stark vereinfachte Ansatz verfolgt, bei Vorhan-

densein der Störung dieselben Parameter des Beobachtungsfehlers wie im Fall ohne Störung

zu nutzen. Er ist zumindest für sehr hohe Werte des SNR gerechtfertigt. Eine Entwicklung

genauerer Modelle für den Beobachtungsfehler zur Berücksichtigung des Einflusses der Stö-

rung bleibt Gegenstand zukünftiger Forschung.

5.3. Inferenz

Nachdem zu Beginn von Kap. 5 das Konzept der BAYES’schen Merkmalsverbesserung vor-

gestellt und in Kap. 5.1 und Kap. 5.2 jeweils das dazu verwendete A-priori-Modell und

Beobachtungsmodell ausführlich beschrieben wurde, widmet sich dieser Abschnitt nun der

praktischen Umsetzung der Merkmalsverbesserung.

Zur Erinnerung sei noch einmal darauf hingewiesen, dass der Kern der BAYES’schen

Merkmalsverbesserung durch die rekursive Bestimmung der A-posteriori-Verteilungsdichte-

funktion pz(s)

my(s)

1:mgegeben ist. Im Allgemeinen gestaltet sich die dazu erforderliche re-

kursive Berechnung der Prädiktion und Aktualisierung gemäß der beiden Gleichungen (5.6)

und (5.7) sehr schwierig, da für den Fall einer beliebigen Form der Verteilungsdichtefunkti-

on pz(s)

m−1y(s)

1:m−1keine vernünftig handhabbare analytische Lösung für pz(s)

my(s)

1:m−1

und pz(s)

my(s)

1:mangegeben werden kann.

Eine Möglichkeit zur Lösung des Problems besteht dann in der Anwendung von MONTE-

CARLO-Methoden zur approximativen Berechnung der gesuchten Verteilungsdichtefunktio-

nen. Eine ausführliche und anschauliche Beschreibung solcher Verfahren findet sich bei-

spielsweise in [AMGC02]. Ihre Idee basiert auf der approximativen Darstellung einer Vertei-

lungsdichtefunktion mit Hilfe einer Menge von gewichteten Stichproben, sogenannten Parti-

keln, welchen dieselbe Verteilungsdichtefunktion zugrunde liegt. Ein entscheidender Nach-

teil liegt jedoch in der Tatsache, dass die Anzahl der benötigten Partikel, und damit auch der

Rechenaufwand, für eine hinreichend genaue Approximation einer Verteilungsdichtefunk-

tion im Allgemeinen exponentiell mit der Dimension der Zufallsvektoren wächst. Da die

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Dimension des hier betrachteten Merkmalsvektors

z(s)

m=x(s)

mT,...,x(s)

m−LC+1T,n(s)

mTT

(5.198)

durch (LC+1)Qgegeben ist, wobei gemäß Tab. 2.1 Q=23 gilt, werden derartige Verfahren

hier nicht weiter betrachtet.

Hingegen wird hier ein anderer vereinfachter, approximativer Ansatz verfolgt, dessen Mo-

tivation im Folgenden schrittweise verdeutlicht wird.

5.3.1. Iteratives erweitertes KALMAN-Filter

Geht man vorläufig von der approximativen Annahme aus, dass die A-priori-Verteilungs-

dichtefunktion pz(s)

m−1y(s)

1:m−1durch eine GAUSS-Verteilungsdichtefunktion gemäß

pz(s)

m−1y(s)

1:m−1=Nz(s)

m−1;ˆ

z(s)

m−1|m−1,ˆ

Σz(s)

m−1|m−1(5.199)

gegeben ist, so lässt sich zeigen, dass für den Fall eines linearen A-priori-Modells und Beob-

achtungsmodells sowie GAUSS-verteilten Prädiktions- und Beobachtungsfehlern die a poste-

riori-Verteilungsdichtefunktion pz(s)

my(s)

1:mselbst wieder eine GAUSS-Verteilung darstellt,

deren Mittelwert und Kovarianzmatrix mit Hilfe eines KALMAN-Filters berechnet werden

können [BSLK01]. In einer solchen Situation reduziert sich die Inferenz auf die Berechnung

der ersten beiden zentralen Momente.

In dem hier betrachteten Fall sind die dazu benötigten Voraussetzungen insofern nicht er-

füllt, als dass das A-priori-Modell zwar aus linearen Teilmodellen besteht, als Ganzes aber

nichtlinear ist. Zudem sind beide alternativen Beobachtungsfunktionen fOund f(R)

O,LRnichtli-

near. Eine approximative Lösung für die beiden ersten zentralen Momente ˆ

z(s)

m|m,iund ˆ

Σz(s)

m|m,i

der auf das i-te Teilmodell bedingten A-posteriori-Verteilungsdichtefunktion

pz(s)

my(s)

1:m,

m=i≈Nz(s)

m;ˆ

z(s)

m|m,i,ˆ

Σz(s)

m|m,i(5.200)

lässt sich dann mit einem sogenannten iterativen erweiterten KALMAN-Filter (engl. Iterated

Extended KALMAN Filter (IEKF)) [BSLK01] gemäß Alg. 4 berechnen. Als Eingabe wer-

den zusätzlich zu den bereits angesprochenen beiden zentralen Momenten der A-priori-Ver-

teilungsdichtefunktion ˆ

z(s)

m−1|m−1und ˆ

Σz(s)

m−1|m−1

unter anderem die Schätzwerte für die Mit-

telwertvektoren und Kovarianzmatrizen des sauberen Sprachsignals und des Störsignals ver-

gangener Zeitpunkte benötigt. Es ist wichtig zu bemerken, dass diese Schätzungen in den

vorhergehenden Inferenzschritten berechnet und zwischengespeichert werden müssen. Wei-

terhin hängt es von der verwendeten Beobachtungsfunktion ab, welche dieser Schätzungen

tatsächlich benötigt werden.

Im IEKF wird zunächst abhängig von dem Segmentindex mund dem Teilmodellindex idie

Prädiktion basierend auf (5.13) durchgeführt. Dieser Schritt ist aufgrund der Linearität des

A-priori-Teilmodells noch völlig identisch mit dem eines gewöhnlichen KALMAN-Filters.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Algorithmus 4: Iteratives erweitertes KALMAN-Filter

Eingabe: ˆ

z(s)

m−1|m−1,ˆ

Σz(s)

m−1|m−1

,ˆ

x(s)

m−ˆ

LH:m−LC+1,ˆ

Σ˘

x(s)

m−ˆ

LH:m−LC+1

n(s)

m−LC,ˆ

Σ˘

n(s)

m−LC

,ˆ

x(s)

−LC+2:0,ˆ

Σ˘

x(s)

−LC+2:0

,y(s)

m−LC, ˆµ˘

h0:ˆ

,m,k.

Ausgabe: ˆ

z(s)

m|m,i,ˆ

Σz(s)

m|m,i

,ˆ

y(s),[1]

m,i,ˆ

Σy(s),[1]

m,i

1. Prädiktion:

Wenn m≤LAR dann

•Initialisiere den Mittelwertvektor ˆ

z(s)

m|m−1,iund die Kovarianzmatrix ˆ

Σz(s)

m|m−1,i

der

prädiktiven Verteilungsdichtefunktion pz(s)

m

m=igemäß

z(s)

m|m−1,i=h(µx,i)T... (µx,i)T

|{z }

m-mal ˆ

x(s)

0T... ˆ

x(s)

−LC+m+1T(µn)TiT

(5.201)

Σz(s)

m|m−1,i







blockdiagnm-mal

z}| {

Σx,i,...,Σx,io0... ... 0

0ˆ

Σ˘

x(s)

0... 0

.0.......

....ˆ

Σ˘

x(s)

−LC+m+1

0 0 ... 0Σn







(5.202)

sonst

•Berechne den Mittelwertvektor ˆ

z(s)

m|m−1,iund die Kovarianzmatrix ˆ

Σz(s)

m|m−1,i

der

prädiktiven Verteilungsdichtefunktion pz(s)

my(s)

1:m−1,

m=igemäß

z(s)

m|m−1,i=Az,iˆ

z(s)

m−1|m−1+bz,i(5.203)

Σz(s)

m|m−1,i

=Az,iˆ

Σz(s)

m−1|m−1

(Az,i)T+Vz,i(5.204)

mit

Az,i:=







Ai,1... Ai,LAR 0... 0

I 0 ... 0... 0

0 I ...0 0 .

.0.......

....I 0 .

0 0 ... 0 I 0

0... ... ... 0 0







,Vz,i:=





Vi0... 0 0

0 0 ... 0 0

.....

0 0 ... 0 0

0 0 ... 0Σn







(5.205)

bz,i:=(bi)T0... 0(µn)TT.(5.206)

Ende wenn

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

2. Aktualisierung:

a) Initialisiere die Linearisierungsstelle der Beobachtungsfunktion mit dem

Prädiktionsvektor gemäß

z(s),[1]

m|m,i=ˆ

z(s)

m|m−1,i.(5.207)

b) Iteriere die Linearisierungsstelle:

Für r=1..R

i. Berechne die prädizierte Beobachtung ˆ

y(s),[r]

m,i, die zugehörige

Kovarianzmatrix ˆ

Σy(s),[r]

m,i

sowie die JACOBI-Matrix Hˆ

z(s),[r]

m|m,i

Wenn nichtrekursive Beobachtungsfunktion (5.130) verwendet wird dann

•Verwende Alg. 5:

Eingabe: ˆ

z(s),[r]

m|m,i,ˆ

x(s)

m−ˆ

LH:m−LC,ˆ

Σ˘

x(s)

m−ˆ

LH:m−LC

, ˆµ˘

h0:ˆ

Ausgabe: ˆ

y(s),[r]

m,i,ˆ

Σy(s),[r]

m,i

,Hˆ

z(s),[r]

m|m,i

Sonst (d.h. wenn rekursive Beobachtungsfunktion (5.185) verwendet wird)

•Verwende Alg. 6:

Eingabe: ˆ

z(s),[r]

m|m,i,y(s)

m−LC,ˆ

n(s)

m−LC,ˆ

Σ˘

n(s)

m−LC

, ˆµ˘

h0:LC−1.

Ausgabe: ˆ

y(s),[r]

m,i,ˆ

Σy(s),[r]

m,i

,Hˆ

z(s),[r]

m|m,i

Ende wenn

ii. Aktualisiere die Linearisierungsstelle gemäß

z(s),[r+1]

m|m,i=ˆ

z(s)

m|m−1,i+K[r]

m,iy(s)

m−ˆ

y(s),[r]

m,i+Hˆ

z(s),[r]

m|m,iˆ

z(s),[r]

m|m,i−ˆ

z(s)

m|m−1,i

(5.208)

mit der KALMAN-Verstärkungsmatrix

K[r]

m,i:=ˆ

Σz(s)

m|m−1,iHˆ

z(s),[r]

m|m,iTˆ

Σy(s),[r]

m,i−1

.(5.209)

Ende für

c) Berechne den Mittelwertvektor ˆ

z(s)

m|m,iund die Kovarianzmatrix ˆ

Σz(s)

m|m,i

der

A-posteriori-Verteilungsdichtefunktion pz(s)

my(s)

1:m,

m=igemäß

z(s)

m|m,i=ˆ

z(s),[R+1]

m|m,i,(5.210)

Σz(s)

m|m,i

=I−K[R]

m,iHˆ

z(s),[R]

m|m,iˆ

Σz(s)

m|m−1,i

.(5.211)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Der Grundgedanke besteht dabei darin, dass eine Zufallsvariable, die durch eine lineare

Transformation aus einer normalverteilten Zufallsvariablen hervorgeht, selbst wieder nor-

malverteilt ist. Bei der Berechnung der beiden Ausdrücke ˆ

z(s)

m|m−1,iund ˆ

Σz(s)

m|m−1,i

in (5.201)

und (5.202) in Alg. 4 ist darauf zu achten, dass die beiden Terme

ˆ

x(s)

0T... ˆ

x(s)

−LC+m+1T(5.212)

blockdiagˆ

Σ˘

x(s)

,..., ˆ

Σ˘

x(s)

−LC+m+1(5.213)

für −LC+m+1>0 zu ignorieren sind.

Zur Aktualisierung, dem zweiten Teilschritt, wird zur Ausnutzung dieses Prinzips die

nichtlineare Beobachtungsfunktion anfangs an der Prädiktionsstelle linearisiert. Die Linea-

risierungstelle wird anschließend RMal mit dem Ziel der Maximierung der A-posteriori-

Verteilungsdichtefunktion pz(s)

my(s)

1:m,

m=iiterativ verbessert [BSLK01]. Dazu werden

die ersten beiden zentralen Momente der prädiktiven Verteilungsdichtefunktion der Beob-

achtung y(s)

mbedingt auf die Linearisierungsstelle bestimmt. Bei der Verwendung des nicht-

rekursiven Beobachtungsmodells geschieht dieses mit Hilfe von Alg. 5. Für das rekursive

Beobachtungsmodell wird Alg. 6 herangezogen. Dabei ist zu beachten, dass die Rekursions-

länge LRgleich der Anzahl LCder Merkmalsvektoren des sauberen Sprachsignals innerhalb

des Zustandsvektors z(s)

mgewählt wird.

Außerdem wird durch eine Betrachtung von Alg. 5 ersichtlich, dass beim nichtrekursiven

Beobachtungsmodell die prädiktive Verteilungsdichtefunktion der Beobachtung y(s)

munter

anderem mit Hilfe der geschätzten Merkmalsvektorfolge ˆ

x(s)

m−ˆ

LH:m−LCdes sauberen Sprach-

signals sowie der zugehörigen geschätzten Kovarianzmatrizen ˆ

Σ˘

x(s)

m−ˆ

LH:m−LC

berechnet wird.

Nimmt man beispielweise eine Nachhallzeit T60 von 0,45 s an und approximiert die Länge

Lheiner zugehörigen RIA gemäß (5.159) mit

h=10−3, so ergibt sich nach (5.112) für

LHein Wert von 24. Bei der Bestimmung der Kovarianzmatrix ˆ

Σy(s),[r]

m,i

in (5.215) wird ver-

einfacht angenommen, dass die einzelnen Schätzvektoren der Sequenz ˆ

x(s)

m−ˆ

LH:m−LCsowohl

untereinander als auch mit ˆ

z(s),[r]

m|m,iunkorreliert sind.

Hingegen werden bei der Verwendung des rekursiven Beobachtungsmodells in Alg. 6 statt

der Schätzvektorfolge ˆ

x(s)

m−ˆ

LH:m−LClediglich die vergangene Beobachtung y(s)

m−LC, der Schätz-

vektor ˆ

n(s)

m−LCdes zeitlich zurückliegenden Merkmalsvektors des Störsignals sowie die zuge-

hörige Kovarianzmatrix ˆ

Σ˘

n(s)

m−LC

benötigt. Dabei soll noch einmal betont werden, dass damit

im Vergleich zur Verwendung der nichtrekursiven Beobachtungsfunktion in Alg. 5 eine Re-

duktion des benötigten Rechen- und Speicheraufwands erzielt wird. Zur Berechnung der

Kovarianzmatrix ˆ

Σy(s),[r]

m,i

in (5.221) wird nur noch angenommen, dass die beiden Schätzvek-

toren ˆ

n(s)

m−LCund ˆ

z(s),[r]

m|m,iunkorreliert sind.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Algorithmus 5 Berechnung der ersten beiden zentralen Momente der Verteilungsdichtefunk-

tion py(s)

mˆ

z(s),[r]

m|m,i,ˆ

x(s)

m−ˆ

LH:m−LC,ˆ

Σ˘

x(s)

m−ˆ

LH:m−LC

,ˆµ˘

h0:ˆ

LHbasierend auf der nicht rekursiven Be-

obachtungsfunktion (5.130).

Eingabe: ˆ

z(s),[r]

m|m,i,ˆ

x(s)

m−ˆ

LH:m−LC,ˆ

Σ˘

x(s)

m−ˆ

LH:m−LC

, ˆµ˘

h0:ˆ

Ausgabe: ˆ

y(s),[r]

m,i,ˆ

Σy(s),[r]

m,i

,HfO,ˆ

z(s),[r]

m|m,i

•Berechne die prädizierte Beobachtung ˆ

y(s),[r]

m,iund die zugehörige Kovarianzmatrix

Σy(s),[r]

m,i

basierend auf der Linearisierungsstelle ˆ

z(s),[r]

m|m,igemäß

y(s),[r]

m,i=fOˆχ(s),[r]

m|m,i,ˆ

x(s)

m−LC:m−ˆ

LH,ˆµ˘

h0:ˆ

,ˆ

n(s),[r]

m|m,i+µˆ

v(s)(5.214)

Σy(s),[r]

m,i=HfO,ˆ

z(s),[r]

m|m,i

Σz(s)

m|m−1,iHfO,ˆ

z(s),[r]

m|m,iT

m−ˆ

∑

m′=LC

HfO,ˆ

x(s)

m−m′

Σ˘

x(s)

m−m′HfO,ˆ

x(s)

m−m′T

+Σˆ

v(s)(5.215)

wobei

HfO,ˆ

z(s),[r]

m|m,i

=hHfO,ˆχ(s),[r]

m|m,i

HfO,ˆ

n(s),[r]

m|m,ii(5.216)

mit

HfO,ˆχ(s),[r]

m|m,i

∂

fOχ(s)

m,ˆ

x(s)

m−LC:m−ˆ

LH,ˆµ˘

h0:ˆ

,ˆ

n(s),[r]

m|m,i

∂

χ(s)

χ(s)

m=ˆχ(s),[r]

m|m,i

,(5.217)

HfO,ˆ

n(s),[r]

m|m,i

∂

fOˆχ(s),[r]

m|m,i,ˆ

x(s)

m−LC:m−ˆ

LH,ˆµ˘

h0:ˆ

,n(s)

m

∂

n(s)

n(s)

m=ˆ

n(s),[r]

m|m,i

,(5.218)

HfO,ˆ

x(s)

m−m′

∂

fOˆχ(s),[r]

m|m,i,ˆ

x(s)

m−LC,...,x(s)

m−m′,...,ˆ

x(s)

m−ˆ

LH,ˆµ˘

h0:ˆ

,ˆ

n(s),[r]

m|m,i

∂

x(s)

m−m′

x(s)

m−m′=ˆ

x(s)

m−m′

(5.219)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Algorithmus 6 Berechnung der ersten beiden zentralen Momente der Verteilungsdichtefunk-

tion py(s)

mˆ

z(s),[r]

m|m,i,y(s)

m−LC,ˆ

n(s)

m−LC,ˆ

Σ˘

n(s)

m−LC

,ˆµ˘

h0:LC−1basierend auf der rekursiven Beobach-

tungsfunktion (5.185).

Eingabe: ˆ

z(s),[r]

m|m,i,y(s)

m−LC,ˆ

n(s)

m−LC,ˆ

Σ˘

n(s)

m−LC

, ˆµ˘

h0:LC−1.

Ausgabe: ˆ

y(s),[r]

m,i,ˆ

Σy(s),[r]

m,i

,Hf(R)

O,LC,ˆ

z(s),[r]

m|m,i

•Berechne die prädizierte Beobachtung ˆ

y(s),[r]

m,iund die zugehörige Kovarianzmatrix

Σy(s),[r]

m,i

basierend auf der aktuellen Linearisierungsstelle ˆ

z(s),[r]

m|m,igemäß

y(s),[r]

m,i=f(R)

O,LCˆχ(s),[r]

m|m,i,ˆµ˘

h0:LC−1,y(s)

m−LC,ˆ

n(s),[r]

m|m,i,ˆ

n(s)

m−LC+µˆ

v(s,R)

(5.220)

Σy(s),[r]

m,i=Hf(R)

O,LC,ˆχ(s),[r]

m|m,i

Σz(s)

m|m−1,iHf(R)

O,LC,ˆχ(s),[r]

m|m,iT

+Hf(R)

O,LC,ˆ

n(s)

m−LC

Σ˘

n(s)

m−LCHf(R)

O,LC,ˆ

n(s)

m−LCT

+Σˆ

v(s,R)

,(5.221)

wobei

Hf(R)

O,LC,ˆ

z(s),[r]

m|m,i

=hHf(R)

O,LC,ˆχ(s),[r]

m|m,i

Hf(R)

O,LC,ˆ

n(s),[r]

m|m,ii(5.222)

mit

Hf(R)

O,LC,ˆχ(s),[r]

m|m,i

∂

f(R)

O,LCχ(s)

m,ˆµ˘

h0:LC−1,y(s)

m−LC,ˆ

n(s),[r]

m|m,i,ˆ

n(s)

m−LC

∂

χ(s)

χ(s)

m=ˆχ(s),[r]

m|m,i

,(5.223)

Hf(R)

O,LC,ˆ

n(s),[r]

m|m,i

∂

f(R)

O,LCˆχ(s),[r]

m|m,i,ˆµ˘

h0:LC−1,y(s)

m−LC,n(s)

m,ˆ

n(s)

m−LC

∂

n(s)

n(s)

m=ˆ

n(s),[r]

m|m,i

,(5.224)

Hf(R)

O,LC,ˆ

n(s)

m−LC+1

∂

f(R)

O,LCˆχ(s),[r]

m|m,i,ˆµ˘

h0:LC−1,y(s)

m−LC,ˆ

n(s),[r]

m|m,i,n(s)

m−LC

∂

n(s)

m−LC

n(s)

m−LC=ˆ

n(s)

m−LC

(5.225)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

5.3.2. Modellkombinationsalgorithmen

Wird, wie im vorhergehenden Abschnitt, unter der Annahme einer GAUSS-förmigen A-pos-

teriori-Verteilungsdichtefunktion pz(s)

m−1y(s)

1:m−1zum Zeitpunkt m−1 die auf das i-te

Teilmodell bedingte A-posteriori-Verteilungsdichtefunktion pz(s)

my(s)

1:m,

m=izum Zeit-

punkt mdurch eine GAUSS-Verteilungsdichtefunktion approximiert, so folgt für die A-poste-

riori-Verteilungsdichtefunktion pz(s)

my(s)

1:mzwangsläufig, dass sie durch ein GMM gemäß

pz(s)

my(s)

1:m≈

∑

i=1

P

m=iy(s)

1:mNz(s)

m;ˆ

z(s)

m|m,i,ˆ

Σz(s)

m|m,i(5.226)

repräsentiert wird. Um die A-posteriori-Verteilungsdichtefunktion zum Zeitpunkt m+1 zu

bestimmen, ließe sich das zuvor beschriebene Prinzip auf jede Mischungskomponente ge-

trennt anwenden, so dass die Approximation

pz(s)

m+1y(s)

1:m+1≈

∑

i=1

∑

k=1

P

m=i,

m+1=ky(s)

1:m+1

·Nz(s)

m+1;ˆ

z(s)

m+1|m+1,i,k,ˆ

Σz(s)

m+1|m+1,i,k(5.227)

resultiert. Anhand dieses Beispiels lässt sich erkennen, dass die Anzahl der Mischungskom-

ponenten zur Darstellung der A-posteriori-Verteilungsdichtefunktion, und damit auch der

Rechenaufwand, exponentiell mit dem Segmentindex wächst. Um diesem Phänomen entge-

genzuwirken, werden hier drei mögliche Verfahren aus der Literatur vorgestellt. Darunter be-

finden sich die sogenannte generalisierte pseudo-BAYES’sche Schätzung (engl. Generalized

Pseudo BAYESIAN (GPB) estimation) erster und zweiter Ordnung sowie die Schätzung mit

interagierenden Modellen (engl. Interacting Multiple Model (IMM) estimation) [BSLK01].

Bei der GPB-Schätzung erster Ordnung (engl. Generalized Pseudo BAYESIAN estima-

tion of order 1(GPB1)), die ausführlich in Alg. 7 beschrieben ist, wird die A-posteriori-

Verteilungsdichtefunktion nach jedem Inferenzschritt durch eine GAUSS-Verteilungsdichte-

funktion approximiert. Der Mittelwertvektor ˆ

z(s)

m|mund die Kovarianzmatrix ˆ

Σz(s)

m|m

der A-

posteriori-Verteilungsdichtefunktion

pz(s)

my(s)

1:m≈Nz(s)

m;ˆ

z(s)

m|m,ˆ

Σz(s)

m|m(5.228)

werden dabei derart bestimmt, dass die KULLBACK-LEIBLER-Divergenz zwischen (5.228)

und dem GMM (5.226) minimiert wird. Daraus ergibt sich die Modellkombinationsvorschrift

gemäß (5.233) und (5.234).

Die IMM-Schätzung, aufgeführt in Alg. 8, basiert auf der Darstellung der auf das i-te

Teilmodell bedingten A-priori-Verteilungsdichtefunktion zum Zeitpunkt mgemäß

pz(s)

my(s)

1:m−1,

m=i=

∑

k=1

P

m−1=k

m=i,y(s)

1:m−1pz(s)

my(s)

1:m−1,

m=i,

m−1=k

(5.237)

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Algorithmus 7 Modellkombination gemäß GPB1

•Initialisierung:

Initialisiere die Schätzwerte für die Mittelwertvektoren und Kovarianzmatrizen der Merkmals-

vektoren der sauberen Sprachsignals und des Störsignals für m∈−ˆ

LH+1,...,0durch

x(s)

m= (xMIN,...,xMIN)T,ˆ

Σ˘

x(s)

MIN ·I,ˆ

n(s)

m=µn,ˆ

Σ˘

n(s)

MIN ·I(5.229)

sowie für m∈{−LC+1,...,0}die Merkmalsvektoren y(s)

mdurch y(s)

m=ˆ

x(s)

•Filterung:

Für m=1..M

•Modellabhängige Inferenzen:

1. Berechne die A-priori-Modell-WSKs Pm|m−1,i:=P

m=i|y(s)

1:m−1für i∈{1,...,I}:

Wenn m=1dann

Pm|m−1,i=

i,(5.230)

Sonst

Pm|m−1,i=

∑

k=1

ak,iPm−1|m−1,k.(5.231)

Ende wenn

2. Wende für i∈ {1,...,I}das IEKF gemäß Alg. 4 an:

Eingabe: ˆ

z(s)

m−1|m−1,ˆ

Σz(s)

m−1|m−1

,ˆ

x(s)

m−ˆ

LH:m−LC,ˆ

Σ˘

x(s)

m−ˆ

LH:m−LC

n(s)

m−LC,ˆ

Σ˘

n(s)

m−LC

,ˆ

x(s)

−LC+2:0,ˆ

Σ˘

x(s)

−LC+2:0

,y(s)

m−LC, ˆµ˘

h0:ˆ

,m,k.

Ausgabe: ˆ

z(s)

m|m,i,ˆ

Σz(s)

m|m,i

,ˆ

y(s),[1]

m,i,ˆ

Σy(s),[1]

m,i.

•Modellkombination:

1. Berechne für i∈ {1,...,I}die A-posteriori-Modell-WSKs Pm|m,i:=P

m=i|y(s)

1:m:

Pm|m,i∝Ny(s)

m;ˆ

y(s),[1]

m,i;ˆ

Σy(s),[1]

m,iPm|m−1,i.(5.232)

2. Berechne den Mittelwertvektor und die Kovarianzmatrix der A-posteriori-Vertei-

lungsdichtefunktion pz(s)

my(s)

1:mgemäß

z(s)

m|m=

∑

i=1

Pm|m,iˆ

z(s)

m|m,i,(5.233)

Σz(s)

m|m=

∑

i=1

Pm|m,iˆ

Σz(s)

m|m,i+ˆ

z(s)

m|m,i−ˆ

z(s)

m|mˆ

z(s)

m|m,i−ˆ

z(s)

m|mT.(5.234)

•Extraktion der Schätzungen:

1. Extrahiere den geschätzten Merkmalsvektor der Störung sowie zugehörige Schätz-

fehlerkovarianzmatrix aus dem Zustandsvektor und der Zustandskovarianzmatrix:

n(s)

m=Mn,EXTR ˆ

z(s)

m|m,ˆ

Σ˘

n(s)

m=Mn,EXTR ˆ

Σz(s)

m|m(Mn,EXTR)T(5.235)

mit Mn,EXTR :=0... 0 I∈RQ×(LC+1)Q.

2. Wenn m≥LCdann

•Extrahiere den verbesserten Merkmalsvektor samt der Schätzfehlerkovarianz-

matrix aus dem Zustandsvektor und der Zustandskovarianzmatrix:

x(s)

m−LC+1=Mx,EXTR ˆ

z(s)

m|m,ˆ

Σ˘

x(s)

m−LC+1

=Mx,EXTR ˆ

Σz(s)

m|m(Mx,EXTR)T(5.236)

mit Mx,EXTR :=0... 0 I 0∈RQ×(LC+1)Q.

Ende wenn

Ende für

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

und einer Approximation von pz(s)

my(s)

1:m−1,

m=i,

m−1=kdurch eine GAUSS-Vertei-

lungsdichtefunktion. Daher wird hierbei im Gegensatz zur GPB1-Schätzung zum Zeitpunkt

mfür jedes Teilmodell idas IEKF auf Grundlage eines teilmodellspezifischen initialen Mit-

telwertvektors ˆ

z(s,INIT)

m−1,iund einer Kovarianzmatrix ˆ

Σ(s,INIT)

m−1,iausgeführt.

Bei der GPB-Schätzung zweiter Ordnung (engl. Generalized Pseudo BAYESIAN estima-

tion of order 2(GPB2)), welche in Alg. 9 dargestellt ist, findet nach jedem Inferenzschritt

eine Approximation der A-posteriori-Verteilungsdichtefunktion durch ein GMM mit IMi-

schungskomponenten gemäß (5.226) statt. Die Anzahl der erforderlichen Aufrufe des IEKF

pro Inferenzschritt ist daher I2im Vergleich zu Ibei der GPB1- und IMM-Schätzung.

Die Initialisierung ist bei allen drei Verfahren identisch. Unter der Annahme, dass für

einen Dauer von ˆ

LH−1 Segmenten unmittelbar vor dem Zeitpunkt m=1 keine Sprache im

Signal auftritt und das Störsignal stationär ist, lässt sich diese gemäß (5.229) bewerkstelligen.

Vernünftige Werte für die Parameter xMIN und

MIN sind beispielsweise xMIN =−50 und

MIN =10−6.

Weiterhin muss bemerkt werden, dass im Sinne der Gewinnungen von Punktschätzun-

gen ˆ

z(s)

m|mund zugehörigen Schätzfehlerkovarianzmatrizen ˆ

Σz(s)

m|m

bei allen drei Verfahren die

A-posteriori-Verteilungsdichtefunktion gemäß (5.228) angenähert werden muss. Aus diesen

Schätzungen werden abschließend mit Hilfe von (5.235) und (5.236) die verbesserten Merk-

male ˆ

x(s)

m−LC+1und ˆ

n(s)

msowie die entsprechenden Schätzfehlerkovarianzmatrizen ˆ

Σ˘

n(s)

mund

Σ˘

x(s)

m−LC+1

extrahiert.

Da die Schätzung ˆ

x(s)

m−LC+1bedingt auf die Beobachtungen y(s)

1:mist, beinhaltet sie Informa-

tion über einen gewissen Zeitraum der Dauer von LC−1 Segmenten in der Zukunft. Obwohl

diese Art der impliziten Glättung eine Latenz der gleichen Dauer verursacht, sind die hier

beschriebenen Verfahren in der Regel für eine Online-Verarbeitung geeignet, da die Werte

von LCrelativ klein gewählt werden können.

Für weitere grundlegende Details zu den hier aufgeführten Modellkombinationsalgorith-

men sei auf eine ausführliche Beschreibung in [BSLK01] verwiesen.

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Algorithmus 8 Modellkombination gemäß IMM

•Initialisierung:

1. Initialisiere ˆ

x(s)

m,ˆ

Σ˘

x(s)

m,ˆ

n(s)

mund ˆ

Σ˘

n(s)

mfür m∈−ˆ

LH+1,...,0gemäß (5.229).

2. Initialisiere y(s)

mfür m∈{−LC+1,...,0}wie in Alg. 7.

3. Initialisiere für i∈ {1,...,I}den Zustandsvektor ˆ

z(s)

0|0,iund die Kovarianzmatrix ˆ

Σz(s)

0|0,i

z(s)

0|0,i=hˆ

x(s)

0T,...,ˆ

x(s)

−LC+1T,ˆ

n(s)

0TiT

,ˆ

Σz(s)

0|0,i=blockdiag

MINI,...,

MINI.

(5.238)

•Filterung:

Für m=1..M

•Modellabhängige Inferenzen:

1. Berechne für i∈ {1,...,I}die A-priori-Modell-WSKs Pm|m−1,igemäß (5.230) und

(5.231).

2. Berechne für alle Tupel (i,k)mit i,k∈{1,...,I}die Mischungswahrscheinlichkei-

ten P(MIX)

i,k,m:=P

m−1=k

m=i,y(s)

1:m−1gemäß

P(MIX)

i,k,m∝ak,iPm−1|m−1,i.(5.239)

3. Berechne für i∈ {1,...,I}die initialen Mittelwertvektoren und Kovarianzmatrizen

für das i-te IEKF gemäß

z(s,INIT)

m−1,i=

∑

k=1

P(MIX)

i,k,mˆ

z(s)

m−1|m−1,k,(5.240)

Σ(s,INIT)

m−1,i=

∑

k=1

P(MIX)

i,k,mˆ

Σz(s)

m−1|m−1,k+ˆ

z(s)

m−1|m−1,k−ˆ

z(s,INIT)

m−1,iˆ

z(s)

m−1|m−1,k−ˆ

z(s,INIT)

m−1,iT.

(5.241)

4. Wende für i∈ {1,...,I}das IEKF gemäß Alg. 4 an:

Eingabe: ˆ

z(s,INIT)

m−1,i,ˆ

Σ(s,INIT)

m−1,i,ˆ

x(s)

m−ˆ

LH:m−LC,ˆ

Σ˘

x(s)

m−ˆ

LH:m−LC

n(s)

m−LC,ˆ

Σ˘

n(s)

m−LC

,ˆ

x(s)

−LC+2:0,ˆ

Σ˘

x(s)

−LC+2:0

,y(s)

m−LC, ˆµ˘

h0:ˆ

,m,i.

Ausgabe: ˆ

z(s)

m|m,i,ˆ

Σz(s)

m|m,i

,ˆ

y(s),[1]

m,i,ˆ

Σy(s),[1]

m,i.

•Modellkombination:

1. Berechne für i∈ {1,...,I}die A-posteriori-Modell-WSKs Pm|m,igemäß (5.232).

2. Berechne den Mittelwertvektor und die Kovarianzmatrix der A-posteriori-Vertei-

lungsdichtefunktion pz(s)

my(s)

1:mgemäß

z(s)

m|m=

∑

i=1

Pm|m,iˆ

z(s)

m|m,i,(5.242)

Σz(s)

m|m=

∑

i=1

Pm|m,iˆ

Σz(s)

m|m,i+ˆ

z(s)

m|m,i−ˆ

z(s)

m|mˆ

z(s)

m|m,i−ˆ

z(s)

m|mT.(5.243)

•Extraktion der Schätzungen:

1. Extrahiere ˆ

n(s)

mund ˆ

Σ˘

n(s)

maus ˆ

z(s)

m|mund ˆ

Σz(s)

m|m

gemäß (5.235).

2. Wenn m≥LCdann

•Extrahiere ˆ

x(s)

m−LC+1und ˆ

Σ˘

x(s)

m−LC+1

aus ˆ

z(s)

m|mund ˆ

Σz(s)

m|m

gemäß (5.236).

Ende wenn

Ende für

Konzept der modellbasierten BAYES’schen Merkmalsverbesserung

Algorithmus 9 Modellkombination gemäß GPB2

•Initialisierung:

1. Initialisiere ˆ

x(s)

m,ˆ

Σ˘

x(s)

m,ˆ

n(s)

mund ˆ

Σ˘

n(s)

mfür m∈−ˆ

LH+1,...,0gemäß (5.229).

2. Initialisiere y(s)

mfür m∈{−LC+1,...,0}wie in Alg. 7.

3. Initialisiere ˆ

z(s)

0|0,iund ˆ

Σz(s)

0|0,i

für i∈ {1,...,I}gemäß (5.238).

4. Initialisiere für i∈ {1,...,I}die A-posteriori-Modell-WSKs durch P0|0,i=

•Filterung:

Für m=1..M

•Modellabhängige Inferenzen:

1. Wende für alle Tupel (i,k)mit i,k∈ {1,...,I}das IEKF gemäß Alg. 4 an:

Eingabe: ˆ

z(s)

m−1|m−1,i,ˆ

Σz(s)

m−1|m−1,i

,ˆ

x(s)

m−ˆ

LH:m−LC,ˆ

Σ˘

x(s)

m−ˆ

LH:m−LC

n(s)

m−LC,ˆ

Σ˘

n(s)

m−LC

,ˆ

x(s)

−LC+2:0,ˆ

Σ˘

x(s)

−LC+2:0

,y(s)

m−LC, ˆµ˘

h0:ˆ

,m,k.

Ausgabe: ˆ

z(s)

m|m,i,k,ˆ

Σz(s)

m|m,i,k

,ˆ

y(s),[1]

m,i,k,ˆ

Σy(s),[1]

m,i,k.

•Modellkombination:

1. Berechne für alle Tupel (i,k)mit i,k∈ {1,...,I}die Fusions-WSKs P(FUS)

m,k,i:=

P

m−1=k

m=i,y(s)

1:mgemäß

P(FUS)

m,k,i∝Ny(s)

m;ˆ

y(s),[1]

m,i,k,ˆ

Σy(s),[1]

m,i,kak,iPm−1|m−1,k(5.244)

2. Berechne für k∈ {1,...,I}den Mittelwertvektor und die Kovarianzmatrix der mo-

dellbedingten A-posteriori-Verteilungsdichtefunktion pz(s)

my(s)

1:m,

m=kgemäß

z(s)

m|m,k=

∑

i=1

P(FUS)

m,k,iˆ

z(s)

m|m,i,k,(5.245)

Σz(s)

m|m,k=

∑

i=1

P(FUS)

m,k,iˆ

Σz(s)

m|m,i,k+ˆ

z(s)

m|m,i,k−ˆ

z(s)

m|m,kˆ

z(s)

m|m,i,k−ˆ

z(s)

m|m,kT.(5.246)

3. Berechne für i∈ {1,...,I}die A-posteriori-Modellwahrscheinlichkeiten gemäß

Pm|m,i∝

∑

k=1

P(FUS)

m,k,i.(5.247)

4. Berechne den Mittelwertvektor und die Kovarianzmatrix der A-posteriori-Vertei-

lungsdichtefunktion pz(s)

my(s)

1:mgemäß

z(s)

m|m=

∑

i=1

Pm|m,iˆ

z(s)

m|m,i,(5.248)

Σz(s)

m|m=

∑

i=1

Pm|m,iˆ

Σz(s)

m|m,i+ˆ

z(s)

m|m,i−ˆ

z(s)

m|mˆ

z(s)

m|m,i−ˆ

z(s)

m|mT.(5.249)

•Extraktion der Schätzungen:

1. Extrahiere ˆ

n(s)

mund ˆ

Σ˘

n(s)

maus ˆ

z(s)

m|mund ˆ

Σz(s)

m|m

gemäß (5.235).

2. Wenn m≥LCdann

•Extrahiere ˆ

x(s)

m−LC+1und ˆ

Σ˘

x(s)

m−LC+1

aus ˆ

z(s)

m|mund ˆ

Σz(s)

m|m

gemäß (5.236).

Ende wenn

Ende für

6. Experimentelle Untersuchungen

In diesem Kapitel wird das zuvor vorgestellte Verfahren zur BAYES’schen Merkmalsver-

besserung ausführlich experimentell untersucht. Die dazu verwendeten Sprachdatenbanken

werden zunächst in Kap. 6.1 im Detail beschrieben. Anschließend werden in Kap. 6.2 Er-

kennungsergebnisse derzeit existierender Referenzverfahren auf diesen Datenbanken präsen-

tiert, um die Schwierigkeit der Spracherkennung unter Präsenz von Nachhall und Störungen

vor Augen zu führen. Danach werden in Kap. 6.4 Resultate von Voruntersuchungen zur

Merkmalsverbesserung dargelegt. In Kap. 6.5 folgen experimentelle Ergebnisse zur reinen

Merkmalsenthallung, wobei besonderes Augenmerk auf den Einfluss des A-priori-Modells

und des Beobachtungsmodells auf die Leistungsfähigkeit des Verfahrens gelegt wird. Ab-

schließend werden in Kap. 6.6 experimentelle Ergebnisse zur gemeinsamen Merkmalsent-

hallung und -entstörung dargeboten.

6.1. Sprachdatenbanken und Konfigurationen der

Spracherkenner

Die Datenbanken wurden derart ausgewählt bzw. selbst modifiziert, dass die Leistungsfä-

higkeit des zuvor vorgestellten Verfahrens zur Merkmalsverbesserung sowohl für Spracher-

kennungsaufgaben mit kleinem als auch großem Vokabular unter Einfluss von Nachhall

und Hintergrundstörungen untersucht werden konnte. Als Aufgabe mit einem kleinem Vo-

kabular wurde eine Erkennung von Ziffernketten betrachtet. Zu diesem Zweck wurde die

AURORA5-Datenbank verwendet, die in Kap. 6.1.1 beschrieben wird.

Soweit es dem Autor bekannt ist, existiert bislang keine Sprachdatenbank mit großem Vo-

kabular, bei der die Sprachäußerungen in halligen Umgebungen aufgenommen worden sind.

Aus diesem Grund wurde für die Erkennungsaufgabe mit großem Vokabular die AURORA4-

Datenbank, die nur durch Hintergrundstörungen beeinflusste Sprachäußerungen beinhaltet,

herangezogen und geeignet modifiziert, um zusätzlich den Effekt des Nachhalls einzubezie-

hen. Die AURORA4-Datenbank sowie die daran vorgenommenen Modifikationen sind in

Kap. 6.1.2 dokumentiert.

6.1.1. AURORA5-Datenbank

Die AURORA5-Datenbank [Hir07] wurde vorwiegend zur Untersuchung der Leistungsfä-

higkeit von Spracherkennungssystemen im Freihandsprachbetrieb in Gegenwart von Hin-

tergrundstörungen entwickelt. Sie besteht aus Sprachäußerungen erwachsener Personen von

Ziffernketten in amerikanischem Englisch und basiert auf der Texas Instruments (TI)-Digits-

Datenbank. Die für die TI-Digits-Datenbankmit mit einer Abtastrate von 20 kHz aufgenom-

Experimentelle Untersuchungen

menen Sprachsignale wurden dabei für die Erzeugung der AURORA5-Datenbank mit 8 kHz

unterabgetastet. Das Vokabular besteht aus insgesamt 11 Wörtern, da die Ziffer Null in den

beiden englischen Aussprachevarianten zero und oh vorkommt.

Das Hauptaugenmerk der Ersteller der AURORA5-Datenbank lag auf der Betrachtung von

realistischen Anwendungsszenarien, von denen zwei besondere ausgewählt wurden. Diese

umfassen erstens eine Freisprechsituation innerhalb eines Fahrzeugs unter Präsenz von Hin-

tergrundstörungen, bei der beispielsweise Geräte von einer Person innerhalb des Fahrzeugs

bedient oder Informationen von einem entfernten Sprachserver über das Telefon abgerufen

werden, und zweitens eine Freisprechsituation innerhalb eines Büros oder Wohnzimmers, bei

der beispielsweise ein Telefon oder Audio- und Videogeräte von einer Person bedient wer-

den. In dieser Arbeit wird nur auf denjenigen Teil der Datenbank Bezug genommen, der das

zweite Anwendungsszenario betrifft, da der Einfluss des Nachhalls, der hier im Vordergrund

steht, innerhalb von Räumen deutlich größer als innerhalb von Fahrzeugen ist.

Zur Erstellung der Datenbank wurden die Sprachsignale nicht tatsächlich mit Freisprech-

mikrophonen aufgenommen, sondern vielmehr künstlich durch eine Faltung von sauberen

Sprachsignalen mit zeitinvarianten RIAs berechnet. Die RIAs wurden mit Hilfe der Spie-

gelquellenmethode [All79] erzeugt, wobei zusätzlich später Nachhall zum Zweck eines na-

türlichen Nachhallklanges hinzugefügt wurde. Für die Spiegelquellenmethode wurden zwei

virtuelle Räume, bezeichnet als Büro und Wohnzimmer, angenommen, wobei für jeden der

beiden virtuellen Räume drei unterschiedliche Versionen von RIAs berechnet wurden. Die-

se unterschieden sich vorwiegend in der simulierten Nachhallzeit, die für das Büro jeweils

etwa 0,3 s, 0,35 s und 0,4 s und für das Wohnzimmer etwa 0,4 s, 0,45 s und 0,5 s betrug. Die

Werte des DRR liegen bei allen RIAs im Bereich zwischen −5 dB und −7 dB. Zur künst-

lichen raumspezifischen Verhallung jeder einzelnen Sprachäußerung wurde jeweils eine der

drei betreffenden RIAs zufällig ausgewählt. Eine detaillierte Darstellung aller verwendeten

RIAs samt ihren log-MEL-spektralen Repräsentationen findet sich in Kap. A.3 im Anhang.

Als Trainingsdaten werden in dieser Arbeit stets nur die in dem Trainingsdatensatz der

AURORA5-Datenbank enthaltenen 8623 Sprachäußerungen in Form von sauberen Signa-

len verwendet. Die Testdaten bestehen aus 8700 Sprachäußerungen mit insgesamt 28583

Wörtern. Neben den sauberen Sprachsignalen liegen verhallte Versionen derselben Signale

für die beiden simulierten Räume vor, die keine Hintergrundstörungen beinhalten. Weiterhin

enthalten die Testdaten gemeinsam gestörte und verhallte Versionen derselben Sprachsigna-

le, die durch additive Überlagerung der verhallten Sprachsignale mit Störsignalen mit einem

SNR zwischen 0 dB und 15 dB erzeugt wurden. Als Störsignale wurden zufällige Ausschnit-

te aus 5 Signalen der Länge von jeweils etwa 3 Minuten herangezogen, welche in einem

Einkaufszentrum, einem Restaurant, einer Ausstellungshalle, einem Büro und einer Hotel-

empfangshalle aufgenommen wurden.

Für den Spracherkenner wurde ein Unigramm als Sprachmodell und ein HMM-basiertes

akustisches Modell verwendet. Für jedes der 11 Wörter wurde ein geschlechtsunabhängi-

ges HMM mit Links-Rechts-Topologie bestehend aus insgesamt 16 Zuständen verwendet,

wobei das Überspringen von Zuständen nicht zugelassen war. Die Emissionsverteilungs-

dichtefunktionen für jeden dieser Zustände wurden durch ein GMM mit 4 Mischungskom-

ponenten beschrieben. Außerdem wurde ein HMM zur Modellierung von Sprachpausen

bestehend aus 3 Zuständen eingeführt, wobei ebenfalls ein GMM mit 4 Mischungskom-

ponenten zur Darstellung der Emissionsverteilungsdichtefunktionen genutzt wurde. Für die

GAUSS-Mischungsverteilungen wurden diagonale Kovarianzmatrizen zugrunde gelegt. Der

Experimentelle Untersuchungen

Spracherkenner wurde mit Hilfe von HTK [YEG+06] in einem überwachten Modus trai-

niert, wobei zwar die Transkription der Sprachäußerungen bekannt war, jedoch nicht die

zeitliche Anpassung der Transkription an die Äußerung. Die Merkmalsextraktion wurde wie

in Kap. 2.1 beschrieben mit Hilfe des ETSI-SFE durchgeführt, so dass als Merkmale die

MFCCs gemeinsam mit den DELTA- und DELTA-DELTA-Merkmalen (siehe (2.9)) dienten.

6.1.2. Modifizierte AURORA4-Datenbank

Die AURORA4-Datenbank [PP02] wurde unter anderem mit dem Ziel entwickelt, die Ro-

bustheit von Spracherkennungssystemen mit unterschiedlichen Verfahren zur Merkmalsex-

traktion gegenüber additiven Störungen sowie der Variation von Mikrophoncharakteristi-

ken zu untersuchen. Sie besteht aus Aufnahmen von kontinuierlich gesprochener engli-

scher Sprache mit einem Vokabular von 5000 Wörtern basierend auf dem sogenannten

Defense Advanced Research Projects Agency (DARPA)Wall Street Journal (WSJ)Cor-

pus [PB92], wobei die Grundlage für die Äußerungen gelesene Zeitungsartikel aus dem

WSJ bilden. Für die Experimente in dieser Arbeit wurden die unterabgetasteten Versio-

nen der Sprachsignale verwendet, wobei die Abtastrate 8 kHz betrug. Die Sprachsignale

sind gemäß dem G.712 Standard der Internationalen Fernmeldeunion (engl. International

Telecommunication Union (ITU)) [Int96] gefiltert.

Die Trainingsdaten beinhalten unter anderem Sprachäußerungen in Form von sauberen Si-

gnalen bestehend aus 7138 Sätzen von insgesamt 83 verschiedenen Sprechern und besitzen

eine Aufnahmedauer von etwa 14 Stunden. Für alle Experimente bezüglich der AURORA4-

Datenbank wurden ausschließlich diese Daten zum Training des Erkenners verwendet. Als

Testdatensatz wurde der sogenannte National Institute of Standards and Technology (NIST)

Nov’92 Evaluierungsdatensatz betrachtet. Dieser umfasst in seiner originalen Form insge-

samt 14 Testsätze, von denen 7 mit einem Sennheiser HMD414 Mikrophon und 7 mit 18

weiteren Mikrophonen aufgenommen worden sind. In dieser Arbeit wurden lediglich die mit

dem Sennheiser HMD414 Mikrophon gemachten Aufnahmen herangezogen. Die 7 Testsät-

ze stellen jeweils 7 unterschiedliche Versionen eines Datensatzes bestehend aus 166 Sätzen

und 2715 Wörtern dar. Eine dieser Versionen bilden die sauberen Sprachsignale, während

die weiteren 6 Versionen durch additive Überlagerung der sauberen Sprachsignale mit un-

terschiedlichen Arten von Störsignalen mit einem SNR zwischen 5 dB und 15 dB entstan-

den sind. Die Störsignale sind unter anderem innerhalb von Fahrzeugen oder auf der Stra-

ße aufgenommen worden und sind daher im Hinblick auf die Untersuchungen dieser Ar-

beit ungeeignet, da sie für Innenräume untypisch sind. Da zudem bei der Erstellung der

AURORA4-Datenbank keine Berücksichtigung von Freisprechszenarien stattfand, wurden

diese 6 Testsätze hier vollständig verworfen. Statt dessen wurde durch den Autor ein mo-

difizierter Testdatensatz unter Einbezug von Nachhall und typischen Störungen aus Innen-

räumen erstellt. Dazu wurden die sauberen Sprachsignale des Standardtestdatensatzes der

AURORA4-Datenbank mit denselben künstlich erzeugten Raumimpulsantworten wie bei

der AURORA5-Datenbank gefaltet, um verhallte Testsprachsignale für die zwei virtuelle

Räume, bezeichnet als Büro und Wohnzimmer, zu erhalten. Zusätzlich wurden die verhall-

ten Sprachsignale additiv mit Störungen mit einem SNRs von 0dB, 5dB, 10dB und 15 dB

überlagert, um gemeinsam verhallte und gestörte Sprachsignale zu erzeugen.

Für den Spracherkenner wurde ein Bigramm als Sprachmodell und ein HMM-basiertes

akustisches Modell verwendet. Im Gegensatz zur AURORA5-Datenbank wurden hierbei

Experimentelle Untersuchungen

HMMs für einzelne Triphone trainiert, wobei das gesamte akustische Modell etwa 3240

Zustände aufweist, deren Emissionsverteilungsdichtefunktionen durch GMMs mit jeweils

10 Mischungskomponenten, gekennzeichnet durch diagonale Kovarianzmatrizen, dargestellt

wurden. Das Training des Erkenners fand mit Hilfe von HTK in einem überwachten Modus

statt. Um dem Sprachmodell gegenüber dem akustischen Modell mehr Gewicht bei der De-

codierung zu verleihen, wurde die Konstante

(SM)zu 16 gesetzt. Die Merkmalsextraktion

erfolgte wie auch bei der AURORA5-Datenbank mit dem ETSI-SFE gemäß der Beschrei-

bung in Kap. 2.1.

6.2. Referenzergebnisse

Als Qualitätsmaß zur Bewertung der Leistungsfähigkeit eines Systems zur automatischen

Spracherkennung fungiert in dieser Arbeit ausschließlich die erzielte Wortfehlerrate

w, wel-

che durch

w:=NSubst +NAusl +NEinf

NGes

(6.1)

definiert ist. Dabei bezeichnen NSubst,NAusl,NEinf und NGes in dieser Reihenfolge jeweils

die Anzahl der fälschlicherweise ersetzten, ausgelöschten und eingefügten Wörter sowie die

Gesamtanzahl der Wörter innerhalb der Testdaten.

Die Referenzergebnisse, welche ohne Anwendung jeglicher Merkmalsverbesserung für

die AURORA5-Datenbank bzw. die modifizierte AURORA4-Datenbank erzielt wurden, sind

in Tab. 6.1 bzw. Tab. 6.2 aufgeführt. Für die modifizierte AURORA4-Datenbank ist wie in

Tabelle 6.1.: Wortfehlerraten

w[%] für die AURORA5-Datenbank erzielt mit dem ETSI-SFE.

Raum

Büro Wohnzimmer

SNR [dB]

∞6,32 14,94

15 19,93 35,58

10 44,75 57,38

571,73 79,01

088,10 89,72

der Literatur üblich die Wortfehlerrate zusätzlich in die Raten der Ersetzungs- der Auslö-

schungs- und Einfügefehler definiert durch

Subst :=NSubst

NGes

Ausl :=NAusl

NGes

Einf :=NEinf

NGes

(6.2)

aufgeschlüsselt. Die einzelnen Fehlerraten wurden aus den erkannten Wortsequenzen mit

Hilfe von HTK [YEG+06] berechnet. Für die sauberen Testsprachsignale liegt die Wort-

fehlerrate für die AURORA5-Datenbank bei 0,66 % und für die modifizierte AURORA4-

Datenbank bei 14,00 %. Die Referenzergebnisse zeigen unter anderem den starken negati-

ven Einfluss des Nachhalls auf die Wortfehlerrate, die sich beispielsweise für das Wohn-

zimmerszenario um etwa 2200% für die AURORA5-Datenbank und um etwa 500 % für die

Experimentelle Untersuchungen

Tabelle 6.2.: Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit dem ETSI-SFE.

Raum

Büro Wohnzimmer

Subst

Ausl

Einf

Subst

Ausl

Einf

SNR [dB]

∞34,84 5,52 7,00 47,37 56,06 10,87 6,52 73,44

15 49,13 9,80 8,58 67,51 58,64 16,80 7,55 82,98

10 57,90 20,77 7,11 85,78 55,58 32,15 4,05 91,79

547,88 44,27 2,39 94,55 38,93 56,98 1,25 97,16

027,55 70,72 0,66 98,93 18,97 80,00 0,15 99,12

modifizierte AURORA4-Datenbank relativ im Vergleich zu den sauberen Testsprachsigna-

len erhöht. Weiterhin wächst die Wortfehlerrate bei vorhandener Störung mit abnehmendem

SNR und erreicht bei einem SNR von 0 dB für beide Datenbanken Werte über 85 %, welche

für praktische Anwendungen nicht mehr akzeptabel sind. Diese Ergebnisse verdeutlichen

den Bedarf an Verfahren zur robusten Spracherkennung in Gegenwart von Nachhall und

Hintergrundstörungen.

6.3. Ergebnisse alternativer Verfahren

Zusätzlich zu den Ergebnissen des Standarderkennungssystems werden in diesem Abschnitt

die Resultate dreier alternativer Referenzverfahren präsentiert.

Das erste Verfahren ist dadurch gekennzeichnet, dass die Merkmalsextraktion mit dem

sogenannten ETSI-Advanced Front End (AFE) [ETSa] bewerkstelligt wird. Dieses wurde

speziell für den Zweck einer störungsrobusten Spracherkennung entwickelt und bietet eine

sehr hohe Leistungsfähigkeit, die bis heute kaum von einem anderen Verfahren überboten

wird. Es unterscheidet sich vom Standardverfahren des ETSI-SFE im Wesentlichen durch

ein zusätzliches zweistufiges WIENER-Filter zur Störsignalunterdrückung sowie eine Blind-

entzerrung (engl. blind equalization) zur Kompensation einer akustischen Fehlanpassung,

welche durch die Verwendung unterschiedlicher Aufnahmegeräte beim Training und beim

Test entsteht.

Das zweite Verfahren nutzt weiterhin das ETSI-SFE zur Merkmalsextraktion. Für das

Training des Spracherkenners wurden jedoch nicht wie gewöhnlich die sauberen Trainings-

sprachsignale verwendet. Statt dessen wurde der Erkenner separat für jedes Testszenario, d.h.

für das Büro und das Wohnzimmer, mit raumspezifischen verhallten Sprachsignalen trainiert.

Die RIAs zur Berechnung der verhallten Trainingsignale wurden mit Hilfe der Spiegelquel-

lenmethode [All79] künstlich erzeugt (siehe Kap. 6.4). Ein derartig grob auf das Testszenario

abgestimmtes Training ist für die Praxis durchaus geeignet.

Beim dritten Verfahren erfolgt eine Adaption der HMM-Parameter auf den Effekt des

Nachhalls und der Hintergrundstörungen gemäß der PMC-Methode [HF08]. Dabei wird zur

Anpassung der Emissionsverteilungsdichtefunktionen einzelner HMM-Zustände der Ein-

fluss vorhergehender HMM-Zustände über ein deterministisches Modell der EDC berück-

sichtigt. Insbesondere soll darauf hingewiesen werden, dass im Hinblick auf die Adaption

auf Hintergrundstörungen für jede Testsprachäußerung das Störsignal als instationär ange-

Experimentelle Untersuchungen

nommen wird. Deshalb wird zunächst dessen zeitvariante Charakteristik mit Hilfe einer VAD

aus dem verhallten und gestörten Sprachsignal gemäß [HE95] geschätzt. Anschließend er-

folgt eine entsprechende dynamische Adaption der HMM-Parameter.

Die Ergebnisse der drei Referenzverfahren für die AURORA5-Datenbank sind in Tab. 6.3

dargestellt. Dabei wurden die Resultate, welche sich auf die Adaption der HMM-Parameter

Tabelle 6.3.: Wortfehlerraten

w[%] für die AURORA5-Datenbank erzielt mit alternativen Verfahren.

Raum

Büro Wohnzimmer

SNR [dB]

∞6,11 14,53

15 10,92 21,31

10 17,26 29,17

530,09 43,06

051,41 62,65

(a) ETSI-AFE

Szenario

Büro Wohnzimmer

SNR [dB]

∞1,29 2,61

15 15,44 14,58

10 38,31 51,19

567,81 77,88

087,63 91,88

(b) Training des Erkenners mit verhallten

Sprachsignalen

Szenario

Büro Wohnzimmer

SNR [dB]

∞3,30 8,00

15 6,20 9,20

10 11,50 16,90

524,30 32,00

049,20 60,00

der PMC-Methode (Ergebnisse aus

[HF08])

beziehen, direkt aus Diagrammen in [HF08] abgelesen. Es muss jedoch bei deren Beurtei-

lung darauf geachtet werden, dass zu ihrer Erzeugung eine geringfügig abweichende Kon-

figuration des Merkmalsextraktors und des Spracherkenners verwendet worden ist, so dass

streng genommen keine direkte Vergleichbarkeit gewährleistet ist. So wurde einerseits zur

Berechnung der dynamischen Merkmale ∆y(c)

′das entsprechende Zeitfenster kleiner als in

den Experimenten in dieser Arbeit gewählt, wobei die Konstante I1zu 3 anstatt 4 gesetzt wur-

de (siehe Tab. 2.1). Andererseits wurden an Stelle von geschlechtsunabhängigen geschlechts-

spezifische HMMs verwendet, wobei die Emissionsverteilungsdichtefunktionen der HMM-

Zustände einzelner Wörter durch GAUSS-Mischungsverteilungsdichtefunktionen mit jeweils

2 Komponenten modelliert wurden. Zur Beschreibung der Emissionsverteilungsdichtefunk-

tionen der Zustände des Sprachpause-HMM wurden 8 GAUSS-förmige Mischungskompo-

nenten eingesetzt. Es ist jedoch davon auszugehen, dass die genannten Abweichungen der

Spracherkennerkonfiguration nur geringfügige Auswirkungen auf die Leistungsfähigkeit des

Spracherkenners ausüben, so dass zumindest ein grober Vergleich zulässig ist.

Weiterhin sind in Tab. 6.4 die Ergebnisse von zwei Referenzverfahren für die modifizier-

te AURORA4-Datenbank aufgeführt. Bedauerlicherweise existieren in [HF08] keine detail-

Experimentelle Untersuchungen

Tabelle 6.4.: Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit alternativen Ver-

fahren.

Raum

Büro Wohnzimmer

Subst

Ausl

Einf

Subst

Ausl

Einf

SNR [dB]

∞34,03 6,48 6,08 46,59 55,99 11,16 5,45 72,60

15 35,14 7,07 7,40 49,61 50,68 8,14 9,10 67,92

10 44,01 9,47 9,43 62,91 59,08 10,72 9,21 79,01

554,84 13,41 8,73 76,98 67,33 15,29 7,00 89,61

063,98 21,62 6,11 91,71 67,18 24,71 3,54 95.43

(a) ETSI-AFE

Raum

Büro Wohnzimmer

Subst

Ausl

Einf

Subst

Ausl

Einf

SNR [dB]

∞18,01 3,06 3,17 24,24 26,26 6,08 3,98 36,32

15 28,40 4,90 12,97 46,26 36,13 6,85 11,57 54,55

10 43,09 9,54 13,33 65,97 48,25 12,78 10,20 71,23

551,90 24,83 7,07 83,79 47,73 36,24 4,68 88,66

036,39 56,35 1,92 94,66 28,73 66,52 1,62 96,87

(b) Training des Erkenners mit verhallten Sprachsignalen

lierten Ergebnisse für diese Datenbank. Jedoch haben die Autoren von [HF08] ein ähnliches

Experiment durchgeführt, wobei eine triphonbasierte HMM-Adaption auf den Nachhall in

einem Büro mit einer Nachhallzeit T60 von etwa 0,4 s vorgenommen wurde. Die Wortfeh-

lerrate von 48,8 %, welche mit den auf sauberen Sprachsignalen trainierten HMMs auf den

verhallten Testsprachsignalen erzielt wurde, konnte unter Verwendung der HMM-Adaption

auf 39,8 % reduziert werden. Für die Erkennung von Sprachäußerungen in Form von sau-

beren Sprachsignalen wird eine Wortfehlerrate von 11,21 % angegeben. Obwohl in diesem

Experiment die Abtastfrequenz des Sprachsignals fA16 kHz beträgt sowie die Art der Merk-

malsextraktion und die Konfiguration des Erkenners geringfügig von der in dieser Arbeit

verwendeten abweicht (vgl. Kap. 6.1.2 mit [HF08]), lässt die Ähnlichkeit der Worterken-

nungsraten für den Fall ohne Adaption (vgl. 48,8 % mit 47,37 % aus Tab. 6.2) eine gewisse

Vergleichbarkeit zu.

Im Hinblick auf die Interpretation der Ergebnisse in Tab. 6.3a und Tab. 6.4a lässt sich

zunächst feststellen, dass das ETSI-AFE generell nicht dazu geeignet ist, die Wortfehlerra-

ten in störungsfreien halligen Umgebungen gegenüber dem ETSI-SFE zu verbessern. Dieses

kann darauf zurückgeführt werden, dass für die Berechnung der Übertragungsfunktion des

WIENER-Filters keine Berücksichtigung der Korrelation zwischen dem Direktanteil und den

durch den Nachhall bedingten Anteil der Sprache stattfindet. Bei Vorhandensein von zusätz-

licher unkorrelierter, additiver Störung lässt sich dann wiederum wie erwartet eine deutliche

100

Experimentelle Untersuchungen

Leistungsverbesserung gegenüber dem ETSI-SFE feststellen.

Die Ergebnisse für das Training des Erkenners mit künstlich verhallten Sprachsignalen

in Tab. 6.3b und Tab. 6.4b zeigen ein gegensätzliches Verhalten. Während für störungsfreie

hallige Umgebungen für beide Datenbanken ein deutliches Absinken der Wortfehlerrate ge-

genüber dem Standardtraining zu verzeichnen ist, nahm die Leistungsfähigkeit bei Vorhan-

densein von zusätzlicher additiver Störung mit sinkendem SNR ab. Diese Resultate sind nicht

überraschend, da bei der Erkennung additive Störungen vollkommen außer Betracht gelassen

wurden.

Die Adaption der HMM-Parameter führte in Abwesenheit von Hintergrundstörungen zu

einer beeindruckenden Reduktion der Wortfehlerrate, wobei auf der AURORA5-Datenbank

für beide Räume etwa 50 % der durch den Nachhall verursachten Fehler korrigiert werden

konnten. Im Vergleich dazu betrug der Anteil der korrigierten Fehler auf der modifizierten

AURORA4-Datenbank für das Büro nur noch etwa 24 %. Die Leistungsfähigkeit wie beim

Training des Erkenners mit künstlich verhallten Sprachsignalen konnte jedoch auf beiden

Datenbanken nicht erreicht werden, was zum Teil sicherlich darauf zurückzuführen ist, dass

der linksseitige Kontext bei der Adaption der HMMs nicht hinreichend genug berücksichtigt

wurde.

In Gegenwart von Hintergrundstörungen liefert die Modelladaption die besten Ergebnisse

im Vergleich mit den beiden anderen vorgestellten Verfahren. Ein wesentlicher Aspekt dabei

ist höchstwahrscheinlich die dynamische Adaption der Charakteristik der Hintergrundstö-

rung.

6.4. Voruntersuchungen zum Beobachtungsmodell

Die tatsächliche praktische Durchführung der Merkmalsverbesserung gemäß der Beschrei-

bung in Kap. 5.3 erfordert vorab die Festlegung oder Bestimmung gewisser Parameter. Dazu

gehören unter anderem Schätzungen der Koeffizienten der RIA im log-MEL-spektralen Be-

reich sowie die Mittelwerte und Kovarianzmatrizen des Beobachtungsfehlers.

Für die weiteren Untersuchungen wurde von einer optimalen mittleren geschätzten Nach-

hallzeit ˆ

T60 von 0,35 s für das Büro und 0,45 s für das Wohnzimmer ausgegangen, welche

unter Zuhilfenahme von (5.143) in geschätzten Abklingkonstanten ˆ

hvon etwa 7,05·10−2

bzw. 6,22 ·10−2resultierten. Weiterhin ist zu berücksichtigen, dass für jede der beiden un-

tersuchten Datenbanken die Trainings- und Testdaten derselben Energienormierung unterlie-

gen, so dass der Skalierungsparameter für die RIA ˆ

hgemäß (5.171) gewählt wurde. Eine

sinnvolle Festlegung der RIA-Länge ˆ

Lh, aus der sich anschließend die gesuchte Größe ˆ

gemäß (5.112) berechnen lässt, kann durch die Festlegung des Parameters

hgemäß (5.157)

geschehen. Sie ist jedoch nur bei der Verwendung des nichtrekursiven Beobachtungsmo-

dells notwendig, dessen Modellierungsfähigkeit im Allgemeinen durch eine Verringerung

des Wertes von

hverbessert wird. Dabei ist jedoch zu beachten, dass beim Unterschreiten

eines gewissen Wertebereiches aufgrund von Modellunzulänglichkeiten und Parameterfehl-

schätzungen keine genauere Modellierung mehr zu erwarten ist.

Beruhend auf diesen Überlegungen wurde ein sinnvoller Wert von

hexperimentell be-

stimmt. Dazu wurde mit Hilfe von Trainingsdaten der Beobachtungsfehler jeweils gemäß

(5.192) für unterschiedliche Werte von

hberechnet. Dieses wurde zunächst nur für den

störungsfreien Fall umgesetzt. Um eine praxisrelevante Situation zu simulieren, in der ge-

Experimentelle Untersuchungen

101

wöhnlich keine verhallten Sprachsignale für das Erkennungsszenario zur Verfügung stehen,

wurden die verhallten Signale durch Faltung von sauberen Sprachsignalen mit durch die

Spiegelquellenmethode [All79] künstlich berechneten RIAs generiert. Für die Spiegelquel-

lenmethode wurde für beide Szenarien, d.h. für das Büro und das Wohnzimmer, derselbe

quaderförmige Raum gemäß Abb. 6.1 eingesetzt. Die Ausmaße des Raumes wurden basie-

rend auf der Annahme, dass die Raumgröße in praktischen Anwendungen in der Regel vorab

unbekannt ist, vollkommen willkürlich gewählt. Der Beobachtungsfehler basierte für beide

00000000000

11111111111

0000000000

1111111111

0,5 m0,5 m

0,5 m 0,5 m

3 m

5 m

6 m

1,5 m

PosMik PosSpr

Abbildung 6.1.: Zur Anwendung der Spiegelquellenmethode verwendeter quaderförmiger, virtueller

Raum, in dem die Position des Sprechers und des Mikrophons gleichverteilt inner-

halb der durch die PosSpr und PosMik gekennzeichneten Flächen variiert wurde.

Datenbanken auf jeweils 575 Sprachäußerungen, wobei für jede einzelne Äußerung zufäl-

lig eine von 50 individuellen RIAs verwendet wurde, für deren Erzeugung die Position des

Sprechers und des Mikrophons zufällig innerhalb der in Abb. 6.1 durch PosSpr und PosMik

gekennzeichneten Flächen ausgewählt wurde. Zusätzlich wurde für die Berechnung jeder

einzelnen RIA die Nachhallzeit T60 gleichförmig zufällig aus dem Intervall [0,3s,0,4s]für

das Büro und aus dem Intervall [0,4s,0,5s]für das Wohnzimmer selektiert.

In einem ersten Experiment wurde für unterschiedliche Werte von

heine Schätzung ˆ

Σˆ

v(s)

für die Kovarianzmatrix Σˆ

v(s)empirisch mit der Maximum-Likelihood-Methode aus der Fol-

ge der Beobachtungsfehler bestimmt und anschließend ihr Spektralradius

Σˆ

v(s):=max|

|

ist Eigenwert von ˆ

Σˆ

v(s)(6.3)

berechnet. Der Spektralradius

Σˆ

v(s)diente dabei als Maß für die im Beobachtungsmodell

enthaltene Unsicherheit. Die resultierenden Werte in Abhängigkeit des negativen Exponen-

ten von

hzur Basis 10, definiert durch

h:=−log10 (

h),(6.4)

102

Experimentelle Untersuchungen

sind für die AURORA5- und die modifizierte AURORA4-Datenbank in Abb. 6.2 dargestellt.

Es lässt sich erkennen, dass zunächst für beide Datenbanken der Spektralradius

Σˆ

v(s)mit

01234

Σˆ

v(s)

AURORA5

AURORA4

(a) Büro

01234

Σˆ

v(s)

AURORA5

AURORA4

(b) Wohnzimmer

Abbildung 6.2.: Spektralradius

Σˆ

v(s)der empirisch berechneten Kovarianzmatrix des Beobachtungs-

fehlers ˆ

Σˆ

v(s)in Abhängigkeit von

wachsenden Werten von

habnimmt, wobei ab etwa einem Wert von

h=3 keine oder nur

noch eine relativ marginale Verringerung des Spektralradius auftritt. Als Kompromiss wurde

deshalb als Grundlage für alle weiteren Experimente im Zusammenhang mit der nichtre-

kursiven Beobachtungsfunktion

h=10−3angenommen, was zu approximativen Längen

der Repräsentation der RIA im log-MEL-spektralen Bereich von ˆ

LH=19 für das Büro und

LH=24 für das Wohnzimmer führte.

Die entsprechenden Approximationen der log-MEL-spektralen Repräsentationen der RIAs

beider Räume werden in Abb. 6.3 veranschaulicht. Einen qualitativen Eindruck der Güte der

Index des MEL-Bandes q

Segmentindex m+1

−2

−4

−6

−8

−10

−12

(a) Büro ( ˆ

T60 =0,35s)

Index des MEL-Bandes q

Segmentindex m+1

20 25

−2

−4

−6

−8

−10

−12

(b) Wohnzimmer ( ˆ

T60 =0,45s)

Abbildung 6.3.: Approximative log-MEL-spekrale Repräsentationen der RIAs

hm,qder beiden virtu-

ellen Räume der AURORA5-Datenbank.

Experimentelle Untersuchungen

103

Approximation erhält man durch einen Vergleich mit den entsprechenden wahren raumspe-

zifischen log-MEL-spektralen Repräsentationen in Abb. A.2 im Anhang.

Weiterhin sind in Abb. 6.4 die Kovarianzmatrizen des Beobachtungsfehlers ˆ

Σˆ

v(s)beispiel-

haft für die AURORA5-Datenbank für

h=1,3,5 dargestellt, wobei q1den Zeilen- und q2

den Spaltenindex kennzeichnet. Es lässt sich beobachten, dass mit zunehmenden Werten von

0,5

1,5

(a) Büro,

h=1

0,5

1,5

(b) Büro,

h=3

0,5

1,5

h=5

0,5

1,5

(d) Wohnzimmer,

h=1

0,5

1,5

(e) Wohnzimmer,

h=3

0,5

1,5

(f) Wohnzimmer,

h=5

Abbildung 6.4.: Empirisch berechnete Kovarianzmatrizen des Beobachtungsfehlers ˆ

Σˆ

v(s)ermittelt

auf der AURORA5-Datenbank für die beiden untersuchten virtuellen Räume für ver-

schiedene Werte von

hnicht nur die Beträge der Werte der Diagonalelemente abnehmen, sondern insbesondere

die der Nebendiagonalelemente. Dieses lässt sich darauf zurückführen, dass bedingt durch

die Art der Berechnung der log-MEL-spektralen Merkmalsvektoren hauptsächlich Korre-

lationen zwischen benachbarten Vektorkomponenten auftreten, die durch die Überlappung

benachbarter MEL-Bänder verursacht werden. Motiviert durch die approximativ diagonale

Gestalt der Kovarianzmatrizen ˆ

Σˆ

v(s)für größere Werte von

hwurden für die weiteren Expe-

rimente stets diagonale Kovarianzmatrizen verwendet. Durch hier nicht weiter beschriebene

Experimente wurde zudem festgestellt, dass die Verwendung von voll besetzten Kovarianz-

matrizen im Vergleich zu diagonalen Kovarianzmatrizen zu einer insgesamt schlechteren

Leistungsfähigkeit der Merkmalsverbesserung führte, auf die durch eine höhere Wortfehler-

rate bei der anschließenden Erkennung geschlossen wurde.

Abbildung 6.5 zeigt die Histogramme für ausgewählte Komponenten ˆv(s)

m,qdes Beobach-

tungsfehlervektors ˆ

v(s)

m, welche auf der modifizierten AURORA4-Datenbank für das Wohn-

zimmer ermittelt wurden, samt den entsprechenden Approximationen durch GAUSS-Vertei-

lungsdichtefunktionen. Es lässt sich erkennen, dass trotz einer geringen Linksschiefe der

Histogramme die vorgenommenen Näherungen durchaus sinnvoll sind. Da sich sowohl für

das Büro als auch für die AURORA5-Datenbank ähnliche Verläufe ergaben, sind die Resul-

104

Experimentelle Untersuchungen

-1

-2

-3

0,2

0,4

0,6

0,8

123

p˘

ˆv(s)

m,q(u)

q=0, Messung

q=6, Messung

q=13, Messung

q=22, Messung

q=0, Approximation

q=6, Approximation

q=13, Approximation

q=22, Approximation

Abbildung 6.5.: Empirisch berechnete normierte Histogramme ausgewählter Komponenten ˆv(s)

m,q

des Beobachtungsfehlervektors für das Wohnzimmerszenario der modifizierten

AURORA4-Datenbank sowie zugehörige Approximationen durch GAUSS-Vertei-

lungsdichtefunktionen.

tate hier nicht explizit aufgeführt.

In einem weiteren Experiment wurde der Beobachtungsfehler ˆ

v(s,R)

m,LRunter Verwendung des

rekursiven Beobachtungsmodells und derselben Trainingsdaten wie im Experiment zuvor für

die beiden untersuchten Räume und beide Datenbanken berechnet. Dabei ist zu beachten,

dass für das rekursive Beobachtungsmodell keine Schätzung der Länge ˆ

LHder Repräsenta-

tion der RIA im log-MEL-spektralen Bereich erforderlich ist. Statt dessen muss eine Rekur-

sionslänge LRvorgegeben werden, welche den Beobachtungsfehler beeinflusst. In Abb. 6.6

sind exemplarisch die normierten Histogramme des Beobachtungsfehlers ˆv(s,R)

LR,m,q, welche für

das Wohnzimmer auf der AURORA4-Datenbank bestimmt wurden und als Schätzungen der

entsprechenden Verteilungsdichtefunktionen angesehen werden können, für unterschiedli-

che Rekursionslängen LRund zwei ausgewählte MEL-Bänder (q=0 und q=22) illustriert.

Wie in Abb. 6.6a am Beispiel für q=0 ersichtlich wird, zeichnen sich die normierten His-

togramme des Beobachtungsfehlers für niedrige MEL-Bänder qund sehr kleine Werte von

LRdurch eine geringe Steilgipfligkeit und Linksschiefe aus. Das Ausmaß der Steilgipfligkeit

wird jedoch mit der Erhöhung der Rekursionslänge LRreduziert. Für höhere MEL-Bänder,

d.h. für q>10, treten beide Phänomene nur in einer sehr geringfügigen Ausprägung auf.

Zudem besteht dann nur noch ein sehr kleiner Unterschied zwischen den Histogrammen für

unterschiedliche Werte von LR, wie am Beispiel für q=22 in Abb. 6.6b deutlich wird.

Da die empirisch berechneten Kovarianzmatrizen des Beobachtungsfehlers ˆ

v(s,R)

LR,mbei der

Verwendung der rekursiven Beobachtungsfunktion eine ähnliche Form wie jene im Fall der

nichtrekursiven Beobachtungsfunktion aufwiesen, wurden diese ebenfalls für alle weiteren

Experimente durch Diagonalmatrizen approximiert.

Experimentelle Untersuchungen

105

-2

0,2

0,4

0,6

0,8

LR=1

LR=2

LR=3

LR=4

LR=5

LR=6

ˆp˘

ˆv(s,R)

LR,m,0

(u)

(a) q=0

-2

0,2

0,4

0,6

0,8

LR=1

LR=2

LR=3

LR=4

LR=5

LR=6

ˆp˘

v(s,R)

LR,m,22

(u)

(b) q=22

Abbildung 6.6.: Empirisch berechnete normierte Histogramme des Beobachtungsfehlers ˆv(s,R)

LR,m,qfür

unterschiedliche Rekursionslängen LRund zwei ausgewählte MEL-Bänder (q =

0und q =22), ermittelt für das Wohnzimmer auf der modifizierten AURORA4-

Datenbank.

6.5. Ergebnisse zur Merkmalsenthallung

In diesem Abschnitt werden Ergebnisse des vorgestellten Verfahrens zur Merkmalsverbesse-

rung für den Fall präsentiert, in dem keine Hintergrundstörungen im Mikrophonsignal prä-

sent sind. Es wird daher zunächst nur die Leistungsfähigkeit des Verfahrens im Bezug auf

die Enthallung von akustischen Merkmalen experimentell untersucht.

Dazu wurde in einem ersten Experiment die Leistungsfähigkeit verschiedener Modell-

kombinationsalgorithmen analysiert. Gleichzeitig wurden dabei die Anzahl Ider A-priori-

Teilmodelle sowie die Anzahl LC−1 der vorhergehenden sauberen Merkmalsvektoren in-

nerhalb des Zustandsvektors variiert. Das A-priori-Modell wurde dabei mit Hilfe der in

Kap. 5.1.4 beschriebenen iterativen Modellspaltung trainiert. Die Anzahl LEM der EM-Itera-

tionen nach jeder Modellspaltung wurde so gewählt, dass die mittlere relative Verbesserung

der Likelihoodfunktion einen Wert von 10 zum ersten Mal unterschritt, d.h.

(LEM)

L<10 und

(l)

L≥10 ∀l<LEM.

Die resultierenden Wortfehlerraten für die AURORA5-Datenbank sind in Tab. 6.5 ange-

geben. Bei der Betrachtung der Ergebnisse fällt auf, dass durchgehend für alle Modellkom-

binationsalgorithmen bis auf GPB1 für I=16 und kleine Werte von LCeine Verringerung

der Wortfehlerrate erzielt worden ist. Insbesondere ist zu beobachten, dass sich die Resultate

mit steigenden Werten von LCzunächst deutlich verbessern, wobei die Verbesserung mono-

ton abnimmt und bei etwa LC=6 eine Sättigung auftritt. Der Grund für diese Verbesserung

liegt wie bereits weiter oben erwähnt darin, dass durch eine Vergrößerung von LCeine stär-

kere Berücksichtigung der Zukunft stattfindet, die ihre Wirkung im Zusammenhang mit dem

dispersiven Effekt des Nachhalls entfaltet. Das Auftreten einer Sättigung der Wortfehlerrate

bestärkt diese Interpretation, da die zeitliche Ausdehnung der Verschmierung beschränkt ist.

Im Hinblick auf das A-priori-Modell ist bemerkenswert, dass bereits mit einem einzigen

Teilmodell, d.h. I=1, die Wortfehlerrate um bis zu etwa 70 % bei beiden Räumen reduziert

106

Experimentelle Untersuchungen

Tabelle 6.5.: Wortfehlerraten

w[%] erzielt mit Hilfe der Merkmalsverbesserung auf der AURORA5-

Datenbank.

Büro Wohnzimmer

I I

1 2 4 8 16 1 2 4 8 16

GPB1 LC

14,47 4,75 4,35 5,01 18,70 11,28 12,62 11,35 12,70 25,54

2 2,97 2,73 2,64 2,73 10,81 6,69 6,59 6,15 6,31 14,29

3 2,53 2,41 2,30 2,27 7,41 5,62 5,34 4,80 4,86 9,76

4 2,38 2,19 2,09 2,07 5,12 5,00 4,68 4,16 4,05 7,44

5 2,17 2,07 1,93 1,97 3,96 4,58 4,26 3,72 3,67 6,23

6 2,09 1,99 1,87 1,91 3,24 4,24 4,04 3,52 3,43 5,86

IMM LC

14,47 4,07 3,81 4,05 5,20 11,28 10,87 9,30 9,16 10,12

2 2,97 2,57 2,69 2,71 3,31 6,69 6,16 6,07 5,94 6,36

3 2,53 2,23 2,35 2,37 2,60 5,62 4,97 4,96 4,80 4,97

4 2,38 2,12 2,17 2,20 2,28 5,00 4,32 4,28 4,04 4,08

5 2,17 1,98 1,99 2,01 2,09 4,58 3,91 3,82 3,61 3,57

6 2,09 1,93 1,97 1,93 1,93 4,24 3,77 3,61 3,40 3,32

GPB2 LC

14,47 3,80 3,76 – – 11,28 10,10 9,09 – –

2 2,97 2,55 2,58 – – 6,69 6,19 6,23 – –

3 2,53 2,26 2,34 – – 5,62 5,06 4,98 – –

4 2,38 2,12 2,17 – – 5,00 4,36 4,30 – –

5 2,17 1,97 2,04 – – 4,58 3,95 3,83 – –

6 2,09 1,92 1,96 – – 4,24 3,85 3,64 – –

werden kann. Dieses entspricht einer relativen Reduktion derjenigen Fehler, die durch den

Nachhall verursacht worden sind, um etwa 75 %. In diesem Fall ist im Grunde keine Mo-

dellkombination erforderlich, so dass für die Merkmalsverbesserung ein gewöhnliches IEKF

eingesetzt werden kann.

Die Vergrößerung der Anzahl der Teilmodelle Iwirkt sich nicht immer positiv auf die

Reduktion der Wortfehlerrate aus. Insbesondere ist die Tendenz zu beobachten, dass die Ver-

größerung der Anzahl der Teilmodelle erst bei einem genügend groß gewählten Wert von

LCsinnvoll ist. Außerdem lässt sich feststellen, dass sie bei den im Vergleich zur GPB1-

Schätzung komplizierteren und genaueren Modellkombinationsverfahren wie der IMM- und

GPB2-Schätzung eher zu einer Reduktion der Wortfehlerrate führt. Aufgrund der Subop-

timalität aller drei verwendeten Modellkombinationsalgorithmen kann eine Reduktion der

Wortfehlerrate durch die Vergrößerung von Ijedoch in keinem einzigen Fall gewährleistet

werden. Einen weiteren Grund dafür, dass die Erhöhung der Teilmodellanzahl nicht immer

mit einer Verringerung der Wortfehlerrate einhergeht, bildet die Tatsache, dass das zum Trai-

ning des SLDM angewendete Kriterium der Maximierung der Loglikelihoodfunktion damit

nicht unbedingt im Einklang steht. Es zeigt sich weiterhin, dass das GPB2-Verfahren trotz

des deutlich höheren Aufwandes, der etwa quadratisch mit der Anzahl der Teilmodelle I

wächst, keinen sichtbaren Vorteil gegenüber den GPB1- und IMM-Verfahren bietet.

Im Sinne einer vorsichtigen Beurteilung der Wortfehlerraten ist zu bemerken, dass in

dieser Arbeit keine Signifikanztests bezüglich des Unterschieds von Wortfehlerraten unter-

Experimentelle Untersuchungen

107

schiedlicher Verfahren durchgeführt wurden. Aus den Ergebnissen soll hier lediglich auf

grobe Tenzenden geschlossen werden ohne dabei marginale, jedoch eventuell signifikante,

Unterschiede zu interpretieren. In Kap. A.4 im Anhang wird aber dennoch zusätzlich dar-

auf eingegangen, wie eine sehr grobe Beurteilung der Signifikanz der Unterschiede zweier

Wortfehlerraten nur mit Hilfe der Erkennungsergebnisse berechnet werden kann und welche

Aspekte eigentlich für eine genauere Betrachtung berücksichtigt werden müssen.

Um einen qualitativen Eindruck von der Leistungsfähigkeit der Merkmalsenthallung zu

vermitteln, sind in Abb. 6.7 die Trajektorien der LMSK-Vektoren jeweils für ein beispiel-

haftes sauberes Sprachsignal und dessen verhallte Version (im Wohnzimmer) sowie die ent-

sprechenden Trajektorien der verbesserten LMSK-Vektoren jeweils für LC=2 und LC=6

abgebildet. Es lässt sich deutlich erkennen, dass die mit Hilfe der Merkmalsverbesserung die

Auswirkungen der durch den Nachhall bedingten zeitlichen Dispersion merkbar reduziert

werden können. Beispielsweise ist der Glottalschlag bei der Aussprache der Ziffer “six”

bei etwa 1,2s, der in der Trajektorie der log-MEL-spektralen Merkmale y(s)

m,qdes verhallten

Sprachsignals in Abb. 6.7b vollkommen verdeckt ist, in den Trajektorien der verbesserten

log-MEL-spektralen Merkmale ˆx(s)

m,qin Abb. 6.7c und Abb. 6.7d teilweise wieder erkenn-

bar. Insbesondere wird durch Abb. 6.7c und Abb. 6.7d veranschaulicht, dass der Verlauf der

Trajektorien verbesserten log-MEL-spektralen Merkmale ˆx(s)

m,qin der Regel mit wachsenden

Werten von LCzunehmend glatter wird, wobei die Auswirkungen der zeitlichen Dispersion

weiter abnehmen.

Zur Beurteilung des Rechenaufwandes des Verfahrens ist zu bemerken, dass die unter-

schiedlichen Inferenzalgorithmen (siehe Kap. 5.3) in C/C++ implementiert wurden und auf

einem Rechner mit einem Intel Core i7/2,67 GHz-Prozessor ausgeführt wurden. Die Echt-

zeitfaktoren für unterschiedliche Parameterwahlen für das Wohnzimmer sind in Tab. 6.6 auf-

geführt. Sie zeigen, dass das Verfahren auch aus Sicht des Rechenaufwandes echtzeitfähig

ist, wobei wie bereits erwähnt eine Latenz der Dauer von LC−1 Segmenten zu berücksichti-

gen ist. Insbesondere soll darauf hingewiesen werden, dass die Rechendauer für LC>1 mit

Hilfe einer parallelen Berechnung der teilmodellspezifischen Inferenzen deutlich reduziert

werden kann.

Für die Erkennungsaufgabe mit einem großen Vokabular zeigte sich ein ähnliches Ver-

halten bezüglich der Wahl des Modellkombinationsalgorithmus sowie der Anzahl der Teil-

modelle Iund des Wertes von LC. Die Wortfehlerraten für die modifizierte AURORA4-

Datenbank für I=1 in Tab. 6.7 veranschaulichen die Bedeutung der Erhöhung von LCfür

die Leistungsfähigkeit des Verfahrens zur Merkmalsverbesserung. Die Wortfehlerrate konnte

bei beiden Räumen bis um etwa 40 % reduziert werden. Dieses entspricht einer relativen Re-

duktion der durch den Nachhall verursachten Fehler um etwa 55 % beim Büro und um etwa

50 % beim Wohnzimmer. Die relativen Verbesserungen fielen erwartungsgemäß geringer aus

als für die Ziffernkettenerkennung, da nach der Merkmalsverbesserung verbliebene Fehler

aufgrund der hohen Komplexität der Erkennungsaufgabe schwerwiegendere Auswirkungen

hatten.

Die Wortfehlerraten für I>1 und unterschiedliche Modellkombinationsalgorithmen und

Werte von LClassen sich für das Büro aus Tab. 6.8 und für das Wohnzimmer aus Tab. 6.9

entnehmen. Hervorzuheben ist die Tatsache, dass alle drei Modellkombinationsalgorith-

men auch in diesem Fall ähnliche Ergebnisse lieferten, obwohl der Aufwand für das GPB2-

Verfahren deutlich größer war (siehe Tab. 6.6). Durch eine Vergrößerung der Anzahl der

108

Experimentelle Untersuchungen

Index des MEL-Bandes q

Zeit m·B·TA[s]

0,51,01,52,02,5

(a) Trajektorie der log-MEL-spektralen Merkmale x(s)

m,qdes sauberen Sprachsignals

Index des MEL-Bandes q

Zeit m·B·TA[s]

0,51,01,52,02,5

(b) Trajektorie der log-MEL-spektralen Merkmale y(s)

m,qdes verhallten Sprachsignals

Index des MEL-Bandes q

Zeit m·B·TA[s]

0,51,01,52,02,5

m,qfür LC=2

3,7

Index des MEL-Bandes q

Zeit m·B·TA[s]

0,51,01,52,02,5

(d) Trajektorie der verbesserten log-MEL-spektralen Merkmale ˆx(s)

m,qfür LC=6

Abbildung 6.7.: Trajektorien der log-MEL-spektralen Merkmale eines beispielhaften Sprachsignals

der AURORA5-Datenbank zugehörig zu der Ziffernkettenäußerung “one, one, six,

eight, five, two, two”.

Experimentelle Untersuchungen

109

Tabelle 6.6.: Echtzeitfaktoren für die Merkmalsverbesserung für das Wohnzimmer (ˆ

LH=25).

1 2 4 8 16

GPB1 LC

10,03 0,06 0,12 0,23 0,46

2 0,04 0,08 0,17 0,32 0,63

3 0,06 0,11 0,22 0,44 0,88

4 0,08 0,15 0,30 0,59 1,17

5 0,10 0,19 0,38 0,76 1,51

6 0,12 0,24 0,48 0,95 1,92

IMM LC

10,03 0,06 0,12 0,24 0,49

2 0,04 0,08 0,17 0,34 0,72

3 0,06 0,12 0,24 0,49 1,07

4 0,08 0,16 0,32 0,67 1,50

5 0,10 0,20 0,42 0,88 2,02

6 0,12 0,26 0,54 1,15 2,66

GPB2 LC

10,03 0,12 0,47 – –

2 0,04 0,16 0,66 – –

3 0,06 0,23 0,91 – –

4 0,08 0,31 1,21 – –

5 0,10 0,39 1,57 – –

6 0,13 0,50 1,94 – –

Tabelle 6.7.: Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifizierten

AURORA4-Datenbank für I =1.

Raum

Büro Wohnzimmer

Subst

Ausl

Einf

Subst

Ausl

Einf

133,85 3,57 7,22 44,64 54,44 7,00 8,62 70,06

226,74 2,76 7,85 37,35 42,50 3,76 9,72 55,99

323,83 2,65 7,00 33,48 38,45 3,68 9,76 51,90

422,14 2,69 6,56 31,38 36,61 3,35 8,58 48,55

521,44 2,87 5,97 30,28 33,81 3,79 8,62 46,22

620,77 2,58 5,56 28,91 32,38 4,16 8,21 44,75

110

Experimentelle Untersuchungen

Tabelle 6.8.: Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifizierten

AURORA4-Datenbank für das Büro.

2 4

Subst

Ausl

Einf

Subst

Ausl

Einf

GPB1 LC

135,80 3,87 8,21 47,88 33,55 3,46 8,43 45,45

2 25,86 2,54 7,44 35,84 25,01 2,50 7,55 35,06

3 22,80 2,58 7,07 32,45 22,50 2,58 7,15 32,23

4 21,40 2,84 6,22 30,46 20,99 2,32 6,37 29,69

5 20,96 2,80 5,82 29,58 20,66 2,28 5,78 28,73

6 19,85 2,91 5,45 28,21 20,11 2,62 5,41 28,14

IMM LC

133,48 4,20 7,92 45,60 30,31 3,28 8,03 41,62

2 26,08 2,69 7,81 36,57 25,38 2,28 7,73 35,40

3 23,39 2,28 6,74 32,41 23,02 2,43 7,18 32,63

4 21,80 2,69 6,26 30,76 21,44 2,65 6,52 30,61

5 21,07 2,80 5,52 29,39 20,96 2,36 5,41 28,73

6 20,52 2,69 5,23 28,43 20,07 2,54 5,16 27,77

GPB2 LC

132,41 3,68 7,88 43,98 31,90 2,95 7,51 42,36

2 26,52 2,62 7,66 36,80 25,49 2,39 7,44 35,32

3 23,31 2,47 6,96 32,74 22,91 2,28 7,11 32,30

4 21,84 2,69 6,48 31,01 21,73 2,32 6,11 30,17

5 20,92 2,69 5,56 29,17 21,33 2,36 5,64 29,32

6 20,26 2,58 5,34 28,18 20,44 2,69 5,08 28,21

(a) I=2,4

8 16

Subst

Ausl

Einf

Subst

Ausl

Einf

GPB1 LC

131,93 3,24 8,77 43,94 31,16 2,58 8,29 42,03

2 25,49 2,32 7,62 35,43 25,27 2,25 7,85 35,36

3 22,50 2,25 6,63 31,38 22,73 2,25 6,56 31,53

4 20,81 2,47 6,11 29,39 21,18 2,32 5,93 29,43

5 20,85 2,32 5,64 28,80 20,41 2,06 5,30 27,77

6 20,77 2,10 5,41 28,29 20,41 2,06 5,12 27,59

IMM LC

129,32 3,31 8,58 41,22 28,77 2,62 8,84 40,22

2 25,75 2,32 8,29 36,35 25,78 2,17 8,10 36,06

3 23,13 2,50 7,29 32,93 23,50 2,54 7,85 33,89

4 21,58 2,54 7,22 31,34 22,65 2,50 6,78 31,93

5 20,74 2,32 5,82 28,88 21,47 2,03 5,97 29,47

6 20,66 2,54 5,82 29,02 21,44 2,06 5,71 29,21

(b) I=8,16

Experimentelle Untersuchungen

111

Tabelle 6.9.: Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifizierten

AURORA4-Datenbank für das Wohnzimmer.

2 4

Subst

Ausl

Einf

Subst

Ausl

Einf

GPB1 LC

155,51 8,36 8,40 72,27 54,40 6,78 9,32 70,50

2 41,69 4,24 9,65 55,58 41,80 3,65 10,57 56,02

3 37,50 3,72 9,76 50,98 36,80 3,54 8,99 49,32

4 34,99 3,24 8,47 46,70 33,30 3,39 8,21 44,90

5 32,60 3,98 8,55 45,12 31,31 3,39 8,18 42,87

6 30,90 4,01 7,92 42,84 29,06 3,65 7,51 40,22

IMM LC

155,99 6,30 9,02 71,31 49,94 4,79 9,98 64,71

2 41,29 3,65 10,09 55,03 39,26 3,50 10,31 53,08

3 37,35 3,20 9,24 49,80 36,39 3,28 9,43 49,10

4 33,26 3,13 8,51 44,90 32,71 3,35 9,47 45,52

5 31,71 3,68 8,58 43,98 30,94 3,20 8,47 42,62

6 30,39 3,90 7,73 42,03 29,10 3,61 7,73 40,44

GPB2 LC

154,03 5,56 10,28 69,87 50,50 5,30 10,98 66,78

2 42,62 3,54 9,80 55,95 40,15 3,68 11,09 54,92

3 37,72 3,13 9,24 50,09 36,43 3,43 9,36 49,21

4 32,89 3,24 8,43 44,57 32,60 3,35 8,95 44,90

5 31,86 3,54 8,36 43,76 31,45 3,09 8,91 43,46

6 31,12 3,61 8,14 42,87 29,36 3,65 7,85 40,85

(a) I=2,4

8 16

Subst

Ausl

Einf

Subst

Ausl

Einf

GPB1 LC

153,08 5,19 10,57 68,84 50,94 5,23 10,28 66,45

2 39,67 3,87 9,94 53,48 39,85 3,39 10,20 53,44

3 35,21 3,35 8,58 47,15 35,14 3,54 9,10 47,77

4 31,90 3,46 8,14 43,50 31,49 3,50 8,14 43,13

5 30,17 3,24 7,51 40,92 29,76 3,43 7,37 40,55

6 28,66 3,39 7,26 39,30 28,84 3,54 6,96 39,34

IMM LC

149,69 4,71 10,17 64,57 47,77 4,24 11,27 63,28

2 39,37 3,68 10,13 53,19 38,78 3,35 10,64 52,78

3 35,95 3,20 9,02 48,18 34,81 2,98 9,69 47,48

4 32,89 3,09 9,10 45,08 32,71 3,17 9,24 45,12

5 30,64 3,13 8,43 42,21 30,64 3,24 8,73 42,62

6 29,76 3,20 8,25 41,22 28,99 3,17 8,03 40,18

(b) I=8,16

112

Experimentelle Untersuchungen

Teilmodelle Ikonnte die Wortfehlerrate in den meisten Fällen geringfügig reduziert wer-

den. Die erzielte Verbesserung bei der Nutzung vieler Teilmodelle steht dabei in einem sehr

ungünstigen Verhältnis zum aufgebrachten Rechenaufwand.

Im Sinne eines vernünftigen Kompromisses zwischen Rechenaufwand und Leistungsfä-

higkeit wurden für die weiteren Experimente I=4 Teilmodelle verwendet, wobei als Mo-

dellkombinationsalgorithmus die IMM-Methode diente. Da die Erhöhung von LCin hohem

Maße zur Reduktion der Wortfehlerrate beitrug und der Rechenaufwand im Verhältnis zur

Verbesserung der Leistungsfähigkeit der Merkmalsverbesserung vertretbar anstieg, wurde

für die folgenden Untersuchungen LC=6 gewählt.

6.5.1. Einfluss des A-priori-Sprachmodells

In diesem Abschnitt wird der Einfluss des A-priori-Sprachmodells auf die Leistungsfähigkeit

der Merkmalsverbesserung untersucht. Das Ziel liegt hierbei nicht in der Bestimmung eines

optimalen Sprachmodells für die betrachteten Sprachdatenbanken, sondern vielmehr darin,

den Einfluss der in Kap. 5.1.4 diskutierten Initialisierung und einzelner EM-Iterationen des

Trainings des Sprachmodells sowie den Einfluss der Ordnung des Sprachmodells zu veran-

schaulichen.

Einfluss der Initialisierung

Zunächst wurden für beide Sprachdatenbanken für das Wohnzimmer jeweils 70 unterschied-

liche initiale Parametermengen

{0,j}des A-priori-Sprachmodells mit I=4 Teilmodellen

mit der in Kap. 5.1.4 vorgeschlagenen K-MEANS++-artigen Methode bestimmt, wobei j∈

{1,...,70}den Index der Initialisierung bezeichnet. Die Länge der aus den Trainingsdaten

zufällig ausgewählten Segmente zur Bestimmung lokaler Teilmodelle wurde zu LS=10 ge-

wählt um einen vernünftigen Kompromiss zwischen Lokalität und Informationsgehalt der

Teilmodelle zu gewährleisten. Die Konstante

P,REL zur Steuerung des Verwerfens unter-

repräsentierter Teilmodelle wurde zu 0,01 gesetzt (siehe Alg. 2). Anschließend wurde je-

des dieser derart initialisierten Sprachmodelle unter Anwendung von jeweils 20 Iterationen

des EM-Algorithmus trainiert. Dabei wurden die nach der l-ten Iteration berechneten Para-

metermengen

{l,j}jeweils zwischengespeichert, so dass eine Menge von insgesamt 1400

A-priori-Sprachmodellen resultierte. Außerdem wurde, wie bereits im letzten Abschnitt be-

schrieben, ein initiales A-priori-Sprachmodell

{0,71}mit I=4 Teilmodellen mit Hilfe der

Modellspaltung erzeugt und ebenfalls mit 20 Iterationen des EM-Algorithmus verfeinert. Mit

jedem der beschriebenen A-priori-Sprachmodelle wurde eine Merkmalsverbesserung mit an-

schließender Spracherkennung durchgeführt.

In Abb. 6.8 sind für ausgewählte Indizes jder initialen Modellparameter die Verläufe

der Wortfehlerrate

w

{l,j}sowie mit 10−7skalierte Werte der Loglikelihoodfunktion

lnhL

{l,j}iin Abhängigkeit von der Anzahl der EM-Iterationen lfür die AURORA5-

und die modifizierte AURORA4-Datenbank dargestellt. Bei allen mit der K-MEANS++-ar-

tigen Methode initialisierten Parametermengen ließ sich feststellen, dass die Wortfehlerrate

innerhalb der ersten 3 EM-Iterationen beträchtlich abnahm. Dieses ist darauf zurückzufüh-

ren, dass die Initialisierung lediglich mit Hilfe weniger zufällig ausgewählter Merkmals-

vektorsequenzen erfolgte, so dass die entsprechenden A-priori-Modelle lediglich eine sehr

Experimentelle Untersuchungen

113

w

{l,j}

Anzahl der EM-Iterationen l

Modellspaltung, j=71

3,2

3,3

3,4

3,5

3,6

3,7

3,8

3,9

10 15 20

K-MEANS++-artig, j=5

K-MEANS++-artig, j=39

K-MEANS++-artig, j=50

K-MEANS++-artig, j=67

K-MEANS++-artig, j=70

Anzahl der EM-Iterationen l

-2,2

-2,4

-2,6

510 15 20

lnhL

{l,j}i·10−7

(a) AURORA5-Datenbank

w

{l,j}

Anzahl der EM-Iterationen l

Modellspaltung, j=71

5 10 15 20

45 K-MEANS++-artig, j=12

K-MEANS++-artig, j=35

K-MEANS++-artig, j=43

K-MEANS++-artig, j=68

K-MEANS++-artig, j=69

Anzahl der EM-Iterationen l

-9

-10

-8,5

-9,5

510 15 20

lnhL

{l,j}i·10−7

(b) Modifizierte AURORA4-Datenbank

Abbildung 6.8.: Wortfehlerraten

w

{l,j}sowie mit 10−7skalierte Werte der Loglikelihoodfunktion

lnhL

{l,j}iin Abhängigkeit von der Anzahl l der für das Training des A-priori-

Sprachmodells verwendeten EM-Iterationen für beispielhaft ausgewählte initiale Pa-

rametermengen

{0,j}für das Wohnzimmer.

lokale anstatt einer globalen Charakterisierung der Sprache boten. Innerhalb der ersten EM-

Iterationen erfolgte eine Anpassung der lokalen Modelle an die globalen Daten, was sich

durch einen enormen Anstieg der Werte der Loglikelihoodfunktion bemerkbar machte. Dar-

aus lässt sich ableiten, dass eine gute Modellierung der Sprachdaten durch das A-priori-

Sprachmodell in gewisser Weise zu einer niedrigen Wortfehlerrate beiträgt.

Dass beide Kriterien jedoch nicht äquivalent sind, zeigt folgende Beobachtung, die in

den meisten Experimenten gemacht wurde und mit Hilfe der Verläufe der Wortfehlerrate in

Abb. 6.8a und Abb. 6.8b veranschaulicht werden soll. Nachdem die Wortfehlerrate nach ei-

nigen EM-Iterationen ihr Minimum erreichte, stieg sie danach in geringem Maße wieder an.

Aus Sicht der Merkmalsverbesserung wird eine Beschreibung der Sprachdaten mit Hilfe von

Teilmodellen Simit geringen Unsicherheiten, welche sich in kleinen Spektralradien der Ko-

varianzmatrizen Viausdrücken, favorisiert. Eine mögliche Ursache für den erneuten Anstieg

der Wortfehlerrate könnte darin bestehen, dass diese Nebenbedingung bei der Durchführung

114

Experimentelle Untersuchungen

des EM-Algorithmus zur Maximierung der Likelihoodfunktion nicht beachtet wurde. Ein

weiterer Grund liegt sicherlich in der Suboptimalität der Modellkombination, deren negati-

ver Einfluss auf die Wortfehlerrate auch vom A-priori-Sprachmodell abhängt.

Ein ziemlich unerwünschter Effekt war dabei die Tatsache, dass die Anzahl der EM-Ite-

rationen, nach denen das Minimum der Wortfehlerrate erreicht wurdw, stets unterschiedlich

war. Diese Beobachtung weist auf das grundsätzliche Problem hin, dass sich während des

Trainings des A-priori-Modells nicht vorhersagen lässt, welche Anzahl von EM-Iterationen

eine minimale Wortfehlerrate im Nachhinein erzielen wird. Eine sinnvolle Lösung dieses

Problems sollte bereits beim Optimierungskriterium für das Training ansetzen. Bedauerli-

cherweise ist die Formulierung eines geeigneten Kriteriums recht kompliziert und das Pro-

blem immer noch offener Forschungsgegenstand.

Nichtsdestotrotz zeigen die Histogramme der minimalen Wortfehlerrate

w,MIN :=min

1≤l≤20

w

{l,j}(6.5)

in Abb. 6.9, dass die Leistungsfähigkeit der Merkmalsverbesserung im Hinblick auf die

Spracherkennung nur durch eine andere Art der Initialisierung des A-priori-Sprachmodells

verbessert werden konnte, wenn auch nur geringfügig. Es ist außerdem davon auszugehen,

dass die Initialisierung bei Sprachmodellen mit einer größeren Anzahl von Teilmodellen

einen wesentlich größeren Einfluss besitzen wird.

w,MIN

Absolute Häufigkeit

3,2 3,3 3,4 3,5 3,6

(a) AURORA5-Datenbank

w,MIN

Absolute Häufigkeit

K-MEANS++-artig

Modellspaltung

39 39,5 40 40,5 41

(b) Modifizierte AURORA4-Datenbank

Abbildung 6.9.: Histogramme der minimalen Wortfehlerrate

w,MIN für das Wohnzimmer.

Insgesamt lässt sich schlussfolgern, dass die vorgeschlagene Art der Initialisierung bei

Weitem noch keine optimale Lösung bietet, sondern lediglich Potentiale aufzeigt.

Einfluss der Modellordnung

Dieser Abschnitt widmet sich der Fragestellung, ob und inwieweit die Erhöhung der Ord-

nung LAR des A-priori-Sprachmodells zu einer weiteren Reduktion der Wortfehlerrate bei-

tragen kann. Durch die Erhöhung der Ordnung lassen sich Korrelationen zwischen zeitlich

weiter auseinander liegenden Merkmalsvektoren der Sprache berücksichtigen, so dass der

Prädiktionsfehler durch das A-priori-Sprachmodell prinzipiell verringert werden kann.

Experimentelle Untersuchungen

115

In einem ersten Experiment wurden A-priori-Sprachmodelle unterschiedlicher Ordnung

LAR bestehend aus jeweils nur einem Teilmodell, d.h. I=1, für beide untersuchten Sprach-

datenbanken berechnet und anschließend für die Merkmalsenthallung verwendet. Die sich

ergebenden Wortfehlerraten bei der darauf folgenden Spracherkennung in Tab. 6.10 ver-

deutlichen, dass in den meisten Fällen eine deutliche Verbesserung der Leistungsfähigkeit

hauptsächlich durch die Erhöhung der Ordnung von 1 auf 2 erzielt werden konnte. Eine

Tabelle 6.10.: Fehlerraten [%] für verschiedene Ordnungen LAR des A-priori-Sprachmodells beste-

hend aus einem Teilmodell, d.h. I =1.

Raum

Büro Wohnzimmer

LAR

12,09 4,24

21,82 3,84

31,73 3,75

41,74 3,72

(a) AURORA5-Datenbank

Raum

Büro Wohnzimmer

Subst

Ausl

Einf

Subst

Ausl

Einf

LAR

120,77 2,58 5,56 28,91 32,38 4,16 8,21 44,75

221,80 2,62 6,30 30,72 31,38 3,83 8,36 43,57

321,47 2,58 6,22 30,28 31,23 3,72 8,47 43,43

421,14 2,54 6,22 29,91 31,12 3,76 8,62 43,50

(b) Modifizierte AURORA4-Datenbank

weitere Erhöhung der Ordnung hatte nur marginale Effekte, da sich die Güte der Prädikti-

on dadurch nur in geringem Maße verbessert. Denn die Korrelation zwischen zeitlich be-

nachbarten Merkmalsvektoren der Sprache nimmt erheblich mit der Erhöhung des zeitlichen

Abstandes ab.

In einem weiteren Experiment wurden SLDMs der Ordnung 2 und 3 bestehend aus I=

4 Modellen trainiert, wobei für das EM-Training dieselben initialen Parametermengen Si

wie für das Training von SLDMs der Ordnung 1 zugrunde gelegt wurden. Jedes A-priori-

Sprachmodell wurde nach jeder einzelnen EM-Iteration zwischengespeichert und zur Merk-

malsenthallung eingesetzt. Bei einem Vergleich der bei der anschließenden Spracherken-

nung resultierenden Wortfehlerraten mit denen, die mit SLDMs erster Ordnung erzielt wor-

den sind, ließ sich kein Gewinn in der Leistungsfähigkeit durch die Erhöhung der Ordnung

LAR feststellen. Die Wortfehlerraten lagen im Gegenteil sogar geringfügig höher, obwohl die

Werte der Loglikelihoodfunktion deutlich größer als im Falle von SLDMs der Ordnung 1

waren. Dieses Resultat deutet erneut auf die Suboptimalität des Kriteriums zum Training des

SLDM im Hinblick für die Verwendung zur Merkmalsverbesserung als auch auf die Subopti-

116

Experimentelle Untersuchungen

malität der Modellkombinationsalgorithmen, deren Einsatz zur vernünftigen Beschränkung

des Rechenaufwandes beim Vorhandensein mehrerer Teilmodelle notwendig ist, hin. Auf ei-

ne detaillierte Darstellung der experimentellen Ergebnisse für LAR >1 und I>1 wird hier

verzichtet, da aus Sicht des Autors keine sinnvollen Erkenntnisse daraus gezogen werden

können.

6.5.2. Einfluss des Beobachtungsmodells

In diesem Abschnitt soll der Einfluss des Beobachtungsmodells auf die Leistungsfähigkeit

der Merkmalsenthallung untersucht werden. Dabei stehen zwei Aspekte im Vordergrund.

Erstens soll experimentell bestätigt werden, dass mit der rekursiven Beobachtungsfunktion,

die ursprünglich zur Reduktion des Rechen- und Speicheraufwands eingeführt wurde, ähn-

liche Resultate wie mit der nichtrekursiven Beobachtungsfunktion erzielt werden können.

Zweitens soll die Robustheit des Verfahrens zur Merkmalsenthallung gegenüber Fehlschät-

zungen der Parameter des RIA-Modells analysiert werden.

Ergebnisse mit der rekursiven Beobachtungsfunktion

Die Merkmalsenthallung wurde nun unter Verwendung des rekursiven Beobachtungsmodells

und der IMM-Schätzung für verschiedene Rekursionslängen LRund Anzahl von Teilmodel-

len Idurchgeführt. Dabei wurde die Anzahl LCvon aufeinander folgenden Merkmalsvekto-

ren der sauberen Sprache innerhalb des Zustandsvektors stets gleich LRgewählt.

Die resultierenden Wortfehlerraten sind für die AURORA5-Datenbank in Tab. 6.11 und

für die modifizierte AURORA4-Datenbank in Tab. 6.12 aufgeführt. Es zeigt sich bei bei-

Tabelle 6.11.: Wortfehlerraten

w[%] erzielt mit dem rekursiven Beobachtungsmodell und der IMM-

Schätzung auf der AURORA5-Datenbank.

Raum

Büro Wohnzimmer

12,83 8,12

22,44 6,21

32,53 5,79

42,48 5,52

52,48 5,30

62,36 4,97

72,35 4,76

82,32 4,55

(a) I=1

Raum

Büro Wohnzimmer

12,87 7,83

22,17 5,24

32,30 4,87

42,30 4,72

52,19 4,36

62,17 4,13

72,13 3,91

82,17 3,76

(b) I=4

den Datenbanken, dass die Wortfehlerrate deutlich mit der Erhöhung der Rekursionslänge

bis zum Eintreten einer Sättigung bei etwa LR=8 abnahm, was sich als Ergebnis der Ver-

wendung von immer mehr Wissen aus der Zukunft zur Merkmalsenthallung erklären lässt.

Insbesondere ist dieses Verhalten nicht auf einen geringer werdenden Beobachtungsfehler

Experimentelle Untersuchungen

117

Tabelle 6.12.: Fehlerraten [%] erzielt mit dem rekursiven Beobachtungsmodell und der IMM-

Schätzung auf der AURORA4-Datenbank.

Raum

Büro Wohnzimmer

Subst

Ausl

Einf

Subst

Ausl

Einf

126,48 4,38 6,08 36,94 53,37 9,91 6,08 69,36

222,06 3,02 5,67 30,76 41,40 6,41 6,63 54,44

321,47 2,95 6,15 30,57 36,72 4,38 6,78 47,88

421,73 2,62 6,37 30,72 35,17 3,76 7,44 46,37

521,25 2,39 5,97 29,61 32,82 3,90 7,51 44,24

621,07 2,87 5,67 29,61 32,89 4,01 7,81 44,71

720,70 2,87 5,30 28,88 31,27 4,24 7,37 42,87

820,11 2,91 5,08 28,10 31,05 4,20 6,89 42,14

(a) I=1

Raum

Büro Wohnzimmer

Subst

Ausl

Einf

Subst

Ausl

Einf

125,64 3,79 5,82 35,25 54,84 7,88 7,51 70,24

221,58 2,58 5,86 30,02 41,07 5,16 7,40 53,63

320,99 2,50 6,26 29,76 34,36 3,98 7,62 45,97

420,74 2,39 6,30 29,43 31,79 3,79 7,73 43,31

519,93 2,50 5,75 28,18 31,49 3,54 7,59 42,62

619,08 2,54 5,01 26,63 30,13 3,65 7,81 41,58

719,08 2,73 5,41 27,22 29,80 3,43 7,66 40,88

818,31 2,73 5,19 26,22 28,66 4,16 7,37 40,18

(b) I=4

118

Experimentelle Untersuchungen

für wachsende Werte von LRzurückzuführen, da sich die statistischen Eigenschaften des

Beobachtungsfehlers für LR>3 nur noch unwesentlich ändern (siehe Abb. 6.6).

Bei einem Vergleich der Resultate mit denen für das nichtrekursive Beobachtungsmodell

in Tab. 6.5, Tab. 6.7, Tab. 6.8 und Tab. 6.9 lässt sich feststellen, dass für sehr kleine Werte

von LC=LRdas rekursive Beobachtungsmodell zu geringfügig besseren Ergebnisse führte.

Für LR>3 lieferten jedoch beide Beobachtungsmodelle ähnliche Resultate.

Die Echtzeitfaktoren, die bei der Merkmalsenthallung mit dem rekursiven Beobachtungs-

modell gemessen wurden, sind in Tab. 6.13 aufgelistet. Es zeigt sich, dass diese im Vergleich

Tabelle 6.13.: Echtzeitfaktoren für die Merkmalsenthallung unter Verwendung des rekursiven Beob-

achtungsmodells.

12345678

I10,02 0,03 0,05 0,07 0,09 0,12 0,15 0,19

40,08 0,13 0,20 0,29 0,40 0,50 0,69 0,84

zur Merkmalsenthallung mit dem nichtrekursiven Beobachtungsmodell etwa um 0,01 für

I=1 und 0,04 für I=4 absolut geringer sind. Der Gewinn bezüglich des Rechenaufwands

ist also wie erwartet linear in der Anzahl Ider Teilmodelle. Jedoch ist er im Vergleich zum

Gesamtaufwand für größere Werte von LRrelativ gering.

Durch experimentelle Untersuchungen, deren Ergebnisse hier nicht explizit aufgeführt

sind, konnte weiterhin festgestellt werden, dass sich die Erhöhung der Ordnung LAR des

SLDM ähnlich wie im Falle der nichtrekursiven Beobachtungsfunktion auswirkte. Insbeson-

dere konnte bei der Verwendung eines einzigen linearen dynamischen Modells zur Model-

lierung der Sprache, d. h. I=1, durch die Erhöhung der Ordnung von 1 auf 2 eine relativ

große Reduktion der Wortfehlerrate erzielt werden. Bei der Verwendung mehrerer Teilmo-

delle, d. h. I>1, führte die Erhöhung der Ordnung LAR des SLDM hingegen sogar zu einer

leichten Erhöhung der Wortfehlerrate. Der Grund dafür liegt hier, wie auch beim nicht re-

kursiven Modell, in der Suboptimalität des verwendeten Kriteriums zum Training des SLDM

und in der Suboptimalität der Modellkombinationsalgorithmen.

Sensitivität gegenüber Fehlschätzungen der Modellparameter

In dieser Arbeit wird davon ausgegangen wird, dass die Schätzung der zur Merkmalsenthal-

lung benötigten RIA-Parameter ˆ

T60 und ˆ

hmit Hilfe von externen Verfahren geschieht. Da

sie jedoch in der Regel fehlerbehaftet ist, wurde in einem weiteren Experiment die Sensiti-

vität der Merkmalsenthallung gegenüber Schätzfehlern in den RIA-Parametern untersucht.

Für die Simulationen wurde angenommen, dass für jede einzelne Sprachäußerung innerhalb

der Testdaten jeweils unabhängige Schätzungen der Nachhallzeit und des Energieparameters

vorlagen, welche durch

T60 =T60 +eˆ

T60 (6.6)

h1+eˆ

h,REL(6.7)

Experimentelle Untersuchungen

119

gegeben waren. Dabei bezeichnet T60 die angenommene wahre Nachhallzeit, welche für das

Büro stets zu 0,35 s und für das Wohnzimmer stets zu 0,45 s gesetzt wurde. Für die wah-

re Energiekonstante ˆ

hwurde angenommen, dass diese durch (5.171) bestimmt ist, da wie

bereits erwähnt die Trainings- und die Testdaten beider Datenbanken derselben Energienor-

mierung unterlagen. Weiterhin wurde davon ausgegangen, dass die Schätzfehler eˆ

T60 und

eˆ

h,REL jeweils Realisierungen der beiden mittelwertfreien Zufallsvariablen ˘eˆ

T60 und ˘eˆ

h,REL

darstellen, deren Verteilungsdichtefunktionen wie folgt definiert sind:

p˘eˆ

T60 eˆ

T60 :=





c1·Neˆ

T60 ;0,

˘eˆ

T60 für eˆ

T60 <2

˘eˆ

T60 +0,025

0 sonst

(6.8)

p˘eˆ

h,REL eˆ

h,REL:=





c2·Neˆ

h,REL;0,

˘eˆ

h,REL für eˆ

h,REL<2

˘eˆ

h,REL

0 sonst

.(6.9)

Das beidseitige “Abschneiden“ der GAUSS-förmigen Verteilungsdichtefunktionen sollte da-

bei vermeiden, dass die Schätzwerte ˆ

T60 und ˆ

hnegativ wurden. Die beiden positiven, re-

ellen Normierungskonstanten c1und c2wurden dabei derart gewählt, dass das Integral über

die beiden Verteilungsdichtefunktionen jeweils gleich 1 ist. Der Schätzwert der Nachhallzeit

wurde zusätzlich vor der Durchführung der Merkmalsenthallung auf ganze Vielfache von

0,05 s gerundet, sodass für diese Werte der Nachhallzeit zuvor empirisch bestimmte Parame-

ter des Beobachtungsfehlers eingesetzt werden konnten. Im Zusammenhang mit der Simu-

lation von Schätzfehlern in der Nachhallzeit muss außerdem beachtet werden, dass bedingt

durch die Erzeugung der Datenbanken die Nachhallzeit einzelner Sprachäußerungen jeweils

gleichmäßig zwischen 0,3 s, 0,35 s und 0,4 s für das Büro und zwischen 0,4 s, 0,45 s und

0,5 s für das Wohnzimmer variierte, so dass bereits bei einer Standardabweichung

˘eˆ

T60 =0

Schätzfehler in der Nachhallzeit vorlagen.

Für die Merkmalsenthallung wurde die IMM-Schätzung mit LC=6 eingesetzt und als A-

priori-Sprachmodell dasselbe SLDM mit I=4 Teilmodellen verwendet, das zuvor für die

Untersuchungen bezüglich der Leistungsfähigkeit unterschiedlicher Modellkombinationsal-

gorithmen diente. Die resultierenden Wortfehlerraten in Abhängigkeit von den Standardab-

weichungen für die Schätzfehler in den RIA-Parametern sind jeweils für das nichtrekursive

sowie das rekursive Beobachtungsmodell in Tab. 6.14 für die AURORA5-Datenbank und in

Tab. 6.15 für die modifizierte AURORA4-Datenbank zusammengetragen.

Es ließ sich beobachten, dass die Auswirkungen von Schätzfehlern in den RIA-Parame-

tern für beide Beobachtungsmodelle ähnlich waren. Die Wortfehlerrate stieg dabei für beide

untersuchten Räume und Datenbanken gemittelt über alle betrachteten Werte für die Stan-

dardabweichung des Schätzfehlers im Energieparameter lediglich um etwa 10 % relativ an,

wenn die Standardabweichung des Schätzfehlers in der Nachhallzeit 0,1 s betrug. Daher lässt

sich schlussfolgern, dass eine zufriedenstellende Robustheit des vorgestellten Verfahrens zur

Merkmalsenthallung gegenüber Schätzfehlern in den RIA-Parametern vorliegt.

6.5.3. Adaption des Erkenners auf Artefakte der Merkmalsenthallung

Im Allgemeinen lässt sich die Trajektorie der LMSK-Vektoren des sauberen Sprachsignals

mit Hilfe der Merkmalsverbesserung nicht perfekt aus der Trajektorie der LMSK-Vektoren

120

Experimentelle Untersuchungen

Tabelle 6.14.: Wortfehlerraten

w[%] in Abhängigkeit von den Standardabweichungen für die

Schätzfehler in den RIA-Parametern für die AURORA5-Datenbank.

Raum

Büro Wohnzimmer

˘eˆ

h,REL [dB]

−∞-15 -10 -5 −∞-15 -10 -5

˘eˆ

T60

01,97 1,97 1,97 1,97 3,61 3,59 3,58 3,59

0,075 2,21 2,18 2,21 2,23 4,03 4,15 4,16 4,21

0,1 2,34 2,22 2,41 2,35 4,21 4,22 4,27 4,35

(a) Nichtrekursives Beobachtungsmodell

Raum

Büro Wohnzimmer

˘eˆ

h,REL [dB]

−∞-15 -10 -5 −∞-15 -10 -5

˘eˆ

T60

02,17 2,14 2,13 2,15 4,13 4,16 4,17 4,24

0,075 2,30 2,32 2,30 2,39 4,25 4,18 4,22 4,32

0,1 2,29 2,40 2,38 2,35 4,31 4,37 4,43 4,47

(b) Rekursives Beobachtungsmodell

Tabelle 6.15.: Wortfehlerraten

w[%] in Abhängigkeit von den Standardabweichungen für die

Schätzfehler in den RIA-Parametern für die AURORA4-Datenbank.

Raum

Büro Wohnzimmer

˘eˆ

h,REL [dB]

−∞-15 -10 -5 −∞-15 -10 -5

˘eˆ

T60

027,77 27,55 27,44 27,44 40,44 40,52 40,70 41,07

0,075 29,17 29,13 29,28 29,50 42,65 42,95 41,03 41,84

0,1 29,94 29,98 33,30 28,84 41,99 44,09 44,35 43,68

(a) Nichtrekursives Beobachtungsmodell

Raum

Büro Wohnzimmer

˘eˆ

h,REL [dB]

−∞-15 -10 -5 −∞-15 -10 -5

˘eˆ

T60

026,22 26,85 26,92 27,22 40,18 41,62 41,36 41,73

0,075 28,55 28,21 28,21 28,66 42,69 41.73 41.92 41.77

0,1 28,40 29.43 29.69 29.58 43,68 42.84 43.54 43.31

(b) Rekursives Beobachtungsmodell

Experimentelle Untersuchungen

121

des verhallten Sprachsignals rekonstruieren. Die verbleibenden Artefakte führen dann zu

einer Veränderung der statistischen Eigenschaften der Trajektorien gegenüber dem Fall in

Abwesenheit von Nachhall. Beruhend auf dieser Diskrepanz zwischen Test- und Trainings-

bedingungen steigt die Wortfehlerrate bei der Spracherkennung gewöhnlich an. Eine Mög-

lichkeit diesem Problem zu begegnen besteht in einer sinnvollen Anpassung der Trainings-

bedingungen. Dies lässt sich bewerkstelligen, indem die sauberen Trainingssprachsignale

zunächst umgebungsspezifisch künstlich verhallt und anschließend mit Hilfe der Merkmals-

verbesserung wieder enthallt werden. Die Erzeugung der künstlichen RIAs kann dabei mit

Hilfe der Spiegelquellenmethode auf dieselbe Art und Weise wie in Kap. 6.4 geschehen.

In Tab. 6.16 sind die auf diese Weise erzielten Fehlerraten für die AURORA5- und die

modifizierte AURORA4-Datenbank zusammengetragen. Zusätzlich sind in derselben Tabel-

Tabelle 6.16.: Fehlerraten [%] für ausgewählte Kombinationen von unterschiedlichen Trainingsbe-

dingungen und der An- bzw. Abwesenheit der Merkmalsverbesserung.

Konditionen Raum

Büro Wohnzimmer

Training auf sauberen

Sprachsignalen,

Merkmalsverbesserung

vor der Erkennung

1,97 3,61

Training auf enthallten

Sprachsignalen,

Merkmalsverbesserung

vor der Erkennung

2,00 3,35

Training auf verhallten

Sprachsignalen,

Erkennung ohne

Merkmalsverbesserung

1,29 2,61

(a) AURORA5-Datenbank

Konditionen Raum

Büro Wohnzimmer

Subst

Ausl

Einf

Subst

Ausl

Einf

Training auf sauberen

Sprachsignalen,

Merkmalsverbesserung

vor der Erkennung

20,07 2,54 5,16 27,77 29,10 3,61 7,73 40,44

Training auf enthallten

Sprachsignalen,

Merkmalsverbesserung

vor der Erkennung

17,46 2,43 4,49 24,38 23,72 3,61 5,64 32,97

Training auf verhallten

Sprachsignalen,

Erkennung ohne

Merkmalsverbesserung

18,01 3,06 3,17 24,24 26,26 6,08 3,98 36,32

(b) Modifizierte AURORA4-Datenbank

122

Experimentelle Untersuchungen

le die Resultate für das Training des Erkenners mit verhallten Sprachsignalen, wie sie bereits

auch in Tab. 6.3b und Tab. 6.4b aufgeführt sind, sowie die Resultate für die zuvor betrachtete

Merkmalsenthallung in Kombination mit einem Training des Spracherkenners auf sauberen

Sprachäußerungen aus Tab. 6.5, Tab. 6.8a und Tab. 6.9a gegenübergestellt.

Für die AURORA5-Datenbank ließ sich beobachten, dass das Training des Spracherken-

ners auf Artefakte nach der Merkmalsverbesserung lediglich für das Wohnzimmer zu ei-

ner geringfügigen Abnahme der Wortfehlerrate führte. Bedauerlicher ließ sich damit nicht

die Leistungsfähigkeit erreichen, die beim Training des Erkenners mit verhallten Sprachsi-

gnalen erzielt werden konnte. Hingegen nahm für die modifizierte AURORA4-Datenbank

die Wortfehlerrate bedingt durch das Training des Spracherkenners auf Artefakte nach der

Merkmalsverbesserung deutlich stärker ab, insbesondere für das Wohnzimmer. Während für

das Büro eine ähnliche Leistungsfähigkeit wie beim Training des Erkenners mit verhallten

Sprachsignalen erreicht werden konnte, wurde diese für das Wohnzimmer sogar übertroffen.

Eine mögliche Erklärung könnte darin bestehen, dass im Falle eines sehr umfangreichen

Vokabulars in Kombination mit einer hohen Nachhallzeit T60 der Effekt des Nachhalls aus

verhallten Trainingssprachsignalen schlechter gelernt werden kann, da der zu berücksichti-

gende links- bzw. rechtsseitige Kontext zu einem HMM-Zustand deutlich stärker variieren

kann. Dieses Problem tritt beim Training mit enthallten Trainingsdaten in deutlich geringe-

rem Maße auf, da durch die Enthallung die zeitliche Dispersion reduziert und damit der links-

und rechtsseitige Kontext teilweise eingeschränkt wird. Ein weitere Ursache für den stärke-

ren Effekt des Trainings der Parameter des akustischen Modells auf die nach der Merkmals-

verbesserung verbleibenden Artefakte bei der modifizierten AURORA4-Datenbank besteht

darin, dass die Auswirkung dieser Artefakte an sich im Vergleich zur AURORA5-Datenbank

größer ist, weil zwischen einer größeren Anzahl an Wörtern unterschieden werden muss.

Zusammenfassend lässt sich feststellen, dass sich mit einem derartigen kombinierten An-

satz auf der AURORA5-Datenbank etwa 80 % und auf der AURORA4-Datenbank etwa 70 %

der Fehler, die durch den Nachhall entstanden sind, beheben ließen.

6.6. Ergebnisse zur gemeinsamen Merkmalsenthallung und

-entstörung

In einem letzten Experiment wurde die Leistungsfähigkeit des vorgestellten Verfahrens in

Gegenwart von sowohl Nachhall als auch Hintergrundstörungen untersucht. Als A-priori-

Sprachmodell wurde für jede Datenbank dasjenige SLDM ausgewählt, welches bereits bei

den Experimenten zur Merkmalsenthallung die niedrigste Wortfehlerrate lieferte. Die Para-

meter des A-priori-Modells für die Störung, d.h. der Mittelwertvektor µnund die Kovarianz-

matrix Σn(siehe Kap. 5.1.2), wurden empirisch unter Verwendung der jeweils 15 ersten und

letzten Segmente einer Sprachäußerung auf der AURORA5-Datenbank bestimmt, da in den

entsprechenden Zeiträumen keine Sprachaktivität vorlag. Bei der modifizierten AURORA4-

Datenbank wurden für diesen Zweck die 50 ersten und letzten Segmente einer Sprachäuße-

rung verwendet. Die Merkmalsverbesserung wurde jeweils mit Hilfe des nichtrekursiven und

des rekursiven Beobachtungsmodells durchgeführt, wobei LC=LR=6 angenommen wurde.

Die bei der Spracherkennung erzielten Wortfehlerraten sind in Tab. 6.17 für die AURORA5-

Datenbank und in Tab. 6.18 für die modifizierte AURORA4-Datenbank aufgeführt. Aus den

Ergebnissen lässt sich eine leichte Tendenz zugunsten des nichtrekursiven Beobachtungs-

Experimentelle Untersuchungen

123

Tabelle 6.17.: Wortfehlerraten

w[%] für die AURORA5-Datenbank erzielt mit der gemeinsamen

Merkmalsenthallung und -entstörung.

Raum

Büro Wohnzimmer

SNR [dB]

15 7,47 12,21

10 16,83 24,04

535,13 44,33

062,44 69,51

(a) Nichtrekursives Beobachtungsmodell

Raum

Büro Wohnzimmer

SNR [dB]

15 7,77 12,54

10 17,27 24,62

535,67 44,70

062,93 70,77

(b) Rekursives Beobachtungsmodell

Tabelle 6.18.: Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit der gemeinsa-

men Merkmalsenthallung und -entstörung.

Raum

Büro Wohnzimmer

Subst

Ausl

Einf

Subst

Ausl

Einf

SNR [dB]

15 31,09 4,53 10,64 46,26 43,76 5,45 11,57 60,77

10 46,15 7,29 12,63 66,08 55,32 10,28 14,11 79,71

562,10 14,22 10,31 86,63 65,60 16,87 9,65 92,12

061,80 28,88 4,75 95,43 62,14 31,68 3,28 97,09

(a) Nichtrekursives Beobachtungsmodell

Raum

Büro Wohnzimmer

Subst

Ausl

Einf

Subst

Ausl

Einf

SNR [dB]

15 31,45 4,71 10,94 47,11 42,36 5,67 11,23 59,26

10 46,30 7,26 11,93 65,49 56,17 9,80 11,68 77,64

561,55 14,62 9,39 85,56 64,86 17,13 8,80 90,79

058,05 32,52 4,38 94,95 57,46 36,83 2,84 97,13

(b) Rekursives Beobachtungsmodell

124

Experimentelle Untersuchungen

modells auf der AURORA5-Datenbank erkennen, die jedoch auf der AURORA4-Datenbank

ins Gegenteil umschlägt. Die Unterschiede der Ergebnisse sind jedoch nur gering, so dass

auf keinen sinnvollen Vorteil eines bestimmten Beobachtungsmodells anhand dieser Simu-

lationsergebnisse geschlossen werden sollte.

Bei einem Vergleich der Ergebnisse mit denen des gewöhnlichen ETSI-SFE ohne nach-

geschaltete Merkmalsverbesserung in Tab. 6.1 und Tab. 6.2 fällt auf, dass die Leistungsfä-

higkeit deutlich mit sinkendem SNR abnahm. Konnten bei einem SNR von 15 dB bei der

AURORA5-Datenbank immerhin noch etwa 65 % der durch den Nachhall und die Hinter-

grundstörungen verursachten Fehler behoben werden, so waren es bei einem SNR von 0 dB

nur noch maximal etwa 30%. Ein ähnliches Verhalten zeigte sich auch bei der modifizierten

AURORA4-Datenbank, wobei die erzielten Verbesserungen im Vergleich zur AURORA5-

Datenbank insgesamt deutlich geringer waren. Während bei einem SNR von 15 dB noch etwa

40 % bzw. 53 % der Fehler beim Büro bzw. Wohnzimmer korrigiert werden konnten, betrug

der Anteil korrigierter Fehler bei einem SNR von 0 dB nur noch etwa 5 % beim Büro und

etwa 2 % beim Wohnzimmer. Die schlechtere Leistungsfähigkeit der Merkmalsverbesserung

auf der AURORA4-Datenbank hängt auch hier mit dem deutlich größeren Vokabular zu-

sammen, wodurch nach der Verbesserung verbleibende Artefakte vom Spracherkenner eher

falsch interpretiert werden können.

Die abnehmende Leistungsfähigkeit bei sinkenden Werten des SNR besitzt hauptsächlich

zwei Ursachen. Zum einen ist das zur Beschreibung der Hintergrundstörung verwendete A-

priori-Modell nur bedingt geeignet, da die Störungen, welche zur Erzeugung beider unter-

suchter Datenbanken herangezogen wurden, einen besonders instationären Charakter besit-

zen. Zum anderen sind, wie bereits in Kap. 6.4 angemerkt, das Modell des Beobachtungsfeh-

lers sowie dessen Parameter bei Vorhandensein von Störungen stark abhängig vom lokalen

SNR. In den Experimenten in dieser Arbeit wurde diese Tatsache im Sinne einer Vereinfa-

chung nicht berücksichtigt, wodurch jedoch starke Einbußen in der Leistungsfähigkeit der

Merkmalsverbesserung hingenommen werden mussten.

Trotz dieser beiden starken Vereinfachungen übertraf die Leistungsfähigkeit des in dieser

Arbeit vorgeschlagenen Verfahrens deutlich jene des ETSI-AFE für hohe Werte des SNR, wie

durch einen Vergleich der Wortfehlerraten in Tab. 6.17 bzw. Tab. 6.18 mit den in Tab. 6.3 und

Tab. 6.4 ersichtlich wird. Erst für sehr niedrige SNR-Werte von 5 dB bzw. 0 dB lieferte das

speziell zur Entstörung konzipierte ETSI-AFE bessere Ergebnisse.

Obwohl das Training des Spracherkenners mit verhallten Sprachsignalen nicht zur Robust-

heit gegenüber Hintergrundstörungen beiträgt, waren die damit erzielten Wortfehlerraten auf

der AURORA4-Datenbank durchgehend besser als diejenigen, welche mit der Merkmalsver-

besserung oder mit dem ETSI-AFE erhalten worden sind. Im Gegenteil dazu war jedoch die

Merkmalsverbesserung auf der AURORA5-Datenbank bei Vorhandensein von Hintergrund-

störungen im Vergleich dazu stets dominant.

Aufgrund der sehr groben Modellierung der Störung durch das A-priori-Modell sowie der

groben Modellierung des Beobachtungsfehlers wird davon ausgegangen, dass die Leistungs-

fähigkeit des vorgestellten Verfahrens durch die Verbesserung beider Modelle beträchtlich

gesteigert werden kann. Diese Aspekte bleiben jedoch der zukünftigen Forschung vorbehal-

ten und werden in dieser Arbeit nicht weiter behandelt.

7. Zusammenfassung und Ausblick

Im Rahmen dieser Arbeit wurde ein Verfahren zur Verbesserung akustischer Merkmale im

Hinblick auf eine robuste Spracherkennung in Gegenwart von Nachhall und Hintergrund-

störungen entwickelt, wobei der Schwerpunkt auf der Kompensation des Nachhalls lag. Als

akustische Merkmale wurden dabei die log-MEL-spektralen Merkmale betrachtet, da sie die

unmittelbare Vorstufe zur Berechnung der MFCCs darstellen. Es ist dabei besonders zu beto-

nen, dass aufgrund der weiten Verbreitung der MFCCs in Verbindung mit der dabei erzielten

hohen Erkennungsleistung eine hohe Relevanz des hier vorgestellten Ansatzes gegeben ist.

Die hohe Relevanz wird zudem unterstützt durch eine hohe Flexibilität einer jeden merk-

malsbasierten Methode, da diese prinzipiell beliebige Strukturen des Spracherkenners zu-

lässt.

Das Konzept der auf BAYES’scher Inferenz basierenden Merkmalsverbesserung wurde

in Kap. 5 vorgestellt. Es nutzt die Information von A-priori-Modellen der Sprache und der

Hintergrundstörung sowie eines Beobachtungsmodells in einer statistisch optimalen Art. Da-

bei wurden zur Beschreibung des A-priori-Wissens über die Merkmalsvektortrajektorie der

sauberen Sprache schaltende, lineare dynamische Modelle eingesetzt, wobei insbesondere

auch Modelle höherer Ordnung als eins in Betracht gezogen wurden. Die entsprechenden

Modellparameter wurden mit Hilfe des EM-Algorithmus und einer Menge von Trainings-

sprachäußerungen bestimmt. Als Folge dessen, dass der EM-Algorithmus an sich eher ein

Prinzip als einen konkreten Algorithmus darstellt, wurden dafür zunächst die notwendigen

Schätzformeln für sämtliche SLDM-Parameter hergeleitet. Da es sich beim EM-Algorithmus

um ein iteratives Verfahren handelt, werden zu seiner Anwendung Startwerte für die SLDM-

Parameter benötigt. Zu diesem Zweck wurde eine neuartige, stochastische Initialisierungs-

methode vorgeschlagen, deren Prinzip ähnlich dem des K-MEANS++-Algorithmus ist.

Ein weiterer besonderer Aspekt, der in Kap. 5 behandelt wurde, liegt in der Herleitung

des Beobachtungsmodells zur Beschreibung des Zusammenhanges zwischen den log-MEL-

spektralen Merkmalen des verhallten und gestörten Sprachsignals sowie den log-MEL-spek-

tralen Merkmalen des sauberen Sprachsignals und des Störsignals. Dieser Zusammenhang

wurde zunächst auf der Grundlage der RIA zwischen dem Sprecher und dem Mikrophon,

welche die Mehrwegeausbreitung des Signals kennzeichnet, hergeleitet. Um eine in der Re-

gel hoch sensible, blinde Schätzung der in praktisch relevanten Anwendungen gewöhnlich

unbekannten und zudem zeitvarianten RIA zu vermeiden, wurde diese durch ein statistisches

Modell beschrieben. Das verwendete Modell besitzt nur zwei Parameter, welche die Energie

und das Abklingverhalten der RIA charakterisieren. Die beiden Parameter können deutlich

einfacher und robuster als die vollständige RIA blind aus dem eingehenden Mikrophonsignal

geschätzt werden. In der Arbeit wurde nun vorgeschlagen, wie auf der Basis des statistischen

Modells der RIA lediglich unter Verwendung der Modellparameter ein sinnvolles Beobach-

tungsmodells berechnet werden kann.

125

126

Zusammenfassung und Ausblick

Aufgrund des dispersiven Effektes hängt ein log-MEL-spektrales Merkmal eines verhall-

ten Sprachsignals gewöhnlich von mehreren, zeitlich zurückliegenden log-MEL-spektralen

Merkmalen des zugehörigen sauberen Sprachsignals ab, welche bei der Auswertung der Be-

obachtungsfunktion berücksichtigt werden müssen. Zur Reduktion des damit im Zusammen-

hang stehenden Rechen- und Speicheraufwandes wurde ein rekursives Beobachtungsmodell

hergeleitet, wobei die Rekursionslänge vollkommen variabel gewählt werden kann.

Sowohl für das nicht rekursive als auch das rekursive Beobachtungsmodell wurde der

Beobachtungsfehler stark vereinfacht als eine Realisierung eines weißen, GAUSS’schen Zu-

fallsprozesses beschrieben. Obwohl die Unabhängigkeit einzelner zeitlich aufeinander fol-

gender Fehler bei Weitem nicht gegeben ist, konnte später in Kap. 6 jedoch zumindest mit

Hilfe von Merkmalen realer Sprachsignale experimentell gezeigt werden, dass das Histo-

gramm des Beobachtungsfehlers eine annähernd GAUSS-glockenförmige Gestalt aufweist.

Zur praktischen Umsetzung der Inferenz wurden in dieser Arbeit suboptimale Modellkom-

binationsalgorithmen verwendet, um einen zeitlich konstant bleibenden Aufwand an Stelle

eines exponentiell wachsenden zu erzielen. Das Prinzip der dabei kombinierten, teilmodell-

spezifischen Inferenzen beruhte auf dem eines erweiterten iterativen KALMAN-Filters.

In Kap. 6 wurden experimentelle Untersuchungen zum Verfahren der Merkmalsverbes-

serung durchgeführt. Dazu wurden zwei verschiedene Sprachdatenbanken, die AURORA5-

Datenbank und eine modifizierte Version der AURORA4-Datenbank, herangezogen. Wäh-

rend die AURORA5-Datenbank unter anderem Sprachäußerungen von einzelnen Ziffern und

Ziffernketten beinhaltet, sind in der AURORA4-Datenbank Äußerungen kontinuierlich ge-

sprochener Sprache in Form ganzer Sätze enthalten. Beide Datenbanken bestehen aus saube-

ren Sprachsignalen und deren künstlich erzeugten verhallten sowie verhallten und zusätzlich

gestörten Versionen. Zur künstlichen Verhallung wurden für beide Datenbanken zwei unter-

schiedliche virtuelle Räume mit Nachhallzeiten von jeweils etwa 0,35 s und 0,45 s angenom-

men. Als additive Hintergrundstörungen wurden Ausschnitte aus Aufnahmen aus typischen

Innenräumen benutzt, um realistisch Störungen nachzuahmen.

Die Leistungsfähigkeit der Merkmalsverbesserung wurde in dieser Arbeit indirekt über die

nach einer Spracherkennung erzielte Wortfehlerrate bewertet. Es wurden dabei Untersuchun-

gen sowohl zur ausschließlichen Merkmalsenthallung als auch zur gemeinsamen Entstörung

und Enthallung von Merkmalen durchgeführt.

Die Ergebnisse zur Merkmalsenthallung zeigen eine deutliche Reduktion der Wortfeh-

lerrate für alle drei betrachteten Modellkombinationsalgorithmen gegenüber dem Fall ohne

der Verwendung jeglicher Merkmalsenthallung. Insbesondere steigerte sich die Leistungs-

fähigkeit bei einer Berücksichtigung eines gewissen zeitlichen Kontexts aus der Zukunft,

was durch eine geeignete Erweiterung des Zustandsvektors bei der erweiterten KALMAN-

Filterung erreicht wurde. Bemerkenswert im Bezug auf die Wahl des A-priori-Modells zur

Beschreibung der Sprache im Merkmalsbereich ist die Tatsache, dass bereits mit einem einzi-

gen linearen dynamischen Modell die Wortfehler, die durch den Nachhall verursacht worden

sind, um bis zu 75 % für die Ziffernkettenerkennung reduziert werden konnten. Durch eine

moderate Vergrößerung der Anzahl der Teilmodelle des SLDM auf 4 ließ sich der Prozen-

tanteil auf bis zu 80 % erhöhen. Bei der Erkennung von kontinuierlich gesprochener Sprache

mit großem Vokabular betrug dieser Prozentanteil immerhin noch etwa 50 %, da die nach

der Verbesserung verbliebenen Fehler tendenziell schwerwiegendere Auswirkungen bedingt

durch die erhöhte Komplexität der Erkennungsaufgabe hatten.

Bezüglich der Wahl des A-priori-Modells der Sprache konnte weiterhin beobachtet wer-

Zusammenfassung und Ausblick

127

den, dass die vorgeschlagene Methode der Initalisierung der SLDM-Parameter unter der An-

nahme einer geeigneten Wahl der Anzahl der EM-Iterationen letzendlich zu einer geringfü-

gig verringerten Wortfehlerrate führen kann. Jedoch war der erzielte Gewinn nur minimal,

was nach Ansicht des Autors mit dem verwendeten Kriterium zum Training der SLDM-

Parameter, nämlich der Maximierung der Likelihood der Trainingsdaten, zusammenhängt,

welches nicht unmittelbar mit dem der Minimierung der Wortfehlerrate zusammenhängt.

Es ist zu vermuten, dass durch ein geeigneteres Kriterium, welches zusätzlich eine zeitlich

lokale und getrennte Aktivität einzelner Teilmodelle des SLDM fordert, die vorgeschlage

Initialisierungsmethode an Bedeutung gewinnen wird.

Die Erhöhung der SLDM-Ordnung bewirkte nur bei der Nutzung eines einzigen linearen,

dynamischen Modells als A-priori-Modell der Sprache eine Reduktion der Wortfehlerrate,

wobei der Anteil der Verbesserung mit der Erhöhung der Ordnung abnahm. In diesem be-

sonderen Fall ist keine Anwendung des EM-Algorithmus zum SLDM-Training notwendig,

da ein analytischer Ausdruck zur direkten Berechnung der Parameter existiert. Zudem ist

bei einem einzigen Teilmodell keine suboptimale Modellkombination zur approximativen

Umsetzung der Inferenz erforderlich. Beide Aspekte können als Ursache dafür angesehen

werden, dass durch die Verwendung mehrerer Teilmodelle des SLDM keine Verringerung

der Wortfehlerrate erreicht werden konnte.

Bezüglich des Beobachtungsmodells konnte einerseits experimentell festgestellt werden,

dass mit dem rekursiven Beobachtungsmodell ähnliche Wortfehlerraten erzielt werden konn-

ten, wobei sowohl der Rechen- als auch Speicheraufwand im Vergleich zum nicht rekursi-

ven Beobachtungsmodell geringfügig reduziert werden konnten. Andererseits konnte eine

gewisse Robustheit der Merkmalsverbesserung gegenüber Schätzfehlern in den beiden Pa-

rametern der RIA experimentell festgestellt werden. Unter der Annahme eines annähernd

GAUSS-verteilten Schätzfehlers in der Nachhallzeit stieg die Wortfehlerrate beispielsweise

lediglich um 10 % an, wenn die Standardabweichung des Schätzfehlers approximativ 0,1 s

betrug.

Um den Erkenner auf nach der Merkmalsverbesserung noch vorhandene Artefakte an-

zupassen, wurden überdies Experimente durchgeführt, bei dem die für das Training des

Spracherkenners verwendeten Sprachsignale vorab künstlich verhallt und anschließend auf

Merkmalsebene wieder enthallt wurden, bevor das Training der akustischen Modelle des

Spracherkenners erfolgte. Dieses Vorgehen zeigte den größten Effekt bei der Verwendung

der Sprachdatenbank mit großem Vokabular, d. h. der AURORA4-Datenbank. Ein möglicher

Grund dafür könnte darin bestehen, dass sich Artefakte stärker auswirken, wenn zwischen

einer größeren Anzahl an Wörtern bei der Erkennung unterschieden werden muss. Bei der

AURORA5-Datenbank war deshalb nur eine geringe Wirkung zu beobachten.

In den abschließenden Experimenten zur gemeinsamen Enthallung und Entstörung der

akustischen Merkmale lieferten das rekursive und das nicht rekursive Beobachtungsmodell

sehr ähnliche Ergebnisse. Zusammenfassend lässt sich festhalten, dass sich die Leistungsfä-

higkeit der Merkmalsverbesserung mit sinkendem SNR deutlich verringerte. Konnten bei der

Ziffernkettenerkennung bei einem SNR von 15 dB noch etwa 65 % der durch den Nachhahll

und die Hintergrundstörungen eingeführten Fehler behoben werden, waren es bei einem SNR

von 0 dB nur noch etwa 30 %. Bei der Erkennung kontinuierlicher Sprache waren es dage-

gen maximal 53 % bei einem SNR von 15 dB und nur noch maximal 5 % bei einem SNR von

0 dB. Dieser Effekt besitzt hauptsächlich zwei Ursachen.

Zum einen ist das verwendete A-priori-Modell zur Beschreibung der Charakteristik der

128

Zusammenfassung und Ausblick

Störung relativ grob in der Hinsicht, als dass es nur stationäre Störungen vernünftig erfas-

sen kann. Da die verwendeten Signale der Hintergrundstörung jedoch einen vorwiegend in-

stationären Charakter aufwiesen, war die Modellierung der Störung überaus ungenau, was

sich am meisten bei niedrigen Werten des SNR bemerkbar machte. Als Ausblick in diesem

Zusammenhang ist eine Verbesserung des A-priori-Modells der Störung zu nennen, wovon

anzunehmen ist, dass dies deutlich zur Verbesserung der Leistungsfähigkeit der Merkmals-

verbesserung beitragen kann.

Zum anderen ist die Modellierung des Beobachtungsfehlers in Gegenwart von Hinter-

grundstörungen unzureichend, da dabei die Hintergrundstörung vollständig ignoriert wird.

Eine Möglichkeit der Verbesserung besteht in der Annahme eines Modells mit zeitvarian-

ten Parametern, deren Wahl beispielsweise abhängig von einer Schätzung des SNR gemacht

werden könnte.

Trotz beider Defizite übertraf die Leistungsfähigkeit des vorgestellten Verfahrens zur ge-

meinsamen Enthallung und Entstörung akustischer Merkmale bei hohen Werten des SNR die

des ETSI-AFE, welches ein renommiertes Verfahren zur Merkmalsentstörung darstellt.

A. Anhang

A.1. Herleitung des EM-Algorithmus zum Training von

SLDMs beliebiger Ordnung

In diesem Abschnitt werden die Rekursionsgleichungen zur Schätzung der SLDM-Parameter

=µx,i,Σx,i,Ai,

,bi,Vi,

i,ai,ki,k∈ {1,...,I},

∈ {1,...,LAR}(A.1)

mit Hilfe von Trainingsdaten in Form einer Menge von unabhängigen Merkmalsvektorse-

quenzen Xgemäß dem EM-Algorithmus hergeleitet. Dabei wird ausgehend von einer initia-

len Parametermenge

{0}iterativ eine Folge von Parametermengen n

{l}l∈Nobestimmt.

Die Berechnung der Menge

{l+1}vollzieht sich in zwei Teilschritten, dem Expectation- und

dem Maximization-Schritt, welche dem Algorithmus seinen Namen geben und im Folgenden

detailliert beschrieben werden. Die Herleitung ist stark angelehnt an diejenige in [Mur98],

wo jedoch nur der Fall der Modellordnung LAR =1 behandelt wird.

A.1.1. Expectation-Schritt

Im ersten Schritt wird der Erwartungswert der Loglikelihood der kompletten Daten beste-

hend aus der Menge der Merkmalsvektorsequenzen Xund der Menge der zugehörigen, nicht

beobachtbaren Zustandssequenzen Zbedingt auf Xund die zuvor berechnete Parametermen-

{l}gemäß

Ql+1(

):=Ehlnnp˘

X,˘

Z(X,Z)oX;

{l}i(A.2)

=∑

{Z}

ln{p(X,Z)}PZ|X;

{l}.(A.3)

berechnet, wobei in (A.3) die Summation als Summation über alle möglichen Realisierungen

Zzu verstehen ist und im Sinne der Lesbarkeit die Indizes der Verteilungsdichtefunktionen

und der Wahrscheinlichkeitsmassefunktionen weggelassen wurden. Dabei wird der Erwar-

tungswert gebildet, um die Abhängigkeit der Loglikelihood von der nicht beobachtbaren und

daher unbekannten Menge der Zustandssequenzen Zzu eliminieren.

Unter Ausnutzung der Unabhängigkeit der Sprachäußerungen sowie der Definition des

129

130

Anhang

SLDM in (5.13) lässt sich die Loglikelihood der kompletten Daten gemäß

ln{p(X,Z)}=

∑

n=1

lnnpx(n)

1:Mn,

(n)

1:Mno (A.4)

∑

n=1(LAR

∑

m=1hlnnpx(n)

m

(n)

mo+lnnP

(n)

moi

∑

m=LAR+1hlnnpx(n)

mx(n)

m−LAR:m−1,

(n)

mo+lnnP

(n)

m

(n)

m−1oi)

(A.5)

ausdrücken. Der Erwartungswert der Loglikelihood (A.2) kann damit unter Verwendung von

(A.5) und der bereits in (5.26) und (5.27) definierten bedingten Zustandswahrscheinlichkei-

ten

(n,l)

m(i) = P

(n)

m=ix(n)

1:Mn;

{l}(A.6)

(n,l)

m(k,i) = P

(n)

m=i,

(n)

m−1=kx(n)

1:Mn;

{l}(A.7)

gemäß

Ql+1(

)

∑

n=1∑

(n)

1:Mno

lnnpx(n)

1:Mn,

(n)

1:MnoP

(n)

1:Mnx(n)

1:Mn;

{l}(A.8)

∑

n=1(LAR

∑

m=1

∑

i=1

P

(n)

m=ix(n)

1:Mn;

{l}lnnpx(n)

m

(n)

m=io+lnnP

(n)

m=io

∑

m=LAR+1

∑

i=1P

(n)

m=ix(n)

1:Mn;

{l}lnnpx(n)

mx(n)

m−LAR:m−1,

(n)

m=io

∑

k=1

P

(n)

m=i,

(n)

m−1=kx(n)

1:Mn;

{l}lnnP

(n)

m=i

(n)

m−1=ko).

(A.9)

∑

n=1(LAR

∑

m=1

∑

i=1

(n,l)

m(i)lnnpx(n)

m

(n)

m=io+ln{

i}

∑

m=LAR+1

∑

i=1

(n,l)

m(i)lnnpx(n)

mx(n)

m−LAR:m−1,

(n)

m=io

∑

k=1

(n,l)

m(k,i)lnak,i).(A.10)

formuliert werden. Ersetzt man in einem letzten Schritt noch die verbleibenden Verteilungs-

dichtefunktionen px(n)

m

(n)

m=iund px(n)

mx(n)

m−LAR:m−1,

(n)

m=idurch die gemäß der

Anhang

131

Definition des SLDM gegebenen Ausdrücke in (5.13), so erhält man das endgültige Resultat

Ql+1(

)

∑

n=1(LAR

∑

m=1

∑

i=1

(n,l)

m(i)lnnNx(n)

m;µx,i,Σx,io+ln{

i}

∑

m=LAR+1

∑

i=1

(n,l)

m(i)ln(N x(n)

LAR

∑

Ai,

x(n)

m−

+bi,Vi!)

∑

k=1

(n,l)

m(k,i)lnak,i)(A.11)

∑

n=1(LAR

∑

m=1

∑

i=1

(n,l)

m(i)−1

2x(n)

m−µx,iT

Σ−1

x,ix(n)

m−µx,i

+Qln(2

)+ln(det{Σx,i})+ln{

i}

∑

m=LAR+1

∑

i=1

(n,l)

m(i)

·−1

2 x(n)

m−

LAR

∑

Ai,

x(n)

m−

−bi!T

V−1

i x(n)

m−

LAR

∑

Ai,

x(n)

m−

−bi!

+Qln(2

)+ln(det{Vi})!+

∑

k=1

(n,l)

m(k,i)lnak,i),

(A.12)

wobei det{·}die Determinante einer Matrix bezeichnet. Die in diesem Ausdruck auftreten-

den bedingten Zustandswahrscheinlichkeiten

(n,l)

m(i)und

(n,l)

m(k,i)lassen sich sehr effi-

zient durch eine modifizierte Version des BAUM-WELCH-Algorithmus [RJ93], welche im

nächsten Unterabschnitt detailliert beschrieben wird, berechnen.

Berechnung der bedingten Zustandswahrscheinlichkeiten

Gemäß der Idee des BAUM-WELCH-Algorithmus [RJ93] werden die bedingten Zustands-

wahrscheinlichkeiten

(n,l)

m(i)und

(n,l)

m(k,i), die in (5.26) und (5.27) definiert sind, mit

Hilfe der sogenannten Vorwärts- und Rückwärtswahrscheinlichkeiten

(n,l)

m(i):=px(n)

1:m,

(n)

m=i

{l}für 1 ≤m≤Mn(A.13)

(n,l)

m(i):=px(n)

m+1:Mnx(n)

m−LAR+1:m,

(n)

m=i;

{l}für 1 ≤m≤Mn(A.14)

132

Anhang

gemäß

(n,l)

m(i) =

p

(n)

m=i,x(n)

1:Mn

{l}

px(n)

1:Mn(A.15)

∝px(n)

1:m,x(n)

m+1:Mn,

(n)

m=i

{l}(A.16)

∝px(n)

m+1:Mnx(n)

1:m,

(n)

m=i;

{l}px(n)

1:m,

(n)

m=i

{l}(A.17)

∝px(n)

m+1:Mnx(n)

m−LAR+1:m,

(n)

m=i;

{l}px(n)

1:m,

(n)

m=i

{l}(A.18)

∝

(n,l)

m(i)

(n,l)

m(i)für 1 ≤m≤Mn(A.19)

und

(n,l)

m(k,i)(A.20)

p

(n)

m=i,

(n)

m−1=k,x(n)

1:m,x(n)

m+1:Mn

{l}

px(n)

1:Mn(A.21)

∝px(n)

m:Mn,

(n)

m=i

(n)

m−1=k,x(n)

1:m−1;

{l}p

(n)

m−1=k,x(n)

1:m−1

{l}(A.22)

∝px(n)

m:Mn

(n)

m=i,

(n)

m−1=k,x(n)

1:m−1;

{l}

·p

(n)

m=i

(n)

m−1=k,x(n)

1:m−1;

{l}

(n,l)

m−1(k)(A.23)

∝px(n)

m+1:Mn

(n)

m=i,

(n)

m−1=k,x(n)

1:m;

{l}

·px(n)

m

(n)

m=i,

(n)

m−1=k,x(n)

1:m−1;

{l}a{l}

k,i

(n,l)

m−1(k)(A.24)

∝px(n)

m+1:Mnx(n)

m−LAR+1:m,

(n)

m=i;

{l}

·px(n)

mx(n)

m−LAR:m−1,

(n)

m=i;

{l}a{l}

k,i

(n,l)

m−1(k)(A.25)

∝

(n,l)

m(i)px(n)

mx(n)

m−LAR:m−1,

(n)

m=i;

{l}a{l}

k,i

(n,l)

m−1(k)für LAR +1≤m≤Mn

(A.26)

ausgedrückt. Dabei ist zu berücksichtigen, dass hier und im weiteren Verlauf des Anhangs

im Sinne einer besseren Lesbarkeit darauf verzichtet wurde, die Segmentindizes zur Kenn-

zeichnung des zeitlichen Anfanges und Endes von Merkmalsvektorsequenzen derart zu be-

schränken, dass sie stets positiv sind. Im Falle von auftretenden nicht positiven Segmentin-

dizes existieren die entsprechenden Merkmalsvektorsequenzen offensichtlich nicht und sind

deshalb zu ignorieren.

Die zur eindeutigen Berechnung notwendigen Proportionalitätskonstanten lassen sich aus

Anhang

133

den beiden Normierungsbedingungen

∑

i=1

(n,l)

m(i) = 1 (A.27)

∑

k=1

(n,l)

m(k,i) =

(n,l)

m(i)(A.28)

bestimmen.

Der Vorteil der beiden Darstellungen (A.19) und (A.26) besteht nun darin, dass sich so-

wohl die Vorwärts- als auch Rückwärtswahrscheinlichkeiten rekursiv berechnen lassen. Da-

zu werden zunächst die Vorwärtswahrscheinlichkeiten für 1 ≤m≤LAR und i∈ {1,..., I}

durch

(n,l)

m(i) = px(n)

1:m

(n)

m=i;

{l}P

(n)

m=i

{l}="m

∏

m′=1

Nx(n)

m′;µ{l}

x,i,Σ{l}

x,i#

{l}

(A.29)

initialisiert. Anschließend wird ihre Berechnung für m=LAR +1,...,Mnund i∈ {1,...,I}

gemäß der Rekursion

(n,l)

m(i) = px(n)

1:m,

(n)

m=i

{l}(A.30)

∑

k=1

px(n)

1:m,

(n)

m=i,

(n)

m−1=k

{l}(A.31)

∑

k=1

px(n)

m

(n)

m=i,

(n)

m−1=k,x(n)

1:m−1;

{l}

·P

(n)

m=i

(n)

m−1=k,x(n)

1:m−1;

{l}P

(n)

m−1=k,x(n)

1:m−1

{l}(A.32)

∑

k=1

px(n)

mx(n)

m−LAR:m−1,

(n)

m=i;

{l}a{l}

k,i

(n,l)

m−1(k)(A.33)

∑

k=1

N x(n)

LAR

∑

A{l}

x(n)

m−

+b{l}

i,V{l}

i!a{l}

k,i

(n,l)

m−1(k)(A.34)

durchgeführt, wobei für die letzte Umformung (5.13) verwendet wurde.

Die Initialisierung der Rückwärtswahrscheinlichkeiten für i∈ {1,...,I}erfolgt durch

(n,l)

Mn(i) = 1.(A.35)

134

Anhang

Da sich die Rückwärtswahrscheinlichkeiten

(n,l)

m(i)für m=Mn−1,...,1 gemäß

(n,l)

m(i) = px(n)

m+1:Mnx(n)

m−LAR+1:m,

(n)

m=i;

{l}(A.36)

∑

k=1

px(n)

m+1:Mnx(n)

m−LAR+1:m,

(n)

m=i,

(n)

m+1=k;

{l}

·P

(n)

m+1=kx(n)

m−LAR+1:m,

(n)

m=i;

{l}(A.37)

∑

k=1

px(n)

m+2:Mnx(n)

m−LAR+1:m+1,

(n)

m=i,

(n)

m+1=k;

{l}

·px(n)

m+1x(n)

m−LAR+1:m,

(n)

m=i,

(n)

m+1=k;

{l}

·P

(n)

m+1=kx(n)

m−LAR+1:m,

(n)

m=i;

{l}(A.38)

∑

k=1

px(n)

m+2:Mnx(n)

m−LAR+2:m+1,

(n)

m+1=k;

{l}

·px(n)

m+1x(n)

m−LAR+1:m,

(n)

m+1=k;

{l}

·P

(n)

m+1=kx(n)

m−LAR+1:m,

(n)

m=i;

{l}(A.39)

∑

k=1

(n,l)

m+1(k)px(n)

m+1x(n)

m−LAR+1:m,

(n)

m+1=k;

{l}

·P

(n)

m+1=kx(n)

m−LAR+1:m,

(n)

m=i;

{l}(A.40)

audrücken lassen, ergibt sich daraus unter Verwendung des Modells (5.13) folgende Rekur-

sionsvorschrift:

(n,l)

m(i) = 









∑

k=1

(n,l)

m+1(k)Nx(n)

m+1;LAR

∑

A{l}

x(n)

m+1−

+b{l}

k,V{l}

ka{l}

i,kfür m≥LAR

∑

k=1

(n,l)

m+1(k)Nx(n)

m+1;µ{l}

x,k,Σ{l}

x,k

kfür m<LAR

(A.41)

Aus der Definition der Vorwärtswahrscheinlichkeiten in (A.13) folgt weiterhin, dass sich

die Likelihood für die n-te Merkmalsvektorsequenz mit ihrer Kenntnis gemäß

px(n)

1:Mn

{l}=

∑

i=1

(n,l)

Mn(i)(A.42)

berechnen lässt. Weiterhin soll an dieser Stelle bemerkt werden, dass die Vorwärts- bzw.

Rückwärtswahrscheinlichkeiten für wachsenden bzw. sinkende Segmentindizes approxima-

tiv exponentiell abnehmen und deshalb sehr kleine Werte annehmen können, so dass es sinn-

voll ist, die Berechnung beider im logarithmischen Bereich durchzuführen.

Anhang

135

A.1.2. Maximization-Schritt

Die Parametermenge

{l+1}wird nun im zweiten Schritt durch die Maximierung des Erwar-

tungswertes der Loglikelihood gemäß

{l+1}=argmax

Ql+1(

)(A.43)

bestimmt. Es kann gezeigt werden, dass die lokalen Maximumstellen von Ql+1(

)gleich-

zeitig auch globale sind. Deshalb kann die Parametermenge

{l+1}durch die Suche der

Nullstellen der partiellen Ableitungen von Ql+1(

)nach den Komponenten von

ermittelt

werden.

Für diesen Zweck werden folgende Ableitungsregeln herangezogen, die für Vektoren a,b

∈RQund Matrizen A,B∈RQ×Qgelten, wobei Aals symmetrisch und positiv definit vor-

ausgesetzt wird [PP08, (51), (64), (78), (80)]:

∂

ln(det{A})

∂

A=A−1(A.44)

∂

aTAa

∂

A=aaT(A.45)

∂

(a−b)TA(a−b)

∂

bT=−2A(a−b)(A.46)

∂

(a−Bb)TA(a−Bb)

∂

B=−2A(a−Bb)bT.(A.47)

Bildet man die partielle Ableitung von Ql+1(

)nach µT

x,iunter Verwendung von (A.46),

so erhält man

∂

Ql+1(

)

∂

µT

x,i

=Σ−1

x,i

∑

n=1

LAR

∑

m=1

(n,l)

m(i)x(n)

m−µ{l}

x,i.(A.48)

Aus der Bedingung

∂

Ql+1(

)

∂

µT

x,iµx,i=µ{l+1}

x,i

=0folgt:

µ{l+1}

x,i=

∑

n=1

LAR

∑

m=1

(n,l)

m(i)x(n)

∑

n=1

LAR

∑

m=1

(n,l)

m(i)

.(A.49)

Die partielle Ableitungen von Ql+1(

)nach Σ−1

x,iund V−1

iergeben sich mit Berücksichti-

gung von (A.44), (A.45), der Tatsache, dass beide Matrizen Σx,iund Visymmetrisch positiv

definit sind, und

ln(det{A}) = −lndetA−1 (A.50)

136

Anhang

∂

Ql+1(

)

∂

Σ−1

x,i

=−1

∑

n=1

LAR

∑

m=1

(n,l)

m(i)x(n)

m−µ{l}

x,ix(n)

m−µ{l}

x,iT−Σx,i(A.51)

∂

Ql+1(

)

∂

V−1

=−1

∑

n=1

∑

m=LAR+1

(n,l)

m(i)

·

 x(n)

m−

LAR

∑

A{l}

x(n)

m−

−b{l}

i! x(n)

m−

LAR

∑

A{l}

x(n)

m−

−b{l}

i!T

−Vi

.

(A.52)

Die beiden Bedingungen

∂

Ql+1(

)

∂

Σ−1

x,iΣx,i=Σ{l+1}

x,i

=0und

∂

Ql+1(

)

∂

V−1

iVi=V{l+1}

=0liefern

Σ{l+1}

x,i=

∑

n=1

LAR

∑

m=1

(n,l)

m(i)x(n)

m−µ{l}

x,ix(n)

m−µ{l}

x,iT

∑

n=1

LAR

∑

m=1

(n,l)

m(i)

(A.53)

V{l+1}

∑

n=1

∑

m=LAR+1

(n,l)

m(i)x(n)

m−

LAR

∑

A{l}

x(n)

m−

−b{l}

ix(n)

m−

LAR

∑

A{l}

x(n)

m−

−b{l}

iT

∑

n=1

∑

m=LAR+1

(n,l)

m(i)

(A.54)

Schließlich sind die partiellen Ableitungen von Ql+1(

)nach bT

iund Ai,odurch

∂

Ql+1(

)

∂

=V−1

∑

n=1

∑

m=LAR+1

(n,l)

m(i) x(n)

m−

LAR

∑

Ai,

x(n)

m−

−bi!(A.55)

∂

Ql+1(

)

∂

Ai,o=V−1

∑

n=1

∑

m=LAR+1

(n,l)

m(i) x(n)

m−

LAR

∑

Ai,

x(n)

m−

−bi!x(n)

m−oT(A.56)

gegeben, was aus (A.46) und (A.47) folgt. Die Bedingungen

∂

Ql+1(

)

∂

ibi=b{l+1}

=0und

∂

Ql+1(

)

∂

Ai,oAi,o=A{l+1}

i,o

=0für o∈ {1,...,LAR}führen zu einem linearen Gleichungssystem,

welches mit den abkürzenden Bezeichnungen

Dx{l}(i)E[

,o]

m′:m′′ =

∑

n=1

m′′

∑

m=m′

(n,l)

m(i)x(n)

m−

x(n)

m−oT(A.57)

Dx{l}(i)E[

]

m′:m′′ =

∑

n=1

m′′

∑

m=m′

(n,l)

m(i)x(n)

m−

(A.58)

Anhang

137

sowie den Matrizen

G{l}







Dx{l}(i)E[1,1]

LAR+1:Mn

... Dx{l}(i)E[1,LAR]

LAR+1:MnDx{l}(i)E[1]

LAR+1:Mn

.....

Dx{l}(i)E[LAR,1]

LAR+1:Mn

... Dx{l}(i)E[LAR,LAR]

LAR+1:MnDx{l}(i)E[LAR]

LAR+1:Mn

Dx{l}(i)E[1]

LAR+1:MnT

... Dx{l}(i)E[LAR]

LAR+1:MnTN

∑

n=1

∑

m=LAR+1







(A.59)

und

H{l}







Dx{l}(i)E[1,0]

LAR+1:Mn

Dx{l}(i)E[LAR,0]

LAR+1:Mn

Dx{l}(i)E[0]

LAR+1:MnT







(A.60)

wie folgt geschrieben werden kann:

G{l}







A{l+1}

i,1T

A{l+1}

i,LAR T

(bi)T







=H{l}

i.(A.61)

Dazu ist zu bemerken, dass für den Fall, dass der Rang von G{l}

i∈R(LARQ+1)×(LARQ+1)klei-

ner als LARQ+1 ist, bekanntlich unendlich viele Lösungen von (5.33) existieren. Da die Lö-

sungsmenge aber zusammenhängend ist und für jede Lösung die entsprechenden partiellen

Ableitungen verschwinden, ist jede Lösung auch eine lokale Maximumstelle von Ql+1(

In der Praxis wird der Einfachheit halber oft die Lösung mit der geringsten euklidischen

Norm verwendet.

Die Maximierung von Ql+1(

)bezüglich der Parameter

iund ak,imuss unter Einhaltung

der beiden Nebenbedingungen

∑

k=1

k=1 (A.62)

∑

i′=1

ak,i′=1 für k∈ {1,...,I}(A.63)

erfolgen, welche jeweils über die LAGRANGE-Multiplikatoren

1und

2berücksichtigt wer-

138

Anhang

den, so dass sich die beiden Bedingungen

∂

∂ψ

i"Ql+1(

1 I

∑

k=1

k−1!#

{l+1}

∑

n=1

LAR

∑

m=1

(n,l)

m(i)1

{l+1}

1=0

(A.64)

∂

ak,i"Ql+1(

2 I

∑

i′=1

ak,i′−1!#ak,i=a{l+1}

k,i

∑

n=1

∑

m=LAR+1

(n,l)

m(k,i)1

a{l+1}

k,i

2=0

(A.65)

ergeben. Löst man die Gleichungen nach den gesuchten Parameter auf, so erhält man

{l+1}

i=−

∑

n=1

LAR

∑

m=1

(n,l)

m(i)

(A.66)

a{l+1}

k,i=−

∑

n=1

∑

LAR+1

(n,l)

m(k,i)

.(A.67)

Die unbekannten LAGRANGE-Multiplikatoren können mit Hilfe der Summation von (A.66)

und (A.67) über iunter Ausnutzung von (A.62), (A.27), (A.63) und (A.28) gemäß

∑

i=1

{l+1}

i=−

∑

n=1

LAR

∑

m=1

∑

i=1

(n,l)

m(i)

=−N·LAR

(A.68)

∑

i=1

a{l+1}

k,i=−

∑

n=1

∑

LAR+1

∑

i=1

(n,l)

m(k,i)

=−

∑

n=1

∑

LAR+1

(n,l)

m−1(k)

(A.69)

ermittelt werden. Setzt man die resultierenden Lösungen für die LAGRANGE-Multiplikatoren

1=−N·LAR (A.70)

2=−

∑

n=1

∑

LAR+1

(n,l)

m−1(k)(A.71)

in (A.66) und (A.67) ein, gelangt man zu den gesuchten Parametern:

{l+1}

∑

n=1

LAR

∑

m=1

(n,l)

m(i)

N·LAR

(A.72)

a{l+1}

k,i=

∑

n=1

∑

m=LAR+1

(n,l)

m(k,i)

∑

n=1

∑

m=LAR+1

(n,l)

m−1(k)

.(A.73)

Damit sind alle Komponenten von

{l+1}bestimmt und die (l+1)-te Iteration des EM-

Algorithmus ist abgeschlossen.

Anhang

139

A.2. Herleitungen und Beweise zum Beobachtungsmodell

A.2.1. Eigenschaften und Berechnung des Synthesefensters

Möchte man ein Signal gemäß (5.88) aus seinem Kurzzeit-Spektrum berechnen, wird ein

Synthesefenster wS(l′)benötigt, welches die sogenannte Vollständigkeitsbedingung (5.85)

erfüllt. An dieser Stelle soll gezeigt werden, dass sich diese Vollständigkeitsbedingung zu

(5.87) vereinfacht, falls das Synthesefenster den gleichen Träger wie das Analysefenster

besitzt, d.h. falls (5.86) erfüllt ist.

Dazu wird zunächst (5.85) gemäß

K−1

∑

k=0

ej2

Kk(l−p′)!∞

∑

m=−∞

wS(l−mB)wA(p′−mB) =

l−p′für l,p′∈Z(A.74)

umformuliert. Da das Analyse- und Synthesefenster den gleichen Träger besitzen, d.h. dass

(2.1) und (5.86) erfüllt sind, folgt ∀B∈Z

wS(l−mB)wA(p′−mB) = 0 für l−p′≥Lw.(A.75)

Damit ist (A.74) für |l−p′|≥Lwohnehin erfüllt, so dass nur noch

K−1

∑

k=0

ej2

Kk(l−p′)!∞

∑

m=−∞

wS(l−mB)wA(p′−mB) =

l−p′für l−p′<Lw

(A.76)

zu erfüllen ist. Unter Beachtung der Summenorthogonalität

K−1

∑

k=0

ej2

∞

∑

=−∞

(

−

K)für

∈Z,K∈N(A.77)

und der Bedingung Lw≤Kfolgt, dass (A.76) auch für l6=p′erfüllt ist. Daher verbleibt nur

noch die Bedingung

∞

∑

m=−∞

wS(l−mB)wA(l−mB) = 1

Kfür l∈Z.(A.78)

Da der linke Ausdruck in (A.78) die Periode Bbezüglich lbesitzt, genügt es, dass (A.78) nur

für alle linnerhalb einer Periode erfüllt wird, so dass schließlich das zu zeigende Ergebnis

∞

∑

m=−∞

wS(l−mB)wA(l−mB) = 1

Kfür 0 ≤l<B(A.79)

resultiert. Bedingt durch den Träger des Analyse- und Synthesefensters (siehe (2.1) und

(5.86)) beinhaltet die Summe im linken Ausdruck von (A.79) nur endlich viele Summan-

den ungleich Null. Daher kann (A.79) auch äquivalent durch

∑

m=0

wS(l−mB)wA(l−mB) = 1

Kfür 0 ≤l<B(A.80)

140

Anhang

mit

:=Lw

B(A.81)

ausgedrückt werden. An der Symmetrie dieser Bedingung bezüglich der Fenster erkennt

man, dass die Bestimmung eines Synthesefensters zu einem gegebenen Analysefenster völlig

analog zur Bestimmung eines Analysefensters zu einem gegebenen Synthesefenster verläuft.

Übrigens lässt sich die Bedingung (A.79) auch dadurch herleiten, dass (5.88) unter An-

wendung der inversen diskreten FOURIER-Transformation (engl. Inverse Discrete FOURIER

Transform (IDFT)) und durch Anwendung des Verschiebungssatzes gemäß

K−1

∑

k=0

Y(m,k)·ej2

Kk(l−mB)=ywA(m,l−mB),(A.82)

wie folgt umformuliert wird

y(l) =

∞

∑

m=−∞

wS(l−mB)KywA(m,l−mB)(A.83)

=y(l)

∞

∑

m=−∞

wS(l−mB)KwA(l−mB).(A.84)

Zur Berechnung eines Synthesefensters lässt sich die Bedingung (A.80) in Matrixschreib-

weise wie folgt ausdrücken

WAwS=1

K1,(A.85)

wobei

1:= (1,...,1)T∈RB(A.86)

wS:= (wS(0),...,wS(Lw−1))T∈RLw(A.87)

WA:=W(1)

A,...,W(

+1)

A∈RB×Lw(A.88)

mit

W(i)

A:=









diag{wA((i−1)B),...,wA(iB−1)}∈RB×Bfür 1 ≤i≤

"diag{wA(

B),...,wA(Lw−1)}

0#∈RB×(Lw−

B)für i=

+1.(A.89)

An dieser Stelle wird erkennbar, dass das Synthesefenster im Allgemeinen nicht eindeutig ist,

da das Gleichungssystem unterbestimmt ist. Unter der Annahme, dass WAWT

Anicht singulär

ist, lässt sich jedoch die Lösung mit kleinster ℓ2-Norm durch

wS,ℓ2=1

KWT

AWAWT

A−11(A.90)

Anhang

141

bestimmen. Unter Berücksichtigung von

WAWT

A−1=diag1

∑

m=0w2

A(mB),..., 1

∑

m=0w2

A(B−1+mB)∈RB×B,(A.91)

lässt sich (A.90) äquivalent durch

wS,ℓ2=1

KwA(0)

∑

m=0w2

A(mB),..., wA(B−1)

∑

m=0w2

A(B−1+mB),...,

wA((

−1)B)

∑

m=0w2

A(mB),..., wA(

B−1)

∑

m=0w2

A(B−1+mB),

wA(

∑

m=0w2

A(mB),..., wA(Lw−1)

∑

m=0w2

A(Lw−1−

B+mB)T

.(A.92)

ausdrücken.

A.2.2. Stauchungssatz für die zeitdiskrete FOURIER-Transformation

Satz 1. Sei x(l)ein zeitdiskretes Signal, welches die zeitdiskrete FOURIER-Transformation

Xej

besitzt. Betrachtet werde nun ein weiteres zeitdiskretes Signal y(l):=x(lB), welches

durch Abtastung von x(l)mit der Abtastfrequenz 1

B, B ∈N, entsteht. Dessen zeitdiskrete

FOURIER-Transformation Y ej

hängt dabei mit X ej

wie folgt zusammen:

Yej

=1

B−1

∑

m=0

Xej1

−2

m).(A.93)

Beweis. Die inverse zeitdiskrete FOURIER-Transformation von Yej

ist durch

y(l) = 1

−

Yej

ej

(A.94)

gegeben. Setzt man (A.93) in (A.94) ein, so folgt

y(l) = 1

−

B−1

∑

m=0

Xej1

−2

m)ej

.(A.95)

Unter Verwendung der Variablensubstitution

:=1

−2

m)erhält man

y(l) = 1

−2

B(−

−2

m) 1

B−1

∑

m=0

Xej

ej(B

m)l!Bd

(A.96)

B−1

∑

m=0Z1

−2

B(−

−2

Xej

ej

Bld

.(A.97)

142

Anhang

Beachtet man schließlich, dass die Grenzen der Integrale der Summanden jeweils aneinander

stoßen, gelangt man zum gesuchten Ergebnis

y(l) = 1

−

Xej

ej

Bld

(A.98)

=x(lB).(A.99)

A.2.3. Zusammenhang zwischen der Abklingkonstanten und der

Nachhallzeit

In diesem Abschnitt wird ein Zusammenhang zwischen der mittleren Nachhallzeit T60 und

der Abklingkonstanten

hhergeleitet, falls die Raumimpulsantwort einen Zufallsprozess dar-

stellt, welcher durch (5.141) gegeben ist.

Die Nachhallzeit T60 ist als diejenige Zeit definiert, die benötigt wird, damit die Energie

der Raumimpulsantwort um 60dB abklingt. Nimmt man zur Vereinfachung bei der Behand-

lung von zeitdiskreten Signalen an, dass die Nachhallzeit T60 ein Vielfaches der Abtastdauer

TAdarstellt, d.h. T60 =l0TAmit l0∈N, so muss l0die Bedingung

10log10 





E∞

∑

l′=l

h2(l′)

E∞

∑

l′=0

h2(l′)



=−60 (A.100)

erfüllen. In Anbetracht der Tatsache, dass es sich bei der Raumimpulsantwort nach Modell

(5.141) um einen Zufallsprozess handelt, werden in (A.100) die Erwartungswerte der Ener-

gien verwendet.

Unter Verwendung von (5.146) und der Annahme, dass der Erwartungswert und der Limes

vertauscht werden dürfen, erhält man

E"∞

∑

l′=l

h2(l′)#=E"∞

∑

l′=0

h2(l′)#−E"l−1

∑

l′=0

h2(l′)#(A.101)

=lim

Lh→∞E"Lh−1

∑

l′=0

h2(l′)#−E"l−1

∑

l′=0

h2(l′)#(A.102)

=lim

Lh→∞

h·e−2Lh

h−1

e−2

h−1

−

h·e−2l

h−1

e−2

h−1

(A.103)

h·e−2l

1−e−2

.(A.104)

Damit lässt sich der linke Term in (A.100) durch

10log10 





E∞

∑

l′=l

h2(l′)

E∞

∑

l′=0

h2(l′)



=10·log10 e−2l0

h=10·−2l0

ln(10)(A.105)

Anhang

143

ausdrücken, so dass nach dem Umstellen nach l0die Bedingung

l0=3

hln(10)(A.106)

folgt. Nach einer Multiplikation beider Seite von (A.106) mit der Abtastdauer TAergibt sich

der gesuchte Zusammenhang

T60 =l0TA=3TA

hln(10).(A.107)

A.2.4. Herleitung der Erwartungswerte und Varianzen der

Koeffizienten der Raumimpulsantwort im MEL-spektralen

Bereich

In diesem Abschnitt werden die Erwartungswerte

Hm′,qsowie Varianzen

2˘

Hm′,q

der Ko-

effizienten der Raumimpulsantwort im MEL-spektralen Bereich ¯

Hm′unter Annahme des

vereinfachten Modells der Raumimpulsantwort (5.141) hergeleitet.

Für den Mittelwert ergibt sich zunächst gemäß der Definitionen (5.149) und (5.122)

Hm′,q=Eh˘

Hm′,qi=1

K(o)

q−K(u)

q+1

K(o)

∑

k=K(u)

Eh˘

hk,k(m′)2i.(A.108)

Der Erwartungswert des Betragsquadrates der Band-zu-Band-Filter lässt sich mit Hilfe von

(5.140) und des Modells der Raumimpulsantwort (5.141) gemäß

Eh˘

hk,k(m′)2i=E



Lw−1

∑

p′=−Lw+1

w(p′)˘

h(m′B+p′)e−j2

Kkp′

2

(A.109)

=E



Lw−1

∑

p′=−Lw+1

w(p′)·

h·˘vh(m′B+p′)·

h(m′B+p′)·e−m′B+p′

he−j2

Kkp′

2



(A.110)

formulieren. Unter Verwendung der Abkürzungen

m′,p′,k:=

h·

h(m′B+p′)·e−m′B+p′

hw(p′)e−j2

Kkp′(A.111)

m′,p′:=

m′,p′,k=

h·

h(m′B+p′)·e−m′B+p′

hw(p′)(A.112)

m′,p′:=˘vh(m′B+p′)(A.113)

und der Korrelationsfunktion (5.142) des der Raumimpulsantwort zugrunde liegenden wei-

ßen, GAUSS’schen Zufallsprozesses ˘vh(l)lässt sich dieser Ausdruck zu

Eh˘

hk,k(m′)2i=E



Lw−1

∑

p′=−Lw+1

m′,p′,k˘

m′,p′

2

=

Lw−1

∑

p′=−Lw+1

m′,p′,k2=

Lw−1

∑

p′=−Lw+1

m′,p′

(A.114)

144

Anhang

vereinfachen. Aufgrund der offensichtlichen Frequenzunabhängigkeit dieses Terms folgt für

den Mittelwert

Hm′,qmit (A.108)

Hm′,q=

Lw−1

∑

p′=−Lw+1

m′,p′.(A.115)

Für die Varianz

2˘

Hm′,q

erhält man mit der Definition (5.150) und der Ausnutzung der

Linearität des Erwartungswertes

2˘

Hm′,q

=E"˘

Hm′,q−

Hm′,q2#=E˘

Hm′,q2−

Hm′,q2

,(A.116)

wobei sich E˘

Hm′,q2mit Hilfe von (5.122) gemäß

E˘

Hm′,q2= 1

K(o)

q−K(u)

q+1!2K(o)

∑

k=K(u)

K(o)

∑

k′=K(u)

Eh˘

hk,k(m′)2˘

hk′,k′(m′)2i(A.117)

ausdrücken lässt. Dabei lassen sich die einzelnen Summanden mit (5.140) und den Abkür-

zungen (A.111) und (A.113) durch

Eh˘

hk,k(m′)2˘

hk′,k′(m′)2i

=E



Lw−1

∑

p′=−Lw+1

m′,p′,k˘

m′,p′

2

Lw−1

∑

p′′=−Lw+1

m′,p′′,k′˘

m′,p′′

2

(A.118)

Lw−1

∑

p′,p′′,p′′′,p′′′′=−Lw+1

m′,p′,k

∗

m′,p′′,k

m′,p′′′,k′

∗

m′,p′′′′,k′E˘

m′,p′˘

m′,p′′ ˘

m′,p′′′ ˘

m′,p′′′′ (A.119)

beschreiben. Unter Berücksichtigung der Tatsache, dass es sich bei ˘vh(l)um einen weißen,

GAUSS’schen Zufallsprozess mit der Autokorrelationsfunktion (5.142) handelt, folgt mit der

Definition (A.113) und [Iss18]

E˘

m′,p′˘

m′,p′′ ˘

m′,p′′′ ˘

m′,p′′′′ =











3 für p′=p′′ =p′′′ =p′′′′

1 für (p′′ =p′∧p′′′′ =p′′′ ∧p′′′ 6=p′)

∨(p′′′ =p′∧p′′′′ =p′′ ∧p′′ 6=p′)

∨(p′′′′ =p′∧p′′′ =p′′ ∧p′′ 6=p′)

0 sonst

.(A.120)

Damit vereinfacht sich der Ausdruck (A.119) zu

Eh˘

hk,k(m′)2˘

hk′,k′(m′)2i=3

Lw−1

∑

p′=−Lw+1

m′,p′+

(1)

m′+

(2)

m′,k,k′,(A.121)

Anhang

145

wobei

(1)

m′:=

Lw−1

∑

p′=−Lw+1

Lw−1

∑

p′′′=−Lw+1

p′′′6=p′

m′,p′

m′,p′′′ (A.122)

(2)

m′,k,k′:=

Lw−1

∑

p′=−Lw+1

Lw−1

∑

p′′=−Lw+1

p′′6=p′

m′,p′,k

∗

m′,p′′,k

m′,p′,k′

∗

m′,p′′,k′

Lw−1

∑

p′=−Lw+1

Lw−1

∑

p′′=−Lw+1

p′′6=p′

m′,p′,k

∗

m′,p′′,k

m′,p′′,k′

∗

m′,p′,k′.(A.123)

Stellt man mit Hilfe einfacher Umformungen

(1)

m′und

(2)

m′,k,k′gemäß

(1)

m′= Lw−1

∑

p′=−Lw+1

m′,p′!2

−

Lw−1

∑

p′=−Lw+1

m′,p′(A.124)

(2)

m′,k,k′=

Lw−1

∑

p′=−Lw+1

m′,p′,k

m′,p′,k′

+

Lw−1

∑

p′=−Lw+1

m′,p′,k

∗

m′,p′,k′

−2

Lw−1

∑

p′=−Lw+1

m′,p′

(A.125)

=

Lw−1

∑

p′=−Lw+1

m′,p′,k+k′

2

+

Lw−1

∑

p′=−Lw+1

m′,p′,k−k′

2

−2

Lw−1

∑

p′=−Lw+1

m′,p′(A.126)

dar und setzt das Resultat in (A.121) ein, dann erhält man

Eh˘

hk,k(m′)2˘

hk′,k′(m′)2i

= Lw−1

∑

p′=−Lw+1

m′,p′!2

+

Lw−1

∑

p′=−Lw+1

m′,p′,k+k′

2

+

Lw−1

∑

p′=−Lw+1

m′,p′,k−k′

2

(A.127)

Durch das aufeinanderfolgende Einsetzen von (A.127) in (A.117) sowie (A.117) und (A.115)

in (A.116) folgt der gesuchte vereinfachte Ausdruck für die Varianz

2˘

Hm′,q

K(o)

q−K(u)

q+12

K(o)

∑

k,k′=K(u)





Lw−1

∑

p′=−Lw+1

m′,p′,k+k′

2

+

Lw−1

∑

p′=−Lw+1

m′,p′,k−k′

2

2

.

(A.128)

A.2.5. Herleitung der Leistungskompensationskonstanten

Die Leistungskompensationskonstante CEwird verwendet, um das Kurzzeit-Leistungsspek-

trum gemäß (5.117) zu approximieren. Sie soll dazu die Bedingung (5.119), welche äquiva-

146

Anhang

lent gemäß

E"K−1

∑

k′,k′′=0

∑

m′,m′′=−LH,u

X(m−m′,k′)˘

X∗(m−m′′,k′′)˘

hk,k′(m′)˘

h∗

k,k′′(m′′)#

=E"CE·

∑

m′=0˘

X(m−m′,k)2˘

hk,k(m′)2#,(A.129)

ausgedrückt werden kann, erfüllen. Dabei soll der Erwartungswert nicht nur über alle mög-

lichen Eingangssignale gebildet werden, sondern ebenfalls über alle möglichen Impulsant-

worten, die sich gemäß dem vereinfachten Modell (5.141) ergeben können.

Um zu einer handhabbaren Lösung zu gelangen, wird in dieser Herleitung davon ausge-

gangen, dass es sich beim unverhallten Eingangssignal ˘x(l)um einen reellen weißen GAUSS’-

schen Zufallsprozess handelt, welcher unkorreliert mit der Raumimpulsantwort ist und des-

sen Autokorrelationsfunktion

E˘x(l)˘x(l′)=

l−l′(A.130)

erfüllt, wobei

xdie Leistung von ˘x(l)bezeichnet. Die Autokorrelationsfunktion des Spek-

trums kann daher durch

E˘

X(m−m′,k′)˘

X∗(m−m′′,k′′)

Lw−1

∑

l=0

Lw−1

∑

l′=0

wA(l)wA(l′)E˘x(l+m−m′B)˘x(l′+m−m′′B)e−j2

K(k′l−k′′l′)(A.131)

Lw−1

∑

l=0

wA(l)wA(l+m′′ −m′B)e−j2

K{k′l−k′′[l+(m′′−m′)B]}(A.132)

beschrieben werden. Weiterhin gilt für die Autokorrelationsfunktion der Raumimpulsantwort

h(l)unter Berücksichtigung von (5.142)

E˘

h(l)˘

h(l′)=

l−l′

h(l)e−2l

h,(A.133)

so dass sich die Autokorrelationsfunktion der Kreuzbandfilter mit Hilfe von (5.99) und

(A.133) zu

Eh˘

hk,k′(m′)˘

h∗

k,k′′(m′′)i(A.134)

=E"Lh−1

∑

l=0

Lh−1

∑

l′=0

h(l)˘

h(l′)

k,k′(m′B−l)

∗

k,k′′(m′′B−l′)#(A.135)

Lh−1

∑

l=0

h(l)

k,k′(m′B−l)

∗

k,k′′(m′′B−l)e−2l

h.(A.136)

ergibt. Beachtet man weiterhin, dass der Träger von

k,k′(l)durch [−Lw+1,Lw−1]gegeben

ist, so lässt sich (A.136) mit der Variablensubstitution l′=m′B−lauch derart formulieren

Eh˘

hk,k′(m′)˘

h∗

k,k′′(m′′)i

Lw−1

∑

l′=−Lw+1

k,k′(l′)

∗

k,k′′(l′+m′′ −m′B)·

h(m′B−l′)e−2(m′B−l′)

h.(A.137)

Anhang

147

Bildet man den Erwartungswert des Betragsquadrates von Y(m,k), was dem linken Term

in (A.129) entspricht, und setzt anschließend die gefundenen Ausdrücke (A.132) und (A.137)

ein, so erhält man

Eh˘

Y(m,k)2i

∑

m′,m′′=−LH,u

K−1

∑

k′=0

K−1

∑

k′′=0

E˘

X(m−m′,k′)˘

X∗(m−m′′,k′′)Eh˘

hk,k′(m′)˘

h∗

k,k′′(m′′)i(A.138)

∑

m′,m′′=−LH,u

Lw−1

∑

l=0

wA(l)wA(l+m′′ −m′B)

Lw−1

∑

l′=−Lw

h(m′B−l′)e−2(m′B−l′)

h·

m′′−m′,l,l′,k,

(A.139)

wobei

m′′−m′,l,l′,k:=

K−1

∑

k′=0

K−1

∑

k′′=0

k,k′(l′)

∗

k,k′′(l′+m′′ −m′B)e−j2

K[k′l−k′′(l+(m′′−m′)B)].(A.140)

Setzt man in (A.140) die Definition von

k,k′(l)gemäß (5.96) ein, so folgt

m′′−m′,l,l′,k=

K−1

∑

k′=0

K−1

∑

k′′=0"Lw−1

∑

p′=0

wA(p′)wS(p′+l′)ej2

Kk′(p′+l′)e−j2

Kkp′#

·"Lw−1

∑

p′′=0

wA(p′′)wS(p′′ +l′+m′′ −m′B)e−j2

Kk′′(p′′+l′+(m′′−m′)B)ej2

Kkp′′ #

·e−j2

K[k′l−k′′(l+(m′′−m′)B)] (A.141)

Lw−1

∑

p′=0

wA(p′)wS(p′+l′)e−j2

Kkp′Lw−1

∑

p′′=0

wA(p′′)wS(p′′ +l′+m′′ −m′B)ej2

Kkp′′

p′,p′′,l,l′(A.142)

mit

p′,p′′,l,l′:="K−1

∑

k′=0

ej2

Kk′(p′+l′−l)#"K−1

∑

k′′=0

e−j2

Kk′′(p′′+l′−l)#(A.143)

schreiben. Aufgrund der Summenorthogonalität (A.77) vereinfacht sich

p′,p′′,l,l′zu

p′,p′′,l,l′=K2∞

∑

′=−∞

∞

∑

′′=−∞

p′+l′−l−

′K

p′′ +l′−l−

′′K.(A.144)

Beachtet man noch die Identität

(l−

)

l−

′=

(l−

)



−

′für l,

′∈Z,(A.145)

dann erhält man

p′,p′′,l,l′=K2∞

∑

′=−∞

∞

∑

′′=−∞

p′+l′−l−

′K

p′′ −p′−

′′ −

′K.(A.146)

148

Anhang

Da die Differenz p′′ −p′stets im Intervall [−Lw+1,Lw−1]liegt und K>Lwgilt, kann das

Argument der zweiten DIRAC-Funktion in (A.146) überhaupt nur für

′′ =

′Null werden,

so dass sich

p′,p′′,l,l′=K2∞

∑

′=−∞

p′+l′−l−

′K

p′′ −p′(A.147)

ergibt. Setzt man noch (A.147) in (A.142) ein, so erhält man den Ausdruck

m′′−m′,l,l′,k=K2∞

∑

′=−∞

Lw−1

∑

p′=0

wA(p′)wS(p′+l′)

Lw−1

∑

p′′=0

wA(p′′)wS(p′′ +l′+m′′ −m′B)

p′+l′−l−

′K

p′′ −p′e−j2

Kk(p′−p′′)(A.148)

=K2∞

∑

′=−∞

Lw−1

∑

p′=0

A(p′)wS(p′+l′)·wS(p′+l′+m′′ −m′B)

p′+l′−l−

′K(A.149)

=K2∞

∑

′=−∞

A(−l′+l+

′K)wS(l+

′K)·wS(l+

′K+m′′ −m′B),

(A.150)

woran zu erkennen ist, dass

m′′−m′,l,l′,kgar nicht von kabhängt. Für l∈[−Lw+1,Lw−1]

gilt wS(l+

′K) = 0∀

′6=0, so dass

m′′−m′,l,l′,k=K2w2

A(−l′+l)wS(l)wS(l+m′′ −m′B).(A.151)

Setzt man (A.151) in (A.139) ein, so ergibt sich

Eh˘

Y(m,k)2i=

h·CZ(A.152)

mit

CZ:=K2

∑

m′,m′′=−LH,u

Lw−1

∑

l=0

wA(l)wS(l)wA(l+m′′ −m′B)wS(l+m′′ −m′B)

Lw−1

∑

l′=−Lw+1

h(m′B−l′)e−2(m′B−l′)

hw2

A(−l′+l).(A.153)

Der rechte Ausdruck in (A.129) lässt sich mit (A.132) und (A.137) zu

E"CE·

∑

m′=0˘

X(m−m′,k)2˘

hk,k(m′)2#

=CE

∑

m′=0

Eh˘

X(m−m′,k)2iEh˘

hk,k(m′)2i(A.154)

=CE

∑

m′=0

Lw−1

∑

l=0

A(l)!·

Lw−1

∑

l′=−Lw+1

k,k(l′)2

h(m′B−l′)e−2(m′B−l′)

h!(A.155)

=CE·

h·CN(A.156)

Anhang

149

vereinfachen, wobei CNunter Beachtung von (5.96) durch

CN:= Lw−1

∑

l=0

A(l)!



∑

m′=0

Lw−1

∑

l′=−Lw+1 Lw−1

∑

p′′=0

wA(p′′)wS(p′′ +l′)!2

h(m′B−l′)e−2(m′B−l′)

h



(A.157)

definiert ist.

Die gesuchte Leistungskompensationskonstante CEresultiert schließlich aus dem Gleich-

setzen der beiden Ausdrücke (A.156) und (A.152):

CE=CZ

.(A.158)

A.3. Raumimpulsantworten zur Erzeugung der

AURORA5-Datenbank

Bei der ursprünglichen Erstellung der AURORA5-Datenbank [Hir07] wurden zwei unter-

schiedliche simulierte Freisprechumgebungen betrachtet, welche stellvertretend als Büro und

Wohnzimmer bezeichnet wurden. Für jeden dieser zwei Räume wurden zunächst 3 unter-

schiedliche RIAs erzeugt, welche jeweils 3 unterschiedliche Ausprägungen bzw. Beschaf-

fenheiten dieser Räume repräsentieren sollten. Dabei wiesen die 3 RIAs für das Büro Nach-

hallzeiten T60 von etwa 0,3s, 0,35s und 0,4s und entsprechende DRRs von etwa −6,0dB,

−6,4dB und −6,8dB auf. Beim Wohnzimmer nahm die Nachhallzeit Werte von etwa 0,4s,

0,45s und 0,5s an, wobei die entsprechenden DRRs etwa −5,7dB, −6,5dB und −7,0dB

betrugen. Zur Berechnung aller 6 RIAs wurde im Wesentlichen der direkte Anteil samt den

frühen Reflexionen mit Hilfe der Spiegelquellenmethode [All79] erzeugt, wobei anschlie-

ßend der Anteil des späten Nachhalls künstlich hinzugefügt wurde. Für weitere Details sei

auf die ausführlichere Dokumentation in [HF05] verwiesen. Die verhallten Testdaten für je-

den der zwei Räume wurden anschließend dadurch erzeugt, indem saubere Sprachsignale

der TI-Digits-Datenbank mit jeweils einer der 3 raumspezifischen RIAs gefaltet wurden.

Die insgesamt 6 RIAs sind in Abb. A.1 illustriert. Zudem zeigt Abb. A.2 die entsprechen-

den log-MEL-spektrale Repräsentationen ¯

hm,q.

A.4. Statistische Signifikanz der Unterschiede zwischen

Wortfehlerraten

Zur approximativen Untersuchung der statistischen Signifikanz der Unterschiede der Wort-

fehlerraten zweier Verfahren,

w,1und

w,2, sei hier nur eine stark vereinfachte Methode aus

[GC89] angegeben, deren Defizite im Anschluss diskutiert werden sollen. Diese geht von

der Annahme aus, dass es sich bei der Erkennungsaufgabe um ein BERNOULLI-Experiment

bestehend aus NGes unabhängigen Einzelexperimenten handelt, bei dem jeweils ein Wort ent-

weder falsch oder richtig erkannt werden kann. Die Wahrscheinlichkeit ein Wort richtig zu

erkennen liegt bei den beiden Verfahren jeweils näherungsweise bei

w,1bzw.

w,2. Bei die-

sen beiden Wahrscheinlichkeiten handelt es sich um Schätzungen, wobei sich die Varianzen

150

Anhang

-0,1

-0,2

0,1

0,2

0,2 0,3 0,4

Zeit l·TA[s]

h(l)

(a) Büro (T60 ≈0,3s, DRR ≈ −6,0dB)

-0,1

-0,2

0,1

0,2

0,2 0,3 0,4

0Zeit l·TA[s]

h(l)

(b) Wohnzimmer (T60 ≈0,4s,

DRR ≈ −5,7dB)

-0,1

-0,2

0,1

0,2

0,2 0,3 0,4

Zeit l·TA[s]

h(l)

-0,1

-0,2

0,1

0,2

0,2 0,3 0,4

0Zeit l·TA[s]

h(l)

(d) Wohnzimmer (T60 ≈0,45s,

DRR ≈ −6,5dB)

-0,1

-0,2

0,1

0,2

0,2 0,3 0,4

3,2

Zeit l·TA[s]

h(l)

(e) Büro (T60 ≈0,4s, DRR ≈ −6,8dB)

-0,1

-0,2

0,1

0,2

0,2 0,3 0,4

0Zeit l·TA[s]

h(l)

(f) Wohnzimmer (T60 ≈0,5s,

DRR ≈ −7,0dB)

Abbildung A.1.: Zur Erstellung der AURORA5-Datenbank verwendete RIAs.

Anhang

151

Index des MEL-Bandes q

Segmentindex m+1

−2

−4

−6

−8

−10

−12

(a) Büro (T60 ≈0,3s, DRR ≈ −6,0dB)

Index des MEL-Bandes q

Segmentindex m+1

20 25

−2

−4

−6

−8

−10

−12

(b) Wohnzimmer (T60 ≈0,4s,

DRR ≈ −5,7dB)

Index des MEL-Bandes q

Segmentindex m+1

−2

−4

−6

−8

−10

−12

Index des MEL-Bandes q

Segmentindex m+1

20 25

−2

−4

−6

−8

−10

−12

(d) Wohnzimmer (T60 ≈0,45s,

DRR ≈ −6,5dB)

Index des MEL-Bandes q

Segmentindex m+1

−2

−4

−6

−8

−10

−12

(e) Büro (T60 ≈0,4s, DRR ≈ −6,8dB)

Index des MEL-Bandes q

Segmentindex m+1

20 25

−2

−4

−6

−8

−10

−12

(f) Wohnzimmer (T60 ≈0,5s,

DRR ≈ −7,0dB)

Abbildung A.2.: Log-MEL-spektrale Repräsentationen ¯

hm,qder RIAs, die ursprünglich zur Erstellung

der AURORA5-Datenbank verwendet worden sind.

152

Anhang

des Schätzfehlers bedingt durch das BERNOULLI-Experiment gemäß

w,j=

w,j1−

w,j

NGes

für j=1,2 (A.159)

berechnen lassen. Aufgrund der sehr hohen Anzahl an Einzelexperimenten NGes können die

Schätzfehler unter Beachtung des Zentralen Grenzwertsatzes [Man64] als annähernd nor-

malverteilt angesehen werden. Unter der Nullhypothese, dass beide Verfahren im Mittel die-

selbe Fehlerrate liefern, und der weiteren Annahme, dass die Schätzfehler beider Verfahren

unabhängig sind, ist die Differenz ∆

w:=

w,1−

w,2ebenfalls normalverteilt mit der Vari-

anz

w,1+

w,2. In diesem Fall ist der Unterschied zwischen den Wortfehlerraten der beiden

betrachteten Verfahren dann als statistisch signifikant mit einem Signifikanzniveau von 5%

anzusehen, wenn die Differenz ∆

waußerhalb des 95%-Konfidenzintervalls

I95% :=h−q

w,1+

w,2,q

w,1+

w,2i,(A.160)

liegt.

Diese Art des Signifikanztests geht jedoch von Annahmen aus, die für die in dieser Ar-

beit betrachteten Testszenarien im Allgemeinen nicht zutreffend sind. So ist die Annahme,

dass die Erkennungsergebnisse für einzelne Wörter als unabhängige Ereignisse angesehen

werden können, wenn überhaupt nur für die Einzelworterkennung, die mit der AURORA5-

Datenbank durchgeführt wird, gerechtfertigt. Für Erkennungsaufgaben, die im Zusammen-

hang mit der AURORA4-Datenbank stehen und bei denen ein Sprachmodell verwendet wird,

besteht offensichtlich eine Abhängigkeit zwischen aufeinanderfolgenden erkannten Wörtern.

Aber auch im Falle der Einzelworterkennung muss berücksichtigt werden, dass pro Wort

mehrere Einfügefehler auftreten können, so dass die Wahrscheinlichkeiten für die richtige

Erkennung eines Wortes in der Regel von Wort zu Wort variieren. Eine weitere unzutreffen-

de Annahme ist die Unabhängigkeit der Schätzfehler beider Verfahren, da beiden Verfahren

dieselben oder zumindest sehr ähnliche Testdaten zugrunde liegen. Daher kann davon ausge-

gangen werden, dass aufgrund der Ähnlichkeit beider Verfahren eine Ähnlichkeit der Fehler

zu erwarten ist.

Eine Möglichkeit zur Berücksichtigung der Abhängigkeit der Ergebnisse zweier Verfah-

ren bietet der sogenannte MCNEMAR’sche Test [GC89]. Dabei können Aussagen über die

relative Leistungsfähigkeit zweier Verfahren beruhend auf der Information darüber gemacht

werden, wie viele Wörter des Testdatensatzes existieren, die vom ersten Verfahren richtig

und vom zweiten falsch erkannt wurden, und umgekehrt. Zur Lösung des Problems der Ab-

hängigkeit von aufeinanderfolgenden Wörtern bietet sich der sogenannte Test mit gepaarten

Stichproben (engl. matched pairs test) [GC89] an, bei dem die Testdaten in unabhängige

Segmente wie einzelne Sätze unterteilt werden und anschließend die durchschnittliche An-

zahl der Fehler pro Segment beider Verfahren verglichen wird. Auf die Durchführung von

Signifikanztests dieser Art wurde in dieser Arbeit jedoch verzichtet, da das primäre Ziel in

der Feststellung von groben Tendenzen lag und nicht in der Interpretation von marginalen,

eventuell signfikanten, Unterschieden.

Abkürzungsverzeichnis

153

Formelzeichen

Allgemeine Bemerkungen

•Wahrscheinlichkeiten werden durchgehend durch P(·)gekennzeichnet, Verteilungs-

dichtefunktionen hingegen durch p(·). Dabei wird von der in der Literatur häufig ver-

wendeten Notation, die Zufallsvariable als Index zu verwenden, zugunsten der Lesbar-

keit der Ausdrücke in den Fällen abgesehen, wo die Zufallsvariable aus dem Argument

der Verteilungsdichtefunktion ersichtlich wird.

•Für den Erwartungswert einer Zufallsvariable wird die Notation E [·]verwendet. Um

deutlich zu machen, bezüglich welcher Zufallsvariablen der Erwartungswert zu bilden

ist, wird die entsprechende Zufallsvariable als Index verwendet.

•Zufallsvariablen werden stets mit einem Breve gemäß ˘

(·)versehen. Die entsprechen-

den Realisierungen tragen dasselbe Symbol, jedoch ohne das Breve.

•Geschätzte Werte werden stets durch ein zusätzliches Dach gemäß ˆ

(·)gekennzeichnet.

Spezielle Symbole und Definitionen

1. . . . . . . . . . . . . . Vektor bestehend aus Einsen

I. . . . . . . . . . . . . . Einheitsmatrix

0. . . . . . . . . . . . . . Nullvektor

∗. . . . . . . . . . . . . . Faltung

(·)∗. . . . . . . . . . . Komplexe Konjugation

(·)T. . . . . . . . . . . Transposition

⌊·⌋. . . . . . . . . . . . Rundung auf die nächstkleinere oder gleich große, ganze Zahl

det{·}. . . . . . . . . Determinante

ℜ[·]. . . . . . . . . . . Realteil

•Zeitdiskreter

-Impuls:

(l):=(1 für l=0

0 für l∈Z\{0}.(161)

•Diagonalmatrix oder Vektor bestehend aus den Diagonalelementen einer Matrix:

Das Ergebnis der in dieser Arbeit verwendeten Operation diag{·}hängt vom Typ

ihres Argumentes ab. Handelt es sich beim Argument um einen Vektor, so ist das

155

156

Formelzeichen

Ergebnis eine Diagonalmatrix mit den Elementen des Vektors auf der

Hauptdiagonalen gemäß

diagn(x1,x2,...,xN−1,xN)To:=





x10 0 ... 0

0x20... 0

0 0 .......

....xN−10

0 0 ... 0xN







.(162)

Ist das Argument jedoch eine Matrix, so liefert die Anwendung von diag{·}einen

Vektor, dessen Einträge aus den Elementen der Hauptdiagonalen der Matrix bestehen:

diag















x1,1x1,2x1,3... x1,N

x2,1x2,2x2,3... x2,N

x3,1x3,2

.......

....xN−1,N−1xN−1,N

xN,1xN,2... xN,N−1xN,N

















:=





x1,1

x2,2

xN−1,N−1

xN,N







.(163)

•Blockdiagonalmatrix:

blockdiag{A1,A2,...,AN−1,AN}:=





A10 0 ... 0

0 A20... 0

0 0 .......

....AN−10

0 0 ... 0 AN







.(164)

Römische Formelzeichen

ai,k. . . . . . . . . . . Wahrscheinlichkeit für den Wechsel von dem i-ten zum k-ten Teilmodell

eines SLDM

a{l}

i,k. . . . . . . . . . . Wahrscheinlichkeit für den Wechsel von dem i-ten zum k-ten Teilmodell

eines SLDM berechnet nach der l-ten EM-Iteration

Ai,

. . . . . . . . . . Zustandsübergangsmatrix des i-ten Teilmodells eines SLDM für den Ver-

satzindex

A{l}

. . . . . . . . . . Zustandsübergangsmatrix des i-ten Teilmodells eines SLDM für den Ver-

satzindex

berechnet nach der l-ten EM-Iteration

bi. . . . . . . . . . . . Biaskorrekturvektor des i-ten Teilmodells eines SLDM

b{l}

i. . . . . . . . . . . Biaskorrekturvektor des i-ten Teilmodells eines SLDM berechnet nach

der l-ten EM-Iteration

B. . . . . . . . . . . . . Fenstervorschub (bei der Merkmalsextraktion)

CE. . . . . . . . . . . . Multiplikative Konstante zur Kompensation der Fehler bei der approxi-

mativen Darstellung des Kurzzeit-Leistungsspektrums eines verhallten

Signals

C50 . . . . . . . . . . . Klarheitsmaß zur Beschreibung der Verständlichkeit von Sprache

Formelzeichen

157

C80 . . . . . . . . . . . Klarheitsmaß zur Beschreibung der Durchsichtigkeit von Musik

DINIT . . . . . . . . . Zu minimierender Gesamtabstand bei der GMM-Initialisierung (definiert

in (5.50))

DRR . . . . . . . . . Verhältnis zwischen der Energie des direkten Schallanteils der Raumim-

pulsantwort und der Energie des Nachhalls einschließlich der frühen Re-

flexionen

eˆ

T60 . . . . . . . . . . . Fehler in der Schätzung der Nachhallzeit

e(n)

m,k. . . . . . . . . . . Fehler bei der Prädiktion eines Merkmalsvektors durch ein SLDM

eˆ

h,REL . . . . . . . Relativer Schätzfehler in der Energie der Raumimpulsantwort

EDCh(l). . . . . . . Energieabfallkurve der Raumimpulsantwort

fA. . . . . . . . . . . . Abtastfrequenz

fO. . . . . . . . . . . . Nichtrekursive Beobachtungsfunktion

fO. . . . . . . . . . . . Vereinfachte nichtrekursive Beobachtungsfunktion (gültig bei Abwesen-

heit von Hintergrundstörungen)

f(R)

O,LR. . . . . . . . . . Rekursive Beobachtungsfunktion mit der Rekursionslänge LR

f(R)

O,LR. . . . . . . . . . Vereinfachte rekursive Beobachtungsfunktion mit der Rekursionslänge

LR(gültig bei Abwesenheit von Hintergrundstörungen)

h(l). . . . . . . . . . . Zeitdiskrete Raumimpulsantwort

hk,k′(m′′). . . . . . Kreuzbandfilter für k6=k′bzw. Band-zu-Band-Filter für k=k′(definiert

in (5.93))

hk,k′(l). . . . . . . . Hilfsfunktion zur anschaulichen Darstellung der Kreuzbandfilter (defi-

niert in (5.97))

h(s)

m,q. . . . . . . . . . Log-MEL-spektraler Koeffizient der Raumimpulsantwort

hm′,q. . . . . . . . . . Koeffizient der Raumimpulsantwort im log-MEL-spektralen Bereich

hm′. . . . . . . . . . . . Vektor der Koeffizient der Raumimpulsantwort im log-MEL-spektralen

Bereich

H(m,k). . . . . . . . Diskretes Kurzzeit-Spektrum der Raumimpulsantwort

Hej

. . . . . . . Zeitdiskrete FOURIER-Transformierte der Raumimpulsantwort

Hk,k′ej

. . . . . Zeitdiskrete FOURIER-Transformierte eines Kreuzbandfilters hk,k′(m′′)

Hk,k′ej

. . . . . Zeitdiskrete FOURIER-Transformierte von ˜

hk,k′(l)

HfO,ˆ

n(s),[r]

m|m,i

. . . . . . JACOBI-Matrix von fObezüglich n(s)

mausgewertet an der Stelle ˆ

n(s),[r]

m|m,i

(genaue Definition in (5.218))

HfO,ˆ

x(s)

m. . . . . . . . JACOBI-Matrix von fObezüglich x(s)

mausgewertet an der Stelle ˆ

x(s)

m(ge-

naue Definition in (5.219))

HfO,ˆ

z(s),[r]

m|m,i

. . . . . . JACOBI-Matrix von fObezüglich z(s)

mausgewertet an der Stelle ˆ

z(s),[r]

m|m,i(ge-

naue Definition in (5.216))

HfO,ˆχ(s),[r]

m|m,i

. . . . . JACOBI-Matrix von fObezüglich χ(s)

mausgewertet an der Stelle ˆχ(s),[r]

m|m,i

(genaue Definition in (5.217))

Hf(R)

O,LC,ˆ

n(s)

m. . . . . JACOBI-Matrix von f(R)

O,LC−LCbezüglich n(s)

mausgewertet an der Stelle

n(s)

m−LC(genaue Definition in (5.225))

Hf(R)

O,LC,ˆ

n(s),[r]

m|m,i

. . . . JACOBI-Matrix von f(R)

O,LCbezüglich n(s)

mausgewertet an der Stelle ˆ

n(s),[r]

m|m,i

(genaue Definition in (5.224))

158

Formelzeichen

Hf(R)

O,LC,ˆ

z(s),[r]

m|m,i

. . . . JACOBI-Matrix von f(R)

O,LCbezüglich z(s)

mausgewertet an der Stelle ˆ

z(s),[r]

m|m,i

(genaue Definition in (5.222))

Hf(R)

O,LC,ˆχ(s),[r]

m|m,i

. . . JACOBI-Matrix von f(R)

O,LCbezüglich χ(s)

mausgewertet an der Stelle ˆχ(s),[r]

m|m,i

(genaue Definition in (5.223))

Hˆ

z(s),[r]

m|m,i

. . . . . . . . JACOBI-Matrix der verwendeten Beobachtungsfunktion bezüglich z(s)

ausgewertet an der Stelle ˆ

z(s),[r]

m|m,i

i. . . . . . . . . . . . . . Index eines SLDM-Teilmodells

I. . . . . . . . . . . . . Anzahl der Teilmodelle eines SLDM

I1. . . . . . . . . . . . . Einseitige Länge des Fensters (in Anzahl von Segmenten) zur Berech-

nung der DELTA-Merkmale

I2. . . . . . . . . . . . . Einseitige Länge des Fensters (in Anzahl von Segmenten) zur Berech-

nung der DELTA-DELTA-Merkmale

I. . . . . . . . . . . . Indexmenge aller wohl repräsentierten Teilmodelle eines SLDM

j. . . . . . . . . . . . . Imaginäre Einheit oder Index einzelner Experimente (aus dem Zusam-

menhang erkennbar)

J. . . . . . . . . . . . . Gesamtanzahl der Experimente

k. . . . . . . . . . . . . Frequenzindex

K. . . . . . . . . . . . . Anzahl der Frequenzbins (bei der DFT zur Merkmalsextraktion)

K′. . . . . . . . . . . . Anzahl der cepstralen Koeffizienten (bei der Merkmalsextraktion)

Kq. . . . . . . . . . . . Breite des q-ten MEL-Bandes (in Anzahl von Frequenzindizes)

K(o)

q. . . . . . . . . . Obere Grenze des q-ten MEL-Bandes (in Form eines Frequenzindex)

K(u)

q. . . . . . . . . . Untere Grenze des q-ten MEL-Bandes (in Form eines Frequenzindex)

K[r]

m,i. . . . . . . . . . KALMAN-Verstärkungsmatrix

l. . . . . . . . . . . . . Zeitindex (diskret) oder Index der EM-Iterationen (aus Zusammenhang

erkennbar)

lD. . . . . . . . . . . . Zeitindex zur Bezeichnung des Zeitpunktes innerhalb der Raumimpul-

santwort, an dem der Hauptimpuls auftritt

). . . . . . . . . Likelihoodfunktion

LAR . . . . . . . . . . Ordnung eines SLDM

LC. . . . . . . . . . . . Anzahl von aufeinanderfolgenden Merkmalsvektoren des sauberen

Sprachsignals innerhalb des Zustandsvektors bei der KALMAN-Filterung

LEM . . . . . . . . . . Anzahl von EM-Iterationen

Lh. . . . . . . . . . . . Länge der Raumimpulsantwort

LH. . . . . . . . . . . . Länge der Repräsentation der RIA im log-MEL-spektralen Bereich

LR. . . . . . . . . . . . Rekursionslänge für das rekursive Beobachtungsmodell

LS. . . . . . . . . . . . Länge der Merkmalsvektorsequenzen bei der K-Means++-artigen Initia-

lisierung der SLDM-Parameter

Lw. . . . . . . . . . . . Fensterlänge (bei der Merkmalsextraktion)

m. . . . . . . . . . . . . Segmentindex (diskret)

M. . . . . . . . . . . . Anzahl von Merkmalsvektoren (bzw. Segmenten) innerhalb einer Sprach-

äußerung

Mn. . . . . . . . . . . Anzahl von Merkmalsvektoren innerhalb der n-ten Sprachäußerung

MSEQ,k(i). . . . . Menge der zum k-ten Modell zugeordneten Merkmalsvektorsequenzen

bei der Initialisierung der SLDM-Parameter (definiert in (5.70))

Formelzeichen

159

MSEQ,k,i(I). . . Menge von Merkmalsvektorsequenztupeln (definiert in (5.75))

n. . . . . . . . . . . . . Index der Sprachäußerung innerhalb der Trainingsdaten

n(l). . . . . . . . . . . Zeitdiskretes Störsignal (nach der Versatzkompensation und der Hö-

henanhebung)

n(s)

m. . . . . . . . . . . Vektor der log-MEL-spektralen Koeffizienten des Störsignals

n(s)

m. . . . . . . . . . . A-posteriori-Schätzwert des Vektors der log-MEL-spektralen Koeffizien-

ten des Störsignals

n(s),[r]

m|m,i. . . . . . . . . Teilvektor von ˆ

z(s),[r]

m|m,ibestehend aus der Schätzung des LMSK-Vektors

des Störsignals

N. . . . . . . . . . . . . Anzahl der Sprachäußerungen innerhalb der Trainingsdaten

Nw. . . . . . . . . . . Anzahl von Wörtern innerhalb einer Sprachäußerung

N(SM). . . . . . . . . Anzahl (minus eins) vorhergehender Wörter, von denen ein Wort inner-

halb eines Sprachmodells abhängig ist

N(m,k). . . . . . . Diskretes Kurzzeit-Spektrum des Störsignals

Nm,q. . . . . . . . . MEL-spektraler Koeffizient des Störsignals

NEinf . . . . . . . . . . Anzahl von Einfügefehlern bei der Spracherkennung

NAusl . . . . . . . . . Anzahl von Auslöschungsfehlern bei der Spracherkennung

NSubst . . . . . . . . . Anzahl von Ersetzungsfehlern bei der Spracherkennung

NGes . . . . . . . . . . Gesamtanzahl der Wörter innerhalb der Testdaten

Pk. . . . . . . . . . . . Empirisch bestimmte Modellwahrscheinlickeiten

Pm|m−1,i. . . . . . . A-priori-Modellwahrscheinlichkeiten (definiert in (5.230))

Pm|m,i. . . . . . . . . A-posteriori-Modellwahrscheinlichkeiten (definiert in (5.232))

q. . . . . . . . . . . . . Index des MEL-Bandes

Q. . . . . . . . . . . . . Anzahl der MEL-Bänder (bei der Merkmalsextraktion)

Ql(

). . . . . . . . . Zu maximierende Hilfsfunktion beim EM-Algorithmus (definiert in

(5.24))

r. . . . . . . . . . . . . Index der Iterationen beim IEKF

R. . . . . . . . . . . . . Anzahl der Iterationen beim IEKF

s(l). . . . . . . . . . . Zeitdiskretes verhalltes Sprachsignal (nach der Versatzkompensation und

der Höhenanhebung)

s(s)

m,q. . . . . . . . . . . Log-MEL-spektraler Koeffizient des verhallten Sprachsignals

ˆs(s)

m,q. . . . . . . . . . . A-posteriori-Schätzwert des log-MEL-spektralen Koeffizienten des ver-

hallten Sprachsignals

s(s)

m. . . . . . . . . . . Vektor der log-MEL-spektralen Koeffizienten des verhallten Sprachsi-

gnals

Si. . . . . . . . . . . . Teilmenge der Parameter des i-ten Teilmodells eines SLDM (definiert in

(5.58))

Sej

. . . . . . . . Zeitdiskrete FOURIER-Transformierte des verhallten Sprachsignals

S(m,k). . . . . . . . Diskretes Kurzzeit-Spektrum des verhallten Sprachsignals

t. . . . . . . . . . . . . Zeit (kontinuierlich)

TA. . . . . . . . . . . . Abtastdauer

T60 . . . . . . . . . . . Nachhallzeit

UVi. . . . . . . . . . . Eigenvektormatrix von Vi

UΣx,i. . . . . . . . . Eigenvektormatrix von Σx,i

160

Formelzeichen

vh(l). . . . . . . . . . Zeitdiskreter weißer GAUSS’scher Zufallsprozess zur Erzeugung der

Raumimpulsantwort gemäß einem vereinfachten Modell

v(s)

m,q. . . . . . . . . . Beobachtungsfehler beim nichtrekursiven Beobachtungsmodell

v(s,R)

m,q,LR. . . . . . . . Beobachtungsfehler beim rekursiven Beobachtungsmodell mit der Rekur-

sionslänge LR

v(s)

m. . . . . . . . . . . Vektor der Beobachtungsfehler beim nichtrekursiven Beobachtungsmo-

dell

v(s)

m. . . . . . . . . . . Vektor der approximativen Beobachtungsfehler beim nichtrekursiven Be-

obachtungsmodell unter Berücksichtigung von Modellunzulänglichkei-

ten und Schätzfehler in den Modellparametern

v(s,R)

m,LR. . . . . . . . . Vektor der Beobachtungsfehler beim rekursiven Beobachtungsmodell mit

der Rekursionslänge LR

Vi. . . . . . . . . . . . Kovarianzmatrix des Prädiktionsfehlers durch das i-te Teilmodell eines

SLDM

V{l}

i. . . . . . . . . . Kovarianzmatrix des Prädiktionsfehlers durch das i-te Teilmodell eines

SLDM berechnet nach der l-ten EM-Iteration

w(l). . . . . . . . . . Zeitdiskretes Fenster entstehend aus der Faltung des Analysefensters

wA(l)mit dem zeitumgekehrten Synthesefenster wS(−l)

wA(l). . . . . . . . . Zeitdiskretes Analysefenster

wMA,k(l). . . . . . . Zeitdiskretes und zeitumgekehrtes, moduliertes Analysefenster

wS(l). . . . . . . . . Zeitdiskretes Synthesefenster

wMS,k(l). . . . . . . Zeitdiskretes moduliertes Synthesefenster

. . . . . . . . . . . .

-tes Wort innerhalb einer Sprachäußerung

WAej

. . . . . . Zeitdiskrete FOURIER-Transformierte des Analysefensters

WSej

. . . . . . Zeitdiskrete FOURIER-Transformierte des Synthesefensters

x(l). . . . . . . . . . . Zeitdiskretes sauberes Sprachsignal (nach der Versatzkompensation und

der Höhenanhebung)

x(s)

m. . . . . . . . . . . Vektor der log-MEL-spektralen Koeffizienten des sauberen Sprachsignals

x(n)

m. . . . . . . . . . . Zum Training eines SLDM verwendeter Merkmalsvektor zugehörig zum

Segment mder n-ten Sprachäußerung

xm. . . . . . . . . . . . Merkmalsvektor zusammengesetzt aus den cepstralen Koeffizienten und

den DELTA- und DELTA-DELTA-Merkmalen des sauberen Sprachsignals

x(s)

m. . . . . . . . . . . A-posteriori-Schätzwert des Vektors der log-MEL-spektralen Koeffizien-

ten des sauberen Sprachsignals

X. . . . . . . . . . . . . Menge der Merkmalsvektorsequenzen aller Sprachäußerungen innerhalb

der Trainingsdaten

X1:LAR . . . . . . . . Menge der LAR ersten Merkmalsvektoren aller Sprachäußerungen inner-

halb der Trainingsdaten

XSEQ,LS. . . . . . . Menge aller möglichen Merkmalsvektorsequenzen innerhalb der Trai-

ningsdaten

Xej

. . . . . . . Zeitdiskrete FOURIER-Transformierte des sauberen Sprachsignals

X(m,k). . . . . . . Diskretes Kurzzeit-Spektrum des sauberen Sprachsignals

Xm,q. . . . . . . . . . MEL-spektraler Koeffizient des sauberen Sprachsignals

Formelzeichen

161

y(l). . . . . . . . . . . Zeitdiskretes verhalltes und gestörtes Sprachsignal (nach der Versatzkom-

pensation und der Höhenanhebung)

yMIC(l). . . . . . . . Zeitdiskretes (verhalltes und gestörtes) Mikrofonsignal (nach der Versatz-

kompensation und der Höhenanhebung)

ywA(m,l′). . . . . Gefenstertes zeitdiskretes verhalltes und gestörtes Sprachsignal

y(c)

′. . . . . . . . . . Cepstraler Koeffizient des verhallten und gestörten Sprachsignals

y(s)

m,q. . . . . . . . . . Log-MEL-spektraler Koeffizient des verhallten und gestörten Sprachsi-

gnals

ˆy(s)

m,q. . . . . . . . . . A-posteriori-Schätzwert des log-MEL-spektralen Koeffizienten des ver-

hallten und gestörten Sprachsignals

ym. . . . . . . . . . . . Merkmalsvektor zusammengesetzt aus den cepstralen Koeffizienten und

ihren DELTA- und DELTA-DELTA-Merkmalen des verhallten und gestör-

ten Sprachsignals

y(s)

m. . . . . . . . . . . Vektor der log-MEL-spektralen Koeffizienten des verhallten und gestör-

ten Sprachsignals

y(s),[r]

m,i. . . . . . . . . Prädiktion für den beobachteten LMSK-Vektor des verhallten und gestör-

ten Sprachsignals beruhend auf der Linearierungsstelle ˆ

z(s),[r]

m|m,i

y(s),[r]

m,i,k. . . . . . . . . Prädiktion für den beobachteten LMSK-Vektor des verhallten und gestör-

ten Sprachsignals beruhend auf der Linearierungsstelle ˆ

z(s),[r]

m|m,i,k

Yej

. . . . . . . Zeitdiskrete FOURIER-Transformierte des verhallten und gestörten

Sprachsignals

Y(m,k). . . . . . . Diskretes Kurzzeit-Spektrum des verhallten und gestörten Sprachsignals

Ym,q. . . . . . . . . . MEL-spektraler Koeffizient des verhallten und gestörten Sprachsignals

Z. . . . . . . . . . . . . Menge der Zustandssequenzen aller Sprachäußerungen innerhalb der

Trainingsdaten

z(s)

m. . . . . . . . . . . Zusammengesetzter Vektor bestehend aus χ(s)

mund n(s)

z(s)

m|m−1. . . . . . . . Geschätzter Mittelwertvektor beruhend auf der prädiktiven Verteilungs-

dichtefunktion pz(s)

my(s)

1:m−1

z(s)

m|m. . . . . . . . . . Geschätzter Mittelwertvektor beruhend auf der A-posteriori-

Verteilungsdichtefunktion pz(s)

my(s)

1:m

z(s)

m|m−1,i. . . . . . . . Geschätzter Mittelwertvektor beruhend auf der prädiktiven Verteilungs-

dichtefunktion pz(s)

my(s)

1:m−1,

m=i

z(s)

m|m,i. . . . . . . . . Geschätzter Mittelwertvektor beruhend auf der A-posteriori-

Verteilungsdichtefunktion pz(s)

my(s)

1:m,

m=i

z(s)

m|m,i,k. . . . . . . . Geschätzter Mittelwertvektor beruhend auf der A-posteriori-

Verteilungsdichtefunktion pz(s)

my(s)

1:m,

m−1=i,

m=k

z(s),[r]

m|m,i. . . . . . . . . Linearisierungsstelle der Beobachtungsfunktion bei der r-ten Iteration

des IEKF zur Berechnung von ˆ

z(s)

m|m,i

162

Formelzeichen

z(s),[r]

m|m,i,k. . . . . . . . Linearisierungsstelle der Beobachtungsfunktion bei der r-ten Iteration

des IEKF zur Berechnung von ˆ

z(s)

m|m,i,k

Griechische Formelzeichen

(SM). . . . . . . . . Konstante zur Skalierung des Gewichtes des Sprachmodells gegenüber

dem des akustischen Modells

(n,l)

m(i). . . . . . . Vorwärtswahrscheinlichkeit (definiert in (A.13))

h. . . . . . . . . . . . Negativer Exponent von

hzur Basis 10

. . . . . . . . . . . . . Skalierungsfaktor zur Festlegung des Ausmaßes der Pertubation bei der

Modellspaltung

(n,l)

m(i). . . . . . . Rückwärtswahrscheinlichkeit (definiert int (A.14))

1:M. . . . . . . . . . Sequenz der Zustände innerhalb eines HMM

(l)

L. . . . . . . . . . . Mittlere relative Verbesserung der Likelihoodfunktion pro einzelne Äu-

ßerung (definiert in (5.38))

∆X. . . . . . . . . . . Menge bestehend aus den Differenzen aufeinanderfolgender Merkmals-

vektoren aller Sprachäußerungen innerhalb der Trainingsdaten

∆y(c)

′. . . . . . . . DELTA-Merkmal des verhallten und gestörten Sprachsignals

∆∆y(c)

′. . . . . . . DELTA-DELTA-Merkmal des verhallten und gestörten Sprachsignals

h. . . . . . . . . . . . Konstante zur Festlegung des maximalen relativen Fehlers in der Ener-

gie der Raumimpulsantwort, der durch zeitliches Abschneiden eingeführt

wird

L. . . . . . . . . . . Untere Schranke für die mittlere relative Verbesserung der Likelihood-

funktion pro einzelne Äußerung

P,REL . . . . . . . . . Konstante, die angibt, wie zahlreich ein Teilmodell bei der SLDM-

Initialisierung mindestens im Verhältnis zum bestrepräsentierten Teilmo-

dell vertreten sein sollte

m. . . . . . . . . . . . Aktives Teilmodell innerhalb eines SLDM zum Segmentindex m

(n)

m. . . . . . . . . . Aktives Teilmodell innerhalb eines SLDM zum Segmentindex mder n-ten

Sprachäußerung

(n,l)

m(i). . . . . . . Bedingte Wahrscheinlichkeit für die Aktivität des i-ten Teilmodells eines

SLDM (definiert in (5.26))

Ω(n)

SEQ,m(i). . . . . Zugehörigkeit der Merkmalsvektorsequenz einer Sprachäußerung zu ei-

nem Teilmodell eines SLDM (definiert in (5.71))

. . . . . . . . . . . . . Normierte Kreisfrequenz

. . . . . . . . . . . . . Menge aller Parameter eines SLDM

′. . . . . . . . . . . . Index der cepstralen Koeffizienten

Ausl . . . . . . . . . . Rate der Auslöschungsfehler bei der Spracherkennung

Einf . . . . . . . . . . Rate der Einfügefehler bei der Spracherkennung

Subst . . . . . . . . . Rate der Ersetzungsfehler bei der Spracherkennung

w. . . . . . . . . . . . Wortfehlerrate bei der Spracherkennung

Formelzeichen

163

ΛVi. . . . . . . . . . . Eigenwertmatrix von Vi

ΛΣx,i. . . . . . . . . Eigenwertmatrix von Σx,i

hm′,q. . . . . . . . . Mittelwert des Koeffizienten der Raumimpulsantwort im log-MEL-spek-

tralen Bereich beruhend auf dem Modell der Raumimpulsantwort

µ˘

hm′. . . . . . . . . . . Vektor der Mittelwerte der Koeffizienten der Raumimpulsantwort im log-

MEL-spektralen Bereich beruhend auf dem Modell der Raumimpulsant-

wort

µn. . . . . . . . . . . Mittelwertvektor für das A-priori-Modell für die LMSK-Vektoren des

Störsignals

µx,i. . . . . . . . . . . Mittelwertvektor der i-ten Mischungskomponente des GMM zur Model-

lierung der ersten LAR LMSK-Vektoren des sauberen Sprachsignals in-

nerhalb einer Sprachäußerung

µ{l}

x,i. . . . . . . . . . Mittelwertvektor der i-ten Mischungskomponente des GMM zur Model-

lierung der ersten LAR LMSK-Vektoren des sauberen Sprachsignals in-

nerhalb einer Sprachäußerung berechnet nach der l-ten EM-Iteration

µ˘

x(s)

my(s)

1:m

. . . . . . Mittelwert von ˘

x(s)

mbedingt auf die Beobachtung von ˘

y(s)

1:m

µˆ

v(s). . . . . . . . . . Mittelwertvektor des approximativen Beobachtungsfehlervektors beim

nichtrekursiven Beobachtungsmodell

µˆ

v(s,R)

. . . . . . . . . Mittelwertvektor des approximativen Beobachtungsfehlervektors beim

rekursiven Beobachtungsmodell mit der Rekursionslänge LR

(n,l)

m(k,i). . . . . Bedingte Wahrscheinlichkeit für die aufeinanderfolgende Aktivität zwei-

er Teilmodelle eines SLDM (definiert in (5.27))

Σˆ

v(s). . . . . . . . . Spektralradius von Σˆ

v(s)

m,k. . . . . . . . . . GABOR-Koeffizient zur Darstellung des verhallten Sprachsignals s(l)

hm′,q

. . . . . . . . . Varianz des Koeffizienten der Raumimpulsantwort im log-MEL-spektra-

len Bereich beruhend auf dem Modell der Raumimpulsantwort

h. . . . . . . . . . . . Energie der Raumimpulsantwort

n. . . . . . . . . . . . Leistung des Störsignals

s. . . . . . . . . . . . Leistung des verhallten Sprachsignals

x. . . . . . . . . . . . Leistung des sauberen Sprachsignals

y. . . . . . . . . . . . Leistung des verhallten und gestörten Sprachsignals

Σn. . . . . . . . . . . Kovarianzmatrix für das A-priori-Modell für die LMSK-Vektoren des

Störsignals

Σ˘

n(s)

m. . . . . . . . . . Approximative Schätzfehlerkovarianzmatrix für die Schätzung des Vek-

tors der log-MEL-spektralen Koeffizienten des Störsignals

Σx,i. . . . . . . . . . Kovarianzmatrix der i-ten Mischungskomponente des GMM zur Model-

lierung der ersten LAR LMSK-Vektoren des sauberen Sprachsignals in-

nerhalb einer Sprachäußerung

Σ{l}

x,i. . . . . . . . . . Kovarianzmatrix der i-ten Mischungskomponente des GMM zur Model-

lierung der ersten LAR LMSK-Vektoren des sauberen Sprachsignals in-

nerhalb einer Sprachäußerung berechnet nach der l-ten EM-Iteration

Σ˘

x(s)

my(s)

1:m

. . . . . . Kovarianzmatrix von ˘

x(s)

mbedingt auf die Beobachtung von ˘

y(s)

1:m

164

Formelzeichen

Σ˘

x(s)

m. . . . . . . . . . Approximative Schätzfehlerkovarianzmatrix für die Schätzung des Vek-

tors der log-MEL-spektralen Koeffizienten des sauberen Sprachsignals

Σˆ

v(s). . . . . . . . . . Kovarianzmatrix des approximativen Beobachtungsfehlervektors beim

nichtrekursiven Beobachtungsmodell

Σˆ

v(s,R)

. . . . . . . . Kovarianzmatrix des approximativen Beobachtungsfehlervektors beim

rekursiven Beobachtungsmodell mit der Rekursionslänge LR

Σy(s),[r]

m,i

. . . . . . . . Kovarianzmatrix der Prädiktion ˆ

y(s),[r]

m,ifür den beobachteten LMSK-

Vektor des verhallten und gestörten Sprachsignals

Σy(s),[r]

m,i,k

. . . . . . . . Kovarianzmatrix der Prädiktion ˆ

y(s),[r]

m,i,kfür den beobachteten LMSK-

Vektor des verhallten und gestörten Sprachsignals

Σz(s)

m|m−1

. . . . . . . Geschätzte Kovarianzmatrix beruhend auf der prädiktiven Verteilungs-

dichtefunktion pz(s)

my(s)

1:m−1

Σz(s)

m|m

. . . . . . . . . Geschätzte Kovarianzmatrix beruhend auf der A-posteriori-

Verteilungsdichtefunktion pz(s)

my(s)

1:m

Σz(s)

m|m−1,i

. . . . . . . Geschätzte Kovarianzmatrix beruhend auf der prädiktiven Verteilungs-

dichtefunktion pz(s)

my(s)

1:m−1,

m=i

Σz(s)

m|m,i

. . . . . . . . Geschätzte Kovarianzmatrix beruhend auf der A-posteriori-

Verteilungsdichtefunktion pz(s)

my(s)

1:m,

m=i

Σz(s)

m|m,i,k

. . . . . . . Geschätzte Kovarianzmatrix beruhend auf der A-posteriori-

Verteilungsdichtefunktion pz(s)

my(s)

1:m,

m−1=i,

m=k

h. . . . . . . . . . . . Abklingkonstante der Raumimpulsantwort

k,k′(l). . . . . . . . Zeitdiskrete Hilfsfunktion zur vereinfachten Darstellung der Kreuzband-

filter (definiert in (5.96))

Φk,k′ej

. . . . . Zeitdiskrete FOURIER-Transformierte von

k,k′(l)

h(l). . . . . . . . . . Zeitdiskrete Indikatorfunktion der Raumimpulsantwort

χ(s)

m. . . . . . . . . . Zusammengesetzter Vektor bestehend aus LCzeitlich aufeinanderfolgen-

den Vektoren der log-MEL-spektralen Koeffizienten des sauberen Sprach-

signals, d.h. x(s)

m,...,x(s)

m−LC+1

ˆχ(s),[r]

m|m,i. . . . . . . . Teilvektor von ˆ

z(s),[r]

m|m,ibestehend aus Schätzungen von LCaufeinanderfol-

genden LMSK-Vektoren des sauberen Sprachsignals

i. . . . . . . . . . . . Wahrscheinlichkeit für die Aktivität des i-ten Teilmodells des SLDM in-

nerhalb der ersten LAR Merkmalsvektoren einer Sprachäußerung

{l}

i. . . . . . . . . . Wahrscheinlichkeit für die Aktivität des i-ten Teilmodells des SLDM in-

nerhalb der ersten LAR Merkmalsvektoren einer Sprachäußerung berech-

net nach der l-ten EM-Iteration

Abbildungsverzeichnis

2.1. Prinzipieller Aufbau eines statistischen Spracherkennungssystems. . . . . . 6

2.2. Blockschaltbild zur Extraktion von MFCCs aus einem zeitdiskreten akusti-

schen Signal gemäß einer leichten Abwandlung des ETSI-Standards. . . . . 7

2.3. Beispielhafte Raumimpulsantwort gemessen in einem großen Büro. . . . . 13

2.4. Energieabfallkurve zur Raumimpulsantwort in Abb. 2.3. . . . . . . . . . . 14

2.5. Trajektorien der log-MEL-spektralen Merkmale einer sauberen und verhall-

ten Version eines beispielhaften Sprachsignals. . . . . . . . . . . . . . . . 16

5.1. Blockschaltbild zum Konzept der BAYES’schen Merkmalsverbesserung. . . 42

5.2. Approximationen der Verteilungsdichtefunktionen der log-MEL-spektralen

Repräsentationen der RIA durch normierte Histogramme, resultierend aus

MONTE-CARLO-Simulationen einerseits, sowie aus einer analytischen Dar-

stellung andererseits, für eine Nachhallzeit von T60 =0,1s. . . . . . . . . . 69

5.3. Approximationen der Verteilungsdichtefunktionen der log-MEL-spektralen

Repräsentationen der RIA durch normierte Histogramme, resultierend aus

MONTE-CARLO-Simulationen einerseits, sowie aus einer analytischen Dar-

stellung andererseits, für eine Nachhallzeit von T60 =0,8s. . . . . . . . . . 70

5.4. Log-MEL-spektrale Repräsentation der RIA aus Abb. 2.3. . . . . . . . . . . 74

5.5. Trajektorien der log-MEL-spektralen Merkmale eines beispielhaften verhall-

ten Sprachsignals und Approximationen durch unterschiedliche Beobach-

tungsmodelle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6.1. Zur Anwendung der Spiegelquellenmethode verwendeter virtueller Raum. . 101

6.2. Spektralradius

Σˆ

v(s)der empirisch berechneten Kovarianzmatrix des Beob-

achtungsfehlers ˆ

Σˆ

v(s)in Abhängigkeit von

h. . . . . . . . . . . . . . . . . 102

6.3. Approximative log-MEL-spekrale Repräsentationen der RIAs

hm,qder bei-

den virtuellen Räume der AURORA5-Datenbank. . . . . . . . . . . . . . . 102

6.4. Empirisch berechnete Kovarianzmatrizen des Beobachtungsfehlers ˆ

Σˆ

v(s)er-

mittelt auf der AURORA5-Datenbank für die beiden untersuchten virtuellen

Räume für verschiedene Werte von

h. . . . . . . . . . . . . . . . . . . . . 103

6.5. Empirisch berechnete normierte Histogramme ausgewählter Komponenten

ˆv(s)

m,qdes Beobachtungsfehlervektors für das Wohnzimmerszenario der modi-

fizierten AURORA4-Datenbank sowie zugehörige Approximationen durch

GAUSS-Verteilungsdichtefunktionen. . . . . . . . . . . . . . . . . . . . . . 104

165

166

Abbildungsverzeichnis

6.6. Empirisch berechnete normierte Histogramme des Beobachtungsfehlers für

unterschiedliche Rekursionslängen LRdes Beobachtungsmodells und zwei

ausgewählte MEL-Bänder (q=0 und q=22), ermittelt für das Wohnzimmer

auf der modifizierten AURORA4-Datenbank. . . . . . . . . . . . . . . . . 105

6.7. Trajektorien der log-MEL-spektralen Merkmale eines beispielhaften Sprach-

signals der AURORA5-Datenbank zugehörig zu der Ziffernkettenäußerung

“one,one,six,eight,five,two,two”. . . . . . . . . . . . . . . . . . . . . . 108

6.8. Wortfehlerraten sowie mit 10−7skalierte Werte der Loglikelihoodfunktion in

Abhängigkeit von der Anzahl der für das Training des A-priori-Sprachmo-

dells verwendeten EM-Iterationen für beispielhaft ausgewählte initiale Para-

metermengen für das Wohnzimmer. . . . . . . . . . . . . . . . . . . . . . 113

6.9. Histogramme der minimalen Wortfehlerrate

w,MIN für das Wohnzimmer. . 114

A.1. Zur Erstellung der AURORA5-Datenbank verwendete RIAs. . . . . . . . . 150

A.2. Log-MEL-spektrale Repräsentationen ¯

hm,qder RIAs, die ursprünglich zur

Erstellung der AURORA5-Datenbank verwendet worden sind. . . . . . . . 151

Tabellenverzeichnis

2.1. Zur Merkmalsextraktion verwendete Parameter. . . . . . . . . . . . . . . . 10

6.1. Wortfehlerraten

w[%] für die AURORA5-Datenbank erzielt mit dem ETSI-

SFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

6.2. Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit dem

ETSI-SFE. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

6.3. Wortfehlerraten

w[%] für die AURORA5-Datenbank erzielt mit alternati-

ven Verfahren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

6.4. Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit alter-

nativen Verfahren. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

6.5. Wortfehlerraten

w[%] erzielt mit Hilfe der Merkmalsverbesserung auf der

AURORA5-Datenbank. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6.6. Echtzeitfaktoren für die Merkmalsverbesserung für das Wohnzimmer. . . . 109

6.7. Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifi-

zierten AURORA4-Datenbank für I=1. . . . . . . . . . . . . . . . . . . . 109

6.8. Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifi-

zierten AURORA4-Datenbank für das Büro. . . . . . . . . . . . . . . . . . 110

6.9. Fehlerraten [%] erzielt mit Hilfe der Merkmalsverbesserung auf der modifi-

zierten AURORA4-Datenbank für das Wohnzimmer. . . . . . . . . . . . . 111

6.10. Fehlerraten [%] für verschiedene Ordnungen LAR des A-priori-Sprachmo-

dells bestehend aus einem Teilmodell, d.h. I=1. . . . . . . . . . . . . . . 115

6.11. Wortfehlerraten

w[%] erzielt mit dem rekursiven Beobachtungsmodell und

der IMM-Schätzung auf der AURORA5-Datenbank. . . . . . . . . . . . . 116

6.12. Fehlerraten [%] erzielt mit dem rekursiven Beobachtungsmodell und der

IMM-Schätzung auf der AURORA4-Datenbank. . . . . . . . . . . . . . . . 117

6.13. Echtzeitfaktoren für die Merkmalsenthallung unter Verwendung des rekursi-

ven Beobachtungsmodells. . . . . . . . . . . . . . . . . . . . . . . . . . . 118

6.14. Wortfehlerraten

w[%] in Abhängigkeit von den Standardabweichungen für

die Schätzfehler in den RIA-Parametern für die AURORA5-Datenbank. . . 120

6.15. Wortfehlerraten

w[%] in Abhängigkeit von den Standardabweichungen für

die Schätzfehler in den RIA-Parametern für die AURORA4-Datenbank. . . 120

6.16. Fehlerraten [%] für ausgewählte Kombinationen von unterschiedlichen Trai-

ningsbedingungen und der An- bzw. Abwesenheit der Merkmalsverbesserung.121

6.17. Wortfehlerraten

w[%] für die AURORA5-Datenbank erzielt mit der ge-

meinsamen Merkmalsenthallung und -entstörung. . . . . . . . . . . . . . . 123

6.18. Fehlerraten [%] für die modifizierte AURORA4-Datenbank erzielt mit der

gemeinsamen Merkmalsenthallung und -entstörung. . . . . . . . . . . . . . 123

167

Literaturverzeichnis

[AB57] J. Aitchison und J. A. C. Brown: The Lognormal Distribution: with Special

Reference to its Uses in Economics, Cambridge University Press, Cambridge,

1957.

[AC07a] Y. Avargel und I. Cohen: „On Multiplicative Transfer Function Approxima-

tion in the Short-Time Fourier Transform Domain“, IEEE Signal Processing

Letters, Band 14(5), S. 337–340, Mai 2007.

[AC07b] Y. Avargel und I. Cohen: „System Identification in the Short-Time Fourier

Transform Domain With Crossband Filtering“, IEEE Transactions on Audio,

Speech, and Language Processing, Band 15(4), S. 1305–1319, Mai 2007.

[All79] J. B. Allen: „Image Method for Efficiently Simulating Small-Room Acous-

tics“, The Journal of the Acoustical Society of America, Band 65(4), S. 943–

950, Apr. 1979.

[AMGC02] M. Arulampalam, S. Maskell, N. Gordon und T. Clapp: „A Tutorial on Particle

Filters for Online Nonlinear/Non-Gaussian Bayesian Tracking“, IEEE Trans-

actions on Signal Processing, Band 50(2), S. 174–188, Febr. 2002.

[Ata95] B. S. Atal: „Speech Technology in 2001: New Research Directions“, Pro-

ceedings of the National Academy of Sciences of the United States of America,

Band 92(22), S. 10046–10051, Okt. 1995.

[ATH97] C. Avendano, S. Tibrewala und H. Hermansky: „Multiresolution Channel Nor-

malization for ASR in Reverberant Environments“, Proc. of European Confer-

ence on Speech Communication and Technology (EUROSPEECH), S. 1107–

1110, Rhodes, Greece, Sept. 1997.

[AV07] D. Arthur und S. Vassilvitskii: „K-Means++: the Advantages of Careful Seed-

ing“, Proc. of Symposium on Discrete Algorithms (SODA), S. 1027–1035,

2007.

[Ave97] C. Avendano: Temporal Processing of Speech in a Time-Feature Space, Dis-

sertation, Oregon Graduate Institute of Science & Technology, 1997.

[BD86] G. E. P. Box und N. R. Draper: Empirical Model-Building and Response Sur-

face, John Wiley & Sons, Inc., New York, NY, USA, 1986.

169

170

Literaturverzeichnis

[BSLK01] Y. Bar-Shalom, X. R. Li und T. Kirubarajan: Estimation with Applications

to Tracking and Navigation: Theory, Algorithms, and Software, Wiley, New

York, 2001.

[CB07] C.-P. Chen und J. A. Bilmes: „MVA Processing of Speech Features“, IEEE

Transactions on Audio, Speech, and Language Processing, Band 15(1), S.257–

270, 2007.

[CC04] L. Couvreur und C. Couvreur: „Blind Model Selection for Automatic Speech

Recognition in Reverberant Environments“, Band 36(2/3), S. 189–203, 2004.

[CGJV01] M. Cooke, P. Green, L. Josifovski und A. Vizinho: „Robust Automatic Speech

Recognition with Missing and Unreliable Acoustic Data“, Speech Communi-

cation, Band 34(3), S. 267–285, 2001.

[CR83] R. E. Crochiere und L. R. Rabiner: Multirate Digital Signal Processing, Pren-

tice Hall, 1983.

[CZ98] R. A. Cole und V. Zue: „Spoken Language Input“, R. A. Cole, J. Mariani,

H. Uszkoreit, A. Zaenen, V. Zue, G. Varile und A. Zampolli, Hrsg., Survey

of the State of the Art in Human Language Technology (Studies in Natural

Language Processing), S. 1–62, Cambridge University Press, 1998.

[DBY07] J. Deng, M. Bouchard und T. H. Yeap: „Noisy Speech Feature Estimation on

the Aurora2 Database Using a Switching Linear Dynamic Model“, Journal of

Multimedia, Band 2(2), S. 47–52, 2007.

[DHM07] M. Delcroix, T. Hikichi und M. Miyoshi: „Precise Dereverberation Using Mul-

tichannel Linear Prediction“, IEEE Transactions on Audio, Speech, and Lan-

guage Processing, Band 15(2), S. 430–440, Febr. 2007.

[DHS01] R. O. Duda, P. E. Hart und D. G. Stork: Pattern Classification, Wiley-

Interscience, 2. Aufl., Nov. 2001.

[DLR77] A. P. Dempster, N. M. Laird und D. B. Rubin: „Maximum Likelihood from In-

complete Data via the EM Algorithm“, Journal of the Royal Statistical Society.

Series B (Methodological), Band 39(1), S. 1–38, 1977.

[dlTPS+05] A. de la Torre, A. Peinado, J. Segura, J. Perez-Cordoba, M. Benitez und

A. Rubio: „Histogram Equalization of Speech Representation for Robust

Speech Recognition“, IEEE Transactions on Speech and Audio Processing,

Band 13(3), S. 355–366, Mai 2005.

[DM80] S. Davis und P. Mermelstein: „Comparison of Parametric Representations for

Monosyllabic Word Recognition in Continuously Spoken Sentences“, IEEE

Transactions on Acoustics, Speech, and Signal Processing, Band 28(4), S.357–

366, Aug. 1980.

Literaturverzeichnis

171

[DNW09] M. Delcroix, T. Nakatani und S. Watanabe: „Static and Dynamic Variance

Compensation for Recognition of Reverberant Speech With Dereverberation

Preprocessing“, IEEE Transactions on Audio, Speech, and Language Process-

ing, Band 17(2), S. 324–334, Febr. 2009.

[ETSa] ETSI: ETSI standard document, Speech Processing, Transmission and Qual-

ity Aspects (STQ); Distributed speech recognition; Advanced front-end fea-

ture extraction algorithm; Compression algorithms, ETSI ES 202 050 V1.1.5

(2007-01).

[ETSb] ETSI: ETSI standard document, Speech Processing, Transmission and Quality

Aspects (STQ); Distributed speech recognition; Front-end feature extraction

algorithm; Compression algorithms, ETSI ES 201 108 V1.1.3 (2003-09).

[FJZE85] J. L. Flanagan, J. D. Johnston, R. Zahn und G. W. Elko: „Computer-Steered

Microphone Arrays for Sound Transduction in Large Rooms“, The Journal of

the Acoustical Society of America, Band 78(5), S. 1508–1518, 1985.

[FR94] S. Farkash und S. Raz: „Linear Systems in Gabor Time-Frequency Space“,

IEEE Transactions on Signal Processing, Band 42(3), S. 611–617, März 1994.

[Fur81] S. Furui: „Cepstral Analysis Technique for Automatic Speaker Verification“,

IEEE Transactions on Acoustics, Speech, and Signal Processing, Band 29(2),

S. 254–272, 1981.

[Gal98] M. J. F. Gales: „Maximum Likelihood Linear Transformations for HMM-

Based Speech Recognition“, Band 12(2), S. 75–98, 1998.

[Gan08] S. Gannot: „Multi-Microphone Speech Dereverberation Based on Eigen-

Decomposition: A Study“, Proc. of Asilomar Conference on Signals, Systems

and Computers (ACSSC), S. 801–805, Pacific Grove, CA, USA, Okt. 2008.

[Gan10] S. Gannot: „Multi-Microphone Speech Dereverberation Using Eigen-

Decomposition“, P. A. N. und Nikolay D. Gaubitch, Hrsg., Speech Derever-

beration, Kap. 5, Springer, 2010.

[GC89] L. Gillick und S. Cox: „Some Statistical Issues in the Comparison of Speech

Recognition Algorithms“, Proc. of IEEE International Conference on Acous-

tics, Speech and Signal Processing (ICASSP), Band 1, S. 532–535, Mai 1989.

[GD97] D. Gesbert und P. Duhamel: „Robust Blind Channel Identification and Equal-

ization Based on Multi-Step Predictors“, Proc. of IEEE International Confer-

ence on Acoustics, Speech and Signal Processing (ICASSP), S. 3621–3624,

Munich, Germany, Apr. 1997.

[GK97] S. Greenberg und B. Kingsbury: „The Modulation Spectrogram: In Pursuit of

an Invariant Representation of Speech“, Proc. of IEEE International Confer-

ence on Acoustics, Speech and Signal Processing (ICASSP), S. 1647–1650,

Munich, Germany, Apr. 1997.

172

Literaturverzeichnis

[GM01] D. Gelbart und N. Morgan: „Evaluating Long-Term Spectral Subtraction for

Reverberant ASR“, Proc. of IEEE Workshop on Automatic Speech Recognition

and Understanding (ASRU), S. 103–106, Madonna Di Campiglio, Italy, Dez.

2001.

[GM02] D. Gelbart und N. Morgan: „Double the Trouble: Handling Noise and Rever-

beration in Far-Field Automatic Speech Recognition“, Proc. of International

Conference on Spoken Language Processing (ICSLP), S. 2185–2188, Denver,

CO, USA, Sept. 2002.

[GM03] S. Gannot und M. Moonen: „Subspace Methods for Multi-Microphone Speech

Dereverberation“, Band 11, S. 1074–1090, 2003.

[GMF01] B. Gillespie, H. Malvar und D. Florencio: „Speech Dereverberation via

Maximum-Kurtosis Subband Adaptive Filtering“, Proc. of IEEE International

Conference on Acoustics, Speech and Signal Processing (ICASSP), S. 3701–

3704, Salt Lake City, UT, USA, Mai 2001.

[GMOS99] D. Giuliani, M. Matassoni, M. Omologo und P. Svaizer: „Training of HMM

with Filtered Speech Material for Hands-Free Recognition“, Proc. of IEEE In-

ternational Conference on Acoustics, Speech and Signal Processing (ICASSP),

S. 449–452, Phoenix, AZ, USA, März 1999.

[GN95] M. Gürelli und C. Nikias: „EVAM: An Eigenvector-Based Algorithm for Mul-

tichannel Blind Deconvolution of Input Colored Signals“, IEEE Transactions

on Signal Processing, Band 43(1), S. 134–149, Jan. 1995.

[GNW03] N. Gaubitch, P. Naylor und D. Ward: „On the Use of Linear Prediction for

Dereverberation of Speech“, Proc. of International Workshop on Acoustic

Echo and Noise Control (IWAENC), S. 99–102, Kyoto, Japan, Sept. 2003.

[Gol67] J. L. Goldstein: „Auditory Spectral Filtering and Monaural Phase Perception“,

The Journal of the Acoustical Society of America, Band 41(2), S. 458–479,

1967.

[GPAF04] S. Greenberg, A. N. Popper, W. A. Ainsworth und R. R. Fay: Speech Process-

ing in the Auditory System, Springer Verlag, 2004.

[Gre61] D. D. Greenwood: „Critical Bandwidth and the Frequency Coordinates of

the Basilar Membrane“, The Journal of the Acoustical Society of America,

Band 33(10), S. 1344–1356, 1961.

[GRTN10] N. D. Gaubitch, M. R, P. Thomas und P. A. Naylor: „Dereverberation Us-

ing LPC-based Approaches“, Speech Dereverberation, Kap. 4, S. 95–128,

Springer, 2010.

[GW96] M. J. F. Gales und P. C. Woodland: „Mean and Variance Adaptation within the

MLLR Framework“, Band 10(4), S. 249–264, 1996.

Literaturverzeichnis

173

[GY95] M. F. J. Gales und S. J. Young: „Robust Speech Recognition in Additive and

Convolutional Noise Using Parallel Model Combination“, Computer Speech

& Language, Band 9(4), S. 289–307, 1995.

[Hab04] E. A. P. Habets: „Single-Channel Speech Dereverberation Based on Spectral

Subtraction“, Proc. of Annual Workshop on Circuits, Systems and Signal Pro-

cessing (ProRISC), S. 250–254, Veldhoven, The Netherlands, Nov. 2004.

[Hab07] E. Habets: Single- and Multi-Microphone Speech Dereverberation Using

Spectral Enhancement, Dissertation, Technische Universiteit Eindhoven, Juni

2007.

[HBC08] Y. A. Huang, J. Benesty und J. Chen: „Dereverberation“, J. Benesty, M. M.

Sondhi und Y. A. Huang, Hrsg., Springer Handbook of Speech Processing,

S. 929–944, Springer Berlin Heidelberg, 2008.

[HDM06] T. Hikichi, M. Delcroix und M. Miyoshi: „On Robust Inverse Filtering Design

For Room Transfer Function Fluctuations“, Proc. of European Signal Process-

ing Conference (EUSIPCO), Florence, Italy, Sept. 2006.

[HE95] H. G. Hirsch und C. Ehrlicher: „Noise Estimation Techniques for Robust

Speech Recognition“, Proc. of IEEE International Conference on Acoustics,

Speech and Signal Processing (ICASSP), S. 153–156, Detroit, MI, USA, 1995.

[Her90] H. Hermansky: „Perceptual Linear Predictive (PLP) Analysis of Speech“, The

Journal of the Acoustical Society of America, Band 87(4), S.1738–1752, 1990.

[Her96] J. D. Herre, Jürgen; Johnston: „Enhancing the Performance of Perceptual Au-

dio Coders by Using Temporal Noise Shaping (TNS)“, Proc. of Audio Engi-

neering Society (AES) Convention, Los Angeles, CA, USA, Nov. 1996.

[HF05] H.-G. Hirsch und H. Finster: „The Simulation of Realistic Acoustic Input Sce-

narios for Speech Recognition Systems“, Proc. of Annual Conference of the In-

ternational Speech Communication Association (Interspeech), S. 2697–2700,

Lisbon, Portugal, Sept. 2005.

[HF08] H.-G. Hirsch und H. Finster: „A New Approach for the Adaptation of

HMMs to Reverberation and Background Noise“, Speech Communication,

Band 50(3), S. 244–263, 2008.

[HGH06] H. F. Hans-Günter Hirsch: „A New HMM Adaptation Approach for the Case

of a Hands-Free Speech Input in Reverberant Rooms“, Proc. of Annual Con-

ference of the International Speech Communication Association (Interspeech),

Pittsburgh, PA, USA, Sept. 2006.

[HHW85] H. Hermansky, B. Hanson und H. Wakita: „Perceptually Based Linear Predic-

tive Analysis of Speech“, Proc. of IEEE International Conference on Acous-

tics, Speech and Signal Processing (ICASSP), S. 509–512, Tampa, FL, USA,

Apr. 1985.

174

Literaturverzeichnis

[Hir07] H. Hirsch: „Aurora-5 Experimental Framework for the Performance Evalu-

ation of Speech Recognition in Case of a Hands-free Speech Input in Noisy

Environments“, Tech. Rep., Niederrhein University of Applied Sciences, 2007.

[HM94] H. Hermansky und N. Morgan: „RASTA Processing of Speech“, IEEE Trans-

actions on Speech and Audio Processing, Band 2(4), S. 578–589, Okt. 1994.

[HMBK91] H. Hermansky, N. Morgan, A. Bayya und P. Kohn: „The Challenge of Inverse-

E: the RASTA-PLP Method“, Proc. of Asilomar Conference on Signals, Sys-

tems and Computers (ACSSC), S. 800–804, Pacific Grove, CA, USA, Nov.

1991.

[HNKT00] S. Hirobayashi, H. Nomura, T. Koike und M. Tohyama: „Speech Wave-

form Recovery from a Reverberant Speech Signal Using Inverse Filtering of

the Power Envelope Transfer Function“, Electronics and Communications in

Japan (Part III: Fundamental Electronic Science), Band 83(6), S.77–85, 2000.

[HS85] T. Houtgast und H. J. M. Steeneken: „A Review of the MTF Concept in Room

Acoustics and its Use for Estimating Speech Intelligibility in Auditoria“, The

Journal of the Acoustical Society of America, Band 77(3), S.1069–1077, 1985.

[HSP80] T. Houtgast, H. Steeneken und R. Plomp: „Predicting Speech Intelligibility in

Rooms from the Modulation Transfer Function I General Room Acoustics“,

Acustica, Band 46(1), S. 60–72, 1980.

[IFN10] O. Ichikawa, T. Fukuda und M. Nishimura: „Dynamic Features in the Linear-

Logarithmic Hybrid Domain for Automatic Speech Recognition in a Rever-

berant Environment“, IEEE Journal of Selected Topics in Signal Processing,

Band 4(5), S. 816–823, Okt. 2010.

[Int96] International Telecommunication Union (ITU), Geneva, Switzerland: Recom-

mendation G.712 – Transmission Performance Characteristics of Pulse Code

Modulation Channels, Nov. 1996.

[Iss18] L. Isserlis: „On a Formula for the Product-Moment Coefficient of Any Order

of a Normal Frequency Distribution in Any Number of Variables“, Biometrika,

Band 12(1-2), S. 134–139, 1918.

[KDNM09] K. Kinoshita, M. Delcroix, T. Nakatani und M. Miyoshi: „Suppression of Late

Reverberation Effect on Speech Signal Using Long-Term Multiple-step Linear

Prediction“, IEEE Transactions on Audio, Speech, and Language Processing,

Band 17(4), S. 534–545, Mai 2009.

[KHU10] A. Krueger und R. Haeb-Umbach: „Model-Based Feature Enhancement for

Reverberant Speech Recognition“, IEEE Transactions on Audio, Speech, and

Language Processing, Band 18(7), S. 1692–1707, 2010.

[Kim94] C.-J. Kim: „Dynamic Linear Models with Markov-Switching“, Journal of

Econometrics, Band 60(1-2), S. 1–22, 1994.

Literaturverzeichnis

175

[KK09] K.-D. Kammeyer und K. Kroschel: Digitale Signalverarbeitung - Fil-

terung und Spektralanalyse mit MATLAB R

-Übungen, Vieweg+Teubner-

Verlag, Wiesbaden, 7. Aufl., Apr. 2009.

[KLHU+10] A. Krueger, V. Leutnant, R. Haeb-Umbach, A. Marcel und J. Bloemer: „On the

Initialization of Dynamic Models for Speech Features“, Proc. of ITG Fachta-

gung Sprachkommunikation, Bochum, Okt. 2010.

[KM97] B. Kingsbury und N. Morgan: „Recognizing Reverberant Speech with

RASTA-PLP“, Proc. of IEEE International Conference on Acoustics, Speech

and Signal Processing (ICASSP), S.1259–1262, Munich, Germany, Apr. 1997.

[KMG98] B. E. D. Kingsbury, N. Morgan und S. Greenberg: „Robust Speech Recogni-

tion Using the Modulation Spectrogram“, Speech Communication, Band 25(1-

3), S. 117–132, 1998.

[KNM05] K. Kinoshita, T. Nakatani und M. Miyoshi: „Fast Estimation of a Precise Dere-

verberation Filter based on Speech Harmonicity“, Proc. of IEEE International

Conference on Acoustics, Speech and Signal Processing (ICASSP), S. 1073–

1076, Philadelphia, PA, USA, 2005.

[KNM06] K. Kinoshita, T. Nakatani und M. Miyoshi: „Spectral Subtraction Steered by

Multi-Step Forward Linear Prediction For Single Channel Speech Derever-

beration“, Proc. of IEEE International Conference on Acoustics, Speech and

Signal Processing (ICASSP), S. 817–820, Toulouse, France, 2006.

[Kut00] H. Kuttruff: Room Acoustics, Spon Press, London, UK, 4. Aufl., 2000.

[Kut04] H. Kuttruff: Akustik: Eine Einführung, S. Hirzel Verlag, 2004.

[LBD01] K. Lebart, J. Boucher und P. Denbigh: „A New Method Based on Spectral

Subtraction for Speech Dereverberation“, Acta Acustica united with Acustica,

Band 87, S. 359–366(8), 2001.

[LS82] T. Langhans und H. Strube: „Speech Enhancement by Nonlinear Multiband

Envelope Filtering“, Proc. of IEEE International Conference on Acoustics,

Speech and Signal Processing (ICASSP), S.156–159, Paris, France, Mai 1982.

[Mak75] J. Makhoul: „Linear Prediction: A Tutorial Review“, Proceedings of the IEEE,

Band 63(4), S. 561–580, Apr. 1975.

[Man64] J. Mandel: The Statistical Analysis of Experimental Data, Interscience, New

York, 1964.

[MH83] J. Mourjopoulos und J. Hammond: „Modelling and Enhancement of Rever-

berant Speech Using an Envelope Convolution Method“, Proc. of IEEE Inter-

national Conference on Acoustics, Speech and Signal Processing (ICASSP),

Band 8, S. 1144–1147, Boston, MA, USA, Apr. 1983.

176

Literaturverzeichnis

[MK88] M. Miyoshi und Y. Kaneda: „Inverse Filtering of Room Acoustics“, IEEE

Transactions on Acoustics, Speech, and Signal Processing, Band 36(2), S.145–

152, Febr. 1988.

[MM10] H. K. Maganti und M. Matassoni: „An Auditory Based Modulation Spectral

Feature for Reverberant Speech Recognition“, Proc. of Annual Conference of

the International Speech Communication Association (Interspeech), S. 570–

573, Makuhari, Japan, Sept. 2010.

[MOG00] M. Matassoni, M. Omologo und D. Giuliani: „Hands-free Speech Recognition

Using a Filtered Clean Corpus and Incremental HMM Adaptation“, Proc. of

IEEE International Conference on Acoustics, Speech and Signal Processing

(ICASSP), S. 1407–1410, Istanbul, Turkey, Juni 2000.

[Mou85] J. Mourjopoulos: „On the Variation and Invertibility of Room Impulse Re-

sponse Functions“, Journal of Sound and Vibration, Band 102(2), S. 217–228,

1985.

[MS95] J. Makhoul und R. Schwartz: „State of the Art in Continuous Speech Recog-

nition“, Proceedings of the National Academy of Sciences of the United States

of America, Band 92(22), S. 9956–9963, 1995.

[Mur98] K. Murphy: „Switching Kalman Filters“, Tech. Rep., U.C. Berkeley, 1998.

[NA79] S. T. Neely und J. B. Allen: „Invertibility of a Room Impulse Response“, The

Journal of the Acoustical Society of America, Band 66(1), S. 165–169, 1979.

[NJKM05] T. Nakatani, B.-H. Juang, K. Kinoshita und M. Miyoshi: „Harmonicity Based

Dereverberation with Maximum A Posteriori Estimation“, Proc. of IEEE ASSP

Workshop on Applications of Signal Processing to Audio and Acoustics, S.94–

97, New Paltz, NY, USA, Okt. 2005.

[NKM07] T. Nakatani, K. Kinoshita und M. Miyoshi: „Harmonicity-Based Blind Dere-

verberation for Single-Channel Speech Signals“, IEEE Transactions on Audio,

Speech, and Language Processing, Band 15(1), S. 80–95, Jan. 2007.

[NM03] T. Nakatani und M. Miyoshi: „Blind Dereverberation of Single Channel

Speech Signal Based on Harmonic Structure“, Proc. of IEEE International

Conference on Acoustics, Speech and Signal Processing (ICASSP), S. 92–95,

Hong Kong, Hong Kong, Apr. 2003.

[NMK05] T. Nakatani, M. Miyoshi und K. Kinoshita: „Single-Microphone Blind Dere-

verberation“, T. Nakatani, M. Miyoshi und K. Kinoshita, Hrsg., Speech En-

hancement, Signals and Communication Technology, S. 247–270, Springer

Berlin Heidelberg, 2005.

[NYK+08] T. Nakatani, T. Yoshioka, K. Kinoshita, M. Miyoshi und B.-H. Juang: „Blind

Speech Dereverberation with Multi-Channel Linear Prediction Based on Short

Time Fourier Transform Representation“, Proc. of IEEE International Con-

ference on Acoustics, Speech and Signal Processing (ICASSP), S. 85–88, Las

Vegas, NV, USA, Apr. 2008.

Literaturverzeichnis

177

[OSB99] A. V. Oppenheim, R. W. Schafer und J. R. Buck: Discrete-Time Signal Pro-

cessing, Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 2. Aufl., 1999.

[PB92] D. B. Paul und J. M. Baker: „The Design for the Wall Street Journal-based

CSR corpus“, Proc. of International Conference on Spoken Language Pro-

cessing (ICSLP), S. 899–902, Banff, Alberta, Canada, Okt. 1992.

[PBB02] K. J. Palomaki, G. J. Brown und J. Barker: „Missing Data Speech Recogni-

tion in Reverberant Conditions“, Proc. of IEEE International Conference on

Acoustics, Speech and Signal Processing (ICASSP), S. 65–68, Orlando, FL,

USA, Mai 2002.

[PBB04] K. J. Palomäki, G. J. Brown und J. P. Barker: „Techniques for Handling Con-

volutional Distortion with ‘Missing Data’ Automatic Speech Recognition“,

Speech Communication, Band 43(1-2), S. 123–142, 2004.

[PLLH08] R. Petrick, K. Lohde, M. Lorenz und R. Hoffmann: „A New Feature Analy-

sis Method for Robust ASR in Reverberant Environments Based on the Har-

monic Structure of Speech“, Proc. of European Signal Processing Conference

(EUSIPCO), Lausanne, Switzerland, Aug. 2008.

[PLU+08] R. Petrick, X. Lu, M. Unoki, M. Akagi und R. Hoffmann: „Robust Front End

Processing for Speech Recognition in Reverberant Environments: Utilization

of Speech Characteristics“, Proc. of Annual Conference of the International

Speech Communication Association (Interspeech), S.658–661, Brisbane, Aus-

tralia, Sept. 2008.

[Pol88] J. Polack: La Transmission de l’Énergie Sonore dans les Salles, Dissertation,

Université du Maine, 1988.

[PP02] N. Parihar und J. Picone: „DSR Front End LVCSR Evaluation“, Tech. Rep.

AU/384/02, Aurora Working Group, 2002.

[PP08] K. B. Petersen und M. S. Pedersen: The Matrix Cookbook, Technical Uni-

versity of Denmark, Okt. 2008, [URL] http://www2.imm.dtu.dk/pubdb/p.php?

3274, Version 20081110.

[PRH+92] R. Patterson, K. Robinson, J. Holdsworth, D. McKeown, C. Zhang und

M. Allerhand: „Complex Sounds and Auditory Images“, Y. Cazals, L. De-

many, und K. Horner, Hrsg., Auditory Physiology and Perception, S. 429–446,

Pergamon, Oxford, 1992.

[PS06] F. Pacheco und R. Seara: „Spectral Subtraction for Reverberation Reduction

Applied to Automatic Speech Recognition“, Proc. of International Telecom-

munications Symposium (ITS), S. 795–800, Fortaleza, Ceara, Brazil, Sept.

2006.

[QC93] S. Qian und D. Chen: „Discrete Gabor Transform“, IEEE Transactions on

Signal Processing, Band 41(7), S. 2429–2438, Juli 1993.

178

Literaturverzeichnis

[Ric09] P. Rico: Robuste Spracherkennung unter raumakustischen Umgebungsbedin-

gungen, Dissertation, Technische Universität Dresden, 2009.

[RJ93] L. Rabiner und B. H. Juang: Fundamentals of Speech Recognition, Prentice

Hall, 1993.

[RJO04] R. Ratnam, D. Jones und J. O’Brien, W.D.: „Fast Algorithms for Blind Esti-

mation of Reverberation Time“, IEEE Signal Processing Letters, Band 11(6),

S. 537 – 540, Juni 2004.

[RJW+03] R. Ratnam, D. L. Jones, B. C. Wheeler, W. D. O’Brien, C. R. Lansing und

A. S. Feng: „Blind Estimation of Reverberation Time“, The Journal of the

Acoustical Society of America, Band 114(5), S. 2877–2892, Nov. 2003.

[RLS94] A. E. Rosenberg, C.-H. Lee und F. K. Soong: „Cepstral Channel Normaliza-

tion Techniques for HMM-Based Speaker Verification“, Proc. of International

Conference on Spoken Language Processing (ICSLP), S. 1835–1838, 1994.

[RNS05a] C. Raut, T. Nishimoto und S. Sagayama: „Maximum Likelihood Based HMM

State Filtering Approach to Model Adaptation for Long Reverberation“, Proc.

of IEEE Workshop on Automatic Speech Recognition and Understanding

(ASRU), S. 353–356, Nov. 2005.

[RNS05b] C. K. Raut, T. Nishimoto und S. Sagayama: „Acoustic Model Adaptation for

Reverberant Speech by State Splitting of HMM and Convolution of Distribu-

tions“, Techn. Report of Institute of Electronics, Information and Communica-

tion Engineers (IEIC), Band 104, S. 37–42, 2005.

[RNS05c] C. K. Raut, T. Nishimoto und S. Sagayama: „Model Adaptation by State Split-

ting of HMM for Long Reverberation“, Proc. of European Conference on

Speech Communication and Technology (EUROSPEECH), S. 277–280, Lis-

bon, Portugal, Sept. 2005.

[RWK00] B. Radlovic, R. Williamson und R. Kennedy: „Equalization in an Acoustic

Reverberant Environment: Robustness Results“, IEEE Transactions on Speech

and Audio Processing, Band 8(3), S. 311–319, Mai 2000.

[SC00] M. Shire und B. Chen: „Data-Driven RASTA Filters in Reverberation“, Proc.

of IEEE International Conference on Acoustics, Speech and Signal Processing

(ICASSP), S. 1627–1630, Istanbul, Turkey, Juni 2000.

[Sch65] M. R. Schroeder: „New Method of Measuring Reverberation Time“, The Jour-

nal of the Acoustical Society of America, Band 37(6), S. 1187–1188, 1965.

[SCI75] J. Stockham, T.G., T. Cannon und R. Ingebretsen: „Blind Deconvolution

Through Digital Signal Processing“, Proceedings of the IEEE, Band 63(4),

S. 678–692, Apr. 1975.

Literaturverzeichnis

179

[SFB01] V. Stahl, A. Fischer und R. Bippus: „Acoustic Synthesis of Training Data

for Speech Recognition in Living Room Environments“, Proc. of IEEE Inter-

national Conference on Acoustics, Speech and Signal Processing (ICASSP),

S. 21–24, Salt Lake City, Utah, Mai 2001.

[SK08] A. Sehr und W. Kellermann: „Towards Robust Distant-Talking Auto-

matic Speech Recognition in Reverberant Environments“, E. Hänsler und

G. Schmidt, Hrsg., Speech and Audio Processing in Adverse Environments,

Signals and Communication Technology, S. 679–728, Springer Berlin Heidel-

berg, 2008.

[SMK10] A. Sehr, R. Maas und W. Kellermann: „Reverberation Model-Based Decoding

in the Logmelspec Domain for Robust Distant-Talking Speech Recognition“,

IEEE Transactions on Audio, Speech, and Language Processing, Band 18(7),

S. 1676–1691, 2010.

[SMK11] A. Sehr, R. Maas und W. Kellermann: „Frame-Wise HMM Adaptation Using

State-Dependent Reverberation Estimates“, Proc. of IEEE International Con-

ference on Acoustics, Speech and Signal Processing (ICASSP), Prague, Czech

Republik, Mai 2011.

[SPW96] S. Subramaniam, A. Petropulu und C. Wendt: „Cepstrum-Based Deconvolu-

tion for Speech Dereverberation“, IEEE Transactions on Speech and Audio

Processing, Band 4(5), S. 392–396, Sept. 1996.

[ST95] E. G. Schukat-Talamazzini: Automatische Spracherkennung - Grundla-

gen, statistische Modelle und effiziente Algorithmen, Künstliche Intelligenz,

Vieweg, 1995.

[SZK06] A. Sehr, M. Zeller und W. Kellermann: „Distant-Talking Continuous Speech

Recognition Based on a Novel Reverberation Model in the Feature Domain“,

Proc. of Annual Conference of the International Speech Communication Asso-

ciation (Interspeech), S. 769–772, Pittsburgh, PA, USA, Sept. 2006.

[TGH08a] S. Thomas, S. Ganapathy und H. Hermansky: „Hilbert Envelope Based Fea-

tures for Far-Field Speech Recognition“, Proc. of Joint Workshop on Ma-

chine Learning and Multimodal Interaction (MLMI), S.119–124, Utrecht, The

Netherlands, Sept. 2008.

[TGH08b] S. Thomas, S. Ganapathy und H. Hermansky: „Recognition of Reverberant

Speech Using Frequency Domain Linear Prediction“, IEEE Signal Processing

Letters, Band 15, S. 681–684, 2008.

[TN04] T. Takiguchi und M. Nishimura: „Acoustic Model Adaptation Using First Or-

der Prediction for Reverberant Speech“, Proc. of IEEE International Confer-

ence on Acoustics, Speech and Signal Processing (ICASSP), S.869–872, Mon-

treal, Quebec, Canada, Mai 2004.

180

Literaturverzeichnis

[TS05] M. Triki und D. T. M. Slock: „Blind Dereverberation of a Single Source

Based on Multichannel Linear Prediction“, Proc. of International Workshop

on Acoustic Echo and Noise Control (IWAENC), S. 173–176, Eindhoven, The

Netherlands, Sept. 2005.

[TTN06] A. M. Toh, R. Togneri und S. Nordholm: „Combining MLLR Adaptation and

Feature Extraction for Robust Speech Recognition in Reverberant Environ-

ments“, Proc. of International Conference on Speech Science and Technology

(SST), S. 88–93, Auckland, New Zealand, Dez. 2006.

[TTN07] A. M. Toh, R. Togneri und S. Nordholm: „Feature and Distribution Normal-

ization Schemes for Statistical Mismatch Reduction in Reverberant Speech

Recognition“, Proc. of Annual Conference of the International Speech Com-

munication Association (Interspeech), S. 234–237, Antwerp, Belgium, Aug.

2007.

[TW02] F. Talantzis und D. Ward: „Investigation of Performance of Acoustic Arrays

for Equalization in a Reverberant Environment“, Proc. of International Con-

ference on Digital Signal Processing (DSP), S. 247–250, Santorini, Greece,

Juli 2002.

[UFSA03] M. Unoki, M. Furukawa, K. Sakata und M. Akagi: „A Method Based on the

MTF Concept for Dereverberating the Power Envelope from the Reverberant

Signal“, Proc. of IEEE International Conference on Acoustics, Speech and

Signal Processing (ICASSP), S. 888–891, Hong Kong, China, Apr. 2003.

[UN98] N. Ueda und R. Nakano: „Deterministic Annealing EM Algorithm“, Neural

Networks, Band 11(2), S. 271–282, 1998.

[VL98] O. Viikki und K. Laurila: „Cepstral Domain Segmental Feature Vector Nor-

malization for Noise Robust Speech Recognition“, Speech Communication,

Band 25(1-3), S. 133–147, 1998.

[VM06] P. Vary und R. Martin: Digital Speech Transmission: Enhancement, Coding

and Error Concealment, JohnWiley & Sons, 2006.

[vVH97] S. van Vuuren und H. Hermansky: „Data-Driven Design of RASTA-Like Fil-

ters“, Proc. of European Conference on Speech Communication and Technol-

ogy (EUROSPEECH), S. 409–412, Rhodes, Greece, Sept. 1997.

[WHN08] J. Wen, E. Habets und P. Naylor: „Blind Estimation of Reverberation Time

Based on the Distribution of Signal Decay Rates“, Proc. of IEEE International

Conference on Acoustics, Speech and Signal Processing (ICASSP), S. 329 –

332, Las Vegas, USA, Apr. 2008.

[Wöl09] M. Wölfel: „Enhanced Speech Features by Single-Channel Joint Compensa-

tion of Noise and Reverberation“, IEEE Transactions on Audio, Speech, and

Language Processing, Band 17(2), S. 312–323, Febr. 2009.

Literaturverzeichnis

181

[WR90] J. Wexler und S. Raz: „Discrete Gabor Expansions“, Signal Processing,

Band 21(3), S. 207–220, Nov. 1990.

[WSNK09] J. Y. C. Wen, A. Sehr, P. A. Naylor und W. Kellermann: „Blind Estima-

tion of a Feature-Domain Reverberation Model in Non-Diffuse Environments

with Variance Adjustment“, Proc. of European Signal Processing Conference

(EUSIPCO), S. 175–178, Glasgow, Scotland, Aug. 2009.

[YEG+06] S. J. Young, G. Evermann, M. J. F. Gales, T. Hain, D. Kershaw, G. Moore,

J. Odell, D. Ollason, D. Povey, V. Valtchev und P. C. Woodland: The HTK

Book, version 3.4, Cambridge University Engineering Department, Cam-

bridge, UK, 2006.

[YM00] B. Yegnanarayana und P. Murthy: „Enhancement of Reverberant Speech Using

LP Residual Signal“, IEEE Transactions on Speech and Audio Processing,

Band 8(3), S. 267–281, Mai 2000.

[YNM09] T. Yoshioka, T. Nakatani und M. Miyoshi: „Integrated Speech Enhancement

Method Using Noise Suppression and Dereverberation“, IEEE Transactions

on Audio, Speech, and Language Processing, Band 17(2), S. 231–246, Febr.

2009.

[YNS04] H. Yamamoto, T. Nishimoto und S. Sagayama: „Frame-by-Frame HMM

Adaptation for Reverberant Speech Recognition“, Proc. of Special Workshop

in Maui (SWIM), Maui, Jan. 2004.

[You08] S. Young: „HMMs and Related Speech Recognition Technologies“, J. Ben-

esty, M. Mohan Sondhi und Y. Huang, Hrsg., Springer Handbook of Speech

Processing, Kap. 27, Springer, Berlin, 2008.

Eigene Publikationen

[HUKus] R. Haeb-Umbach und A. Krueger: „Reverberant Speech Recognition“, T. Vir-

tanen, B. Raj und R. Singh, Hrsg., Techniques for Noise Robustness in

Automatic Speech Recognition, Kap. 10, John Wiley & Sons, Ltd., Veröf-

fentlichung steht noch aus.

[KHU09] A. Krueger und R. Haeb-Umbach: „Model Based Feature Enhancement for

Automatic Speech Recognition in Reverberant Environments“, Proc. of An-

nual Conference of the International Speech Communication Association

(Interspeech), S. 1231–1234, Brighton, U.K., Sept. 2009.

[KHU10] A. Krueger und R. Haeb-Umbach: „Model-Based Feature Enhancement for

Reverberant Speech Recognition“, IEEE Transactions on Audio, Speech, and

Language Processing, Band 18(7), S. 1692–1707, 2010.

[KHU11a] A. Krueger und R. Haeb-Umbach: „MAP-Based Estimation of the Parameters

of Non-Stationary Gaussian Processes from Noisy Observations“, Proc. of

IEEE International Conference on Acoustics, Speech and Signal Processing

(ICASSP), Prague, Czech Republic, Mai 2011.

[KHU11b] A. Krueger und R. Haeb-Umbach: „A Model Based Approach to Joint Com-

pensation of Noise and Reverberation for Speech Recognition“, R. Haeb-

Umbach und D. Kolossa, Hrsg., Robust Speech Recognition of Uncertain or

Missing Data, Kap. 10, Springer, 2011.

[KLHU+10] A. Krueger, V. Leutnant, R. Haeb-Umbach, A. Marcel und J. Bloemer: „On

the Initialization of Dynamic Models for Speech Features“, Proc. of ITG

Fachtagung Sprachkommunikation, Bochum, Okt. 2010.

[KWHU08] A. Krueger, E. Warsitz und R. Haeb-Umbach: „Blinde Akustische Strahlfor-

mung für Anwendungen im KFZ“, Proc. of Deutsche Jahrestagung für

Akustik (DAGA), S. 863–864, Dresden, März 2008.

[KWHU11] A. Krueger, E. Warsitz und R. Haeb-Umbach: „Speech Enhancement With a

GSC-Like Structure Employing Eigenvector-Based Transfer Function Ratios

Estimation“, IEEE Transactions on Audio, Speech, and Language Processing,

Band 19(1), S. 206–219, 2011.

183

184

Eigene Publikationen

[LKHU11] V. Leutnant, A. Krueger und R. Haeb-Umbach: „A Versatile Gaussian Split-

ting Approach to Non-Linear State Estimation and Its Application to Noise-

Robust ASR“, Proc. of Annual Conference of the International Speech Com-

munication Association (Interspeech), Florence, Italy, Aug. 2011.

[RWKHU10] B. Raj, K. Wilson, A. Krueger und R. Haeb-Umbach: „Ungrounded Inde-

pendent Non-Negative Factor Analysis“, Proc. of Annual Conference of the

International Speech Communication Association (Interspeech), S. 330–333,

Makuhari, Japan, Sept. 2010.

[TVKHU08] D. H. Tran Vu, A. Krueger und R. Haeb-Umbach: „Generalized Eigenvec-

tor Blind Speech Separation Under Coherent Noise in a GSC Configura-

tion“, Proc. of International Workshop on Acoustic Echo and Noise Control

(IWAENC), Seattle, Washington, USA, Sept. 2008.

[WKHU08] E. Warsitz, A. Krueger und R. Haeb-Umbach: „Speech Enhancement With a

New Generalized Eigenvector Blocking Matrix for Application in a General-

ized Sidelobe Canceller“, Proc. of IEEE International Conference on Acous-

tics, Speech and Signal Processing (ICASSP), S.73–76, Las Vegas, NV, USA,

März 2008.