F
AKULTÄT FÜR
E
LEKTROTECHNIK
,
I
NFORMATIK UND
M
ATHEMATIK
Mehrkanalige Sprachsignalverbesserung
durch adaptive Lösung eines Eigenwertproblems
im Frequenzbereich
Zur Erlangung des akademischen Grades
DOKTORINGENIEUR (Dr.-Ing.)
der Fakultät für Elektrotechnik, Informatik und Mathematik
der Universität Paderborn
vorgelegte Dissertation
von
Dipl.-Ing. Ernst Warsitz
Oppeln
Referent: Prof. Dr.-Ing. Reinhold Häb-Umbach
Korreferent: Prof. Dr.-Ing. Peter Vary
Tag der mündlichen Prüfung: 12.12.2008
Paderborn, den 03.03.2009
Diss. EIM-E/248
ii
Danksagung
Die vorliegende Arbeit entstand w¨
ahrend meiner T¨
atigkeit als wissenschaftlicher Mitarbeiter
im Fachgebiet Nachrichtentechnik der Universit¨
at Paderborn. Insbesondere die spannende
Aufbauphase beim Etablieren der neuen Schwerpunkte Sprachsignalverarbeitung und Spra-
cherkennung w¨
ahrend der Anfangszeit meiner T¨
atigkeit gemeinsam mit dem Fachgebietsleiter
Herrn Prof. Dr.-Ing. Reinhold H¨
ab-Umbach werden mir im Ged¨
achtnis bleiben. Ihm danke ich
f¨
ur die sehr gute Arbeitsatmosph¨
are, f¨
ur die zahlreichen anregenden Diskussionen und f¨
ur die
¨
Ubernahme des Referates dieser Arbeit. Herrn Prof. Dr.-Ing. Peter Vary von der Universit¨
at
Aachen danke ich f¨
ur die ¨
Ubernahme des Korreferates und die Hinweise zur Verbesserung
dieser Arbeit.
Im Zuge meiner T¨
atigkeit sind eine Reihe von Projekt-, Studien- und Diplomarbeiten
entstanden, deren Ergebnisse vielf¨
altig in die Dissertation eingeflossen sind. Allen Studenten
danke ich f¨
ur die gute Zusammenarbeit. Stellvertretend seien hier Herr Dipl.-Ing. Maik Be-
vermeier, Herr Dipl.-Math. Alexander Kr¨
uger, Herr Dipl.-Ing. J¨
org Schmalenstr¨
oer und Herr
Dipl.-Ing. Dang Hai Tran Vu erw¨
ahnt, die mir nach ihrer studentischen T¨
atigkeit als Kollegen
erhalten geblieben sind. Ihnen und meinen weiteren Kollegen danke ich f¨
ur die vielen fachli-
chen und freundschaftlichen Gespr¨
ache. Meinem Kollegen Herrn Dipl.-Inf. Sven Peschke dan-
ke ich insbesondere f¨
ur die anregende Zeit im gemeinsamen B¨
uro und den unkonventionellen
fachlichen Gedankenaustausch. F¨
ur die hervorragende Unterst¨
utzung bei der fachgebietseige-
nen Simulationssoftware und die liebenswerten Kommentare zu allen Lebenslagen danke ich
Herrn Dr.-Ing. Valentin Ion.
Meinen Seilpartnern Georg, J¨
orn und Ingo danke ich f¨
ur die sch¨
onen Stunden in der Natur
und in der Vertikalen. Sie haben mir mit dem Klettern eine ideale Abwechslung zum Uni-
Alltag erm¨
oglicht und mir geholfen, die aufreibenden Phasen w¨
ahrend der Promotionszeit
durchzustehen.
Meiner Frau Kerstin danke ich f¨
ur ihre unglaubliche Geduld, den Verzicht auf viele ge-
meinsame Wochenenden und das Ertragen angespannter Arbeitsphasen. Durch ihre tatkr¨
af-
tige Unterst¨
utzung im Alltag hat sie mir eine intensive Auseinandersetzung mit dieser Arbeit
erm¨
oglicht. Meiner Tochter Frieda danke ich f¨
ur ihr Lachen und ihre unendliche Liebe.
Abschließend gilt mein Dank den Menschen, die mich von erster Stunde an begleitet
haben, meinen Eltern. Ihr Vertrauen, ihre Großz¨
ugigkeit und ihre stetige Unterst¨
utzung haben
f¨
ur mich erst viele Wege in meinem Leben gangbar gemacht – so auch das Studium und die
Promotion.
iv
Inhaltsverzeichnis
1 Einleitung 1
1.1 Mehrkanalige St¨
orger¨
auschreduktion . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Wissenschaftliche Ziele dieser Arbeit . . . . . . . . . . . . . . . . . . . . . . . 7
2 Statistische Raumakustik 11
2.1 Schallausbreitung in R¨
aumen . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Raumimpulsantworten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Mehrkanaliges Signalmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 R¨
aumliche Koh¨
arenz akustischer Schallfelder . . . . . . . . . . . . . . . . . . 20
2.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3 Grundlagen zu Mikrophongruppen 29
3.1 Beamformer-Signalmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Delay-and-Sum-Beamformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Anordnung der Mikrophone . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.4 SNR-basierte Bewertungsgr¨
oßen des Beamformings . . . . . . . . . . . . . . . 40
3.5 Wahrnehmungsbasierte Qualit¨
atsbewertung des Sprachsignals . . . . . . . . . 44
3.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4 Statistisch optimales Beamforming 53
4.1 Max-SNR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.2 Minimum Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.3 Maximum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.4 Minimum Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.5 Experimente zur verallgemeinerten L¨
osung . . . . . . . . . . . . . . . . . . . . 62
4.6 Zusammenfassung und Diskussion . . . . . . . . . . . . . . . . . . . . . . . . 68
5 Adaptive L¨
osung des Eigenwertproblems 71
5.1 Spezielles Eigenwertproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.1.1 Potenzmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.1.2 Projektionsapproximation . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.1.3 Gradientenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.1.4 Neuartiges Gradientenverfahren . . . . . . . . . . . . . . . . . . . . . . 78
5.1.5 RLS-¨
Ahnliche Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . 79
5.1.6 Simulationen zum speziellen Eigenwertproblem . . . . . . . . . . . . . 81
vi Inhaltsverzeichnis
5.2 Allgemeines Eigenwertproblem . . . . . . . . . . . . . . . . . . . . . . . . . . 85
5.2.1 Potenzmethode und Projektionsapproximation . . . . . . . . . . . . . 85
5.2.2 Neuartiges Gradientenverfahren . . . . . . . . . . . . . . . . . . . . . . 87
5.2.3 Simulationen zum allgemeinen Eigenwertproblem . . . . . . . . . . . . 91
5.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6 Einkanaliges Nachfilter f¨
ur das Eigenvektor-Beamforming 97
6.1 Analytische Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
6.2 Statistische Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.3 Maximum-Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6.4 Simulationen zu Normalisierungsverfahren . . . . . . . . . . . . . . . . . . . . 101
6.4.1 PCA Beamforming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.4.2 GEV Beamforming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
6.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
7 Sprecherrichtungsbestimmung 113
7.1 Korrelation der Mikrophonsignale . . . . . . . . . . . . . . . . . . . . . . . . . 113
7.2 Abtastung der Richtcharakteristik . . . . . . . . . . . . . . . . . . . . . . . . 116
7.3 Implementierungsaspekte und Experimente . . . . . . . . . . . . . . . . . . . 117
7.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
8 GEV-Beamformer in GSC-Struktur 123
8.1 GSC in station¨
arer Umgebung . . . . . . . . . . . . . . . . . . . . . . . . . . 124
8.2 Realisierung der Blocking Matrix . . . . . . . . . . . . . . . . . . . . . . . . . 126
8.2.1 BM nach Griffiths und Jim . . . . . . . . . . . . . . . . . . . . . . . . 127
8.2.2 BM nach Gannot et al. . . . . . . . . . . . . . . . . . . . . . . . . . . 128
8.2.3 BM nach Hoshuyama et al. . . . . . . . . . . . . . . . . . . . . . . . . 130
8.2.4 Neuartige Bestimmung der Blocking Matrix . . . . . . . . . . . . . . . 132
8.3 Fixed Beamformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
8.3.1 DSB als FBF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
8.3.2 Matched Filter als FBF . . . . . . . . . . . . . . . . . . . . . . . . . . 134
8.4 Experimentelle Untersuchungen . . . . . . . . . . . . . . . . . . . . . . . . . . 135
8.4.1 Generalized Sidelobe Canceller mit DSB . . . . . . . . . . . . . . . . . 136
8.4.2 Blinder Generalized Sidelobe Canceller . . . . . . . . . . . . . . . . . . 145
8.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
9 Zusammenfassung 151
A Lineare Algebra – Matrizen 155
A.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
A.2 Matrix Inversion f¨
ur optimales Beamforming . . . . . . . . . . . . . . . . . . 156
A.3 Matrix Inversion f¨
ur Fixpunkt-Adaption . . . . . . . . . . . . . . . . . . . . . 158
Inhaltsverzeichnis vii
B R¨
aumliche Koh¨
arenz eines diffusen Schallfeldes 159
C Geometrische Anordnungen der Simulationen 161
C.1 Spiegelquellenmethode f¨
ur St¨
orger¨
auschunterdr¨
uckung . . . . . . . . . . . . . 161
C.2 Spiegelquellenmethode f¨
ur blinde Quellentrennung . . . . . . . . . . . . . . . 162
D Robuste Sprache/Pause-Detektion 165
D.1 Likelihood-Ratio-Entscheidungsregel . . . . . . . . . . . . . . . . . . . . . . . 165
D.2 Sch¨
atzung des a priori SNR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
D.3 Analyse von Fehlsch¨
atzungen der Rauschvarianz . . . . . . . . . . . . . . . . 169
D.4 Simulationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
D.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
E Adaptive Eigenwertzerlegung 175
E.1 Oja Lernregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
E.2 Schrittweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
F Exkurs zur blinden Quellentrennung 181
F.1 Unterbesetzter Zeit-Frequenz-Raum . . . . . . . . . . . . . . . . . . . . . . . 182
F.2 PCA Beamforming im Mehr-Sprecher-Szenario . . . . . . . . . . . . . . . . . 184
F.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
Formelzeichen und Abk¨
urzungen 191
Literaturverzeichnis 201
Eigene Publikationen 219
viii Inhaltsverzeichnis
Kapitel 1
Einleitung
Die wichtigste und nat¨
urlichste Kommunikationsform des Menschen ist die Sprache. Aufgrund
der Entwicklung der Informations- und Kommunikationstechnik in den letzten Jahren sind
viele Anwendungen entstanden, um dem Bed¨
urfnis des Menschen nach allgegenw¨
artiger und
komfortabler Sprachkommunikation zu entsprechen. Dies ist insbesondere an dem sprunghaft
gewachsenen Markt der Mobiltelefonie im letzten Jahrzehnt abzulesen. Zus¨
atzlich zu der mo-
bilen Telefonie und der klassischen Festnetztelefonie entsteht aktuell ein besonderes Interesse
an neuen Kommunikationstechniken wie sie die internetbasierte Telefonie erm¨
oglicht. Dabei
ist insbesondere der Vorteil zur Sprachkommunikation, parallel weitere Daten wie Text-, Bild-
und Videomaterial auszutauschen, sehr reizvoll.
Um den Komfort f¨
ur Kommunikationsteilnehmer zu steigern und eine erh¨
ohte Mobilit¨
at
w¨
ahrend der Kommunikation zu gew¨
ahrleisten, ist der Einsatz von Freisprecheinrichtungen
w¨
unschenswert1. Im ¨
uberwiegenden Fall ist dabei der Kommunikationspartner ebenfalls ein
Mensch, weshalb auch von Mensch-Mensch-Kommunikation gesprochen wird. Dadurch of-
fenbaren sich aber auch schon zwei wesentliche Probleme der Freisprechanwendung. Zum
einen werden bei der Aufnahme der Sprache vorhandene St¨
orger¨
ausche in der Umgebung des
Sprechers ebenfalls von den Mikrophonen erfasst und mit¨
ubertragen. Zum anderen entste-
hen bei einer Duplex-Verbindung durch die gleichzeitige Ausgabe und Aufnahme der Sprache
beim entfernten Kommunikationspartner auf der Sendeseite Echo- bzw. Halleffekte. Die Ein-
bußen in der Sprachqualit¨
at durch die additiven St¨
orger¨
ausche und die ¨
außerst irritierenden
Echokomponenten m¨
ussen durch geeignete Verfahren zur Sprachsignalverbesserung minimiert
werden, um eine Akzeptanz des Anwenders f¨
ur ein Freisprechsystem zu schaffen.
W¨
ahrend bei einer Mensch-Mensch-Kommunikation St¨
orungen der Sprache lediglich als
qualit¨
atsmindernd anzusehen sind, k¨
onnen gest¨
orte Sprachsignale bei der maschinellen Wei-
terverarbeitung zu erheblichen Fehlern f¨
uhren. Bei dieser so genannten Mensch-Maschine-
Kommunikation ist eine hohe Sprachsignalqualit¨
at von essentieller Bedeutung f¨
ur das ma-
schinelle Erkennen der gesprochenen Sprache. Die automatische Spracherkennung kann dabei
z. B. in Auskunftsystemen, f¨
ur Diktieranwendungen oder aber auch zur Sprachsteuerung
von Robotersystemen eingesetzt werden. Verwandt mit der Spracherkennung ist die Spre-
chererkennung. Diese kann zur Stimmenidentifizierung und Authentifizierung in Sicherheits-
systemen zum Einsatz kommen. Weiterhin kann z. B. f¨
ur ¨
Uberwachungssysteme, oder zur
1Aus Gr¨
unden der Verkehrssicherheit ist das Telefonieren im fahrenden Kraftfahrzeug ohne Freisprechein-
richtung seit Februar 2001 sogar verboten.
2Kapitel 1. Einleitung
Kamerasteuerung bei einer Telekonferenz die Information ¨
uber die Position des Sprechers
in seiner Umgebung von Bedeutung sein. All diese Problemstellungen k¨
onnen auch als Teila-
spekte eines Gesamtsystems verstanden werden, welches dann mit dem Schlagwort akustische
Szenenanalyse bezeichnet werden kann. W¨
ahrend aber bei der akustischen Szenenanalyse al-
le pr¨
asenten Ger¨
auschquellen zu lokalisieren, zu trennen und letztlich zu klassifizieren sind,
ergibt sich unter dem Gesichtspunkt der Sprache als Quellsignal vielmehr die griffig zu for-
mulierende Fragestellung: “Wer spricht wann, wo und was?”
Die genannten Anwendungsbeispiele zeigen die hohe Relevanz der Sprachsignalverarbei-
tung und insbesondere den Teilaspekt der Sprachsignalverbesserung f¨
ur gegenw¨
artig existie-
rende Produktl¨
osungen aber auch f¨
ur zukunftsweisende Szenarien wie z. B. eine vernetzte
Hausumgebung mit intelligenten, multimodalen Schnittstellen als kontextbewusstes System
[Ami, SHUW07]. Hierbei soll die Problemstellung der Sprachsignalverbesserung unter dem
Aspekt lediglich eines aktiven Sprechers2in einer gest¨
orten Umgebung betrachtet werden.
Bez¨
uglich der St¨
orquellen soll die praktisch sehr relevante Annahme gelten, dass es sich
um ein schwach zeitvariantes Hintergrundrauschen mit einer leichten Tiefpasscharakteris-
tik handelt. Grunds¨
atzlich lassen sich dabei Ger¨
auschreduktionssysteme in zwei Kategorien
einteilen: ein- und mehrkanalige Systeme, d. h. ob die zugrundeliegende Freisprecheinrichtung
aus einem oder mehreren Mikrophonen aufgebaut ist. Im Bereich der einkanaligen Sprach-
signalverbesserung sind in den letzten Jahrzehnten eine Vielzahl von Verfahren vorgestellt
worden, die im Wesentlichen rein spektrale Eigenschaften der Eingangsdaten auswerten, sie-
he z. B. [BCM05, VM06, Loi07]. In der Regel ist mit einkanaligen Methoden zwar eine starke
Unterdr¨
uckung der St¨
orsignalkomponenten m¨
oglich, aber gleichzeitig entstehen zus¨
atzliche
Artefakte als tonales Rauschen3und eine nicht unerhebliche Sprachverzerrung.
Durch die Anordnung von mehreren akustischen Sensoren als Mikrophongruppe entsteht
ein mehrkanaliges Signal zur Weiterverarbeitung mittels Algorithmen zur St¨
orger¨
auschreduk-
tion. Die mehrkanaligen Ans¨
atze zur Signalverarbeitung k¨
onnen dann zus¨
atzlich die r¨
aum-
liche Information, welche aufgrund von Laufzeitunterschieden der akustischen Signale von
den Quellen zu den Mikrophonen entstehen, ausnutzen. Dadurch ist eine gewisse r¨
aumliche
Unterscheidung zwischen dem Nutzsignal und dem St¨
orsignal m¨
oglich, wobei Signale aus
der Richtung des Nutzsignals m¨
oglichst unverzerrt zu belassen und St¨
orsignale aus ande-
ren Raumrichtungen zu unterdr¨
ucken sind. Diese Vorgehensweise kann auch als akustische
Strahlformung4(engl. Beamforming) aufgefasst und ¨
uber die so genannte Richtcharakteristik
r¨
aumlich interpretiert werden.
In praktischen Anwendungsbeispielen treten vielf¨
altige Probleme beim Entwurf von Beam-
forming-Verfahren auf, wie der breitbandige Charakter der Sprachsignale, die Mehrwegeaus-
breitung des akustischen Schalls aufgrund von Reflexionen an den Raumbegrenzungen, und
m¨
ogliche Positions¨
anderungen der akustischen Quellen, insbesondere ein sich bewegender
Sprecher. Außerdem unterliegt das Design wirtschaftlichen und geometrischen Restriktionen
bez¨
uglich der Anzahl und der Anordnung der Mikrophone.
2Die Problemstellung, ein Gemisch von mehreren Sprachsignalen zu trennen, wird nur peripher im Anhang
F behandelt.
3Bei dem tonalen Rauschen handelt es sich um spektral gef¨
arbtes, instation¨
ares Rauschen, welches f¨
ur den
Menschen als sehr unangenehm empfunden wird.
4Eine r¨
aumliche Filterung von Signalen wird in verschiedenen Anwendungen eingesetzt wie z. B. der Radar-
technik, der Kommunikationstechnik, bei geophysikalischen Anwendungen oder eben auch in der Sprachsignal-
verarbeitung.
1.1. Mehrkanalige St¨
orger¨
auschreduktion 3
Seit einigen Jahren wird die Verwendung von Mikrophongruppen zur Sprachsignalverar-
beitung immer interessanter aufgrund der stetig steigenden Leistungsf¨
ahigkeit von digitalen
Signalprozessoren.
1.1 Mehrkanalige St¨
orger¨
auschreduktion
Die entscheidende Eigenschaft eines mehrkanaligen Mikrophonsignals besteht im Zeitversatz
der einzelnen Signale zueinander bedingt durch die Laufzeitunt erschiede des akustischen
Signals von der Quelle hin zu den verwendeten Sensoren. Dies gilt f¨
ur die direkten Ausbrei-
tungspfade aber auch f¨
ur die jeweiligen Reflexionen an den Raumbegrenzungen. Die einfachste
Variante einer Strahlformung besteht nun darin, den entstandenen Zeitversatz der direkten
Ausbreitungspfade zu kompensieren und die Signale koh¨
arent zu addieren. Ein solches Ver-
fahren wird entsprechend dem Vorgehen als Delay-and-Sum-Beamformer (DSB) bezeichnet.
Dabei wird das akustische Signal aus einer gew¨
unschten Richtung unverzerrt ¨
ubertragen, wo-
hingegen Signale aus anderen Richtungen ged¨
ampft werden. Zus¨
atzlich ist es m¨
oglich, nach
dem Laufzeitausgleich in jedem Signalpfad Filterfunktionen einzusetzen, welche je nach Ent-
wurfskriterium die Richtcharakteristik des Beamformers beeinflussen. Allgemein kann dann
von einem Filter-and-Sum-Beamformer (FSB) gesprochen werden. Dabei l¨
asst sich der Ent-
wurf f¨
ur die Filter prinzipiell in zwei Klassen aufteilen: datenunabh¨
angige und datenabh¨
an-
gige Verfahren [VVB88]. Bei den datenunabh¨
angigen Verfahren werden die Filtergewichte
a priori entsprechend einer gew¨
unschten Richtcharakteristik entworfen [VT02] und bleiben
w¨
ahrend der Anwendung unver¨
andert; sie sind also unabh¨
angig von den Eigenschaften der
zu verarbeitenden Signale. Im Allgemeinen ist jedoch eine deutlich h¨
ohere Unterdr¨
uckung
von St¨
orger¨
auschen zu erzielen, wenn die Filterkoeffizienten des Beamformers adaptiv dem
konkreten St¨
orszenario angepasst werden k¨
onnen. In diesem Fall spricht man von datenab-
h¨
angigen Beamforming-Verfahren.
Grunds¨
atzlich bedeutet mehrkanalige St¨
orger¨
auschreduktion aus Sicht der statistischen
Signalverarbeitung die Minimierung der Varianz der St¨
orung am Ausgang des Beamformers.
Dieses Ziel wird je nach Anordnung der Mikrophone, sowie a priori Wissen und Annahmen
bez¨
uglich der Signale mit unterschiedlichen Ans¨
atzen der Signalverarbeitung verfolgt. Eine
sehr ¨
ubersichtliche Einf¨
uhrung in die Thematik des adaptiven Beamformings pr¨
asentieren Van
Veen und Buckley in [VVB88]. Cox et al. haben eine Zusammenfassung fr¨
uher Arbeiten zum
adaptiven Beamforming und zu Robustheitsaspekten in [CZO87] erstellt. Das wohl bekanntes-
te Optimierungskriterium besteht in der Minimierung der Ausgangsleistung des Beamformers
mit der Nebenbedingung eines unverzerrten Signals aus einer gew¨
unschten Richtung, welche
im Allgemeinen durch die Sch¨
atzung der Sprecherrichtung gegeben ist. Daher wird auch
vom Minimum Variance Distortionless Response (MVDR) Beamformer gesprochen. F¨
ur den
MVDR Beamformer sind in [GM55] und [Cap69] erste Untersuchungen von besonderer Be-
deutung zu finden, wobei der Fokus auf dem seismischen Anwendungsbereich liegt. Einen
weit verbreiteten adaptiven MVDR-L¨
osungsansatz f¨
ur das akustische Beamforming hat Frost
[Fro72] vorgestellt. Dabei wird f¨
ur die gesch¨
atzte Sprecherrichtung eine vorgegebene spektrale
¨
Ubertragungsfunktion mittels einer Nebenbedingung5eingehalten, w¨
ahrend die Leistung des
5Da es sich in der Regel um lineare Nebenbedingungen beim adaptiven MVDR Beamformer handelt, wird
auch h¨
aufig vom Linearly Constrained Minimum Variance Distortionless Response (LCMVDR) Beamformer
gesprochen.
4Kapitel 1. Einleitung
Rauschens durch die Minimierung der gesamten Ausgangsleistung reduziert wird. W¨
ahrend
die Gradienten-Adaptionsregel in [Fro72] mit den instantanen Eingangsdaten abl¨
auft, erfolgt
in [Dob06] basierend auf der Arbeit in [PK01] dessen Erweiterung unter Ber¨
ucksichtigung der
gegl¨
atteten spektralen Kreuzleistungsdichten der Signale mit dem Ziel einer beschleunigten
Adaption. Eine theoretische Basis f¨
ur die MVDR-L¨
osung unter Einbeziehung der Mehrwege-
ausbreitung von akustischen Signalen wird in [KHJ06] vorgestellt6.
Die Leistungsf¨
ahigkeit von MVDR-Beamforming-Verfahren wird entscheidend von der
Genauigkeit der Sch¨
atzung der Einfallsrichtung des gew¨
unschten Quellensignals, und damit
der Richtung aus der das Signal unverzerrt ¨
ubertragen werden soll, bestimmt. Abweichungen
zwischen wahrer und gesch¨
atzter Richtung, k¨
onnen zu starken Signalverzerrungen und unge-
wollter Verst¨
arkung von St¨
orungen f¨
uhren [WA96]. Weiterhin sind die meisten Beamforming-
Verfahren sehr sensitiv gegen¨
uber nicht kalibrierten Mikrophonsystemen (ungleiche Richtcha-
rakteristiken der verwendeten Mikrophone, unterschiedliche Verst¨
arkung der einzelnen Signal-
pfade in der nachverarbeitenden Elektronik und ungenaue Positionierung der Mikrophone).
Daher besch¨
aftigt sich eine Vielzahl aktueller Arbeiten zu adaptiven MVDR-Beamforming-
Methoden mit Robustheitsaspekten. Hierzu sind in [LS05] wesentliche Methoden beschrieben
und ebenfalls in [HGJ06, JHLCCC06] erw¨
ahnt.
Wird ein Beamformer ausschließlich hinsichtlich der Direktivit¨
at optimiert, also das Signal-
zu-Rauschleistungsverh¨
altnis f¨
ur den Fall eines diffusen St¨
orschallfelds maximiert, so erh¨
alt
man eine spezielle Klasse von MVDR-Beamforming-Verfahren, die in der Praxis von großer
Bedeutung sind. Man bezeichnet solch einen Beamformer als Superdirektiven Beamformer
und dessen Eigenschaft als Superdirektivit¨
at. Fr¨
uhe Arbeiten zur robusten Realisierung Su-
perdirektiver Beamformer sind in [GM55, US56, CZK86] und eine aktuellere ¨
Ubersicht in
[Elk00, BS01] zu finden. Moderne Realisierungen beinhalten z. B. Entwurfskriterien f¨
ur Nah-
feldanwendungen wie in [T¨
ag98, JG00] mit der Anwendung f¨
ur Freisprecheinrichtungen in
Kraftfahrzeugen [MPL01] oder zur Spracherkennung an einem PC-Arbeitsplatz [MMM00].
Weitere aktuelle Arbeiten besch¨
aftigen sich z. B. mit Robustheitsaspekten bez¨
uglich fehlerhaf-
ter Annahmen der Charakteristik von linearen Mikrophongruppen kleiner Apertur [DM06],
dem Beamforming-Design f¨
ur binaurale Anwendungen mit zweikanaliger Ein- und Ausgabe
zur Bewahrung Interauraler Eigenschaften [LV06] oder der Einbeziehung der Richteigenschaf-
ten der verwendeten Mikrophone [Buc07]. Bitzer et al. stellen in [BSK99a] eine alternative
Realisierung des Superdirektiven Beamformers in einer Struktur als Generalized Sidelobe Can-
celler (GSC) mit dem Vorteil einer Reduzierung der Rechenkomplexit¨
at vor.
Grunds¨
atzlich erfolgt bei einem GSC die Minimierung des Rauschens in einem Signal,
welches mit einem nichtadaptiven Beamformer erzeugt wird, mittels adaptiver Filter, an
dessen Eing¨
angen dann St¨
orger¨
auschreferenzsignale anliegen. Diese St¨
orger¨
auschreferenzsi-
gnale werden mit Hilfe einer so genannten Blocking Matrix erzeugt. Die GSC-Struktur wurde
erstmals von Griffiths und Jim [GJ82] vorgeschlagen und kann als Umformung des beding-
ten Minimierungsproblems nach [Fro72] in ein Minimierungsproblem ohne Nebenbedingung
betrachtet werden. In [GJ82] wird vorgeschlagen, die St¨
orger¨
auschreferenzsignale durch die
paarweise Subtraktion aufeinander zeitangepasster Signale zu generieren.
Bitzer et al. [BSK99c] sowie Nordholm und Leug [NL00] haben den GSC abh¨
angig von
dem St¨
orschallfeld untersucht. F¨
ur den Fall von gerichteten St¨
orungen ist dabei die Rausch-
6Obschon bei den Herleitungen in [KHJ06] Reflexionspfade ber¨
ucksichtigt werden, so ist in den Experimen-
ten nur der direkte Ausbreitungspfad zu finden.
1.1. Mehrkanalige St¨
orger¨
auschreduktion 5
unterdr¨
uckung theoretisch unendlich hoch, w¨
ahrend bei dem praktisch sehr relevanten dif-
fusen St¨
orschallfeld die Ger¨
auschreduktion recht gering ausf¨
allt. Ein wesentliches Problem
der Originalvariante nach [GJ82] ist die Annahme der Freifeldausbreitung des Sprachsignals.
Denn nur unter dieser Bedingung k¨
onnen mittels der paarweisen Subtraktion aufeinander
zeitangepasster Mikrophonsignale optimale St¨
orger¨
auschreferenzsignale erzeugt und eine ho-
he St¨
orger¨
auschreduktion bei unverzerrt gebliebenem Sprachsignal erreicht werden. Dieses
Manko ist in einigen Arbeiten explizit aufgegriffen worden.
Nordholm et al. haben in [NCB93] r¨
aumliche Hochpassfilter in der Blocking Matrix ver-
wendet. Durch die aufwendige Filterung sind dann genauere St¨
orger¨
auschreferenzsignale be-
stimmt worden. Meyer und Sydow [MS97] verwenden unterschiedliche Beamformer f¨
ur die
St¨
orung und den Sprecher, um mittels des Beamformers f¨
ur das St¨
orsignal den Anteil der
Sprache im St¨
orger¨
auschreferenzsignal zu vermindern.
Die Mehrwegeausbreitung des Sprachsignals ist von Jan und Flanagan in [JF96] konstruk-
tiv mittels Matched Filter im nichtadaptiven Beamformer genutzt worden. Die Filter bestehen
dabei aus komplex konjugierten ¨
Ubertragungsfunktionen, welche zuvor zwischen dem Spre-
cher und den Sensoren bestimmt wurden. Rabinkin et al. [RRFM98] zeigen, dass solch ein
Matched Filter Beamformer (MFB) einem DSB ¨
uberlegen ist.
Eine adaptive Variante beschreiben Gazor et al. [GAG96], wobei das Nachf¨
uhren der Fil-
ter durch eine iterative Hauptkomponentenanalyse der spektralen Kreuzleistungsdichtematrix
der Eingangsdaten mittels einer modifizierten Variante des Adaptionsverfahrens [Oja82] er-
folgt. Dabei wird das Ausgangssignal des GSCs zur Adaption des Matched Filter Beamformers
r¨
uckgekoppelt. Entscheidend f¨
ur die Adaption sind die Initialwerte der Filterkoeffizienten. Die
Blocking Matrix wird ¨
aquivalent zu [GJ82] berechnet. Eine Erweiterung dieses Verfahrens ist
in [AG97] zu finden mit der Adaptionsregel [Yan95] und einem expliziten L¨
osungsvorschlag
zur Normalisierung der Matched-Filter-Koeffizienten optimiert f¨
ur eine Sprecherposition vor
einem PC-Arbeitsplatz. Hier wird die Blocking Matrix zur Erzeugung der St¨
orger¨
auschrefe-
renzsignale durch eine orthogonale Projektion bestimmt. Bei der Anwendung in einer Um-
gebung mit unbekannten, gerichteten St¨
orschallquellen kann jedoch eine ungewollte Identifi-
zierung der St¨
orung als Nutzsignal vorkommen und vice versa das Sprachsignal unterdr¨
uckt
werden.
Hoshuyama et al. [HSH96, HSH99] haben Least Mean Squares (LMS) adaptive Filter
zur Sprachsignalunterdr¨
uckung in der Blocking Matrix verwendet und benutzen so genannte
leckende (engl. Leaky) Koeffizienten bzw. eine Koeffizientenbeschr¨
ankung zur Robustheitsstei-
gerung bez¨
uglich einer fehlerhaften Sprecherrichtungssch¨
atzung. In Phasen, wenn am Aus-
gang des nichtadaptiven Beamformers lediglich das Sprachsignal beobachtet wird, dient dieses
dann als Referenz zur Adaption der Blocking Matrix. In einem Szenario mit permanent ak-
tiven St¨
orschallquellen, sind solche Zeitabschnitte jedoch nicht vorhanden. Die Adaption mit
einem stark gest¨
orten Sprachsignal f¨
uhrt dann konsequenterweise zu erheblichen Sprachsignal-
verzerrungen durch den GSC. Die Struktur des GSCs mit LMS-adaptiver Blocking Matrix
und LMS-adaptiven Filtern zur Rauschunterdr¨
uckung ist als effiziente Realisierung im Fre-
quenzbereich von Herbordt und Kellermann in [HK01] vorgestellt worden. Die resultierende
GSC-Struktur wurde in [Her04] mit einer Echokompensation in unterschiedlichen Varianten
als Gesamtsystem realisiert und untersucht. In [HBNK07] sind weitere Robustheitsaspekte
bez¨
uglich der Adaption beschrieben, um Probleme bedingt durch das so genannte Gegenspre-
chen in Freisprecheinrichtungen zu l¨
osen.
Eine signalangepasste Blocking Matrix, welche auch mit einem stark gest¨
orten Sprachsi-
6Kapitel 1. Einleitung
gnal adaptiert werden kann, wurde von Gannot et al. [GBW99, GBW01] vorgestellt. Grund-
lage ist dabei die Sch¨
atzung der Verh¨
altnisse der Raum¨
ubertragungsfunktionen zwischen dem
Sprecher und den Mikrophonen nach dem in [SW96] beschriebenen Kriterium der Dekorrelati-
on unter Ausnutzung der Stationarit¨
at des St¨
orsignals und der Nichtstationarit¨
at der Sprache.
Die entstehenden Sprachverzerrungen des Gesamtsystems sind ausf¨
uhrlich in [GBW04] be-
handelt. Dabei scheinen insbesondere in dem unteren Frequenzbereich Probleme aufzutreten.
Die GSC-Struktur ist zur weiteren St¨
orger¨
auschreduktion in [GC04] mit einer zus¨
atzlichen
Nachfilterung versehen worden. Eine Erweiterung des Gesamtsystems zur Unterdr¨
uckung
eines zweiten Sprechers – also einer instation¨
aren St¨
orquelle – wird in [RGC07b, RGC08]
vorgestellt.
Eine andere Variante des adaptiven Beamformings ergibt sich mit dem Ansatz der Mi-
nimierung des kleinsten mittleren quadratischen Fehlers (engl. Minimum Mean Squared Er-
ror, MMSE). Dabei besteht die Schwierigkeit in der Sch¨
atzung eines Referenzsignals. Der
popul¨
arste Ansatz hierbei ergibt sich in der sequenziellen Anordnung eines MVDR Beam-
formers und eines einkanaligen Nachfilters (engl. Postfilter) [SBM01], wobei eine Mittelung
der Kreuzleistungsdichten zwischen jeweils zwei Signalpaaren zur Sch¨
atzung der spektralen
Kreuzleistungsdichte-Matrix des Nutzsignals verwendet werden kann [Zel88]. Eine Verbesse-
rung dieser Sch¨
atzung ist Gegenstand neuerer Ver¨
offentlichungen [SW92, MMU98, BSK99b,
MB02, MB03].
Alternativ wurden von Nordholm et al. [NCG01] ¨
uber eine Kalibrierungs-Sprachsequenz
die optimalen Filterkoeffizienten f¨
ur die Mikrophongruppe (In Situ Calibrated Microphone
Array, ICMA) in einem Kraftfahrzeug berechnet und eine Teilbandimplementierung vorge-
nommen. Dabei beinhaltet die MMSE-Sch¨
atzung repr¨
asentative Einfl¨
usse der verwendeten
Hardware sowie der Mikrophon- und Sprecherposition. In [GN02, NGL05] ist dieser Ansatz
f¨
ur eine gewisse Region (Soft Constrained) um die erwartete Sprecherrichtung erweitert.
Eine andere M¨
oglichkeit zur Sch¨
atzung eines Referenzsignals basiert auf Techniken ¨
ahn-
lich denen zur einkanaligen spektralen Subtraktion. Daf¨
ur wird in [Flo01] eine Sprache/Pause-
Detektion eingesetzt und die Beamformer-Adaption ¨
uber einen LMS-Algorithmus durchge-
f¨
uhrt. Eine Adaption nach dem RLS -Prinzip (engl. Recursive Least Squares, RLS) gekoppelt
mit der kontinuierlichen spektralen Sch¨
atzung der St¨
orung mittels Minimumstatistik nach
Martin [Mar94, Mar01] und spektraler Subtraktion zur Sch¨
atzung eines Sprachreferenzsignals
wird von Aichner et al. [AHBK03] vorgeschlagen.
Bei der statistischen Auswertung der durch die Kovarianzmatrizen von Sprach- und St¨
or-
signal aufgespannten Unterr¨
aume (engl. Subspace) im Zeitbereich oder der Matrizen der spek-
tralen Leistungsdichten im Frequenzbereich erh¨
alt man eine g¨
anzlich andere Klasse von Algo-
rithmen (engl. Subspace Approach). Die Idee hierbei ist, eine gemeinsame Diagonalisierung der
betrachteten Matrizen mit Hilfe der zugeh¨
origen Eigenvektoren durchzuf¨
uhren, um die opti-
malen MMSE-Filterkoeffizienten, bestehend aus den orthogonalen Matrizen dieser Eigenvek-
toren und der Diagonalmatrix der kombinierten Eigenwerte, zu erhalten. Die Berechnung der
Eigenvektoren im Zeitbereich f¨
uhrt zu einer verallgemeinerten Singul¨
arwertzerlegung (engl.
Generalized Singular Value Decomposition, GSVD), die entweder sehr rechenintensiv pro Ab-
tastzeitpunkt, etwas effizienter ¨
uber einen Rekursionsalgorithmus nach Doclo und Moonen
[DM01] oder als Teilbandimplementierung nach Spriet et al. [SMW02] erfolgen kann. Ein
alternatives Vorgehen zur Komplexit¨
atsreduzierung der Filterberechnug wird in [RM05] ¨
uber
eine QR-Zerlegung vorgestellt. Da diese Filterverfahren keinerlei Wissen ¨
uber die Sprecherpo-
1.2. Wissenschaftliche Ziele dieser Arbeit 7
sition ben¨
otigen, ist das Sprachsignal am Ausgang des Beamformers auch nicht verzerrungs-
frei (wie bei dem MVDR-Verfahren). In [DSWM05, CBHD06] werden daher M¨
oglichkeiten
diskutiert, um den Grad der Verzerrung zu bestimmen und konstruktiv zu verwerten. Eine
Erweiterung der GSVD-Technik mit zus¨
atzlichen adaptiven Filtern in einer GSC-Struktur ist
schließlich in [DM05] beschrieben.
1.2 Wissenschaftliche Ziele dieser Arbeit
Das prim¨
are Ziel der vorliegenden Arbeit ist die Entwicklung und Untersuchung von akus-
tischen Strahlformungsverfahren f¨
ur Sprachsignale unter Verwendung eines Optimierungs-
kriteriums, welches auf der Maximierung des Signal-zu-Rauschleistungsverh¨
altnisses (engl.
Signal-to-Noise Ratio, SNR) in jedem Frequenzband basiert. Dieses Kriterium hat den Vor-
teil, dass keine explizite Positionsbestimmung des Sprechers notwendig ist, sondern vielmehr
eine blinde Optimierung mit der impliziten Ber¨
ucksichtigung der gesamten Raumimpulsant-
wort zwischen dem Sprecher und der Mikrophongruppe erfolgt. Diese blinde Vorgehensweise
beinhaltet ebenfalls, dass die geometrische Anordnung der Mikrophone unbekannt sein kann
und eine Kalibrierung der Mikrophone ¨
uberfl¨
ussig ist. Bisher wurde solch ein Optimierungs-
ansatz jedoch nur f¨
ur Schmalband-Strahlformungsprobleme angewendet, bei denen die Band-
breite des Eingangssignals viel kleiner als seine Mittenfrequenz ist (z. B. in der Antennen-
technik). F¨
ur die akustische Strahlformung galt das Kriterium bislang als ungeeignet, da die
Maximierung des SNRs f¨
ur jede betrachtete Frequenzkomponente unabh¨
angig voneinander
durchgef¨
uhrt wird, und sich somit Sprachsignalverzerrungen am Ausgang des Beamformers
einstellen. Daher werden in dieser Arbeit eigenentwickelte Verfahren aufgezeigt, welche diese
Verzerrungen deutlich reduzieren k¨
onnen. Ein weiteres Ziel ist die Entwicklung und Anpas-
sung von Algorithmen zur adaptiven Umsetzung des Optimierungskriteriums f¨
ur verschiede-
ne St¨
orschallfelder. Schließlich ist noch das Ziel der Arbeit unterschiedliche Strukturen zu
realisieren, um eine Optimierung hinsichtlich unterschiedlicher Stationarit¨
atsannahmen be-
z¨
uglich der Sprecherposition durchzuf¨
uhren: einerseits ein Filter-and-Sum-Beamformer f¨
ur
eine schnelle Adaption und andererseits ein Generalized Sidelobe Canceller f¨
ur eine maximale
St¨
orger¨
auschunterdr¨
uckung.
Ausgangspunkt ist die Darstellung und der Vergleich grundlegender L¨
osungsans¨
atze zum
statistisch optimalenBeamforming im Frequenzbereich. Diese Ans¨
atze sind insbesondere: Mi-
nimum Variance Distortionless Response,Maximum Likelihood,Minimum Mean Squared Er-
ror und die Maximierung des SNRs (Max-SNR). Dabei kommt jeweils die allgemeine Annah-
me einer Mehrwegeausbreitung der akustischen Signale – also die Halleigenschaft von R¨
aumen
– zum Tragen. Beim Vergleich der resultierenden Filterkoeffizienten aus den unterschiedlichen
Ans¨
atzen zeigt sich, dass sie sich gerade in einem skalaren Faktor unterscheiden. Dieser kann
in Form eines einkanaligen Nachfilters realisiert werden, ¨
uber diesen dann die L¨
osungen in-
einander ¨
uberf¨
uhrbar sind. Es werden daher drei eigenentwickelte Methoden vorgestellt, um
mit Hilfe eines geeigneten Nachfilters eine approximative Realisierung eines MVDR Beamfor-
mers basierend auf der Maximierung des SNRs darzustellen. Somit bleiben die Vorteile des
SNR-Optimierungskriteriums erhalten, wobei gleichzeitig der Nachteil der Sprachverzerrung
zu einem Großteil ¨
uberwunden wird.
Da bei der vorliegenden Arbeit nicht die Konzeption einer mehrkanaligen Sprachsignalver-
besserung f¨
ur eine konkrete Problemstellung im Vordergrund steht, werden unterschiedliche
8Kapitel 1. Einleitung
Realisierungen f¨
ur unterschiedliche Anwendungsszenarien vorgestellt. Diese h¨
angen einerseits
von dem zu erwartenden St¨
orschallfeld und andererseits von der zu erwartenden Dynamik
der Sprecherbewegung ab. F¨
ur Letztgenanntes gilt, dass bei einem sich bewegenden Sprecher
eine Filter-and-Sum-Beamformer-Struktur mit geringen Filterl¨
angen aufgrund der schnellen
Nachf¨
uhrung der Filterkoeffizienten sinnvoll erscheint. Bei einer relativ statischen Anordnung
hingegen ist die Struktur eines Generalized Sidelobe Cancellers mit gr¨
oßeren Filterl¨
angen
m¨
oglich, da sie zu einer h¨
oheren Rauschunterdr¨
uckung f¨
uhrt.
Aufgrund der Relevanz der Eigenschaften der St¨
orung erfolgt eine Unterteilung verschie-
dener St¨
orungen bzw. St¨
orschallfelder. Die Formulierung des Optimierungskriteriums f¨
allt je
nach dem, ob gerichtete St¨
orschallquellen vorhanden sind oder nicht, anders aus. Wird da-
von ausgegangen, dass keine gerichteten St¨
orschallquellen aktiv sind, oder diese zumindest
sehr wenig Leistung im Vergleich zum Sprecher emittieren, so ergibt sich das spezielle Ei-
genwertproblem bez¨
uglich der Matrix der Kreuzleistungsdichten der Sprachsignale an den
Mikrophonen. Der resultierende Filterkoeffizientenvektor aus der Maximierung des SNRs ist
folglich gerade der dominante Eigenvektor des speziellen Eigenwertproblems. Sind starke ge-
richtete St¨
orschallquellen aktiv, so ergibt sich das verallgemeinerte Eigenwertproblem bez¨
ug-
lich zweier Kreuzleistungsdichtematrizen: die eine beinhaltet nur die St¨
orung und die andere
enth¨
alt zus¨
atzlich die Sprache. Daraus ergibt sich als optimaler Filterkoeffizientenvektor der
dominante Eigenvektor des entsprechenden verallgemeinerten Eigenwertproblems. In dieser
Arbeit werden eigenentwickelte Gradientenverfahren zur adaptiven L¨
osung des speziellen und
des verallgemeinerten Eigenwertproblems vorgestellt. Es findet ein Vergleich zu ausgew¨
ahlten
Verfahren aus der Literatur statt, und die letztendlich verwendeten, modifizierten Algorith-
men werden mit entsprechenden Adaptionsschemata angegeben.
Einen weiteren Schwerpunkt der Arbeit stellt die Entwicklung einer GSC-Struktur basie-
rend auf dem verallgemeinerten Eigenwertproblem dar. Insbesondere wird eine neue Blocking
Matrix vorgestellt, die die Vorteile besitzt, dass auch verhallte Sprachsignale in hohem Maße
ged¨
ampft werden, und dass eine Adaption auf den Sprecher hin erfolgen kann, wenn gleich-
zeitig ein starkes station¨
ares St¨
orschallfeld vorliegt. Die Komponente des so genannten Fixed
Beamformers wird in zwei Varianten realisiert: Zum einen mit einem DSB und zum anderen
mit einem Matched Filter, der aus einer Modifikation des dominanten Eigenvektors hervor-
geht. Der GSC mit der eigenentwickelten Blocking Matrix und einem idealen DSB als Fixed
Beamformer zeigt nahezu das gleiche Leistungsverhalten wie das verwendete Referenzsys-
tem7. Die Verwendung des Matched Filters anstatt des DSBs f¨
uhrt zu geringf¨
ugigen Sprach-
signalverzerrungen, hat jedoch den Vorteil, keine Information ¨
uber die Sprecherrichtung zu
ben¨
otigen.
Weiterhin wird in der vorliegenden Arbeit gezeigt, wie mit Hilfe des adaptiv bestimmten
dominanten Eigenvektors eine relativ zuverl¨
assige Sprecherrichtungssch¨
atzung m¨
oglich ist,
obwohl starke gerichtete St¨
orschallfelder das eigentliche Sprachsignal ¨
uberlagern.
Obschon hier das prim¨
are Ziel in der Verbesserung von Sprachsignalen liegt, bei denen zu
einem gegebenen Zeitpunkt nur ein Sprecher aktiv ist, erfolgt im Anhang ein kleiner Exkurs
zur blinden Quellentrennung. Dabei besteht die Problemstellung darin, zwei gleichzeitig ak-
tive Sprecher zu trennen, also zwei Ausgangssignale zu erzeugen. Diese beinhalten dann im
Idealfall jeweils nur das Signal eines Sprechers. Auch f¨
ur diese Anwendung werden modifizierte
7Als GSC-Referenzsystem wird die Frequenzbereichsrealisierung von [HSH99] verwendet, wobei ein ideali-
siertes Sprachreferenzsignal zur Adaption herangezogen wird.
1.2. Wissenschaftliche Ziele dieser Arbeit 9
Adaptionsalgorithmen zur L¨
osung eines speziellen Eigenwertproblems verwendet.
Gliederung dieser Arbeit
Die vorliegende Arbeit l¨
asst sich in drei Teile gliedern: Im ersten Teil (Kapitel 2 und 3)
werden zuerst relevante akustische Eigenschaften geschlossener R¨
aume erl¨
autert, die f¨
ur das
Verst¨
andnis der im Folgenden untersuchten St¨
orszenarien notwendig sind. Die Erkl¨
arungen zu
einigen Begriffen der Raumakustik sind ebenfalls f¨
ur die Beurteilung der Sprachsignalqualit¨
at
hilfreich. Danach erfolgt eine Beschreibung m¨
oglicher Anordnungen von Mikrophongruppen
und die Einf¨
uhrung wesentlicher Gr¨
oßen, welche sich aus der Richtcharakteristik ergeben. Die-
se sind f¨
ur die frequenzabh¨
angige objektive Messung von Leistungsmerkmalen mehrkanaliger
Ans¨
atze zur Sprachsignalverbesserung notwendig.
Der zweite Teil (Kapitel 4, 5 und 6) besch¨
aftigt sich mit unterschiedlichen Ans¨
atzen
zum statistisch optimalen Beamforming und Verfahren zur iterativen L¨
osung des Eigen-
wertproblems f¨
ur das SNR-Optimierungskriterium. Es werden eigenentwickelte Adaptions-
vorschriften vorgestellt und experimentelle Untersuchungen zum Konvergenzverhalten pr¨
a-
sentiert. In Kapitel 6 wird mittels neuartiger Nachfilter der Zusammenhang zwischen dem
SNR-Optimierungskriterium und einem verallgemeinerten MVDR Beamforming hergestellt.
Der abschließende dritte Teil (Kapitel 7 und 8) behandelt die M¨
oglichkeit einer robusten
Sprecherrichtungssch¨
atzung mittels Eigenwertzerlegung und die Realisierung eines Genera-
lized Sidelobe Canceller mittels neuartiger Ans¨
atze f¨
ur die Blocking Matrix in Kombination
mit einem Delay-and-Sum-Beamformer aber auch einer“blinden”Variante mit einem Matched
Filter.
10 Kapitel 1. Einleitung
Kapitel 2
Statistische Raumakustik
F¨
ur die Beschreibung akustischer Signale, die sich am Aufnahmeort von Mikrophonen aus-
bilden, ist es notwendig, eine Einteilung unterschiedlicher Schallfelder durchzuf¨
uhren. Dabei
wird insbesondere auf die statistischen Eigenschaften der Schallfelder eingegangen, welche
maßgeblich durch die raumakustischen Bedingungen bestimmt werden. In diesem Kapitel er-
folgt zuerst eine Einf¨
uhrung in die Grundlagen der statistischen Raumakustik, wobei es im
Wesentlichen um die Definition der Nachhallzeit und des Hallradius geht. Daf¨
ur wird ins-
besondere die Raumimpulsantwort betrachtet und deren Simulationsm¨
oglichkeit f¨
ur kleine
R¨
aume. Weiterhin erfolgt eine Analyse der Schallausbreitung in R¨
aumen anhand der r¨
aumli-
chen Koh¨
arenz sowie die Formulierung des Signalmodells, welches die Signale an den Mikro-
phonen des Arrays beschreibt. Dabei wird auf die Problematik beim Messen der r¨
aumlichen
Koh¨
arenz eingegangen. Abschließend sind einige Ergebnisse von Messungen an simulierten
Schallfeldern, aber auch an Aufnahmen von St¨
orfeldern in realen Umgebungen aufgef¨
uhrt.
2.1 Schallausbreitung in R¨
aumen
In halligen R¨
aumen werden Schallwellen an begrenzenden Fl¨
achen und Einrichtungsgegen-
st¨
anden reflektiert. Daher ist es sinnvoll, eine grobe Einteilung der Schallausbreitung in R¨
au-
men vorzunehmen in die direkte Komponente, also den Direktschall von der Quelle zur Imissi-
onsstelle, und in indirekte Komponenten aufgrund der Reflexionen. Dabei kann der indirekte
Anteil noch unterteilt werden in so genannte fr¨
uhe Reflexionen und den Nachhall.
Um das von einer Schallquelle erzeugte Schallfeld vollst¨
andig zu beschreiben, w¨
are es not-
wendig, f¨
ur alle angeregten Frequenzen die Eigenschwingungen des Raums zu betrachten und
zu ¨
uberlagern. Die Schallausbreitung einzelner Frequenzkomponenten kann durch Differential-
gleichungen aus der wellentheoretischen Raumakustik beschrieben werden. Streng genommen
gibt es nur noch eine zweite Methode zur Analyse von Schallvorg¨
angen, die geometrische
Raumakustik. Sie bietet eine einfache M¨
oglichkeit zur Beschreibung der Schallausbreitung im
Raum in Form von geradlinigen Schallstrahlen. Da jedoch auch bei dem Modell der geometri-
schen Raumakustik mit fortschreitendem Beobachtungszeitraum die Komplexit¨
at drastisch
steigt, k¨
onnen ¨
uber das Schallfeld keine exakten Aussagen gemacht werden. Unter der Annah-
me, dass die Energiedichte des Schalls im Raum n¨
aherungsweise gleichverteilt ist, geht man
zu einem dritten Modell, der so genannt statistischen Raumakustik, ¨
uber. Diese besch¨
aftigt
sich nicht mit der Beschreibung aller Ausbreitungspfade der Schallstrahlen, sondern charak-
12 Kapitel 2. Statistische Raumakustik
terisiert R¨
aume durch deren Schallfeldparameter. Zwei wesentliche Gr¨
oßen sind hierbei zum
einen die Nachhallzeit, welche die Zeitdauer beschreibt, nach der die Schallenergiedichte im
Raum um einen definierten Teil gesunken ist, nachdem die Schallquelle abgeschaltet wird.
Zum anderen ist dies der Hallradius, der die Entfernung angibt, bei der die direkte gleich der
reflektierten Schallenergie ist.
Betrachtet man Schallwellen mit einer gewissen Anfangsenergie E0, welche sich im Raum
ausbreiten, so wird die Energie nach jeder Reflexion abnehmen und der Zeitverlauf der Ener-
giedichte nimmt die Exponentialform
E(t) = E0e−t
τ(2.1)
an. Die zeitliche D¨
ampfungseigenschaft des Raums τwird ¨
ublicherweise durch die Nachhall-
zeit ausgedr¨
uckt, die wiederum definiert ist als die Zeitdauer, in der die Schallenergie auf ein
Millionstel gesunken ist bzw. der Schalldruckpegel um 60dB vom Anfangswert abf¨
allt [Sab22].
Daher wird die Nachhallzeit auch h¨
aufig mit T60 benannt. Sie ist die bekannteste und wohl
wichtigste raumakustische Kenngr¨
oße. F¨
ur die D¨
ampfungskonstante ergibt sich somit
τ=−T60
ln(10−6).(2.2)
F¨
ur den station¨
aren Zustand, wenn dem Raum vom Volumen Vdie konstante Schallleistung
Pzugef¨
uhrt wird, l¨
asst sich diese angeben zu
P=ln(106)V p2
(1 −¯αA)T60c2.(2.3)
Hierbei gibt pden Schalldruck und cdie Wellengeschwindigkeit an. Der absorbierte Schallteil
durch die Raumoberfl¨
achen ist mit dem mittleren Absorptionsgrad1¯αAbezeichnet. In der
Praxis ist h¨
aufig ein einfacher geometrischer Zusammenhang zwischen der Nachhallzeit und
dem Absorptionsgrad in analytischer Form von großer Bedeutung. Daf¨
ur kann eine mittlere
freie Wegl¨
ange ¯
l= 4V/A des Schallstrahls im Raum mit dem Volumen Vund der Wandfl¨
ache
Aangesetzt werden [CM78]. So ergibt sich eine mittlere Stoßzahl
¯n=c/¯
l=Ac
4V,(2.4)
welche die Anzahl der Reflexionen des Schalls pro Zeit angibt. Mit dieser l¨
asst sich folgender
zeitlicher Abfall der Schallenergiedichte angeben
E(t) = E0(1 −¯αA)Ac
4Vt=E0eAc ln(1−¯αA)
4Vt.(2.5)
Hierbei ist die D¨
ampfung im Luftvolumen w¨
ahrend der Wellenausbreitung unber¨
ucksichtigt
geblieben. Ein Vergleich von Gl. (2.1) und Gl. (2.2) mit Gl. (2.5) liefert schließlich den ge-
w¨
unschten Zusammenhang2
T60 =4 ln(10−6)V
Ac ln(1 −¯αA).(2.6)
1Mit ¯αAist der mittlere Absorptionsgrad in einem Raum und mit αAder Absorptionsgrad einer homo-
genen Fl¨
ache bezeichnet. Komplement¨
ar zu αA= 1 −ρRist der Reflexionsgrad ρR, mit αA, ρR∈[0,...,1].
Legt man anstelle von Energien Amplituden zugrunde, spricht man von Faktoren: Reflexionsfaktor und Ab-
sorptionsfaktor. Diese k¨
onnen dann auch negative Werte annehmen, wodurch Phasendrehungen ber¨
ucksichtigt
werden.
2H¨
aufig findet man in der Literatur die Nachhallformel nach Sabine, in der die Vereinfachung ln(1 −¯αA)≈
−¯αAim Falle kleiner und mittlerer Absorptionsgrade eingesetzt wird. Diese ist jedoch nur zur Beschreibung
großer R¨
aume zul¨
assig.
2.1. Schallausbreitung in R¨
aumen 13
Diese einfache N¨
aherung ist noch im folgenden Abschnitt von Bedeutung, wenn es um
die Simulation der Schallausbreitung innerhalb eines definierten Raumes geht, wobei eine
gew¨
unschte Nachhallzeit vorgegeben werden soll. Es ist offensichtlich, dass f¨
ur ein genaues
Verh¨
altnis zwischen der Raumbeschaffenheit und der Nachhallzeit sich die Gesamtfl¨
ache aus
Teilfl¨
achen mit unterschiedlichen Reflexionskoeffizienten ergibt [Eyr30]. Noch problematischer
ist allerdings, dass die Nachhallzeit in der Realit¨
at frequenzabh¨
angig ist. Dieser Umstand wird
dadurch hervorgerufen, dass der Absorptionsgrad αAeines Materials nicht f¨
ur jede Schallfre-
quenz derselbe ist. In aller Regel sinkt dieser mit abfallender Frequenz. W¨
ahrend hohe und
teilweise auch mittlere Tonlagen noch recht gut von Materialien mit hohem αAged¨
ampft
werden, hat das gleiche Material im Bereich tiefer Frequenzen praktisch keine Auswirkun-
gen mehr auf den Schall. Durch die Frequenzabh¨
angigkeit der Nachhallzeit werden manche
Frequenzanteile eines Ger¨
ausches l¨
anger zum Ausklingen ben¨
otigen, als andere Teile. Diese
Effekte werden jedoch h¨
aufig in der Raumakustik nicht ber¨
ucksichtigt.
Je nach raumakustischem Zweck k¨
onnen unterschiedliche optimale Nachhallzeiten ange-
geben werden. Bei Aufnahme- und Regier¨
aumen z. B. sind sehr niedrige Nachhallzeiten von
T60 <0,2s notwendig. F¨
ur B¨
uror¨
aume ist ebenfalls eine geringe bis mittlere T60-Zeit von 0,3s
bis 0,5s ¨
ublich und f¨
ur Vortragss¨
ale bereits h¨
ohere zwischen 0,6s und 0,8s. Bei R¨
aumen f¨
ur
Musikdarbietung h¨
angt die optimale Nachhallzeit von der Art der Darbietung ab. Sie kann
Werte zwischen 1s und 3s annehmen.
Aufgrund der vielfachen Reflexionsm¨
oglichkeiten in verhallten R¨
aumen trifft der Nachhall
an einem Raumpunkt mit zunehmender Laufzeit aus allen Richtungen mit ¨
ahnlicher Intensit¨
at
ein. Allerdings weist erst der sp¨
ate Nachhall im Idealfall eine konstante Schallenergiedichte
im Raum auf (isotrop) [CM78]. Solch ein Schallfeld wird daher auch als diffuses Schallfeld
bezeichnet und hat in der Praxis eine besondere Bedeutung. In unmittelbarer Umgebung
einer Schallquelle herrschen ¨
ahnliche Bedingungen wie im Freien, die Raumr¨
uckwirkungen
machen sich erst mit zunehmendem Abstand bemerkbar.
Das Direktschallfeld kann n¨
aherungsweise durch Kugelwellenausbreitung beschrieben wer-
den, d. h. die Energiedichte verh¨
alt sich reziproportional zu dem Quadrat der Entfernung r
vom Sender gem¨
aß:
ED=P
4πr2c.(2.7)
F¨
ur das station¨
are Schallfeld gilt hingegen mit der Beziehung E=p2/((1 −¯αA)c2) und Gl.
(2.3)
ESt =PT60
ln(106)V.(2.8)
Der Hallradius rHist nun jener Abstand, bei dem die station¨
are Energiedichte gleich der des
Direktschallfeldes ist
rH=sln(106)V
4πcT60
.(2.9)
Die sich hieraus ergebenden Hallradien sind allerdings erstaunlich gering. So w¨
urde nur f¨
ur
in der N¨
ahe zum Sender aufgestellte Mikrophone die Energiedichte des Direktschalls die sta-
tistische Energiedichte ¨
uberwiegen. Nun haben jedoch nur wenige Schallquellen eine allseitig
gleichm¨
aßige Energieabstrahlung. Im Allgemeinen ist mit einer ausgepr¨
agten Richtwirkung zu
rechnen, welche durch einen Korrekturterm unter der Wurzel in Gl. (2.9) ber¨
ucksichtigt wird.
14 Kapitel 2. Statistische Raumakustik
Dieser so genannte B¨
undelungsgrad gibt das Verh¨
altnis der Schallintensit¨
at in Hauptstrahl-
richtung zu deren Mittelwert ¨
uber alle Richtungen an und kann Werte bis zu 100 annehmen.
Bei einem Sprecher als Schallquelle ergibt sich z. B. ein B¨
undelungsgrad von ungef¨
ahr 2
[Mar95]. Praktisch bedeutet dies, dass ein Redner in seiner direkten N¨
ahe gut zu verstehen
und der Nachhall kaum wahrnehmbar ist. Weiter entfernt wird diese Stimme immer mehr
im Nachhall untergehen und die Verst¨
andlichkeit nimmt deutlich ab. Aus nur einem Mikro-
phonsignal jenseits des Hallradius ist die Richtung des Direktsignals nicht mehr eindeutig
bestimmbar, wenn man es um seine Achse dreht. Anders verh¨
alt sich dagegen das menschli-
che binaurale H¨
oren, das es uns erm¨
oglicht noch weit außerhalb des Hallradius die Richtung
der Schallquelle zu bestimmen.
In Bild 2.1 ist der ¨
Ubergang von Direktschall zu diffusem Schall anhand des relativen
Schalldruckpegels Lrel dargestellt [Dic97]. Zu erkennen ist hierbei, dass der Pegel des Di-
rektschalls um 6 dB je Verdoppelung des Abstandes zwischen Schallquelle und Empf¨
anger
abnimmt und der Gesamtschallpegel mit steigender Entfernung auf den Diffusschallpegel
sinkt.
Hallradius rH
Lrel [dB]
r[dB]
3 dB
0,5 1 2 4 8 16
0
−6
−12
−18
Direktschall
Diffusschall
Bild 2.1: ¨
Uberlagerung von Direkt- und Diffusschall.
2.2 Raumimpulsantworten
Die bisher beschriebenen Schalleigenschaften sollen nun anhand der Raumimpulsantwort be-
trachtet werden. Theoretisch bewirkt ein einzelner Impuls der Schallquelle am Ort des Emp-
f¨
angers aufgrund der Reflexionen eine ganze Folge von Impulsen, deren Dichte mit der Zeit
zunimmt und deren Amplitude immer geringer wird. Jede Raumimpulsantwort ist spezifisch
f¨
ur den Raum und f¨
ur die verwendete Sender- Empf¨
angeranordnung. Bild 2.2 zeigt sche-
matisch eine solche Impulsantwort, wobei eine Aufteilung in charakteristische Teilbereiche
vorgenommen wurde. Der zeitlich erste Impuls wird dem Direktschall zugeordnet, da er den
k¨
urzesten Ausbreitungsweg von der Quelle zum Empf¨
anger nimmt. Nach Gl. (2.7) ist dessen
Amplitude dabei umso kleiner, je weiter die Schallquelle vom Empf¨
anger entfernt ist. Dem Di-
rektschall folgen die fr¨
uhen Echos, welche auf Schallanteile mit nur wenigen Wandreflexionen
2.2. Raumimpulsantworten 15
zur¨
uckzuf¨
uhren sind. Aufgrund der geringen Verz¨
ogerung gegen¨
uber dem Direktschall k¨
onnen
diese Reflexionen und der direkte Schall nicht vom Ohr unterschieden werden, weshalb sie
die Verst¨
andlichkeit von Sprache (Def. siehe unten) und die Transparenz von Musik erh¨
ohen.
Der sich anschließende fr¨
uhe Nachhall geht bereits auf vermehrte Wandreflexionen zur¨
uck, ist
jedoch noch richtungsabh¨
angig. Daher tr¨
agt er zu einem r¨
aumlichen Klangeindruck bei. Im
Bereich des sp¨
aten Nachhalls ist keine Unterscheidung einzelner Echos mehr m¨
oglich, da eine
gleichm¨
aßige Verteilung der Schallleistung ¨
uber den gesamten Raum vorliegt. Erst in diesem
Bereich klingt die Intensit¨
at nach dem Prinzip der statistischen Raumakustik exponentiell ab
[CM78], vgl. Gl. (2.1).
000,1
0,2
0,2 0,3
0,4
0,4
0,6
0,8
1
h(t)
t[s]
direkte Komponente
fr¨
uhe Reflexionen
fr¨
uher Nachhall
sp¨
ater Nachhall
Bild 2.2: Schematische Darstellung einer Raumimpulsantwort h(t).
Es existieren eine Vielzahl von Termini, mit Hilfe derer eine Einsch¨
atzung von Sprach-
bzw. Musikwiedergabe erfolgt. Dabei ist es m¨
oglich, dass ein und derselbe Begriff je nach
Literatur eine unterschiedliche Bedeutung hat. In z. B. [Ber96] findet sich eine umfangreiche
Begriffsbestimmung3zu dieser Thematik. Studien ab den 1960er Jahren haben schließlich
zu den heute g¨
angigen G¨
utemaßen gef¨
uhrt, die es erm¨
oglichen, numerische Aussagen ¨
uber
die akustische Raumqualit¨
at4zu geben. An dieser Stelle soll lediglich auf die allgemeine
Verst¨
andlichkeit von Sprache eingegangen werden, welche durch die Anfangsnachhallzeit und
das Deutlichkeitsmaß charakterisiert sind. Basierend auf dem Vergleich von fr¨
uhen und sp¨
aten
Anteilen der Impulsantwort wurde bereits in [Thi53] folgendes Kriterium f¨
ur den relativen
Anteil an n¨
utzlichem Schall vorgeschlagen:
ϑ(tg) = Rtg
0h2(t)dt
R∞
0h2(t)dt,(2.10)
wobei ϑ(tg= 50ms) Deutlichkeit genannt wurde. Aus Gl. (2.10) hat sich das heute ¨
ubliche
3Die detaillierte Beschreibung des akustischen Eindrucks bei Sprach- und Musikwiedergabe in z. B. Kon-
zertr¨
aumen ist f¨
ur Raumakustiker aber auch f¨
ur Toningenieure von wichtiger Bedeutung. Daf¨
ur existiert ein
umfangreiches Vokabular wie z. B. Abstimmung, Brillanz, Flimmern, Intimit¨
at und viele andere.
4F¨
ur die Beurteilung von R¨
aumen f¨
ur die musikalische Darbietung werden mehrere G¨
utemaße und deren
Kombination verwendet, die jeweils auf der Energie der Raumimpulsantwort f¨
ur verschiedene Zeitintervalle
basieren. So ergeben sich Gr¨
oßen wie z. B. Seitenschallgrad, Bass-Verh¨
altnis oder Silbenverst¨
andlichkeit.
16 Kapitel 2. Statistische Raumakustik
Deutlichkeitsmaß C50 f¨
ur Sprache und das Klarheitsmaß C80 f¨
ur Musik ergeben:
C50 = 10 log R50 ms
0h2(t)dt
R∞
50 msh2(t)dt , C80 = 10 log R80 ms
0h2(t)dt
R∞
80 msh2(t)dt .(2.11)
Die Wahl von tg= 50 ms ist durch den psychoakustischen Effekt der Tr¨
agheit des Oh-
res begr¨
undet, der besagt, dass Impulse, die weiter als diese Zeit auseinander liegen, erst
einzeln erkennbar sind (vgl. Einteilung der Raumimpulsantwort in Bild 2.2). Eine weitere
psychoakustische Auswirkung ist die so genannte Verdeckung. Dabei werden T¨
one frequenz-
selektiv verdeckt, welche unterhalb eines gewissen Schallpegels relativ zu einem zus¨
atzlich
vorhandenen energiereicheren Ton auftreten. D. h., dass f¨
ur das menschliche Empfinden des
Nachhalls vor allem der Anfangsteil des Abklingvorgangs deutlicher wahrgenommen wird als
der sp¨
atere Bereich der Nachhallzeit, da diese normalerweise durch nachfolgende T¨
one ¨
uber-
deckt wird. In [Jor74] wurde daher die Anfangsnachhallzeit TAdefiniert (engl. Early Decay
Time, EDT). Diese gibt die Zeit an, in welcher die Schallintensit¨
at um 10dB abnimmt:
−10 dB !
= 10 log RTA
0h2(t)dt
R∞
0h2(t)dt dB.(2.12)
Die Gr¨
oßen f¨
ur die Anfangsnachhallzeit sowie f¨
ur die Nachhallzeit k¨
onnen anschaulich
aus der Darstellung der R¨
uckw¨
artsintegration der quadrierten Raumimpulsantwort ersehen
werden (Schr¨
oder-R¨
uckw¨
artsintegration) [Sch65]. H¨
aufig wird eine so ermittelte Energieab-
fallkurve (engl. Energy Decay Curve, EDC) in der normierten Form angegeben:
EA(t) = 10 log R∞
th2(t)dt
R∞
0h2(t)dt dB.(2.13)
In Bild 2.3 ist eine Energieabfallkurve beispielhaft f¨
ur die Impulsantwort aus Bild 2.2 mit
einer Anfangsnachhallzeit TA= 46ms, einer Nachhallzeit T60 = 348ms und einem Deutlich-
keitsmaß C50 = 9,9dB dargestellt.
-60
-40
-20
0
00,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4
EA(t) [dB]
t[s]
TA
Bild 2.3: Energieabfallkurve durch Schr¨
oder-R¨
uckw¨
artsintegration mit einer Anfangsnachhallzeit von TA=
46 ms.
Simulation der Schallausbreitung
Zur Bestimmung von Raumimpulsantworten in simulierten R¨
aumen k¨
onnen grunds¨
atzlich
zwei Arten von Verfahren verwendet werden. Zum einen sind dies wellentheoretische Ans¨
atze
und zum anderen geometrische Verfahren. Als geeignetes Werkzeug f¨
ur die wellentheoretische
Behandlung und modale Analyse von akustischen Problemen hat sich in den letzten Jahren
2.2. Raumimpulsantworten 17
die Methode der Finiten Elemente (engl. Finite Element Method, FEM) bew¨
ahrt [Bar03]. FE-
Verfahren kommen zum Einsatz, wenn bei der Berechnung Phaseneffekte von Schallfeldern
eine Rolle spielen, d. h. wenn Moden, Beugung oder Streuung zu ber¨
ucksichtigende Effekte
sind.
Bei den geometrischen Verfahren zur analytischen Bestimmung von Raumimpulsantwor-
ten stellen einerseits das Schallteilchenverfahren und andererseits die Spiegelquellenmethode
die wichtigsten Methoden dar. Weiterhin werden in der Raum- und Bauakustik zur m¨
og-
lichst genauen Simulation der Schallausbreitung Kombinationen beider Verfahren in Hybrid-
Methoden eingesetzt, um die jeweiligen Vorteile beider Verfahren zu nutzen [RC03], [Bar03]:
die Spiegelquellenmethode ist ein schnelles und exaktes Verfahren zur Berechnung des ersten
Teils der Raumimpulsantwort und eignet sich insbesondere f¨
ur nichtgekr¨
ummte Oberfl¨
achen.
Bei dem Schallteilchenverfahren liegt der Vorteil in der effizienteren Berechnung des sp¨
ateren
Verlaufs der Raumimpulsantwort, sowie der Analyse gekr¨
ummter Oberfl¨
achen im simulierten
Raum. In beiden F¨
allen wird ¨
ublicherweise von einer punktf¨
ormigen und radial abstrahlenden
Schallquelle ausgegangen.
Bei der Schallteilchenmethode (auch Ray-Tracing-Verfahren genannt) werden in zuf¨
al-
lig ausgew¨
ahlte Richtungen Teilchen ausgesendet, die mit einer Anfangsenergie und einem
Zeitstempel versehen sind. Sie werden an den W¨
anden reflektiert und verlieren je nach Ober-
fl¨
acheneigenschaften einen Teil ihrer Energie. Von jedem Teilchen, das am Empf¨
anger eintrifft
wird dann die verbleibende Energie und die Ausbreitungszeitdauer in die Impulsantwort ”ein-
getragen”.
Das Spiegelquellenmodell bietet eine sehr effiziente Methode zur Simulation der Ausbrei-
tung eines Schallfeldes in R¨
aumen einfacher Geometrie und geringer Nachhallzeit, welche
insbesondere h¨
aufig im Bereich der Sprachsignalverarbeitung verwendet wird [AB79]. Da-
bei treffen die von der Schallquelle (Sprecher) emittierten Kugelschallwellen am Empf¨
anger
einerseits auf direktem Wege, andererseits ¨
uber Reflexionen durch die W¨
ande an. Der beim
Empf¨
anger erzeugte Schalldruck h¨
angt nur von der Entfernung zum Sender ab, nicht aber vom
Einfallswinkel. Daher kann von jeder reflektierten Welle angenommen werden, dass sie einer
virtuellen Kugelschallquelle, deren Entfernung vom Empf¨
anger der Laufl¨
ange des Schalls ent-
spricht, entsprungen ist, welche durch Spiegelung der Schallquelle an den Raumbegrenzungen
entstanden ist. Die Ordnung einer Spiegelquelle gibt an, wie oft der durch sie repr¨
asentierte
Schallstrahl reflektiert wird, bevor er den Empf¨
anger erreicht, siehe Bild 2.4 (a) f¨
ur ein Bei-
spiel erster und zweiter Ordnung. Dabei h¨
angt die Amplitude des reflektierten Signals von
der Wandabsorption ab, welche sich z. B. bei der vereinfachten Annahme gleicher Beschaf-
fenheit der Oberfl¨
achen und Vorgabe einer bestimmten Nachhallzeit aus Gl. (2.6) berechnen
l¨
asst. Die Gesamtanordnung wird also derart bestimmt, dass die Position der Quelle an den
W¨
anden des Raumes dreidimensional gespiegelt und alle entstandenen Spiegelquellen als neue
Schallquellen interpretiert werden, siehe Bild 2.4 (b).
18 Kapitel 2. Statistische Raumakustik
Sensor
Reflexionen
(a) (b)
Q0
Q1
Q2
Q′
1
Bild 2.4: In (a) beispielhafter Verlauf der Originalwege sowie der virtuellen Wege der Schallausbreitung erster
und zweiter Ordnung. In (b) Erweiterung des Raums nach der Spiegelquellenmethode zur Demons-
tration Reflexionen vierter Ordnung.
Im Verlauf dieser Arbeit wurde eine Vielzahl von akustischen Signalen analysiert, welche
aufgrund von mit simulierten Raumimpulsantworten gefalteten Sprachsignalen hervorgegan-
gen sind. Da die hierbei betrachteten R¨
aume als relativ klein angenommen werden und von
einfacher geometrischer Beschaffenheit sind – also keine konkrete Anordnung exakt nachgebil-
det werden soll – wurde die Spiegelquellenmethode zur Erzeugung von Raumimpulsantworten
benutzt. Dabei wird im Allgemeinen von einem quaderf¨
ormigen, leeren Raum ausgegangen,
in dem sich eine punktf¨
ormige Schallquelle und mehrere punktf¨
ormige Schallempf¨
anger be-
finden.
2.3 Mehrkanaliges Signalmodell
Im letzten Abschnitt wurde auf die Eigenschaften des Direktschallfelds, fr¨
uher Reflexionen
und des Nachhalls eingegangen. Mit Hilfe einer gegebenen Raumimpulsantwort k¨
onnen so aus
der Energieabfallkurve akustische Raumeigenschaften abgelesen werden. Nun soll der Fall be-
trachtet werden, dass Aussagen ¨
uber ein gegebenes Schallfeld gemacht werden sollen ohne die
Raumimpulsantwort zu kennen, d. h., ob der fr¨
uhe Anteil der Impulsantwort dominiert oder
der sp¨
ate Nachhall. Dazu soll zun¨
achst in diesem Abschnitt das daf¨
ur notwendige mehrkana-
lige Signalmodell zur Aufnahme der zu analysierenden akustischen Situation erfolgen. In Bild
2.5 ist hierf¨
ur eine allgemeine Anordnung von einem Sprecher, der das Signal sc(t) erzeugt,
einer St¨
orger¨
auschquelle nc(t) und Makustischen Sensoren dargestellt. Der Index “c” soll an-
deuten, dass die durch das Nutzsignal und die St¨
orquelle hervorgerufenen akustischen Signale
an den Sensoren korreliert5sind, im Gegensatz zu den Signalen nu,1(n),...,nu,M (n) welche
St¨
orsignale darstellen, die untereinander als unkorreliert angenommen werden sollen. Hier soll
weiterhin gelten, dass die Sensoren die Mikrophone inklusive Verst¨
arkung und Abtastung zu
den Zeiten nT modellieren, so dass anschließend zeitdiskrete Signale6mit der Abtastrate 1/T
5Grunds¨
atzlich wird auf die r¨
aumliche Korrelation von Schallfeldern noch in Abschnitt 2.4 eingegangen.
Hier soll jedoch noch angemerkt sein, dass sowohl sc(t) als auch nc(t) frequenzabh¨
angige r¨
aumlich unkorrelierte
Komponenten im oberen Frequenzbereich bedingt durch die Eigenschaften diffuser Schallfelder (siehe Abschnitt
2.4) an den Orten der Mikrophone verursachen.
6Genau genommen geht bei einem zeitkontinuierlichen Signal der Parameter tnach einer Abtastung mit
der Periode Tin den zeitdiskreten Parameter nT ¨
uber. In dieser Arbeit sollen die zeitdiskreten Signale jedoch
2.3. Mehrkanaliges Signalmodell 19
und dem Zeitindex nvorliegen. Die unkorrelierten St¨
orungen nu,i(n) mit i= 1,...,M fassen
das Rauschen durch die Mikrophone und die Verst¨
arkung zusammen. Die korrelierten Signale
am Aufnahmeort der Mikrophone ergeben sich aus dem Faltungsprodukt der von den Punkt-
schallquellen abgestrahlten Signale und der zwischen Quelle und Mikrophon bestehenden
Raumimpulsantwort; einerseits f¨
ur das Sprachsignal mit den zeitdiskreten Impulsantworten
hi(n) und andererseits f¨
ur die St¨
orquelle mit den zeitdiskreten Impulsantworten ai(n).
nu,1(n)
x1(n)
nu,2(n)
x2(n)
nu,M (n)
xM(n)
nc(t)
sc(t)
Bild 2.5: Modell zur mehrkanaligen Aufnahme von akustischen Signalen.
Der funktionale Zusammenhang zwischen den zu verarbeitenden zeitdiskreten Signalen
xi(n) und den von den Quellen in dem Raum abgestrahlten Signalen kann schließlich ge-
schrieben werden als
xi(n) = sc(n)∗hi(n) + ai(n)∗nc(n) + nu,i(n) (2.14)
=sc(n)∗hi(n) + ni(n),(2.15)
wobei alle St¨
orungen im i-ten Signalpfad zu ni(n) zusammengefasst sind und ∗den Faltungs-
operator bezeichnet. Hierbei ist leicht zu ersehen, dass bei einer Erweiterung des Modells
um zus¨
atzliche St¨
orquellen im Raum, sich diese in ¨
aquivalenter Schreibweise zu nc(n) in Gl.
(2.14) additiv dem Gesamtsignal ¨
uberlagern und sich schlussendlich ebenfalls alle Rauschter-
me wie in Gl. (2.15) zusammenfassen lassen. An dieser Stelle seien noch zwei h¨
aufig gemachte
Annahmen erw¨
ahnt. Zum einen ist dies die bereits erw¨
ahnte Modellierung der Schallquel-
len als Punktquellen, obwohl sie genau genommen r¨
aumlich ausgedehnte Quellen sind. Zum
anderen sind die Raumimpulsantworten als zeitinvariant vorausgesetzt, was zumindest bei ei-
nem Sprecher als Quelle nicht grunds¨
atzlich eingehalten werden kann, da schon durch leichte
Kopfbewegungen die Impulsantwort zur zeitlich ver¨
anderlichen Funktion wird. Vielfach wird
zus¨
atzlich angenommen, dass die Sprecherposition auf Orte in der N¨
ahe der Mikrophone ein-
gegrenzt werden kann, wodurch der Sprecher sich im Hallradius oder dessen N¨
ahe befindet
und somit der Direktschall dominiert.
Zeitdiskrete Fourier-Transformation Da im weiteren Verlauf die Signalbeschreibung in
der Regel im Frequenzbereich erfolgt, soll hier zuerst die Darstellung der Signale im frequenz-
kontinuierlichen Spektrum eingef¨
uhrt werden. Die Eingangssignale xi(n) erfahren dabei eine
der Einfachheit halber dimensionslos verwendet werden, z. B. sc(n) anstatt sc(nT ).
20 Kapitel 2. Statistische Raumakustik
zeitdiskrete Fourier-Transformation (engl. Discrete Time Fourier Transform, DTFT), so dass
sich die entsprechenden Signale Xi(Ω) mit der normierten Kreisfrequenz Ω ergeben. Hierbei
gilt der Zusammenhang Ω = 2πf/fAb f¨
ur die betrachtete Frequenz fmit der Abtastfrequenz
fAb = 1/T. Die gleiche Darstellung gilt nat¨
urlich ebenso f¨
ur die DTFT des Rauschterms
Ni(Ω) und des Sprachsignals Sc(Ω), sowie die DTFTs der entsprechenden Impulsantworten
Hi(Ω) und Ai(Ω).
Diskrete Frequenzaufl¨
osung F¨
ur die Verarbeitung von Signalen im Frequenzbereich ist
die Betrachtung diskreter Spektralkomponenten mit Hilfe der diskreten Fourier-Transfor-
mation (engl. Discrete Fourier Transform, DFT) unumg¨
anglich. Dabei wird das kontinuier-
liche Spektrum an den Frequenzen fk=fAb/L ·kbzw. Ωk= 2π/L ·kbetrachtet, wobei
k= 0,...,L −1 gilt und Ldie L¨
ange der DFT angibt. Die Eingangssignale xi(n) m¨
us-
sen daf¨
ur jeweils zu Segmenten der L¨
ange Lzusammengefasst und transformiert werden. Als
Segmentindex soll hier der Z¨
ahler mdienen, so dass sich f¨
ur den m-ten Block und das i-te Mi-
krophonsignal z. B. das diskrete Spektrum Xi,m(Ωk) mit dem Frequenzindex k= 0,...,L−1
ergibt. Die DFT wird auf digitalen Rechnern ¨
ublicherweise mit Hilfe der so genannten schnel-
len Fourier-Transformation (engl. Fast Fourier Transform, FFT) umgesetzt.
2.4 R¨
aumliche Koh¨
arenz akustischer Schallfelder
Von an unterschiedlichen Orten in einem Raum aufgenommenen akustischen Signalen kann
man eine Kreuzkorrelation berechnen. Diese ist abh¨
angig vom Abstand der Mikrophone und
der zeitlichen Verschiebung der Signale zueinander. Daher lassen sich Schallfelder durch eine
Raum-Zeit-Kreuzkorrelationsfunktion beschreiben. Die wohl bekannteste Gr¨
oße bez¨
uglich der
r¨
aumlichen Korrelation von Schallfeldern ist die so genannte komplexe Koh¨
arenzfunktion. Sie
ist definiert als das Verh¨
altnis des Kreuzleistungsdichtespektrums φXiXl(Ω) zur Wurzel aus
dem Produkt der Autoleistungsdichtespektren φXiXi(Ω) und φXlXl(Ω) f¨
ur die beiden Signale
xi(n) und xl(n) [BP66], [Gar92]:
γXiXl(Ω) = φXiXl(Ω)
pφXiXi(Ω)φXlXl(Ω).(2.16)
H¨
aufig wird aber auch das Betragsquadrat der Koh¨
arenzfunktion (engl. Magnitude Squared
Coherence, MSC) als Koh¨
arenz bezeichnet
ΓXiXl(Ω) = |φXiXl(Ω)|2
φXiXi(Ω)φXlXl(Ω).(2.17)
Die Koh¨
arenz nach Gl. (2.17) nimmt in der Regel7nur die Werte zwischen Null und Eins an:
0≤ΓXiXl(Ω) ≤1.(2.18)
F¨
ur den Fall von unkorrelierten Signalen wie z. B. nu,i(n) und nu,l(n) in Gl. (2.14) wird die
Koh¨
arenz gerade zu Null. Ansonsten markiert das diffuse Schallfeld die untere Grenze der
Koh¨
arenz. Die obere Grenze ist durch den Direktschall gegeben8und f¨
ur den theoretischen
7Streng genommen gilt Gl. (2.18) f¨
ur zwei zeitdiskrete, verbundstation¨
are und mittelwertfreie stochastische
Prozesse nur unter gewissen Voraussetzungen, vgl. [BP80].
8Die obere Grenze des Betrags der Koh¨
arenzfunktion wird z. B. auch f¨
ur den Fall korrelierter Quellen
erreicht.
2.4. R¨
aumliche Koh¨
arenz akustischer Schallfelder 21
Fall von gegeneinander rein verz¨
ogerter Signale wird sie zu Eins, wobei dann die komplexe
Koh¨
arenzfunktion gegeben ist durch (siehe Anhang B)
γXiXl(Ω) = cos Ω/T ·sin θ·dil
c+j·sin Ω/T ·sin θ·dil
c,(2.19)
wobei in Gl. (2.19) mit jdie imagin¨
are Einheit bezeichnet ist. Die Schallquelle soll sich dabei
in ausreichender Entfernung9zu den Mikrophonen befinden, so dass die sich dann ergebende
ebene Schallwelle mit dem Einfallswinkel θauf die Sensoren trifft, welche im Abstand dil
zueinander angeordnet sind.
F¨
ur das diffuse Schallfeld l¨
asst sich die Koh¨
arenz unter der Annahme von Mikrophonen mit
Kugelcharakteristik als Funktion des Mikrophonabstands geschlossen berechnen [CWB+55],
[Kut00] zu
ΓXiXl(Ω) =
sin2Ω/T dil
c
Ω/T dil
c2= si2Ω/T dil
c.(2.20)
Bild 2.6 zeigt diesen Verlauf ¨
uber der kontinuierlichen Frequenz f¨
ur vier Mikrophonabst¨
ande
dil. Es ist zu erkennen, dass die Koh¨
arenz bei tiefen Frequenzen bis zur ersten Nullstelle der
si2-Funktion hoch ist und mit zunehmender Frequenz und zunehmendem Mikrophonabstand
schnell abnimmt.
00
0,2
0,4
0,6
0,8
1
1 2 345 6 78
ΓXiXl(Ω)
Ω/(2πT) [kHz]
dil = 0,05 m
dil = 0,10 m
dil = 0,15 m
dil = 0,20 m
Bild 2.6: Koh¨
arenzverlauf eines idealen diffusen Schallfeldes f¨
ur unterschiedliche Sensorabst¨
ande dil.
Eine M¨
oglichkeit, ein diffuses Schallfeld zu erzeugen, ist die Anordnung unendlich vieler
voneinander unabh¨
angiger Punktschallquellen im Raum bei beliebiger Nachhallzeit. Die dabei
abgestrahlten Signale weisen zueinander keine zeitlichen Korrelationen auf und die an zwei
Raumpunkten aufgenommenen Signale zeichnen sich lediglich durch stochastische Phasenbe-
ziehungen aus [DDP88]. In Bild 2.7 ist beispielhaft die gemessene Koh¨
arenz f¨
ur unterschiedli-
che Sensorabst¨
ande bei der kugelf¨
ormigen Anordnung einer großen Anzahl an punktf¨
ormigen
unabh¨
angigen weißen Rauschquellen um die Messpunkte herum dargestellt (siehe Anhang B).
9Im Falle von großen Entfernungen zwischen der Schallquelle und den Mikrophonen f¨
allt die kugelf¨
ormig
emittierte Schallwelle n¨
aherungsweise planar auf die Sensoren. Diese N¨
aherung wird als so genannte Fernfeld-
n¨
aherung bezeichnet.
22 Kapitel 2. Statistische Raumakustik
Dabei erfolgte die Messung10 der Leistungsdichtespektren und der Koh¨
arenz abschnittweise,
was im Folgenden noch genauer betrachtet werden soll.
-8
-6
-4
-2
0
0
00
00
00
0,5
0,50,5
1
11
22
22
44
44
66
66
88
88
dil = 0,05m dil = 0,10m
dil = 0,15m
gemessen
gemessengemessen
theoretisch
theoretischtheoretisch
PX1X1(Ω) [dB]
ΓXiXl(Ω)
ΓXiXl(Ω)
ΓXiXl(Ω)
Ω/(2πT) [kHz]Ω/(2πT ) [kHz]
Ω/(2πT) [kHz]Ω/(2πT ) [kHz]
Bild 2.7: Koh¨
arenzverlauf eines simulierten, diffusen Schallfeldes f¨
ur unterschiedliche Sensorabst¨
ande im Ver-
gleich zum idealen Verlauf und das Leistungsdichtespektrum eines Signals.
Aufgrund der zeitvarianten statistischen Eigenschaften von Sprachsignalen werden die
statistischen Kenngr¨
oßen ¨
uber kurze Zeitabschnitte von etwa 8 bis 30ms bestimmt. Die
Kurzzeitspektren der Signale k¨
onnen dann mit Hilfe der Methode von Welch gemessen wer-
den [Wel67]. Dabei werden sich ¨
uberlappende Segmente der Zeitsignale mit einer Fenster-
funktion gewichtet und in den Frequenzbereich transformiert. F¨
ur das komplexe Kurzzeit-
Kreuzleistungsdichtespektrum des m-ten Segments ergibt sich das so genannte Kreuzperi-
odogramm
PXi,mXl,m (Ωk) = 1
LX∗
i,m(Ωk)Xl,m(Ωk) (2.21)
und entsprechend das Kurzzeit-Autoleistungsdichtespektrum, bzw. das Autoperiodogramm
PXi,mXi,m (Ωk) = 1
L|Xi,m(Ωk)|2.(2.22)
Hierbei wird mit (·)∗das konjugiert komplexe Spektrum gekennzeichnet und Lgibt wieder
die Anzahl der St¨
utzstellen der DFT an. Unter Verwendung des Langzeitmittelwerts der
10F¨
ur die genaue Unterscheidung zwischen der Definition und dem Messen statistischer Kenngr¨
oßen sei z. B.
auf [VHH98], [KK02] verwiesen.
2.4. R¨
aumliche Koh¨
arenz akustischer Schallfelder 23
Periodogramme erh¨
alt man so einen Messwert f¨
ur die Koh¨
arenz
ˆ
ΓXiXl(Ωk) =
N−1
P
m=0 |PXi,mXl,m (Ωk)|2
N−1
P
m=0
PXi,mXi,m (Ωk)PXl,mXl,m (Ωk)
.(2.23)
F¨
ur eine m¨
oglichst zuverl¨
assige Bestimmung der Koh¨
arenz sollte die Anzahl der ber¨
ucksich-
tigten Segmente Nhinreichend groß gew¨
ahlt werden. F¨
ur den Extremfall von nur einem
betrachteten Segment ist zu sehen, dass die Kurzzeit-Koh¨
arenz f¨
ur alle Frequenzen den Wert
Eins annimmt. Einen ebenfalls wichtigen Parameter stellt die Frequenzaufl¨
osung
∆f=fAb
L(2.24)
der zugrundeliegenden diskreten Fouriertransformation dar. In z. B. [JN87], [Mar95], [Dre99]
wurde der Zusammenhang zwischen der gemessenen Koh¨
arenz und der Frequenzaufl¨
osung
untersucht. Die dabei erzielten Ergebnisse f¨
uhren zu folgender Schlussfolgerung: Bei einer
Frequenzaufl¨
osung von ∆f≫4/T60 wird in einem Schallfeld, bei dem die Mikrophone au-
ßerhalb des Hallradius der Schallquellen liegen, stets eine Koh¨
arenz gemessen, die n¨
aherungs-
weise dem si2-Verlauf nach Gl. (2.20) entspricht. Der korrekte Koh¨
arenzverlauf stellt sich
hingegen erst bei ∆f < 4/T60 ein. F¨
ur eine ¨
ubliche Nachhallzeit von 0,4 s in einem B¨
u-
roraum w¨
urde sich so eine notwendige Frequenzaufl¨
osung ∆f < 10 Hz ergeben. Da aber
bei der Sprachsignalverarbeitung in der Regel Aufl¨
osungen zwischen 16 kHz/256 = 62,5 Hz
und 16 kHz/1024 = 15,625 Hz verwendet werden, ”sehen” die Mikrophone nicht die korrekte
Koh¨
arenz, sondern einen zur si2-Funktion ¨
ahnlichen Koh¨
arenzverlauf.
Zur Analyse der r¨
aumlichen Koh¨
arenz realer Schallfelder wurde eine Reihe von Messungen
in unterschiedlichen R¨
aumen durchgef¨
uhrt. F¨
ur die Aufnahmen kamen vier ¨
aquidistant im
Abstand von 5cm angeordnete Grenzfl¨
achenmikrophone mit Hypernierencharakteristik (AKG
C-400BL) zum Einsatz. Die dabei gemessene Langzeit-Koh¨
arenz nach Gl. (2.23) soll hier
beispielhaft f¨
ur einige Anordnungen vorgestellt werden, wobei jeweils eine Frequenzaufl¨
osung
von ∆f= 62,5Hz, eine ¨
Uberlappung der Segmente von 50% und ein Hanning-Fenster gew¨
ahlt
wurde.
Zuerst ist in Bild 2.8 die Koh¨
arenz eines aufgenommenen ca. 12s langen Sprachsignals
f¨
ur zwei R¨
aume zu sehen. In einem Fall wurden die Mikrophone auf einem Stativ in einem
reflexionsarmen Raum (Gr¨
oße: 4m x 7m x 3m) und im anderen Fall waren die Mikrophone
auf einem Monitor in einem B¨
uroraum (T60 ≈0,5s; Gr¨
oße: 4m x 5m x 3m) angeordnet. Das
Sprachsignal wurde ¨
uber einen Lautsprecher jeweils in einem Abstand von ca. 0,6m mittig
vor den Mikrophonen ausgegeben, also innerhalb des Hallradius. Im reflexionsarmen Raum
sind f¨
ur alle Frequenzen Koh¨
arenzwerte nahe Eins zu beobachten, die jedoch mit steigender
Frequenz und zunehmendem Mikrophonabstand abnehmen. F¨
ur den Fall des B¨
uroraumes ist
bereits ein stark frequenzselektiver Koh¨
arenzverlauf festzustellen, trotz der mittleren Nach-
hallzeit und des kleinen Abstands zwischen dem Lautsprecher und den Mikrophonen.
24 Kapitel 2. Statistische Raumakustik
-30
-20
-10
0
0
00
00
00
0,2
0,20,2
0,4
0,40,4
0,6
0,60,6
0,8
0,80,8
1
11
22
22
44
44
66
66
88
88
d12 = 0,05m d13 = 0,10m
d14 = 0,15m
PX1X1(Ω) [dB]
ˆ
ΓX1X2(Ω)
ˆ
ΓX1X3(Ω)
ˆ
ΓX1X4(Ω)
Ω/(2πT) [kHz]Ω/(2πT ) [kHz]
Ω/(2πT) [kHz]Ω/(2πT ) [kHz]
Bild 2.8: Gemessener Koh¨
arenzverlauf eines Sprachsignals im B¨
uroraum (–) und im reflexionsarmen Raum
(-·) f¨
ur unterschiedliche Mikrophonabst¨
ande bei 0,6 m Abstand zwischen Lautsprecher und Array im
Vergleich zum si2-Verlauf (- -), sowie das Autoleistungsdichtespektrum des ersten Signals.
Als n¨
achstes sind in Bild 2.9 die Ergebnisse einer Messung, bei der im B¨
uroraum ein
breitbandiges Rauschsignal ¨
uber einen Lautsprecher in einer Entfernung von 3m zu den Mi-
krophonen abgestrahlt wurde. Die Schallquelle befindet sich also außerhalb des Hallradius. Bei
den Koh¨
arenzverl¨
aufen stellt sich folglich f¨
ur sehr niedrige Frequenzen ein ¨
ahnlicher Verlauf
wie bei der si2-Funktion ein. Abgesehen von den niedrigen Frequenzen ist jedoch eine h¨
ohere
r¨
aumliche Koh¨
arenz zu beobachten als beim diffusen Schallfeld. Der koh¨
arente Schalleinfall
des Direktschalls und einiger energiereicher fr¨
uhen Echos zeigte bei den Messungen durchweg
noch große Auswirkungen auf den Koh¨
arenzverlauf, insbesondere bei h¨
oheren Frequenzen.
Erst bei gen¨
ugend großen Entfernungen zu den Mikrophonen im Vergleich zum Hallradius ist
der Direktschall aufgrund der Ausbreitungsd¨
ampfung soweit abgeklungen, dass er einen sehr
geringen Einfluss auf die r¨
aumliche Koh¨
arenz am Aufnahmeort nimmt.
2.4. R¨
aumliche Koh¨
arenz akustischer Schallfelder 25
-80
-60
-40
-20
0
0
00
00
00
0,5
0,50,5
1
11
22
22
44
44
66
66
88
88
d12 = 0,05m d13 = 0,10m
d14 = 0,15m
PX1X1(Ω) [dB]
ˆ
ΓX1X2(Ω)
ˆ
ΓX1X3(Ω)
ˆ
ΓX1X4(Ω)
Ω/(2πT) [kHz]Ω/(2πT ) [kHz]
Ω/(2πT) [kHz]
Ω/(2πT) [kHz]
Bild 2.9: Gemessener Koh¨
arenzverlauf eines breitbandigen Rauschsignals im B¨
uroraum (–) f¨
ur unterschiedliche
Mikrophonabst¨
ande bei 3 m Abstand zwischen Schallquelle und Array im Vergleich zum si2-Verlauf
(- -), sowie Autoleistungsdichtespektrum des ersten Signals.
Um die Auswirkungen des Direktschalls zu untersuchen, wurden verschiedene Anordnun-
gen gew¨
ahlt, bei denen keine Sichtverbindung zwischen der Schallquelle und den Mikrophonen
bestand. Hierbei zeigte sich im Allgemeinen ein zur si2-Funktion deutlich ¨
ahnlicherer Koh¨
a-
renzverlauf im Vergleich zu Anordnungen mit Direktschallkomponente. In Bild 2.10 ist die
Koh¨
arenz f¨
ur eine Beschallungssituation abgebildet, bei der im B¨
uroraum ein Rechnerl¨
ufter
als Schallquelle fungiert hat. Dieser befand sich unter dem Tisch, auf welchem der Monitor
mit den Mikrophonen platziert war. An dem gemessenen Autoleistungsdichtespektrum ist
der f¨
ur einen solchen Fall typische Tiefpasscharakter zu erkennen. Trotz der geringen geome-
trischen Entfernung von ca. 1m ist die Nachbildung des Hauptmaximums der si2-Funktion
deutlich ausgepr¨
agt. Die Koh¨
arenz verschwindet f¨
ur hohe Frequenzen aufgrund nicht vorhan-
dener Frequenzkomponenten der Schallquelle, so dass das unkorrelierte Mikrophonrauschen
dominiert.
26 Kapitel 2. Statistische Raumakustik
-50
-40
-30
-20
-10
0
0
00
00
00
0,2
0,20,2
0,4
0,40,4
0,6
0,60,6
0,8
0,80,8
1
11
22
22
44
44
66
66
88
88
d12 = 0,05m d13 = 0,10m
d14 = 0,15m
PX1X1(Ω) [dB]
ˆ
ΓX1X2(Ω)
ˆ
ΓX1X3(Ω)
ˆ
ΓX1X4(Ω)
Ω/(2πT) [kHz]
Ω/(2πT) [kHz]
Ω/(2πT) [kHz]Ω/(2πT ) [kHz]
Bild 2.10: Gemessener Koh¨
arenzverlauf im B¨
uroraum mit Rechnerl¨
ufter als indirekte St¨
orquelle (–) f¨
ur unter-
schiedliche Mikrophonabst¨
ande im Vergleich zum si2-Verlauf (- -), sowie Autoleistungsdichtespek-
trum des ersten Signals.
Als letztes sind Messergebnisse zur r¨
aumlichen Korrelationseigenschaft eines Laborraums
(T60 ≈0,8s; Gr¨
oße: 7m x 10m x 3m) in Bild 2.11 dargestellt. Das Array befand sich dabei
wiederum auf einem Stativ in 1,60m H¨
ohe. Das Schallfeld wurde durch mehrere Rechner-
l¨
ufter, Festplattenger¨
ausche und einen Drucker erzeugt, wobei sich die Rechner jeweils unter
Arbeitstischen befanden. Im Vergleich zur Anordnung mit nur einem Rechnerl¨
ufter als Schall-
quelle im B¨
uroraum liegt der Unterschied also in der Verwendung von mehreren Quellen und
einer h¨
oheren Nachhallzeit des Raums. Die Folge ist eine deutlich geringere Koh¨
arenz im Be-
reich der mittleren Frequenzen. F¨
ur hohe Frequenzen liegt zwar eine sehr geringe Koh¨
arenz
vor, sie verschwindet aber nicht wie in Bild 2.10, da das Szenario im Laborraum ein brei-
teres Frequenzspektrum aufweist. Aufgrund der h¨
oheren Nachhallzeit und einer r¨
aumlichen
Verteilung der Schallquellen im Abstand von 2 bis 6m zu den Mikrophonen ist der Anteil
an direkten Schallkomponenten sehr gering. Da f¨
ur die Gr¨
oße der r¨
aumlichen Koh¨
arenz das
Verh¨
altnis von Direktschall zu Diffusschall maßgebend ist, l¨
asst sich f¨
ur diese Anordnung also
ein n¨
aherungsweise als diffus zu bezeichnendes Schallfeld messen.
2.5. Zusammenfassung 27
-40
-30
-20
-10
0
0
00
00
00
0,2
0,20,2
0,4
0,40,4
0,6
0,60,6
0,8
0,80,8
1
11
22
22
44
44
66
66
88
88
d12 = 0,05m d13 = 0,10m
d14 = 0,15m
PX1X1(Ω) [dB]
ˆ
ΓX1X2(Ω)
ˆ
ΓX1X3(Ω)
ˆ
ΓX1X4(Ω)
Ω/(2πT) [kHz]
Ω/(2πT) [kHz]
Ω/(2πT) [kHz]Ω/(2πT ) [kHz]
Bild 2.11: Gemessener Koh¨
arenzverlauf im Laborraum mit mehreren St¨
orquellen f¨
ur unterschiedliche Mikro-
phonabst¨
ande, sowie Autoleistungsdichtespektrum des ersten Signals.
2.5 Zusammenfassung
In diesem Kapitel wurden die wesentlichen Kenngr¨
oßen der statistischen Raumakustik einge-
f¨
uhrt. Die hier definierten Schallfeldparameter waren die Anfangsnachhallzeit TA, die Nach-
hallzeit T60, der Hallradius rHund das Deutlichkeitsmaß C50. Sie lassen sich mit Hilfe der
Raumimpulsantwort bzw. anhand der R¨
uckw¨
artsintegration der Raumimpulsantwort bestim-
men. Bei den sp¨
ateren experimentellen Untersuchungen der Beamforming-Verfahren sollen
diese raumakustischen Eigenschaften noch Verwendung finden. Dort werden mit Hilfe der
hier vorgestellten Spiegelquellenmethode mehrkanalige akustische Signale erzeugt. Anhand
dieser simulierten Sprachdaten ist es m¨
oglich die Verfahren f¨
ur unterschiedliche Anordnun-
gen und Nachhallzeiten zu testen.
F¨
ur die Aufnahme von Sprachsignalen mittels Freisprecheinrichtungen kann generell ge-
sagt werden, dass es w¨
unschenswert ist m¨
oglichst viel Schallenergie des Nutzsignals aufzu-
nehmen, d. h., der Sprecher sollte sich innerhalb des Hallradius befinden. Aufgrund der in
diesem Kapitel gemachten Betrachtungen sind f¨
ur die Sprachverst¨
andlichkeit noch zus¨
atzlich
die fr¨
uhen Reflexionen von Bedeutung.
Weiterhin wurde exemplarisch an beispielhaften Messungen realer Schallfelder die r¨
aum-
liche Koh¨
arenz analysiert. Dabei stellte sich heraus, dass sich insbesondere im Falle von in-
direkten Schallquellen ein n¨
aherungsweise diffuses Schallfeld ergibt. Dies ist bei den sp¨
ateren
28 Kapitel 2. Statistische Raumakustik
Betrachtungen von Bedeutung, da sich additiv zu einem Sprachsignal h¨
aufig Hintergrundrau-
schen aufgrund indirekter Quellen ¨
uberlagert, z. B. durch Rechnerl¨
ufter. Werden hingegen
St¨
orschallquellen mit direkter Sichtverbindung zu den Mikrophonen platziert, so ist auch
bei gr¨
oßeren Abst¨
anden zu diesen noch eine deutliche Koh¨
arenz zu messen. Solche Quellen
werden daher im Weiteren gesondert betrachtet und als direkte St¨
orschallquellen bezeichnet.
Kapitel 3
Grundlagen zu Mikrophongruppen
W¨
ahrend bei einkanaligen Verfahren zur Sprachsignalverbesserung lediglich spektrale Infor-
mationen zur Adaption von zeitvarianten Filtergewichten vorliegen, kann bei der mehrkana-
ligen Sprachsignalverarbeitung mittels Mikrophongruppen auch die r¨
aumliche Komponente
der Anordnung genutzt werden. Dabei wird die akustische Welle r¨
aumlich abgetastet und
mit der anschließenden strahlformenden Signalverarbeitung (engl. Beamforming) k¨
onnen
Signale aus bestimmten Raumrichtungen gegen¨
uber anderen verst¨
arkt oder unterdr¨
uckt wer-
den. F¨
ur diese so genannte Raum-Zeit-Filterung kommen ¨
ublicherweise Filter mit endlicher
Impulsantwort (engl. Finite Impulse Response, FIR) in jedem Mikrophonpfad zum Einsatz,
wobei die gefilterten und aufsummierten Mikrophonsignale dann das Ausgangssignal des Be-
amformers ergeben. Daher kann solch eine Strahlformung auch allgemein englischsprachig
als Filter-and-Sum-Beamformer (FSB) bezeichnet werden. In diesem Kapitel soll zun¨
achst
der einfachste Fall der Realisierung der FIR-Filter als reine Verz¨
ogerungsglieder zur Kom-
pensation der Laufzeitunterschiede der akustischen Welle von der Quelle zu den einzelnen
Mikrophonen hin angenommen werden. Es erfolgt eine Beschreibung der Problemstellung
bez¨
uglich der Anordnung von Mikrophongruppen und das sich aus dem Aufbau ergebende
frequenzabh¨
angige D¨
ampfungsverhalten. Desweiteren soll zur allgemeinen Bewertung eines
Gesamtsystems bestehend aus Mikrophonanordnung und Filterung sowohl auf die objektive
Messung von Leistungsmerkmalen wie die Verbesserung des Signal-zu-Rauschverh¨
altnisses,
als auch auf subjektive M¨
oglichkeiten zur Beurteilung des verarbeiteten Sprachsignals ein-
gegangen werden. Dabei zeigt sich ein unterschiedliches Verhalten je nach Annahme des
vorliegenden St¨
orschallfeldes, welche im vorangegangenen Kapitel eingef¨
uhrt wurden.
3.1 Beamformer-Signalmodell
Bereits in Abschnitt 2.3 wurde ein mehrkanaliges Signalsystem zur Aufnahme von St¨
orschall-
feldern vorgestellt, um die r¨
aumliche Koh¨
arenz zu untersuchen. In Bild 3.1 ist diese Anord-
nung um FIR-Filter in jedem Mikrophonpfad erweitert. Ausgegangen wird wieder von einem
Sprecher als Quelle f¨
ur das Nutzsignal sc(t) an der Position ps, einer St¨
orger¨
auschquelle nc(t)
positioniert an den Koordinaten pnund MMikrophonen, jeweils bei pi. Die Positionen ps,
pnund pi,i∈ {1,2,...,M}beschreiben vektoriell den jeweiligen Ort im dreidimensionalen
Raum. Das Mikrophonsignal erf¨
ahrt eine Abtastung zu den Zeiten nT, so dass anschlie-
ßend zeitdiskrete Signale mit der Abtastrate 1/T und dem Zeitindex nvorliegen. Zus¨
atzlich
30 Kapitel 3. Grundlagen zu Mikrophongruppen
zu den korrelierten zeitdiskreten St¨
orsignalen nc(n) sind ebenfalls unkorrelierte St¨
oranteile
nu,1(n),...,nu,M (n) in jedem Signalpfad enthalten, welche das Rauschen durch die Mikropho-
ne und die Verst¨
arkung nachbilden. Der im Mikrophonsignal enthaltene Nutzanteil entsteht
durch Faltung des Sprachsignals mit den jeweiligen Raumimpulsantworten hi(n) und der
des Rauschanteils aus dem Faltungsprodukt des von der St¨
orquelle abgegebenen Signals mit
den Raumimpulsantworten ai(n). Am Beamformer-Ausgang liegt das in jedem Signalpfad
gefilterte und dann aufsummierte Signal y(n) vor. In Bild 3.1 sind die FIR-Filter zeitinvers1
nu,1(n)
x1(n)˜
f1(n)
nu,2(n)
x2(n)˜
f2(n)
nu,M (n)
xM(n)˜
fM(n)
y(n)
nc(t)
sc(t)
Bild 3.1: Allgemeines Modell eines Filter-and-Sum-Beamformers.
mit ˜
fi(n) = fi(−n) angenommen, so dass der funktionale Zusammenhang f¨
ur das allgemeine
Modell eines Filter-and-Sum-Beamformers geschrieben werden kann als
y(n) =
M
X
i=1
˜
fi(n)∗xi(n),(3.1)
wobei das Signal xi(n) in jedem Signalpfad entsprechend Bild 3.1 wie folgt zusammengesetzt
ist:
xi(n) = sc(n)∗hi(n) + nc(n)∗ai(n) + nu,i(n) (3.2)
xi(n) = si(n) + ni(n).(3.3)
In Gl. (3.3) sind Nutz- und St¨
oranteile im i-ten Signalpfad zu
si(n) = sc(n)∗hi(n) (3.4)
ni(n) = nc(n)∗ai(n) + nu,i(n) (3.5)
zusammengefasst.
¨
Aquivalent zu der bereits erfolgten Beschreibung in Abschnitt 2.3 soll auch hier eine
Darstellung aller Signale im Frequenzbereich bevorzugt werden. Die zeitdiskrete Fourier-
Transformation von Gl. (3.1) liefert somit folgendes Ergebnis
Y(Ω) =
M
X
i=1
F∗
i(Ω) ·Xi(Ω) (3.6)
=
M
X
i=1
F∗
i(Ω) ·(Si(Ω) + Ni(Ω)).(3.7)
1Durch die zeitinverse Notation der FIR-Filter l¨
aßt sich die Filterung mittels Vektorschreibweise im Fre-
quenzbereich kompakt durch Gl. (3.13) darstellen.
3.1. Beamformer-Signalmodell 31
Weiterhin wird im Folgenden vorzugsweise die Vektornotation der Signale verwendet, deren
Komponenten jeweils durch die zugeh¨
origen Signalpfade gegeben sind, z. B. durch
H(Ω) = [H1(Ω),...,HM(Ω)]T(3.8)
S(Ω) = [S1(Ω),...,SM(Ω)]T(3.9)
N(Ω) = [N1(Ω),...,NM(Ω)]T(3.10)
X(Ω) = [X1(Ω),...,XM(Ω)]T(3.11)
F(Ω) = [F1(Ω),...,FM(Ω)]T,(3.12)
wobei (·)Tdie transponierte Schreibweise des jeweiligen Vektors bezeichnet. Mit Hilfe der
beschriebenen Vektornotation ergibt sich aus den Gleichungen (3.6) und (3.7)
Y(Ω) = FH(Ω) ·X(Ω) (3.13)
=FH(Ω) ·(S(Ω) + N(Ω)) (3.14)
=FH(Ω) ·(Sc(Ω)H(Ω) + N(Ω)),(3.15)
mit (·)Hf¨
ur die hermitesch konjugierte Notation. An dieser Stelle soll angemerkt werden,
dass alle eingef¨
uhrten Signale in Gl. (3.8) bis Gl. (3.12) von der konkreten Positionierung
der Schallquellen (Positionen psund pn) und der Mikrophone (Positionen pi) im Raum
abh¨
angen, also nicht nur von der relativen Ausrichtung zueinander, sondern der absoluten
Anordnung im Raum. Daher m¨
ussten konsequenterweise jeweils diese geometrischen Infor-
mationen ebenfalls als Argument der Signale auftreten. Aufgrund einer k¨
urzeren Schreibweise
soll auf diese Notation verzichtet werden, so dass z. B. f¨
ur die Raum¨
ubertragungsfunktion
folgende Definition gilt:
H(Ω) := H(Ω,ps,p1, ..., pM).(3.16)
¨
Aquivalent zur Definition Gl. (3.16) gelten ebenfalls verk¨
urzte Schreibweisen f¨
ur die Signale
in Gl. (3.9) bis Gl. (3.12).
Das Ziel des Beamformings ist es nun, die Filterkoeffizienten F(Ω) so zu w¨
ahlen, dass das
Quellsignal des Sprechers m¨
oglichst gut rekonstruiert wird. Dabei l¨
aßt sich der Filter-Entwurf
grunds¨
atzlich in zwei unterschiedliche Klassen aufteilen: datenunabh¨
angige und datenabh¨
an-
gige Verfahren [VVB88].
Data-Independent-Beamforming Bei einem datenunabh¨
angigen (engl. Data-Indepen-
dent)Beamforming-Verfahren h¨
angen die Filterkoeffizienten nicht von den Eingangsdaten,
also den Mikrophonsignalen, ab. Die Filtergewichte werden entsprechend einer gew¨
unschten
Raum-Zeit-¨
Ubertragungsfunktion entworfen, wobei h¨
aufig ein Signal aus einer vorgegebenen
Richtung am Beamformer-Ausgang erhalten bleiben soll, und weiterhin ein Filter-Design be-
z¨
uglich der Breite der Hauptkeule und der H¨
ohe der Nebenkeulen erfolgt. Die verschiedenen
Formen der Array-Gewichtung sind h¨
aufig ¨
aquivalent zu Fensterfunktionen in der Spektral-
analyse. Die eingesetzte spektrale Gewichtung erm¨
oglicht dann die Richtcharakteristik so zu
optimieren, dass z. B. die H¨
ohe der Nebenkeulen minimiert wird, oder ¨
uber alle Frequen-
zen gemittelt eine Mindestd¨
ampfung der Nebenkeulen erreicht wird; siehe [VT02] f¨
ur einen
¨
Uberblick.
Data-Dependent-Beamforming Einem Beamforming-Design, welches datenabh¨
angig
(engl. Data-Dependent) ausgelegt sein soll, liegt die Idee zugrunde, eine zeitvariante Raum-
32 Kapitel 3. Grundlagen zu Mikrophongruppen
Zeit-¨
Ubertragungsfunktion zu erm¨
oglichen. So kann z. B. auch f¨
ur zeitlich variierende Spre-
cherpositionen ein optimales Beamforming im Sinne des Entwurfskriteriums durch adaptive
Verfahren realisiert werden. In Kapitel 4 werden basierend auf den statistischen Eigenschaften
der Mikrophonsignale einige optimale, datenabh¨
angige Beamforming-Designs vorgestellt.
Second Order Statistics Zum Entwurf statistisch optimaler Beamforming-Verfahren (sie-
he Kapitel 4) aber auch zur Bewertung eines Beamforming-Designs ist es notwendig, statisti-
sche Eigenschaften zweiter Ordnung (engl. Second Order Statistics) zu betrachten, also Signal-
leistungen bzw. spektrale Leistungsdichten. Da es sich bei Mikrophonsignalen im Allgemei-
nen um mittelwertfreie Signale handelt, ist das frequenzabh¨
angige Leistungsdichtespektrum
(LDS) φY Y (Ω) des Beamformer-Ausgangssignals Gl. (3.13) gegeben durch
φY Y (Ω) = E{|Y(Ω)|2}(3.17)
=E{FH(Ω)X(Ω)XH(Ω)F(Ω)}(3.18)
=FH(Ω)E{X(Ω)XH(Ω)}F(Ω),(3.19)
wobei E{·} den Erwartungswert bez¨
uglich aller Realisierungen der entsprechenden Zufalls-
variablen bezeichnet. Unter der Annahme zumindest schwach station¨
arer2Eingangssignale,
sowie unkorrelierten Rausch- und Sprachanteilen, kann Gl. (3.19) angegeben werden als
φY Y (Ω) = FH(Ω)ΦXX(Ω)F(Ω) (3.20)
=FH(k)ΦSS(Ω) + ΦNN(Ω)F(Ω),(3.21)
wobei ΦXX(Ω) die Matrix der spektralen Kreuzleistungsdichten der Mikrophonsignale und
ΦSS(Ω) bzw. ΦNN(Ω) die Matrizen der spektralen Kreuzleistungsdichten des Sprach- bzw.
Rauschanteils sind.
Schmalband Annahme Die Realisierung von Beamforming-Verfahren im Frequenzbereich
und die Berechnung der Kreuzleistungsdichtespektren erfordert eine Dekomposition des breit-
bandigen Audiosignals in einzelne Spektralkomponenten und deren unabh¨
angige Verarbeitung
voneinander. Dabei wird im gesamten Verlauf dieser Arbeit davon ausgegangen, dass in gu-
ter N¨
aherung von der Schmalband Annahme ausgegangen werden kann. Betrachtet man ein
Mikrophonsignal, welches als mittelwertfrei und zumindest schwach station¨
ar angenommen
wird, und integriert das Leistungsdichtespektrum ¨
uber einen bestimmten Frequenzbereich
[Ω0−∆Ω,Ω0+ ∆Ω] mit der Mittenfrequenz Ω0, so ist das Ergebnis proportional der mitt-
leren Leistung des Prozesses in diesem Bereich. F¨
ur gen¨
ugend klein gew¨
ahlte Bereiche ∆Ω
soll nun f¨
ur die Schmalband Annahme3φXiXi(Ω) als n¨
aherungsweise konstant innerhalb des
betrachteten Intervalls gelten [HN76, VVB88]:
ZΩ0+∆Ω
Ω0−∆Ω
φXiXi(Ω)dΩ≈2·∆Ω ·φXiXi(Ω0).(3.22)
2Ein stochastischer Prozess ist stark station¨
ar, wenn dessen Verteilung unabh¨
angig von dem absoluten
Zeitindex ist. Hingegen ist ein stochastischer Prozess schwach station¨
ar, wenn lediglich der Erwartungswert
unabh¨
angig von dem absoluten Zeitindex ist.
3F¨
ur die Schmalband Annahme ist es notwendig, dass die Spektralkomponenten untereinander unkorreliert
sind. Dies gilt jedoch nur asymptotisch f¨
ur unendlich lange Beobachtungsfenster [HN76].
3.2. Delay-and-Sum-Beamformer 33
3.2 Delay-and-Sum-Beamformer
Die einfachste Form der Realisierung der Filterkoeffizienten F(Ω) besteht darin, gerade die
Laufzeitdifferenzen f¨
ur die direkten Ausbreitungspfade der akustischen Welle zwischen der
Quelle und den einzelnen Mikrophonen zu kompensieren, um die einzelnen Signale anschlie-
ßend koh¨
arent zu addieren. Dabei ist zus¨
atzlich auf unterschiedliche Signald¨
amfungen in den
einzelnen Mikrophonpfaden zu achten. Diese entstehen einerseits durch die unterschiedliche
D¨
ampfung aufgrund verschieden langer Ausbreitungspfade, und andererseits durch eine un-
gleiche Verst¨
arkung der Mikrophonsignale bzw. uneinheitliche Mikrophoncharakteristiken.
Solch eine Strahlformung, die lediglich aus den Verz¨
ogerungen, einer reellwertigen, skalaren
Gewichtung und der anschließenden Summation besteht, wird Delay-and-Sum-Beamformer
(DSB) genannt. Unter der idealen Annahme, dass die beschriebene D¨
ampfung in jedem Pfad
identisch ist, reduziert sich die Gewichtung auf 1/M um den Signalpegel des Nutzsignals vom
Eingang zum Ausgang bei Mkoh¨
arent addierten Signalen konstant zu halten. Im Weiteren
soll nun dieser Sachverhalt formal beschrieben und wichtige Begriffe eingef¨
uhrt werden.
Beamformer Response Es soll nun angenommen werden, dass psdie Position einer mo-
nochromatischen Quelle
sc(n) = Sc·ejΩn(3.23)
der normierten Frequenz Ω mit der Amplitude Scangibt. Die Laufzeit des Signals von der
Quelle bis zum i-ten Mikrophon an der Stelle piist dann
τi:= τi(ps,pi) = 1
c||ps−pi||.(3.24)
Das Quellsignal sc(n) gelange ohne Reflexionen und D¨
ampfung zu den Mikrophonen, wo sich
jeweils das Signal
si(n) = ScejΩ(n−τi/T)(3.25)
ergibt. Das Signal am Beamformer-Ausgang kann dann entsprechend Gl. (3.7) geschrieben
werden als
y(n) =
M
X
i=1
F∗
i(Ω) ·ScejΩ(n−τi/T ).(3.26)
Aus Gl. (3.26) kann somit die Antwort des Beamformers (engl. Beamformer Response) auf ein
von der Position pauf die Sensorgruppe einfallendes Signal entsprechend [VVB88] definiert
werden:
r(Ω,p) :=
M
X
i=1
F∗
i(Ω) ·e−jΩ||p−pi||/(T c).(3.27)
Am Beamformer-Ausgang ergibt sich dann in kompakter Schreibweise
y(n) = ScejΩn·r(Ω,p=ps).(3.28)
Steering Vector M¨
ochte man nun wie eingangs beschrieben eine Laufzeitkompensation in
jedem Signalpfad realisieren, sind ¨
aquivalent zu Gl. (3.27) Exponentialterme einzuf¨
uhren. Hier
nun allerdings aus Sicht des Arrays, d. h. durch geeignete Verz¨
ogerungen kann die “Blickrich-
tung” (engl. Look Direction) des Arrays auf ein Ziel (engl. target)pthin ausgerichtet werden.
Die Zielkoordinaten ptsollten dabei idealerweise gleich den Quellkoordinaten sein pt=ps,
34 Kapitel 3. Grundlagen zu Mikrophongruppen
bzw. einer m¨
oglichst guten Sch¨
atzung dieser entsprechen. Die Laufzeitdifferenz, welche bei
einer Ausrichtung auf ein gew¨
unschtes Ziel auszugleichen ist, ergibt sich dann ¨
aquivalent zu
Gl. (3.24) durch
τi(pt) := τi(pt,pi) = 1
c||pt−pi||,(3.29)
so dass sich die Exponentialterme als Steering Vector4
d(Ω,pt) = (ejΩτ1(pt)/T , ejΩτ2(pt)/T ,...,ejΩτM(pt)/T )H.(3.30)
schreiben lassen. Zu beachten ist in Gl. (3.29), Gl. (3.30) und den folgenden Gleichungen,
dass die Zielrichtung ptals Argument beibehalten wird. Dies ist aus dem Grunde wichtig,
da die Ausrichtung des Arrays nicht zwangsl¨
aufig mit den Quellkoordinaten des Sprechers
¨
ubereinstimmen m¨
ussen.
Grunds¨
atzlich ist es nicht notwendig, die absoluten Laufzeitdifferenzen zwischen der Schall-
quelle und den Sensoren auszugleichen, sondern lediglich die relativen Zeitdifferenzen bezogen
auf einen frei gew¨
ahlten Raumpunkt wie z. B. den Mittelpunkt der Mikrophongruppe. Die
Realisierung von Verz¨
ogerungseinheiten, die nicht in das Abtastintervall fallen, kann durch
so genannte Fractional Delay Filter mit kleinen Approximationsfehlern erfolgen [LVKL96].
Hier soll allerdings der Einfachheit halber die Form in Gl. (3.30) beibehalten werden.
Uniformly Weighted Beamformer Ausgehend von dem Steering Vector Gl. (3.30) ist
schließlich noch eine einheitliche Gewichtung der Beamformer-Signalpfade (engl. Uniformly
Weighted Beamformer) mit 1/M durchzuf¨
uhren. Die Filterkoeffizienten des idealen Delay-
and-Sum-Beamformers
FDSB(Ω) = 1
Md(Ω,pt=ps),(3.31)
erzeugen dann am Beamformer-Ausgang das Signal
Y(Ω) = FH
DSB(Ω)X(Ω).(3.32)
Es kann leicht gepr¨
uft werden, dass mit Gl. (3.32) das monochromatische Eingangssignal Gl.
(3.23) am Ausgang des Delay-and-Sum-Beamformers exakt rekonstruiert wird.
H¨
aufig wird in der Literatur die Laufzeitkompensation als Beamsteering bezeichnet und
als Vorverarbeitungsstufe f¨
ur das “eigentliche Beamforming” durchgef¨
uhrt. D. h. also, dass
f¨
ur das Beamforming-Design von einem mehrkanaligen, so genannten Presteered-Signal aus-
gegangen wird. Obschon in solch einer Anordnung die Laufzeitsteuerung adaptiv auf m¨
ogliche
Sprecherbewegungen ausgelegt sein kann, sei hier noch angemerkt, dass bei einer datenun-
abh¨
angigen, fest eingestellten nachfolgenden spektralen Gewichtung auch h¨
aufig von einem
Fixed Beamformer gesprochen wird. Das in dieser Arbeit vorgestellte Beamformig-Konzept
soll jedoch gerade ohne a priori Wissen bez¨
uglich der Sprecherrichtung auskommen, weshalb
die Laufzeitkompensation nicht als abgekoppelte Einheit betrachtet werden soll.
3.3 Anordnung der Mikrophone
Die wohl wichtigste Anordnung von Mikrophonen innerhalb einer Gruppe, die insbesonde-
re bei einer geringen Anzahl von Mikrophonen h¨
aufig gew¨
ahlt wird, ist eine ¨
aquidistante
4Da eine elektronische und nicht physikalische Ausrichtung des Arrays gemeint ist, wird auch manchmal
statt Steering Vector der Begriff Phase Steering benutzt.
3.3. Anordnung der Mikrophone 35
Platzierung der Mikrophone zueinander. In Bild 3.2 ist solch ein lineares Array mit vier
Mikrophonen und dem Abstand dzueinander dargestellt5. Weiterhin ist in dem Bild die
Broadside-Blickrichtung (senkrecht zum Array), die Endfire-Blickrichtung (entlang der Ver-
bindungsachse der Mikrophone) und eine Wellenfront f¨
ur eine beliebige Einfallsrichtung θ
relativ zur Broadside-Blickrichtung zwecks Definition der Begriffe eingetragen. Unter der
ddd
θ
Endfire
Broadside
Bild 3.2: Lineare Anordnung einer Mikrophongruppe.
Fernfeld-Annahme, dass also der Schall als planare Welle auf die Mikrophone trifft, “sieht”
jedes Mikrophon die Quelle aus der gleichen Richtung6:θi=θt, i = 1,...,M. Es ergibt
sich so f¨
ur die Verz¨
ogerung des i-ten Mikrophonsignals bez¨
uglich des Array-Mittelpunkts als
Referenz
τi(pt) = τi(θt) = M+ 1
2−idsin(θt)
c(3.33)
und folglich f¨
ur den Steering Vector aus Gl. (3.30)
d(Ω,pt) = d(Ω, θt) = (ejΩτ1(θt)/T , ejΩτ2(θt)/T ,...,ejΩτM(θt)/T )H.(3.34)
Bei der linearen Anordnung nach Bild 3.2 stellt sich nun die Frage nach einer geeigneten Wahl
f¨
ur den Mikrophonabstand d. Unter der praktisch relevanten Annahme, dass dem Sprachsi-
gnal ein diffuses St¨
orschallfeld ¨
uberlagert ist, kann aus den Betrachtungen der r¨
aumlichen
Koh¨
arenz im vorangegangenen Kapitel folgendes gesagt werden: Einerseits ist es notwendig
die Mikrophone m¨
oglichst weit auseinender zu platzieren um eine geringe Kreuzkorrelation
f¨
ur das St¨
orschallfeld zu erhalten und dieses somit in der nachfolgenden Signalverarbeitung
gut zu unterdr¨
ucken. Andererseits sollte ein kleiner Abstand der Mikrophone gew¨
ahlt wer-
den, damit das Sprachsignal ¨
uber den gesamten Frequenzbereich eine hohe Kreuzkorrelation
aufweist. Da jedoch davon ausgegangen werden kann, dass sich der Sprecher in einer geringen
Distanz zum Array, also innerhalb des Hallradius befindet, ist ebenfalls bei gr¨
oßeren Mikro-
phonabst¨
anden noch eine starke Kreuzkorrelation auch bei h¨
oheren Frequenzen zu erwarten
(siehe gemessenen Koh¨
arenzverlauf eines Sprachsignals in Bild 2.8).
Ein weiteres, entscheidendes Kriterium bez¨
uglich der Wahl des Mikrophonabstandes ist
die Mehrdeutigkeit (engl. Aliasing) bei der r¨
aumlichen Abtastung der akustischen Welle.
Um dieses r¨
aumliche Aliasing auszuschließen, darf der Abstand zwischen den Mikrophonen
h¨
ochstens der halben minimalen Wellenl¨
ange λmin, welche im Wellenfeld auftritt, betragen.
5H¨
aufig sind lineare Mikrophongruppen entlang der z-Achse im kartesischen Koordinatensystem angeord-
net. Der Zusammenhang zwischen den kartesischen Koordinaten (x, y, z) und den Kugelkoordinaten (r, θ, ϕ)
ist im Anhang in Bild B.1 zu finden.
6Die Berechnung des Einfallswinkels einer sph¨
arischen Wellenfront kann in [JD93] gefunden werden.
36 Kapitel 3. Grundlagen zu Mikrophongruppen
F¨
ur zeitdiskrete Signale korrespondiert die minimale Wellenl¨
ange zur Abtastrate des Systems,
so dass sich f¨
ur den Abstand
d≤λmin
2=Tc (3.35)
ergibt. In der Literatur ist h¨
aufig f¨
ur die mehrkanalige Sprachsignalverarbeitung eine Ab-
tastrate von 1/T =fAb = 8kHz zu finden. Da dabei jedoch nur Frequenzen von maximal
4kHz ber¨
ucksichtigt werden, klingt das verarbeitete Signal oftmals etwas dumpf, weshalb
im Verlauf dieser Arbeit h¨
ohere Abtastraten zum Einsatz kommen. F¨
ur eine Abtastrate von
beispielsweise fAb = 12kHz ergibt sich dann ein maximaler Mikrophonabstand von 2,83cm
bei einer Schallgeschwindigkeit von c= 340m/s. Um die Auswirkung des Mikrophonabstands
und der Anzahl der verwendeten Mikrophone zu untersuchen, soll die Richtcharakteristik des
Arrays analysiert werden.
Beampattern Die Richtcharakteristik (engl. Beampattern) ergibt sich aus der Auswertung
der Beamformer Response in Gl. (3.27) f¨
ur alle Raumrichtungen. Da hier allerdings nur lineare
Arrays betrachtet werden, ist das Beampattern rotationssymmetrisch und somit unabh¨
angig
von der Elevation ϕ:
B(Ω, θ) = B(Ω, θ, ϕ) = r(Ω,p).(3.36)
Das Beampattern B(Ω, θ) wird also im Folgenden verstanden als r¨
aumliche ¨
Ubertragungs-
funktion des Beamformers (Beamformer Response) auf eine planar einfallende Schallwelle
aus der Raum-Richtung θ= [−π/2; π/2] in Abh¨
angigkeit von der Frequenz.
Im Falle des Uniformly Weighted Delay-and-Sum-Beamformers ergeben sich einfach zu
analysierende Eigenschaften bez¨
uglich der Richtcharakteristik. Mit Gl. (3.34) ergibt sich der
Koeffizientenvektor
FDSB(Ω) = 1
Md(Ω, θt) (3.37)
und schließlich das Beampattern
BDSB(Ω, θ) = 1
MdH(Ω, θt)d(Ω, θ) (3.38)
=1
M
M
X
i=1
ejΩ(M+1
2−i)τe/T (3.39)
mit der effektiven Verz¨
ogerung
τe=d
c(sin(θt)−sin(θ)) (3.40)
bez¨
uglich des Array-Mittelpunkts. Mit Hilfe der Formel f¨
ur die geometrische Reihe kann Gl.
(3.38) umgeformt werden zu
BDSB(Ω, θ) = 1
M
sin MΩτe
2T
sin Ωτe
2T.(3.41)
Anhand der grafischen Darstellung der Richtcharakteristik kann das Prinzip des Beamfor-
mings verdeutlicht werden: durch Gleichung Gl. (3.41) kann das Beampattern entweder f¨
ur
feste Werte von τe¨
uber die Frequenz oder f¨
ur feste Frequenzen Ω ¨
uber den Winkel θbei ein-
gestellter Ausrichtung θtaufgetragen werden. In Bild 3.3 ist das Beampattern beispielhaft f¨
ur
3.3. Anordnung der Mikrophone 37
die Endfire-Blickrichtung θ=π/2 bei gegebener Zielrichtung θt= 0 und einer Anordnung aus
M= 5 Mikrophonen ¨
uber der auf die Geometrie normierten Frequenz f·d/c = Ωd/(2πTc)
logarithmisch dargestellt7. An Bild 3.3 ist die Periodizit¨
at des Betrages des Beampatterns be-
-30
-20
-10
0
00,5 11,5
Ωd/(2πTc)
10 log10 |B(Ω, θ =π/2)|2[dB]
Bild 3.3: Logarithmische Darstellung des DSB-Beampatterns ¨
uber der Frequenz mit M= 5 Mikrophonen bei
¨
aquidistantem Mikrophonabstand, Endfire-Blickrichtung θ=π/2 und Zielrichtung θt= 0.
z¨
uglich Ω mit der Periode82π/τezu erkennen. Gl. (3.41) ist nun weiterhin derart zu interpre-
tieren, dass bei einer Frequenz von 0 Hz von der Broadside- bis zur Endfire-Richtung, also ¨
uber
den gesamten Winkelbereich, die ¨
Ubertragungsfunktion konstant ist. Mit steigender Frequenz
nimmt die D¨
ampfung zu den Seiten zu, bis schließlich bei der Frequenz Ωd/(2πTc) = 1/M die
erste Nullstelle und somit die komplette Hauptkeule dargestellt ist. Bei gegebenem Mikropho-
nabstand kann also mit steigender Mikrophonanzahl auch bei niedrigen Frequenzen eine gute
Richtwirkung erreicht werden. Nach der ersten Nullstelle entstehen mit weiter ansteigender
Frequenz zus¨
atzlich Nebenkeulen in der Richtcharakteristik.
Betrachtet man nun das Betragsquadrat des Beampatterns in Bild 3.4, so ist der be-
schriebene Sachverhalt in Abh¨
angigkeit des Raumwinkels θzu beobachten. Dabei ist die
Richtcharakteristik logarithmisch oben f¨
ur die Broadside-Blickrichtung θt= 0◦und unten
f¨
ur die Endfire-Blickrichtung θt= 90◦, jeweils links f¨
ur Ωd/(2πTc) = 0,1 und rechts f¨
ur
Ωd/(2πTc) = 0,4 aufgetragen. Zu h¨
oheren Frequenzen hin steigt allgemein die Anzahl der
Nebenkeulen und die Breite der Hauptkeule nimmt ab. Die Hauptkeule sollte in die Richtung
des Sprechers weisen, so dass bei exakter Ausrichtung die Sprachkomponenten synchron und
unverzerrt aufsummiert werden. Andererseits bewirkt die ungleichphasige ¨
Uberlagerung eines
koh¨
arenten Schalleinfalls aus anderen Richtungen stets eine Signald¨
ampfung. Aber auch bei
inkoh¨
arenten Signalen f¨
uhrt die Mittelung aufgrund der stochastischen Phasenbeziehungen
zu einer Signald¨
ampfung. In Bild 3.4 zeigt sich bei sonst gleichen Werten f¨
ur d, Ω und Mei-
ne unterschiedlich breite Hauptkeule f¨
ur die Broadside- und Endfire-Richtung. Die Breite der
Hauptkeule ist durch die erste Nullstelle von Gl. (3.41) gegeben, also durch MΩτe/(2T) = ±π.
F¨
ur die Richtung der ersten Null des Beampatterns gilt dann
sin(θ) = sin(θt)∓2πTc
MdΩ.(3.42)
An Gl. (3.42) ist zu sehen, dass die Breite der Hauptkeule einerseits zu h¨
oheren Frequenzen
hin und andererseits durch Vergr¨
oßerung der Apertur (M−1) ·dabnimmt.
7Das Betragsquadrat des Beampatterns wird auch Powerpattern genannt.
8Die Funktion in Gl. (3.41) ist bez¨
uglich Ωτe/T f¨
ur gerade M2π-periodisch. F¨
ur ungerade Msind die
Maxima bei ±2π, ±6πnegativ und entsprechend bei ±4π, ±8πpositiv; es liegt eine 4π-Periodizit¨
at vor.
38 Kapitel 3. Grundlagen zu Mikrophongruppen
Broadside-Blickrichtung
−20
−10
0
-150
-120
-90
-60
-30 030
60
90
120
150
180
Ωd/(2πTc) = 0,1
θ[Grad]
−20
−10
0
-150
-120
-90
-60
-30 030
60
90
120
150
180
Ωd/(2πTc) = 0,4
θ[Grad]
Endfire-Blickrichtung
−20
−10
0
-150
-120
-90
-60
-30 030
60
90
120
150
180
Ωd/(2πTc) = 0,1
θ[Grad]
−20
−10
0
-150
-120
-90
-60
-30 030
60
90
120
150
180
Ωd/(2πTc) = 0,4
θ[Grad]
Bild 3.4: Beispielhaftes DSB-Beampattern ¨
uber dem Winkel θmit M= 5 Mikrophonen bei ¨
aquidistantem
Mikrophonabstand ohne r¨
aumliches Aliasing. Oben f¨
ur die Zielrichtung θt= 0◦und unten θt= 90◦;
jeweils links f¨
ur Ωd/(2πT c) = 0,1 und rechts f¨
ur Ωd/(2πT c) = 0,4.
Wie bereits erw¨
ahnt, ist das Beampattern B(Ω, θ) periodisch in Ω/T mit der Perioden-
dauer 2π/τe, d. h. sie ist abh¨
angig von der Zielrichtung θtund der Richtung θan dem das
Beampattern ausgewertet wird. F¨
ur das r¨
aumliche Aliasing bedeutet dieser Zusammenhang,
dass eine Vieldeutigkeit beim Durchlaufen der Frequenz zuerst bei einer Endfire-Ausrichtung
θt=±π/2 an der gegen¨
uberliegenden Seite des Arrays bei θ=∓π/2 vorliegt. Dann gilt
f¨
ur die effektive Verz¨
ogerung τe= 2d/c. Nebenkeulen, welche die gleiche H¨
ohe haben wie
die Hauptkeule werden Grating Lobes genannt. An den Stellen der Grating Lobes kann also
folglich keine Unterdr¨
uckung der St¨
orger¨
ausche aus den entsprechenden Einfallsrichtungen
erfolgen. In Bild 3.5 ist der Effekt des r¨
aumlichen Aliasing beispielhaft veranschaulicht. Zu
sehen ist dort die Richtcharakteristik in der oberen Reihe f¨
ur die Zielrichtung θt= 0◦und
unten f¨
ur θt= 90◦. Dabei ist jeweils links die normierte Frequenz zu Ωd/(2πT c) = 0,5 und
rechts zu Ωd/(2πT c) = 1,2 gew¨
ahlt.
Um eine weniger stark frequenzabh¨
angige Richtcharakteristik zu erhalten, kann einerseits
wie bereits erw¨
ahnt eine spektrale Gewichtung als Fixed Beamformer mit entsprechender
Optimierungsbedingung eingesetzt werden. Eine weitere M¨
oglichkeit beim Einsatz einer gr¨
o-
3.3. Anordnung der Mikrophone 39
Broadside-Blickrichtung
−20
−10
0
-150
-120
-90
-60
-30 030
60
90
120
150
180
Ωd/(2πTc) = 0,5
θ[Grad]
−20
−10
0
-150
-120
-90
-60
-30 030
60
90
120
150
180
Ωd/(2πTc) = 1,2
θ[Grad]
Endfire-Blickrichtung
−20
−10
0
-150
-120
-90
-60
-30 030
60
90
120
150
180
Ωd/(2πTc) = 0,5
θ[Grad]
−20
−10
0
-150
-120
-90
-60
-30 030
60
90
120
150
180
Ωd/(2πTc) = 1,2
θ[Grad]
Bild 3.5: Veranschaulichung des r¨
aumlichen Aliasings f¨
ur DSB mit M= 5 Mikrophonen bei ¨
aquidistan-
tem Mikrophonabstand. Oben f¨
ur die Zielrichtung θt= 0◦und unten θt= 90◦; jeweils links f¨
ur
Ωd/(2πT c) = 0,5 und rechts f¨
ur Ωd/(2πT c) = 1,2.
ßeren Anzahl an Mikrophonen ist es, diese in Teil-Arrays mit jeweils ¨
aquidistant zueinander
angeordneten Mikrophonen zu nutzen. Dabei ist es m¨
oglich einige Mikrophonsignale mehr-
fach in den unterschiedlichen Teil-Arrays auszuwerten, wodurch sich zwischen bestimmten
Mikrophonen ein logarithmischer Abstand ergibt [WKW01]. Die Teil-Arrays f¨
uhren dann
getrennt f¨
ur unterschiedliche Frequenzbereiche ein Beamforming durch, wobei das Ziel der
Mikrophonanordnung und des Filterentwurfs ist, ein m¨
oglichst konstantes Beampattern ¨
uber
den gesamten, interessierenden Frequenzbereich zu erhalten.
Es sei noch erw¨
ahnt, dass neben den linear angeordneten Mikrophonen zweidimensionale
Mikrophongruppen von großer Bedeutung sind und in verschiedenen Varianten in der Lite-
ratur diskutiert werden. Dabei ist z. B. eine M¨
oglichkeit, die Mikrophone auf der gesamten
Fl¨
ache eines Rechtecks gleichm¨
aßig zu verteilen. Weitere, h¨
aufiger zu findende Anordnungen
sind jedoch Kreuz-, Quadratkanten- oder Kreis-Mikrophongruppen [VT02]. Solche, aus vie-
len Mikrophonen bestehende Arrays, sind allerdings eher in der Schallfeldanalyse zu finden,
und weniger zur mehrkanaligen Sprachsignalverarbeitung bei Freisprecheinrichtungen, wie es
Gegenstand dieser Arbeit sein soll.
Im Weiteren werden ausschließlich lineare Mikrophongruppen eingesetzt mit variierender
40 Kapitel 3. Grundlagen zu Mikrophongruppen
Anzahl M, einem Abstand der Mikrophone zueinander von d= 4cm und einer Abtastrate
von fAb = 12kHz.
3.4 SNR-basierte Bewertungsgr¨
oßen des Beamformings
Zur objektiven Bewertung der erzielbaren Ger¨
auschreduktion von Beamforming-Verfahren
sind quantitativ messbare Gr¨
oßen w¨
unschenswert. Hier bieten SNR-basierte Methoden ein
einfaches Hilfsmittel zur Bestimmung von Kenngr¨
oßen, die ¨
uberdies eine genaue analytische
Berechnung zulassen.
Array Gain Eine der wichtigsten objektiv messbaren Bewertungsgr¨
oßen bez¨
uglich der Leis-
tungsf¨
ahigkeit von Beamformern stellt die Verbesserung des Signal-zu-Rauschabstandes vom
Eingang zum Ausgang des Beamformers dar. Dieser SNR-Gewinn (engl. SNR Gain) wird h¨
au-
fig mit dem allgemeinen Ausdruck Array Gain bezeichnet [VT02]. Der SNR-Gewinn G(Ω)
wird frequenzabh¨
angig angegeben, da es sich bei Sprache um ein breitbandiges Signal handelt:
G(Ω) = SNRArray(Ω)
SNRSensor(Ω),(3.43)
wobei mit SNRSensor(Ω) das frequenzabh¨
angige SNR an den Sensoren und mit SNRArray(Ω)
das frequenzabh¨
angige SNR am Ausgang des Beamformers bezeichnet ist. Das Signal-zu-
Rauschverh¨
altnis des i-ten Sensors ist gegeben durch
SNRSensor,i(Ω) = φSiSi(Ω)
φNiNi(Ω) (3.44)
und kann gemittelt ¨
uber alle Mikrophone angegeben werden als
SNRSensor(Ω) =
1
M
M
P
i=1
φSiSi(Ω)
1
M
M
P
i=1
φNiNi(Ω)
=Spur{ΦSS(Ω)}
Spur{ΦNN(Ω)},(3.45)
wobei Spur{A}die Spur der Matrix Abezeichnet. Am Beamformer-Ausgang ergibt sich mit
Gl. (3.21) folgender Ausdruck:
SNRArray(Ω) = FH(Ω)ΦSS(Ω)F(Ω)
FH(Ω)ΦNN(Ω)F(Ω).(3.46)
Mit Gl. (3.45) und Gl. (3.46) ergibt sich schließlich der SNR-Gewinn in Gl. (3.43) zu
G(Ω) = FH(Ω)ΦSS(Ω)F(Ω)
FH(Ω)ΦNN(Ω)F(Ω) ·Spur{ΦNN(Ω)}
Spur{ΦSS(Ω)}.(3.47)
Unter der Annahme, dass die unterschiedliche D¨
ampfung auf den Ausbreitungspfaden des
Sprachsignals sowie Reflexionen vernachl¨
aßigt werden (Freifeldausbreitung), kann das Kreuz-
leistungsdichtespektrum vereinfacht werden zu
ΦSS(Ω)˛
˛
˛
˛
˛
˛
pt=ps
H(Ω) = d(Ω,pt)
=σ2
S(Ω) ·d(Ω,ps)dH(Ω,ps),(3.48)
3.4. SNR-basierte Bewertungsgr¨
oßen des Beamformings 41
mit der Varianz des Sprachsignals σ2
S(Ω). Der SNR-Gewinn kann dann f¨
ur den Fall des un-
verzerrt gebliebenen Sprachsignals geschrieben werden als
G(Ω)˛
˛
˛
˛
˛
˛
pt=ps
H(Ω) = d(Ω,pt)
=|FH(Ω)d(Ω,ps)|2
FH(Ω)ΦNN(Ω)F(Ω) ·Spur{ΦNN(Ω)}
M.(3.49)
Somit lassen sich bei gegebenen Filterkoeffizienten F(Ω) Aussagen ¨
uber die St¨
orger¨
auschre-
duktion f¨
ur unterschiedliche St¨
orschallfelder machen.
Der SNR-Gewinn innerhalb dieser Arbeit soll vorzugsweise im Zeitbereich ermittelt wer-
den. Grundlage ist hierf¨
ur, dass in den Simulationen die einzelnen Komponenten der Ein-
gangssignale, d. h. jeweils der Sprachanteil si(n) und der Rauschanteil ni(n), separat vor-
liegen. So kann bei gegebenen Filterkoeffizienten der gefilterte Sprachanteil ys(n) und der
gefilterte Rauschanteil yn(n) jeweils getrennt berechnet werden. Unter Beachtung der Menge
der Zeitindizes Ts, welche Sprache beinhalten, soll folgende Definition gelten
SNRG := 10 ·
log10
P
n∈Ts
y2
s(n)
P
n∈Ts
y2
n(n)
−log10
M
P
i=1 P
n∈Ts
s2
i(n)
M
P
i=1 P
n∈Ts
n2
i(n)
dB.(3.50)
White Noise Gain Der so genannte White Noise Gain gibt den SNR-Gewinn f¨
ur den
Fall eines unkorrelierten Ger¨
auschfeldes an. Da ein wesentlicher Grund f¨
ur solch eine St¨
orung
Mikrophonrauschen sein kann (siehe Abbildung 3.1), ist dieser Wert also ein G¨
utemaß daf¨
ur,
wie empfindlich der Beamformer auf Sensorrauschen reagiert. F¨
ur r¨
aumlich und zeitlich weißes
Rauschen ergibt sich folgende Diagonalmatrix (diag{·}) f¨
ur das Kreuzleistungsdichtespektrum
ΦNuNu= diag{σ2
Nu,1(Ω), σ2
Nu,2(Ω),...,σ2
Nu,M(Ω)}(3.51)
und unter der gerechtfertigten Annahme gleicher Varianzen σ2
Nu,1(Ω) = σ2
Nu,2(Ω) = ... =
σ2
Nu,M (Ω) = σ2
Nu(Ω) in den MSignalpfaden f¨
ur das unkorrelierte Rauschen kann Gl. (3.51)
weiter vereinfacht werden zu
ΦNuNu=σ2
Nu(Ω) ·IM,(3.52)
wobei mit IMdie Einheitsmatrix der Dimension Mbezeichnet ist. Mit Gl. (3.52) kann der
White Noise Gain
GW(Ω) = G(Ω)Weiß (3.53)
angegeben werden zu
GW(Ω)˛
˛
˛
˛
˛
˛
pt=ps
H(Ω) = d(Ω,pt)
=|FH(Ω)d(Ω,ps)|2
FH(Ω)F(Ω) .(3.54)
und l¨
aßt sich f¨
ur den Uniformly Weighted Delay-and-Sum-Beamformer weiter vereinfachen
zu
GW
DSB(Ω)˛
˛
˛
˛
˛
˛
pt=ps
H(Ω) = d(Ω,pt)
=|FH
DSB(Ω)d(Ω,ps)|2
FH
DSB(Ω)FDSB(Ω) =M. (3.55)
42 Kapitel 3. Grundlagen zu Mikrophongruppen
F¨
ur den Uniformly Weighted Delay-and-Sum-Beamformer ergibt sich also ein SNR-Gewinn
f¨
ur r¨
aumlich und zeitlich weißes Rauschen, das gleich der Anzahl der Mikrophone ist. Weiter-
hin bleibt festzuhalten, dass der White Noise Gain f¨
ur alle anderen Filterkoeffizienten kleiner
ausf¨
allt, da bei gleichbleibender Norm von F(Ω) der Ausdruck Gl. (3.54) und somit das innere
Produkt |FH(Ω)d(Ω,ps)|maximal wird, wenn F(Ω) und d(Ω,ps)¨
ubereinstimmen.
Directivity Die Direktivit¨
at D(Ω) (engl. Directivity) gibt das Verh¨
altnis der Leistung des
aufgenommenen Schalls aus der Array-Blickrichtung im Verh¨
altnis zur Schallleistung aus allen
Raumrichtungen9(θ, ϕ) abh¨
angig von der Frequenz an:
D(Ω) = |B(Ω, θt, ϕt)|2
1
4πR2π
0Rπ
0|B(Ω, θ, ϕ)|2sin θdθdϕ.(3.56)
Die formale Darstellung der Direktivit¨
at in Gl. (3.56) kann nach Berechnung der Integrale
(vgl. Anhang B) als Funktion der Koh¨
arenzmatrix Γ(Ω) eines diffusen Schallfelds dargestellt
werden
D(Ω) = |FH(Ω)d(Ω,pt)|2
FH(Ω)Γ(Ω)F(Ω) ,(3.57)
wobei die Matrixelemente Γi,j(Ω) nach Gl. (2.20) zu besetzen sind. Die Direktivit¨
at in Gl.
(3.57) kann derart interpretiert werden, dass sie dem SNR-Gewinn Gl. (3.49) des Arrays im
Falle eines diffusen St¨
orschallfeldes
G(Ω)Diffus =GD(Ω) (3.58)
und einem empfangenen Sprachsignals ohne Hallkomponenten entspricht:
D(Ω) = GD(Ω)˛
˛
˛
˛
˛
˛
pt=ps
H(Ω) = d(Ω,pt)
.(3.59)
Das B¨
undelungsmaß (engl. Directivity Index) gibt die zur Direktivit¨
at ¨
aquivalente Dar-
stellung im logarithmischen Maß an:
DI(Ω) := 10 log10 D(Ω)dB.(3.60)
F¨
ur die einfachste Wahl der Filterkoeffizienten als DSB (FDSB(Ω)) ergeben sich f¨
ur das
B¨
undelungsmaß die in Bild 3.6 und 3.7 gezeigten Verl¨
aufe. Dabei ist das B¨
undelungsmaß je-
weils ¨
uber der Frequenz f¨
ur verschiedene Zielrichtungen θtin Bild 3.6 und f¨
ur unterschiedliche
Mikrophonanzahl/-abstands-Kombinationen in Bild 3.7 aufgetragen. Es ergibt sich dabei ein
wellenf¨
ormiger Verlauf des Directivity Index, der mit dem si-f¨
ormigen Verlauf der Koh¨
arenz
korrespondiert, d. h. der DI(Ω) schwingt um 10 log(M) herum. Der DI(Ω) steigt mit gr¨
oßer
werdendem Mikrophonabstand steiler an; es wird also ein h¨
oherer SNR-Gewinn bei niedrigen
Frequenzen erzielt. Weiterhin nimmt der DI(Ω) mit zunehmender Mikrophonanzahl zu.
9An dieser Stelle wird das in Gl. (3.36) eingef¨
uhrte Beampattern in Abh¨
angigkeit vom Elevationswinkel ϕ
und vom Azimuthwinkel θf¨
ur planar einfallende Schallwellen geschrieben.
3.4. SNR-basierte Bewertungsgr¨
oßen des Beamformings 43
001
2
23
4
45
6
67
8
8
10
12
DI(Ω)[dB]
Ω/(2πT)[kHz]
M= 5, d = 4 cm
θt= 0◦
θt= 30◦
θt= 60◦
θt= 90◦
Bild 3.6: Unterschiedliche Verl¨
aufe f¨
ur das B¨
undelungsmaß abh¨
angig von der Zielrichtung θtaufgetragen ¨
uber
der Frequenz f¨
ur M= 5 Mikrophone mit ¨
aquidistantem Abstand von d= 4 cm.
001
2
23
4
45
6
67
8
8
10
12
DI(Ω)[dB]
Ω/(2πT)[kHz]
M= 8, d = 6cm
M= 8, d = 4cm
M= 4, d = 4cm
M= 4, d = 6cm
θt= 0◦
Bild 3.7: Unterschiedliche Verl¨
aufe f¨
ur das B¨
undelungsmaß bei einer Zielrichtung θt= 0◦aufgetragen ¨
uber der
Frequenz f¨
ur unterschiedliche Kombinationen zwischen der Mikrophonanzahl M∈ {4,8}und dem
Mikrophonabstand d∈ {4 cm,6 cm}.
Averaged SNR Ein wichtiges Hilfsmittel zur Sch¨
atzung des Signal-zu-Rauschabstandes
ist das gemittelte SNR (engl. averaged SNR) im Falle station¨
arer St¨
orger¨
ausche [GBW01].
Dabei liegt das Sprachsignal nicht separat in reiner Form vor, sondern muss mit Hilfe des
Mischsignals bestehend aus Sprach-plus-Rauschanteil gesch¨
atzt werden [WHU06b]. Dazu ist
es notwendig, mit Hilfe einer Sprache/Pause-Detektion (engl. Speech Activity Detection, VAD)
Signalsegmente mit bzw. ohne Sprachanteil entsprechend zu klassifizieren. So ergibt sich z. B.
44 Kapitel 3. Grundlagen zu Mikrophongruppen
f¨
ur das gemittelte SNR am Beamformer-Ausgang folgende Beziehung
SNRavg =
1
LsP
n∈Ts
y2(n)−1
LnP
n∈Tn
y2(n)
1
LnP
n∈Tn
y2(n)
.(3.61)
Mit Lsist die Anzahl der Abtastwerte bezeichnet, die zus¨
atzlich zum Rauschen auch das
Sprachsignal enthalten, und mit Lndie Anzahl der Abtastwerte, in denen lediglich Rauschen
beobachtet wird. Weiter bezeichnet Tsdie Menge der Zeitindizes, welche Sprache, und Tndie
Menge der Zeitindizes, welche keine Sprache beinhalten.
3.5 Wahrnehmungsbasierte Qualit¨
atsbewertung des Sprach-
signals
Eine aussagekr¨
aftige subjektive Beurteilung der Sprachqualit¨
at verarbeiteter Signale l¨
aßt sich
durch Auswertung von H¨
ortests einer Gruppe von Versuchspersonen angeben. Die Internatio-
nale Fernmeldeunion (International Telecommunication Union, ITU) hat daf¨
ur Bewertungs-
methoden spezifiziert, welche unter dem Begriff“Mean Opinion Score”10 (MOS) zusammenge-
fasst sind. Da solche H¨
ortests mit hohem Aufwand verbunden sind, werden h¨
aufig objektive
Beurteilungsverfahren herangezogen, um auf der Basis von Algorithmen eine quantitative
Aussage ¨
uber die Qualit¨
at der verarbeiteten Signale angeben zu k¨
onnen. H¨
aufig verwendete
Methoden lassen sich dabei prinzipiell in zwei Klassen unterteilen. Zum einen sind dies Maße
basierend auf dem Vergleich von Sprachmodellparametern, die mit Hilfe der Methode der li-
nearen Pr¨
adiktion gewonnen werden, wie z. B. Itakura-Saito-Distortion,Log-Likelihood-Ratio
oder Log-Area-Ratio, siehe [IS70, GM76, QBC88]. Und zum anderen Verfahren, welche Mo-
delle der auditorischen Signalverarbeitung nutzen, wie z. B. Perceptual Evaluation of Speech
Quality (PESQ) [ITU01] und das Perzeptive Modell zur Qualit¨
atsbeurteilung (PEMO-Q)
[Hub03]. Im Vergleich zu den erstgenannten objektiven Bewertungsverfahren hat sich die
PEMO-Q-Methode als sehr gute Alternative erwiesen [RHK05, Hub06]. Daher wird in dieser
Arbeit das PEMO-Q-Verfahren verwendet, um wahrnehmungsbasierte Unterschiede zwischen
Audiosignalen anzugeben.
Bei der instrumentellen Methode PEMO-Q besteht die Grundidee darin, basierend auf
dem Geh¨
ormodell der “effektiven” auditorischen Signalverarbeitung nach [DPK96], die zu
vergleichenden akustischen Signale in interne Repr¨
asentationen auf perzeptueller Ebene zu
¨
uberf¨
uhren. Die Korrelation der internen Repr¨
asentationen beider Signale ist dann ein Maß f¨
ur
die wahrgenommene ¨
Ahnlichkeit dieser Signale: Perceptual Similarity Measure (PSM). Jeder
wahrnehmbare Unterschied wird als Qualit¨
atsverschlechterung des Testsignals gegen¨
uber dem
Referenzsignal interpretiert.
Das PEMO-Q-Verfahren zum Vergleich eines Test- und Referenzsignales l¨
aßt sich prinzi-
piell in 4 Verarbeitungsstufen einteilen (siehe Bild 3.8):
1.) Vorverarbeitung:
Vor der Transformation der Signale in interne Repr¨
asentationen kann eine zeitliche
10Der MOS bezeichnet Verfahren zur subjektiven Beurteilung der Qualit¨
at von Sprach- und Bild¨
ubertra-
gungen, welche in der ITU-Empfehlung P.800 spezifiziert sind und in der Empfehlung P.830 werden die Be-
wertungsmethoden aktuell verfeinert.
3.5. Wahrnehmungsbasierte Qualit¨
atsbewertung des Sprachsignals 45
Verschiebung sowie eine Pegeldifferenz zwischen den Signalen ermittelt und ausgegli-
chen werden. Weiterhin k¨
onnen Pause-Segmente herausgeschnitten und somit aus der
Messung herausgehalten werden.
2.) Transformation in neuronale Aktivit¨
atsmuster:
Psychoakustisch motiviert erfolgt zun¨
achst eine Aufteilung in 33 B¨
ander mittels einer
Gammaton-Filterbank entsprechend der Basilarmembran-Bandpasscharakteristik mit
Mittenfrequenzen zwischen 235Hz und 14,5kHz. Danach werden die Frequenzb¨
ander
unabh¨
angig voneinander weiterverarbeitet; zuerst durch eine Halbwellen-Gleichrichtung
und eine 1kHz Tiefpassfilterung, welche die Transformation der mechanischen Oszilla-
tion der Schallwellen in neuronales Feuern der inneren H¨
orzellen simuliert. Anschlie-
ßend werden psychoakustische Effekte bez¨
uglich zeitlicher Maskierung und Adaption
durch f¨
unf aufeinander folgende mittels Division r¨
uckgekoppelte Tiefpassfilter model-
liert. Dadurch werden sich schnell ¨
andernde Signale st¨
arker hervorgehoben im Vergleich
zu station¨
aren Signalanteilen.
3.) Nachverarbeitung:
Die Einh¨
ullende wird mittels einer 8-kanaligen linearen Modulationsfilterbank ermittelt,
so dass schließlich die 33 ·8 = 264 Ausg¨
ange die so genannte interne Repr¨
asentation
des akustischen Signals bilden. Im Falle betragsm¨
aßig kleinerer Repr¨
asentanten f¨
ur das
Testsignal im Vergleich zum Referenzsignal wird der interne Repr¨
asentant des Testsi-
gnals durch Mittelung beider ersetzt. Dieser Verarbeitungsschritt ist motiviert durch die
Annahme, dass fehlende Komponenten im Signal weniger st¨
orend wirken als zus¨
atzlich
eingef¨
ugte Ger¨
auschartefakte.
4.) Korrelation:
Die ¨
uber die Zeit und Frequenz gemittelten Kreuzkorrelationen zwischen jedem Repr¨
a-
sentanten des Test- und Referenzsignals werden auf das Intervall [-1,1] normiert und
ergeben schließlich den PSM-Wert.
Weiterhin ist es mit PEMO-Q m¨
oglich, die interne Repr¨
asentation auf eine 5-stufige wahr-
nehmungsbasierte Skala zu transformieren und die Differenz als Objective Difference Grade
(ODG) anzugeben11. Dabei ist die Beeintr¨
achtigung der Audioqualit¨
at entsprechend der ITU-
Empfehlung12 eingeteilt.
Bevor das Pemo-Q-Verfahren in sp¨
ateren Kapiteln zur Sprachqualit¨
atsbeurteilung be-
nutzt wird, soll im Folgenden beispielhaft einerseits die Auswirkung einer fehlerhaften Lauf-
zeitkompensation auf das Sprachsignal am Ausgang eines DSBs (unter der Annahme einer
Schallausbreitung im Freifeld) und andererseits der Einfluss von Nachhall auf ein unverzerrtes
Sprachsignal untersucht werden.
Sprachverzerrung durch fehlerhafte Laufzeitkompensation
In einem DSB k¨
onnen zwei unterschiedliche Fehlerquellen dazu f¨
uhren, dass die Sprachkom-
ponenten in den Mikrophonpfaden nicht exakt koh¨
arent aufaddiert werden. Einerseits ergibt
sich offensichtlich eine fehlerhafte Laufzeitkompensation durch einen Lokalisationsfehler des
11Das PEMO-Q-Softwarepaket liefert noch die weiteren Qualit¨
atsmaße Qc nach [HK00], den instantanen
PSM-Wert PSM(t) und einen lautheitsgewichteten Verlauf der instantanen PSM-Werte.
12Subjektives Qualit¨
atsmaß nach den ITU-Empfehlungen BS.562-3: Subjective Assessment of Sound Quality.
46 Kapitel 3. Grundlagen zu Mikrophongruppen
Audiosignal
Basilarmembranfilterung
Halbwellengleichrichtung
Tiefpassfilterung
Adaption
T1
T5
Modulationsfilterung
Interne Repr¨
asentanten
Bild 3.8: Blockschaltbild des auditorischen Modells zur Qualit¨
atsbeurteilung.
Sprechers. Andererseits resultiert aber auch bei korrekt ermittelter Sprecherrichtung ein unge-
nau eingestellter Mikrophonabstand in falsch berechneten Kompensationszeiten. Betrachtet
man zur Anschauung die in den Bildern 3.3 und 3.4 dargestellten Richtcharakteristiken unter
dem Gesichtspunkt eines eventuell aufgetretenen Lokalisationsfehlers, so wird klar, das lineare
Verzerrungen des Sprachsignals durch eine frequenzabh¨
angige D¨
ampfung des Quellsignals auf-
treten. Diese D¨
ampfung w¨
achst grunds¨
atzlich mit steigender Frequenz aufgrund der schmaler
werdenden Hauptkeule an. Analytisch kann die Sprachsignald¨
amfung durch Auswertung des
Beampatterns in Gl. (3.41) f¨
ur die tats¨
achliche Sprecherrichtung θ=θserfolgen, wobei die
Sprecherrichtung mit der Ausrichtung des Arrays ¨
uber die Abweichung ∆θzusammenh¨
angen
soll:
θt=θs+ ∆θ. (3.62)
3.5. Wahrnehmungsbasierte Qualit¨
atsbewertung des Sprachsignals 47
Dazu soll die effektive Verz¨
ogerung in Gl. (3.40) ausgeschrieben werden zu
τe=1
c(dsin(θt)−dsin(θ)) (3.63)
=1
c(dsin(θs+ ∆θ)−dsin(θs)) (3.64)
!
=1
c((d+ ∆d(θs,∆θ)) sin(θs)−dsin(θs)) , θs6= 0.(3.65)
Durch das Gleichsetzen von Gl. (3.64) mit Gl. (3.65) soll angedeutet sein, dass eine fehler-
hafte Lokalisation zu der gleichen effektiven Verz¨
ogerung f¨
uhrt wie eine fehlerhafte Anord-
nung der Mikrophone. Die Mikrophone befinden sich also in dem tats¨
achlichen Abstand von
d+ ∆d(θs,∆θ) anstatt des angenommenen Abstandes dzueinander. Ein zu einem Lokali-
sationsfehler ¨
aquivalentes ∆d(θs,∆θ) kann allerdings nur f¨
ur eine Sprecherrichtung θs6= 0
angegeben werden, da f¨
ur eine Broadside-Ausrichtung keine Signalverz¨
ogerung notwendig ist
und f¨
ur beliebige Mikrophonabst¨
ande13 die Summation der Mikrophonsignale das korrekte
Ergebnis liefert. In Bild 3.9 ist die Sprachsignald¨
ampfung durch Auswertung von Gl. (3.41)
mit den Annahmen Gl. (3.62) bis Gl. (3.65) dargestellt:
BDSB(Ω, θs;θt=θs+ ∆θ) = BLE
DSB(Ω,∆θ).(3.66)
Mit dem Index “LE” soll hierbei die Auswertung des Beampatterns bez¨
uglich eines Lokalisa-
tionsfehlers (engl. Localization Error, LE) angedeutet sein. In Bild 3.9 (a) ist die Sprachsi-
gnald¨
ampfung f¨
ur eine Zielausrichtung θt= 0◦und in Bild 3.9 (b) f¨
ur θt= 60◦dargestellt. In
Bild 3.10 ist der ¨
aquivalente fehlerhafte Abstand ∆d(θs,∆θ)¨
uber dem korrespondierenden
Lokalisationsfehler ∆θf¨
ur unterschiedliche Sprecherrichtungen aufgetragen. Die in Bild 3.9
00
2
2
4
4
6
6
8
10
(a)
θt= 0◦
BLE
DSB(Ω,∆θ) [dB]
Ω/(2πT) [kHz]
∆θ= 12◦
∆θ= 8◦
∆θ= 4◦
∆θ= 2◦
00
2
2
4
4
6
6
8
10
(b)
θt= 60◦
BLE
DSB(Ω,∆θ) [dB]
Ω/(2πT) [kHz]
∆θ= 12◦
∆θ= 8◦
∆θ= 4◦
∆θ= 2◦
Bild 3.9: Unterschiedliche Verl¨
aufe der Sprachsignald¨
ampfung in Abh¨
angigkeit von der Frequenz f¨
ur einen
DSB. In (a) f¨
ur eine Zielausrichtung θt= 0◦und in (b) f¨
ur θt= 60◦jeweils f¨
ur M= 5 Mikrophone
mit ¨
aquidistantem Abstand von d= 4 cm.
gezeigten Verl¨
aufe der Sprachsignald¨
ampfung zeigen deutlich ein frequenzselektives Verhalten.
Dies ist offensichtlich, da, wie in Bild 3.4 bereits gezeigt wurde, die Breite der Hauptkeule
zu h¨
oheren Frequenzen hin immer schmaler wird und sich so ein Lokalisationsfehler dort
besonders stark auswirkt. Weiterhin ist der Effekt der Sprachsignald¨
ampfung bei gleichem
13Die Aussage, dass falsch angenommene Mikrophonabst¨
ande bei einem von Broadside-Richtung einfallen-
den Sprachsignal keinerlei Auswirkung auf das resultierende Sprachsignal hat, gilt nat¨
urlich nur, solange die
Fernfeld-Annahme G¨
ultigkeit hat.
48 Kapitel 3. Grundlagen zu Mikrophongruppen
Lokalisationsfehler f¨
ur verschiedene Zielrichtungen θtunterschiedlich stark ausgepr¨
agt. Auch
dieses Verhalten kann durch einen Vergleich mit Bild 3.4 erkl¨
art werden: Die Breite der Haupt-
keule nimmt bei gleicher Frequenz f¨
ur Zielrichtungen von einer Broadside-Ausrichtung hin zur
Endfire-Ausrichtung weiter zu, wodurch sich Lokalisationsfehler in einer geringer werdenden
D¨
ampfung des Sprachsignals bemerkbar machen.
00
2
2
4
4
6
6810 12
∆d(θs,∆θ) [cm]
∆θ[◦]
θs= 10◦
θs= 30◦
θs= 60◦
θs= 80◦
Bild 3.10: ¨
Aquivalenter Fehlerabstand ∆d(θs,∆θ) in Abh¨
angigkeit vom Lokalisationsfehler ∆θf¨
ur unterschied-
liche Sprecherrichtungen; jeweils f¨
ur M= 5 Mikrophone mit ¨
aquidistantem Abstand von d= 4 cm.
F¨
ur den ¨
aquivalenten Fehlerabstand ∆d(θs,∆θ) kann bez¨
uglich der Ausrichtung gefolgert
werden, dass der negative Effekt einer Sprachsignald¨
ampfung sich um so st¨
arker auswirkt,
je weiter die Sprecherrichtung von Broadside hin zu Endfire ¨
ubergeht (bei gleichbleibendem
∆d(θs,∆θ)).
Ebenfalls destruktiv auf das Sprachsignal am Beamformer-Ausgang wirkt sich eine unter-
schiedliche D¨
ampfung des Sprachsignals durch unterschiedliche Ausbreitungspfade zu den ein-
zelnen Mikrophonen (falls diese nicht entsprechend kompensiert wird) auf das DSB-Ausgangs-
signal aus. Ein ¨
ahnlicher Effekt stellt sich ein, wenn ein signifikanter Unterschied zwischen
den Mikrophoncharakteristiken vorliegt und dadurch ein systematischer Fehler in der Pegel-
gewichtung entsteht [DM99]. Dieser Effekt f¨
allt jedoch weitaus geringer als ein Lokalisations-
fehler aus und wird daher hier nicht weiter untersucht.
Nach den bisherigen Betrachtungen zur frequenzselektiven Signald¨
ampfung scheint die
Auswirkung eines Lokalisationsfehlers auf das Sprachsignal erheblich zu sein. Da jedoch die
spektrale Leistungsdichte von Sprachanteilen im oberen Frequenzbereich gering im Vergleich
zu den stimmhaften Anteilen im unteren Frequenzbereich ist, f¨
allt eine fehlerhafte Ausrich-
tung bei einer subjektiven Bewertung der Qualit¨
at des Sprachsignals deutlich geringer ins
Gewicht, als dies durch die Verl¨
aufe in Bild 3.9 vermutet wird. Diese Wahrnehmung spiegelt
sich ebenfalls in der Qualit¨
atsbeurteilung nach dem PEMO-Q-Verfahren wieder. In Bild 3.11
(a) ist beispielhaft der Verlauf der PSM-Werte in Abh¨
angigkeit von dem Lokalisationsfehler
∆θdargestellt. Dabei wurden f¨
ur 10 Sprachbeispiele (5 m¨
annliche und 5 weibliche Sprecher,
abgetastet mit einer Frequenz von 12kHz) M= 5-kanalige Signale unter der Annahme einer
Schallausbreitung im Freifeld jeweils f¨
ur unterschiedliche Einfallsrichtungen auf die Sensor-
gruppe simuliert. Diese wurden mittels DSB mit Broadside-Ausrichtung verarbeitet und die
einkanaligen Ausgangsdaten im Vergleich zu den Referenzsignalen bei ∆θ= 0 ◦bez¨
uglich der
perzeptiven Sprachqualit¨
at verglichen. Das Bild 3.11 (a) zeigt die PSM-Ergebnisse jeweils
gemittelt ¨
uber die 10 verwendeten Sprachbeispiele. In dem Bild 3.11 (b) ist die spektrale
Leistungsdichte des Ausgangssignals f¨
ur unterschiedliche Lokalisationsfehler ¨
uber der Fre-
3.5. Wahrnehmungsbasierte Qualit¨
atsbewertung des Sprachsignals 49
quenz aufgetragen; ebenfalls gemittelt ¨
uber alle Sprachbeispiele. Der Vergleich von Bild 3.11
mit Bild 3.9 zeigt zwar, dass die relative, frequenzselektive Sprachsignald¨
ampfung dem theo-
retischen Verlauf entspricht, aber der messbare Qualit¨
atsverlust der Sprache aufgrund der
niedrigen Leistung in den h¨
oheren Frequenzen sehr gering ist.
0
0,998
0,996
0,994
1
510
∆θ[◦]
PSM
(a)
-50
-40
-30
-20
-10
0
0246
φY Y (Ω) [dB]
Ω/(2πT) [kHz]
(b)
∆θ= 12◦
∆θ= 8◦
∆θ= 4◦
∆θ= 0◦
Bild 3.11: In (a) wahrnehmungsbasierte Qualit¨
atsbeurteilung und in (b) spektrale Leistungsdichte, jeweils
f¨
ur die Ausgangssignale eines DSBs f¨
ur unterschiedliche Lokalisationsfehler ∆θmit Broadside-
Ausrichtung von M= 5 Mikrophonen bei ¨
aquidistantem Abstand d= 4 cm.
Einfluss von Hall auf PEMO-Q
Abschließend soll nun noch einerseits der negative Einfluss von Hall und andererseits die
positive, enthallende Wirkung der koh¨
arenten ¨
Uberlagerung mehrkanaliger Sprachsignale14
bez¨
uglich der wahrnehmungsbasierten Qualit¨
atsbewertung mittels des PEMO-Q-Verfahrens
gezeigt werden. In Bild 3.12 ist beispielhaft der Verlauf der PSM-Werte in Abh¨
angigkeit von
der Nachhallzeit T60 dargestellt. Verglichen werden hierbei die unverhallten 10 Sprachbeispiele
mit den jeweils verhallten Versionen dieser Referenzsignale. Dabei wurde mit der Spiegelquel-
lenmethode in einem Raum der Gr¨
oße (6m)x(5m)x(3m) f¨
ur unterschiedliche Nachhallzeiten
zwischen 0s und 0,8s jeweils die Schallausbreitung zwischen einer Sprachsignalquelle und f¨
unf
Sensoren mit dem Abstand von 0,8m zum Array-Mittelpunkt simuliert. Das Bild 3.12 zeigt
die PSM-Ergebnisse jeweils gemittelt ¨
uber die 10 verwendeten Sprachbeispiele f¨
ur das mittlere
der f¨
unf Sensoren (DSB-Eingangssignale) gekennzeichnet durch ”Mik” und den DSB-Ausgang
”DSB”. Die Sprecherrichtung ist dabei gleich der Beamformer-Ausrichtung θs=θt= 0◦.
Anhand der starken Auswirkung von Hall auf die gemessenen PSM-Werte (vgl. Bild 3.11
mit 3.12) erscheint es sinnvoll, in sp¨
ateren Vergleichen zur Sprachverzerrung jeweils Referenz-
signale heranzuziehen, welche sehr ¨
ahnliche Halleigenschaften wie die zu testenden Signale
aufweisen. Daf¨
ur werden dann jeweils mittels eines Referenzsystems optimal gefilterte ver-
hallte Sprachsignale als Referenzsignale f¨
ur die zu vergleichenden Beamforming-Verfahren
genutzt.
14Bei koh¨
arenter ¨
Uberlagerung mehrkanaliger verhallter akustischer Signale steigt der Energieanteil der
Schallausbreitung ¨
uber die direkte Komponente der resultierenden Raumimpulsantwort und somit das Klar-
heitsmaß des Sprachsignals, vgl. Abschnitt 2.2.
50 Kapitel 3. Grundlagen zu Mikrophongruppen
00,2 0,4 0,6 0,8
0,9
0,92
0,94
0,96
0,98
1
PSM
DSB
Mik
T60 [s]
Bild 3.12: Degradation der perzeptuellen Qualit¨
atsbeurteilung von verhallten Sprachsignalen “Mik” mit den
jeweils unverhallten Versionen als Referenz im Vergleich zur enthallenden Wirkung eines DSBs
“DSB”.
3.6 Zusammenfassung
In diesem Kapitel wurden die grundlegenden Eigenschaften von Mikrophongruppen und de-
ren Bewertungskriterien aufgezeigt. Hierbei kamen ausschließlich Betrachtungen von line-
ar angeordneten Arrays zum Einsatz, wie sie auch im weiteren Verlauf dieser Arbeit als
Ausgangspunkt f¨
ur das anschließende Beamforming dienen sollen. Mit dem eingef¨
uhrten
Beamformer-Signalmodell wurde anhand eines laufzeitkompensierenden so genannten Delay-
and-Sum-Beamformers die Auswirkung r¨
aumlichen Aliasings in Abh¨
angigkeit von dem ge-
w¨
ahlten Mikrophonabstand untersucht. Dabei ergibt sich einerseits ein bestimmter maximaler
Mikrophonabstand, um r¨
aumliches Aliasing zu vermeiden. Andererseits ist ein deutlich gr¨
o-
ßerer Abstand w¨
unschenswert, um tiefe Frequenzen des St¨
orschallfeldes st¨
arker unterdr¨
ucken
zu k¨
onnen. Folglich soll als Kompromiss zwischen den beiden gegens¨
atzlichen Kriterien im
¨
uberwiegenden Teil der Arbeit ein Mikrophonabstand von d= 4cm bei einer Abtastrate von
fAb = 12kHz zum Einsatz kommen.
Zur Analyse des r¨
aumlichen Aliasings wurde die Richtcharakteristik der Raum-Zeit-Filter-
ung mittels Beamforming-Verfahren eingef¨
uhrt, welche eine r¨
aumliche ¨
Ubertragungsfunktion
f¨
ur Schallwellen aus den entsprechend zu analysierenden Raumrichtungen darstellt. Die Richt-
charakteristik (bzw. Beampattern) ist ein wichtiges Werkzeug zur Veranschaulichung und zur
Leistungsbeurteilung von Beamformern bez¨
uglich ihrer r¨
aumlichen Selektivit¨
at.
Als weitere Bewertungsgr¨
oßen der erzielbaren Ger¨
auschreduktion mittels Beamforming
wurden einerseits wahrnehmungsbasierte Qualit¨
atsmerkmale und andererseits SNR-basierte
Bewertungskriterien beschrieben. Hierbei kann die SNR-Verbesserung vom Ein- zum Ausgang
des Arrays (auch Array Gain oder SNR Gain) unterschieden werden f¨
ur den Fall von weißem,
r¨
aumlich unkorrelierten Rauschen (White Noise Gain) und diffusem Rauschen (Directivity)
als St¨
orschallfeld.
F¨
ur die wahrnehmungsbasierte Qualit¨
atsbewertung mittels des PEMO-Q-Verfahrens ¨
uber
den PSM-Wert wurden in diesem Kapitel erste Ergebnisse f¨
ur den Delay-and-Sum-Beamformer
zum einen f¨
ur die Annahme von Lokalisationsfehlern durchgef¨
uhrt, und zum anderen Analy-
sen zur Absch¨
atzung der Hall-Auswirkung mit und ohne Beamformer vorgenommen. Dabei
zeigte sich, dass die Auswirkung von Lokalisationsfehlern sowohl bei subjektiven H¨
ortests als
3.6. Zusammenfassung 51
auch bei Verwendung des ¨
Ahnlichkeitsmaß geringer ausfallen als vermutet. Verhallte Signale
zeigten hingegen eine hohe Abweichung in der PSM-Bewertung bez¨
uglich einer unverhallten
Referenz. Die Verarbeitung eines verhallten mehrkanaligen Sprachsignals mittels DSB zeigte
hier wie erwartet eine messbare Verbesserung (Enthallung) des Signals.
52 Kapitel 3. Grundlagen zu Mikrophongruppen
Kapitel 4
Statistisch optimales Beamforming
Im Gegensatz zu dem bisher betrachteten Delay-and-Sum-Beamformer werden im folgenden
Kapitel die Grundlagen f¨
ur das so genannte statistisch optimale Beamforming hergeleitet.
Dabei erfolgt die Wahl der Beamformer-Gewichtungsvektoren basierend auf den statistischen
Eigenschaften des Sprachsignals und des St¨
orschallfelds. Zun¨
achst soll hier davon ausgegan-
gen werden, dass die Eingangssignale zumindest schwach station¨
ar sind und deren Statistik
zweiter Ordnung bekannt ist. Auf den praktisch relevanten Fall unbekannter Signalstatistik
bzw. sich zeitlich ¨
andernder Signaleigenschaften wird in diesem Kapitel nur peripher einge-
gangen. Diese Problematik ist vielmehr Gegenstand der weiteren Kapitel, in denen es um die
adaptive Berechnung der Filtergewichte geht.
Zun¨
achst sollen die Filterkoeffizienten derart bestimmt werden, so dass das frequenzab-
h¨
angige Schmalband-SNR maximiert wird. Dieses so genannte Max-SNR-Kriterium f¨
uhrt zu
einem verallgemeinerten Eigenwertproblem, wobei die optimalen Filterkoeffizienten gerade
durch den Eigenvektor korrespondierend zum gr¨
oßten Eigenwert des vorliegenden Eigenwert-
problems gegeben sind. Es soll gezeigt werden, dass eine Skalierung der resultierenden Filter-
koeffizienten durch eine einkanalige Nachfilterung (engl. Post Filter) identisch zu L¨
osungen
ist, welche ¨
uber andere Optimierungskriterien hergeleitet werden k¨
onnen. Diese Kriterien
sind insbesondere Minimierung der Varianz (engl. Minimum Variance, MV), Maximierung
der Plausibilit¨
at (engl. Maximum Likelihood, ML) und Minimierung des kleinsten mittleren
quadratischen Fehlers (engl. Minimum Mean Squared Error, MMSE).
4.1 Max-SNR
Es sollen nun die optimalen Filterkoeffizienten derart hergeleitet werden, so dass das fre-
quenzabh¨
angige SNR am Ausgang des Arrays
SNRArray(Ω) = FH(Ω)ΦSS(Ω)F(Ω)
FH(Ω)ΦNN(Ω)F(Ω) (4.1)
maximiert wird. Offensichtlich stellt der Quotient in Gl. (4.1) den so genannten Rayleigh
Quotienten bez¨
uglich der Matrizen ΦSS(Ω) und ΦNN(Ω) dar [Hay02]. Bei den betrachteten
Matrizen der Kreuzleistungsdichtespektren (KLDS) handelt es sich in der Regel um positiv
definite Matrizen1. Daher kann gefolgert werden, dass die Eigenwerte des verallgemeinerten
1Im praktischen Fall der messtechnischen, iterativen Bestimmung der KLDS-Matrizen handelt es sich auf-
grund unkorrelierter Rauschterme in den Signalpfaden um positiv definite Matrizen. Dennoch kann hier zur
54 Kapitel 4. Statistisch optimales Beamforming
Eigenwertproblems (engl. Generalized Eigenvalue Problem, GEVP) positiv und reellwertig
sind, und dass sich das SNR Gl. (4.1) in dem Bereich
0<SNRArray(Ω) ≤λ(max)
S(Ω).(4.2)
bewegt. In Gl. (4.2) ist mit λ(max)
S(Ω) der gr¨
oßte frequenzabh¨
angige Eigenwert bezeichnet, der
zum verallgemeinerten Eigenwertproblem geh¨
ort. Dieser Wert wird genau dann erreicht, wenn
der Koeffizientenvektor F(Ω) gerade so gew¨
ahlt wird, dass er einem Eigenvektor F(max)(Ω)
korrespondierend zum gr¨
oßten Eigenwert λ(max)
S(Ω) entspricht; dann wird das SNR maximiert
zu
SNR(max)
Array (Ω) = F(max)H(Ω)ΦSS(Ω)F(max)(Ω)
F(max)H(Ω)ΦNN(Ω)F(max)(Ω) =λ(max)
S(Ω).(4.3)
Unter Verwendung der verallgemeinerten Eigenwertgleichung
ΦSS(Ω)F(max)(Ω) = λ(max)
S(Ω)ΦNN(Ω)F(max)(Ω) (4.4)
=F(max)H(Ω)ΦSS(Ω)F(max)(Ω)
F(max)H(Ω)ΦNN(Ω)F(max)(Ω)ΦNN(Ω)F(max)(Ω) (4.5)
und der Annahme r¨
aumlich und zeitlich station¨
arer Sprachsignale
ΦSS(Ω) = φScSc(Ω)H(Ω)HH(Ω) (4.6)
l¨
asst sich der optimale Koeffizientenvektor F(max)(Ω) analytisch berechnen:
H(Ω) = F(max)H(Ω)H(Ω)
F(max)H(Ω)ΦNN(Ω)F(max)(Ω)ΦNN(Ω)F(max)(Ω).(4.7)
F¨
ur Gl. (4.7) ist ausgenutzt worden, dass der Skalar φScSc(Ω)HH(Ω)F(max)(Ω) auf beiden
Seiten der Gleichung Gl. (4.5) nach Einsetzen von Gl. (4.6) vorhanden ist und daher gek¨
urzt
werden kann. Es folgt weiter
F(max)(Ω) = F(max)H(Ω)ΦNN(Ω)F(max)(Ω)
F(max)H(Ω)H(Ω) Φ−1
NN(Ω)H(Ω) (4.8)
=F(max)H(Ω)ΦNN(Ω)F(max)(Ω)
F(max)H(Ω)H(Ω) FSNR(Ω),(4.9)
wobei folgende Definition gelten soll
FSNR(Ω) := Φ−1
NN(Ω)H(Ω).(4.10)
Betrachtet man Gl. (4.9) und Gl. (4.3), so ist festzustellen, dass der skalare Faktor vor dem
Vektor FSNR(Ω) in Gl. (4.9) bez¨
uglich des SNRs keine Rolle spielt, da dieser nach dem
Einsetzen von Gl. (4.9) in Gl. (4.3) herausgek¨
urzt werden kann. Daher soll hier ein allgemeiner
L¨
osungsvektor ˜
FSNR(Ω) eingef¨
uhrt werden, welcher das SNR in Gl. (4.3) maximiert2und
einen beliebigen komplexen Skalar ζ(Ω) zul¨
asst:
˜
FSNR(Ω) = ζ(Ω)FSNR(Ω) ζ(Ω) ∈C.(4.11)
Sicherstellung dieser Eigenschaft ein so genannter Regularisierungsterm eingef¨
ugt werden, siehe Kapitel 5.
2Aufgrund der Beziehung Gl. (4.11) l¨
asst sich nicht von dem Eigenvektor, sondern vielmehr von einem
Eigenvektor sprechen, der das Ausgangs-SNR maximiert.
4.1. Max-SNR 55
Da im Falle der mehrkanaligen Sprachsignalverarbeitung in der Regel nicht die Sprach-
komponente separat beobachtet werden kann, ist es auch nicht m¨
oglich die KLDS-Matrix
ΦSS(Ω) zu bestimmen. Daher kann zur Berechnung des gesuchten Eigenvektors nicht Gl.
(4.4) herangezogen werden. Es kann jedoch die St¨
orkomponente in Sprachpause-Sequenzen
getrennt aufgenommen und somit die KLDS-Matrix ΦNN(Ω) gesch¨
atzt werden. Zus¨
atzlich
kann zu Zeiten von Sprachaktivit¨
at Sprache-plus-St¨
orung an den Mikrophonen beobachtet
und folglich auch die KLDS-Matrix ΦXX(Ω) gesch¨
atzt werden. Daher kann mit
ΦXX(Ω) = ΦSS(Ω) + ΦNN(Ω) (4.12)
Gl. (4.1) umgeschrieben werden zu
SNRArray(Ω) = FH(Ω)ΦXX(Ω)F(Ω)
FH(Ω)ΦNN(Ω)F(Ω) −1.(4.13)
F¨
ur das Eigenwertproblem in Gl. (4.13) bez¨
uglich der Matrizen ΦXX(Ω) und ΦNN(Ω) maxi-
miert ebenfalls der Eigenvektoren F(max)(Ω) bzw. FSNR(Ω) den Rayleigh Quotienten, aller-
dings ergibt sich dann der zugeh¨
orige gr¨
oßte Eigenwert
λ(max)
X(Ω) = F(max)H(Ω)ΦXX(Ω)F(max)(Ω)
F(max)H(Ω)ΦNN(Ω)F(max)(Ω) =λ(max)
S(Ω) + 1.(4.14)
¨
Aquivalent zu Gl. (4.5) gilt hier nun die Eigenwertgleichung
ΦXX(Ω)F(Ω) = λ(max)
X(Ω)ΦNN(Ω)F(Ω),(4.15)
welche nach vorheriger Bestimmung von ΦXX(Ω) und ΦNN(Ω) die Berechnung eines Ko-
effizientenvektors ˜
FSNR(Ω) zul¨
asst. Hierf¨
ur existieren eine Reihe von iterativen L¨
osungen
[MRP96, GV99, Mor04, RPW04, YXYZ06, SK06], deren Eigenschaften eingehender im Ka-
pitel 5 untersucht werden sollen; insbesondere im Zusammenhang mit dem akustischen Be-
amforming [WHU05, HUW05].
Array Gain F¨
ur den optimalen Beamformer nach Gl. (4.10) ergibt sich mit Gl. (3.47) ein
SNR-Gewinn von
GSNR(Ω) = FH
SNR(Ω)ΦSS(Ω)FSNR(Ω)
FH
SNR(Ω)ΦNN(Ω)FSNR(Ω) ·Spur{ΦNN(Ω)}
Spur{ΦSS(Ω)}(4.16)
=HH(Ω)Φ−1
NN(Ω)H(Ω) ·Spur{ΦNN(Ω)}
HH(Ω)H(Ω) .(4.17)
White Noise Gain Der SNR-Gewinn bez¨
uglich eines unkorrelierten Schallfeldes kann an-
gegeben werden mit
GW
SNR(Ω) = M. (4.18)
Beim Vergleich von Gl. (4.18) bzw. Gl. (4.17) und dem White Noise Gain des DSB in Gl.
(3.55) ist zu erkennen, dass der Gewinn der Gr¨
oßenordnung Mbeim DSB nur erzielt wird,
wenn die Ausbreitung des Sprachsignals im Freifeld angenommen wird. Hingegen ist der maxi-
male Gewinn beim optimalen Beamforming Gl. (4.18) f¨
ur beliebige Ausbreitungsbedingungen
m¨
oglich.
56 Kapitel 4. Statistisch optimales Beamforming
Anmerkungen
Bei dem Vergleich zwischen dem einfachen Beamforming-Verfahren mittels DSB und einer
mehrkanaligen Filterung mit den Koeffizienten ˜
FSNR(Ω) fallen abgesehen von der Leistungs-
f¨
ahigkeit einige gravierende Unterschiede bez¨
uglich der Berechnung der Filterkoeffizienten
auf. Als Wissensquellen zur Bestimmung von ˜
FSNR(Ω) ¨
uber das Max-SNR-Kriterium sind
lediglich die Sch¨
atzungen der KLDS-Matrizen3ΦXX(Ω) und ΦNN(Ω) notwendig. Es wird
kein weiteres Wissen ¨
uber die Sprecherrichtung θsund die Mikrophongeometrie (Positionen
pibzw. Abstand d) ben¨
otigt. Soll jedoch als erste Verarbeitungseinheit eine Laufzeitkompen-
sation erfolgen wie z. B. bei einem DSB, so sind dies zwingend notwendige Informationen.
Zus¨
atzlich ist bei einem realen System auf eine gleiche Verst¨
arkung der eingehenden Mikro-
phonsignale zu achten, um eine koh¨
arente ¨
Uberlagerung zu gew¨
ahrleisten. Bei einem DSB
erfolgt dies ¨
uber einen separaten Algorithmus zur Pegelanpassung, entweder im laufenden
Betrieb oder w¨
ahrend einer Kalibrierung in der Startphase [NCG01]. Da sich f¨
ur die Maxi-
mierung des Ausgangs-SNR mittels ˜
FSNR(Ω) automatisch pegelkompensierende Betr¨
age f¨
ur
die Filterkoeffizienten ergeben, ist bei der Nutzung des Eigenvektors zum Beamforming eine
separate Bestimmung der Eingangspegel nicht erforderlich.
Der entscheidende Nachteil bei der Nutzung des Eigenvektors ˜
FSNR(Ω) zum akustischen
Beamforming ergibt sich aufgrund der frequenzabh¨
angigen Skalierung ζ(Ω), die f¨
ur jede be-
trachtete Spektralkomponente je nach Berechnungsvorschrift beliebig ausfallen kann. Dies
bedeutet f¨
ur die Verarbeitung von breitbandigen Sprachsignalen eine Verzerrung des Nutzsi-
gnals, obschon f¨
ur jede Spektralkomponente das Ausgangs-SNR maximal ist. Auf diese Pro-
blematik sowie L¨
osungsvorschl¨
age zur automatischen Kontrolle des Effekts wird in Kapitel 6
detailliert eingegangen.
4.2 Minimum Variance
Der n¨
achste Ansatz zur Herleitung optimaler Filterkoeffizienten beruht auf der Minimierung
der St¨
orvarianz. Dazu wird
FH(Ω)ΦXX(Ω)F(Ω) = φScSc(Ω)FH(Ω)H(Ω)HH(Ω)F(Ω) + FH(Ω)ΦNN(Ω)F(Ω) (4.19)
betrachtet. Da mit H(Ω) die Raum¨
ubertragungsfunktion zwischen dem Sprecher und der
Mikrophongruppe bezeichnet ist, kann das Skalarprodukt FH(Ω)H(Ω) als gesamte ¨
Ubertra-
gungsfunktion zwischen Sprecher und dem Ausgang des Arrays interpretiert werden. Nun soll
f¨
ur genau diese gemeinsame ¨
Ubertragungsfunktion folgende lineare Bedingung (engl. Linear
Constraint) gelten
FH(Ω)H(Ω) = W(Ω).(4.20)
Ausgehend von Gl. (4.19) kann mit der spektralen Gewichtung4W(Ω) des Quellensignals aus
Gl. (4.20) die Kostenfunktion
JMV(F(Ω)) = FH(Ω)ΦNN(Ω)F(Ω) + ℜ{β∗(Ω)(W(Ω) −FH(Ω)H(Ω))}(4.21)
3Es soll hier erw¨
ahnt werden, dass zur Sch¨
atzung der KLDS-Matrizen eine zus¨
atzliche Informationsquelle
in Form einer Sprache/Pause-Detektion vorausgesetzt wird. Allerdings ist solch eine Unterteilung der Ein-
gangsdaten in Sprache- und Pausesequenzen ebenfalls zur Sch¨
atzung der Sprecherrichtung n¨
otig.
4F¨
ur das gefilterte Sprachsignal ergibt sich am Beamformer-Ausgang FH(Ω)S(Ω) = FH(Ω)Sc(Ω)H(Ω) =
Sc(Ω)W(Ω), also das mit W(Ω) gewichtete Quellensignal. Mittels dieser Nebenbedingung k¨
onnen z. B. Spek-
tralkomponenten in denen a priori keine oder wenige Sprachanteile vorhanden sind ged¨
ampft werden (Band-
pass).
4.2. Minimum Variance 57
aufgestellt und minimiert werden. In Gl. (4.21) ist mit ℜ{·} die Realteilbildung und mit
β(Ω) der frequenzabh¨
angige Lagrange-Multiplikator5bezeichnet. Der Methode nach Lagrange
folgend [Hay02] wird der Gradient
∇FJMV(F(Ω)) = 2∂JMV(F(Ω))
∂F∗=ΦNN(Ω)F(Ω) −β∗(Ω)H(Ω) (4.22)
zu Null gesetzt, so dass sich mit
ΦNN(Ω)F(Ω) = β∗(Ω)H(Ω) (4.23)
der unbekannte Lagrange-Multiplikator zu
β(Ω) = FH(Ω)H(Ω)
HH(Ω)Φ−1
NN(Ω)H(Ω).(4.24)
ergibt. Weiter wird f¨
ur die optimalen Filterkoeffizienten angenommen, dass die Bedingung
Gl. (4.20) eingehalten wird,
β(Ω) = W(Ω)
HH(Ω)Φ−1
NN(Ω)H(Ω),(4.25)
und letztendlich der optimale Koeffizientenvektor nach Einsetzen von Gl. (4.25) in Gl. (4.23)
berechnet werden kann:
FGMV(Ω) = W∗(Ω) Φ−1
NN(Ω)H(Ω)
HH(Ω)Φ−1
NN(Ω)H(Ω).(4.26)
Mit dem Index “GMV” soll auf die verallgemeinerte Minimierung der Varianz (engl. Ge-
neralized Minimum Variance, GMV) bez¨
uglich der St¨
orung hingewiesen werden, wobei die
Verallgemeinerung auf die Verwendung der kompletten Raum¨
ubertragungsfunktion H(Ω) zu-
r¨
uckzuf¨
uhren ist.
F¨
ur die Forderung eines unverzerrt gebliebenen Sprachsignals am Beamformer-Ausgang
ist die Bedingung Gl. (4.20) f¨
ur alle Frequenzen konstant zu setzen
W(Ω) = 1.(4.27)
Dadurch ergibt sich ein Beamformer mit einer unverzerrten Antwort (engl. Distortionless
Response, DR) bez¨
uglich des Sprachsignals und der damit verbundene Koeffizientenvektor
FGMVDR(Ω) = Φ−1
NN(Ω)H(Ω)
HH(Ω)Φ−1
NN(Ω)H(Ω).(4.28)
Es kann leicht ¨
uberpr¨
uft werden, dass das mit FGMVDR(Ω) gefilterte Sprachsignal am Ausgang
des Beamformers dem unverzerrten Quellensignal entspricht:
FH
GMVDR(Ω)S(Ω) = HH(Ω)Φ−1
NN(Ω)
HH(Ω)Φ−1
NN(Ω)H(Ω)H(Ω)Sc(Ω) = Sc(Ω).(4.29)
5Entgegen der ¨
ublichen Notation λf¨
ur den Lagrange-Multiplikator soll hier die Bezeichnung βverwendet
werden um Verwechslungen mit der Kennzeichnung von Eigenwerten zu vermeiden.
58 Kapitel 4. Statistisch optimales Beamforming
Vergleicht man nun Gl. (4.28) mit der Max-SNR-L¨
osung Gl. (4.10), so kann folgender
Zusammenhang festgestellt werden:
FGMVDR(Ω) = wGMVDRΦ−1
NN(Ω)H(Ω) (4.30)
=wGMVDR(Ω)FSNR(Ω) (4.31)
mit dem skalaren Faktor
wGMVDR(Ω) = 1
HH(Ω)Φ−1
NN(Ω)H(Ω).(4.32)
Im Gegensatz zur Berechnung von ˜
FSNR(Ω) in Gl. (4.11) ¨
uber die Eigenwertzerlegung bez¨
ug-
lich ΦNN(Ω) und ΦXX(Ω) muss zur Bestimmung von FGMVDR(Ω) in Gl. (4.28) die Raum-
¨
ubertragungsfunktion H(Ω) bekannt sein (aufgrund der Gewichtung Gl. (4.32)). Da dies in
der Regel nicht der Fall ist, werden ¨
ublicherweise nur die Verz¨
ogerungen der direkten Aus-
breitungspfade zwischen den Mikrophonen und dem Sprecher gesch¨
atzt und H(Ω) wird in
Gl. (4.28) durch den Steering Vector Gl. (3.30) ersetzt
FMVDR(Ω) = Φ−1
NN(Ω)d(Ω, θt)
dH(Ω, θt)Φ−1
NN(Ω)d(Ω, θt).(4.33)
Das resultierende FMVDR(Ω) in Gl. (4.33) ist unter dem Begriff Minimum Variance Distor-
tionless Response Beamformer bekannt und wird daher mit dem Index “MVDR” bezeichnet.
Zu beachten ist hierbei, dass beim ¨
Ubergang von Gl. (4.28) nach Gl. (4.33) der Parameter θt
aufgef¨
uhrt wird. Aufgrund der Definition Gl. (3.16) gilt die verk¨
urzte Schreibweise H(Ω) f¨
ur
die Raum¨
ubertragungsfunktion, obschon sie von der Position der Schallquelle psund der Mi-
krophone pi,i= 1,...,M abh¨
angt. Da bei einem linear angeordneten Array f¨
ur FMVDR(Ω)
eine Sprecherrichtungssch¨
atzung θtnotwendig ist, und diese nicht zwangsl¨
aufig identisch mit
der wahren Richtung θs¨
ubereinstimmen muss, wird der Parameter θtim Steering Vector
beibehalten.
F¨
ur den GMVDR Beamformer ergibt sich offensichtlich der gleiche SNR-Gewinn Gl. (4.17)
wie f¨
ur den optimalen Beamformer FSNR(Ω). Hingegen stellen sich je nach Raumsituation
und St¨
orger¨
auschfeld beim MVDR Beamformer geringe Unterschiede im Vergleich zur ver-
allgemeinerten L¨
osung ein. Diese Unterschiede sollen im Abschnitt 4.6 analysiert werden.
Anmerkungen
In der Literatur zum akustischen Beamforming wird nur vereinzelt auf die konstruktive Nut-
zung der Mehrwegeausbreitung eingegangen [NNS01, KHJ06] und fast ausschließlich die Mini-
mierung der Ausgangsleistung des Beamformers mit der Nebenbedingung eines unverzerrten
Signals aus der Look Direction als Optimierungskriterum herangezogen. Dabei stellt insbe-
sondere die adaptive L¨
osung nach Frost [Fro72] eine immer noch stark verbreitete Basis dar.
Da der MVDR Beamformer stark von der genauen Sch¨
atzung der Richtung des gew¨
unschten
Quellensignals, also von der Bestimmung des Steering Vectors abh¨
angt, besch¨
aftigt sich eine
Vielzahl von Ver¨
offentlichungen zu adaptiven MVDR Beamformern mit Robustheitsaspekten
[LS05, HGJ06, JHLCCC06].
Eine Realisierung des MVDR Beamformers mit der Optimierung hinsichtlich der Di-
rektivit¨
at nimmt f¨
ur zahlreiche Autoren einen besonderen Stellenwert ein [T¨
ag98, BSK99a,
Elk00, JG00, BS01]. Diese superdirektiven Beamformer werden f¨
ur den Fall eines diffusen
4.3. Maximum Likelihood 59
St¨
orschallfelds optimiert; es wird also f¨
ur ΦNN(Ω) a priori die Koh¨
arenz-Matrix des diffusen
St¨
orschallfelds eingesetzt. Dabei ist jedoch auf die Besonderheit der Verst¨
arkung von r¨
aum-
lich unkorreliertem Rauschen zu achten [Bit02]. Die Adaption ist dann auf die Bestimmung
der Sprecherrichtung konzentriert.
4.3 Maximum Likelihood
F¨
ur den Maximum-Likelihood-Ansatz wird davon ausgegangen, dass das Quellensignal Sc(Ω)
und das Rauschen am i-ten Mikrophon Ni(Ω) mittelwertfreie, komplexe, gaußverteilte Zu-
fallsvariablen sind. Weiterhin sollen Sc(Ωk) und Ni(Ωk) der Frequenz Ωkjeweils statistisch
unabh¨
angig von Sc(Ων) und Ni(Ων) f¨
ur unterschiedliche Frequenzen Ωk6= Ωνsein. Mit Hilfe
dieser Voraussetzungen kann die a posteriori Wahrscheinlichkeitsdichtefunktion (engl. Proba-
bility Density Function, PDF)
p(Y(Ω)|Sc(Ω)) = η(Ω)e−ˆ
NH(Ω)Φ−1
NN(Ω) ˆ
N(Ω) (4.34)
angegeben und als Likelihood aufgefasst werden [Lev64]; mit der Sch¨
atzung f¨
ur das Rauschen
ˆ
N(Ω) = X(Ω) −Sc(Ω)H(Ω) (4.35)
und der skalaren Konstante η(Ω), welche unabh¨
angig von Sc(Ω) ist. Somit ergibt sich die zu
minimierende negative Log-Likelihood-Funktion
L(X(Ω)) = ˜η(Ω) ˆ
NH(Ω)Φ−1
NN(Ω) ˆ
N(Ω).(4.36)
Durch null setzen der partiellen Ableitung von L(X(Ω)) nach Sc(Ω) erh¨
alt man schließlich
die Sch¨
atzung ˆ
Sc(Ω) f¨
ur das Quellensignal, welches die Log-Likelihood-Funktion Gl. (4.36)
minimiert
ˆ
Sc(Ω) = HH(Ω)Φ−1
NN(Ω)
HH(Ω)Φ−1
NN(Ω)H(Ω)X(Ω) = FH
GML(Ω)X(Ω).(4.37)
In Gl. (4.37) ist mit FGML(Ω) der Koeffizientenvektor des verallgemeinerten ML-Ansatzes
(engl. Generalized Maximum Likelihood, GML) bezeichnet
FGML(Ω) = Φ−1
NN(Ω)H(Ω)
HH(Ω)Φ−1
NN(Ω)H(Ω) =FGMVDR(Ω),(4.38)
welcher identisch mit der GMVDR-L¨
osung Gl. (4.28) ist. Auch hier soll vollst¨
andigkeitshalber
noch die vereinfachte Variante
FML(Ω) = Φ−1
NN(Ω)d(Ω, θt)
dH(Ω, θt)Φ−1
NN(Ω)d(Ω, θt)=FMVDR(Ω) (4.39)
mit dem Steering Vektor d(Ω, θt) angegeben sein.
Anmerkungen
Die MVDR-Filterkoeffizienten stellen also den Maximum-Likelihood-Sch¨
atzer f¨
ur das Quel-
lensignal dar, wenn die Sprecherrichtung und die KLDS-Matrix der St¨
orung bekannt sind.
Alternativ wird in [VSO97] von keinerlei Wissen ¨
uber die St¨
orung ausgegangen, sondern von
60 Kapitel 4. Statistisch optimales Beamforming
Annahmen bez¨
uglich des Nutzsignals. Da aber der Zusammenhang Gl. (4.38) bzw. Gl. (4.39)
besteht, werden deutlich weniger Maximum-Likelihood-Beamforming-Verfahren im Vergleich
zur MVDR-L¨
osung in der Literatur diskutiert. Ein großer Teil besch¨
aftigt sich mit Robust-
heitsaspekten und dem Einfluss einer fehlerhaften Richtungssch¨
atzung [LS05].
Interessant ist das in [DCP03] entwickelte ML-Verfahren, welches insbesondere auf das
Problem verhallter Signale eingeht. Dort wird ein so genannter Maximum Likelihood Steered
Adaptive Beamformer beschrieben, in dem ein stark nichtlinearer ML-Ansatz mit Hilfe ei-
nes modifizierten Newton Adaptionsalgorithmus ohne Nebenbedingung gel¨
ost wird und zur
deutlichen Reduzierung von St¨
orinterferenzen f¨
uhrt.
Bei dem in [SRS04, BSRG05] vorgestellten Verfahren steht die Anwendung eines Ma-
ximum Likelihood Beamformers zur Reduzierung der Wortfehlerrate eines nachgeschalteten
Spracherkenners im Vordergrund. Dabei werden die Beamformer-Koeffizienten bez¨
uglich ei-
nes ML-Kriteriums optimiert, in welches die Parameter des vorl¨
aufigen Erkennungsergebnisses
des Spracherkenners einfließen. Der Beamformer wird dann derat adaptiert, dass die Wahr-
scheinlichkeit daf¨
ur steigt, dass die iterativ erkannte Wortfolge mit der gesprochenen Sequenz
¨
ubereinstimmt.
4.4 Minimum Mean Squared Error
Zun¨
achst soll davon ausgegangen werden, dass das gew¨
unschte Quellensignal Sc(Ω) bekannt
sei und sich somit folgender Ausdruck f¨
ur den mittleren quadratischen Fehler (engl. Mean
Squared Error, MSE) angeben l¨
asst:
JMSE(F(Ω)) = E{|Sc(Ω) −FH(Ω)X(Ω)|2}(4.40)
=φScSc−FH(Ω)φXSc(Ω) −φH
XSc(Ω)F(Ω) + FH(Ω)ΦXX(Ω)F(Ω).(4.41)
Zur Minimierung des mittleren quadratischen Fehlers (engl. Minimum MSE, MMSE) wird
der Gradient
∇FJMSE(F(Ω)) = −2φXSc(Ω) + 2ΦXX(Ω)F(Ω) (4.42)
zu Null gesetzt und liefert die verallgemeinerte MMSE-L¨
osung (GMMSE)
FGMMSE(Ω) = Φ−1
XX(Ω)φXSc(Ω),(4.43)
unter der Voraussetzung, dass ΦXX(Ω) nicht singul¨
ar und somit invertierbar ist. Gl. (4.43) ist
die Wiener-Hopf-Gleichung in Matrix-Form und kann daher als mehrkanaliges Wiener Filter
(engl. Multi Channel Wiener Filter, MWF) gesehen werden. Mit der additiven Zusammen-
setzung
ΦXX(Ω) = φScSc(Ω)H(Ω)HH(Ω) + ΦNN(Ω) (4.44)
und dem Matrix Inversion Lemma (siehe Anhang A.2), ist es m¨
oglich das Wiener Filter Gl.
(4.43) in die faktorisierte Form
FGMMSE(Ω) = wWPF(Ω)FGMVDR(Ω).(4.45)
zu ¨
uberf¨
uhren. Der skalare Faktor
wWPF(Ω) = φScSc(Ω)
φScSc(Ω) + HH(Ω)Φ−1
NN(Ω)H(Ω)−1(4.46)
4.4. Minimum Mean Squared Error 61
kann als frequenzabh¨
angige Nachfilterung (engl. Wiener Post Filter, WPF) interpretiert wer-
den [SBM01]. Dies wird um so deutlicher, wenn das Leistungsdichtespektrum der St¨
orung
φNoNo(Ω) am Ausgang des GMVDR Beamformers betrachtet wird:
φNoNo(Ω) = FH
GMVDR(Ω)ΦNN(Ω)FGMVDR(Ω) (4.47)
=HH(Ω)Φ−1
NN(Ω)H(Ω)−1(4.48)
=wGMVDR(Ω).(4.49)
Somit ergibt sich f¨
ur die Nachfilterung Gl. (4.46) der Ausdruck
wWPF(Ω) = φScSc(Ω)
φScSc(Ω) + φNoNo(Ω).(4.50)
Wie bereits gezeigt, maximiert die GMVDR-L¨
osung in gleicher Weise wie die Max-SNR-
L¨
osung zwar das Schmalband-SNR6, aber nicht zwangsl¨
aufig das Breitband-SNR. Dies wird
erst durch das nachgeschaltete mehrkanalige Wiener Filter wWPF(Ω) erreicht. Diese Eigen-
schaft ist sehr gut an dem nachgeschalteten Wiener Filter Gl. (4.50) zu erkennen. W¨
ah-
rend mit den GMVDR-Filterkoeffizienten die r¨
aumliche Information ausgenutzt wird und
das Signal in Blickrichtung unverzerrt erhalten bleibt, erfolgt eine spektrale D¨
ampfung durch
wWPF(Ω) f¨
ur Frequenzkomponenten mit einem geringen SNR. Dadurch wird zwar eine Ver-
zerrung des Sprachsignals7in Kauf genommen, aber eben auch eine SNR-Maximierung des
breitbandigen Audiosignals erzielt.
F¨
ur die optimalen Filterkoeffizienten FGMMSE(Ω) kann nun wieder ¨
aquivalent zu Gl. (4.31)
ein direkter, skalarer Zusammenhang zwischen der MMSE- und der Max-SNR-L¨
osung ange-
geben werden:
FGMMSE(Ω) = wWP F (Ω)wGMVDR(Ω)FSNR(Ω) (4.51)
=wGMMSE(Ω)FSNR(Ω),(4.52)
mit Gl. (4.49) kann das Nachfilter in kompakter Schreibweise zu
wGMMSE(Ω) = φScSc(Ω)wGMVDR(Ω)
φScSc(Ω) + wGMVDR(Ω).(4.53)
formuliert werden.
Wie auch beim MV-Ansatz wird bei der Realisierung von MMSE Beamformern nach
dem oben beschriebenen Schema die Raum¨
ubertragungsfunktion durch den Steering Vector
ersetzt. Dadurch ergibt sich die in der Literatur [SBM01] ¨
ubliche Variante
FMMSE(Ω) = φScSc(Ω)
φScSc(Ω) + dH(Ω)Φ−1
NN(Ω)d(Ω)−1FMVDR(Ω) (4.54)
f¨
ur die Filterkoeffizienten. F¨
ur den Fall, dass das SNR am Eingang des Arrays hoch ist, liefern
also offensichtlich MVDR und MMSE8Beamformer sehr ¨
ahnliche Ergebnisse, wie bereits in
[Gri67] untersucht wurde.
6Das Breitband-SNR bezeichnet das SNR bestimmt ¨
uber alle enthaltenen Frequenzkomponenten. Hingegen
ist das Schmalband-SNR das frequenzabh¨
angige SNR.
7In [RBB03, ZHA04] werden Methoden zur Minimierung der Sprachsignalverzerrung durch psychoakustisch
motivierte Maskierungseffekte beschrieben.
8F¨
ur die Annahme gaußverteilter Real- und Imagin¨
aranteile der frequenzabh¨
angigen Sprach- und St¨
orsi-
gnale ist der optimale MMSE-Sch¨
atzer identisch mit dem maximum a posteriori (MAP) Sch¨
atzer [VT68].
62 Kapitel 4. Statistisch optimales Beamforming
Anmerkungen
Die offensichtliche Schwierigkeit zur Berechnung der MMSE-Filterkoeffizienten besteht in
der Sch¨
atzung des Sprachsignals, oder, allgemeiner ausgedr¨
uckt, in dem Problem der Erzeu-
gung eines Referenzsignals. Bei der Anwendung von Beamforming-Verfahren f¨
ur Antennen-
Arrays ist es m¨
oglich, ein Pilot-Signal aus der Look Direction als Referenzsignal zu nutzen.
In [WMGG67] ist bereits solch eine Methode inklusive Adaption mit Hilfe der kleinsten
Fehlerquadrate vorgestellt. ¨
Aquivalent dazu werden in [NCG01] ¨
uber eine Kalibrierungs-
Sprachsequenz die optimalen Filterkoeffizienten f¨
ur die Mikrophongruppe in einem Kraft-
fahrzeug berechnet. Dabei beinhaltet die MMSE-Sch¨
atzung repr¨
asentative Einfl¨
usse der ver-
wendeten Hardware sowie der Mikrophon- und Sprecherposition, siehe auch [GN02, NGL05].
Die popul¨
arste MMSE-Variante zur Umsetzung von Gl. (4.54) beruht auf der Annahme
von unkorrelierten St¨
orsignalen in den einzelnen Mikrophonpfaden. Dann kann eine Mitte-
lung der Kreuzleistungsdichten zwischen jeweils zwei Signalpaaren zur Sch¨
atzung φScSc(Ω)
hergenommen werden [Zel88]. Da jedoch diese Annahme f¨
ur ein gerichtetes oder diffuses St¨
or-
schallfeld nicht bzw. nur bedingt f¨
ur einen bestimmten Frequenzbereich gilt (vgl. Abschnitt
2.4), ist eine Verbesserung der Sch¨
atzung durch a priori Annahmen f¨
ur die r¨
aumliche Korre-
lation des St¨
orger¨
auschfeldes in [SW92, MMU98, BSK99b] und durch explizite Berechnung
in [MB02, MB03] mit ber¨
ucksichtigt worden.
Eine andere Variante ergibt sich durch die statistische Auswertung der durch das Sprach-
und St¨
orsignal aufgespannten Unterr¨
aume der Kovarianzmatrizen9im Zeitbereich. Dabei er-
geben sich Filterkoeffizienten aus Eigenvektoren mittels einer verallgemeinerten Singul¨
arwert-
zerlegung [DM01, SMW02]. Entstehende Sprachverzerrungen werden in [DSWM05, CBHD06]
gesch¨
atzt und konstruktiv f¨
ur die Adaption benutzt.
4.5 Experimente zur verallgemeinerten L¨
osung
Im folgenden Abschnitt werden einige Ergebnisse zur experimentellen Untersuchung des ver-
allgemeinerten GMVDR-Ansatzes Gl. (4.28) pr¨
asentiert. Hierf¨
ur wurden die Anordnungen
Szenario-1 und Szenario-2 aus dem Anhang C verwendet (also eine Sprecherrichtung von
θs=θt= 45◦) und die ¨
Ubertragungsfunktion zwischen der Sprecherposition und den Sen-
soren mit Hilfe der reinen Sprachdaten gesch¨
atzt. Die Sch¨
atzung der ¨
Ubertragungsfunktion
erfolgte durch den Algorithmus 3 (S-Grad-GG) aus Abschnitt 5.1.5 mit der Normalisierung
aus Abschnitt 6.1. F¨
ur den Fall von M= 5 Sensoren, einer Nachhallzeit von T60 = 0,1s und
einer DFT-L¨
ange von L= 256 ergeben sich die in Bild 4.1 dargestellten Verl¨
aufe10 f¨
ur die ers-
te und f¨
unfte Raumimpulsantwort h1(n) und h5(n), sowie deren Sch¨
atzung ˆ
h1(n) und ˆ
h5(n).
An den identifizierten Impulsantworten in Bild 4.1 sind nun zwei markante Eigenschaften zu
erkennen. Zum einen ist ein Versatz des Anteiles, welcher zum direkten Pfad korrespondiert,
um 4 Abtastwerte (sin(θs)·d·fAb ·c−1·(M−1) = 4) festzustellen. Und zum anderen k¨
onnen
Anteile aufgrund von Reflexionen direkt den vorgegebenen Raumimpulsantworten zugeordnet
werden.
9Aufgrund der Nichtstationarit¨
at der Sprache gelten die Annahmen bez¨
uglich Stationarit¨
at und Unab-
h¨
angigkeit der einzelnen Komponenten untereinander im Frequenzbereich nur n¨
aherungsweise. In [Her04] wird
daher eine konsequente Herleitung optimaler Filterkoeffizienten ¨
uber die Methode der kleinsten Fehlerquadrate
(eng. Least Squares Error, LSE) im Zeitbereich durchgef¨
uhrt.
10Zur besseren Darstellung in Bild 4.1 wurde lediglich der minimalphasige Anteil der Raumimpulsantworten
verwendet [NA79].
4.5. Experimente zur verallgemeinerten L¨
osung 63
-0,2
0
0
0,2
0,4
0,6
0,8
1
30 60 90 120
(a)
h1(n)
n
-0,2
0
0
0,2
0,4
0,6
0,8
1
30 60 90 120
(b)
h5(n)
n
-0,1
0
0
0,1
0,2
0,3
30 60 90 120
(c)
ˆ
h1(n)
n
-0,1
0
0
0,1
0,2
0,3
30 60 90 120
(d)
ˆ
h5(n)
n
Bild 4.1: (a) Ausschnitt der ersten und (b) der f¨
unften simulierten Raumimpulsantwort.
(c) Gesch¨
atzte erste und (d) gesch¨
atzte f¨
unfte Raumimpulsantwort.
Als n¨
achstes soll die Energiabfallkurve Gl. (2.13) untersucht werden, die f¨
ur eine zeitdis-
krete Impulsantwort geschrieben werden kann als
EA(j) := −10 log10
∞
P
n=j
h2(n)
∞
P
n=0
h2(n)
dB,(4.55)
wobei h(n) nun f¨
ur drei F¨
alle betrachtet werden soll:
•Raumimpulsantwort “RIA”: Die Raumimpulsantwort zwischen dem Sprecher und dem
ersten Mikrophon.
•Delay-and-Sum “DS”: Die koh¨
arente ¨
Uberlagerung (bez¨
uglich des direkten Pfades) aller
MRaumimpulsantworten.
•Filter-and-Sum “FS”: Die gesamte Impulsantwort zwischen dem Sprecher und der Fal-
tung mit den gesch¨
atzten Raumimpulsantworten: h(j) = PM
i=1 hi(n)⋆ˆ
hi(L−n).
Die Ergebnisse der Energiabfallkurven sind in Bild 4.2 ¨
uber der Zeit aufgetragen. Es ist zu
erkennen, dass zwar der Abfall der Kurven n¨
aherungsweise gleich ist, aber die konstrukti-
ve ¨
Uberlagerung der direkten Ausbreitungspfade der Raumimpulsantworten f¨
uhrt zu einem
gr¨
oßeren Sprung beim Maximum n0der gesamten Impulsantworten der DS- und FS-Kurven.
64 Kapitel 4. Statistisch optimales Beamforming
Dieses Verhalten resultiert in einem h¨
oheren Deutlichkeitsmaß (vgl. Gl. (2.11))
C50 = 10 log10
n0+n50
P
n=n0
h2(n)
∞
P
n=n0+n50+1
h2(n)
,(4.56)
wobei hier gilt n50 = 50ms ·fAb = 600. Aufgrund der Verdeckung (vgl. 2.2) ist vor allem
der Anfangsteil der Energiabfallkurve von besonderer Bedeutung. Die Anfangsnachhallzeit
TAf¨
ur eine zeitdiskrete Impulsantwort ergibt sich ¨
aquivalent zu Gl. (2.12) als
−10dB !
= 10 log10
n0+nA
P
n=n0
h2(n)
∞
P
n=n0
h2(n)
dB,(4.57)
mit TA=nA/fAb, und dem ersten Abtastwert nA, f¨
ur den Gl. (4.57) zutrifft. Die Ergeb-
nisse f¨
ur das Deutlichkeitsmaß und die Anfangsnachhallzeit sind in Bild 4.3 f¨
ur variierende
Werte der L¨
ange Bder gesch¨
atzten Raumimpulsantworten, der Mikrophonanzahl Mund der
Nachhallzeit T60 dargestellt.
-40
-30
-20
-10
0
00,01 0,02 0,03 0,04 0,05
EDC [dB]
t [s]
RIA
DS
FS
Bild 4.2: Energiabfallkurven f¨
ur die erste Raumimpulsantwort (RIA), sowie die resultierenden Impulsantworten
mittels koh¨
arenter ¨
Uberlagerung (DS) und der Filterung (FS) mit den gesch¨
atzten Raumimpulsant-
worten f¨
ur M= 5 und T60 = 0,1 s.
F¨
ur die identifizierte L¨
ange der Raumimpulsantworten in Bild 4.3 ist zu beachten, dass
jeweils die L¨
ange der DFT auf L= 2Bgesetzt wurde. Weiterhin soll angemerkt sein, dass
in den Bildern der linken Spalte von 4.3 das Deutlichkeitsmaß und die Anfangsnachhallzeit
f¨
ur RIA und DS zum Vergleich eingetragen sind, obschon sie nicht von dem Parameter B
abh¨
angen.
Grunds¨
atzlich kann an den Verl¨
aufen in Bild 4.3 festgestellt werden, dass durch die Fal-
tung und Aufsummierung (FS) h¨
ohere Werte f¨
ur das Deutlichkeitsmaß erzielt werden und
ein schnellerer Abfall der Energiabfallkurve um 10dB – gekennzeichnet durch die Anfangs-
nachhallzeit – im Vergleich zu RIA und DS erfolgt. Weiterhin ist offensichtlich, dass eine
steigende Anzahl von Mikrophonen zu einem steigenden C50 und abfallendem TAbei gleicher
Nachhallzeit f¨
ur DS und FS f¨
uhrt. Bei steigendem Nachhall sind die Verl¨
aufe aller Kurven
ebenfalls folgerichtig, da der Sprung nach dem Anteil der EDC, der auf den direkten Pfad
zur¨
uckzuf¨
uhren ist, mit steigendem T60 deutlich kleiner und der anschließende lineare Abfall
wesentlich geringer wird.
4.5. Experimente zur verallgemeinerten L¨
osung 65
0
0
0,02
0,04
0,06
0,08
5
10
15
20
128
128
256
256
512
512
C50 [dB]
TA[s]
B
B
RIA
RIA
DS
DS
FS
FS
M= 5, T60 = 0,3 s
M= 5, T60 = 0,3 s
0
0
0
0
0,020,02
0,040,04
0,060,06
0,080,08
0,2
0,2
0,4
0,4
0,6
0,6
3
3
4
4
5
5
5
6
6
7
7
8
8
9
9
10
10
15
20
20
30
40
C50 [dB]
C50 [dB]
TA[s]
TA[s]
M
M
T60 [s]
T60 [s]
RIA
RIA
RIA
RIA
DS
DS
DS
DS
FS
FS
FS
FS
B= 256, T60 = 0,3 s
B= 256, T60 = 0,3 s
B= 256, M = 5
B= 256, M = 5
Bild 4.3: Auswertung des Deutlichkeitsmaßes C50 in der oberen Reihe und der Anfangsnachhallzeit TAin der
unteren Reihe f¨
ur variierende Werte folgender Parameter: L¨
ange Bder gesch¨
atzten Raumimpulsant-
worten, Mikrophonanzahl Mund Nachhallzeit T60.
Nach den exemplarischen Auswertungen der Energiabfallkurven stellt sich die Frage,
wie sich die Identifikation der Raum¨
ubertragungsfunktionen auf die Leistungsf¨
ahigkeit des
GMVDR Beamformers auswirkt, also auf den Vergleich von Gl. (4.28) zu Gl. (4.33). Grund-
lage sind hier wieder Szenario-1 und Szenario-2, wobei die KLDS-Matrix11 der St¨
orung durch
eine Sch¨
atzung ¨
uber L= 512 Werte, einem Vorschub von B=L/2 und einer Hann-Fensterung
erfolgte. Die Inverse ist optimal bestimmt worden. Das Bild 4.4 (a) zeigt den SNR-Gewinn
f¨
ur den Fall, wenn die St¨
orung nur aus weißem, unkorrelierten Rauschen besteht und in Bild
4.4 (b) ist der SNR-Gewinn f¨
ur das gerichtete Tiefpassrauschen aus der Richtung θn=−20◦
dargestellt; jeweils f¨
ur M= 5 Mikrophone aufgetragen ¨
uber der Nachhallzeit. F¨
ur das un-
korrelierte Rauschen stellt sich bei T60 = 0s der theoretisch maximale SNR-Gewinn von
10 ·log10(M)≃7dB ein, der mit steigendem Nachhall leicht abf¨
allt. F¨
ur die gerichtete St¨
o-
rung ist f¨
ur geringe Nachhallzeiten eine sehr hohe Unterdr¨
uckung des St¨
orger¨
ausches m¨
oglich,
da an der Stelle θ=θndas Beampattern ein deutliches Minimum ausbildet (siehe Bild 4.5).
Der sich einstellende SNR-Gewinn ist dabei von mehreren Faktoren abh¨
angig wie der geo-
11Um sicherzustellen, dass die KLDS-Matrix der St¨
orung invertierbar ist, wurde ein Regulisierungsterm von
-30 dB eingef¨
ugt: ΦNN(Ω) ←ΦNN(Ω) + 0,001 ·σ2
N(Ω) ·I, mit σ2
N(Ω) = Spur{ΦNN(Ω)}/M.
66 Kapitel 4. Statistisch optimales Beamforming
metrischen Anordnung, der Anzahl der Mikrophone und der spektralen Zusammensetzung
der St¨
orquelle. Wichtig an dieser Stelle ist lediglich der Vergleich zwischen den Verl¨
aufen von
MVDR und GMVDR. Und dabei zeigt sich kein signifikanter Unterschied12
000,2 0,4 0,6
2
4
6
8
(a) T60 [s]
MVDR
GMVDR
SNRG [dB]
000,2 0,4 0,6
10
20
30
(b) T60 [s]
MVDR
GMVDR
SNRG [dB]
Bild 4.4: SNR-Gewinn f¨
ur den MVDR und den verallgemeinerten MVDR Beamformer. (a) St¨
orung besteht
nur aus unkorreliertem Rauschen. (b) Gerichtetes Tiefpassrauschen als St¨
orquelle.
Abgesehen von den geometrischen Verh¨
altnissen und den spektralen Eigenschaften der
St¨
orung ist die Genauigkeit13 der Sch¨
atzungen der ¨
Ubertragungsfunktion H(Ω) und der
KLDS-Matrix ΦNN(Ω) bzw. ihrer Inversen von entscheidender Bedeutung f¨
ur die erzielbare
St¨
orger¨
auschunterdr¨
uckung [Kr¨
u07]. Die in Bild 4.4 gezeigten Ergebnisse wurden mit einer
Blockl¨
ange von L= 512 berechnet. Dies f¨
uhrt jedoch bei h¨
oheren Nachhallzeiten aufgrund
einer zu geringen Frequenzaufl¨
osung zu ungenauen Sch¨
atzungen von ΦNN(Ω). Um aber eine
ann¨
ahernd korrekte Sch¨
atzung zu erhalten ist nach [JN87] eine Blockl¨
ange von L > fAb/4·T60
notwendig. Wird diese nicht eingehalten, so ist mit Abstrichen in der resultierenden St¨
orge-
r¨
auschreduktion zu rechnen. Dieser Zusammenhang kann durch folgende Betrachtungen ver-
anschaulicht werden. Unter der Annahme einer korrekt gesch¨
atzten frequenzkontinuierlichen
KLDS-Matrix ergibt sich diese f¨
ur eine gerichtete St¨
orung mit der Varianz σ2
N,c(Ω) und der
¨
Ubertragungsfunktion A(Ω), sowie der Varianz σ2
N,u(Ω) f¨
ur das unkorrelierte Rauschen zu
ΦNN(Ω) = σ2
N,c(Ω)A(Ω)AH(Ω) + σ2
N,u(Ω)I(4.58)
=
M
X
i=1
λi(Ω)vi(Ω)vH
i(Ω).(4.59)
In Gl. (4.59) ist mit λi(Ω) der i−te Eigenwert von ΦNN(Ω) und mit vi(Ω) der zugeh¨
orige
Eigenvektor bezeichnet. Die Eigenwerte sind reellwertig und seien hier, wie in den weiteren
Kapiteln der Gr¨
oße nach geordnet
λ1(Ω) ≥λ2(Ω) ≥...≥λM(Ω) ≥0.(4.60)
Da jeder Vektor Eigenvektor einer Einheitsmatrix ist, gilt dies auch f¨
ur den Vektor definiert
12Bei den hier gemachten Vergleichen zwischen den GMVDR und MVDR Beamformern soll nochmals darauf
hingewiesen werden, dass die Filterkoeffizienten optimal mit den reinen Sprachdaten berechnet wurden.
13Die Genauigkeit der gesch¨
atzten ¨
Ubertragungsfunktionen kann hier nicht explizit untersucht werden, da
die zur Erzeugung der Sprachdaten verwendeten Impulsantworten nicht dirkt zu einem Vergleich zu verwenden
sind. Diese sind deutlich l¨
anger und haben einen beliebigen Alpass-Anteil.
4.5. Experimente zur verallgemeinerten L¨
osung 67
durch die gerichtete St¨
orung
v1(Ω) = A(Ω)
||A(Ω)||.(4.61)
Dieser korrespondiert im Zusammenhang mit Gl. (4.58) zum gr¨
oßten Eigenwert
λ1(Ω) = σ2
N,c(Ω) ·||A(Ω)||2+σ2
N,u(Ω) (4.62)
und f¨
ur alle anderen Eigenwerte gilt
λi(Ω) = σ2
N,u(Ω), i = 2,...,M. (4.63)
F¨
ur die Inverse gilt folgende allgemeine Form
Φ−1
NN(Ω) =
M
X
i=1
1
λi
(Ω)vi(Ω)vH
i(Ω).(4.64)
Nun wird ein Eingangsvektor X(Ω) = Nc(Ω) ·A(Ω), welcher durch die gerichtete St¨
orung
hervorgerufen wird, angenommen und die Auswirkung dessen Filterung mit Gl. (4.28) un-
tersucht. F¨
ur die Bildung des Minimums in der r¨
aumlichen ¨
Ubertragungsfunktion und somit
der Unterdr¨
uckung von St¨
orger¨
auschen der gerichteten Quelle ist bei der Anwendung von Gl.
(4.28) im Wesentlichen die Rechtsmultiplikation von Φ−1
NN(Ω) mit X(Ω) verantwortlich
Φ−1
NN(Ω)X(Ω) = "A(Ω)AH(Ω)
||A(Ω)||2λ1(Ω) +
M
X
i=2
vi(Ω)vH
i(Ω)
λi(Ω) #Nc(Ω)A(Ω) (4.65)
≈0,f¨
ur σ2
N,c ≫σ2
N,u ⇔λ1(Ω) ≫λi(Ω), i > 1.(4.66)
Da die weiteren Eigenvektoren vi(Ω), i = 2,...,M orthogonal zu v1(Ω) sind, ergibt sich also
n¨
aherungsweise der Nullvektor f¨
ur ein sehr kleines Verh¨
altnis σ2
N,u(Ω)/σ2
N,c(Ω), welches f¨
ur
ein letztes Experiment bezeichnet werden soll mit
η:= 10 log10
σ2
N,u
σ2
N,c
dB.(4.67)
Das Verh¨
altnis ηin Gl. (4.67) ist jedoch nicht mehr frequenzabh¨
angig, sondern soll unter
Ber¨
ucksichtigung aller Frequenzkomponenten im Zeitbereich ermittelt werden. In Bild 4.5 (a)
ist der SNR-Gewinn f¨
ur ein variierendes ηim Bereich zwischen -50dB und 20dB dargestellt,
wobei wieder das Szenario-2 zugrunde liegt und eine Nachhallzeit von T60 = 0,05s gew¨
ahlt
wurde. Es ist deutlich zu erkennen, dass f¨
ur ein steigendes ηder SNR-Gewinn sinkt und gegen
den Wert 10 ·log10(M)≃7dB l¨
auft. Das Bild 4.5 (b) verdeutlicht den Effekt der r¨
aumlichen
Filterung. Zu sehen ist das Beampattern ausgewertet f¨
ur eine Frequenz von ca. 1 kHz f¨
ur
unterschiedliche Verh¨
altnisse der Varianzen Gl. (4.67). Das r¨
aumliche Minimum ist umso
ausgepr¨
agter, je gr¨
oßer die Varianz der korrelierten St¨
orung im Vergleich zum unkorrelierten
Rauschen ist. F¨
ur den Grenzwert η→ −∞ hat die Matrix Φ−1
NN(Ω) den Rang eins, also
alle Eigenwerte λi(Ω), i = 2,...,M verschwinden und das Beampattern an der Stelle der
St¨
orquelle geht gegen −∞.
Die explizite Betrachtung von Gl. (4.65) unter der Ber¨
ucksichtigung von Gl. (4.58) zeigt
die Degradation der St¨
orger¨
auschunterdr¨
uckung von r¨
aumlich korrelierten St¨
orschallfeldern
mit steigender Varianz unkorrelierter St¨
orungen. Das Verh¨
altnis σ2
N,u/σ2
N,c wird in der Praxis
beeinflusst durch ein variierendes σ2
N,c bei gleichbleibendem σ2
N,u (hervorgerufen durch z. B.
68 Kapitel 4. Statistisch optimales Beamforming
-40 -20
00
5
10
15
20
20
25
30
(a)
SNRG [dB]
η[dB]
-60
-40
-30
-20
-20
-10
0
20 60
(b) θ[◦]
10 log10 |B(Ωk0, θ)|2[dB]
η= 0 dB
η= -10 dB
η= -20 dB
η= -40 dB
Bild 4.5: Analyse des variierenden Verh¨
altnisses ηder Varianzen der gerichteten und unkorrelierten St¨
orung
bei T60 = 0,05 s.(a) SNR-Gewinn und (b) Beampattern f¨
ur eine Frequenz von ca. 1 kHz.
Mikrophonrauschen) und durch steigende Nachhallzeiten, so dass der diffuse Anteil des St¨
or-
schallfeldes f¨
ur h¨
ohere Frequenzen einen Beitrag zur unkorrelierten St¨
orung leistet. Weiterhin
ist nat¨
urlich eine m¨
oglichst genaue Sch¨
atzung von ΦNN(Ω) bzw. ihrer Inversen notwendig.
Mit steigender Nachhallzeit schleicht sich hier jedoch aufgrund zu kurzer Analysefenster ein
systematischer Fehler ein, weshalb v1(Ω) = A(Ω)/||A(Ω)|| f¨
ur Gl. (4.65) immer ungenauer
gesch¨
atzt wird.
4.6 Zusammenfassung und Diskussion
F¨
ur die mehrkanalige Ger¨
auschreduktion mittels Beamforming wurden in diesem Kapitel
statistisch optimale Filterkoeffizienten im Frequenzbereich hergeleitet. Dabei kam eine konse-
quente Schreibweise der verallgemeinerten Zusammenh¨
ange zum Tragen, also die Verwendung
der Raum¨
ubertragungsfunktion H(Ω) zwischen dem Sprecher und der Mikrophongruppe,
anstatt der Vereinfachung durch den Steering Vector. Die hier gezeigten unterschiedlichen
Ans¨
atze Max-SNR-Kriterium, Minimierung der Varianz, Maximierung der Plausibilit¨
at und
Minimierung des kleinsten mittleren quadratischen Fehlers f¨
uhren alle zu den gleichen opti-
malen Filterkoeffizienten bez¨
uglich der r¨
aumlichen Selektivit¨
at und unterscheiden sich gerade
in einem skalaren Faktor, welcher als spektrale, einkanalige Nachfilterung betrachtet werden
kann. Wesentliche Unterschiede ergeben sich letztlich bei der Wahl des Adaptionsverfahrens14
und der konkreten Implementierung.
Das Max-SNR-Kriterium unterscheidet sich jedoch von den anderen Verfahren dadurch,
dass ein verallgemeinertes Eigenwertproblem gel¨
ost werden kann und hierf¨
ur keinerlei Wis-
sen ¨
uber die Sprecherposition und die Array-Geometrie notwendig ist, weshalb es auch als
“blindes” Verfahren bezeichnet werden kann. Die resultierenden Filterkoeffizienten beinhal-
ten implizit eine Sch¨
atzung der Raum¨
ubertragungsfunktion. Diese Eigenschaft bringt jedoch
auch einen entscheidenden Nachteil mit sich: da f¨
ur ein breitbandiges Sprachsignal15 die
14Die in diesem Kapitel aufgezeigten L¨
osungen f¨
ur die optimalen Filterkoeffizienten ergeben sich bei einer
entsprechenden Implementierung nach der Konvergenz der Koeffizienten. Dies kann mit unterschiedlichen
Adaptionsverfahren erreicht werden (siehe z. B. Abschnitt 5).
15In der Antennentechnik werden aufgrund der schmalbandigen Signale Strukturen mittels Eigenwert-
zerlegung bedeutend h¨
aufiger diskutiert als bei der breitbandigen Sprachsignalverarbeitung (siehe z. B.
[HBD00, Has02, EK03, YOZC04]).
4.6. Zusammenfassung und Diskussion 69
Eigenwert-Dekomposition f¨
ur jede Frequenz unabh¨
angig voneinander erfolgt, k¨
onnen gravie-
rende Sprachverzerrungen auftreten. Hier kann eine einkanalige Nachfilterung deutliche Ab-
hilfe schaffen, welche einen Zusammenhang zu dem GMVDR-Verfahren herstellen soll. Auf
M¨
oglichkeiten der Realisierung eines solchen Post Filters wird in Kapitel 6 eingegangen.
Da die explizite Sch¨
atzung der Raum¨
ubertragungsfunktion bzw. einzelner Ausbreitungs-
pfade in einer stark verhallten Umgebung sehr schwierig ist, werden solche Ans¨
atze zur kon-
struktiven Nutzung der Mehrwegeausbreitung nur vereinzelt in der Literatur diskutiert. Eine
fr¨
uhe Arbeit, welche sich mit der Sch¨
atzung ausgepr¨
agter Reflektionen besch¨
aftigt, ist in
[FSJ93] zu finden und f¨
uhrte zum so genannten Matched Filter Array [JF96]. Diese eher
theoretisch angesiedelten Simulationen (Array mit 200 Sensoren) wurde in [RRFM98] weiter
untersucht. In [AG97] fand der Matched-Filter-Ansatz eine Anwendung in einer GSC-Struktur
f¨
ur einen PC-Arbeitsplatz und einer expliziten Ber¨
ucksichtigung von Double-Talk-Situationen
in [AG96].
In [NNS01] ist ein Verfahren beschrieben, um multiple Beamformer, ausgerichtet auf den
direkten Pfad und fr¨
uhe Reflexionen, zu kombinieren. Ein ¨
ahnlicher Ansatz findet in [KHJ06]
Anwendung. Hier wird wieder eine explizite Sch¨
atzung mehrerer Ausbreitungspfade verwen-
det, um sequentiell kaskadierte MVDR Beamformer zu adaptieren.
Weitere erfolgreiche Ans¨
atze zur Ausnutzung der Mehrwegeausbreitung sind im Zusam-
menhang mit einer GSC-Struktur zu finden (siehe Kapitel 8). In [HSH99, HS01] werden adap-
tive Filter verwendet, um das verhallte Nutzsignal aus den Eingangssignalen herauszufiltern
(Blocking Matrix) und so St¨
orreferenzsignale zu erzeugen, die einen m¨
oglichst geringen An-
teil des Sprachsignals enthalten. Dieser Ansatz findet in [HK01] eine effiziente Realisierung
im Frequenzbereich und ist in [HK03] mit einer mehrkanaligen Echokompensation kombi-
niert. Eine zus¨
atzliche Erweiterung zur Robustheitssteigerung bei impulsartigen St¨
orungen
in Double-Talk-Situationen wird in [HBNK07] beschrieben. In [GBW01] wird ein Verfahren
vorgeschlagen um das Verh¨
altnis der ¨
Ubertragungsfunktionen (engl. Transfer Function Ratio)
durch Ausnutzung der relativen Stationarit¨
at der ¨
Ubertragungsfunktionen im Vergleich zu
dem Nutzsignal zu sch¨
atzen und so ebenfalls St¨
orreferenzsignale zu erzeugen. Dieser Ansatz
ist in [GC04] mit einem Post Filter zur weiteren St¨
orger¨
auschreduktion kombiniert.
70 Kapitel 4. Statistisch optimales Beamforming
Kapitel 5
Adaptive L¨
osung des Eigenwertproblems
Die Berechnung der optimalen Filterkoeffizienten nach dem Max-SNR-Kriterium im laufenden
Betrieb erfordert eine iterative L¨
osung des Eigenwertproblems Gl. (4.15) um eine adaptive
Nachf¨
uhrung der Filterkoeffizienten zu gew¨
ahrleisten. Grundvoraussetzung hierf¨
ur ist eine
robuste Sprache/Pause-Detektion (siehe Anhang D), um einerseits das Kreuzleistungsdich-
tespektrum des St¨
orschallfeldes und andererseits das Kreuzleistungsdichtespektrum aus der
¨
Uberlagerung von St¨
or- und Nutzsignal zu sch¨
atzen.
Im Folgenden soll zun¨
achst eine Untersuchung des speziellen Eigenwertproblems und an-
schließend des allgemeinen Eigenwertproblems erfolgen. Daf¨
ur werden Methoden vorgestellt
und analysiert, die einerseits ¨
uber Fixpunktverfahren und andererseits ¨
uber Gradientenver-
fahren einen Eigenvektor korrespondierend zum gr¨
oßten Eigenwert einer Matrix iterativ be-
stimmen. Weiterhin muss die Unterscheidung gemacht werden, ob die Statistik der Eingangs-
daten sich nicht mehr ¨
andert und davon ausgegangen wird, dass die entsprechenden Matrizen
deterministisch vorliegen. Oder, wie im Falle des akustischen Beamformings, die statistischen
Eigenschaften der Signale sich ¨
uber die Zeit sehr wohl ¨
andern, weshalb der ¨
Ubergang zu
stochastischen Iterationsvorschriften gemacht werden muss. Experimentelle Untersuchungen
bez¨
uglich des Konvergenzverhaltens von Verfahren aus der Literatur und eigenentwickelten
Verfahren zur iterativen Bestimmung des gesuchten Eigenvektors sollen hier durchgef¨
uhrt
werden.
Da die iterative Sch¨
atzung des gesuchten Eigenvektors f¨
ur den frequenzdiskreten Fall um-
gesetzt werden soll, und diese f¨
ur jede Frequenzkomponente unabh¨
angig voneinander durch-
zuf¨
uhren ist, wird in diesem Kapitel auf einen frequenzabh¨
angigen Parameter verzichtet. Dies
erh¨
oht die Lesbarkeit, insbesondere, da ein zus¨
atzlicher Index f¨
ur den Iterationsschritt einge-
f¨
uhrt werden muss.
5.1 Spezielles Eigenwertproblem
Die grundlegende Thematik dieses Abschnitts ist mit der Formulierung des speziellen Eigen-
wertproblems
ΦXXvi=λivi,1≤i≤M(5.1)
gegeben. Es sei angemerkt, dass die viin Gl. (5.1) nicht eindeutig bestimmt sind, da die
Eigenwertgleichung ebenfalls f¨
ur alle Vektoren ζvimit dem komplexwertigen Skalar ζgilt.
Außerdem existieren f¨
ur beliebige Matrizen ΦXX der Dimension M×Mnicht immer M
72 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
unabh¨
angige Eigenvektoren. Daher wird hier und im Folgenden immer davon ausgegangen,
dass die Eigenvektoren auf die Einheitsl¨
ange normiert sein sollen
||vi|| = 1,∀i. (5.2)
Obschon L¨
osungsvorschl¨
age f¨
ur die Problemstellung Gl. (5.1) seit ¨
uber 160 Jahren1in der
Literatur diskutiert werden, ist nach wie vor die iterative L¨
osung des Eigenwertproblems
Gegenstand aktueller Forschungsarbeiten aufgrund der hohen Relevanz im Bereich der nu-
merischen, linearen Algebra, siehe z. B. [GV00, CA03]. In dieser Arbeit ist von einer positiv
definiten, hermiteschen Matrix ΦXX der Dimension M×Mauszugehen, so dass die MEi-
genwerte λipositiv und reell sind. Diese seien der Gr¨
oße nach angeordnet
λ1> λ2≥...≥λM≥0.(5.3)
Weiterhin ist im Rahmen dieser Arbeit nur ein Eigenvektor korrespondierend zum gr¨
oßten
Eigenwert λ(max) =λ1zu bestimmen (engl. Principal Component Analysis, PCA). Dieser
tr¨
agt gem¨
aß der Nummerierung in Gl. (5.3) den Index Eins (v1) und entspricht gerade dem
gesuchten Filterkoeffizientenvektor F. Diese Definition entspricht der Annahme, dass in der
allgemeinen Betrachtung Gl. (4.15) die KLDS-Matrix der St¨
orung nicht ber¨
ucksichtigt wird
ΦXXF=λ(max)F.(5.4)
F¨
ur das Beamforming ist diese Formulierung ¨
aquivalent zur Ausrichtung der Hauptkeule des
Beampatterns in Richtung der dominanten Quelle. F¨
ur die Betrachtung der drei m¨
oglichen
Arten von St¨
orschallfeldern hat dies folgende Bedeutung:
•Da die unkorrelierte St¨
orung keinerlei Einfluss auf die “Richtung” von v1hat, sondern
lediglich auf dessen Skalierung, ergibt sich an dieser Stelle keinerlei Informationsverlust.
•Im Falle des diffusen St¨
orschallfeldes werden die frequenzabh¨
angigen Hauptkeulen eben-
falls korrekt auf den Zielsprecher ausgerichtet. Jedoch ergibt sich hier unter Vernach-
l¨
assigung des Koh¨
arenzterms Gl. (2.20) ein Verlust bez¨
uglich des maximal erzielba-
ren SNR-Gewinns aufgrund der reduzierten Direktivit¨
at. Da jedoch grunds¨
atzlich das
Nutzsignal in den einzelnen Signalpfaden nach der Filterung mit den Beamformer-
Koeffizienten koh¨
arent vorliegt, kann eine Nachfilterung ¨
ahnlich zum superdirektiven
Beamforming zur Steigerung der Direktivit¨
at vorgenommen werden.
•Ist im Raum jedoch eine starke, gerichtete St¨
orung vorhanden, so wird das frequenzab-
h¨
angige Beampattern, gegeben durch die L¨
osung von Gl. (5.4), sich entweder auf den
Sprecher oder auf die St¨
orung, bzw. einer Mischung aus beiden, ausrichten. F¨
ur diesen
Fall ist die L¨
osung des allgemeinen Eigenwertproblems Gl. (4.15) unerl¨
asslich. Daher
kann eine PCA-Adaption nur eingesetzt werden wenn keine starken St¨
orer vorhanden
sind. Dies ist ¨
uber eine SNR abh¨
angige Steuerung sicherzustellen.
Dies bedeutet also, dass im Falle nicht vorhandener gerichteter St¨
orquellen, oder wenn
diese zumindest im Vergleich zum Sprachsignal nur eine sehr geringe Leistung emittieren,
durch die L¨
osung des speziellen Eigenwertproblems die Filterkoeffizienten eine Matched Fil-
terung vornehmen und somit quasi ein“selbstjustierender”DSB realisiert werden kann. Dessen
Direktivit¨
at kann durch eine geeignete Nachfilterung noch erh¨
oht werden.
1Im Jahre 1846 erschien bereits eine wichtige Arbeit von Jacobi [Jac46] zur L¨
osung des Eigenwertproblems.
Da die Matrixnotation damals noch unbekannt war, formulierte er das Problem allerdings durch elementweise
Betrachtung von Systemgleichungen.
5.1. Spezielles Eigenwertproblem 73
5.1.1 Potenzmethode
Zun¨
achst soll davon ausgegangen werden, dass ΦXX aus der blockweisen Verarbeitung der
eingehenden Mikrophonsignale Xmmit dem Blockindex mbestimmt worden ist
ΦXX =
M
X
i=1
λivivH
i= lim
N→∞
1
N
N
X
m=1
XmXH
m(5.5)
und somit deterministische Methoden verwendet werden k¨
onnen. Als Motivation f¨
ur die Po-
tenzmethode kann nun folgende Vorgehensweise gesehen werden. F¨
ur den gesuchten Eigen-
vektor gilt unter Ber¨
ucksichtigung von Gl. (5.2)
ΦXXv1=λ1v1(5.6)
ΦXXv1
||ΦXXv1|| =v1.(5.7)
Mit der Einf¨
uhrung des Iterationsz¨
ahlers κ, ergibt sich das einfache Iterationsverfahren der
Potenzmethode2zu
ˆ
v1,κ =ΦXX ˆ
v1,κ−1
||ΦXX ˆ
v1,κ−1||, κ = 1,2,... (5.8)
mit dem Startvektor3
ˆ
v1,0=
M
X
i=1
civi, ci∈C, c16= 0.(5.9)
Das Konvergenzverhalten kann anschaulich an der Folge ΦXX ˆ
v1,0,ΦXX(ΦXX ˆ
v1,0),... be-
trachtet werden. Es gilt f¨
ur den κ-ten Schritt
Φκ
XX ˆ
v1,0=
M
X
i=1
ciλκ
ivi
=λκ
1"c1v1+
M
X
i=2
ciλi
λ1κ
vi#.(5.10)
Mit der Annahme Gl. (5.3) erkennt man, dass der rechte Term in Gl. (5.10) f¨
ur ein steigendes
κverschwindet und somit nur noch eine Komponente in die Richtung v1¨
ubrig bleibt. Die
Folge {ˆ
v1,κ}κ∈Nin Gl. (5.8) konvergiert also linear gegen c1/|c1|v1mit der Konvergenzrate
λ2/λ1, da der Ausdruck (λ2/λ1)κin Gl. (5.10) am langsamsten gegen Null strebt. Es bleibt
noch anzumerken, dass der Fehler zwischen zwei Iterationen von der Wahl der Startwerte ci
abh¨
angt, wie an Gl. (5.10) ebenfalls abgelesen werden kann.
Anhand der vorhergehenden Betrachtungen liegt der wesentliche Nachteil der Potenzme-
thode klar auf der Hand. Liegen die Eigenwerte nahe beieinander, so konvergiert die Folge
Gl. (5.8) nur sehr langsam. Abhilfe verschaffen hier zahlreiche Verfahren, welche in der Li-
teratur der letzten Jahrzehnte zu finden sind. Diese sind jedoch bedeutend komplexer vom
Rechenaufwand her oder gehen von bestimmten Annahmen an die Problemstellung aus. Liegt
2Housholder [Hou64] schreibt die erste Verwendung der Potenzmethode dem Mathematiker M¨
untz im
Jahre 1913 zu. Zuvor wurde sie jedoch in [Bod56] dem Mathematiker von Mises und dessen Ver¨
offentlichung
[VMPG29] im Jahre 1929 zuerkannt. Daher wird die Potenzmethode auch als Vektoriteration nach von Mises
bezeichnet.
3Es l¨
aßt sich keine Methode zur Bestimmung eines idealen Startvektors angeben. Als sinnvoll hat sich hier
die Wahl eines rein reellen Vektors mit gleichen Eintr¨
agen f¨
ur alle Elemente erwiesen.
74 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
z. B. eine gute Approximation der gesuchten Eigenwerte vor, so erreicht man mit der inversen
Iteration nach Wielandt [Wie44] eine erhebliche Beschleunigung der Potenzmethode. Viele
Methoden basieren auf Orthogonaltransformationsverfahren und beziehen die gesamte Itera-
tionsfolge {Φκ
XX ˆ
v1,0}κ∈Nin die Iteration ein, welche den so genannten Krylov Unterraum K
bildet
Kκ(ˆ
v1,0;ΦXX)≡span{ˆ
v1,0,ΦXX ˆ
v1,0,...,Φκ
XX ˆ
v1,0}.(5.11)
Mit span{u1,...,uM}ist ein Unterraum beschrieben, der durch die Vektoren u1,...,uMauf-
gespannt (engl. span) wird. Wichtige, grundlegende Verfahren sind hier das Lanczos-Verfahren
[Lan50] sowie das Arnoldi-Verfahren [Arn51].
F¨
ur die Bestimmung aller Eigenwerte und Eigenvektoren des Eigenwertproblems kann
z. B. der recht aufwendige QR-Algorithmus [Fra61] verwendet werden. Dabei wird in der Re-
gel zuerst eine Hessenberg-Matrix (quadratische Matrix, deren Eintr¨
age unterhalb der ersten
Nebendiagonalen gleich Null sind) berechnet und anschließend eine QR-Transformation4vor-
genommen. Weitere Verfahren zur Eigenwertbestimmung k¨
onnen z. B. [GV00] entnommen
werden.
Zusammenfassend l¨
asst sich sagen, dass bei Matrizen geringer Ordnung und Interesse
an lediglich eines Eigenvektors korrespondierend zum gr¨
oßten Eigenwert die Potenzmethode
aufgrund der geringen Rechenkomplexit¨
at ein sehr effektives Verfahren darstellt. Wobei je
nach Anwendung5auf die oben genannten Konvergenzeigenschaften zu achten ist. F¨
ur die
Anwendung des akustischen Beamformings bedeutet dies:
•F¨
ur das Max-SNR-Kriterium ist nur ein Eigenvektor einer Matrix geringer Ordnung zu
berechnen.
•Die Potenzmethode eignet sich auch bei schwach besetzten Matrizen.
•Der Rechenaufwand ist gering und eignet sich somit f¨
ur Echtzeit-Anwendungen.
•In der Regel6gilt λ1≫λ2, wodurch eine Konvergenz sichergestellt ist.
•Die letztendliche Konvergenzgeschwindigkeit h¨
angt maßgeblich von einer guten Sch¨
at-
zung der KLDS-Matrizen ab und weniger von der Konvergenzrate der Potenzmethode.
Nun soll der stochastische Fall betrachtet werden, f¨
ur den statt der Matrix ΦXX nur
eine stochastische Sch¨
atzung ˆ
ΦXX,κ zum Iterationszeitpunkt κvorliegt. Hierbei werden al-
le eingehenden Daten bis zum Iterationszeitpunkt f¨
ur die Sch¨
atzung ˆ
ΦXX,κ verwendet. In
der Regel ist dabei der Blockindex mgleichbedeutend mit dem Iterationsindex κ, so dass
zwischen drei M¨
oglichkeiten der Zeitreihenanalyse unterschieden werden kann: der Gleichm¨
a-
ßigen Gewichtung (GG), der Exponentiellen Gl¨
attung (EG) und der Instantanen Sch¨
atzung
(IS).
Gleichm¨
aßige Gewichtung (GG) Bei der gleichm¨
aßigen Gewichtung bzw. dem gleiten-
den Mittelwert (engl. Moving Average) tragen alle eingehenden Daten innerhalb eines gewis-
4Wenn Aeine gegebene Matrix mit linear unabh¨
angigen Spalten ist, so gibt es eine Matrix Qmit ortho-
gonalen Spalten und eine obere Dreiecksmatrix R, so dass A=QR gilt.
5Google benutzt z. B. die Potenzmethode zur Bewertung der relativen Wichtigkeit eines Links (PageRank).
6F¨
ur den Fall eines Ein-Sprecher-Szenarios gilt λ1≫λ2(siehe alternativ blinde Quellentrennung [TV07]).
5.1. Spezielles Eigenwertproblem 75
sen Zeitfensters Ngleichstark zur rekursiven Sch¨
atzung bei
ˆ
Φ(GG)
XX,κ =
κ−1
κˆ
Φ(GG)
XX,κ−1+1
κXκXH
κfalls 1 ≤κ≤N,
ˆ
Φ(GG)
XX,κ−1+1
NXκXH
κ−Xκ−NXH
κ−Nsonst.
(5.12)
W¨
ahlt man N→ ∞ so w¨
urde f¨
ur alle Zeiten die Gesamtheit der Eingangsdaten gleichgewich-
tet ber¨
ucksichtigt werden. Einerseits bedeutet dies, dass eine gute Approximation im Sinne
von Gl. (5.5) anf¨
allt, aber andererseits man ¨
Anderungen in der Statistik (z. B. Sprecherbe-
wegungen) f¨
ur große κnicht erfassen w¨
urde. Dennoch wird diese Variante der konsistenteren
Notation wegen mit der gleichm¨
aßigen Gewichtung assoziiert.
Exponentielle Gl¨
attung (EG) Die exponentielle Gl¨
attung versieht Daten mit abneh-
mender Aktualit¨
at mit einem geringer werdenden Gewicht
ˆ
Φ(EG)
XX,κ =αˆ
Φ(EG)
XX,κ−1+ (1 −α)XκXH
κ,0< α < 1,(5.13)
wobei die Gl¨
attungskonstante αnahe bei Eins liegt. Sie kann auch f¨
ur eine gew¨
unschte zeit-
liche Einwirktiefe τgder exponentiellen Gl¨
attung und gegebener Blockl¨
ange Lanalytisch
bestimmt werden mit
α= 1 −L
τg·fAb
.(5.14)
Instantaner Sch¨
atzer (IS) Wird lediglich der aktuelle Eingangsblock verwendet, so liegt
eine instantane Sch¨
atzung vor
ˆ
Φ(IS)
XX,κ =XκXH
κ.(5.15)
Solch ein Vorgehen weist nat¨
urlich eine hohe Varianz der Sch¨
atzung auf, erm¨
oglicht aber
auch ein schnelles Reagieren auf eine sich ¨
andernde Statistik der Eingangsdaten. In der Regel
wird eine instantane Sch¨
atzung im Zusammenhang mit einer weiteren Mittelung oder mit
Schrittweite-Verfahren verwendet.
F¨
ur die Iteration mittels der Potenzmethode bedeutet der stochastische Ansatz eine wech-
selseitige Aktualisierung von zuerst ˆ
ΦXX,κ und danach ˆ
v1,κ aus Gl. (5.8). In [Kar84] ist diese
wechselseitige Iteration mit Gl. (5.12) und N→ ∞ bereits explizit beschrieben. Hier sollen
nun zwei Algorithmen f¨
ur die stochastische Potenzmethode angegeben werden; zur L¨
osung
des speziellen Eigenwertproblems mittels Potenzmethode und gleichm¨
aßiger Gewichtung (S-
PM-GG):
Algorithmus 1 (S-PM-GG) W¨
ahle die Fenstergr¨
oße Nund einen Startvektor ˆ
v1,0∈CM. Be-
rechne f¨
ur κ= 1,2, . . .
ˆ
Φ(GG)
XX,κ := 8
>
>
<
>
>
:
κ−1
κˆ
Φ(GG)
XX,κ−1+1
κXκXH
κfalls 1≤κ≤N,
ˆ
Φ(GG)
XX,κ−1+1
N`XκXH
κ−Xκ−NXH
κ−N´sonst
a:= ˆ
Φ(GG)
XX,κ ˆ
v1,κ−1
ˆ
v1,κ := a
||a||
76 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
sowie f¨
ur das spezielle Eigenwertproblem mittels Potenzmethode und exponentieller Gewich-
tung (S-PM-EG):
Algorithmus 2 (S-PM-EG) W¨
ahle eine Gl¨
attungskonstante αund einen Startvektor ˆ
v1,0∈CM.
Berechne f¨
ur κ= 1,2, . . .
ˆ
Φ(EG)
XX,κ := αˆ
Φ(EG)
XX,κ−1+ (1 −α)XκXH
κ
a:= ˆ
Φ(EG)
XX,κ ˆ
v1,κ−1
ˆ
v1,κ := a
||a||
5.1.2 Projektionsapproximation
Eine Reduzierung des Rechenaufwands der Potenzmethode f¨
ur den stochastischen Fall mit
gleichm¨
aßiger Gewichtung zur Bestimmung von ˆ
ΦXX,κ ist in [RP02, RPW04] erl¨
autert. Dabei
wird entsprechend der Potenzmethode von folgendem Ausdruck ausgegangen
ˆ
Φ(GG)
XX,κ ˆ
v1,κ−1=1
κ
κ
X
m=1
XmXH
mˆ
v1,κ−1.(5.16)
Die Projektion von Xmauf ˆ
v1,κ−1in Gl. (5.16) wird dann wie folgt angen¨
ahert:
XH
mˆ
v1,κ−1≈XH
mˆ
v1,m−1∀m, κ 1≤m≤κ. (5.17)
Die rechte Seite von Gl. (5.17) entspricht gerade der Filterung der Eingangsdaten f¨
ur den
Block m, also der Definition Y∗
m:= XH
mˆ
v1,m−1. Verwendet man nun diese Definition mit der
Approximation Gl. (5.17) in Gl. (5.16) und setzt zus¨
atzlich noch Gl. (5.12) ein ergibt sich der
gleichgewichtete Projektionsvektor
p(GG)
κ=κ−1
κp(GG)
κ−1+1
κXκY∗
κ,(5.18)
bzw. mit Gl. (5.13) der exponentiell gewichtete Projektionsvektor
p(EG)
κ=αp(EG)
κ−1+ (1 −α)XκY∗
κ.(5.19)
Die Iterationsvorschrift der stochastischen Potenzmethode mit Projektionsapproximation7
besteht dann nat¨
urlich noch aus der Normierung
ˆ
v1,κ =pκ
||pκ||,(5.20)
wobei der hochgestellte Index f¨
ur die Bezeichnung der Gl¨
attung in Gl. (5.20) nicht expli-
zit aufgef¨
uhrt ist. Es bleibt also festzuhalten, dass durch die Projektionsapproximation eine
Komplexit¨
atsreduktion von der Ordnung O(M2) hin zu O(M) vorgenommen wurde.
7Projektionsmethoden, die eine N¨
aherung f¨
ur die Sch¨
atzung von Eigenr¨
aumen von Matrizen bilden, sind
auch unter dem Begriff Projection Approximation Subspace Tracking (PAST) Verfahren bekannt, auch wenn
diese Begrifflichkeit in [RP02, RPW04] nicht explizit f¨
allt.
5.1. Spezielles Eigenwertproblem 77
5.1.3 Gradientenverfahren
Setzt man f¨
ur die Gl¨
attungskonstante αin Gl. (5.19) einen Wert sehr nahe 1 an und bezeichnet
1−αals Schrittweite µ, so kann Gl. (5.19) wiederum approximiert werden durch
pκ=pκ−1+µXκ(XH
κpκ−1).(5.21)
Es ergibt sich damit ein Zusammenhang zu dem so genannten Hebbschen Postulat8des Phy-
siologen Donald Hebb von 1949. Darin beschreibt er prinzipiell die Regel Gl. (5.21) mit dem
Begriff Effizienz, welche in seinem Fall die synaptische Ver¨
anderung zwischen Nervenzellen
meint. Die Interpretation von Gl. (5.21) ist nun derart, dass es sich um ein Gradientenan-
stiegsverfahren handelt, welches die Ausgangsenergie |˜
Yκ|2:= |pH
κ−1Xκ|2mit fortlaufender
Iteration prinzipiell unendlich stark anwachsen l¨
asst. Definiert man die Kostenfunktion
J(pκ−1) = pH
κ−1ˆ
Φ(IS)
XX,κpκ−1,(5.22)
welche durch geeignete Wahl von pκ−1zu maximieren ist, so kann mit
∇pJ(pκ−1) = 2 ˆ
Φ(IS)
XX,κpκ−1(5.23)
an der allgemeinen Lernregel f¨
ur das Gradientenanstiegsverfahren
pκ=pκ−1+µ
2∇pJ(pκ−1) (5.24)
und Gl. (5.15) die Gleichheit von Gl. (5.21) und Gl. (5.24) eerkannt werden. Das Problem
des unbegrenzten Anwachsens von pκist in [Ama77] intuitiv mit einer expliziten Normierung
des Koeffizientenvektors wie folgt gel¨
ost:
Yκ:= ˆ
vH
1,κ−1Xκ→p1,κ =p1,κ−1+µXκY∗
κ→ˆ
v1,κ =pκ
||pκ||.(5.25)
Interessanterweise ist der explizite Normierungsschritt in Gl. (5.25) in [Oja82] implizit
in die Herleitung der Gradientenanstiegsmethode eingebunden. Diese Vorschrift wird wegen
[Oja82] auch synonym Ojas-Regel genannt. F¨
ur die folgende Herleitung des Algorithmus soll
zun¨
achst der deterministische Ansatz hergenommen werden. Daf¨
ur soll eine Maximierungs-
aufgabe mit Randbedingung formuliert werden:
max
vHvHΦXXvunter der Randbed. vHv=C2, C ∈R+.(5.26)
Die Norm der Filterkoeffizienten ist also durch den reellwertigen Parameter Cfestgelegt. Es
soll nun eine reelle Kostenfunktion definiert werden, welche im Vergleich zu Gl. (5.22) die
Randbedingung durch den reellwertigen Lagrange-Multiplikator βbeinhaltet
J(v) = vHΦXXv+β(vHv−C2).(5.27)
F¨
ur den Gradienten von J(v) bez¨
uglich den gesuchten Koeffizienten vergibt sich
∇vJ= 2ΦXXv+ 2βv,(5.28)
8”Wenn ein Axon der Zelle A nahe genug ist, um eine Zelle B zu erregen und wiederholt oder dauerhaft sich
am Feuern beteiligt, geschieht ein Wachstumsprozess oder metabolische ¨
Anderung in einer oder beiden Zellen
derart, dass A’s Effizienz, als eine der auf B feuernde Zellen, anw¨
achst.” (frei ¨
Ubersetzt nach D. Hebb, 1949)
78 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
welcher zu Null zu setzen ist. Dadurch l¨
asst sich schließlich mit Einhaltung der Nebenbedin-
gung der gesuchte Faktor βberechnen
β=vHΦXXv
C2.(5.29)
Die Iterationsgleichung f¨
ur ˆ
v1,κ mittels determinstischem Gradientenanstieg und Gl. (5.28)
sowie Gl. (5.29) ist
ˆ
v1,κ =ˆ
v1,κ−1+µ
2∇vJv=ˆ
v1,κ−1
(5.30)
=ˆ
v1,κ−1+µ ΦXXˆ
v1,κ−1−ˆ
vH
1,κ−1ΦXX ˆ
v1,κ−1
C2ˆ
v1,κ−1!.(5.31)
In [OK85, CHY98] wurde gezeigt, dass Oja’s Regel Gl. (5.31) gegen den gew¨
unschten Ei-
genvektor konvergiert, und also der Fehlerterm in der Klammer f¨
ur κ→ ∞ verschwindet.
Setzt man nun die instantane Sch¨
atzung Gl. (5.15) in Gl. (5.31) ein, so ergibt sich mit
Yκ=ˆ
vH
1,κ−1Xκdie stochastische Regel
ˆ
v1,κ =ˆ
v1,κ−1+µY ∗
κXκ−Yκ
C2ˆ
v1,κ,(5.32)
welche nach wie vor eine der beliebtesten Iterationsregeln zur Sch¨
atzung des Eigenvektors v1
darstellt. F¨
ur Gl. (5.32) bleibt der Koeffizientenvektor im station¨
aren Zustand (ˆ
v1,κ =ˆ
v1,κ−1)
unter folgenden Bedingungen: (i) ˆ
v1,κ =Cv1, (ii) ˆ
vH
1,κ ˆ
v1,κ =C2und (iii) Xκ=c1,κv1mit
c1,κ ∈C. Da die Bedingung (iii) bei der Adaption sicherlich nicht f¨
ur alle Eingangsdaten
zutrifft, wird die Sch¨
atzung je nach Gr¨
oße der Schrittweite µum den gesuchten Eigenvektor
herum schwanken. Es sei noch angemerkt, dass ¨
ublicherweise die Nebenbedingung (engl.
Constraint) zu C= 1 gesetzt wird.
5.1.4 Neuartiges Gradientenverfahren
Die Herleitung eines neuen Gradientenverfahrens zur iterativen Bestimmung von v1basiert
ebenfalls auf der Maximierungsaufgabe Gl. (5.26), der Kostenfunktion Gl. (5.27) und der
Gradientenanstieg-Methode Gl. (5.30). Das Verfahren wurde erstmals in [WHU05] pr¨
asen-
tiert und f¨
ur das akustische Beamforming eingesetzt. Der Lagrange-Multiplikator wird jedoch
mittels der Bedingung
ˆ
vH
1,κˆ
v1,κ !
=C2, C ∈R+.(5.33)
berechnet, also der Einhaltung der Nebenbedingung im n¨
achsten Iterationsschritt:
C2=ˆ
vH
1,κ−1+µˆ
vH
1,κ−1(ΦXX +βI)ˆ
v1,κ−1+µ(ΦXX +βI)ˆ
v1,κ−1
≈ˆ
vH
1,κ−1ˆ
v1,κ−1+ 2µˆ
vH
1,κ−1(ΦXX +βI)ˆ
v1,κ−1,(5.34)
wobei der Term mit µ2in der Approximation Gl. (5.34) vernachl¨
assigt wurde (aufgrund von
µ < 10−4). Man erh¨
alt schließlich f¨
ur den Lagrange-Multiplikator
β≈C2−ˆ
vH
1,κ−1ˆ
v1,κ−1−2µˆ
vH
1,κ−1ΦXX ˆ
v1,κ−1
2µˆ
vH
1,κ−1ˆ
v1,κ−1
.(5.35)
5.1. Spezielles Eigenwertproblem 79
Setzt man Gl. (5.35) in Gl. (5.28) ein und benutzt die Iterationsgleichung Gl. (5.30), ergibt
sich nach einiger Rechnung
ˆ
v1,κ =C2+ˆ
vH
1,κ−1ˆ
v1,κ−1
2ˆ
vH
1,κ−1ˆ
v1,κ−1
ˆ
v1,κ−1+µ ΦXX ˆ
v1,κ−1−ˆ
vH
1,κ−1ΦXX ˆ
v1,κ−1
ˆ
vH
1,κ−1ˆ
v1,κ−1
ˆ
v1,κ−1!,(5.36)
und ¨
aquivalent zu Gl. (5.32) kann auch hier mit Yκ=ˆ
vH
1,κ−1Xκeine stochastische Adapti-
onsregel angegeben werden
ˆ
v1,κ =C2+ˆ
vH
1,κ−1ˆ
v1,κ−1
2ˆ
vH
1,κ−1ˆ
v1,κ−1
ˆ
v1,κ−1+µY ∗
κ Xκ−Yκ
ˆ
vH
1,κ−1ˆ
v1,κ−1
ˆ
v1,κ−1!.(5.37)
An dem neuen Algorithmus ist zuerst einmal eine Eigenschaft offensichtlich: Wird bei
der Iteration die Nebenbedingung erf¨
ullt, so geht Gl. (5.37) in Ojas-Regel Gl. (5.32) ¨
uber.
Aber, Gl. (5.37) stellt bez¨
uglich der Nebenbedingung einen allgemeineren Fall im Vergleich
zu Gl. (5.32) dar, denn es wird nicht davon ausgegangen, dass die Nebenbedingung erf¨
ullt ist.
Vielmehr wird durch den ersten Term auf der rechten Seite von Gl. (5.37) ein Newtonsches
N¨
aherungsverfahren9zur Berechnung der Nullstelle von der Funktion f(ˆ
v1) = C2−ˆ
vH
1ˆ
v1
realisiert. F¨
ur den reellwertigen, skalaren Fall entspricht dies dem so genannten Babylonischen
Wurzelziehen10, wenn also die Nullstelle von f(a) = a2−ξgesucht wird mit a∈R, a > 0.
Die iterative Berechnung der Quadratwurzel von ξmit dem Iterationsindex κlautet
aκ+1 =aκ−f(aκ)∂f(aκ)
∂aκ−1
(5.38)
=ξ+a2
κ
2a2
κ
aκ.(5.39)
Das Iterations-Verfahren Gl. (5.39) konvergiert asymptotisch mit quadratischer Konvergen-
zordnung gegen lim
κ→∞aκ=√ξ. Vergleicht man Gl. (5.39) mit dem linken Term der rechten
Seite von Gl. (5.37), so ist zu erkennen, dass die Norm der iterativ berechneten Filterkoeffi-
zienten durch das Newton-Verfahren auf dem Wert Cgehalten werden bzw. in einer nahen
Umgebung von diesem. Dieses Verhalten f¨
uhrt zu einer erh¨
ohten Stabilit¨
at im Vergleich zu
Gl. (5.32), was durch Simulationen zum Konvergenzverhalten in [WHU05] gezeigt werden
konnte (siehe auch Anhang E.2).
5.1.5 RLS-¨
Ahnliche Konvergenz
Mit der Voraussetzung ˆ
vH
1,κ−1ˆ
v1,κ−1=C2= 1 soll eine Betrachtung zur Konvergenzbeschleu-
nigung mittels iterationsabh¨
angiger Schrittweite folgen. Diese Betrachtung ist angelehnt an
die rekursive Kleinste-Quadrate-Methode (engl. Recursive Least Squares, RLS) [Yan95, DK96,
CA03]. ¨
Ublicherweise wird beim RLS-Algorithmus ein gew¨
unschtes Signal durch ein Eingangs-
signal mittels Transversalfilterung rekonstruiert. Im Falle der Bestimmung des gesuchten Ei-
genvektors bedeutet dies jedoch, dass ˆ
v1,κˆ
vH
1,κXdas Eingangssignal Xso gut wie m¨
oglich
rekonstruiert. Daher lautet die Kostenfunktion anstatt dessen
J(ˆ
v1,κ) = E||X−ˆ
v1,κ ˆ
vH
1,κX||2≃
κ
X
i=1
ακ−i||Xi−ˆ
v1,κˆ
vH
1,κXi||2,(5.40)
9Das Newtonsche N¨
aherungsverfahren wird auch Newton-Raphsonsche Methode genannt.
10Das Babylonische Wurzelziehen ist auch bekannt als Heronverfahren nach Heron von Alexandria. Es kann
sehr effizient auf digitalen Signalprozessoren eingesetzt werden [AL05].
80 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
wobei αeinen Gl¨
attungsfaktor darstellt mit 0 < α ≤1. Benutzt man die Projektionsappro-
ximation ˆ
vH
1,κXi≈Yil¨
asst sich schließlich schreiben
J′(ˆ
v1,κ) =
κ
X
i=1
ακ−i||Xi−ˆ
v1,κYi||2.(5.41)
Der zu Null gesetzte Gradientenvektor von Gl. (5.41) ergibt die optimalen Filterkoeffizienten
ˆ
v1,κ =ˆ
ΦXY,κ ˆ
φ−1
Y Y,κ,(5.42)
wobei
ˆ
ΦXY,κ =
κ
X
i=1
ακ−iXiY∗
i=αˆ
ΦXY,κ−1+XκY∗
κ,(5.43)
ˆ
φY Y,κ =
κ
X
i=1
ακ−iYiY∗
i=αˆ
φY Y,κ−1+YκY∗
κ.(5.44)
und die Startwerte definiert sind zu
ˆ
ΦXY,0:= 0ˆ
φY Y,0:= 0.(5.45)
Mit der rekursiven Berechnung von ˆ
φ−1
Y Y,κ und ˆ
ΦXY,κ mittels Matrix Inversion Lemma und
der allgemeinen Vorgehensweise zur Bestimmung der RLS-Filterkoeffizienten nach [Hay02]
kann schließlich geschrieben werden
ˆ
v1,κ =ˆ
v1,κ−1+ˆ
φ−1
Y Y,κY∗
κ(Xκ−Yκˆ
v1,κ−1).(5.46)
Gl. (5.46) zeichnet sich durch den iterationsabh¨
angigen Faktor ˆ
φ−1
Y Y,κ aus, welcher als
iterationsabh¨
angige Schrittweite interpretiert werden kann. Bei der Wahl von 0 < α < 1
verschwindet diese f¨
ur große κ, da ˆ
φY Y,κ in Gl. (5.44) stetig anw¨
achst. Dies ist zwar f¨
ur die
asymptotische Konvergenz w¨
unschenswert, f¨
ur die Anwendung zum akustischen Beamforming
jedoch ungeeignet. Hier ist ja gerade das Verfolgen eines sich ¨
andernden Eigenvektors v1
w¨
unschenswert. Weitere Untersuchungen bez¨
uglich der Schrittweite sind im Anhang E.2 zu
finden.
Als Fazit der Ergebnisse Gl. (5.36), Gl. (5.37), Gl. (5.46) und Gl. (E.11) k¨
onnen zwei
Algorithmen f¨
ur das stochastische Gradientenverfahren angegeben werden; zur L¨
osung des
speziellen Eigenwertproblems mittels Gradientenverfahren und gleichm¨
aßiger Gewichtung (S-
Grad-GG):
5.1. Spezielles Eigenwertproblem 81
Algorithmus 3 (S-Grad-GG) Es gilt ˜µ−1
0:= 0. W¨
ahle die Fenstergr¨
oße N, eine Gl¨
attungs-
konstante α, den Schrittweitefaktor ρ, den Constraint Cund einen Startvektor ˆ
v1,0∈CM. Berechne f¨
ur
κ= 1,2, . . .
Yκ:= ˆ
vH
1,κ−1Xκ
˜µ−1
κ:= α˜µ−1
κ−1+ (1 −α)|Yκ|2
µκ:= ˜µκρC2
ˆ
Φ(GG)
XX,κ := 8
>
>
<
>
>
:
κ−1
κˆ
Φ(GG)
XX,κ−1+1
κXκXH
κfalls 1≤κ≤N
ˆ
Φ(GG)
XX,κ−1+1
N`XκXH
κ−Xκ−NXH
κ−N´sonst
Q:= ˆ
vH
1,κ−1ˆ
v1,κ−1
a:= ˆ
Φ(GG)
XX,κ ˆ
v1,κ−1
ˆ
v1,κ := C2+Q
2Qˆ
v1,κ−1+µκ a−ˆ
vH
1,κ−1a
Qˆ
v1,κ−1!
sowie f¨
ur das spezielle Eigenwertproblem mittels Gradientenverfahren und instantaner Sch¨
at-
zung der Kreuzleistungsdichten (S-Grad-IS):
Algorithmus 4 (S-Grad-IS) Es gilt ˜µ−1
0:= 0. W¨
ahle die Gl¨
attungskonstante α, den Schrittwei-
tefaktor ρ, den Constraint Cund einen Startvektor ˆ
v1,0∈CM. Berechne f¨
ur κ= 1,2, . . .
Yκ:= ˆ
vH
1,κ−1Xκ
˜µ−1
κ:= α˜µ−1
κ−1+ (1 −α)|Yκ|2
µκ:= ˜µκρC2
Q:= ˆ
vH
1,κ−1ˆ
v1,κ−1
ˆ
v1,κ := C2+Q
2Qˆ
v1,κ−1+µκY∗
κ„Xκ−Yκ
Qˆ
v1,κ−1«.
Der Parameter C2aus der Randbedingung ist wegen der Allgemeinheit eingef¨
uhrt und
der Faktor ρ, mit 0,05 < ρ < 0,5 soll die Sicherstellung der Konvergenz gew¨
ahrleisten.
5.1.6 Simulationen zum speziellen Eigenwertproblem
In diesem Abschnitt werden die Konvergenzgeschwindigkeiten des neuen Gradientenverfah-
rens und der Potenzmethode mit simulierten akustischen Eingangsdaten miteinander vergli-
chen. Das betrachtete Quellsignal hat hier eine zeitliche L¨
ange von ca. 4 Sekunden und wird
nach Szenario-1 f¨
ur M= 5 Mikrophonsignale erzeugt. Mit einer Blockl¨
ange von L= 256
und einem Vorschub von B= 128 ergibt dies lx= 382 zu verarbeitende Bl¨
ocke. Zu beachten
ist hierbei, dass die Sprache nach einer sehr kurzen Pause von 0,15 Sekunden, also von 14
Bl¨
ocken einsetzt.
Zun¨
achst erfolgt eine Untersuchung von Algorithmus 1 (S-PM-GG) und Algorithmus 3
(S-Grad-GG) hinsichtlich des relativen Fehlers der gesch¨
atzten Filterkoeffizienten zu dem
wahren Koeffizientenvektor und des erreichten SNRs. F¨
ur beide Verfahren gilt N > lx, so
dass ¨
uber die gesamte L¨
ange eine gleichgewichtete Gl¨
attung der Kreuzleistungsdichten er-
folgt. Weiterhin gilt jeweils f¨
ur die Initialisierung ˆ
v1,0= 1/√5·(1,1,1,1,1)T. Bei dem
Gradientenverfahren wurde C= 1, α= 0,98 und ρ= 0,1 gesetzt. Nun soll auch wieder die
Schreibweise mit der diskreten Frequenzkomponente Ωkf¨
ur die Vektoren verwendet werden.
Zu jedem Iterationszeitpunkt wird f¨
ur das aktuell gesch¨
atzte ˆ
Φ(GG)
XX,κ(Ωk) der wahre gesuchte
82 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
Eigenvektor v1,κ(Ωk) bestimmt. Dieses optimale Verfahren wird mit (S-Opt-GG) gekenn-
zeichnet. Dadurch l¨
asst sich ein relativer Fehler pro Frequenzkomponente definieren zu
e(ˆ
v1,κ(Ωk)) =
v1,κ(Ωk)
v1,1,κ(Ωk)−ˆ
v1,κ(Ωk)
ˆv1,1,κ(Ωk)·
v1,κ(Ωk)
v1,1,κ(Ωk)
−1
.(5.47)
Damit der Fehler eindeutig ist, wurden die Vektoren in Gl. (5.47) jeweils auf die erste Kom-
ponente ˆv1,1,κ(Ωk) bzw. v1,1,κ(Ωk) normiert. ¨
Uber alle Frequenzen gemittelt ergibt sich dann
der mittlere Fehler
¯e(ˆ
v1,κ) = 1
L
L
X
k=1
e(ˆ
v1,κ(Ωk)).(5.48)
Da das letztendlich wahrgenommene Ergebnis des akustischen Beamformings nicht der
relative Fehler Gl. (5.48) ist, sondern die Verbesserung des Sprachsignals, soll noch ein fre-
quenzabh¨
angiger asymptotischer SNR-Gewinn nach der Filterung definiert werden
SNRGκ(Ωk) = ˆ
vH
1,κ(Ωk)ˆ
Φ(GG)
SS,ls(Ωk)ˆ
v1,κ(Ωk)
ˆ
vH
1,κ(Ωk)ˆ
Φ(GG)
NN,lx(Ωk)ˆ
v1,κ(Ωk)·Spur{ˆ
Φ(GG)
NN,lx(Ωk)}
Spur{ˆ
Φ(GG)
SS,ls(Ωk)}
.(5.49)
In Gl. (5.49) ist mit ˆ
Φ(GG)
SS,ls(Ωk) die Matrix der Kreuzleistungsdichten des reinen Sprachsignals
bezeichnet, die ¨
uber lsBl¨
ocke gleichm¨
aßig gewichtet ermittelt wurde. Entsprechend Gl. (5.48)
ergibt sich ein asymptotischer SNR-Gewinn gemittelt ¨
uber alle Frequenzen
SNRGκ:= 10 ·log10 1
L
L
X
k=1
SNRGκ(Ωk)!dB.(5.50)
In Bild 5.1 sind beispielhafte Verl¨
aufe f¨
ur den Fehler Gl. (5.48) und den asymptotischen
SNR-Gewinn Gl. (5.50) f¨
ur den Fall von lediglich unkorreliertem, weißen Rauschen als St¨
or-
signal mit einem SNR pro Eingangssignal von 25dB dargestellt. In Bild 5.1 (a) und (b) sind
diese Verl¨
aufe f¨
ur eine Nachhallzeit von T60 = 0,05s und in Bild 5.1 (c) und (d) f¨
ur T60 = 0,5s
zu sehen.
Wird dem mehrkanaligen Sprachsignal noch diffuses Tiefpassrauschen mit einem SNR
von 5dB ¨
uberlagert, so sind die Ergebnisse in Bild 5.2 zu erreichen. An den repr¨
asentativen
Verl¨
aufen in den Bildern 5.1 und 5.2 ist klar zu erkennen, dass der gesuchte Eigenvektor
gefunden wird, und das schon nach wenigen Iterationsschritten. Da zu Beginn erst einige Si-
gnalbl¨
ocke zur Sch¨
atzung der Kreuzleistungsdichten ben¨
otigt werden, ergibt sich ein gewisser
Einschwingvorgang, der jeweils besonders an dem Fehler ¯e(ˆ
v1,κ) zu erkennen ist. F¨
ur die Po-
tenzmethode liegen die Kurven f¨
ur den asymptotischen SNR-Gewinn nahezu auf den optimal
ermittelten Verl¨
aufen. Bei dem Gradientenverfahren ist eine kleine Verz¨
ogerung zu erkennen,
die jedoch bei der gew¨
ahlten Abtastrate und Blockl¨
ange im Bereich von unter 100ms liegt.
Als letztes sollen noch Verl¨
aufe zur Konvergenzgeschwindigkeit pr¨
asentiert werden, wel-
che nicht aus einer gleichm¨
aßig gewichteten Sch¨
atzung der Matrix ˆ
ΦXX,κ(Ωk) hervorgehen,
sondern f¨
ur die Potenzmethode aus einer exponentiellen Gl¨
attung nach Algorithmus 2 (S-PM-
EG) und f¨
ur das Gradientenverfahren durch eine instantane Sch¨
atzung nach Algorithmus 4
(S-Grad-IS). Das zugrundeliegende Sprachsignal soll aus zwei Sequenzen bestehen. F¨
ur die
erste ist die Sprecherrichtung wieder 45◦wie in den Experimenten f¨
ur die Bilder 5.1 und 5.2.
In der zweiten Sequenz wechselt die Sprecherrichtung nach einer sehr kurzen Pause auf 0◦.
5.1. Spezielles Eigenwertproblem 83
00
1
2
100 200 300
κ
(a)
¯e(ˆ
v1,κ)
T60 = 0,05s
S-PM-GG
S-Grad-GG
0
0
2
4
6
8
100 200 300
κ
(b)
SNRGκ[dB]
T60 = 0,05s
S-PM-GG
S-Opt-GG
S-Grad-GG
00
1
2
100 200 300
κ
(c)
¯e(ˆ
v1,κ)
T60 = 0,5s
S-PM-GG
S-Grad-GG
0
0
2
4
6
8
100 200 300
κ
(d)
SNRGκ[dB]
T60 = 0,5s
S-PM-GG
S-Opt-GG
S-Grad-GG
Bild 5.1: Mittlerer Adaptionsfehler und SNR-Gewinn f¨
ur Algorithmus 1 (S-PM-GG) und Algorithmus 3 (S-
Grad-GG) bei unkorreliertem weißen Rauschen als St¨
orsignal.
00
1
2
100 200 300
κ
(a)
¯e(ˆ
v1,κ)
T60 = 0,05s
S-PM-GG
S-Grad-GG
0
0
2
4
6
8
100 200 300
κ
(b)
SNRGκ[dB]
T60 = 0,05s
S-PM-GG
S-Opt-GG
S-Grad-GG
00
1
2
100 200 300
κ
(c)
¯e(ˆ
v1,κ)
T60 = 0,5s
S-PM-GG
S-Grad-GG
0
0
2
4
6
8
100 200 300
κ
(d)
SNRGκ[dB]
T60 = 0,5s
S-PM-GG
S-Opt-GG
S-Grad-GG
Bild 5.2: Mittlerer Adaptionsfehler und SNR-Gewinn f¨
ur Algorithmus 1 (S-PM-GG) und Algorithmus 3 (S-
Grad-GG) bei diffusem Tiefpassrauschen und additivem unkorrelierten weißen Rauschen als St¨
orsi-
gnal.
Die Vektoren wurden wieder jeweils mit ˆ
v1,0= 1/√5·(1,1,1,1,1)Tinitialisiert und die
Werte f¨
ur die weiteren Parameter wurden wie folgt gew¨
ahlt: C= 1, α= 0,98 und ρ= 0,1.
In Bild 5.3 sind exemplarische Verl¨
aufe f¨
ur den SNR-Gewinn bei rein unkorrelierten additi-
ven St¨
orsignalen mit einem SNR von 25dB zu sehen; (a) f¨
ur eine Nachhallzeit von T60 = 0,05s
und (b) f¨
ur T60 = 0,5s. Zus¨
atzlich sind die SNR-Verl¨
aufe dargestellt, welche sich bei der op-
timalen Bestimmung der Eigenvektoren mit einer gleichm¨
aßig gewichteten Sch¨
atzung der
Matrizen ˆ
Φ(GG)
XX,κ(Ωk) ergeben, die jedoch zu Beginn der zweiten Sprachsequenz neu initia-
84 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
lisiert wurden. An den Ergebnissen in Bild 5.3 sind deutlich die Spr¨
unge zu erkennen, die
sich durch den Richtungswechsel bei κ= 380 ergeben. Beide Verfahren, Algorithmus 2 (S-
PM-EG) und Algorithmus 4 (S-Grad-IS) folgen recht gut den optimalen Verl¨
aufen, wobei f¨
ur
Algorithmus 4 (S-Grad-IS) die Abweichung minimal gr¨
oßer ist.
0
0
2
4
6
8
200 400 600
κ
(a)
SNRGκ[dB]
T60 = 0,05s
S-PM-EG
S-Opt-GG
S-Grad-IS
0
0
2
4
6
8
200 400 600
κ
(b)
SNRGκ[dB]
T60 = 0,5s
S-PM-EG
S-Opt-GG
S-Grad-IS
Bild 5.3: SNR-Gewinn f¨
ur Algorithmus 2 (S-PM-EG) und Algorithmus 4 (S-Grad-IS) bei unkorreliertem wei-
ßen Rauschen als St¨
orsignal und einem Wechsel der Sprecherrichtung bei κ= 380.
Wird den beiden Sprachsequenzen zus¨
atzlich zum unkorrelierten weißen Rauschen noch
eine additive diffuse St¨
orung mit einem SNR von 5dB ¨
uberlagert, so ergeben sich die bei-
spielhaften Verl¨
aufe in Bild 5.4. Aufgrund des recht hohen St¨
oranteils im Eingangssignal sind
nun die Schwankungen bez¨
uglich des SNR-Gewinns deutlich ausgepr¨
agter. Dennoch ist gut
zu erkennen, dass beide Algorithmen dem optimalen Verlauf folgen und insbesondere auf den
abrupten Wechsel der Sprecherrichtung reagiert wird.
0
0
2
4
6
8
200 400 600
(a) κ
SNRGκ[dB]
T60 = 0,05s
S-PM-EG
S-Opt-GG
S-Grad-IS
0
0
2
4
6
8
200 400 600
(b) κ
SNRGκ[dB]
T60 = 0,5s
S-PM-EG
S-Opt-GG
S-Grad-IS
Bild 5.4: SNR-Gewinn f¨
ur Algorithmus 2 (S-PM-EG) und Algorithmus 4 (S-Grad-IS) bei diffusem Tiefpass-
rauschen und additivem unkorrelierten weißen Rauschen als St¨
orsignal und einem Wechsel der Spre-
cherrichtung bei κ= 380.
Als Fazit l¨
asst sich an dieser Stelle sagen, dass trotz der h¨
oheren Schwankungen im
SNR-Gewinn das neuartige Gradientenverfahren mit instantaner Sch¨
atzung der Kreuzleis-
tungsdichten gem¨
aß Algorithmus 4 (S-Grad-IS) ein sehr schnelles und robustes Verfahren zur
Ermittlung und Verfolgung des gesuchten Eigenvektors darstellt. Da hier keinerlei Matrix-
Operationen ben¨
otigt werden, ist die Komplexit¨
at linear in Mund somit eine Potenz gerin-
ger als die Komplexit¨
at der Potenzmethode gem¨
aß Algorithmus 2 (S-PM-EG). Ein weiterer
Vorteil ist die einfache Vermeidung von zyklischen Effekten bei der Anwendung des Gradi-
entenverfahrens, welche bisher bei der Auflistung von Algorithmus 4 (S-Grad-IS) außer acht
gelassen wurden. In der letztendlichen Implementierung zur mehrkanaligen Sprachsignalver-
besserung sind jedoch noch drei Aspekte ber¨
ucksichtigt worden [Shy92]:
•Die Mikrophonsignale werden mittels Overlap-Save-Verfahrens mit den Filterkoeffizien-
5.2. Allgemeines Eigenwertproblem 85
ten gefiltert.
•Die Subtraktion in dem Fehlerterm Xκ(Ωk)−Yκ(Ωk)/(ˆ
vH
1,κ−1(Ωk)ˆ
v1,κ−1(Ωk))·ˆ
v1,κ−1(Ωk)
wird im Zeitbereich durchgef¨
uhrt.
•Der Gradiententerm, also die gesamte ¨
Anderung der Filterkoeffizienten von einem Ite-
rationsschritt zum n¨
achsten, wird im Zeitbereich f¨
ur die zweite H¨
alfte der Impulsant-
worten auf Null gesetzt.
5.2 Allgemeines Eigenwertproblem
In diesem Abschnitt wird die Kreuzleistungsdichtematrix der St¨
orung ΦNN beim Eigenwert-
problem mit ber¨
ucksichtigt
ΦXXvi=λiΦNNvi,(5.51)
mit den hermiteschen, positiv definiten Matrizen ΦXX,ΦNN ∈CM×M. Es soll wieder von
normierten Eigenvektoren mit ||vi|| = 1 ∀iausgegangen werden. Die Eigenwerte sind wieder-
um reellwertig und positiv, weshalb auch hier folgende Sortierung gelten soll:
λ1> λ2≥...≥λM≥0.(5.52)
Gesucht wird ein Eigenvektor v1korrespondierend zum gr¨
oßten Eigenwert λ1. Daf¨
ur sollen
im Folgenden zum einen Gradientenverfahren verwendet werden, die direkt die Matrizen
ΦXX und ΦNN ben¨
otigen. Zum anderen kommen Fixpunktverfahren zum Einsatz, welche die
Berechnung der Inversen von ΦNN voraussetzen und somit das allgemeine in ein spezielles
Eigenwertproblem umformen.
5.2.1 Potenzmethode und Projektionsapproximation
Das allgemeine Eigenwertproblem Gl. (5.51) kann in folgendes spezielles Eigenwertproblem
umgeschrieben werden
Φ−1
NNΦXXvi=λivi,(5.53)
so dass ¨
aquivalent zu Gl. (5.6) f¨
ur den gesuchten Eigenvektor gilt
Φ−1
NNΦXXv1=λ1v1(5.54)
Φ−1
NNΦXXv1
||Φ−1
NNΦXXv1|| =v1.(5.55)
Die iterative L¨
osung ergibt sich entsprechend zu
ˆ
v1,κ =Φ−1
NNΦXX ˆ
v1,κ−1
||Φ−1
NNΦXX ˆ
v1,κ−1|| κ= 1,2,3,... (5.56)
mit dem Startvektor ˆ
v1,0=PM
i=1 civi, ci∈C, c16= 0. F¨
ur die Konvergenz gilt entsprechend
den ¨
Uberlegungen in Abschnitt 5.1.1, dass die Konvergenzrate wieder maßgeblich durch das
Verh¨
altnis λ2/λ1bestimmt wird und die Folge {ˆ
v1,κ}κ∈Nin Gl. (5.56) linear gegen c1/|c1|v1
konvergiert. Zus¨
atzlich zu den Startwerten cih¨
angt der Iterationsfehler von einem Iterati-
onsschritt zum n¨
achsten noch von den Eigenwerten von ΦNN ab. Je kleiner das Verh¨
altnis
zwischen dem gr¨
oßten und dem kleinsten Eigenwert der Matrix ΦNN ist, je ¨
ahnlicher ΦNN
86 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
also der Einheitsmatrix wird, desto genauer wird im Allgemeinen die N¨
aherung ˆ
v1,κ f¨
ur den
Schritt κ[Kr¨
u07].
Beim Einsatz f¨
ur das akustische Beamforming sind nun zun¨
achst die Matrizen Φ−1
NN und
ΦXX zu sch¨
atzen. F¨
ur die Inverse der St¨
orleistungsdichten soll eine rekursive Gl¨
attung11 nach
Gl. (A.29) verwendet werden. Diese Sch¨
atzung wird zu Zeitpunkten durchgef¨
uhrt, in denen
nur das St¨
orsignal an den Sensoren vorliegt. Vice versa wird ΦXX gesch¨
atzt, w¨
ahrend Sprach-
aktivit¨
at vorliegt. W¨
ahrend dieser Sequenzen erfolgt ebenfalls wechselseitig die Iteration des
gesuchten Eigenvektors. Die Sch¨
atzung ˆ
Φ−1
NN ist w¨
ahrend dieser Zeiten unver¨
andert und soll
daher keinen Iterationsindex tragen. Es sollen nun zwei Algorithmen f¨
ur die stochastische
Potenzmethode angegeben werden; zur L¨
osung des allgemeinen Eigenwertproblems mittels
Potenzmethode und gleichm¨
aßiger Gewichtung (A-PM-GG):
Algorithmus 5 (A-PM-GG) Gegeben sei ˆ
Φ−1
NN. Setze A(GG)
0:= 0. W¨
ahle die Fenstergr¨
oße N
und einen Startvektor ˆ
v1,0∈CM. Berechne f¨
ur κ= 1,2, . . .
bκ:= ˆ
Φ−1
NNXκ
A(GG)
κ:= 8
>
>
<
>
>
:
κ−1
κA(GG)
κ−1+1
κbκXH
κfalls 1≤κ≤N
A(GG)
κ−1+1
N`bκXH
κ−bκ−NXH
κ−N´sonst
a:= A(GG)
κˆ
v1,κ−1
ˆ
v1,κ := a
||a||
sowie f¨
ur das allgemeine Eigenwertproblem mittels Potenzmethode und exponentieller Ge-
wichtung (A-PM-EG):
Algorithmus 6 (A-PM-EG) Gegeben sei ˆ
Φ−1
NN. Setze A(EG)
0:= 0. W¨
ahle eine Gl¨
attungskon-
stante αund einen Startvektor ˆ
v1,0∈CM. Berechne f¨
ur κ= 1,2, . . .
bκ:= ˆ
Φ−1
NNXκ
A(EG)
κ:= αA(EG)
κ−1+ (1 −α)bκXH
κ
a:= A(EG)
κˆ
v1,κ−1
ˆ
v1,κ := a
||a||
Der Rechenaufwand der Potenzmethode l¨
asst sich wiederum nach der Methode der Projek-
tionsapproximation gem¨
aß des Vorgehens in 5.1.2 reduzieren. Daf¨
ur sollen zwei Algorithmen
angegeben werden; zur L¨
osung des allgemeinen Eigenwertproblems mittels Projektionsappro-
ximation und gleichm¨
aßiger Gewichtung (A-PA-GG)
11Alternativ zur iterativen Berechnung der Inversen von ΦNN kann das allgemeine Eigenwertproblem auch
durch eine Cholesky-Zerlegung von ΦNN in ein spezielles Eigenwertproblem umgeformt werden.
5.2. Allgemeines Eigenwertproblem 87
Algorithmus 7 (A-PA-GG) Gegeben sei ˆ
Φ−1
NN. Setze p(GG)
0:= 0. W¨
ahle die Fenstergr¨
oße N
und einen Startvektor ˆ
v1,0∈CM. Berechne f¨
ur κ= 1,2, . . .
Y∗
κ:= XH
κˆ
v1,κ−1
p(GG)
κ:= 8
>
>
<
>
>
:
κ−1
κp(GG)
κ−1+1
κXκY∗
κfalls 1≤κ≤N
p(GG)
κ−1+1
N(XκY∗
κ−Xκ−NY∗
κ−N)sonst
a:= ˆ
Φ−1
NNp(GG)
κ
ˆ
v1,κ := a
||a||
sowie f¨
ur das allgemeinen Eigenwertproblem mittels Projektionsapproximation und exponen-
tieller Gewichtung (A-PA-EG):
Algorithmus 8 (A-PA-EG) Gegeben sei ˆ
Φ−1
NN. Setze p(EG)
0:= 0. W¨
ahle eine Gl¨
attungskonstante
αund einen Startvektor ˆ
v1,0∈CM. Berechne f¨
ur κ= 1,2, . . .
Y∗
κ:= XH
κˆ
v1,κ−1
p(EG)
κ:= αp(EG)
κ−1+ (1 −α)XκY∗
κ
a:= ˆ
Φ−1
NNp(EG)
κ
ˆ
v1,κ := a
||a||
F¨
ur die Konvergenz von Algorithmus 7 (A-PA-GG) gelten prinzipiell die gleichen ¨
Uber-
legungen wie f¨
ur Algorithmus 5 (A-PM-GG).
Weitere untersuchte Verfahren f¨
ur die iterative Berechnung des Eigenvektors zum gr¨
oß-
ten Eigenwert wie z. B. das Minimierungsverfahren mittels einer Quasi-Newton-Methode
[MRP96] oder das RLS-basierte Verfahren [YXYZ06] weisen ein ¨
aquivalentes oder schlechte-
res Adaptionsverhalten als die hier gezeigten Algorithmen auf [Kr¨
u07].
5.2.2 Neuartiges Gradientenverfahren
Das im Weiteren vorgestellte Gradientenverfahren basiert auf den gleichen Herleitungsschrit-
ten wie jenes in Abschnitt 5.1.4, jedoch mit dem Unterschied, dass die Kreuzleistungsdichte-
matrix der St¨
orung mit einbezogen wird. F¨
ur das Maximierungsproblem bedeutet dies
max
vHvHΦXXvunter der Randbed. vHΦNNv=C2, C ∈R+.(5.57)
Mit dem Lagrange-Multiplikator βkann dann eine Kostenfunktion angegeben werden
J(v, β) = vHΦXXv+β(vHΦNNv−C2),(5.58)
deren Gradientenvektor
∇vJ(v, β) = 2ΦXXv+ 2βΦNNv,(5.59)
in die Iterationsgleichung f¨
ur ˆ
v1,κ mittels deterministischem Gradientenanstieg
ˆ
v1,κ =ˆ
v1,κ−1+µ
2∇vJ(v, β)v=ˆ
v1,κ−1
(5.60)
einzusetzen ist. Um den Lagrange-Multiplikator zu berechnen wird nun gefordert, dass die
Nebenbedingung f¨
ur den Iterationsschritt κeingehalten bleibt
ˆ
vH
1,κΦNN ˆ
v1,κ !
=C2.(5.61)
88 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
Nach dem Einsetzen von Gl. (5.60) in Gl. (5.61) und der Verwendung von Gl. (5.59) ergibt
sich unter Vernachl¨
assigung der Terme quadratisch in µdie N¨
aherung
C2≈ˆ
vH
1,κ−1ΦNN ˆ
v1,κ−1+µˆ
vH
1,κ−1(ΦXXΦNN +ΦNNΦXX)ˆ
v1,κ−1
+ 2βµˆ
vH
1,κ−1ΦNNΦNN ˆ
v1,κ−1.(5.62)
Zur k¨
urzeren Schreibweise soll die Definition
Φ(XN)=ΦXXΦNN +ΦNNΦXX (5.63)
eingef¨
uhrt werden, welche in die nach βaufgel¨
oste N¨
aherung Gl. (5.62) eingesetzt wird
β≈C2−ˆ
vH
1,κ−1ΦNN ˆ
v1,κ−1−µˆ
vH
1,κ−1Φ(XN)ˆ
v1,κ−1
2µˆ
vH
1,κ−1ΦNNΦNN ˆ
v1,κ−1
.(5.64)
Unter Ausnutzung von Gl. (5.64) kann Gl. (5.60) mit Gl. (5.59) angegeben werden zu
ˆ
v1,κ ="I+C2−ˆ
vH
1,κ−1ΦNN ˆ
v1,κ−1
2ˆ
vH
1,κ−1ΦNNΦNN ˆ
v1,κ−1
ΦNN#ˆ
v1,κ−1
+µ ΦXX ˆ
v1,κ−1−ˆ
vH
1,κ−1Φ(XN)ˆ
v1,κ−1
2ˆ
vH
1,κ−1ΦNNΦNN ˆ
v1,κ−1
ΦNN ˆ
v1,κ−1!.
(5.65)
Definiert man weiter
Dκ−1=I+C2−ˆ
vH
1,κ−1ΦNN ˆ
v1,κ−1
2ˆ
vH
1,κ−1ΦNNΦNN ˆ
v1,κ−1
ΦNN ξκ−1=ˆ
vH
1,κ−1Φ(XN)ˆ
v1,κ−1
2ˆ
vH
1,κ−1ΦNNΦNN ˆ
v1,κ−1
,(5.66)
so ergibt sich f¨
ur Gl. (5.65)
ˆ
v1,κ =Dκ−1ˆ
v1,κ−1+µΦXX ˆ
v1,κ−1−ξκ−1ΦNN ˆ
v1,κ−1.(5.67)
Die Interpretation von Gl. (5.67) ist nun zweierlei. Zum einen sorgt die Matrix Dκ−1f¨
ur die
Einhaltung der Randbedingung und wird gerade zur Einheitsmatrix wenn diese erf¨
ullt ist.
Zum anderen bewirkt die Zielfunktion ξκ−1eine Art Steuerung der Anteile der beiden Vekto-
ren in den Klammern auf der rechten Seite von Gl. (5.67). Denn durch das positive Vorzeichen
von ΦXX ˆ
v1,κ−1strebt der Vektor in die Richtung, die ˆ
vH
1,κ−1ΦXX ˆ
v1,κ−1maximiert. Und das
negative Vorzeichen vor dem Ausdruck ΦNN ˆ
v1,κ−1bewirkt eine Verst¨
arkung des Vektors der
Richtung, welche ˆ
vH
1,κ−1ΦNN ˆ
v1,κ−1minimiert. Beide Ausdr¨
ucke sind bekanntlich im Gleich-
gewicht, wenn die Zielfunktion dem gr¨
oßten Eigenwert λ1und ˆ
v1,κ−1dem korrespondierenden
Eigenvektor v1entspricht.
Bei zahlreichen Experimenten hat sich herausgestellt, dass die Matrix Dκ−1zwar f¨
ur eine
sehr gute Einhaltung der Randbedingung sorgt, allerdings auch zu schwankenden Abwei-
chungen von dem optimalen Vektor f¨
uhren kann. Dieses Verhalten wird durch die drehende
Wirkung von Dκ−1verursacht, also hin zu der dominanten Komponente von ΦNN bei Un-
terschreitung der Randbedingung und entsprechend weg von der dominanten Richtung von
ΦNN bei ¨
Uberschreitung der Randbedingung. Daher wird eine heuristische ¨
Anderung von
Gl. (5.67) vorgenommen und Dκ−1ersetzt durch
e
Dκ−1:= C2+ˆ
vH
1,κ−1ΦNN ˆ
v1,κ−1
2ˆ
vH
1,κ−1ΦNN ˆ
v1,κ−1
,(5.68)
5.2. Allgemeines Eigenwertproblem 89
also durch lediglich einen Skalar der eine reine L¨
angen¨
anderung von ˆ
v1,κ−1bewirkt. Die
Verwendung von Gl. (5.68) ist motiviert durch die Erkenntnisse aus Abschnitt 5.1.4.
Als n¨
achstes soll die Bedeutung der Zielfunktion ξκ−1erl¨
autert werden. Dazu wird das
verallgemeinerte Eigenwertproblem aus Gl. (5.51) auf beiden Seiten mit ΦNN von links mul-
tipliziert und umgestellt
λi=vH
iΦNNΦXXvi
vH
iΦNNΦNNvi
.(5.69)
F¨
ur beliebige Vektoren vin Gl. (5.69) ergibt sich an Stelle von λiein komplexwertiger Skalar,
dessen Realteil die Form
ℜvHΦNNΦXXv
vHΦNNΦNNv=vHΦ(XN)v
2vHΦNNΦNNv=ξ(v) (5.70)
annimmt und man erkennt beim Vergleich mit Gl. (5.66), dass Gl. (5.70) einen zur Zielfunktion
ξκ−1¨
aquivalenten Ausdruck darstellt. Mit dem Rayleigh Quotienten
r(v) = vHΦXXv
vHΦNNv(5.71)
kann zwar f¨
ur v=vigefolgert werden, dass ξ(vi) = r(vi) gilt, f¨
ur beliebige vist jedoch der
theoretische Zusammenhang sehr schwierig zu zeigen. Daher sollen anhand von Monte-Carlo-
Simulationen Streudiagramme (engl. Scatterplot) zur graphischen Darstellung der Wertepaare
ξ(v) und r(v) pr¨
asentiert werden. Grundlage hierf¨
ur ist wieder das Szenario-2 und die Matri-
zen ΦXX und ΦNN sollen optimal gesch¨
atzt sein. Dann kann f¨
ur zuf¨
allig gew¨
ahlte Vektoren v
der sich ergebende Wert ξ(v)¨
uber r(v) als Punkt in ein kartesisches Koordinatensystem ein-
getragen werden. In Bild 5.5 sind f¨
ur unterschiedliche Frequenzen Streudiagramme abgebildet.
Die Nachhallzeit liegt bei T60 = 0,05s und die Anzahl der zuf¨
allig gezogenen komplexen Vek-
toren betrug 1000. Das Bild 5.6 zeigt die Streudiagramme f¨
ur unterschiedliche Frequenzen bei
0
0
0,5
0,5
1
1
ξ(v)/λ1
r(v)/λ1
f,0,5kHz
0
0
0,5
0,5
1
1
ξ(v)/λ1
r(v)/λ1
f,1kHz
0
0
0,5
0,5
1
1
ξ(v)/λ1
r(v)/λ1
f,2kHz
Bild 5.5: Streudiagramme f¨
ur unterschiedliche Frequenzen ausgewertet f¨
ur das Szenario-2 mit optimal be-
stimmten Matrizen und einer Nachhallzeit von T60 = 0,05 s.
einer Nachhallzeit von T60 = 0,5s und die Anzahl der zuf¨
allig gezogenen komplexen Vektoren
betrug wieder 1000. Interessant an den beispielhaften Ergebnissen in den Diagrammen Bild
5.5 und Bild 5.6 ist, dass keine eindeutige Aussage ¨
uber den Zusammenhang von ξ(v) und
r(v) gemacht werden kann. Es lassen sich lediglich zwei Tendenzen ausmachen. Zum einen
f¨
allt die Abweichung zwischen ξ(v) und r(v) bei steigender Nachhallzeit meistens kleiner aus,
und zum anderen n¨
ahert sich ξ(v) dem Wert von r(v) in der Regel von unten an, wenn sich
der ausgewertete Vektor der dominanten Komponente v1n¨
ahert. Die Interpretationen dieser
Tendenzen ist, dass in Gl. (5.67) die Maximierung durch ΦXXˆ
v1,κ−1gegen¨
uber der Minimie-
rung mittels ξκ−1ΦNN ˆ
v1,κ−1dominiert. Und zwar um so st¨
arker, je “sch¨
arfer” der Sprecher
90 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
00
0,5
0,5
1
1
ξ(v)/λ1
r(v)/λ1
f,0,5kHz
00
0,5
0,5
1
1
ξ(v)/λ1
r(v)/λ1
f,1kHz
00
0,5
0,5
1
1
ξ(v)/λ1
r(v)/λ1
f,2kHz
Bild 5.6: Streudiagramme f¨
ur unterschiedliche Frequenzen ausgewertet f¨
ur das Szenario-2 mit optimal be-
stimmten Matrizen und einer Nachhallzeit von T60 = 0,5 s.
von der St¨
orquelle zu trennen ist (also f¨
ur geringe Nachhallzeiten). Bei der Iteration von ˆ
v1,κ
wird also prinzipiell die Ausgangsleistung gegeben die Statistik des Mischsignals von Sprache
und St¨
orung schneller maximiert als die Leistung des gefilterten St¨
orsignals minimiert wird.
Bez¨
uglich der Wahl der Schrittweite sind im Anhang E.2 Absch¨
atzungen aufgrund von
Simulationen zu finden. Als Ergebnis dieser Experimente soll ein Wertebereich f¨
ur eine Schritt-
weite angegeben werden:
µκ=ρ
rκ
,0,05 < ρ < 1.(5.72)
In Gl. (5.72) ist mit ρzwar ein frei w¨
ahlbarer doch w¨
ahrend der Adaption konstanter Schritt-
weitefaktor bezeichnet. Der Parameter rκstellt den Rayleigh Quotienten zum aktuellen Ite-
rationsschritt dar. Weiterhin wird die KLDS-Matrix der St¨
orung in einer normierten Version
verwendet: e
ΦNN =ˆ
ΦNN/ˆσ2
N, mit ˆσ2
N= Spur{ˆ
ΦNN}/M.
Abschließend soll ein Algorithmus zur L¨
osung des allgemeinen Eigenwertproblems mittels
Gradientenverfahren und gleichm¨
aßiger Gewichtung in zwei Varianten angegeben werden;
mit der Zielfunktion wie sie sich nach der Herleitung in Gl. (5.67) (A-Grad-GG) ergibt und
alternativ mit dem aktuellen Rayleigh Quotienten als Zielfunktion (A-RQgrad-GG):
Algorithmus 9 (A-Grad-GG) und (A-RQgrad-GG) Gegeben sei ˆ
ΦNN und somit
e
ΦNN =ˆ
ΦNN/ˆσ2
N. Setze ˆ
Φ(GG)
XX,0:= 0. W¨
ahle die Fenstergr¨
oße N, den Schrittweitefaktor ρ, den Constraint
Cund einen Startvektor ˆ
v1,0∈CM. Berechne f¨
ur κ= 1,2, . . .
ˆ
Φ(GG)
XX,κ := 8
>
>
<
>
>
:
κ−1
κˆ
Φ(GG)
XX,κ−1+1
κXκXH
κfalls 1≤κ≤N
ˆ
Φ(GG)
XX,κ−1+1
N`XκXH
κ−Xκ−NXH
κ−N´sonst
a:= ˆ
Φ(GG)
XX,κ ˆ
v1,κ−1
b:= e
ΦNN ˆ
v1,κ−1
Q:= ˆ
vH
1,κ−1b
r:= ˆ
vH
1,κ−1a
Q
ξ:= (rf¨
ur Algorithmus (A-RQgrad-GG)
ℜ{ aHb
bHb}f¨
ur Algorithmus (A-Grad-GG)
ˆ
v1,κ := C2+Q
2Qˆ
v1,κ−1+ρ
r(a−ξb)
F¨
ur das allgemeine Eigenwertproblem mittels Gradientenverfahren und instantaner Sch¨
at-
zung der Kreuzleistungsdichten ergibt sich (A-Grad-IS) und alternativ mit dem aktuellen
5.2. Allgemeines Eigenwertproblem 91
Rayleigh Quotienten als Zielfunktion (A-RQgrad-IS):
Algorithmus 10 (A-Grad-IS) und (A-RQgrad-IS) Gegeben sei ˆ
ΦNN und somit e
ΦNN =
ˆ
ΦNN/ˆσ2
N. Setze P0:= 0. W¨
ahle die Gl¨
attungskonstante α, den Schrittweitefaktor ρ, den Constraint C
und einen Startvektor ˆ
v1,0∈CM. Berechne f¨
ur κ= 1,2, . . .
Yκ:= ˆ
vH
1,κ−1Xκ
Pκ:= αPκ−1+ (1 −α)|Yκ|2
b:= e
ΦNN ˆ
v1,κ−1
Q:= ˆ
vH
1,κ−1b
r:= Pκ
Q
ξ:= (rf¨
ur Algorithmus (A-RQgrad-IS)
ℜ{YκXH
κb
bHb}f¨
ur Algorithmus (A-Grad-IS)
ˆ
v1,κ := C2+Q
2Qˆ
v1,κ−1+ρ
r(Y∗
κXκ−ξb)
5.2.3 Simulationen zum allgemeinen Eigenwertproblem
Beispiele zum Konvergenzverhalten der im letzten Abschnitt vorgestellten Verfahren sollen im
Folgenden pr¨
asentiert werden. Das betrachtete Sprachsignal hat eine zeitliche L¨
ange von ca.
4 Sekunden, mit dessen Hilfe M= 5 Mikrophonsignale nach Szenario-2 f¨
ur unterschiedliche
Nachhallzeiten erzeugt werden. Das Sprachsignal f¨
allt also aus einer Richtung von 45◦und
das gerichtete Tiefpassrauschen unter einem Winkel von -20◦auf die Sensoren ein, wobei das
Tiefpassrauschen mit einem SNR von 5dB hinzugemischt wurde. Zus¨
atzlich sind den einzelnen
Signalpfaden jeweils unkorreliertes weißes Rauschen mit einem SNR pro Eingangssignal von
25dB ¨
uberlagert. Die Blockl¨
ange betr¨
agt wieder L= 256, der Vorschub B= 128 und die
Anzahl zu verarbeitenden Bl¨
ocke ergibt lx= 382.
Die untersuchten Verfahren sind zun¨
achst Algorithmus 5 (A-PM-GG), Algorithmus 7 (A-
PA-GG) und die beiden Varianten Algorithmus 9 (A-Grad-GG)/(A-RQgrad-GG). Es gilt
N > lx, so dass ¨
uber die gesamte L¨
ange eine gleichgewichtete Gl¨
attung der Kreuzleistungs-
dichten erfolgt und die Initialisierung ist zu ˆ
v1,0= 1/√5·(1,1,1,1,1)Tgew¨
ahlt. F¨
ur die
Gradientenverfahren wird e
ΦNN(Ωk) = Mˆ
ΦNN(Ωk)/Spur{ˆ
ΦNN(Ωk)}eingesetzt, wodurch
mit C= 1/32 eine Reduzierung der St¨
orleistung vom Eingang zum Ausgang um ca. 15dB
festgelegt wird. Weiterhin wurde der Schrittweitefaktor zu ρ= 0,6 gesetzt. In Bild 5.7 ist der
Fehler Gl. (5.48) und der asymptotische SNR-Gewinn Gl. (5.50) aufgetragen: in (a) und (b)
f¨
ur eine Nachhallzeit von T60 = 0,05s und in (c) und (d) f¨
ur T60 = 0,5s. Aus ¨
Ubersichtlich-
keitsgr¨
unden wird auf den Verlauf des optimalen Ergebnisses verzichtet.
An den Ergebnissen in Bild 5.7 sind drei Eigenschaften festzustellen:
•Der Unterschied zwischen dem Verfahren mit Projektionsapproximation und der Po-
tenzmethode ist sehr gering. Die Approximation Gl. (5.17) ist also zul¨
assig und f¨
uhrt
kaum zu Einbußen.
•Bei den zwei Varianten des Gradientenverfahrens ist kein wesentlicher Unterschied zu
erkennen.
•Trotz eines Fehlers ¯e(ˆ
v1,κ)6= 0 kann der SNR-Gewinn nahezu konvergiert sein.
92 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
00
0,5
1
1,5
2
100 200 300
(a) κ
¯e(ˆ
v1,κ)
T60 = 0,05s
A-PM-GG
A-PA-GG
A-Grad-GG
A-RQgrad-GG
00
5
10
15
20
100 200 300
(b) κ
SNRGκ[dB]
T60 = 0,05s
A-PM-GG
A-PA-GG
A-Grad-GG
A-RQgrad-GG
00
0,5
1
1,5
2
100 200 300
(c) κ
¯e(ˆ
v1,κ)
T60 = 0,5s
A-PM-GG
A-PA-GG
A-Grad-GG
A-RQgrad-GG
0
0
2
4
6
8
100 200 300
(d) κ
SNRGκ[dB]
T60 = 0,5s
A-PM-GG
A-PA-GG
A-Grad-GG
A-RQgrad-GG
Bild 5.7: Mittlerer Adaptionsfehler und SNR-Gewinn f¨
ur Algorithmus 5 (A-PM-GG), Algorithmus 7 (A-PA-
GG) und die beiden Varianten Algorithmus 9 (A-Grad-GG)/(A-RQgrad-GG) bei gerichtetem Tief-
passrauschen und additivem unkorrelierten weißen Rauschen als St¨
orsignal.
•F¨
ur die Gradientenverfahren stellt sich eine schnellere Konvergenz mit steigender Nach-
hallzeit ein.
Um einer sich ¨
andernden Statistik zu folgen – hervorgerufen etwa durch einen sich bewe-
genden Sprecher – ist wieder beim Einsatz f¨
ur das akustische Beamforming von der gleichge-
wichteten Gl¨
attung abzusehen. Es wird daher die exponentielle Gl¨
attung f¨
ur die Potenzme-
thode Algorithmus 6 (A-PM-EG) und f¨
ur die Projektionsapproximation aus Algorithmus 8
(A-PA-EG) verwendet. F¨
ur die beiden Gradientenverfahren kommt die instantane Sch¨
atzung
in Algorithmus 10 (A-Grad-IS)/(A-RQgrad-IS) zum Einsatz. Das zugrundeliegende Sprach-
signal soll aus zwei Sequenzen bestehen. F¨
ur die erste ist die Sprecherrichtung wieder 45◦
wie in den Experimenten in Bild 5.7, und in der zweiten Sequenz wechselt die Sprecher-
richtung nach einer sehr kurzen Pause auf 0◦. Die Initialisierung der Vektoren wurde zu
ˆ
v1,0= 1/√5·(1,1,1,1,1)Tgew¨
ahlt und die Werte der weiteren Parameter betrugen
C= 1/32, α= 0,98 und ρ= 0,6. Die KLDS-Matrix der St¨
orung kam in der normierten
Form e
ΦNN(Ωk) = Mˆ
ΦNN(Ωk)/Spur{ˆ
ΦNN(Ωk)}zum Einsatz. Exemplarische Ergebnisse
dieser Anordnung sind in Bild 5.8 dargestellt; links f¨
ur eine Nachhallzeit von T60 = 0,05s
und rechts f¨
ur T60 = 0,5s. Es zeigt sich hierbei ein deutlicher Unterschied zwischen den
Gradientenverfahren und den Fixpunktalgorithmen. Obschon die Schrittweite f¨
ur die Gradi-
entenverfahren relativ hoch gew¨
ahlt wurde, ist die Konvergenzgeschwindigkeit im Vergleich
zur Potenzmethode und dem Verfahren mit Projektionsapproximation signifikant geringer,
insbesondere bei niedrigen Nachhallzeiten. Wird zus¨
atzlich zur gerichteten St¨
orung noch dif-
fuses Rauschen hinzuaddiert, so f¨
allt der Unterschied im Konvergenzverhalten umso geringer
aus, je h¨
oher der Anteil des diffusen Rauschens im Verh¨
altnis zur gerichteten St¨
orung ist.
Abschließend l¨
asst sich bez¨
uglich der vorgestellten Verfahren zur adaptiven Berechnung
des Eigenvektors korrespondierend zum gr¨
oßten Eigenwert eines allgemeinen Eigenwertpro-
blems folgern, dass zwar die Komplexit¨
at O(M2) f¨
ur die Potenzmethode und die Gradien-
5.2. Allgemeines Eigenwertproblem 93
00
5
10
15
20
200 400 600
(a) κ
SNRGκ[dB]
T60 = 0,05s
A-PM-EG
A-PA-EG
A-RQgrad-IS
A-Grad-IS
00
5
10
15
20
200 400 600
(b) κ
SNRGκ[dB]
T60 = 0,5s
A-PM-EG
A-PA-EG
A-RQgrad-IS
A-Grad-IS
Bild 5.8: SNR-Gewinn f¨
ur Algorithmus 6 (A-PM-EG), Algorithmus 8 (A-PA-EG) und die beiden Varianten
Algorithmus 10 (A-Grad-IS)/(A-RQgrad-IS) bei einem Sprecherwechsel und station¨
arer St¨
orung be-
stehend aus gerichtetem Tiefpassrauschen und additivem unkorrelierten, weißen Rauschen .
tenverfahren gleich sind, das Adaptionsverhalten der Potenzmethode jedoch deutlich besser
ausf¨
allt. Einen geringeren Rechenaufwand erfordert der Algorithmus mittels Projektionsap-
proximation bei sehr ¨
ahnlichem Verhalten wie die Potenzmethode. Bei den beiden Varianten
des Gradientenverfahrens l¨
asst sich keine eindeutige Pr¨
aferenz aussprechen. Der gr¨
oßte Nach-
teil bei beiden Varianten liegt darin, dass ein geeigneter Schrittweitefaktor gew¨
ahlt werden
muss. Dieser Nachteil sollte dann in Kauf genommen werden, wenn ˆ
ΦNN(Ωk) ebenfalls durch
eine instantane Sch¨
atzung approximiert wird und die Rechenkomplexit¨
at dadurch um eine
Potenz geringer ausf¨
allt, also linear in Mist. In [Mor04] werden z. B. zweistufige Gradien-
tenverfahren f¨
ur den Anwendungsbereich in der Mobilfunktechnik beschrieben die auf einer
instantanen Sch¨
atzung der KLDS-Matrix der St¨
orung basieren.
Zum Einsatz der Fixpunktverfahren f¨
ur das Beamforming muss bei der letztendlichen
Implementierung im Frequenzbereich und der Nutzung des Overlap-Save-Verfahrens auf die
Vermeidung der zyklischen Faltung geachtet werden. Ein m¨
ogliches Vorgehen ist hierbei:
•Pro Verarbeitungskanal ist die Blockl¨
ange bzw. FFT-L¨
ange Lmit dem Vorschub B,
so dass Lzu filternde Spektralkomponenten anfallen, f¨
ur die also LFilterkoeffizienten
berechnet werden.
•Nach der R¨
ucktransformation der Filterkoeffizienten in den Zeitbereich werden L−
BFilterkoeffizienten pro Signalpfad herausgeschnitten, mit Nullen auf die L¨
ange L
aufgef¨
ullt und wieder in den Frequenzbereich transformiert.
Anmerkungen zu ˆ
ΦNN(Ωk) Die KLDS-Matrix kann mittels einer exponentiellen Gl¨
at-
tung in den Sprachpausen gesch¨
atzt werden. Da angenommen wird, dass sich die Statistik
der St¨
orung nur langsam ¨
andert, kann diese Sch¨
atzung auch w¨
ahrend Sprachaktivit¨
at als
g¨
ultig erachtet werden. Durch die exponentielle Gl¨
attung wird gew¨
ahrleistet, dass langsame
¨
Anderungen von Sprachpause zu Sprachpause erfassbar sind.
Bei unkorrelierten St¨
oranteilen und bei diffusem Rauschen sind die jeweiligen Strukturen
von ΦNN(Ωk) gegeben durch die Einheitsmatrix bzw. die mit si-Termen gef¨
ullte Koh¨
arenz-
matrix. Aber diese beiden Strukturen ergeben sich erst nach der Erwartungswert-Bildung
¨
uber eine große Menge von Eingangsdaten. Hingegen gilt f¨
ur den Anteil einer gerichteten
St¨
orung Nm(Ωk)NH
m(Ωk) = |Nc,m(Ωk)|2A(Ωk)AH(Ωk), mit A(Ωk) als ¨
Ubertragungsfunkti-
on der gerichteten St¨
orung. Jeder Block menth¨
alt somit bereits die Information ¨
uber die
Struktur von ΦNN, welcher als Beitrag in das exponentiell gegl¨
attete ˆ
ΦNN(Ωk) eingeht. Dies
94 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
bedeutet also, dass nur ein paar Bl¨
ocke f¨
ur eine gute Sch¨
atzung notwendig sind. Bei steigender
Nachhallzeit kommen bei rein gerichteten St¨
orungen noch diffuse Komponenten zu ˆ
ΦNN(Ωk)
aufgrund der dann zu kurzen Blockl¨
ange hinzu. Es sind dann also mehr Eingangsbl¨
ocke f¨
ur
eine gute Sch¨
atzung notwendig.
Aus Robustheitsgr¨
unden sollte generell noch ein Regularisierungsterm der Gr¨
oßenord-
nung −30dB bis −40dB ¨
uberlagert werden [Bit02]: ˆ
ΦNN(Ωk) := ˆ
ΦNN(Ωk) + δσ2
N(Ωk)I, mit
0,001 < δ < 0,0001.
Anmerkungen zu ˆ
Φ−1
NN(Ωk) F¨
ur Mikrophongruppen mit wenigen Sensoren ist auch eine
direkte Inversion von ˆ
ΦNN(Ωk) am Ende einer Sprachpause denkbar. In dieser Arbeit findet
jedoch die rekursive Sch¨
atzung nach Gl. (A.29) Anwendung. Dabei kann insbesondere eine ge-
ringe Quantisierungsaufl¨
osung zu numerischen Problemen f¨
uhren. Auch hier ist mittels eines
zus¨
atzlichen Regularisierungsterms eine Steigerung der Robustheit der Sch¨
atzung ˆ
Φ−1
NN(Ωk)
zu erzielen. Allerdings muss hierf¨
ur bei der inversen Sch¨
atzung zu den Eingangsdaten ein
Rauschen hinzuaddiert werden. Eine effiziente Implementierung ist dabei im Frequenzbereich
m¨
oglich [Fis07]. In jedem Iterationsschritt wird ein M-dimensionaler, komplexer Vektor aus
einer Normalverteilung gezogen und entsprechend gewichtet zur ersten Frequenzkomponente
der Eingangsdaten hinzuaddiert. Diese Zufallswerte werden dann nach jedem Iterationsschritt
in Richtung steigender Frequenzkomponenten verschoben und zu diesen neu gewichtet hin-
zuaddiert.
Bez¨
uglich der Geschwindigkeit f¨
ur eine vertrauensw¨
urdige Sch¨
atzung gelten die gleichen
¨
Uberlegungen wie bei der Ermittlung von ˆ
ΦNN(Ωk).
Anmerkungen zur Nichtstationarit¨
at der Sprache Es gelten die oben gemachten An-
merkungen zu ˆ
ΦNN und ˆ
Φ−1
NN, wobei an dieser Stelle wieder auf die frequenzabh¨
angige Nota-
tion verzichtet wird. Diese Matrizen sind w¨
ahrend der Adaption von ˆ
v1,κ unver¨
andert, jedoch
ist die Varianz der Sprache φScSc,κ nun abh¨
angig von dem Iterationsschritt, welcher gleich-
bedeutend mit dem Blockindex ist. Das allgemeine Eigenwertproblem kann somit formuliert
werden zu
ˆ
Φ−1
NN ˆ
ΦXX,κ ˆ
v1,κ =ˆ
λ1,κˆ
v1,κ (5.73)
ˆ
Φ−1
NN hφScSc,κHHH+ˆ
ΦNNiˆ
v1,κ =ˆ
λ1,κˆ
v1,κ,(5.74)
mit der aktuellen Sch¨
atzung ˆ
λ1,κ f¨
ur den gr¨
oßten Eigenwert. Weiter umgestellt folgt aus Gl.
(5.74) schließlich
ˆ
Φ−1
NNHHHˆ
v1,κ =ˆ
λ1,κ −1
φScSc,κ
ˆ
v1,κ,mit φScSc,κ 6= 0.(5.75)
An Gl. (5.75) ist zu erkennen, dass die Nichtstationarit¨
at der Sprache lediglich die “L¨
ange”
des gesch¨
atzten Eigenvektors ¨
andert aber nicht dessen “Richtung”. Da aber nach jedem Ite-
rationsschritt die Sch¨
atzung ˆ
v1,κ auf die Einheitsl¨
ange normiert wird, spielt diese Tatsache
f¨
ur das Beamforming keine Rolle, solange sich die Position des Sprechers – und damit die
¨
Ubertragungsfunktion H– nicht ¨
andert.
5.3. Zusammenfassung 95
5.3 Zusammenfassung
In diesem Kapitel wurden iterative Verfahren zur Bestimmung des Eigenvektors korrespon-
dierend zum gr¨
oßten Eigenwert eines speziellen und des allgemeinen Eigenwertproblems pr¨
a-
sentiert und miteinander verglichen. Einerseits waren dies Fixpunktverfahren wie die Potenz-
methode und der Algorithmus mittels Projektionsapproximation und andererseits eigenent-
wickelte Gradientenverfahren.
Die experimentellen Ergebnisse f¨
ur das allgemeine Eigenwertproblem bez¨
uglich der Kon-
vergenz zeigen eine ¨
Uberlegenheit der Fixpunktverfahren im Vergleich zu den Gradienten-
verfahren, insbesondere, da sie unabh¨
angig von Schrittweitefaktoren sind. Daher sollte die
Potenzmethode zum Einsatz f¨
ur das akustische Beamforming unter Ber¨
ucksichtigung der
Kreuzleistungsdichtematrix der St¨
orung pr¨
aferiert werden. Um eine Nachf¨
uhrung der Filter-
koeffizienten bei einem sich bewegenden Sprecher zu erm¨
oglichen, ist das stochastische Verfah-
ren Algorithmus 6 (A-PM-EG) mit exponentieller Gl¨
attung der KLDS-Matrix der Eingangs-
daten einzusetzen. F¨
ur die neuartige GSC-Struktur mittels adaptiver Eigenwertzerlegung in
Kapitel 8 sollte jedoch das Verfahren Algorithmus 5 (A-PM-GG) verwendet werden, da dort
von keinerlei (oder sehr geringen) Sprecherbewegungen w¨
ahrend der Adaption ausgegangen
wird.
Beim Einsatz eines Beamformers mit den optimalen Filterkoeffizienten nach dem Max-
SNR-Kriterium in einer “gem¨
aßigten” Umgebung, wenn also außer dem Sprecher keine weite-
ren dominanten Schallquellen zu erwarten sind, sollte lediglich das spezielle Eigenwertproblem
der Kreuzleistungsdichtematrix der Mikrophonsignale gel¨
ost werden. Hier zeigt das neuartige
Gradientenverfahren vergleichbare Konvergenzeigenschaften wie die Potenzmethode auf, hat
jedoch eine deutlich geringere Rechenkomplexit¨
at. Daher kann unter diesen Randbedingungen
das eigenentwickelte stochastische Gradientenverfahren Algorithmus 4 (S-Grad-IS) eingesetzt
werden. Dieses ist als Erweiterung der bekannten Adaptionsregel nach Oja anzusehen, jedoch
im Vergleich zu dieser weist das neue Verfahren eine signifikante Steigerung der Robustheit
bez¨
uglich der Stabilit¨
at auf, was in den vergleichenden Analysen im Anhang gezeigt werden
konnte.
96 Kapitel 5. Adaptive L¨
osung des Eigenwertproblems
Kapitel 6
Einkanaliges Nachfilter f¨
ur das
Eigenvektor-Beamforming
In Kapitel 4 wurde gezeigt, dass unterschiedliche Optimierungskriterien zu statistisch optima-
len Filterkoeffizienten f¨
uhren, welche sich nur in einem skalaren Faktor unterscheiden. Hierbei
zeigt das Max-SNR-Kriterium insbesondere den Vorteil, dass keinerlei Wissen ¨
uber die geome-
trische Anordnung zur Bestimmung der Filterkoeffizienten notwendig ist. Diese Koeffizienten
k¨
onnen ¨
uber adaptive Algorithmen zur L¨
osung eines Eigenwertproblems im Frequenzbereich,
wie sie in Kapitel 5 vorgestellt wurden, berechnet werden. Es ergibt sich also der iterativ
bestimmte Vektor
ˆ
v1(Ω) = ˜
FSNR(Ω) = ζ(Ω)FSNR(Ω), ζ(Ω) ∈C.(6.1)
Die Filterung der mehrkanaligen Eingangsdaten mit einem Eigenvektor korrespondierend zum
verallgemeinerten Eigenwertproblem wird als Generalized Eigenvector (GEV) Beamforming
bezeichnet. Bei der Filterung der Eingangsdaten mit einem Eigenvektor korrespondierend zum
speziellen Eigenwertproblem hingegen wird hier von Principal Component Analysis (PCA)
Beamforming gesprochen.
Da die Maximierung des frequenzabh¨
angigen Schmalband-SNRs im Allgemeinen zu Ver-
zerrungen des breitbandigen Sprachsignals f¨
uhrt, sollen in diesem Abschnitt Verfahren vor-
gestellt werden, welche ebendiese Verzerrungen deutlich reduzieren k¨
onnen. Dabei liegt die
Grundidee darin, die Filterkoeffizienten mit w(Ω) so zu normalisieren, dass sie denen des
GMVDR Beamformers n¨
aherungsweise entsprechen:
w(Ω)ˆ
v1(Ω) ≈FGMVDR(Ω), w(Ω) ∈R.(6.2)
Da also diese Normalisierung f¨
ur jeden Verarbeitungszweig durchgef¨
uhrt wird, kann auch
synonym von einer einkanaligen Nachfilterung gesprochen werden.
F¨
ur den GMVDR Beamformer ist das explizite Wissen der Raum¨
ubertragungsfunktion
notwendig. Die im folgenden beschriebenen Normalisierungsverfahren nutzen jedoch das im-
plizit in den Filterkoeffizienten FSNR(Ω) = Φ−1
NN(Ω)H(Ω) steckende Wissen ¨
uber die Raum-
¨
ubertragungsfunktion aus.
Vorgestellt werden sollen drei m¨
ogliche Methoden zur Realisierung des Nachfilters1w(Ω)
[WHU06a, WHU07]: eine analytische N¨
aherung f¨
ur den Fall perfekt ermittelter Eigenvekto-
1Bei den in dieser Arbeit vorgestellten Verfahren soll versucht werden, die enthallende Wirkung des Be-
98 Kapitel 6. Einkanaliges Nachfilter f¨
ur das Eigenvektor-Beamforming
ren, und zwei weitere Verfahren, die auf Eigenschaften der Richtcharakteristik des Beamfor-
mers beruhen. Letztere zeichnen sich dadurch aus, dass nicht zwangsl¨
aufig von konvergierten
Filterkoeffizienten ausgegangen wird.
6.1 Analytische Normalisierung
Um ein unverzerrtes Sprachsignal am Ausgang des Beamformers zu erhalten, muss f¨
ur die
Gesamt¨
ubertragungsfunktion bestehend aus dem Koeffizientenvektor ˆ
v1und aus der Raum-
¨
ubertragungsfunktion2H(Ω) von der Quelle zu den Sensoren gelten
|w∗
opt(Ω)ˆ
vH
1(Ω)H(Ω)|= 1 (6.3)
mit dem optimalen Nachfilter3
|wopt(Ω)|=
1
ˆ
vH
1(Ω)H(Ω)(6.4)
=|ζ(Ω)|
ˆ
vH
1(Ω)ΦNN(Ω)ˆ
v1(Ω).(6.5)
Offensichtlich ist weder der Vektor H(Ω) in Gl. (6.4) noch der Skalar ζ(Ω) in Gl. (6.5) bekannt.
Daher wird nun zun¨
achst der Ausdruck ΦNN(Ω)ˆ
v1(Ω) betrachtet
||ΦNN(Ω)ˆ
v1(Ω)||2=|ζ(Ω)|2||H(Ω)||2(6.6)
und folgende N¨
aherung hinzugenommen
||H(Ω)||2≈ ||d(Ω, θt)||2=M, (6.7)
mit dem Steering Vektor d(Ω, θt) aus Gl. (3.34) f¨
ur ein linear und ¨
aquidistant angeordnetes
Array. Die N¨
aherung Gl. (6.7) ist motiviert durch die Tatsache, dass bei kurzen Filterl¨
an-
gen des GEV Beamformers sich bez¨
uglich des Nutzsignals im Wesentlichen ein Ausgleich
der Laufzeitdifferenzen der direkten Ausbreitungpfade ausbildet. Das Nachfilter, welches sich
analytisch aus Gl. (6.5) und Gl. (6.6), sowie mit Hilfe der N¨
aherung Gl. (6.7) angeben l¨
asst,
soll als blinde analytische Normalisierung (BAN) bezeichnet werden:
wBAN(Ω) = ||ˆ
vH
1(Ω)ΦNN(Ω)||
ˆ
vH
1(Ω)ΦNN(Ω)ˆ
v1(Ω) ·√M.(6.8)
Der Begriff “analytisch” soll darauf hinweisen, dass hier eine geschlossene L¨
osung bzw. N¨
ahe-
rung angegeben werden kann, im Gegensatz zu den noch folgenden Verfahren. “Blind” ist die
Normalisierung Gl. (6.8) aufgrund der Tatsache, dass keine Informationen ¨
uber die Position
von den Mikrophonen bzw. den akustischen Quellen enthalten ist. Aufgrund der analytisch zu
amformings beizuhalten. Im Gegensatz dazu wurde in [HUKW08] eine Methode vorgeschlagen, bei der eine
Normalisierung auf das Sprachsignal eines Signalpfades hin erfolgt. Die Halleigenschaften dises Pfades sind
dann am Ausgang des Beamformers wiederzufinden.
2Es soll nochmal darauf hingewiesen werden, dass im Abschnitt 3.1 die vereinfachte Schreibweise H(Ω) :=
H(Ω,ps,p1, ..., pM) f¨
ur die mehrkanalige Raum¨
ubertragungsfunktion eingef¨
uhrt wurde, in der die Abh¨
angig-
keit von der Position der Schallquelle psund der Mikrophone piim Raum aus ¨
Ubersichtlichkeitsgr¨
unden
vernachl¨
assigt ist. Außerdem ergeben sich folglich adaptiv berechnete Filterkoeffizienten, die ebenfalls von den
geometrischen Daten abh¨
angen.
3An die Phase der herzuleitenden Nachfilter soll keinerlei Bedingung gestellt werden.
6.2. Statistische Normalisierung 99
berechnenden Normalisierungsfaktoren wBAN(Ω) stellt dieser Nachfilterungsalgorithmus zwar
ein relativ einfaches Verfahren dar. Der wesentliche Nachteil liegt jedoch in der Tatsache, dass
die Koeffizienten ˆ
v1(Ω) exakt bestimmt worden sein m¨
ussen, damit Gl. (6.6) zutrifft. Bei dem
realen Einsatz des GEV Beamformers ist diese Bedingung jedoch aufgrund zeitver¨
anderlicher
Verh¨
altnisse nicht immer gew¨
ahrleistet.
6.2 Statistische Normalisierung
Es soll nun wieder von den optimalen Faktoren aus Gl. (6.4) ausgegangen werden, allerdings
jedoch f¨
ur eine Freifeld-Anordnung
|wopt(Ω)|˛
˛
˛
˛
˛
˛
θt=θs
H(Ω) = d(Ω, θs)
=
1
ˆ
vH
1(Ω)d(Ω, θs).(6.9)
Da ein blindes Beamforming realisiert werden soll, ist die Richtung θsals unbekannt
anzunehmen. Daher wird hier ein statistisch motivierter Ansatz zur Sch¨
atzung der Sprecher-
richtung bzw. der Normalisierungskoeffizienten vorgeschlagen:
wBSN(Ω) = 1
π/2
R
−π/2
p(θ; Ω)|ˆ
vH
1(Ω)d(Ω, θ)|dθ
.(6.10)
F¨
ur die blinde statistische Normalisierung (BSN) Gl. (6.10) ist eine frequenzabh¨
angige Wahr-
scheinlichkeitsdichtefunktion p(θ; Ω) bez¨
uglich der gesuchten Sprecherrichtung eingef¨
uhrt.
Optimaler Weise sollte die Wahrscheinlichkeitsdichtefunktion gleich der entsprechend ver-
schobenen Delta-Distribution4sein p(θ; Ω) = δ(θ−θs), wodurch dann Gl. (6.10) in Gl. (6.9)
¨
ubergeht.
Da keine weiteren Verfahren zur Bestimmung der Sprecherrichtung verwendet werden sol-
len, wird das implizite Wissen ¨
uber die gesuchte Richtung in den Filterkoeffizienten benutzt.
Denn f¨
ur das Beampattern sollten folgende Bedingungen gelten
θs≈argmax
θ|ˆ
vH
1(Ω)d(Ω, θ)|(6.11)
|ˆ
vH
1(Ω)d(Ω, θs)| ≫ |ˆ
vH
1(Ω)d(Ω, θn,i)|,∀i(6.12)
wobei θn,i die Richtung der i-ten St¨
orquelle beschreibt. So kann die r¨
aumliche ¨
Ubertragungs-
funktion selbst in normalisierter Form als Wahrscheinlichkeitsdichtefunktion dienen
p(θ; Ω) = |ˆ
vH
1(Ω)d(Ω, θ)|
π/2
R
−π/2|ˆ
vH
1(Ω)d(Ω, θ)|dθ
.(6.13)
Mit Gl. (6.13) eingesetzt in Gl. (6.10) ergibt sich schließlich f¨
ur die blinde statistische
4Die Delta-Distribution ist definiert durch δ(x) = (0 f¨
ur x6= 0
∞falls x= 0.
100 Kapitel 6. Einkanaliges Nachfilter f¨
ur das Eigenvektor-Beamforming
Normalisierung
wBSN(Ω) =
π/2
R
−π/2|ˆ
vH
1(Ω)d(Ω, θ)|dθ
π/2
R
−π/2|ˆ
vH
1(Ω)d(Ω, θ)|2dθ
.(6.14)
Die Bezeichnung “blind” trifft f¨
ur das BSN-Verfahren zwar nicht mehr auf die Anordnung
der Mikrophongruppe zu, da ja der Mikrophonabstand f¨
ur den Steering Vektor bekannt sein
muss. Aber die Position des Sprechers im Raum ist weiterhin nicht notwendigerweise explizit
zu bestimmen.
Es sei noch angemerkt, dass f¨
ur die Realisierung der blinden statistischen Normalisierung
die Integrale in Gl. (6.14) in Summen zu ¨
uberf¨
uhren sind und das Beampattern f¨
ur 2N+ 1
diskrete St¨
utzstellen auszuwerten ist:
wBSN(Ω) =
N
P
i=−N|ˆ
vH
1(Ω)d(Ω, θi)|
N
P
i=−N|ˆ
vH
1(Ω)d(Ω, θi)|2
mit θi=π
2Ni. (6.15)
6.3 Maximum-Normalisierung
Das Nachfilter Gl. (6.14) f¨
uhrt dazu, dass die resultierende r¨
aumliche ¨
Ubertragungsfunktion in
Richtung des Sprechers im Mittel f¨
ur alle Frequenzen gleich ist. Es wird also nicht auf einzelne
Werte des Beampatterns f¨
ur bestimmte Richtungen vertraut, sondern auf die Gesamtheit der
¨
Ubertragungsfunktion. Der Nachteil liegt also in der Mitber¨
ucksichtigung von breiten Haupt-
keulen f¨
ur tiefe Frequenzen und Grating Lobes f¨
ur hohe Frequenzen. Zahlreiche experimentelle
Untersuchungen und die sehr guten Adaptionseigenschaften der Algorithmen aus dem Ab-
schnitt 5 zeigen jedoch, dass insbesondere die Annahme Gl. (6.11) recht gut eingehalten wird
(siehe auch Kapitel 7). Daher soll die instantane frequenzabh¨
angige Richtungssch¨
atzung5
ˆ
θs(Ω) = argmax
θ|ˆ
vH
1(Ω)d(Ω, θ)|(6.16)
in Gl. (6.9) eingesetzt und diese als Maximum-Normalisierung (MN) bezeichnet werden
wMN(Ω) = 1
|ˆ
vH
1(Ω)d(Ω,ˆ
θs(Ω)|.(6.17)
Die Maximum-Normalisierung ist f¨
ur θt=ˆ
θsvergleichbar mit der impliziten Normalisie-
rung der MVDR-Filterkoeffizienten Gl. (4.33). Da jedoch die GEV-Beamformer-Koeffizienten
das Ausgangs-SNR maximieren, ist zu erwarten, dass die Sch¨
atzung ˆ
θs(Ω) fehlerbehaftet ist.
Aber f¨
ur eine explizite Sprecherrichtungsbestimmung mittels eines gesonderten Verfahrens
und dem Einsatz des MVDR Beamformers ist ebenfalls davon auszugehen, dass θtin Gl.
(4.33) nur eine gute Sch¨
atzung der gesuchten Richtung darstellt.
F¨
ur die Maximum-Normalisierung wird nicht mehr die Bezeichnung “blind” verwendet,
da eine frequenzabh¨
angige Richtungsbestimmung in Gl. (6.16) vorgenommen wird.
5Die Richtungssch¨
atzung mittels Gl. (6.16) wird durch die Maximum-Suche ¨
uber diskrete St¨
utzstellen
|ˆ
vH
1(Ω)d(Ω, θi)|realisiert.
6.4. Simulationen zu Normalisierungsverfahren 101
6.4 Simulationen zu Normalisierungsverfahren
In diesem Abschnitt soll die Auswirkung der Normalisierungsverfahren f¨
ur das akustische Be-
amforming veranschaulicht werden. Dazu erfolgt eine Aufteilung der Problemstellung ohne
und mit Ber¨
ucksichtigung der Kreuzleistungsdichten des St¨
orschallfeldes; also in der Imple-
mentierung als PCA Beamformer f¨
ur den ersten Fall und entsprechend als GEV Beamformer
f¨
ur den zweiten Fall.
6.4.1 PCA Beamforming
F¨
ur die experimentellen Ergebnisse zur verallgemeinerten MVDR-L¨
osung in Abschnitt 4.5
sowie der Herleitung von Verfahren zur L¨
osung des speziellen Eigenwertproblems in Abschnitt
5.1 wurde nicht auf die Normierung der Filterkoeffizienten eingegangen. Bei der Betrachtung
des letztendlichen Ausgangssignals ist diese jedoch sehr wichtig und wird hier f¨
ur den PCA
Beamformer mittels BAN-Methode vorgeschlagen.
Da f¨
ur das PCA Beamforming das spezielle Eigenwertproblem gel¨
ost wird, ist die KLDS-
Matrix ΦNN(Ω) nicht ber¨
ucksichtigt bzw. kann gleich der Einheitsmatrix gesetzt werden.
Das Nachfilter wird somit zu
wBAN(Ω) = 1
qMˆ
vH
1(Ω)ˆ
v1(Ω)
(6.18)
und folglich die PCA-Filterkoeffizienten zu
FPCA(Ω) = 1
√M
ˆ
v1(Ω)
||ˆ
v1(Ω)|| ⇒FH
PCAFPCA =1
M.(6.19)
Sieht man den PCA Beamformer als “selbstjustierenden” DSB (zumindestens f¨
ur geringe
Nachhallzeiten), so ist die Normierung ¨
aquivalent zu der des DSBs in Gl. (3.31): FDSB(Ω) =
d(Ω, θt)/M, mit ||d(Ω, θt)|| =√M. Die einkanalige Nachfilterung bzw. Normalisierung Gl.
(6.19) kann bei der Verwendung von Algorithmus 3 (S-Grad-GG) oder Algorithmus 4 (S-
Grad-IS) sehr einfach durch die Wahl von C2= 1/M ohne zus¨
atzliche Rechenoperationen
realisiert werden.
Um die Resultate der Normalisierung des PCA Beamformers zu visualisieren, soll das
Beampattern f¨
ur alle relevanten Frequenzen und Winkel betrachtet werden. Dazu wurden
akustische Sprachdaten nach Szenario-1 f¨
ur M= 5 Sensoren erzeugt und mit unkorreliertem
bzw. diffusem Rauschen ¨
uberlagert. Das Sprachsignal f¨
allt also aus einer Richtung von 45◦
bez¨
uglich Broadside auf das Array ein. Die Filterkoeffizienten sind mit Hilfe von Algorithmus
3 (S-Grad-GG) mit dem Wert C2= 1/M und einer Filterl¨
ange von B= 128 bestimmt
worden.
In Bild 6.1 sind verschiedene Richtcharakteristiken des PCA Beamformers in Form einer
zweidimensionalen Darstellung von Grauwerten zu sehen. Eine hohe D¨
ampfung wird durch
die Farbe Schwarz und keine D¨
ampfung durch die Farbe Weiß charakterisiert.
Prinzipiell bildet sich bei der Verwendung des PCA Beamformers eine ¨
ahnliche Richtcha-
rakteristik wie bei einem Delay-and-Sum-Beamformer aus. Zus¨
atzlich zu der konstruktiven
¨
Uberlagerung der Signalkomponenten welche ¨
uber die direkte Sichtverbindung auf die Mi-
krophone einfallen werden allerdings noch fr¨
uhe Reflexionen ber¨
ucksichtigt (vgl. Abschnitt
4.5). Auf den exemplarischen Darstellungen der Richtcharakteristik in Bild 6.1 sind folgende
Eigenschaften abzulesen:
102 Kapitel 6. Einkanaliges Nachfilter f¨
ur das Eigenvektor-Beamforming
Unkorreliertes Rauschen mit 25dB SNR
(a)
T60 = 0,05s
θ[◦]
Ω/(2πT) [kHz]
-90
-454590
0
0
1
2
3
4
5
(b)
T60 = 0,5s
θ[◦]
Ω/(2πT) [kHz]
-90
-454590
0
0
1
2
3
4
5
dB
0
-10
-20
-30
-40
Unkorreliertes Rauschen mit 25dB SNR und diffuse St¨
orung mit 5dB SNR
(c)
T60 = 0,05s
θ[◦]
Ω/(2πT) [kHz]
-90-45
4590
0
0
1
2
3
4
5
(d)
T60 = 0,5s
θ[◦]
Ω/(2πT) [kHz]
-90-45
4590
0
0
1
2
3
4
5
dB
0
-10
-20
-30
-40
Bild 6.1: Richtcharakteristiken des PCA Beamformers f¨
ur eine Sprecherrichtung von θs= 45 ◦und den Nach-
hallzeiten T60 = 0,05 s sowie T60 = 0,5 s. In (a) und (b) mit additivem unkorrelierten Rauschen von
25 dB und in (c) und (d) f¨
ur zus¨
atzliches diffuses Rauschen von 5 dB SNR.
•Es erfolgt eine automatische Ausrichtung auf die Sprecherrichtung θs= 45◦.
•F¨
ur kleine Nachhallzeiten wird f¨
ur alle Frequenzen die gleiche D¨
ampfung des Signals
von 0dB aus der Richtung θs= 45◦erreicht.
•Bei h¨
oheren Nachhallzeiten ist nur n¨
aherungsweise die gleiche D¨
ampfung des Signals
aus θs= 45◦aufgrund der mitber¨
ucksichtigten Reflexionen erzielbar.
•Diffuses Rauschen hat keinen signifikanten Einfluss auf das PCA Beamforming.
6.4.2 GEV Beamforming
F¨
ur den GEV Beamformer sollen zun¨
achst Richtdiagramme und anschließend erzielbare SNR-
Gewinne in Kombination mit dem perzeptuellen Sprachqualit¨
atsmaß PSM pr¨
asentiert werden.
Diese sind f¨
ur unterschiedliche geometrische Anordnungen sowie verschiedene Parameterein-
stellungen untersucht worden. Grunds¨
atzlich wird bei allen Simulationen den Eingangsdaten
jeweils weißes, r¨
aumlich unkorreliertes Rauschen mit einem SNR von 25dB hinzugef¨
ugt. Des-
6.4. Simulationen zu Normalisierungsverfahren 103
weiteren ist die Matrix der Kreuzleistungsdichten der St¨
orung immer mit einem Regularisie-
rungsterm von −40dB versehen worden.
Beampattern
Im Gegensatz zum PCA Beamformer bildet der GEV Beamformer bei Vorhandensein einer
diffusen St¨
orung im niederfrequenten Bereich eine g¨
anzlich andere Richtcharakteristik aus.
Die Hauptkeulen werden dort schmaler, wodurch die aus allen Richtungen einfallende St¨
o-
rung besser unterdr¨
uckt werden kann; die Direktivit¨
at des Beamformers ist somit deutlich
ausgepr¨
agter. Dieses Verhalten ist an den in Bild 6.2 dargestellten Richtcharakteristiken f¨
ur
den GEV Beamformer ohne und mit nachgeschalteten Normalisierungsverfahren zu erken-
nen. Die Anzahl der Filterkoeffizienten betr¨
agt B= 128 bei einer Verarbeitungsblockl¨
ange
von L= 2B. Die Koeffizienten wurden mit Hilfe von Algorithmus 5 (A-PM-GG) f¨
ur das
Szenario-1 mit M= 5 Mikrophonen und zus¨
atzlicher ¨
Uberlagerung von unkorreliertem so-
wie diffusem Rauschen bestimmt. An dem Beampattern f¨
ur den Fall ohne Normalisierung in
Bild 6.2 ist die entstehende Signalverzerrung aufgrund der unterschiedlichen Skalierung von
bis zu 15dB Differenz bei der Einfallsrichtung θs= 45◦erkennbar. Abhilfe verschaffen hier
alle der vorgestellten Nachfilter BAN, BSN und MN. Das recheneffizienteste Verfahren BAN
ben¨
otigt keinerlei Information ¨
uber die Array-Geometrie und die Sprecherrichtung. F¨
ur das
BSN-Verfahren ist hingegen der Abstand der Mikrophone zueinander als bekannt vorausge-
setzt. Wegen der Ber¨
ucksichtigung aller Raumrichtungen in der Normalisierung kommt es zu
einer leichten Verst¨
arkung des Sprachsignals bei den niedriegen Frequenzanteilen, was daran
zu erkennen ist, dass der maximale Wert, gekennzeichnet durch die Farbe Weiß, bei ca. 4dB
liegt. Bei der Maximum-Normalisierung wird wieder der Abstand der Mikrophone zueinan-
der ben¨
otigt. Da nun auf den maximalen Wert des Beampatterns pro Frequenzkomponente
normiert wird, ist hier keinerlei Verst¨
arkung des Signals gr¨
oßer 0dB zu beobachten.
F¨
ur eine gerichtete St¨
orung nach Szenario-2 bildet sich abh¨
angig von der Nachhallzeit
ein ausgepr¨
agtes Minimum im Beampattern an der Stelle der Einfallsrichtung des St¨
orsignals
bei θn=−20◦aus. In Bild 6.3 ist das Richtdiagramm f¨
ur den GEV Beamformer ohne
Nachfilter f¨
ur die Nachhallzeit T60 = 0,05s zu sehen. Da es sich um eine St¨
orquelle mit
Tiefpasscharakter handelt, nimmt die Auspr¨
agung des Minimums bei der Richtung −20◦
zu hohen Frequenzen hin ab und l¨
auft in das Minimum der DSB-Richtcharakteristik aus
(vgl. Bild 6.1). Im Vergleich zu dem Beampattern ohne Normalisierung in Bild 6.2 ist zu
erkennen, dass hier die resultierende Sprachverzerrung f¨
ur das Nutzsignal aus der Richtung
θs= 45◦geringer ausf¨
allt. Die D¨
ampfung der r¨
aumlichen ¨
Ubertragungsfunktion variiert bei
der Sprecherrichtung weniger stark im Vergleich zum Richtdiagramm des diffusen Rauschens
Bild 6.2.
Das Verhalten der Nachfilterungsalgorithmen f¨
ur das gerichtete Rauschen ist in Bild 6.4
an den resultierenden Richtdiagrammen f¨
ur die Nachhallzeit T60 = 0,05s in der linken Spalte
und T60 = 0,5s in der rechten Spalte zu sehen. Bei der geringen Nachhallzeit ergibt sich
jeweils ein klares Maximum an der Stelle der Sprecherrichtung, wobei hier wieder eine leichte
Verst¨
arkung f¨
ur das BSN-Verfahren von ca. 3dB auftritt. In den Richtdiagrammen f¨
ur die
hohe Nachhallzeit scheint die Richtcharakteristik etwas zu “verschwimmen”. Bei genauerer
Betrachtung sind jedoch die beiden Eigenschaften Gl. (6.11) und Gl. (6.12) zu erkennen.
Das Maximum des Beampattern liegt weiterhin in einer sehr nahen Umgebung um θsherum
104 Kapitel 6. Einkanaliges Nachfilter f¨
ur das Eigenvektor-Beamforming
(a)
Ohne Normalisierung
θ[◦]
Ω/(2πT) [kHz]
-90-454590
0
0
1
2
3
4
5
dB
0
-10
-20
-30
-40
(b)
BAN
θ[◦]
Ω/(2πT) [kHz]
-90-454590
0
0
1
2
3
4
5
dB
0
-10
-20
-30
-40
(c)
BSN
θ[◦]
Ω/(2πT) [kHz]
-90-4545
90
0
0
1
2
3
4
5
dB
0
-10
-20
-30
-40
(d)
MN
θ[◦]
Ω/(2πT) [kHz]
-90-4545
90
0
0
1
2
3
4
5
dB
0
-10
-20
-30
-40
Bild 6.2: Richtcharakteristiken des GEV Beamformers ohne und mit unterschiedlichen Normalisierungsver-
fahren. Die Sprecherrichtung betr¨
agt θs= 45 ◦, die Nachhallzeit ist T60 = 0,05s und es wurde
unkorreliertes sowie diffuses Rauschen von 25 dB bzw. 5 dB SNR dem Sprachsignal ¨
uberlagert.
Ω/(2πT) [kHz]
θ[◦]
ohne Normalisierung
-90-454590
0
0
1
2
3
4
5
dB
0
-10
-20
-30
-40
Bild 6.3: Richtcharakteristik des GEV Beamformers ohne Nachfilter f¨
ur die Nachhallzeit vont T60 = 0,05 s.
Die Sprecherrichtung ist θs= 45 ◦und das gerichtete Tiefpassrauschen hat eine Einfallsrichtung von
θn=−20 ◦bei einem SNR von 5 dB
und an der Stelle θnergibt sich ein ausgepr¨
agtes Minimum. Wie stark sich letztendlich die
Nachfilterverfahren auf die akustische Qualit¨
at des Beamformer-Ausgangs auswirkt, soll im
Folgenden ausgewertet werden.
6.4. Simulationen zu Normalisierungsverfahren 105
Blinde Analytische Normalisierung
T60 = 0,05s
θ[◦]
Ω/(2πT) [kHz]
-90-45
4590
0
0
1
2
3
4
5
T60 = 0,5s
θ[◦]
Ω/(2πT) [kHz]
-90-45
4590
0
0
1
2
3
4
5
dB
0
-10
-20
-30
-40
Blinde Statistische Normalisierung
T60 = 0,05s
θ[◦]
Ω/(2πT) [kHz]
-90-454590
0
0
1
2
3
4
5
T60 = 0,5s
θ[◦]
Ω/(2πT) [kHz]
-90-45
4590
0
0
1
2
3
4
5
dB
0
-10
-20
-30
-40
Maximum-Normalisierung
T60 = 0,05s
θ[◦]
Ω/(2πT) [kHz]
-90-454590
0
0
1
2
3
4
5
T60 = 0,5s
θ[◦]
Ω/(2πT) [kHz]
-90-454590
0
0
1
2
3
4
5
dB
0
-10
-20
-30
-40
Bild 6.4: Richtcharakteristiken des GEV Beamformers mit unterschiedlichen Normalisierungsverfahren f¨
ur die
Nachhallzeiten von T60 = 0,05 s und T60 = 0,5 s. Die Sprecherrichtung betr¨
agt θs= 45 ◦und das
gerichtete Tiefpassrauschen hat eine Einfallsrichtung von θn=−20 ◦.
SNR-Gewinne und PSM-Werte f¨
ur unterschiedliche geometrische Anordnungen
F¨
ur das Szenario-2 sind die Verl¨
aufe des SNR-Gewinns in Bild 6.5 (a) und die Verl¨
aufe des
perzeptiven Qualit¨
atsmaßes in Bild 6.5 (b) jeweils ¨
uber der Nachhallzeit aufgetragen. Als
106 Kapitel 6. Einkanaliges Nachfilter f¨
ur das Eigenvektor-Beamforming
Referenz soll hier der GMVDR Beamformer dienen. F¨
ur diesen sind die Filterkoeffizienten
mit Gl. (4.28) bestimmt worden, wobei die Raum¨
ubertragungsfunktion mittels Algorithmus
1 (S-PM-GG) mit einer Blockl¨
ange von L= 256 aus den reinen Sprachdaten gesch¨
atzt6
wurde. Diese und die folgenden gemessenen Ergebnisse basieren auf konvergierten Filterko-
effizienten. Zur Ermittlung der PSM-Werte wurden nur die reinen Sprachdaten mit diesen
Filterkoeffizienten gefiltert um die Auswirkung der Nachfilteralgorithmen auf die Sprachver-
zerrung separat ohne zus¨
atzliche St¨
orger¨
ausche zu analysieren. Das reine, verhallte, mit den
GMVDR-Koeffizienten gefilterte Sprachsignal dient also jeweils als Referenzsignal. Und die
reinen, verhallten, mit den GEV-Verfahren gefilterten Sprachsignale werden jeweils als Test-
signal gegen¨
uber dem Referenzsignal verglichen.
000,2 0,4 0,6
10
20
30
(a)
SNRG [dB]
T60 [s]
GEV
BAN
BSN
MN
GMVDR
00,2 0,4 0,6
0,96
0,97
0,98
0,99
1
(b)
PSM
T60 [s]
GEV
BAN
BSN
MN
Bild 6.5: SNR-Gewinn in (a) und das perzeptive Qualit¨
atsmaß in (b) f¨
ur eine Sprecherrichtung von θs= 45 ◦
und einer St¨
orquelle bei θn= -20 ◦.
An dem relativ hohen SNR-Gewinn des GEV Beamformers ohne Normalisierung (be-
zeichnet mit GEV) in Bild 6.5 (a) l¨
asst sich erahnen, dass an dessen Ausgang Sprachver-
zerrungen zu erwarten sind. Genau dieses Verhalten spiegeln in der rechten Darstellung die
deutlich geringeren PSM-Werte im Vergleich zum Beamforming mit Normalisierungsverfah-
ren (bezeichnet mit BAN, BSN und MN) wieder. Werden die GEV-Filterkoeffizienten mit den
beschriebenen Nachfiltern normalisiert, so ergibt sich ein sehr ¨
ahnliches Verhalten bez¨
uglich
der St¨
orger¨
auschreduktion wie f¨
ur den GMVDR Beamformer. Die Sprachqualit¨
at l¨
asst sich
bei subjektiven H¨
ortests ebenfalls deutlich dichter den optimal gefilterten Signalen zuordnen,
als dies durch das Diagramm in Bild 6.5 (b) ausgedr¨
uckt wird. Sie kommen also in der Qua-
lit¨
at den Referenzsignalen sehr nahe, wohingegen die Filterung ohne Normalisierung je nach
spektraler Zusammensetzung der St¨
orung 7zur unkontrollierten Verst¨
arkung bzw. D¨
ampfung
einzelner Spektralkomponenten f¨
uhren kann.
Als n¨
achstes sind in Bild 6.6 die Ergebnisse f¨
ur das Szenario-3 dargestellt. Hierbei f¨
allt
das Sprachsignal von Broadside, aus einer Distanz von 0,8m, auf das Array ein. Es befindet
6Da bei dem idealisierten Fall keinerlei Rauschen dem Sprachsignal ¨
uberlagert ist, kann die BAN bei der
Bestimmung der Raum¨
ubertragungsfunktion verwendet werden.
7Bei der Potenzmethode wird nach jedem Iterationsschritt κder gesch¨
atze Vektor auf die Einheitsl¨
ange
normiert: ˆ
v1,κ
||ˆ
v1,κ|| =ζ
|ζ|
ˆ
Φ
−1
NNH
qHHˆ
Φ
−2
NN H
. Im Gegensatz zu den optimalen GMVDR-Filterkoeffizienten ist hier also
zu sehen, dass ˆ
Φ−1
NN in quadrierter Form im Nenner vorkommt.
6.4. Simulationen zu Normalisierungsverfahren 107
sich eine St¨
orquelle in 1,6m Abstand zum Array und bei einer Richtung von θn= 60◦. F¨
ur
den SNR-Gewinn des GMVDR Beamformers und des GEV Beamformers mit Filternormali-
sierung ergeben sich ¨
ahnliche Verl¨
aufe wie f¨
ur das Szenario-2 in Bild 6.5 (a). Bei dem GEV
Beamformer ohne Nachfilter sieht in Bild 6.6 (a) die Kurve jedoch anders aus: f¨
ur kleine
Nachhallzeiten ergibt sich ein leicht ¨
uberh¨
ohtes und f¨
ur hohe Nachhallzeiten ein geringf¨
ugig
kleineres SNR im Vergleich zu den anderen Verl¨
aufen. Das perzeptuelle Maß in Bild 6.6 (b)
zeigt jedoch auch hier wie schon vorher deutliche Verzerrungen in der gefilterten Sprache
an. Im Gegensatz zum vorherigen Szenario ist nun die Sprachqualit¨
at f¨
ur die Verfahren mit
normalisierten Filterkoeffizienten noch etwas angestiegen. Insbesondere ergibt sich f¨
ur das
BAN-Verfahren ¨
uber alle Nachhallzeiten und alle betrachteten Sprachbeispiele ein minimal
homogeneres Klangbild. Generell hat sich bei den Experimenten gezeigt, dass alle Nachfilter-
verfahren f¨
ur eine Broadside-Ausrichtung die besten Ergebnisse bez¨
uglich der Sprachqualit¨
at
liefern.
000,2 0,4 0,6
10
20
30
(a)
SNRG [dB]
T60 [s]
GEV
BAN
BSN
MN
GMVDR
00,2 0,4 0,6
0,96
0,97
0,98
0,99
1
(b)
PSM
T60 [s]
GEV
BAN
BSN
MN
Bild 6.6: SNR-Gewinn in (a) und das perzeptive Qualit¨
atsmaß in (b) f¨
ur eine Sprecherrichtung von θs= 0 ◦
und einer St¨
orquelle bei θn= 60 ◦.
In der Anordnung nach Szenario-4 f¨
allt das Sprachsignal wieder von Broadside, aus ei-
ner Distanz von 0,8m, auf das Array ein. Es sind nun zwei St¨
orquellen platziert: eine bei
−20◦und eine bei 60◦, jeweils in einem Abstand von 1,6m zu den Mikrophonen. Bei dieser
Anordnung sind nun deutliche Auspr¨
agungen der Sprachverzerrung des GEV Beamformings
ohne Nachfilterung bei geringen Nachhallzeiten in Bild 6.7 (b) zu beobachten. Daf¨
ur liegt der
SNR-Gewinn weit ¨
uber den Werten des SNR-Gewinns des GMVDR Beamformers. Dessen
St¨
orger¨
auschreduktion liegt insgesamt deutlich tiefer im Vergleich zu den anderen Szenarien,
da hier eine komplexere Anordnung aus zwei gerichteten St¨
orquellen vorliegt. Die BSN- und
MN-Verfahren zeigen bei dieser Anordnung f¨
ur geringe Nachhallzeiten eine Verf¨
alschung des
Sprachsignals durch eine leichte Anhebung der tiefen Frequenzkomponenten. Da bei geringen
Nachhallzeiten zwei ausgepr¨
agte Minima entstehen, bildet sich ein recht komplexes Beampat-
tern aus. Die Normalisierungsmethoden, basierend rein auf diesem Beampattern, zeigen hier
nun leichte Schw¨
achen. Hingegen arbeitet die blinde analytische Normalisierung weiterhin
sehr zuverl¨
assig und mit durchweg guten Ergebnissen.
Abschließend sollen noch explizit Ergebnisse f¨
ur den SNR-Gewinn und die resultierende
108 Kapitel 6. Einkanaliges Nachfilter f¨
ur das Eigenvektor-Beamforming
000,2 0,4 0,6
5
10
15
20
25
(a)
SNRG [dB]
T60 [s]
GEV
BAN
BSN
MN
GMVDR
00,2 0,4 0,6
0,96
0,97
0,98
0,99
1
(b)
PSM
T60 [s]
GEV
BAN
BSN
MN
Bild 6.7: SNR-Gewinn in (a) und das perzeptive Qualit¨
atsmaß in (b) f¨
ur eine Sprecherrichtung von θs= 0 ◦
und zwei St¨
orquellen: eine bei −20 ◦und eine bei 60 ◦.
Sprachqualit¨
at f¨
ur einen Sprecher nach Szenario-1 in einem diffusen St¨
orschallfeld pr¨
asen-
tiert werden. Das SNR am Eingang betr¨
agt dabei wieder 5dB. Die SNR-Gewinne in Bild
6.8 (a) fallen erwartungsgem¨
aß geringer aus als f¨
ur die Anordnungen mit gerichteten St¨
or-
schallquellen. Auffallend sind hier die schlechtesten Werte f¨
ur die St¨
orger¨
auschreduktion bei
dem GEV Beamformer ohne Nachfilter und die entstehenden Sprachverzerrungen bei nied-
rigen Nachhallzeiten. Auch bei dieser Anordnung zeigt wieder die BAN-Methode das beste
Leistungsverhalten der vorgestellten Nachfilterverfahren.
000,2 0,4 0,6
2
4
6
8
10
(a)
SNRG [dB]
T60 [s]
GEV
BAN
BSN
MN
GMVDR
00,2 0,4 0,6
0,96
0,97
0,98
0,99
1
(b)
PSM
T60 [s]
GEV
BAN
BSN
MN
Bild 6.8: SNR-Gewinn in (a) und das perzeptive Qualit¨
atsmaß in (b) f¨
ur eine Sprecherrichtung von θs= 45 ◦
und einem diffusen St¨
orschallfeld.
SNR-Gewinne und PSM-Werte f¨
ur verschiedene Parametereinstellungen
F¨
ur das Szenario-2 wird der Einfluss folgender Parameter exemplarisch untersucht: die Anzahl
der Filterkoeffizienten B, das Eingangs-SNR und die Anzahl der Mikrophone M. Daf¨
ur wird
ausschließlich der GEV Beamformer mit BAN-Methode verwendet.
Die Verl¨
aufe in Bild 6.9 zeigen die Auswirkung f¨
ur die Wahl unterschiedlicher Werte
von B∈ {64,128,256,512}. Dabei betr¨
agt die Verarbeitungsblockl¨
ange, also die L¨
ange der
6.4. Simulationen zu Normalisierungsverfahren 109
Fourier-Transformation wieder jeweils L= 2B. Das SNR am Eingang wurde auf 5dB gesetzt
und die Mikrophonanzahl betr¨
agt M= 5.
000,2 0,4 0,6
10
20
30
(a)
SNRG [dB]
T60 [s]
B = 64
B = 128
B = 256
B = 512
00,2 0,4 0,6
0,96
0,97
0,98
0,99
1
(b)
PSM
T60 [s]
B = 64
B = 128
B = 256
B = 512
Bild 6.9: SNR-Gewinn in (a) und das perzeptive Qualit¨
atsmaß in (b) f¨
ur eine variierende Filterl¨
ange Bbei
dem Szenario-2. Das SNR am Eingang betr¨
agt 5 dB und die Anzahl der Mikrophone ist M= 5.
An dem SNR-Gewinn in Bild 6.9 (a) ist eine ansteigende St¨
orger¨
auschreduktion f¨
ur gr¨
o-
ßere Filterl¨
angen beobachtbar. Diese beruht prinzipiell auf der Tatsache, dass eine genauere
Berechnung der Matrix der Kreuzleistungsdichten der St¨
orung bei steigender Verarbeitungs-
blockl¨
ange Lm¨
oglich ist (vgl. Gl. (4.65)). Im Gegensatz dazu wird jedoch die Sch¨
atzung der
Filterkoeffizienten bei gleichzeitiger Aktivit¨
at der St¨
orung mit ansteigender Koeffizientenan-
zahl ungenauer, was sich an einer st¨
arkeren Verf¨
alschung der spektralen Zusammensetzung im
Ausgangssignal bemerkbar macht. Dieses Verhalten ist sehr gut an den fallenden PSM-Werten
f¨
ur steigende Filterl¨
angen in Bild 6.9 (b) zu erkennen. Insgesamt hat sich bei zahlreichen Expe-
rimenten eine Filterl¨
ange von B= 128 als guter Kompromiss zwischen St¨
orger¨
auschreduktion
einerseits und Sprachqualit¨
at sowie Rechenkomplexit¨
at andererseits erwiesen.
F¨
ur die Ergebnisse in Bild 6.10 variiert nun das SNR des gerichteten Tiefpassrauschens
an den Mikrophonen bei gleichbleibendem SNR des r¨
aumlich unkorrelierten weißen Rau-
schens von 25dB. Die Anzahl der verwendeten Mikrophone ist M= 5 und die Filterl¨
ange
betr¨
agt B= 128. Bei sehr geringen Nachhallzeiten ist die Steigerung der St¨
orger¨
auschreduk-
tion f¨
ur gr¨
oßere Verh¨
altnisse von r¨
aumlich korreliertem zu r¨
aumlich unkorreliertem Rauschen
ausgepr¨
agter. Dieses Verhalten kann an Gl. (4.65) abgelesen werden und wurde in Bild 4.5
mit expliziten Simulationen dargestellt. F¨
ur komplexer werdende Raumimpulsantworten bei
wachsenden Nachhallzeiten wird bei steigendem SNR die Sch¨
atzung der optimalen Filterko-
effizienten genauer. Dies ist an den leicht h¨
oheren PSM-Werten f¨
ur gr¨
oßere SNR und h¨
ohere
Nachhallzeiten in Bild 6.10 (b) abzulesen.
Das Verhalten des GEV Beamformers mit BAN-Methode ist f¨
ur eine variierende Anzahl
von verwendeten Mikrophonen M∈ {3,5,7,9}in Bild 6.11 dargestellt. Das SNR am Ein-
gang wurde auf 5dB gesetzt und die gew¨
ahlte Filterl¨
ange betr¨
agt B= 128. Hier ist nun ein
ausgepr¨
agter SNR-Gewinn f¨
ur steigende Nachhallzeiten bei der Verwendung von zus¨
atzlichen
Mikrophonen zu erkennen. Bei geringen Nachhallzeiten ist die Bildung eines Minimums der
r¨
aumlichen ¨
Ubertragungsfunktion des Beamformers schon mit nur drei Mikrophonen m¨
oglich.
110 Kapitel 6. Einkanaliges Nachfilter f¨
ur das Eigenvektor-Beamforming
000,2 0,4 0,6
10
20
30
(a)
SNRG [dB]
T60 [s]
0 dB
5 dB
15 dB
10 dB
00,2 0,4 0,6
0,96
0,97
0,98
0,99
1
(b)
PSM
T60 [s]
0 dB
5 dB
15 dB
10 dB
Bild 6.10: SNR-Gewinn in (a) und das perzeptive Qualit¨
atsmaß in (b) f¨
ur ein variierendes SNR der Mikro-
phonsignale bei dem Szenario-2. Die Filterl¨
ange betr¨
agt B= 128 und die Anzahl der verwendeten
Mikrophone ist M= 5.
000,2 0,4 0,6
10
20
30
(a)
SNRG [dB]
T60 [s]
M= 5
M= 3
M= 9
M= 7
00,2 0,4 0,6
0,96
0,97
0,98
0,99
1
(b)
PSM
T60 [s]
M= 5
M= 3
M= 9
M= 7
Bild 6.11: SNR-Gewinn in (a) und das perzeptive Qualit¨
atsmaß in (b) f¨
ur eine variierende Anzahl von ver-
wendeten Mikrophonen Mbei dem Szenario-2. Die Filterl¨
ange betr¨
agt B= 128 und das SNR der
Mikrophonsignale betr¨
agt 5 dB.
Daher sind die relativen Unterschiede im SNR Gewinn hier nicht so deutlich. Mit steigen-
der Nachhallzeit wird der Charakter des St¨
orger¨
auschfeldes immer diffuser. Damit wird die
N¨
aherung f¨
ur die St¨
orger¨
auschunterdr¨
uckung mit SNRG ≈10 log(M) dB immer zutreffender
und der relative Unterschied der Verl¨
aufe gr¨
oßer. Sehr interessant ist der Unterschied der
PSM-Verl¨
aufe f¨
ur die verschiedenen Werte Min Bild 6.11 (b). Hier ist ein umgekehrtes Ver-
halten im Gegensatz zum SNR-Gewinn erkennbar: mit steigender Anzahl der verwendeten
Mikrophone f¨
allt die gemessene Sprachqualit¨
at leicht ab. Die Erkl¨
arung daf¨
ur ist wie folgt:
je mehr Sensoren f¨
ur das Beamforming verwendet werden, umso schmaler f¨
allt die sich bil-
dende Hauptkeule pro Frequenzkomponente aus. Bei gleicher Frequenz macht sich aber eine
ungenaue Normalisierung umso st¨
arker bemerkbar, je schmaler die entsprechende Hauptkeule
ist. Da die blinde analytische Normalisierung nur eine Sch¨
atzung darstellt, machen sich also
folglich Ungenauigkeiten f¨
ur eine steigende Anzahl von Mikrophonen st¨
arker bemerkbar.
Die exemplarischen Untersuchungen verschiedener Parameter f¨
ur das Eigenvektor-Beam-
forming mit Normalisierungsverfahren f¨
uhren allgemein zu folgenden Aussagen:
6.5. Zusammenfassung 111
•Bei der moderaten Wahl der Filterl¨
ange und der Anzahl der Mikrophone ist ein blindes
Beamforming mit geringen Sprachverzerrungen bei gleichzeitig guter St¨
orger¨
auschre-
duktion m¨
oglich, insbesondere im Fall einer gerichteten St¨
orschallquelle.
•Eine kurze Filterl¨
ange von B= 128 erm¨
oglicht ausreichend genaue Sch¨
atzungen der
Raum¨
ubertragungsfunktionen bzw. ihrer Verh¨
altnisse bei simultaner Aktivit¨
at der St¨
or-
schallquellen.
•Eine eher geringe Anzahl von z. B. M= 5 Mikrophonen f¨
uhrt zu einem eher klei-
nen Einfluss von Normalisierungsfehlern und hat zus¨
atzlich den Vorteil einer geringen
Rechenkomplexit¨
at.
6.5 Zusammenfassung
In diesem Kapitel wurden einkanalige Nachfilter hergeleitet, welche eine Normalisierung
der Eigenvektorkoeffizienten pro Frequenzkomponente vornehmen. Das recheneffizienteste
Verfahren ist die blinde analytische Normalisierung (BAN), bei der im Wesentlichen eine
Matrix-Vektor-Multiplikation notwendig ist. Gleichzeitig weist dieses Verfahren die gerings-
ten Sprachverzerrungen auf. Die beiden weiteren vorgestellten Verfahren nutzen die Struktur
des Beampatterns aus, welches jedoch relativ aufwendig abgetastet werden muss: die blinde
statistische Normalisierung (BSN) normiert die Filterkoeffizienten auf einen mittleren und
die Maximum-Normalisierung (MN) auf den maximalen Wert des Beampatterns.
Da die Normalisierungsverfahren besser bei einer eher moderaten Wahl f¨
ur die Filterl¨
ange
und die Anzahl der Mikrophone funktionieren, ist die St¨
orger¨
auschreduktion f¨
ur die Anwen-
dung in R¨
aumen mit h¨
oheren Nachhallzeiten ebenfalls eher moderat. Der große Vorteil ist
jedoch eine schnelle Adaption und somit eine Verfolgung eines sich bewegenden Sprechers.
Dies wird aus einer anderen Problemstellung heraus noch in Kapitel 7 demonstriert.
Eine h¨
ohere St¨
orger¨
auschreduktion in einer aufwendigeren Struktur bei gleichzeitig kaum
noch vorhandenen Sprachverzerrungen soll am Schluss dieser Arbeit in Kapitel 8 vorgestellt
werden. Dabei ist dann aber von einer eher geringen Sprecherbewegung auszugehen, und
außerdem ist eine explizite Bestimmung der Sprecherrichtung notwendig.
112 Kapitel 6. Einkanaliges Nachfilter f¨
ur das Eigenvektor-Beamforming
Kapitel 7
Sprecherrichtungsbestimmung
Die Sprecherrichtung ist eine wichtige Information f¨
ur verschiedenste Anwendungen wie z. B.
innerhalb einer allgemeinen akustischen Szenenanalyse [SHUW07], in Audio/Video-Konferenz-
systemen [WB98, SSR01], zur Sprachsignalsegmentierung und Sprecheridentifikation [SHU06,
SHU07], f¨
ur eine multimodale Mensch-Maschine-Kommunikation [Iri97, LNO00] oder aber
zum Laufzeitausgleich in einem Generalized Sidelobe Canceller wie er im folgenden Kapitel
noch vorgestellt wird.
Nach [DSB01] k¨
onnen bestehende Lokalisationsverfahren grob in drei Kategorien unter-
teilt werden: Maximierung der Ausgangsleistung eines Beamformers durch Steuerung seiner
Richtcharakteristik (engl. Steered Response Power, SRP), Methoden, welche direkt die Zeit-
differenz der einfallenden Signale mittels Korrelationsverfahren bestimmen (engl. Time Diffe-
rence of Arrival, TDOA) und spektral hochaufl¨
osende Verfahren. F¨
ur schmalbandige Signale
ist in [Sch79] erstmals ein spektral hochaufl¨
osendes Verfahren vorgestellt, welches die Bezeich-
nung MUSIC (Multiple Signal Classification) tr¨
agt. Dieses findet seither vielfach Anwendung
in der Antennentechnik. Dabei ist eine komplette Eigenwert-Dekomposition des Signalraums
notwendig, welche insbesondere bei der Erweiterung auf breitbandige Signale wie Sprache
sehr rechenintensiv ist. F¨
ur Sprachsignale werden daher in der Regel Methoden basierend
auf SRP und TDOA eingesetzt [DSB01]. Das Prinzip dieser Verfahren und die ¨
Ubertragung
auf das Eigenvektor-Beamforming sollen im Folgenden beschrieben werden. Die Funktions-
f¨
ahigkeit der neuen Varianten wird durch experimentelle Untersuchungen f¨
ur verschiedene
Schallfelder demonstriert.
7.1 Korrelation der Mikrophonsignale
Die Idee beim TDOA-Verfahren liegt darin, die Zeitverz¨
ogerung τil zwischen zwei Signalen
xi(t) und xl(t) mittels der Kreuzkorrelation zu bestimmen
cil(τ) = Z∞
−∞
xi(t)xl(t+τ)dt, i, l ∈ {1,...,M}(7.1)
τil = argmax
τ∈D
cil(τ).(7.2)
Stellen die beiden Signale xi(t) und xl(t) die zeitkontinuierlichen Mikrophonsignale dar, so ist
mit Hilfe der geometrischen Daten der Anordnung eine Umrechnung von τil in die entspre-
chende Einfallsrichtung m¨
oglich. Dabei ist die Maximumsuche in Gl. (7.2) auf das durch die
114 Kapitel 7. Sprecherrichtungsbestimmung
geometrische Anordnung bedingte maximal m¨
ogliche Intervall Dbeschr¨
ankt. F¨
ur die Umset-
zung von Gl. (7.1) auf einem digitalen Rechner sind die abgetasteten, zeitdiskreten Signale
zu betrachten. Desweiteren ist zwecks Effizienzsteigerung die Berechnung im Frequenzbereich
sinnvoll. Zun¨
achst soll hierf¨
ur die zeitdiskrete Fourier-Transformation betrachtet werden.
In [KC76] ist eine verallgemeinerte Kreuzkorrelation (engl. Generalized Cross Correlation,
GCC) vorgestellt worden, die hier definiert wird zu
ril(n) = 1
2πZπ
−πGi(Ω)Xi(Ω)Gl(Ω)Xl(Ω)∗ejΩndΩ,(7.3)
wobei die Verschiebung nil zwischen den Signalen aus der Maximumsuche im zu D¨
aquiva-
lenten Intervall NDhervorgeht
nil = argmax
n∈ND
ril(n).(7.4)
Die Verallgemeinerung ist auf die beiden spektralen Gewichtungsfunktionen Gi(Ω) und
Gl(Ω) in Gl. (7.3) zur¨
uckzuf¨
uhren. In [KC76] wurden f¨
unf verschiedene Varianten von Gewich-
tungsfunktionen beschrieben, wovon sich zwei in praktischen Systemen durchgesetzt haben.
Eine basiert auf dem SNR des zu analysierenden Signals und wird als Maximum-Likelihood-
Gewichtungsfunktion bezeichnet [MA04]. Dabei werden diejenigen Spektralkomponenten in
Gl. (7.3) akzentuiert, die wenig Rauschen enthalten. Die h¨
aufigste Methode ist jedoch, aus-
schließlich die Phaseninformation der zu vergleichenden Signale zu nutzen. Diese Phasentrans-
formation (engl. Phase Transform, PHAT) ergibt sich durch folgende Gewichtungsfunktionen
Gi(Ω) = 1
|Xi(Ω)|, Gl(Ω) = 1
|Xl(Ω)|.(7.5)
Die Leistungsf¨
ahigkeit der PHAT-GCC wurde in zahlreichen Publikationen gezeigt und auch
mit theoretischen Grenzen basierend auf statistischen Modellen der Schallausbreitung vergli-
chen [GRT03]. Zus¨
atzlich zu den in [KC76] aufgef¨
uhrten Gewichtungsfunktionen existieren
nat¨
urlich noch weitere, je nach konkreter Anwendung. Da ja die Einfallsrichtung von Sprach-
signalen detektiert werden soll, ist z. B. in [Bra99, RYPD05] die Charakteristik von stimm-
haften Lauten in der Sprache ausgenutzt worden. Werden z. B. viele Mikrophone verteilt im
Raum angeordnet, ist es weiterhin sinnvoll, die jeweiligen Richtungssch¨
atzungen wiederum
geeignet gewichtet zu einer Positionsbestimmung zusammenzuf¨
uhren [MA04, SHUW07].
Betrachtet man nun gem¨
aß der Signalbeschreibung in Abschnitt 3.1 die Einzelkomponen-
ten, aus denen ein Signal in Gl. (7.3) besteht
Xi(Ω) = Sc(Ω)Hi(Ω) + Nc(Ω)Ai(Ω) + Nu,i(Ω),(7.6)
so sind folgende Probleme erkennbar:
•Zur Bestimmung der Einfallsrichtung des Sprachsignals, muss auch der Sprecher aktiv
sein (Sc(Ω) 6= 0). Bei einer blockweisen Verarbeitung ist also eine Auswertung f¨
ur die
Signalabschnitte vorzunehmen, in denen auch das Sprachsignal enthalten ist.
•Nach M¨
oglichkeit sollte keine weitere gerichtete Quelle aktiv sein (Nc(Ω) = 0), da sonst
auch keine zuverl¨
assige Sch¨
atzung der Sprecherrichtung erfolgen kann. Ist dies nicht si-
cherzustellen, so m¨
ussen entweder Verfahren verwendet werden, die mehrere Schallquel-
len lokalisieren k¨
onnen [DCP01], oder es ist, im Falle von gerichteten St¨
orschallquellen,
die hier im weiteren Verlauf vorgestellte Methode einzusetzen.
7.1. Korrelation der Mikrophonsignale 115
•Werden die ersten beiden Punkte eingehalten, so ergeben sich noch aufgrund des un-
korrelierten Rauschterms Ungenauigkeiten in der Richtungssch¨
atzung.
•Insgesamt h¨
angt die Genauigkeit der Sch¨
atzung von der Nachhallzeit und der Komple-
xit¨
at von H(Ω) ab. Bei geringen Nachhallzeiten und einer Sichtverbindung zwischen
den Mikrophonen und dem Mund des Sprechers sind gute Ergebnisse zu erwarten. Bei
h¨
oheren Nachhallzeiten und einem abgewendeten Kopf des Sprechers k¨
onnen auch die
Richtungen fr¨
uher Reflexionen f¨
alschlicherweise als direkter Pfad detektiert werden. Ab-
hilfe verschaffen hier große Analysefenster von bis zu mehreren hundert Millisekunden
und eine Gl¨
attung der instantanen Sch¨
atzergebnisse.
Das “ideale Eingangssignal” ist folglich bestimmt durch Xi(Ω) = Sc(Ω)Hi(Ω). Setzt man
dies in Gl. (7.3) ein und verwendet die Gewichtungsfunktionen Gl. (7.5), so erh¨
alt man
ril(n) = 1
2πZπ
−π
Hi(Ω)H∗
l(Ω)
|Hi(Ω)||Hl(Ω)|ejΩndΩ.(7.7)
Erinnert man sich nun daran, dass die Eigenvektorbestimmung in Kapitel 5 gerade implizit
eine Sch¨
atzung der Raum¨
ubertragungsfunktion bzw. derer Verh¨
altnisse durchf¨
uhrt, so ist es
naheliegend, genau diese Sch¨
atzungen in Gl. (7.7) zu verwenden. Der Vorteil dabei ist, dass
f¨
ur die adaptive, iterative Eigenvektorbestimmung mehrere Signalbl¨
ocke verwendet werden
und somit bereits implizit eine gewisse zeitliche Gl¨
attung erfolgt. Weiterhin ist auch im Falle
von gerichteten St¨
orschallquellen eine relativ gute Bestimmung der Sprecherrichtung m¨
oglich.
Bildet also der zu lokalisierende Sprecher die alleinige, bzw. dominante Schallquelle, so
kann zun¨
achst der dominante Eigenvektor v1(Ω) = ζ(Ω)H(Ω) gesch¨
atzt werden. Diese Sch¨
at-
zung ˆ
v1(Ω) = (ˆv1,1(Ω),...,ˆv1,M (Ω))Twird dann ¨
aquivalent zu Gl. (7.7) jeweils f¨
ur die Kom-
ponenten ˆv1,i(Ω) und ˆv1,l(Ω) ausgewertet
r(PCA)
il (n) = 1
2πZπ
−π
ˆv1,i(Ω)ˆv∗
1,l(Ω)
|ˆv1,i(Ω)||ˆv1,l(Ω)|ejΩndΩ.(7.8)
Die hochgestellte Bezeichnung “(PCA)” in Gl. (7.8) soll darauf hinweisen, dass die ausgewer-
teten Koeffizienten aus dem speziellen Eigenwertproblem hervorgehen. Wird hingegen das
verallgemeinerte Eigenwertproblem unter Ber¨
ucksichtigung der Matrix ΦNN(Ω) betrachtet,
so ist der dominante Eigenvektor v1(Ω) = ζ(Ω)Φ−1
NN(Ω)H(Ω) zu sch¨
atzen. Dessen Sch¨
atzung
ˆ
v1(Ω) ist dann zun¨
achst von links mit ΦNN(Ω) zu multiplizieren, ˜
v1(Ω) = ΦNN(Ω)ˆ
v1(Ω), so
dass die resultierenden Komponenten von ˜
v1(Ω) = (˜v1,1(Ω),...,˜v1,M (Ω))Tf¨
ur die Auswer-
tung hergenommen werden k¨
onnen
r(GEV)
il (n) = 1
2πZπ
−π
˜v1,i(Ω)˜v∗
1,l(Ω)
|˜v1,i(Ω)||˜v1,l(Ω)|ejΩndΩ.(7.9)
Nun weist der Index“(GEV)”in Gl. (7.9) auf die vorherige Auswertung des verallgemeinerten
Eigenwertproblems hin. Durch die Ber¨
ucksichtigung von ΦNN(Ω) ist also auch eine Bestim-
mung der Sprecherrichtung m¨
oglich, obwohl weitere, gerichtete Schallquellen vorhanden sind.
Deren Statistik muss allerdings in ΦNN(Ω) erfasst worden sein.
Die gesch¨
atzte Sprecherrichtung folgt f¨
ur die PCA- und GEV-basierte Kreuzkorrelation
aus der gleichen Vorschrift zur Maximumsuche wie in Gl. (7.4).
116 Kapitel 7. Sprecherrichtungsbestimmung
7.2 Abtastung der Richtcharakteristik
Bereits in [BS73, HT73] ist das Prinzip beschrieben, einen Beamformer in verschiedene Rich-
tungen zu steuern und nach Maxima in der Ausgangsleistung zu suchen. Die Richtung korre-
spondierend zu dem absoluten Maximum kann dann als die Einfallsrichtung der dominanten
Quelle kategorisiert werden.
Die Ausgangsleistung eines gesteuerten Filter-and-Sum-Beamformers, abh¨
angig von der
betrachteten Einfallsrichtung θ, kann geschrieben werden als
P(θ) = Zπ
−π
M
X
i=1
Gi(Ω)Xi(Ω)ejΩni(θ)
2
dΩ (7.10)
wobei ni(θ) in Gl. (7.10) die richtungsabh¨
angige Verschiebung am i-ten Mikrophon gegen¨
uber
einer Referenz, z. B. n1(θ) = 0 beschreibt und Gi(Ω) die spektrale Gewichtung des i-ten
Signalpfades. Die Sch¨
atzung der Sprecherrichtung ˆ
θsfolgt aus der Maximumsuche
ˆ
θs= argmax
θ
P(θ).(7.11)
Man erkennt, dass die Vektorschreibweise der komplex konjugierten Exponentialterme in
Gl. (7.10) gerade den Steering Vektor d(Ω, θ) ergibt. Setzt man eine Gleichgewichtung von
Gi(Ω) = 1/M ∀ian, so resultiert der Uniformly Weighted Beamformer aus Abschnitt 3.3,
welcher in dieser Arbeit auch synonym als DSB bezeichnet wird. Die einfachste Realisierung
der SRP-Methode mittels DSB-Anordnung ist folglich gegeben durch die Maximumsuche1in
P(DSB)(θ) = 1
MZπ
−πdH(Ω, θ)X(Ω)2dΩ.(7.12)
Wird das allgemeine Signal aus Gl. (7.6) in Gl. (7.12) eingesetzt, ergeben sich ¨
ahnliche Proble-
me, wie sie im Abschnitt 7.1 bereits aufgezeigt wurden. Gem¨
aß [DSB01] ist die SRP-Methode
im Vergleich zu dem TDOA-Verfahren weniger robust und weist deutlich mehr Nebenmaxima
auf.
Betrachtet man allerdings ¨
aquivalent zum vorherigen Abschnitt nur die Phase der Ein-
gangssignale durch die entsprechende Wahl von Gi(Ω) = M/||X(Ω)|| ∀i, was insgesamt einer
Normierung auf die mittlere Leistung2entspricht, und setzt wieder ausschließlich nur das
mehrkanalige reine Sprachsignal in Gl. (7.10) ein, so ergibt sich
P(θ) = MZπ
−πdH(Ω, θ)H(Ω)
||H(Ω)||
2
dΩ,(7.13)
was aber gerade das Powerpattern der Raum¨
ubertragungsfunktion ausgewertet f¨
ur die Rich-
tung θdarstellt (vgl. Abschnitt 3.3). In Gl. (7.13) l¨
aßt sich wieder der Vektor der Raum-
¨
ubertragungsfunktion durch den gesch¨
atzten dominanten Eigenvektor ersetzen. Mit dem Ko-
effizientenvektor ˆ
v1(Ω), resultierend aus dem speziellen Eigenwertproblem, l¨
asst sich dann
schreiben
P(PCA)(θ) = MZπ
−πdH(Ω, θ)ˆ
v1(Ω)
||ˆ
v1(Ω)||
2
dΩ.(7.14)
1F¨
ur die Maximumsuche in Gl. (7.12) ist der Faktor 1/M unerheblich.
2F¨
ur die Maximumsuche in Gl. (7.13) ist der Faktor Munerheblich.
7.3. Implementierungsaspekte und Experimente 117
Die Interpretation von Gl. (7.14) ist also, dass die Richtcharakteristik des PCA Beamformers
abgetastet wird, und der Wert von θ, f¨
ur den sich das Maximum dieser Abtastung ergibt,
gerade die Sch¨
atzung der Sprecherrichtung darstellt. Dieses Vorgehen deckt sich mit den
Erkenntnissen aus dem Abschnitt 6, insbesondere bei der Betrachtung der Richtdiagramme
in z. B. Bild 6.1 oder Bild 6.3.
Im Falle von gerichteten St¨
orschallquellen ist die Sch¨
atzung des dominanten, generalisier-
ten Eigenvektors ˆ
v1(Ω) zun¨
achst wieder von links mit ΦNN(Ω) zu multiplizieren, ˜
v1(Ω) =
ΦNN(Ω)ˆ
v1(Ω), und ˜
v1(Ω) kann dann f¨
ur eine zu Gl. (7.13) bzw. Gl. (7.14) ¨
aquivalente Form
genutzt werden
P(GEV)(θ) = MZπ
−πdH(Ω, θ)˜
v1(Ω)
||˜
v1(Ω)||
2
dΩ.(7.15)
7.3 Implementierungsaspekte und Experimente
Zun¨
achst soll auf Implementierungsaspekte der Eigenvektor-basierten Korrelationsmethode
bzw. Abtastung der Richtcharakteristik eingegangen werden. Der erste wesentliche Punkt
dabei ist die diskrete Verarbeitung der einzelnen Spektralkomponenten Ωkim Frequenzbe-
reich. Eng damit verkn¨
upft ist die blockweise Betrachtung der Signale mit dem Blockindex
mund die blockweise Iteration der Eigenvektoren ˆ
v1,m. Je nach Ansatz – spezielles oder
allgemeines Eigenwertproblem – ergeben sich unterschiedliche Vektoren, die zur kompakteren
Schreibweise wie folgt zugewiesen werden sollen
Fm(Ωk) =
ˆ
v1,m(Ωk)
||ˆ
v1,m(Ωk)|| f¨
ur PCA-Filterkoeffizienten
ˆ
ΦNN(Ωk)ˆ
v1,m(Ωk)
||ˆ
ΦNN(Ωk)ˆ
v1,m(Ωk)|| f¨
ur GEV-Filterkoeffizienten.
(7.16)
Dies f¨
uhrt f¨
ur jeden Verarbeitungsblock mzu
ril,m(n) = 1
L
L−1
X
k=0
Fm,i(Ωk)F∗
m,l(Ωk)
|Fm,i(Ωk)||Fm,l(Ωk)|ejΩkn(7.17)
nil,m = argmax
n∈ND
ril,m(n),(7.18)
wobei Gl. (7.17) effizient mit der schnellen Fourier-Transformation berechnet werden kann.
Nun soll der Einfachheit halber die Fernfeld-N¨
aherung zwecks einfacher Berechnung des Ein-
fallswinkels verwendet werden. Weiterhin sind die Mikrophone linear und ¨
aquidistant mit
dem Abstand dzueinander angeordnet. ¨
Aquivalent zu Gl. (3.33) kann dann mit Gl. (7.18)
die Sch¨
atzung der Sprecherrichtung f¨
ur das Mikrophonpaar (i, l) angegeben werden zu
θil,m = arcsin c·nil,m
fAb ·d·(i−l), i 6=l. (7.19)
Unter Verwendung aller Mikrophonpaare – ohne Permutation – ergibt sich schließlich f¨
ur die
Sprecherrichtung θsdie gemittelte Sch¨
atzung pro Verarbeitungsblock
ˆ
θs,m =2
M(M−1)
M−1
X
i=1
M
X
l=i+1
θil,m.(7.20)
118 Kapitel 7. Sprecherrichtungsbestimmung
Bei dieser Vorgehensweise entsteht ein gewisses Problem bez¨
uglich der Aufl¨
osung, die mit
Gl. (7.19) erreicht werden kann. Denn bei der hier betrachteten Anwendung ist der Abstand
zwischen benachbarten Mikrophonen relativ klein: d= 0,04m. Nimmt man bei einer Ab-
tastfrequenz von fAb = 12kHz beispielsweise folgende Verschiebung nil,m =i−lan, also
gerade einen Abtastwert zwischen zwei benachbarten Mikrophonen, so ergibt sich f¨
ur das
Paar (1,2) ungef¨
ahr der Winkel 45◦, f¨
ur das Paar (1,3) 21◦, f¨
ur das Paar (1,4) 14◦und f¨
ur
das Paar (1,5) 11◦. Diese Aufl¨
osung ist jedoch deutlich zu gering. Daher ist es sinnvoll eine
Interpolation von ril,m(n) in Gl. (7.17) um die Stelle ril,m(nil,m) herum durchzuf¨
uhren. Es
wurde ein Interpolationsfilter mit MATLAB nach [IEE79] entworfen und in die Software zur
Bestimmung der Sprecherrichtung derart eingebunden, so dass die Anzahl der interpolierten
Werte zwischen den St¨
utzstellen variabel eingestellt werden kann. Benutzt man z. B. 16 in-
terpolierte Werte, kann bereits mit zwei benachbarten Mikrophonen eine Einfallsrichtung von
±2,5◦detektiert werden.
F¨
ur die Methode der Abtastung der Richtcharakteristik ist eine Interpolation nicht not-
wendig, da der Steering Vector f¨
ur beliebige Winkel direkt berechnet werden kann. Bei 2N+1
¨
aquidistanten Winkeln
θν=π
2Nν, ν =−N,...,N (7.21)
ist mit z. B. N= 45 eine ausreichende Aufl¨
osung von 2◦eingestellt. Die resultierenden
M·(2N+ 1) Exponentialterme pro Frequenzkomponente im Steering Vector k¨
onnen a priori
berechnet werden, so dass letztlich
P(θν) =
Ko
X
k=KudH(Ωk, θν)Fm(Ωk)2(7.22)
auszuwerten ist. In Gl. (7.22) ist durch die Angabe einer unteren Schranke Kuund einer
oberen Schranke Komit 0 ≤Ku< Ko≤L−1, die Auswahl einer Menge von Spektralkom-
ponenten m¨
oglich. Die gesch¨
atzte Sprecherrichtung folgt wieder aus einer Maximumsuche
ˆ
θs= argmax
θν
P(θν).(7.23)
Simulationen
Die Funktionsf¨
ahigkeit der vorgestellten Lokalisationsalgorithmen basierend auf der Korre-
lation der gesch¨
atzten Raum¨
ubertragungsfunktionen bzw. der Abtastung ihrer Richtcharak-
teristik soll anhand von anschaulichen Beispielen exemplarisch gezeigt werden. Dazu wurde
eine Quelle im Wechsel an zwei Positionen platziert, welche jeweils einen Abstand von 0,8m
zum Mittelpunkt der Mikrophongruppe hatte. Die beiden Einfallsrichtungen des akustischen
Signals waren -45◦und 0◦. So wurde ein mehrkanaliges Signal zu einer Datei bestehend aus
drei Teilsequenzen zusammengefasst: eine Sprach¨
außerung bei -45◦, anschließend bei 0◦und
wieder eine ¨
Außerung bei -45◦. Dem mehrkanaligen, reinen Sprachsignal wurde jeweils un-
korreliertes weißes Rauschen mit einem SNR von 25dB hinzuaddiert und wahlweise diffuses
bzw. gerichtetes Rauschen mit einem SNR von 5dB ¨
uberlagert.
In allen F¨
allen ist der Algorithmus 6 (A-PM-EG) zur Bestimmung des verallgemeinerten
dominanten Eigenvektors verwendet worden. Die Konstante f¨
ur die exponentielle Gl¨
attung ist
zu α= 0,96 gew¨
ahlt und die Anzahl der berechneten Koeffizienten betr¨
agt 128. Die so itera-
tiv bestimmten GEV-Filterkoeffizienten werden f¨
ur jeden Eingangsblock mit Gl. (7.16) in Gl.
7.3. Implementierungsaspekte und Experimente 119
(7.17) bzw. Gl. (7.22) ausgewertet, so dass sich einerseits mittels Gl. (7.18), Gl. (7.19) und Gl.
(7.20), sowie andererseits mittels Gl. (7.23) die blockabh¨
angigen Sch¨
atzungen f¨
ur die Spre-
cherrichtung ergeben. F¨
ur die Korrelationsmethode sind 16 interpolierte Werte zwischen den
St¨
utzstellen um das Maximum herum benutzt worden. F¨
ur die Abtastung der Richtcharakte-
ristik soll hier eine Winkelaufl¨
osung von einem Grad und ein ausgewerteter Frequenzbereich
von 500Hz bis 5500Hz verwendet werden.
Die Ergebnisse f¨
ur die Bestimmung der Sprecherrichtung sind in Bild 7.1 ¨
uber der Zeit
aufgetragen. Das Verfahren mittels der Kreuzkorrelationen der gesch¨
atzten Raum¨
ubertra-
gungsfunktionen ist mit “XK” bezeichnet und die Abtastung der Richtcharakteristik mit
“AR”. Zus¨
atzlich ist in Bild 7.1 die tats¨
achliche Einfallsrichtung zu sehen, wobei diese nur f¨
ur
die drei Zeitabschnitte dargestellt ist, in denen auch Sprachaktivit¨
at vorliegt. Daher ist die
Bezeichnung “S/W” gew¨
ahlt worden (“S” f¨
ur Sprachaktivit¨
at und “W” f¨
ur wahrer Winkel).
An den Ergebnissen f¨
ur die geringe Nachhallzeit in der linken Spalte von Bild 7.1 ist nun
eine Eigenschaft besonders auff¨
allig, und zwar die scheinbare Unabh¨
angigkeit von dem vorlie-
genden St¨
orschallfeld. In der Tat ist aufgrund der expliziten Ber¨
ucksichtigung der Kreuzleis-
tungsdichten der St¨
orung bei der Eigenvektorbestimmung eine gute Sch¨
atzung f¨
ur die Einfalls-
richtung des Nutzsignals in unterschiedlichsten Anordnungen beobachtet worden. Dies gilt bei
kleinen Nachhallzeiten f¨
ur beide Lokalisationsverfahren. Bei mittleren und h¨
oheren Nachhall-
zeiten weist die Methode durch Abtastung der Richtcharakteristik die genaueren Ergebnisse
auf. In der rechten Spalte von Bild 7.1 ist deutlich zu erkennen, dass das Korrelationsverfah-
ren eine ungenauere Sch¨
atzung liefert. Hier f¨
uhrt die Kombination aus signifikanten fr¨
uhen
Reflexionen in den Raumimpulsantworten und die Interpolation der Korrelationsergebnisse
zu Sch¨
atzfehlern, was aufgrund der Anordnung und den damit verbundenen ausgepr¨
agteren
Reflexionen bei der Richtung -45◦deutlich zu erkennen ist. Es sei dennoch angemerkt, dass
bei solch stark gest¨
orten Sprachsignalen, wie sie hier zugrundeliegen, eine Ungenauigkeit von
±5◦als sehr gering einzustufen ist.
Die guten Ergebnisse bei der Abtastung der Richtcharakteristik wurden durch einen hohen
Rechenaufwand aufgrund der zahlreichen komplexen Multiplikationen in Gl. (7.22) erkauft.
Die Berechnungsdauer liegt um ein Vielfaches ¨
uber der Dauer zur Sch¨
atzung der Sprecherrich-
tung mittels der Korrelationsmethode. Hier verhilft jedoch ein einfacher Trick zu einer deut-
lichen Komplexit¨
atsreduzierung. Da bei den gew¨
ahlten Parametern ca. alle 10ms Gl. (7.22)
ausgewertet wird, k¨
onnen einerseits sehr schnell ¨
Anderungen der Sprecherrichtung erfasst
werden, wie an den Verl¨
aufen in Bild 7.1 zu sehen ist. F¨
ur eine praktische Anwendung scheint
dies jedoch nicht in dem Maße notwendig zu sein. Daher kann eine Berechnung der Werte
|dH(Ωk, θν)Fm(Ωk)|2zwar f¨
ur alle Winkel θνaber f¨
ur eine bestimmte Untermenge an Fre-
quenzkomponenten k=Ku, Ku+∆, Ku+2∆, ... im Abstand ∆ f¨
ur einen Verarbeitungsblock
merfolgen, welche dann f¨
ur weitere Verarbeitungsbl¨
ocke als konstant erachtet werden. F¨
ur
den n¨
achsten Verarbeitungsblock m+1 erfolgt die Aktualisierung von |dH(Ωk, θν)Fm+1(Ωk)|2
f¨
ur die Spektralkomponenten k=Ku+1, Ku+∆+1, Ku+2∆+1, ..., im ¨
ubern¨
achsten Block
m+ 2 f¨
ur die Komponenten k=Ku+ 2, Ku+ ∆ + 2, Ku+ 2∆ + 2, ... usw., wodurch der
Berechnungsaufwand ungef¨
ahr noch 1/∆ des urspr¨
unglichen Aufwands betr¨
agt. Weiterhin
sollte zur Komplexit¨
atsreduktion eine gr¨
obere Winkelaufl¨
osung von z. B. 3◦gew¨
ahlt werden.
In Bild 7.2 sind die Verl¨
aufe f¨
ur die Lokalisationsmethode durch Abtastung der Richtcha-
rakteristik f¨
ur die Anordnung mit der gerichteten St¨
orschallquelle dargestellt. Es wurde eine
Winkelaufl¨
osung von 3◦durch die Wahl von N= 30 in Gl. (7.21) eingestellt und einerseits
∆ = 1 sowie andererseits ∆ = 30 gew¨
ahlt.
120 Kapitel 7. Sprecherrichtungsbestimmung
Nur unkorreliertes Rauschen
-40
-20
0
02 4 6 8 10
T60 = 0,05 s
t[s]
θ[◦]
XK AR S/W
-40
-20
0
02 4 6 8 10
T60 = 0,5 s
t[s]
θ[◦]
XK AR S/W
Unkorreliertes und diffuses Rauschen
-40
-20
0
02468 10
T60 = 0,05 s
t[s]
θ[◦]
XK AR S/W
-40
-20
0
02468 10
T60 = 0,5 s
t[s]
θ[◦]
XK AR S/W
Unkorreliertes und gerichtetes Rauschen
-40
-20
0
02 4 6 8 10
T60 = 0,05 s
t[s]
θ[◦]
XK AR S/W
-40
-20
0
02 4 6 8 10
T60 = 0,5 s
t[s]
θ[◦]
XK AR S/W
Bild 7.1: Sprecherrichtungsbestimmung mittels Kreuzkorrelationen der gesch¨
atzten Raum¨
ubertragungsfunk-
tionen “XK”und der Abtastung der Richtcharakteristik “AR”. Der tats¨
achliche Winkel ist mit “W/S”
dargestellt und nur f¨
ur Zeiten mit Sprachaktivit¨
at eingetragen.
Die Lokalisiationsergebnisse in Bild 7.2 zeigen zum einen f¨
ur einige Zeitpunkte Spr¨
unge
in der Richtungssch¨
atzung durch die gr¨
obere Winkelaufl¨
osung. Zum anderen ist f¨
ur den Fall
der Aktualisierung lediglich jede 30. Spektralkomponente pro Verarbeitungsblock bei der
Abtastung der Richtcharakteristik durch die Wahl von ∆ = 30 eine sehr geringe Verz¨
ogerung
in der Nachf¨
uhrung der Sprecherrichtung zu erkennen. Aufgrund der enormen Reduzierung
des Berechungsaufwands sind diese beiden Effekte jedoch tolerierbar. Insbesondere, da die
7.3. Implementierungsaspekte und Experimente 121
-40
-20
0
02 4 68 10
(a)
T60 = 0,05 s
t[s]
θ[◦]
N=30
∆=1 N=30
∆=30 S/W
-40
-20
0
02468 10
(b)
T60 = 0,5 s
t[s]
θ[◦]
N=30
∆=1 N=30
∆=30 S/W
Bild 7.2: Sprecherrichtungsbestimmung mittels der Abtastung der Richtcharakteristik f¨
ur die Anordnung mit
der gerichteten St¨
orschallquelle. Die Winkelaufl¨
osung betr¨
agt 3 ◦(N= 30) und pro Verarbeitungs-
block wird einerseits jede Spektralkomponente aktualisiert (∆ = 1) sowie andererseits nur jede 30.
Spektralkomponente (∆ = 30).
Verz¨
ogerung einer Nachf¨
uhrung der Richtungssch¨
atzung maßgeblich durch das Anzeigen von
Sprachaktivit¨
at durch die Sprache/Pause-Detektion abh¨
angt.
Zustandsbasierte Nachfilterung
Die in Bild 7.1 und Bild 7.2 gezeigten Ergebnisse stellen instantane Sch¨
atzungen pro Verar-
beitungsblock dar. Grunds¨
atzlich k¨
onnen diese noch durch z. B. eine Median-Filterung oder
eine exponentielle Gl¨
attung nachgefiltert werden, um ein robusteres Verhalten gegen¨
uber ge-
ringen Positions¨
anderungen des Sprechers zu erhalten. F¨
ur ein Szenario, in dem eine sich
kontinuierlich bewegende Schallquelle verfolgt werden soll, k¨
onnen auch aufwendigere Algo-
rithmen zur Weiterverarbeitung genutzt werden. Dabei ist es m¨
oglich, eine instantane Positi-
onssch¨
atzung dadurch zu verbessern, indem rekursiv alle bisherigen Beobachtungen durch ein
Zustandsmodell in die Sch¨
atzung mit einfließen. Ein Zustand enth¨
alt dabei die Positions- und
Geschwindigkeitsinformation. Daf¨
ur ist einerseits ein Messmodell f¨
ur die Beobachtungen und
andererseits ein Bewegungsmodell3zur Nachbildung der Bewegungseigenschaften notwendig.
Handelt es sich bei den Modellen um lineare Systeme, so kann ein Kalman Filter als stochasti-
scher Zustandssch¨
atzer zur Verfolgung der Sprecherbewegung genutzt werden. Dabei wird je-
doch nur die instantane (linearisierte) Positionssch¨
atzung als Beobachtung verwendet. W¨
ahlt
man z. B. das SRP-Verfahren als Messung f¨
ur die Wahrscheinlichkeit einer hypothetisierten
Sprecherrichtung, so ist es m¨
oglich, den durch die Linearisierung entstehenden Informations-
verlust zu vermeiden, und jede ausgewertete Richtung wird als Beobachtung herangezogen.
Dadurch wird rekursiv die gerade aktuelle, aber unbekannte Wahrscheinlichkeitsdichte auf
dem Zustandsraum gesch¨
atzt, um daraus den wahrscheinlichsten Systemzustand zu bestim-
men. Hierf¨
ur wird eine Wolke so genannter Partikel erzeugt, die Paare aus einem Gewicht und
einem Punkt im Zustandsraum sind, und als Ganzes die Wahrscheinlichkeitsdichte modellie-
ren. Diese Variante der stochastischen Verfahren zur Zustandssch¨
atzung wird sequenzielle
Monte-Carlo-Methode oder aber auch Partikel-Filterung genannt [DFG01, RAG04].
Zur Verfolgung einer Sprecherposition wurde eine Partikel-Filterung erstmals in [VB01]
vorgestellt, wobei die Gewichtung aus einer Kreuzkorrelation der Mikrophonsignale – also
3In [VB01, WW02, WHUP04] sind Mess- und Bewegungsmodelle f¨
ur die Problemstellung der Sprecherver-
folgung zu finden.
122 Kapitel 7. Sprecherrichtungsbestimmung
TDOA-Verfahren – berechnet wurde. In [WW02, LWW03, WLW03] kamen robustere Vari-
anten zur Gewichsbestimmung mittels eines gesteuerten DSBs – also SRP-Verfahren – zum
Einsatz. Eine Variante der hier vorgestellten Abtastung der Richtcharakteristik von PCA-
Beamformer-Koeffizienten wurde schließlich in [WHUP04] f¨
ur eine zweidimensionale Positi-
onsbestimmung und in [WHU04] lediglich zur Richtungsbestimmung eingesetzt. Dabei konnte
gezeigt werden, dass eine genauere Sprecherverfolgung mittels der Kombination aus PCA Be-
amforming und Partikel-Filterung im Vergleich zur Kombination aus GCC bzw. DSB-SRP
und Partikel-Filterung erreicht wird. Außerdem wurde in [WHUP04, WHU04] die ¨
Uberlegen-
heit der Partikel-Filterung gegen¨
uber dem Kalman Filter f¨
ur diese Anwendung demonstriert.
7.4 Zusammenfassung
In diesem Kapitel wurden zwei h¨
aufig benutzte Verfahren zur Sprecherrichtungsbestimmung
vorgestellt. Dies ist zum einen die TDOA-Methode, welche die Zeitdifferenz zweier Mikro-
phonsignale bestimmt und zum anderen das SRP-Verfahren, welches die Ausgangsleistung
eines Beamformers durch Steuerung seiner Richtcharakteristik maximiert.
Diese Methoden wurden hier derart erweitert, dass auch unter Einfluss starker statio-
n¨
arer St¨
orungen eine gute Sprecherrichtungsbestimmung m¨
oglich ist. Dabei erfolgt nicht die
Auswertung der Mikrophonsignale, sondern der iterativ bestimmten dominanten Eigenvek-
toren des verallgemeinerten Eigenwertproblems. Bei einer guten Sch¨
atzung der spektralen
Kreuzleistungsdichten der St¨
orung kann somit auch eine zuverl¨
assige Richtungssch¨
atzung in
Anwesenheit von gerichteten St¨
orquellen erfolgen.
Da die Abtastung der Richtcharakteristik der Eigenvektoren sehr rechenintensiv ist, sind
Implementierungsm¨
oglichkeiten aufgezeigt worden, die zu einer erheblichen Reduzierung des
Berechnungsaufwands f¨
uhren. Die Komplexit¨
at ist dadurch ¨
ahnlich wie die der Korrelations-
methode, bei einer nur sehr geringen damit einhergehenden Verz¨
ogerung, und dennoch einem
insgesamt robusteren Verhalten im Vergleich zur Korrelationsmethode.
Kapitel 8
GEV-Beamformer in GSC-Struktur
In Kapitel 4 wurde das Prinzip des statistisch optimalen Beamformings aufgezeigt, wobei das
Optimierungskriterium in Abschnitt 4.2 aus der Minimierung der Varianz des Ausgangssignals
des Beamformers unter der Einhaltung einer Nebenbedingung besteht. Basierend auf diesem
Ansatz ist in dem bekannten Verfahren nach [Fro72] zur Minimierung der Rauschleistung ein
Adaptionsschema mit Nebenbedingung beschrieben. In [GJ82] wurde das Minimierungspro-
blem mit Nebenbedingung umgewandelt in ein Minimierungsproblem ohne Nebenbedingung,
so dass die adaptiven Filter zur St¨
orger¨
auschreduktion (engl. Adaptive Noise Cancellation,
ANC) einfach mittels LMS-Algorithmus realisiert werden k¨
onnen. Dabei erfolgt die Mini-
mierung des Rauschens in einem Signal, welches mittels eines unver¨
anderlichen Beamformers
(engl. Fixed Beamformer, FBF) erzeugt wird. Hierbei wird davon ausgegangen, dass das mehr-
kanalige Eingangssignal des FBFs bez¨
uglich des Sprachsignals zeitangepasst, also koh¨
arent
vorliegt. Die adaptiven Filter ben¨
otigen dann am Eingang vorverarbeitete Mikrophonsignale,
die m¨
oglichst keine Sprachkomponenten mehr enthalten und daher auch als St¨
orger¨
auschrefe-
renzsignale bezeichnet werden. Die St¨
orger¨
auschreferenzsignale gehen prinzipiell aus einer Ma-
trixmultiplikation mit den Mikrophonsignalen hervor, wobei diese Sprachsignal-blockierende
Matrix (engl. Blocking Matrix, BM) nach [GJ82] eine feste, nicht adaptive1Struktur aufweist.
Die sich ergebende Gesamtstruktur bestehend aus FBF, BM und ANC wird als Generalized
Sidelobe Canceller (GSC) bezeichnet, siehe Bild 8.1.
Die Leistungsf¨
ahigkeit eines GSCs zur St¨
orger¨
auschreduktion h¨
angt insbesondere von der
G¨
ute der St¨
orger¨
auschreferenzsignale ab, welche m¨
oglichst frei von dem Nutzsignal sein soll-
ten. Diese Eigenschaft wird dabei maßgeblich durch zwei Problemstellungen beeinflusst: zum
einen ist dies die Mehrwegeausbreitung des Sprachsignals und zum anderen simultan aktive
St¨
orger¨
auschquellen.
In diesem Kapitel werden unterschiedliche Realisierungen der Blocking Matrix behandelt.
Dabei wird insbesondere ein neuartiges Verfahren vorgestellt, welches auf einem GEV Be-
amforming basiert. Dieses hat den Vorteil, sich adaptiv dem Sprachsignal anzupassen, auch
wenn ein permanentes St¨
orschallfeld vorliegt.
1Ein feste, nicht adaptive Blocking Matrix setzt eine der Sprecherposition entsprechende Laufzeitkompen-
sation des direkten Pfades voraus.
124 Kapitel 8. GEV-Beamformer in GSC-Struktur
−
Fixed
Beamformer
Blocking
Matrix
Adaptive
Noise
Cancellation
yFBF(n)yGSC(n)
x1(n)
FFBF(Ω)
B(Ω) Z(Ω)
x2(n)
xM(n)
u1(n)
u2(n)
uM(n)
Bild 8.1: Blockschaltbild des Generalized Sidelobe Cancellers.
8.1 GSC in station¨
arer Umgebung
Eine ¨
aquivalente Schreibweise zur Minimierung der Kostenfunktion Gl. (4.21) ist gegeben
durch
minimiere
F(Ω) FH(Ω)ΦXX(Ω)F(Ω) (8.1)
mit FH(Ω)H(Ω) = W(Ω),(8.2)
mit der spektralen Gewichtung W(Ω) (vgl. Gl. (4.20)). Dieser Ansatz kann mit Hilfe der
Lagrange-Funktion und einem Gradienten-Abstiegs-Verfahrens gel¨
ost werden (siehe L¨
osung
Gl. (4.28)). F¨
ur eine unverzerrte Filterung des Sprachsignals muss folgende Bedingung gelten
W(Ω) = 1.(8.3)
Optimale Filter der ANC
Nun wird der Filterkoeffizientenvektor aufgespaltet in zwei additive Anteile
F(Ω) = FFBF(Ω) −B(Ω)Z(Ω),(8.4)
wobei FFBF(Ω) die eigentliche Strahlformung (Fixed Beamformer), B(Ω) die Sprachsignal-
Blockierung (Blocking Matrix) und Z(Ω) die St¨
orger¨
ausch-Ausl¨
oschung (Noise Cancellation)
beschreibt (vgl. Bild 8.1). Nach Einsetzen von Gl. (8.4) in Gl. (8.2) mit W(Ω) = 1 ergibt sich
FH
FBF(Ω) −ZH(Ω)BH(Ω)H(Ω) = 1,(8.5)
wobei Gl. (8.5) durch die Bedingungen
FH
FBF(Ω)H(Ω) = 1 (8.6)
BH(Ω)H(Ω) = 0 (8.7)
8.1. GSC in station¨
arer Umgebung 125
erf¨
ullt werden kann. Falls Gl. (8.6) und Gl. (8.7) eingehalten werden, k¨
onnen die mehrkana-
ligen Filter Z(Ω) zur Erf¨
ullung der Bedingung Gl. (8.5) beliebig gew¨
ahlt werden und m¨
ussen
keine Nebenbedingung einhalten. Daher sind sie nun so zu w¨
ahlen, dass in dem einkanaligen
Ausgangssignal des Fixed Beamformers
YFBF(Ω) = FH
FBF(Ω)X(Ω),(8.8)
alle St¨
orsignalkomponenten, welche mit dem mehrkanaligen St¨
orger¨
auschreferenzsignal
U(Ω) = BH(Ω)X(Ω) (8.9)
r¨
aumlich korreliert sind, entfernt werden, und sich das letztendliche Ausgangssignal des GSCs
zu
YGSC(Ω) = YFBF(Ω) −ZH(Ω)U(Ω) (8.10)
ergibt. Die Kostenfunktion f¨
ur das Minimierungsproblem ist
JGSC(Z(Ω)) = FH
FBF(Ω) −ZH(Ω)BH(Ω)ΦXX(Ω) [FFBF(Ω) −B(Ω)Z(Ω)] (8.11)
und ergibt somit den Gradientenvektor
∇ZJGSC(Z(Ω)) = −BH(Ω)ΦXX(Ω)FFBF(Ω) + BH(Ω)ΦXX(Ω)B(Ω)Z(Ω).(8.12)
Durch Nullsetzen von Gl. (8.12) kann das mehrkanalige Wiener Filter mit den optimalen
Koeffizienten angegeben werden als
Zopt(Ω) = BH(Ω)ΦXX(Ω)B(Ω)−1BH(Ω)ΦXX(Ω)FFBF(Ω) (8.13)
=Φ−1
UU(Ω)ΦUYFBF (Ω),(8.14)
wobei ΦUU(Ω) = E{U(Ω)UH(Ω)}als invertierbar angenommen wird und ΦUYFBF (Ω) =
E{U(Ω)Y∗
FBF(Ω)}gilt.
Implementierung und Adaption der ANC
Die Filterkoeffizienten Gl. (8.13) der mehrkanaligen ANC k¨
onnen in einer Implementierung
iterativ f¨
ur jeden Verarbeitungsblock mit dem Index mund jede Frequenzkomponente Ωk
¨
uber die normalisierte LMS-Adaptionsregel bestimmt werden
Zm+1(Ωk) = Zm(Ωk) + µP−1
m(Ωk)Um(Ωk)Y∗
GSC m(Ωk) (8.15)
Pm+1(Ωk) = αPm(Ωk) + (1 −α)M−1UH
m(Ωk)Um(Ωk),(8.16)
mit der festen Schrittweite µund dem Gl¨
attungsfaktor α. Im Sinne der adaptiven Filterung
beschreibt YGSC m(Ωk) das Fehlersignal zwischen dem Referenzsignal des FBFs und dem ge-
filterten Signal am Ausgang der ANC. Dieses kann genau genommen nur f¨
ur Signalbl¨
ocke
herangezogen werden, in denen kein Nutzsignal enthalten ist. Daher sollte die Adaptions-
regel Gl. (8.15) und Gl. (8.16) ¨
uber eine Sprache/Pause-Detektion gesteuert werden. Au-
ßerdem ist der Fehler im Zeitbereich zu ermitteln, und durch Einf¨
ugen von Nullen in die
Filterimpulsantworten werden zyklische Effekte vermieden [Shy92]. Um eine m¨
oglichst hohe
St¨
orger¨
auschreduktion zu erhalten, sollte jeweils die Filterl¨
ange m¨
oglichst groß gew¨
ahlt wer-
den. Dies bedeutet jedoch auch, dass die Adaptionsdauer zunimmt. Bei einer Abtastrate von
fAb = 12kHz stellt eine Filterl¨
ange von 1024 einen guten Kompromiss und sinnvollen Wert
dar.
126 Kapitel 8. GEV-Beamformer in GSC-Struktur
Allgemeine Form der BM
Das Ziel der Blocking Matrix ist, eine Projektion der Eingangssignale auf den zur Sprachsi-
gnalkomponente orthogonalen Unterraum durchzuf¨
uhren. F¨
ur die Einhaltung der Bedingung
BH(Ω)H(Ω) = 0 wird eine Struktur in der Form
BH(Ω) = I−BH(Ω) (8.17)
gew¨
ahlt, wobei BH(Ω)H(Ω) = H(Ω) gelten soll. Die Projektion BH(Ω) soll das Sprachsignal
also so gut wie m¨
oglich rekonstruieren. Es kann folglich die allgemeine Formulierung
BH(Ω) = H(Ω)WH(Ω)
WH(Ω)H(Ω) (8.18)
verwendet werden, wobei der Vektor W(Ω) in Gl. (8.18) prinzipiell beliebig gew¨
ahlt werden
kann aber ungleich dem Nullvektor sein muss und nicht orthogonal zu H(Ω) sein darf. Es ist
also direkt zu sehen, dass mit der Formulierung Gl. (8.18) die Bedingung Gl. (8.7) eingehalten
wird. F¨
ur die Filterung des Eingangssignals X(Ω) = Sc(Ω)H(Ω) + N(Ω) mit der Blocking
Matrix ergibt sich
U(Ω) = BH(Ω)X(Ω) = I−H(Ω)WH(Ω)
WH(Ω)H(Ω)N(Ω),(8.19)
wobei offensichtlich das Sprachsignal verschwindet und in U(Ω) nur noch gefilterte St¨
orsi-
gnalkomponenten verbleiben.
Es stellt sich nun die Frage, wie die Matrix BH(Ω) realisiert werden soll. Wie ist also
der Vektor W(Ω) zu w¨
ahlen und wie kann die Raum¨
ubertragungsfunktion H(Ω) bestimmt
werden.
8.2 Realisierung der Blocking Matrix
Im Folgenden sollen drei BM-Varianten aus der Literatur vorgestellt werden:
•die einfache Methode der Subtraktion zeitangepasster Mikrophonsignale nach Griffiths
und Jim [GJ82],
•die L¨
osung nach Gannot et al. [GBW01] durch Einsetzen von zuvor bestimmten Ver-
h¨
altnissen der Raum¨
ubertragungsfunktionen und
•das robuste Verfahren nach Hoshuyama et al. [HSH99], bei dem die Sprachanteile in
den Mikrophonsignalen mittels adaptiver Filter und einem Sprachreferenzsignal entfernt
werden.
Weiterhin wird eine neuartige Realisierung basierend auf dem GEV Beamforming hergeleitet.
Zun¨
achst sollen zwei fundamentale Realisierungen der Blocking Matrix aufgezeigt werden.
W¨
ahlt man WH(Ω) = (1,0,...,0) so ergibt sich
BH
TFR(Ω) = 1
H1(Ω)
0 0 ... 0
−H2(Ω) H1(Ω) 0 ... .
.
.
−H3(Ω) 0 H1(Ω) ...
.
.
..
.
....
−HM(Ω) 0 . . . H1(Ω)
.(8.20)
8.2. Realisierung der Blocking Matrix 127
Aufgrund der Tatsache, dass in Gl. (8.20) die Verh¨
altnisse Hi(Ω)/H1(Ω) f¨
ur i= 2,3,...,M
zu bestimmen sind, wird die Matrix auch Transfer Function Ratio (TFR) Blocking Matrix
(TFRBM) genannt und f¨
uhrt daher zu dem Index “TFR” in Gl. (8.20). Das Grundprinzip
bei der Filterung der Mikrophonsignale mit BH
TFR(Ω) besteht darin, paarweise aufeinander
angepasste Signale zu subtrahieren, also Xi(Ω) −Hi(Ω)/H1(Ω)X1(Ω) f¨
ur i= 2,3,...,M zu
berechnen.
Als n¨
achstes ergibt sich mit WH(Ω) = (1,1,...,1) die voll besetzte Matrix
BH
TF(Ω) = 1
M
P
i=1
Hi(Ω)
M
P
i=2
Hi(Ω) −H1(Ω) ... −H1(Ω)
−H2(Ω)
M
P
i=1, i6=2
Hi(Ω) ... −H2(Ω)
.
.
....
−HM(Ω) −HM(Ω) ...
M−1
P
i=1
Hi(Ω)
(8.21)
mit der Bezeichnung “TF” f¨
ur Transfer Function. Die Matrix in Gl. (8.21) soll demzufolge
Transfer Function Blocking Matrix (TFBM) genannt werden. Der Rang von BH
TF(Ω) ist wei-
terhin M−1, was bedeutet, dass eins der MSt¨
orger¨
auschreferenzsignale linear abh¨
angig ist
von den anderen St¨
orger¨
auschreferenzsignalen.
8.2.1 BM nach Griffiths und Jim
Die Grundidee nach [GJ82] basiert auf der Annahme der Freifeldausbreitung des Sprach-
signals, so dass lediglich zeitangepasste Mikrophonsignale subtrahiert werden m¨
ussen, um
das Nutzsignal zu entfernen. Die ¨
Ubertragungsfunktion f¨
ur die Sprecherrichtung θssoll also
beschrieben sein durch
d(Ω, θs) = (ejΩτ1(θs)/T , ejΩτ2(θs)/T ,...,ejΩτM(θs)/T )H.(8.22)
Bei einer Implementierung w¨
urden die durch Gl. (8.22) entstehenden relativen Verz¨
ogerungen
in einem ersten Schritt kompensiert werden
˜
X(Ω) = e−jΩtk/T diag{(ejΩτ1(θs)/T,ejΩτ2(θs)/T,...,ejΩτM(θs)/T)}X(Ω),(8.23)
wobei die Verz¨
ogerung e−jΩtk/T mit tk>max{τi}zur Realisierung einer kausalen Filterung
eingef¨
ugt wurde. Das so koh¨
arent verschobene mehrkanalige Signal ˜
X(Ω) dient als Eingangs-
signal f¨
ur die Blocking Matrix.
Mit diesen Annahmen ergibt sich aus Gl. (8.20) die einfache Form der Delay Only Ratio
Blocking Matrix (DORBM) mit dem Index “DOR”
BH
DOR(Ω) =
0 0 ... 0
−1 1 0 ... 0
−1 0 1
.
.
..
.
....
−1 0 0 ... 1
,(8.24)
128 Kapitel 8. GEV-Beamformer in GSC-Struktur
und entsprechend aus Gl. (8.21) folgt die Delay Only Blocking Matrix (DOBM) mit dem
Index “DO”
BH
DO(Ω) = 1
M
M−1−1... −1
−1M−1.
.
.
.
.
....
−1−1. . . M −1
.(8.25)
In Gl. (8.25) wird also quasi von jedem Eingangssignal der Mittelwert der anderen Eingangs-
signale subtrahiert. Auch hier ist der Rang der (M×M)-Matrix BH
DO(Ω) wieder M−1.
Implementierung der DORBM und DOBM
Grunds¨
atzlich sind die Matrizen Gl. (8.24) und Gl. (8.25) nichtadaptiv und ben¨
otigen also
kein direktes Nachf¨
uhren von Koeffizienten. Die Subtraktion kann sehr effizient und ohne
Verzerrungen im Zeitbereich umgesetzt werden. Bei der Implementierung des Gesamtsys-
tems ist jedoch eine adaptive Sprecherrichtungsbestimmung und -nachf¨
uhrung, sowie eine
Laufzeitkompensation des direkten Ausbreitungspfades notwendig. Wird der Zeitausgleich
korrekt vorgenommen, besteht aufgrund der nichtadaptiven Struktur der BM der Vorteil
einer st¨
orger¨
auschunabh¨
angigen Sprachsignalunterdr¨
uckung. Da aber die Annahme der Frei-
feldausbreitung f¨
ur reale Anwendungen in verhallten R¨
aumen nicht haltbar ist, gelangt mit
steigender Nachhallzeiten ein wachsender Anteil an Sprachsignalkomponenten in die St¨
orge-
r¨
auschreferenzsignale hinein. Weiterhin entsteht dieser Effekt nat¨
urlich auch bei nicht korrekt
zeitangepassten Mikrophonsignalen.
8.2.2 BM nach Gannot et al.
F¨
ur die TFR Blocking Matrix Gl. (8.20) m¨
ussen die Verh¨
altnisse Hi(Ω)/H1(Ω) f¨
ur i=
2,3,...,M gesch¨
atzt werden. Ein Verfahren hierzu ist in [GBW99] erstmals im Zusammen-
hang mit einer GSC-Realisierung vorgestellt worden, wobei ausf¨
uhrlichere Beschreibungen in
[Gan00, GBW01] zu finden sind. Grundlage bildet Gl. (8.9), welche umgestellt wird zu
Xi(Ω) = Ui−1(Ω) + Hi(Ω)
H1(Ω)X1(Ω).(8.26)
Mit Gl. (8.26) wird unter Beachtung der blockweisen Verarbeitung eine gleichgewichtete
Sch¨
atzung der spektralen Kreuzleistungsdichte zwischen dem i-ten und dem ersten Mikrophon
f¨
ur den Zeitpunkt mangegeben zu
ˆ
φ(GG)
XiX1,m(Ω) = ˆ
φ(GG)
Ui−1X1,m(Ω) + Hi(Ω)
H1(Ω) ˆ
φ(GG)
X1X1,m(Ω), i = 2,3,...,M, (8.27)
wobei ausgenutzt wurde, dass das Nutz- und das St¨
orsignal miteinander unkorreliert und
jeweils mittelwertfrei sind.
Weiterhin wird der Fehler zwischen dem Spektrum des (i−1)-ten Ausgangssignal der BM
und dem ersten Mikrophonsignal definiert
Ei−1,m(Ω) = ˆ
φ(GG)
Ui−1X1,m(Ω) −φUi−1X1(Ω).(8.28)
8.2. Realisierung der Blocking Matrix 129
Mit Gl. (8.27) und Gl. (8.28) ist es m¨
oglich, nach NBl¨
ocken folgendes ¨
uberbestimmtes lineares
Gleichungssystem aufzustellen
ˆ
φ(GG)
XiX1,1(Ω)
ˆ
φ(GG)
XiX1,2(Ω)
.
.
.
ˆ
φ(GG)
XiX1,N (Ω)
=
ˆ
φ(GG)
X1X1,1(Ω) 1
ˆ
φ(GG)
X1X1,2(Ω) 1
.
.
.
ˆ
φ(GG)
X1X1,N (Ω) 1
"Hi(Ω)/H1(Ω)
φUi−1X1(Ω) #+
Ei−1,1(Ω)
Ei−1,2(Ω)
.
.
.
Ei−1,N (Ω)
.(8.29)
Mit der entscheidenden Forderung der Stationarit¨
at des St¨
orsignals und der Ausnutzung der
Nichtstationarit¨
at der Sprache kann eine Sch¨
atzung ˆ
Hi(Ω)/ˆ
H1(Ω) abgeleitet werden. Dabei
wird die Methode der kleinsten Quadrate auf das Gleichungssystem Gl. (8.29) nach dem in
[SW96] vorgestellten Prinzip angewendet. Die L¨
osung ergibt sich dann laut [GBW01] zu
ˆ
Hi(Ω)
ˆ
H1(Ω) =
N
P
m=1 ˆ
φ(GG)
X1X1,m(Ω)ˆ
φ(GG)
XiX1,m(Ω)−
N
P
m=1
ˆ
φ(GG)
X1X1,m(Ω)
N
P
m=1
ˆ
φ(GG)
XiX1,m(Ω)
N
P
m=1 ˆ
φ(GG)
X1X1,m(Ω)2−
N
P
m=1 ˆ
φ(GG)
XiX1,m(Ω)2.(8.30)
Implementierung der TFRs
Grunds¨
atzlich ist die Implementierung von Gl. (8.30) f¨
ur diskrete Spektralkomponenten Ωk
vorzunehmen; es werden also die Verh¨
altnisse ˆ
Hi(Ωk)/ˆ
H1(Ωk) bestimmt. In [GBW01] wird
berichtet, dass die Bl¨
ocke zur gleichgewichteten Sch¨
atzung der Kreuzleistungsdichten sich
nicht ¨
uberlappen sollten. Weiterhin ist nat¨
urlich die Sch¨
atzung durchzuf¨
uhren, wenn das
Nutzsignal auch in den Mikrophonsignalen vorliegt, weshalb eine Sprache/Pause-Detektion
notwendig ist. In der Realisierung [GBW01] wurden die Filterl¨
angen in der Blocking Matrix
jeweils zu 181 bei einer Abtastrate von 8kHz gew¨
ahlt. Daher scheint eine Wahl von B= 256
f¨
ur die Filterimpulsantworten bei der Abtastrate fAb = 12kHz gerechtfertigt zu sein. Diese
sind wie folgt zu ermitteln. Aus den nicht¨
uberlappenden Abtastwerten am Eingang werden
L= 512 Daten mittels einer Hamming-Fensterung herausgenommen und im Frequenzbereich
entsprechend viele Koeffizienten mittels Gl. (8.30) berechnet. Nach der R¨
ucktransformation
in den Zeitbereich werden B= 256 Koeffizienten herausgeschnitten2, mit Nullen auf eine
L¨
ange L= 512 aufgef¨
ullt und wieder in den Frequenzbereich transformiert.
F¨
ur eine konsequente Nutzung der Verh¨
altnisse der ¨
Ubertragungsfunktionen k¨
onnen diese
auch in den FBF eingesetzt werden. Die entstehenden Sprachverzerrungen des Gesamtsys-
tems sind ausf¨
uhrlich in [GBW04] behandelt. Dabei scheinen insbesondere in dem unteren
Frequenzbereich (f < 500Hz) Probleme aufzutreten.
Die GSC-Struktur kann zur weiteren St¨
orger¨
auschreduktion mit einem Post Filter [GC04]
und einer Echokompensation [RGC07a] erweitert werden. In [RGC07b] ist das Gesamtsystem
schließlich noch auf das Vorhandensein eines zus¨
atzlichen Sprechers ausgelegt worden, also
einem Szenario mit zwei instation¨
aren Quellen.
2Prinzipiell l¨
asst sich zur Vermeidung zyklischer Effekte bei der Filterung im Frequenzbereich auch folgende
Methode verwenden: Nach der Fourier-Transformation der L¨
ange 512 werden zu jeder zweiten Frequenzkompo-
nente die Verh¨
altnisse Gl. (8.30) berechnet. Diese 256 Koeffizienten sind in den Zeitbereich zu transformieren
und mit Nullen zu erweitern, so dass schließlich wieder eine Fourier-Transformation der L¨
ange 512 angewendet
werden kann.
130 Kapitel 8. GEV-Beamformer in GSC-Struktur
8.2.3 BM nach Hoshuyama et al.
Im Folgenden wird eine Variante der BM beschrieben, die ohne direkte Berechnung der ¨
Uber-
tragungsfunktionen bzw. Verh¨
altnisse dieser auskommt. Das Verfahren wurde erstmals in
[HSH96] vorgestellt, wobei die Sprachanteile in den Mikrophonsignalen mittels adaptiver
Filter und einem Sprachreferenzsignal entfernt werden. Eine genauere Beschreibung ist in
[HSH99] zu finden. Die dort vorgestellte LMS-Adaption ist im Zeitbereich realisiert und in
[HK01] auf eine recheneffiziente Version im Frequenzbereich ¨
ubertragen worden.
Die Idee besteht darin, ein Sprachreferenzsignal Yref(Ω) zu erzeugen, welches aus der
Filterung der Eingangsdaten mit dem Filtervektor Fref(Ω) hervorgeht
Yref(Ω) = FH
ref(Ω)X(Ω).(8.31)
Zwischen diesem Referenzsignal und den Eingangssignalen werden weitere FIR-Filter G(Ω)
eingef¨
ugt, um die St¨
orger¨
auschreferenzsignale zu generieren
U(Ω) = X(Ω) −G(Ω)Yref(Ω).(8.32)
Die statistisch optimalen Koeffizienten sollen mit optimalen Eingangsdaten, also X(Ω) =
S(Ω) und dem optimalen Referenzsignal
Yopt(Ω) = Yref(Ω)X(Ω)=S(Ω) (8.33)
bestimmt werden, mittels der Bedingung
EX(Ω) −G(Ω)Yref(Ω)Y∗
ref(Ω)X(Ω)=S(Ω)
!
= 0.(8.34)
Das Ergebnis ist das folgende Wiener Filter
Gopt(Ω) = ΦSYopt (Ω)
φYoptYopt (Ω).(8.35)
Die optimalen Filterkoeffizienten des Wiener Filters Gl. (8.35) k¨
onnen weiter umgeformt
werden zu
Gopt(Ω) = φScSc(Ω)H(Ω)HH(Ω)Fref(Ω)
φScSc(Ω)HH(Ω)Fref(Ω)FH
ref(Ω)H(Ω) (8.36)
=H(Ω)
FH
ref(Ω)H(Ω).(8.37)
An Gl. (8.37) kann abgelesen werden, dass mit Hilfe der idealisierten Annahme X(Ω) = S(Ω)
gerade eine Systemidentifikation m¨
oglich ist, da eine skalierte Version der Raum¨
ubertragungs-
funktion bestimmt wurde.
Da durch die Subtraktion in Gl. (8.32) die St¨
orger¨
auschreferenzsignale mittels einer ad-
aptiven Sprachsignalausl¨
oschung (engl. Adaptive Speech Cancellation, ASC) generiert werden
sollen, wird die so entstehende Blocking Matrix in dieser Arbeit als ASCBM bezeichnet und
mit dem Index “ASC” versehen. Die optimale ASCBM ergibt sich aus den oberen Erkennt-
nissen zu
BH
ASC opt(Ω) = I−Gopt(Ω)FH
ref(Ω) (8.38)
=I−H(Ω)FH
ref(Ω)
FH
ref(Ω)H(Ω).(8.39)
8.2. Realisierung der Blocking Matrix 131
Bei dem Vergleich von Gl. (8.39) mit der allgemeinen Formulierung Gl. (8.17) und Gl. (8.18)
gilt f¨
ur diesen Ansatz offensichtlich
W(Ω) = Fref(Ω).(8.40)
Grunds¨
atzlich gilt auch hier wieder, dass die Wahl des Vektors Fref(Ω) beliebig ist, solange
dieser ungleich dem Nullvektor und nicht orthogonal zu der Raum¨
ubertragungsfunktion des
Sprachsignals ist. Geht man zun¨
achst noch davon aus, dass das Eingangssignal keine St¨
orkom-
ponenten beinhaltet, so f¨
uhrt z. B. die Wahl von Fref = (1,0,...,0)Tzu einer BM die identisch
zu BTFR(Ω) aus Gl. (8.20) ist. Bei der realen Anwendung gilt jedoch X(Ω) = S(Ω) + N(Ω),
weshalb eine andere Wahl f¨
ur Fref (Ω) zur Erzeugung eines Sprachreferenzsignals sinnvoll ist.
Da der Fokus der Arbeiten von z. B. [HSH99, HS01] und [HK03] auf der Unterdr¨
uckung
nicht station¨
arer Quellen – also weiterer Sprecher – liegt, wird nur von unkorreliertem Mikro-
phonrauschen und sehr geringem diffusen Rauschen ausgegangen. Diese Rauschkomponen-
ten k¨
onnen mit dem FBF in der Realisierung als DSB oder besser z. B. mit einem Dolph-
Chebyshev-Fenster angewendet auf die zeitkompensierten Mikrophonsignale deutlich redu-
ziert werden. Daher kann das Ausgangssignal YFBF(Ω) des FBFs als Sprachreferenzsignal
dienen und f¨
ur die Filterkoeffizienten gilt demnach
Fref(Ω) = FFBF(Ω).(8.41)
Implementierung und Adaption der ASCBM
Die blockorientierte adaptive Bestimmung von Gm(Ωk) f¨
ur die diskreten Spektralkomponen-
ten Ωkund den Verarbeitungsblock mergibt sich demzufolge ¨
aquivalent zu Gl. (8.15) durch
Gm+1(Ωk) = Gm(Ωk) + µP−1
m(Ωk)Xm(Ωk)Y∗
FBF m(Ωk) (8.42)
Pm+1(Ωk) = αPm(Ωk) + (1 −α)|YFBF m(Ωk)|2,(8.43)
wiederum mit der festen Schrittweite µund dem Gl¨
attungsfaktor α. Auch hier ist wieder auf
die Besonderheiten der Filterung im Frequenzbereich zu achten [Shy92]. Robustheitsaspekte
wie eine Begrenzung der Filterkoeffizienten oder ein Leaky-Faktor sind in Gl. (8.42) nicht
ber¨
ucksichtigt worden. Im Gegensatz zu Gl. (8.15) erfolgt die Iteration in Gl. (8.42) w¨
ahrend
Sprachaktivit¨
at, welche ¨
uber eine Sprache/Pause-Detektion angezeigt werden muss. Nach der
Analyse [HK02] zu der ASC Blocking Matrix ist bei einer Abtastrate von fAb = 12kHz eine
L¨
ange von 256 f¨
ur die adaptiven Filter als sinnvoll zu erachten.
Die resultierende GSC-Struktur wurde in [Her04] mit einer Echokompensation in unter-
schiedlichen Varianten als Gesamtsystem untersucht. In [HBNK07] sind weitere Robustheitsa-
spekte bez¨
uglich der Adaption beschrieben, speziell f¨
ur den Fall von Double-Talk-Situationen.
Besonders wichtig ist hier noch abschließend zu erw¨
ahnen, dass bei einem permanent
aktiven starken St¨
orger¨
auschfeld der GSC mit ASC Blocking Matrix zu starken Sprachsi-
gnalverzerrungen und einer schlechten St¨
orger¨
auschreduktion f¨
uhren kann [Kr¨
u07]. Dies ist
offensichtlich, da zum Erreichen der optimalen Koeffizienten in Gl. (8.35) bei der Adapti-
onsregel Gl. (8.42) in dem Referenzsignal YFBF m(Ωk) nur Sprachkomponenten vorhanden
sein d¨
urfen. F¨
ur die Problemstellung in dieser Arbeit dient dieses Verfahren also lediglich als
Referenzverfahren, welches unter optimalen Bedingungen adaptiert wird.
132 Kapitel 8. GEV-Beamformer in GSC-Struktur
8.2.4 Neuartige Bestimmung der Blocking Matrix
Wie in Abschnitt 5.2 gezeigt wurde, ist mittels der adaptiven Eigenwertzerlegung eine gute
Sch¨
atzung f¨
ur den dominanten Eigenvektor
v1(Ω) = ζ(Ω)Φ−1
NN(Ω)H(Ω) (8.44)
m¨
oglich. Die optimale L¨
osung Gl. (8.44) kann nun von links mit ΦNN(Ω) multipliziert werden
˜
H(Ω) = ΦNN(Ω)v1(Ω) (8.45)
um die resultierenden Funktionen ˜
H(Ω) = ( ˜
H1(Ω),˜
H2(Ω),..., ˜
HM(Ω))Tdirekt in Gl. (8.20)
oder Gl. (8.21) einzusetzen. Der noch verbleibende skalare Faktor ζ(Ω) zwischen ˜
Hi(Ω) und
Hi(Ω) spielt dabei keine Rolle, da die Normierung in Gl. (8.20) bzw. Gl. (8.21) daf¨
ur sorgt,
dass dieser herausf¨
allt. Die so ermittelte Blocking Matrix soll mit GTFRBM bezeichnet wer-
den, in Anlehnung an die TFRBM, allerdings hier berechnet mit Hilfe des GEV.
Eine andere Variante [WKHU08] ergibt sich auf der Grundlage der ASCBM aus dem vor-
herigen Abschnitt. Denn wie in dem Kapitel 4 gezeigt wurde, kann mittels des Filtervektors
v1(Ω) – abgesehen von der Skalierung – ein statistisch optimales Beamforming erreicht wer-
den. Daher ist das so gefilterte Eingangssignal als optimales Sprachreferenzsignal anzusehen
Fref(Ω) = v1(Ω) (8.46)
Yref(Ω) = vH
1(Ω)X(Ω).(8.47)
Folgt man dem Ansatz Gl. (8.32), bei dem zwischen dem Referenzsignal und den Eingangs-
signalen Filter eingef¨
ugt werden, so ergeben sich diese durch die Bedingung
EX(Ω) −G(Ω)Yref(Ω)Y∗
ref(Ω)X(Ω)=S(Ω)+N(Ω)
!
= 0,(8.48)
wobei nun in Gl. (8.48) ein gest¨
ortes Sprachsignal am Eingang zugelassen wird. Das optimale
Ergebnis kann durch Ausnutzung der Eigenwertgleichung ΦXX(Ω)v1(Ω) = λ1(Ω)ΦNN(Ω)v1(Ω)
angegeben werden zu
Gopt(Ω) = ΦNN(Ω)v1(Ω)
vH
1(Ω)ΦNN(Ω)v1(Ω).(8.49)
Da in Gl. (8.49) alle Gr¨
oßen als bekannt angenommen werden, ist keine weitere Adaption wie
im Abschnitt 8.2.3 notwendig. Es l¨
asst sich also direkt die GEV Blocking Matrix (GEVBM)
angeben
BH
GEV(Ω) = I−ΦNN(Ω)v1(Ω)vH
1(Ω)
vH
1(Ω)ΦNN(Ω)v1(Ω),(8.50)
wobei der Index“GEV”in Gl. (8.50) auf die Bestimmung mittels des dominanten Eigenvektors
hinweist. Selbstverst¨
andlich kann Gl. (8.50) mit Gl. (8.45) und Gl. (8.46) in eine zu Gl. (8.39)
¨
aquivalente Form umgewandelt werden.
Implementierung der GTFRBM und GEVBM
Die blockorientierte adaptive Bestimmung von BH
GEV(Ω) nach Gl. (8.50) f¨
ur die diskreten
Spektralkomponenten Ωkerfolgt im Wesentlichen durch die Bestimmung des dominanten Ei-
genvektors v1(Ωk) mit Hilfe des Algorithmus 5 (A-PM-GG). Daf¨
ur wird zun¨
achst in Sprach-
pausen durch exponentielle Gl¨
attung die Matrix ˆ
Φ−1
NN(Ωk) bestimmt und w¨
ahrend Sprachak-
tivit¨
at v1(Ωk) sowie die gleichgewichtete Sch¨
atzung von ˆ
ΦXX(Ωk) aktualisiert (siehe 5.2.1).
8.3. Fixed Beamformer 133
Danach erfolgt die Umformung gem¨
aß Gl. (8.50). F¨
ur die letztendliche Filterung der Mikro-
phonsignale ist nun wieder auf die Vermeidung von zyklischen Effekten zu achten. Daher wird
ein Verfahren ¨
aquivalent zu dem Vorgehen bei der TFRBM eingesetzt. Es werden also die
L= 2BFilterkoeffizienten der Blocking Matrix zun¨
achst wieder in den Zeitbereich transfor-
miert. Hier sind BKoeffizienten herauszuschneiden und mit Nullen auf die doppelte L¨
ange
aufzuf¨
ullen. Nach einer erneuten Fourier-Transformation liegen die LFilterkoeffizienten zur
Filterung vor. F¨
ur den Fall der GTFRBM ist prinzipiell das gleiche Vorgehen anwendbar.
8.3 Fixed Beamformer
Um die GSC-Struktur nach Bild 8.1 zu realisieren ist noch ein geeigneter Fixed Beamformer
notwendig. In dieser Arbeit werden hierf¨
ur zwei Varianten vorgeschlagen. Zum einen ist dies
die einfachste Methode mittels DSB und zum anderen ein “blindes” Verfahren basierend auf
der Sch¨
atzung der ¨
Ubertragungsfunktionen mittels adaptiver Eigenwertzerlegung.
8.3.1 DSB als FBF
F¨
ur den Aufbau eines DSBs sind zwei Komponenten notwendig. Zuerst ist die Sprecherrich-
tung zu bestimmen und als n¨
achstes sind die jeweiligen Laufzeitunterschiede des direkten
Pfades zwischen der Quelle und den Mikrophonen auszugleichen. Der Vorteil bei diesem FBF
ist eine unverzerrte ¨
Ubertragung des Sprachsignals. Der Nachteil ist jedoch die Notwendigkeit
einer expliziten Bestimmung der Sprecherrichtung. Dadurch ergibt sich nat¨
urlich eine gewisse
Einschr¨
ankung des angef¨
uhrten Vorteils, da nur dann ein unverzerrtes Nutzsignal am Ausgang
erreicht wird, wenn die DOA auch korrekt ermittelt wird. Weiterhin gilt diese Einschr¨
ankung
ebenfalls f¨
ur den Aspekt einer optimalen Realisierung der Laufzeitkompensation.
Wie in Kapitel 7 gezeigt wurde, ist mittels der Methode der Abtastung der Richtcharak-
teristik unter Verwendung des generalisierten dominanten Eigenvektors ˆ
v1(Ω) in Gl. (7.15)
eine sehr gute Sch¨
atzung der Sprecherrichtung m¨
oglich. Und zwar auch in Umgebungen mit
gerichteten St¨
orschallquellen. Daher soll dieses Verfahren zur Bestimmung der DOA in der
GSC-Struktur Verwendung finden.
Zur Kompensation der Laufzeitunterschiede sind in [LVKL96] verschiedene Verfahren zur
Realisierung von Verz¨
ogerungen kleiner als die Abtastzeit zusammengestellt. Ein Problem
stellt dabei insbesondere die frequenzunabh¨
angige Signald¨
ampfung dar, die je nach gew¨
ahltem
Verfahren stark von der umzusetzenden Verz¨
ogerung abh¨
angt. Hinzu kommt noch der nicht
zu untersch¨
atzende Rechenaufwand f¨
ur die fortlaufende Berechnung der Interpolationsfilter
in Abh¨
angigkeit der ermittelten DOA. Daher soll hier eine g¨
anzlich andere Methode zur
Laufzeitkompensation vorgeschlagen werden, die sich bei der Realisation des Gesamtsystem
als sehr effizient erwiesen hat.
Die Untersuchungen zur Sprachverzerrung durch eine fehlerhafte Laufzeitkompensation
in Kapitel 3.5 haben gezeigt, dass eine geringe Abweichung zwischen Zielrichtung des Ar-
rays und tats¨
achlicher Sprecherrichtung als durchaus tolerierbar einzustufen ist. Daher ist es
sinnvoll, f¨
ur eine konkrete geometrische Anordnung a priori Interpolationsfilter f¨
ur ein be-
stimmtes Raster von Zielrichtungen zu berechnen und in einer Datenbank abzulegen. Diese
Filterkoeffizienten m¨
ussen dann zur Laufzeit der Software f¨
ur die ermittelten DOAs nur noch
aus der Datenbank ausgelesen, aber nicht mehr berechnet werden. Eine Winkelaufl¨
osung von
134 Kapitel 8. GEV-Beamformer in GSC-Struktur
∆θt= 4◦erscheint hierbei ausreichend und ergibt somit 2N+1 = 45 m¨
ogliche Zielrichtungen
θt ν =ν∆θt, ν =−N, . . . , N. (8.51)
Die Filterkoeffizienten FPCA ν(Ω) f¨
ur die Richtungen θt ν werden wie folgt berechnet. In einer
simulierten Umgebung mit Freifeldausbreitung (T60 = 0s) wird jeweils an diesen Zielrich-
tungen eine Quellen platziert, welche weißes Rauschen emittiert. Mittels PCA Beamforming
werden dann die optimalen Filterkoeffizienten berechnet, wie in Abschnitt 5.1.4 beschrie-
ben ist. Somit ist gew¨
ahrleistet, dass ein optimaler Laufzeitausgleich gegeben eine bestimmte
Filterl¨
ange realisiert wird.
F¨
ur die eigentliche Filterung zur Laufzeit ist dann schließlich der Koeffizientensatz zu
w¨
ahlen, der zu dem Index der Richtung geh¨
ort, f¨
ur die gilt
ˆν= argmin
ν|ˆ
θs−θt ν|,(8.52)
wobei ˆ
θsdie gesch¨
atzte Sprecherrichtung ist. Das Ausgangssignal ist somit gegeben durch
YFBF(Ω) = FH
PCA ˆν(Ω)X(Ω).(8.53)
Bei der blockorientierten Implementierung ist die Filterung Gl. (8.53) wieder mittels
Overlap-Save-Methode [Shy92] f¨
ur diskrete Spektralkomponenten Ωkumzusetzen, wobei na-
t¨
urlich aufgrund der zeitabh¨
angigen Sch¨
atzung der Sprecherrichtung auch die Wahl der Fil-
terkoeffizienten von Block zu Block unterschiedlich sein kann.
8.3.2 Matched Filter als FBF
Die explizite Bestimmung der Sprecherrichtung kann vermieden werden, wenn der domi-
nante Eigenvektor Gl. (8.44) in einer nachverarbeiteten Version zur Filterung hergenom-
men wird. Dazu sind zun¨
achst wieder die skalierten Raum¨
ubertragungsfunktionen ˜
H(Ω) =
ΦNN(Ω)v1(Ω) zu bestimmen, welche dann entsprechend der BAN-Methode aus Abschnitt
6.4.1 normiert werden (vgl. Gl. (6.18) bzw. Gl. (6.19))
FMF(Ω) = 1
√M
˜
H(Ω)
||˜
H(Ω)||.(8.54)
F¨
ur die Filterkoeffizienten in Gl. (8.54) wurde der Index “MF” als Kennzeichnung f¨
ur das
Matched Filter verwendet. Denn obschon die Koeffizienten ¨
aquivalent zum PCA Beamforming
und ines damit verbundenen Matched Filters sind, basiert die Bestimmung des Eigenvektors
nicht auf dem speziellen, sondern dem allgemeinen Eigenwertproblem.
Gl. (8.54) basiert auf der N¨
aherung ||H(Ω)|| ≈ √M, wodurch dann folglich auch nur
n¨
aherungsweise ein unverzerrtes Sprachsignal am Ausgang des FBFs zu erwarten ist:
YFBF(Ω) = FH
MF(Ω)X(Ω) (8.55)
=FH
MF(Ω)Sc(Ω)H(Ω) + N(Ω)(8.56)
=ζ(Ω)
|ζ(Ω)|||H(Ω)||
√MSc(Ω) + FH
MF(Ω)N(Ω) (8.57)
≈ζ(Ω)
|ζ(Ω)|Sc(Ω) + FH
MF(Ω)N(Ω).(8.58)
8.4. Experimentelle Untersuchungen 135
Bei einer kleinen Nachhallzeit erh¨
alt man ein nahezu unverzerrt gefiltertes Signal aus der
implizit ermittelten Sprecherrichtung. F¨
ur große Nachhallzeiten ist mit einer gering variie-
renden, frequenzselektiven D¨
ampfung f¨
ur die gew¨
unschte Richtung zu rechnen. Dieses Ver-
halten ist beispielhaft an den Richtcharakteristiken in Bild 8.2 verdeutlicht. Dargestellt sind
die Beampattern der Filterkoeffizienten nach Gl. (8.54) bei Anwendung des Verfahrens in dem
Szenario-2 f¨
ur zwei unterschiedliche Nachhallzeiten.
T60 = 0,05s
Ω/(2πT) [kHz]
θ[◦]
-90-454590
0
0
1
2
3
4
5
(a)
T60 = 0,5s
Ω/(2πT) [kHz]
θ[◦]
-90-454590
0
0
1
2
3
4
5
dB
0
-10
-20
-30
-40
(b)
Bild 8.2: Richtcharakteristiken der Koeffizienten des Matched Filters als FBF f¨
ur die Nachhallzeiten von T60 =
0,05 s und T60 = 0,5 s. Die Sprecherrichtung betr¨
agt θs= 45 ◦und das gerichtete Tiefpassrauschen
hat eine Einfallsrichtung von θn=−20 ◦.
An dem Beampattern f¨
ur die Nachhallzeit T60 = 0,05s in Bild 8.2 (a) ist sehr gut das
zu einem DSB ¨
aquivalente Verhalten zu erkennen. F¨
ur die Nachhallzeit T60 = 0,5s in Bild
8.2 (b) ist die f¨
ur einen Matched Filter Beamformer typische Charakteristik wiederzufinden.
Es bildet sich f¨
ur die Sprecherrichtung θs= 45◦nur n¨
aherungsweise f¨
ur alle Frequenzen
die gleiche D¨
ampfung aus, da bei der Ermittlung des dominanten Eigenvektors noch fr¨
uhe
Reflexionen ber¨
ucksichtigt werden. Bei subjektiven H¨
ortest hat sich dieses Verhalten jedoch
als nicht signifikant erwiesen. Da also der Matched Filter Beamformer den Vorteil einer blinden
Arbeitsweise aufweist, ist hierin eine sehr gute Alternative zur Realisierung als FBF in einer
GSC-Struktur zu sehen.
8.4 Experimentelle Untersuchungen
Im Folgenden sollen Ergebnisse zu den experimentellen Untersuchungen der GSC-Strukturen
mit den beiden unterschiedlichen Fixed Beamformern pr¨
asentiert werden. Zun¨
achst ist dies
die Realisierung des Fixed Beamformers als DSB und im Anschluss die Variante mittels eines
Matched Filters. Grunds¨
atzlich gilt hier wieder bei den adaptiven Filtern, dass alle Messungen
mit konvergierten Koeffizienten vorgenommen wurden. Dies betrifft die adaptiven Blocking-
Matrix-Varianten, die Adaptive Noise Cancellation und den Matched Filter Beamformer. Der
DSB ist optimal realisiert mit dem a priori Wissen ¨
uber die Sprecherrichtung und einer
exakten Laufzeitkompensation.
F¨
ur die Ergebnisse in den nachfolgenden Diagrammen sollen folgende Abk¨
urzungen defi-
niert sein:
•Generalized Sidelobe Canceller mit Delay-and-Sum-Beamformer als Fixed Beamformer
und verschiedenen Varianten der Blocking Matrix
136 Kapitel 8. GEV-Beamformer in GSC-Struktur
◦DOR: Delay Only Ratio Blocking Matrix gem¨
aß Gl. (8.24) durch die paarweise
Subtraktion zeitangepasster Mikrophonsignale nach Griffiths und Jim [GJ82]
◦TFR: Transfer Function Ratio Blocking Matrix Gl. (8.20) mit der Bestimmung
des Verh¨
altnisses der ¨
Ubertragungsfunktionen nach Gannot et al. [GBW01] mit
Gl. (8.30)
◦ASC: Adaptive Speech Cancellation Blocking Matrix mit Hilfe adaptiver Filter und
NLMS-Adaption mit Gl. (8.42) und Gl. (8.43), wobei das reine Sprachsignal am
DSB-Ausgang als Referenzsignal3dient
◦GTFR: Generalized Eigenvector Transfer Function Ratio Blocking Matrix basie-
rend auf der BM Gl. (8.20), wobei die ¨
Ubertragungsfunktionen mittels Algorithmus
5 (A-PM-GG) bestimmt werden
◦GEV: Generalized Eigenvector Blocking Matrix entsprechend der neuartigen Form
in Gl. (8.50)
•Generalized Sidelobe Canceller mit Matched Filter nach Gl. (8.54) als Fixed Beamformer
und beide Varianten der Blocking Matrix basierend auf dem dominanten Eigenvektor
◦MF-GTFR: Matched Filter FBF und Generalized Eigenvector Transfer Function
Ratio Blocking Matrix
◦MF-GEV: Matched Filter FBF und Generalized Eigenvector Blocking Matrix
Alle adaptiven Filter sind im Frequenzbereich unter Anwendung der blockorientierten
Overlap-Save-Methode realisiert worden. Bis auf eine explizit gekennzeichnete Ausnahme
wurden f¨
ur das Verfahren nach Gannot und die eigenvektorbasierten Methoden eine Fil-
terl¨
ange von B= 256 Koeffizienten gew¨
ahlt. Das Matched Filter FBF ist jedoch mit einer
Filterl¨
ange von 128 f¨
ur jeden Mikrophonpfad implementiert worden. Daf¨
ur kann sehr effizient
aus dem adaptiv berechneten dominanten Eigenvektor in der entsprechenden Blocking Ma-
trix jede zweite Frequenzkomponente entnommen werden. Die Motivation f¨
ur eine geringere
Filterl¨
ange im FBF ist in Abschnitt 6.4.2 zu finden.
Die mehrkanalige Adaptive Noise Cancellation ist mit einer Filterl¨
ange von 1024 pro Pfad
realisiert, wobei die Filterkoeffizienten gem¨
aß der normalisierten LMS-Adaptionsregel Gl.
(8.15) und Gl. (8.16) bestimmt wurden.
Grunds¨
atzlich wird bei allen Simulationen den Eingangsdaten wieder jeweils weißes, r¨
aum-
lich unkorreliertes Rauschen mit einem SNR von 25dB hinzugef¨
ugt. Desweiteren werden die
jeweiligen r¨
aumlich korrelierten St¨
orsignale mit einem SNR von 5dB additiv ¨
uberlagert.
8.4.1 Generalized Sidelobe Canceller mit DSB
Gem¨
aß Gl. (8.7) sollten die St¨
orger¨
auschreferenzsignale im Idealfall keinen Sprachanteil mehr
enthalten. Dies ist nat¨
urlich insbesondere f¨
ur steigende Nachhallzeiten aufgrund der begrenz-
ten Filterl¨
ange in der Blocking Matrix und den jeweiligen Sch¨
atzfehlern der verwendeten
Verfahren nur bedingt zu erzielen. Um das Verm¨
ogen der Sprachblockierung (engl. Blocking
3Es soll nochmal darauf hingewiesen werden, dass f¨
ur die ASCBM in der Praxis nicht das reine Sprachsignal
am DSB-Ausgang beobachtet werden kann und daher diese Anordnung nur zu Vergleichszwecken verwendet
wird.
8.4. Experimentelle Untersuchungen 137
Ability, BA) einer Blocking Matrix zu messen, soll im Zeitbereich die D¨
ampfung des Sprach-
signals relativ zur St¨
orung vom Eingang zum Ausgang f¨
ur die betrachtete BM wie folgt
bestimmt werden
BA := 10 ·
log10
M
P
i=1 P
n∈Ts
u2
s,i(n)
M
P
i=1 P
n∈Ts
u2
n,i(n)
−log10
M
P
i=1 P
n∈Ts
x2
s,i(n)
M
P
i=1 P
n∈Ts
x2
n,i(n)
dB.(8.59)
Es wird also in Gl. (8.59) von dem mittleren SNR in den MSt¨
orger¨
auschreferenzsignalen
im logarithmischen Bereich das mittlere SNR in den Mikrophonsignalen, unter Beachtung
der Menge der Zeitindizes Tswelche Sprache beinhalten, subtrahiert. us,i(n) bezeichnet den
Sprachanteil im i-ten St¨
orger¨
auschreferenzsignal und un,i(n) entsprechend den Rauschanteil.
In Bild 8.3 (a) ist die Blocking Ability f¨
ur das Szenario-2 und in Bild 8.3 (b) der SNR-
Gewinn dargestellt. Wie erwartet wird f¨
ur den idealen Fall mit der ASCBM die gr¨
oßte D¨
amp-
fung des Sprachsignals erzielt. Die BA der ASCBM setzt sich insbesondere bei der Freifeld-
ausbreitung deutlich von der BA der anderen Verfahren ab. Obschon f¨
ur T60 = 0s gerade
die korrekte Randbedingung f¨
ur den Einsatz der DORBM eingehalten wird, sind doch mini-
male Fehler bez¨
uglich der Zeitanpassung aufgrund der Annahme einer planar auf das Array
einfallenden Schallwelle vorhanden (trotz bekannter Sprecherrichtung). Zus¨
atzlich sind Pegel-
differenzen zwischen den Sensorsignalen nicht kompensiert. Beiden Effekten kann jedoch mit
den adaptiven Filtern in der ASCBM optimal begegnet werden. Mit steigender Nachhallzeit
steigt auch der Sprachanteil in den St¨
orger¨
auschreferenzsignalen f¨
ur alle BM-Varianten. Hier
liegen die Werte der Blocking Ability der GTFRBM und GEVBM im Bereich zwischen den
Ergebnissen f¨
ur die ASCBM und die DORBM. Hingegen unterscheiden sich die Verl¨
aufe der
BA f¨
ur die TFRBM und DOR nicht wesentlich voneinander.
Der SNR-Gewinn in Bild 8.3 (b) zeigt, dass die Verl¨
aufe f¨
ur die GSC-Strukturen mit
GEVBM und GTFRBM dem optimalen Verlauf bei der Realisierung mit der ASCBM sehr
nahe kommen. Leider liefert hier die Struktur mit TFRBM nicht die erwartete Leistungsf¨
a-
higkeit. Der SNR-Gewinn liegt signifikant unter den Ergebnissen der anderen Verfahren und
ist nur f¨
ur gr¨
oßere Nachhallzeiten ¨
ahnlich zu dem SNR-Gewinn mit der DORBM. Maßgeb-
lich ist hierf¨
ur eine schlechte Unterdr¨
uckung der unteren Frequenzkomponenten der Sprache
durch die TFRBM, welche insbesondere bei geringen Nachhallzeiten ins Gewicht f¨
allt. Da-
mit verbunden ist eine schlechte Rauschunterdr¨
uckung des GSCs im unteren Frequenzbereich
und eine generelle Anhebung des gefilterten Signals f¨
ur diese Frequenzen. Dieses Verhalten
soll durch eine genauere Betrachtung des reinen Sprachsignals am GSC-Ausgang verdeutlicht
werden. Hierf¨
ur wird das Verh¨
altnis der spektralen Leistungsdichte der reinen Sprachsignale
vor und nach der Subtraktion ¨
uber den Noise-Cancellation-Pfad gebildet:
δLDS(Ω) =
ˆ
φ(GG)
YGSCYGSC (Ω)
ˆ
φ(GG)
YFBFYFBF (Ω) X(Ω)=S(Ω)
.(8.60)
In Gl. (8.60) beschreibt ˆ
φ(GG)
YFBFYFBF (Ω) die ¨
uber die gesamte Sprach¨
außerung gleichgewich-
tet gemittelte spektrale Leistungsdichte nach dem FBF und ˆ
φ(GG)
YGSCYGSC (Ω) entsprechend das
gemittelte Leistungsdichtespektrum nach dem GSC jeweils f¨
ur das reine Sprachsignal. Die
Abweichung δLDS(Ω) ist in Bild 8.4 (a) gemittelt ¨
uber alle 10 Sprachbeispiele f¨
ur die GSC-
Strukturen mit TFRBM, GTFRBM und GEVBM exemplarisch f¨
ur eine Nachhallzeit von
138 Kapitel 8. GEV-Beamformer in GSC-Struktur
-40
-30
-20
-10
0
00,2 0,4 0,6
BA [dB]
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(a)
00,2 0,4 0,6
10
15
20
25
30
35
SNRG [dB]
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(b)
Bild 8.3: Blocking Ability in (a) und SNR-Gewinn in (b) f¨
ur eine Sprecherrichtung von θs= 45 ◦und eine
St¨
orquelle bei θn=−20 ◦.
T60 = 0,1s dargestellt und in Bild 8.4 (b) f¨
ur die GSC-Strukturen mit DORBM und ASCBM.
F¨
ur den GSC mit TFRBM ist eine auff¨
allige Anhebung der Spektralkomponenten bis ca.
500Hz zu erkennen, welche auch bereits in [GBW04] Erw¨
ahnung fand. Mit der GTFRBM
und GEVBM erfolgt hingegen eine leichte D¨
ampfung der unteren Frequenzkomponenten. Ab-
gesehen von dem GSC mit DORBM ergibt sich f¨
ur die anderen Methoden eine D¨
ampfung
des Signals f¨
ur die h¨
ochsten Frequenzen, da hier nahezu kein Sprachsignal vorhanden ist.
00
2
2
4
4
6
6
Ω/(2πT) [kHz]
δLDS(Ω)
GEV
GTFR
TFR
(a)
00
0,5
1
1,5
246
Ω/(2πT) [kHz]
δLDS(Ω)
DOR
ASC
(b)
Bild 8.4: LDS-Verh¨
altnisse nach Gl. (8.60) f¨
ur eine Sprecherrichtung von θs= 45 ◦und eine St¨
orquelle bei
θn=−20 ◦f¨
ur eine Nachhallzeit von T60 = 0,1 s.
Daher soll nun die Varianz der spektralen Abweichung f¨
ur die Spektralkomponenten kor-
respondierend zu dem Frequenzbereich zwischen ca. 0,5kHz und 5kHz untersucht werden:
σ2
LDS := var{δLDS(Ω)}. Eine Varianz von Null besagt, dass alle Frequenzkomponenten gleich
stark ged¨
ampft bzw. verst¨
arkt werden und sich somit lediglich eine Lautst¨
arke¨
anderung er-
geben kann. Große Werte f¨
ur die Varianz bedeuten hingegen, dass die verschiedenen Fre-
quenzkomponenten unterschiedlich stark ged¨
ampft oder verst¨
arkt wurden, was folglich zu
einer Sprachverzerrung f¨
uhrt. Die Varianz σ2
LDS wird wieder ¨
uber alle Beispiel¨
außerungen
gemittelt und ¨
uber der Nachhallzeit betrachtet. F¨
ur das Szenario-2 sind die Ergebnisse in
Bild 8.5 (a) dargestellt. Die Varianz σ2
LDS in Bild 8.5 zeigt f¨
ur alle Verfahren geringe Werte
8.4. Experimentelle Untersuchungen 139
00
0,05
0,1
0,15
0,2
0,2 0,4 0,6
σ2
LDS
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(a)
00,2 0,4 0,6
0,97
0,98
0,99
1
PSM
T60 [s]
GEV
GTFR
TFR
DOR
(b)
Bild 8.5: In (a) Varianz der Verh¨
altnisse der spektralen Leistungsdichte des GSC-Ausgangssignals zu der des
FBFs -Ausgangssignal und in (b) das perzeptive Qualit¨
atsmaß f¨
ur eine Sprecherrichtung von θs= 45 ◦
und einer St¨
orquelle bei θn=−20 ◦.
f¨
ur kleine Nachhallzeiten. Mit steigendem T60 weist dann der GSC mit DORBM die h¨
ochs-
ten Werte f¨
ur die Varianz auf gefolgt von der TFR-Methode. Die beiden Realisierungen mit
dem dominanten Eigenvektor in der GTFRBM und der GEVBM weisen nur geringe Unter-
schiede zueinander auf. Die geringste Varianz ergibt sich schließlich f¨
ur das Referenzsystem
mit ASCBM. Die Ergebnisse der Varianzmessung decken sich prinzipiell mit den Ergebnissen
der perzeptiven Sprachqualit¨
atsmessung, welche in Bild 8.5 (b) zu sehen sind. Dabei sind
nun wieder alle Spektralkomponenten beteiligt und pro Nachhallzeit ist der Mittelwert der
PSM-Werte der 10 verwendeten Beispiels¨
atze abgebildet. Als Referenzsignal wurde jeweils
das reine Sprachsignal des GSC-Referenzsystems mit ASCBM verwendet. Die auff¨
allig gerin-
geren PSM-Werte f¨
ur das TFRBM System bei kleinen Nachhallzeiten sind wieder durch die
Tiefenanhebung zu erkl¨
aren.
Als n¨
achstes folgen Ergebnisse zu den gleichen Messungen wie zuvor, jedoch f¨
ur das dif-
fuse St¨
orschallfeld bei weiterhin einer Sprecherrichtung von θs= 45◦. Die Blocking Ability
und der SNR-Gewinn f¨
ur diese Anordnung sind in Bild 8.6 dargestellt. Die Blocking Ability
der DORBM und ASCBM sind nahezu identisch zu den entsprechenden Verl¨
aufen in Bild
8.3, jedoch sind die Ergebnisse f¨
ur die GEVBM geringf¨
ugig schlechter und f¨
ur die TFRBM
geringf¨
ugig besser. Der SNR-Gewinn f¨
ur den GSC mit TFRBM liegt nun auch leicht ¨
uber
der Methode mit DORBM, wobei weiterhin – abgesehen von dem Referenzsystem – der GSC
mit GEVBM die gr¨
oßte Rauschunterdr¨
uckung liefert.
Die Abweichung der spektralen Leistungsdichte f¨
ur das System mit TFRBM hat sich im
unteren Frequenzbereich deutlich verringert, was beispielhaft an Bild 8.7 zu sehen ist. Daher
ist auch die Varianz σ2
LDS dieser Realisierung ¨
ahnlich zu denen der GSCs mit GTFRBM und
GEVBM. Auff¨
allig an den Verl¨
aufen der Varianz in Bild 8.8 sind die relativ geringen Werte
f¨
ur den GSC mit DORBM. Dieses Verhalten liegt an der Tatsache, dass hier insgesamt nur
recht geringe Signalanteile ¨
uber das Sidelobe Cancellation eliminiert werden. Dies ist an dem
kleinen SNR-Gewinn zu erkennen. Daher wird auch das Sprachsignal am Ausgang des FBFs
nur geringf¨
ugig angegriffen, was auch an dem PSM-Verlauf in Bild 8.7 wiederzufinden ist.
Ebenfalls kann auch die relativ gute Sprachqualit¨
at der Struktur mit TFRBM f¨
ur den Fall
140 Kapitel 8. GEV-Beamformer in GSC-Struktur
-40
-30
-20
-10
0
00,2 0,4 0,6
BA [dB]
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(a)
00,2 0,4 0,6
2
4
6
8
10
12
SNRG [dB]
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(b)
Bild 8.6: Blocking Ability in (a) und SNR-Gewinn in (b) f¨
ur eine Sprecherrichtung von θs= 45 ◦und diffusen
St¨
orschall.
des diffusen St¨
orschallfelds an den PSM-Werten abgelesen werden.
00
2
2
4
4
6
6
Ω/(2πT) [kHz]
δLDS(Ω)
GEV
GTFR
TFR
(a)
00
0,5
1
1,5
2 4 6
Ω/(2πT) [kHz]
δLDS(Ω)
DOR
ASC
(b)
Bild 8.7: LDS-Verh¨
altnisse nach Gl. (8.60) f¨
ur eine Sprecherrichtung von θs= 45 ◦und ein diffuses St¨
orschall-
feld.
F¨
ur eine Sprecherrichtung von θs= 0◦und einer St¨
orquelle bei θn= 60◦gem¨
aß Szenario-3
sind die Blocking Ability und der SNR-Gewinn in Bild 8.9 dargestellt. Die Sprachsignalun-
terdr¨
uckung ist insgesamt f¨
ur alle Blocking-Matrix-Realisierungen f¨
ur das Szenario-3 gr¨
oßer
als f¨
ur das Szenario-2. Bei der TFRBM sind die Werte der BA zwar f¨
ur geringe Nachhall-
zeiten schlechter im Vergleich zu den Werten der GTFRBM und GEVBM, aber f¨
ur h¨
ohere
Nachhallzeiten durchaus ¨
ahnlich zu diesen. Trotzdem sind die SNR-Gewinne f¨
ur alle Verfah-
ren etwas geringer im Vergleich zu dem Szenario-2. Außerdem ist nun der SNR-Gewinn f¨
ur
den GSC mit DORBM sehr ¨
ahnlich zu den Methoden mit den eigenvektorbasierten Blocking-
Matrix-Verfahren. F¨
ur das Verfahren mit TFRBM macht sich allerdings wieder die schlechte
Rauschunterdr¨
uckung in dem unteren Frequenzbereich bemerkbar, insbesondere bei geringen
Nachhallzeiten.
F¨
ur den GSC mit TFRBM ist bei dem Szenario-3 eine signifikante Abweichung δLDS(Ω)
der Leistungsdichtespektren beobachtet worden. Dies ist beispielhaft f¨
ur eine Nachhallzeit
8.4. Experimentelle Untersuchungen 141
00
0,05
0,1
0,15
0,2 0,4 0,6
σ2
LDS
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(a)
00,2 0,4 0,6
0,96
0,97
0,98
0,99
1
PSM
T60 [s]
GEV
GTFR
TFR
DOR
(b)
Bild 8.8: In (a) Varianz der Verh¨
altnisse der spektralen Leistungsdichte des GSC-Ausgangssignals zu dem FBF
Ausgangssignal und in (b) das perzeptive Qualit¨
atsmaß f¨
ur eine Sprecherrichtung von θs= 45 ◦und
einem diffusen St¨
orschallfeld.
-40
-30
-20
-10
0
00,2 0,4 0,6
BA [dB]
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(a)
00,2 0,4 0,6
10
15
20
25
30
35
SNRG [dB]
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(b)
Bild 8.9: Blocking Ability in (a) und SNR-Gewinn in (b) f¨
ur eine Sprecherrichtung von θs= 0 ◦und eine
St¨
orquelle bei θn= 60 ◦.
von T60 = 0,1s in Bild 8.10 zu sehen. Damit verbunden f¨
allt dann auch die Varianz der
Abweichungen deutlich h¨
oher aus, wie an dem Verlauf in Bild 8.11 (a) zu erkennen ist. Die
Verl¨
aufe f¨
ur die Strukturen mit GTFRBM und GEVBM sind ¨
ahnlich zu dem Verlauf des
Referenzsystems und liegen deutlich unter dem des GSCs mit DORBM. Diese Ergebnisse
gehen konform mit der gemessenen perzeptiven Sprachqualit¨
at, was an den PSM-Werten in
Bild 8.11 (b) abzulesen ist.
Als letztes folgen noch die Ergebnisse f¨
ur das Szenario-4, also f¨
ur die Anordnung einer
Sprachquelle bei θs= 0◦und zwei St¨
orquellen: eine bei -20◦und eine bei 60◦. F¨
ur die-
ses Szenario ist nun die Sprachsignalblockierung der GEVBM schlechter als f¨
ur die anderen
adaptiven Verfahren, wie an Bild 8.12 (a) zu sehen ist. Aufgrund der komplizierteren An-
ordnung ist der SNR-Gewinn f¨
ur alle GSC-Varianten geringer im Vergleich zum Szenario-2
und Szenario-3. Der Verlauf des SNR-Gewinns des GSCs mit TFRBM ist recht ¨
ahnlich zum
GSC mit DORBM. Hingegen liefern die eigenvektorbasierten Methoden eine leicht h¨
ohere
St¨
orger¨
auschunterdr¨
uckung.
142 Kapitel 8. GEV-Beamformer in GSC-Struktur
00
2
2
4
4
6
6
Ω/(2πT) [kHz]
δLDS(Ω)
GEV
GTFR
TFR
(a)
00
0,5
1
1,5
2 4 6
Ω/(2πT) [kHz]
δLDS(Ω)
DOR
ASC
(b)
Bild 8.10: LDS-Verh¨
altnisse nach Gl. (8.60) f¨
ur eine Sprecherrichtung von θs= 0 ◦und eine St¨
orquelle bei
θn= 60 ◦.
00
0,1
0,2
0,2
0,3
0,4 0,6
σ2
LDS
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(a)
00,2 0,4 0,6
0,98
0,985
0,99
0,995
1
PSM
T60 [s]
GEV
GTFR
TFR
DOR
(b)
Bild 8.11: In (a) Varianz der Verh¨
altnisse der spektralen Leistungsdichte des GSC-Ausgangssignals zu der des
FBFs-Ausgangssignal und in (b) das perzeptive Qualit¨
atsmaß f¨
ur eine Sprecherrichtung von θs= 0 ◦
und einer St¨
orquelle bei θn= 60 ◦.
Die spektrale Abweichung δLDS(Ω) ist hier f¨
ur den GSC mit TFRBM bei den tiefen Fre-
quenzen nicht so deutlich ausgepr¨
agt, wie beispielhaft an Bild 8.13 zu erkennen ist. Dennoch
sind st¨
arkere Abweichungen ¨
uber den gesamten Frequenzbereich beobachtet worden als f¨
ur
die Verfahren mit GTFRBM und GEVBM. F¨
ur diese zeigt die Varianz σ2
LDS in Bild 8.14 (a)
sehr ¨
ahnliche Verl¨
aufe wie das Referenzsystem. Aber dennoch ist erstaunlicherweise die resul-
tierende Sprachqualit¨
at aufgrund eines leichten Hochpass-Charakters geringf¨
ugig schlechter
im Vergleich zum System mit TFRBM.
Die Simulationsergebnisse f¨
ur die GSC-Strukturen mit einem DSB als Fixed Beamformer
k¨
onnen wie folgt zusammengefasst werden:
•Die ASCBM liefert nat¨
urlich die besten Resultate, da die Adaption ja mit dem reinen
Sprachsignal am DSB-Ausgang erfolgt.
•Die eigenvektorbasierten Blocking-Matrix-Methoden GTFRBM und GEVBM unter-
scheiden sich nur geringf¨
ugig. Dennoch liefert die GEVBM aber eine leicht bessere
8.4. Experimentelle Untersuchungen 143
-40
-30
-20
-10
0
00,2 0,4 0,6
BA [dB]
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(a)
000,2 0,4 0,6
5
10
15
SNRG [dB]
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(b)
Bild 8.12: Blocking Ability in (a) und SNR-Gewinn in (b) f¨
ur eine Sprecherrichtung von θs= 0 ◦und zwei
St¨
orquellen: eine bei -20 ◦und eine bei 60 ◦.
00
1
2
2
3
4
4
5
6
Ω/(2πT) [kHz]
δLDS(Ω)
GEV
GTFR
TFR
(a)
00
0,5
1
1,5
246
Ω/(2πT) [kHz]
δLDS(Ω)
DOR
ASC
(b)
Bild 8.13: LDS-Verh¨
altnisse nach Gl. (8.60) f¨
ur eine Sprecherrichtung von θs= 0 ◦und zwei St¨
orquellen: eine
bei -20 ◦und eine bei 60 ◦.
Rauschunterdr¨
uckung bei einem tendenziell unverf¨
alschterem Sprachsignal.
•Die nichtadaptive Realisierung der Blocking Matrix als DORBM zeigt gute Ergebnisse,
die jedoch deutlich unter denen der eigenvektorbasierten Methoden liegen.
•Die Leistungsf¨
ahigkeit des GSCs mit TFRBM ist stark abh¨
angig von der konkreten
Anordnung. Bei zahlreichen Experimenten hat diese Realisierung bez¨
uglich des SNR-
Gewinns und der Sprachqualit¨
at schlechtere Ergebnisse erzielt als die konventionelle
nichtadaptive Methode. Insbesondere treten hier h¨
aufig Probleme im unteren Frequenz-
bereich auf.
Nach den ausf¨
uhrlichen Betrachtungen der Simulationsergebnisse f¨
ur unterschiedliche An-
ordnungen der Schallquellen bleibt die Frage nach der Auswirkung von unterschiedlich ge-
w¨
ahlten Parametern. Hierzu k¨
onnen folgende Aussagen getroffen werden:
•Eine variierende Anzahl Mder verwendeten Mikrophone hat maßgeblichen Einfluss
auf die Unterdr¨
uckung von r¨
aumlich unkorreliertem Rauschen, also das additive Mi-
144 Kapitel 8. GEV-Beamformer in GSC-Struktur
00
0,05
0,1
0,15
0,2
0,2 0,4 0,6
σ2
LDS
T60 [s]
GEV
GTFR
TFR
DOR
ASC
(a)
00,2 0,4 0,6
0,97
0,98
0,99
1
PSM
T60 [s]
GEV
GTFR
TFR
DOR
(b)
Bild 8.14: In (a) Varianz der Verh¨
altnisse der spektralen Leistungsdichte des GSC-Ausgangssignals zu der des
FBFs-Ausgangssignal und in (b) das perzeptive Qualit¨
atsmaß f¨
ur eine Sprecherrichtung von θs= 0 ◦
und zwei St¨
orquellen: eine bei -20 ◦und eine bei 60 ◦.
krophonrauschen, die diffuse St¨
orung bei h¨
oheren Frequenzen und auch bei gerichteten
St¨
orquellen f¨
ur h¨
ohere Nachhallzeiten (vgl. Bild 6.11).
•Unterschiedlich gew¨
ahltes SNR bei gerichteten St¨
orschallquellen hat insofern Auswir-
kungen, da hier das Verh¨
altnis der St¨
orleistung des r¨
aumlich korrelierten zum r¨
aumlich
unkorrelierten Rauschen maßgeblich ist. Je gr¨
oßer dieses Verh¨
altnis ausf¨
allt, desto gr¨
o-
ßer ist auch die erzielbare St¨
orger¨
auschunterdr¨
uckung (vgl. Bild 6.10).
•Weiterhin gilt f¨
ur alle GSC-Strukturen, dass mit l¨
angeren Filterimpulsantworten in der
Adaptive Noise Cancellation f¨
ur h¨
ohere Nachhallzeiten auch eine h¨
ohere St¨
orger¨
ausch-
unterdr¨
uckung erreichbar ist.
•Interessant erscheint hier noch eine explizite Untersuchung der Anzahl der verwendeten
Filterkoeffizienten in den adaptiven Blocking-Matrix-Realisierungen, f¨
ur die im Folgen-
den einige exemplarische Ergebnisse pr¨
asentiert werden sollen.
F¨
ur das Szenario-2 wurden unterschiedliche Werte B∈ {64,128,256,512}f¨
ur die Anzahl der
Filterkoeffizienten bei einer Nachhallzeit von T60 = 0,3s gew¨
ahlt. In Bild 8.15 ist zun¨
achst
die Blocking Ability in (a) und der SNR-Gewinn in (b) dargestellt. F¨
ur die Verfahren mit
TFRBM, GTTRBM und GEVBM sind geringe Unterschiede f¨
ur unterschiedliche Werte B
zu erkennen. Insgesamt scheint tendenziell eine gr¨
oßer gew¨
ahlte Filterl¨
ange zu einer h¨
oheren
Sprachsignalunterdr¨
uckung der Blocking-Matrix-Strukturen zu f¨
uhren und zu einem schlech-
teren SNR-Gewinn des entsprechenden GSCs. Auff¨
allig sind die Ergebnisse f¨
ur das Referenz-
system mit ASCBM. Hier scheint sich die eher geringe Frequenzaufl¨
osung bei B= 64 st¨
arker
auszuwirken und f¨
uhrt zu leicht schlechteren Ergebnissen im Vergleich zur GEVBM. Generell
kann noch angemerkt werden, dass wenn durch den Fixed Beamformer der direkte Pfad nicht
koh¨
arent aufsummiert wird, umso mehr Filterkoeffizienten in der ASCBM notwendig werden,
um die gleiche Sprachsignald¨
ampfung zu erzielen. Da die TFRBM, GTFRBM und GEVBM
unabh¨
angig vom FBF arbeiten, ist hierin ein klarer Vorteil zu sehen. Dass B= 64 f¨
ur die
ASCBM eher ung¨
unstig scheint, wird auch durch die spektrale Varianz σ2
LDS in Bild 8.16 (a)
best¨
atigt. Denn f¨
ur diese kurze Filterl¨
ange ergeben sich die gr¨
oßten spektralen Abweichungen
zwischen dem GSC- und dem FBF-Ausgangssignal. Ab B≥128 stellen sich jedoch wieder
8.4. Experimentelle Untersuchungen 145
-12
-10
-8
-6
-4
-2
0
64 128 256 512
BA [dB]
B
GEV
GTFR
TFR
ASC
(a)
0
5
10
15
20
25
64 128 256 512
SNRG [dB]
B
GEV
GTFR
TFR
ASC
(b)
Bild 8.15: Blocking Ability in (a) und SNR-Gewinn in (b) f¨
ur eine Sprecherrichtung von θs= 45 ◦und eine
St¨
orquelle bei θn=−20 ◦f¨
ur unterschiedliche Filterl¨
angen der Blocking Matrix.
die geringsten Werte f¨
ur die Varianz im Vergleich zu den anderen Verfahren ein. Daher sollte
der GSC mit ASCBM als Referenzsystem f¨
ur die Messung der Sprachqualit¨
at mit B= 64 als
fragw¨
urdig gelten. Denn auch die PSM-Werte in Bild 8.16 (b) liegen f¨
ur die eigenvektorbasier-
ten Verfahren f¨
ur B= 64 unter denen bei B= 128. Insgesamt wird hier in ¨
Ubereinstimmung
mit [HK02] eine Filterl¨
ange von 128 oder 256 als sinnvoll erachtet.
0
0,1
0,2
0,3
64 128 256 512
σ2
LDS
B
GEV
GTFR
TFR
ASC
(a)
0,98
0,985
0,99
0,995
1
64 128 256 512
PSM
B
GEV
GTFR
TFR
(b)
Bild 8.16: In (a) Varianz der Verh¨
altnisse der spektralen Leistungsdichte des GSC-Ausgangssignals zu dem
FBF Ausgangssignal und in (b) das perzeptive Qualit¨
atsmaß f¨
ur eine Sprecherrichtung von θs= 45 ◦
und einer St¨
orquelle bei θn=−20 ◦f¨
ur unterschiedliche Filterl¨
angen der Blocking Matrix.
8.4.2 Blinder Generalized Sidelobe Canceller
Den vorangegangenen Simulationsergebnissen mit einem DSB als Fixed Beamformer im GSC
folgen nun Experimente, bei denen das Matched Filter Gl. (8.54) als Fixed Beamformer mit
den eigenvektorbasierten Blocking-Matrix-Methoden kombiniert wird. F¨
ur diese Anordnungen
ist dann keine explizite Sch¨
atzung der Sprecherrichtung mehr erforderlich. In den nachfolgen-
den Bildern 8.17 bis 8.20 sind f¨
ur die unterschiedlichen Szenarien die SNR-Gewinne und die
PSM-Werte f¨
ur den DSB und GTFRBM bzw. GEVBM sowie f¨
ur den Matched Filter und
146 Kapitel 8. GEV-Beamformer in GSC-Struktur
GTFRBM bzw. GEVBM dargestellt. Letztere sind gekennzeichnet durch “MF-GTFR” bzw.
“MF-GEV”. Dabei zeigen die SNR-Gewinne f¨
ur die beiden Varianten des Fixed Beamfor-
mers und jeweils gleicher Blocking Matrix durchweg fast identische Verl¨
aufe. Lediglich die
PSM-Werte liefern f¨
ur gr¨
oßere Nachhallzeiten leichte Differenzen zu Ungunsten der “blin-
den” Varianten mit Matched Filter Beamformer auf. Diese ergeben sich durch eine minimale
Anhebung der oberen Frequenzkomponenten, welche bei subjektiven H¨
ortests aber nicht als
st¨
orend empfunden wurde.
00,2 0,4 0,6
10
15
20
25
30
35
SNRG [dB]
T60 [s]
GEV
GTFR
MF-GEV
MF-GTFR
(a)
00,2 0,4 0,6
0,97
0,98
0,99
1
PSM
T60 [s]
GEV
GTFR
MF-GEV
MF-GTFR
(b)
Bild 8.17: Vergleich zwischen DSB und Matched Filter als Fixed Beamformer: SNR-Gewinn in (a) und das
perzeptive Qualit¨
atsmaß in (b) f¨
ur eine Sprecherrichtung von θs= 45 ◦und einer St¨
orquelle bei
θn=−20 ◦.
00,2 0,4 0,6
10
15
20
25
30
35
SNRG [dB]
T60 [s]
GEV
GTFR
MF-GEV
MF-GTFR
(a)
00,2 0,4 0,6
0,98
0,985
0,99
0,995
1
PSM
T60 [s]
GEV
GTFR
MF-GEV
MF-GTFR
(b)
Bild 8.18: Vergleich zwischen DSB und Matched Filter als Fixed Beamformer: SNR-Gewinn in (a) und das
perzeptive Qualit¨
atsmaß in (b) f¨
ur eine Sprecherrichtung von θs= 0 ◦und eine St¨
orquelle bei
θn= 60 ◦.
Die guten Ergebnisse in den Bildern 8.17 bis 8.20 des blinden Generalized Sidelobe Can-
cellers im Vergleich zu der Variante mit DSB als Fixed Beamformer und damit implizit der
Vergleich zur klassichen Variante nach Griffiths und Jim [GJ82] best¨
atigen exemplarisch des-
sen Leistungsf¨
ahigkeit. Insbesondere, da die DORBM und der DSB als optimal angesetzt
wurden. In der Regel k¨
onnen beim Sch¨
atzen der Sprecherrichtung jedoch Fehler auftreten,
wodurch die DORBM und der DSB keine optimalen Signale liefern. Dies soll abschließend
8.4. Experimentelle Untersuchungen 147
000,2 0,4 0,6
5
10
15
SNRG [dB]
T60 [s]
GEV
GTFR
MF-GEV
MF-GTFR
(a)
00,2 0,4 0,6
0,97
0,98
0,99
1
PSM
T60 [s]
GEV
GTFR
MF-GEV
MF-GTFR
(b)
Bild 8.19: Vergleich zwischen DSB und Matched Filter als Fixed Beamformer: SNR-Gewinn in (a) und das
perzeptive Qualit¨
atsmaß in (b) f¨
ur eine Sprecherrichtung von θs= 0 ◦und zwei St¨
orquellen: eine
bei -20 ◦und eine bei 60 ◦.
000,2 0,4 0,6
5
10
SNRG [dB]
T60 [s]
GEV
GTFR
MF-GEV
MF-GTFR
(a)
00,2 0,4 0,6
0,96
0,97
0,98
0,99
1
PSM
T60 [s]
GEV
GTFR
MF-GEV
MF-GTFR
(b)
Bild 8.20: Vergleich zwischen DSB und Matched Filter als Fixed Beamformer: SNR-Gewinn in (a) und das
perzeptive Qualit¨
atsmaß in (b) f¨
ur eine Sprecherrichtung von θs= 45 ◦und einem diffusen St¨
or-
schallfeld.
f¨
ur das Szenario-3 mit einer Broadside-Ausrichtung θt= 0◦des DSBs f¨
ur variierende geringe
Abweichungen ∆θ∈ {5◦,10◦,15◦}von der tats¨
achlichen Sprecherrichtung
θt=θs+ ∆θ(8.61)
gezeigt werden. Um die Ergebnisse in etwas kompakterer Form darzustellen soll lediglich
die Abweichung zwischen GSC mit DORBM und dem blinden GSC mit Matched Filter und
GEVBM pr¨
asentiert werden. Der in Bild 8.21 (a) gezeigte Unterschied der Blocking Ability
ergibt sich im logarithmischen Maßstab zu
∆BA = (BA|MF-GEV −BA|DORBM) dB (8.62)
und die in Bild 8.21 (b) dargestellte Differenz der SNR-Gewinne ist folglich
∆SNRG = (SNRG|MF-GEV −SNRG|DORBM) dB.(8.63)
148 Kapitel 8. GEV-Beamformer in GSC-Struktur
-15
-10
-5
0
00,2 0,4 0,6
∆BA [dB]
T60 [s]
∆θ= 5◦
∆θ= 10◦
∆θ= 15◦
(a)
0
00,2 0,4 0,6
1
2
3
4
∆SNRG [dB]
T60 [s]
∆θ= 5◦
∆θ= 10◦
∆θ= 15◦
(b)
Bild 8.21: Differenzen der Blocking Ability in (a) und des SNR-Gewinns in (b) zwischen GSC mit DSB und
DORBM und GSC mit MF und GEVBM f¨
ur unterschiedliche Sprecherrichtungen mit den Abwei-
chungen 5 ◦, 10 ◦und 15 ◦relativ zu Broadside. Der DSB ist jeweils auf θt= 0 ◦eingestellt. Die
St¨
orquelle befindet sich bei θn= 60 ◦.
An den Verl¨
aufen in Bild 8.21 (a) ist gut zu erkennen, dass mit einer gr¨
oßer werden-
den Abweichung ∆θ=θt−θsdie DORBM eine geringer werdende D¨
ampfungseigenschaft
bez¨
uglich des Sprachsignals besitzt. Andersherum kann gesagt werden, dass die D¨
ampfungs-
eigenschaft der GEVBM nahezu gleich bei relativ geringer Variation der Sprecherrichtung
ist. Aus diesen Zusammenh¨
angen heraus sind dann die Verl¨
aufe des SNR-Gewinns in Bild
8.21 (b) folgerichtig. Denn mit steigendem ∆θnimmt das relative SNR des blinden GSCs im
Vergleich zur konventionellen Methode zu.
8.5 Zusammenfassung
In diesem Kapitel wurde die Struktur des Generalized Sidelobe Cancellers4bestehend aus
einem Fixed Beamformer zur Erzeugung eines Sprachreferenzsignals, einer Blocking Matrix
zur Erzeugung eines Rauschreferenzsignals und einer Adaptive Noise Cancellation zur Mi-
nimierung des Rauschens im Ausgang des Fixed Beamformers basierend auf dem Rauschre-
ferenzsignal erl¨
autert. Ausgehend von den vorangegangenen Erkenntnissen zum statistisch
optimalen Beamforming mittels adaptiver Eigenwertzerlegung im Frequenzbereich wurden
hier zwei neue Methoden zur Bildung einer Blocking Matrix vorgestellt. Zum Einen ist dies
die GTFRBM, welche aus Verh¨
altnissen von gesch¨
atzten Raum¨
ubertragungsfunkionen be-
steht und ¨
aquivalent zur BM nach Gannot et al. [GBW01] ist. Jedoch erfolgt bei dem hier
vorgeschlagenen Verfahren die Sch¨
atzung der Verh¨
altnisse der Raum¨
ubertragungsfunktionen
im Gegensatz zu [GBW01] mit Hilfe einer Eigenwertzerlegung. Die zweite neuartige Metho-
de GEVBM wird ebenfalls mit Hilfe des dominanten Eigenvektors bestimmt, jedoch basie-
rend auf dem Orthogonalit¨
atsprinzip in Anlehnung an das Verfahren nach Hoshuyama et al.
[HSH99]. Beide Matrizen, GTFRBM und GEVBM, weisen in Kombination mit dem DSB und
4Eine GSC-Implementierung in C/C++ bestehend aus einer Sprecherrichtungsbestimmung mit Hilfe des
dominanten Eigenvektors, einem DSB als Fixed Beamformer, der GEV Blocking Matrix und dem ANC f¨
ur
f¨
unf Mikrophone und den zuvor angegebenen Filterl¨
angen weist f¨
ur die Rechenzeit einen Echtzeitfaktor von
ca. 0,3 mit einem Intel Quad-Core Xeon E5345/2,33 GHz Prozessor auf. Hierin ist das mehrkanalige Ein- und
Ausgabemanagement bereits enthalten.
8.5. Zusammenfassung 149
der ANC eine bessere St¨
orger¨
auschreduktion im Vergleich zu dem Verfahren nach Gannot et
al. [GBW01] und der konventionellen Methode nach Griffiths und Jim [GJ82] auf. Im Allge-
meinen liefert die Variante GEVBM ein geringf¨
ugig besseres SNR und gleichzeitig weniger
Sprachverzerrungen im Vergleich zur Methode mit GTFRBM. Weiterhin wurde in diesem
Kapitel ein Matched Filter Fixed Beamformer mit den eigenvektorbasierten BM-Varianten
kombiniert und die Gesamtanordnung als blinder GSC bezeichnet. Die resultierenden Vor-
teile sind dabei wie folgt: Zum einen kann jede eigenvektorbasierte BM auch bei gleichzeitig
zum Sprecher aktivem station¨
aren Rauschen berechnet werden. Dies ist zwar mit dem Ver-
fahren nach Gannot et al. [GBW01] auch m¨
oglich, die hier vorgeschlagenen Methoden f¨
uhren
jedoch zu einer h¨
oheren St¨
orger¨
auschunterdr¨
uckung und weniger Sprachverzerrungen. Und
zum anderen wird beim Matched Filter FBF keine explizite Sprecherrichtungsbestimmung
ben¨
otigt, da dieser auf den adaptiv berechneten dominanten Eigenvektoren basiert. Es ergibt
sich dabei zwar eine leicht gr¨
oßere Sprachverzerung als bei der Variante mit einem perfekten
DSB, aber es entsteht der Vorteil einer Reduzierung des Rechenaufwandes.
150 Kapitel 8. GEV-Beamformer in GSC-Struktur
Kapitel 9
Zusammenfassung
Im Rahmen dieser Arbeit wurden Algorithmen zur mehrkanaligen St¨
orger¨
auschreduktion
basierend auf der L¨
osung eines Eigenwertproblems im Frequenzbereich entwickelt und unter-
sucht. Das betrachtete Eigenwertproblem entsteht aufgrund eines Optimierungsproblems, wel-
chem die Maximierung des Signal-zu-Rauschleistungsverh¨
altnisses am Beamformer-Ausgang
zugrunde liegt. Die L¨
osung des Eigenwertproblems kam hierbei in zwei Beamformer-Strukturen
zum Tragen: zum einen als Filter-and-Sum-Beamformer und zum anderen als Generalized Si-
delobe Canceller, bestehend aus den Komponenten Fixed Beamformer,Blocking Matrix und
Adaptive Sidelobe Canceller, wobei der neuartige Ansatz in der Blocking Matrix und im Fixed
Beamformer angesetzt wurde. Grunds¨
atzlich erm¨
oglicht der Generalized Sidelobe Canceller
eine h¨
ohere St¨
orger¨
auschreduktion als der Filter-and-Sum-Beamformer, setzt jedoch im Ver-
gleich zu diesem eine gewisse Stationarit¨
at der Sprecherposition voraus.
In einem adaptiven Filter-and-Sum-Beamformer zur breitbandigen Sprachsignalverbes-
serung kam das Kriterium der Maximierung des Signal-zu-Rauschleistungsverh¨
altnisses auf-
grund der einhergehenden Signalverzerrungen bislang nicht zum Einsatz. In der vorliegenden
Arbeit ist es gelungen, durch geeignete Nachfilterverfahren die entstehenden Sprachverzer-
rungen deutlich zu reduzieren und somit eine Anwendung zur mehrkanaligen St¨
orger¨
ausch-
reduktion zu erm¨
oglichen. Basierend auf diesen Verfahren ist ein Matched Filter als Teil
eines neuartigen Generalized Sidelobe Cancellers entstanden. Dieser beinhaltet desweiteren
eine eigenentwickelte Blocking Matrix, welcher ebenfalls das Kriterium der Maximierung des
Signal-zu-Rauschleistungsverh¨
altnisses zugrunde liegt.Signal-zu-
Die in dieser Arbeit vorgelegten Beamforming-Verfahren, sowohl Filter-and-Sum-Beam-
former als auch Generalized Sidelobe Canceller, zeichnen sich insbesondere durch ihre blin-
den Adaptionseigenschaften aus. Dies bedeutet, dass keine explizite Positionsbestimmung
des Sprechers notwendig ist und die geometrische Anordnung der Mikrophone unbekannt
sein kann. Weiterhin erfolgt bei der Adaption eine implizite, konstruktive Nutzung mehrerer
Ausbreitungspfade des Sprachsignals zwischen dem Sprecher und der Mikrophongruppe.
Der Vergleich unterschiedlicher Ans¨
atze zum statistisch optimalen Beamforming in Kapi-
tel 4 zeigte, dass die L¨
osungen sich nur in einem skalaren Faktor unterscheiden. Daraus ent-
stand der grundlegende Gedanke zur Realisierung eines Filter-and-Sum-Beamformers mittels
SNR-Maximierung und einer nachgeschalteten Normalisierung der resultierenden Filterkoef-
fizienten. Ziel der Normalisierung war es, eine approximative Darstellung eines MVDR Beam-
152 Kapitel 9. Zusammenfassung
formers zu erreichen. Im Gegensatz zu dem MVDR Beamformer bietet der neue Ansatz jedoch
den Vorteil auf eine Positionsbestimmung des Sprechers zu verzichten. Ein weiterer Vorteil
der L¨
osung des Eigenwertproblems ist die Einbeziehung der Halleigenschaften von R¨
aumen,
wie in den Simulationen in Kapitel 4 gezeigt werden konnte. Ausgehend von der Analyse der
Koh¨
arenz unterschiedlicher St¨
orger¨
auschfelder in Kapitel 2 wurde in Kapitel 5 aufgezeigt, wie
die Formulierung des zu l¨
osenden Eigenwertproblems ausf¨
allt: F¨
ur den Fall von r¨
aumlich kor-
relierten St¨
orungen wie diffuse und gerichtete St¨
orschallfelder ergibt sich das verallgemeinerte
Eigenwertproblem bez¨
uglich der Kreuzleistungsdichtematrix der St¨
orsignale und der Kreuz-
leistungsdichtematrix aus der ¨
Uberlagerung von St¨
orsignal- und Sprachsignalkomponenten.
Bei r¨
aumlich unkorrelierten St¨
orungen wie Mikrophonrauschen folgt hingegen das spezielle
Eigenwertproblem bez¨
uglich der Matrix der Kreuzleistungsdichten der Sprachsignale an den
Mikrophonen. Da jedoch bei einem diffusen St¨
orschallfeld in Abh¨
angigkeit von der Mikro-
phonanordnung eine signifikante Koh¨
arenz prim¨
ar f¨
ur den unteren Frequenzbereich vorliegt,
wird f¨
ur dieses St¨
orschallfeld ebenfalls die L¨
osung des speziellen Eigenwertproblems empfoh-
len. Dadurch f¨
allt der zu erwartende SNR-Gewinn im unteren Frequenzbereich zwar geringer
aus, jedoch ergibt sich der Vorteil einer reduzierten Rechenkomplexit¨
at. Zur Bestimmung der
jeweiligen spektralen Kreuzleistungsdichtematrizen ist eine robuste Sprache/Pause-Detektion
notwendig. Ein geeignetes Verfahren hierzu wurde im Anhang in Kapitel D vorgestellt.
In Kapitel 5 wurden iterative Verfahren zur Bestimmung eines Eigenvektors korrespondie-
rend zum gr¨
oßten Eigenwert eines speziellen und des verallgemeinerten Eigenwertproblems
pr¨
asentiert und miteinander verglichen. Dies waren zum einen eigenentwickelte Gradienten-
verfahren und zum anderen Verfahren aus der Literatur, sowohl Gradienten- als auch Fix-
punktverfahren. Hierbei zeigten die experimentellen Ergebnisse eine deutliche ¨
Uberlegenheit
der Fixpunktverfahren im Vergleich zu den Gradientenverfahren f¨
ur die Problemstellung des
verallgemeinerten Eigenwertproblems. F¨
ur das spezielle Eigenwertproblem zeigt das neuartige
Gradientenverfahren einerseits eine signifikante Robustheitssteigerung bez¨
uglich der Konver-
genz im Vergleich zu dem Gradientenverfahren nach Oja und andererseits ¨
ahnlich gute Kon-
vergenzeigenschaften wie die Fixpunktverfahren auf, mit dem Vorteil einer deutlichen Verrin-
gerung der Rechenkomplexit¨
at. F¨
ur das akustische Beamforming unter Ber¨
ucksichtigung der
Kreuzleistungsdichtematrix der St¨
orung wird daher ein Fixpunktverfahren und beim Einsatz
eines Beamformers in einer Umgebung, in der außer dem Sprecher keine weiteren dominanten
Schallquellen zu erwarten sind, das eigenentwickelte Gradientenverfahren pr¨
aferiert.
Bei der Anwendung des dominanten Eigenvektors zur akustischen Strahlformung als
Filter-and-Sum-Beamformer sind in Kapitel 6 die resultierenden Sprachverzerrungen unter-
sucht worden. Dabei kamen die in Kapitel 3 eingef¨
uhrten Bewertungskriterien zum Einsatz,
insbesondere die wahrnehmungsbasierte Qualit¨
atsbewertung PEMO-Q. Die vorgestellten drei
eigenentwickelten Verfahren zur Normalisierung der Filterkoeffizienten wiesen eine signifikan-
te Reduzierung der Sprachverzerrung auf, wobei die blinde analytische Normalisierung die
besten Ergebnisse f¨
ur alle betrachteten akustischen Szenarien zeigte. Aufgrund der guten
Adaptionseigenschaften des neuen Beamforming-Verfahrens und der Verwendung kurzer Fil-
terl¨
angen ist das Folgen einer variierenden Sprecherposition m¨
oglich.
Bei der Realisierung des neuartigen Generalized Sidelobe Cancellers in Kapitel 8 findet
die L¨
osung eines Eigenwertproblems im Frequenzbereich insbesondere im Teilkomplex der
Blocking Matrix ihre Anwendung. Hier war der Grundgedanke, ¨
aquivalent zu der Blocking Ma-
trix nach Hoshuyama, einen zum Sprachsignal orthogonalen Unterraum mittels eines Sprach-
153
referenzsignals zu erzeugen. Im Gegensatz zu der Blocking Matrix nach Hoshuyama ist jedoch
kein explizites Sprachreferenzsignal erforderlich, da dies inh¨
arenter Bestandteil des neuen Al-
gorithmus ist. Die neuartige Blocking Matrix bietet somit den Vorteil, dass keine Sprecherrich-
tungsbestimmung notwendig ist und eine Adaption auch in stark gest¨
orten Umgebungen mit
permanent aktiven St¨
orschallquellen m¨
oglich ist. Diese Vorz¨
uge bietet die Blocking Matrix
nach Gannot zwar auch, jedoch weist diese deutliche Sprachverzerrungen und eine geringere
St¨
orger¨
auschreduktion im Vergleich zu der Eigenentwicklung auf. Die klassische Variante der
Blocking Matrix nach Griffiths und Jim kann zwar ebenfalls bei permanentem St¨
orschall-
feld betrieben werden, hat jedoch zur eigenentwickelten Methode den Nachteil, dass nur der
direkte Ausbreitungspfad des Sprachsignals ber¨
ucksichtigt wird.
Der in der GSC-Struktur notwendige Fixed Beamformer wurde in zwei Varianten umge-
setzt: zum einen als Delay-and-Sum-Beamformer und zum anderen mittels eines eigenent-
wickelten Matched Filters. Die f¨
ur den DSB erforderliche Sprecherrichtung wurde mit einem
neuartigen Verfahren, ebenfalls basierend auf dem dominanten Eigenvektor, ermittelt. Dieses
Verfahren zeigt im Gegensatz zu den in der Literatur diskutierten Methoden den Vorteil,
nahezu unabh¨
angig von dem betrachteten St¨
orger¨
auschfeld zu sein, wie die experimentellen
Ergebnisse in Kapitel 7 demonstrieren. Das Matched Filter als Fixed Beamformer weist zwar
im Gegensatz zum DSB leichte Sprachverzerrungen auf, bietet jedoch den Vorteil einen blin-
den Generalized Sidelobe Canceller zu realisieren: es ist keine Sprecherrichtungsbestimmung
notwendig und die geometrische Anordnung der Mikrophone kann unbekannt sein.
154 Kapitel 9. Zusammenfassung
Anhang A
Lineare Algebra – Matrizen
Im Folgenden sollen einige grundlegende Begriffe bez¨
uglich der in dieser Arbeit verwendeten
Matrix-Algebra definiert werden.
A.1 Grundlagen
Rang F¨
ur eine Matrix Ader Dimension (m×n) stimmt die maximale Anzahl linear unab-
h¨
angiger Spalten (Spaltenrang) mit der maximalen Anzahl linear unabh¨
angiger Zeilen (Zei-
lenrang) ¨
uberein und wird kurz als Rang bezeichnet
Rang(A)≤min{m, n}.(A.1)
Spur Die Summe ¨
uber alle Hauptdiagonalenelemente aii mit i= 1,2,...,m einer Matrix
Ader Dimension (m×m) wird Spur genannt
Spur(A) =
m
X
i=1
aii.(A.2)
Hermitesch Eine komplexe, quadratische Matrix Aheißt hermitesch, wenn sie gleich der
konjugierten, transponierten Matrix Aist
A= (A∗)T=AH.(A.3)
Unit¨
ar/Orthogonal Dies ist eine Bezeichnung f¨
ur eine komplexwertige, quadratische Ma-
trix A, wenn deren Spalten zueinander orthonormal sind. Damit gilt
AHA=I,(A.4)
mit If¨
ur die Einheitsmatrix und weiterhin f¨
ur die Inverse
A−1=AH.(A.5)
Ist Aeine reelwertige Matrix, die die Eigenschaften Gl. (A.4) und Gl. (A.5) erf¨
ullt, so wird
sie als orthogonal bezeichnet.
156 Anhang A. Lineare Algebra – Matrizen
Kern/Bild Gegeben sei die lineare Abbildung A:V→W. F¨
ur den Kern der Abbildung
gilt
Kern(A) = {v∈V:0=Av}(A.6)
und die Menge der Vektoren aus W, die die Abbildung tats¨
achlich annimmt, wird Bild
genannt
Bild(A) = {w∈W:w=Av,v∈V}.(A.7)
Ableitung bez¨
uglich eines komplexen Vektors Es sei gegeben der komplexe Vektor
F= [F1, F2,...,Fm]Tder Dimension (m×1). Die Elemente des Vektors bestehen aus Fi=
xi+j·yi,i= 1,2,...,mmit den reellwertigen Gr¨
oßen xiund yiund der imagin¨
aren Einheit
j. Dann ist ∂/∂Fdie Ableitung bez¨
uglich Fund ∂/∂F∗die korrespondierende komplexe
konjugierte Ableitung
∂
∂F=1
2
∂
∂x1−∂
∂y1
∂
∂x2−∂
∂y2
.
.
.
∂
∂xm−∂
∂ym
∂
∂F∗=1
2
∂
∂x1
+∂
∂y1
∂
∂x2
+∂
∂y2
.
.
.
∂
∂xm
+∂
∂ym
.
(A.8)
Mit Hilfe von Gl. (A.8) kann folgender Gradientenvektor definiert werden
∇F∗= 2 ∂
∂F∗.(A.9)
Span Die lineare H¨
ulle (auch engl. linear span) bildet einen Vektorraum aus einer vorgege-
benen Menge von Vektoren {vi:i= 1,...,m}durch deren Linearkombinationen
span(v1,v2,...,vm) = {a1v1+a2v2+...+amvm:a1, a2,...,am∈C}.(A.10)
Matrix Inversion Lemma Es seien Aund Bzwei positiv definite (M×M)-Matrizen, D
sei positiv definit der Dimension (N×N) und Cist eine (M×N)-Matrix. Dann gilt f¨
ur
A=B−1+CD−1CH(A.11)
das Matrix Inversion Lemma1[Hay02]
A−1=B−BC[D+CHBC]−1CHB.(A.12)
A.2 Matrix Inversion f¨
ur optimales Beamforming
An dieser Stelle wird zum einen die ¨
Aqivalenz des MV-Ansatzes nach Gl. (4.21) und der
L¨
osung Gl. (4.28) zum L¨
osungsansatz
minimiere
F(Ω) FH(Ω)ΦXX(Ω)F(Ω) (A.13)
mit FH(Ω)H(Ω) = 1 (A.14)
1Das Matrix Inversion Lemma ist in der Literatur ebenfalls unter Sherman-Morrison-Woodbury oder Wood-
bury Formel bzw. Woodbury Matrix Identit¨
at bekannt.
A.2. Matrix Inversion f¨
ur optimales Beamforming 157
mit den resultierenden Filterkoeffizienten
FFrost(Ω) = Φ−1
XX(Ω)H(Ω)
HH(Ω)Φ−1
XX(Ω)H(Ω).(A.15)
gezeigt, welche nach Frost [Fro72] mit Hilfe eines Gradienten-Abstiegs-Verfahrens berechnet
werden k¨
onnen. Zum Anderen wird die faktorisierte MMSE-L¨
osung Gl. (4.45) hergeleitet.
Grundlage in beiden F¨
allen ist die Invertierung der Matrix ΦXX(Ω), wobei im Folgenden auf
die frequenzabh¨
angige Notation – gekennzeichnet durch den Parameter Ω – verzichtet werden
soll. Zur Invertierung von
ΦXX =φScScHHH+ΦNN (A.16)
sind die Matrizen in Gl. (A.11) zu definieren als:
B−1=ΦNN,C=pφScScH,D= 1.(A.17)
Die Anwendung von Gl. (A.12) auf Gl. (A.16) ergibt
φScScHHH+ΦNN−1=Φ−1
NN −φScScΦ−1
NNHHHΦ−1
NN
1 + φScScHHΦ−1
NNH.(A.18)
Mit Φ−1
NNHHHΦ−1
NNH=HHΦ−1
NNHΦ−1
NNH(A.19)
folgt weiter
φScScHHH+ΦNN−1H="Φ−1
NN −φScScHHΦ−1
NNHΦ−1
NN
1 + φScScHHΦ−1
NNH#H(A.20)
=1
1 + φScScHHΦ−1
NNHΦ−1
NNH.(A.21)
L¨
osung nach Frost [Fro72] Wird das Ergebnis der Invertierung Gl. (A.21) in Gl. (A.15)
eingesetzt, so erh¨
alt man nach dem K¨
urzen des skalaren Faktors 1/(1 + φScScHHΦ−1
NNH)
FFrost =Φ−1
NNH
HHΦ−1
NN(Ω)H=FGMVDR.(A.22)
Faktorisieren der MMSE-L¨
osung Um die Faktorisierung des mehrkanaligen Wiener
Filters in Abschnitt 4.4 durchzuf¨
uhren wird in
FGMMSE =Φ−1
XXφScScH=φScScHHH+ΦNN−1φScScH(A.23)
Gl. (A.21) eingesetzt
FGMMSE =φScSc
1 + φScScHHΦ−1
NNHΦ−1
NNH(A.24)
="φScSc
φScSc+HHΦ−1
NNH−1#Φ−1
NNH
HHΦ−1
NNH(A.25)
="φScSc
φScSc+HHΦ−1
NNH−1#FGMVDR.(A.26)
158 Anhang A. Lineare Algebra – Matrizen
A.3 Matrix Inversion f¨
ur Fixpunkt-Adaption
Das Ziel ist hier, die iterative Sch¨
atzung
ˆ
ΦNN,κ+1 =αˆ
ΦNN,κ + (1 −α)NκNH
κ(A.27)
zu invertieren, wobei auf die frequenzabh¨
angige Notation verzichtet wird, mit κder Iterati-
onsindex und mit αdie Gl¨
attungskonstante bezeichnet ist. Die Matrizen in Gl. (A.11) werden
wie folgt substituiert:
B−1=αˆ
ΦNN,κ,C=√1−αNκ,D= 1.(A.28)
Nach Einsetzen der Matrizen Gl. (A.28) in Gl. (A.12) ergibt sich f¨
ur
ˆ
Φ−1
NN,κ+1 =1
α
I−
ˆ
Φ−1
NN,κNκNH
κ
α
1−α+NH
κˆ
Φ−1
NN,κNH
κ
ˆ
Φ−1
NN,κ.(A.29)
Anhang B
R¨
aumliche Koh¨
arenz eines diffusen Schallfeldes
Ausschlaggebend f¨
ur die Gr¨
oße der Koh¨
arenz ist der Phasenunterschied zwischen den Schall-
wellen an den Aufnahmeorten. Ist die Wellenl¨
ange im Vergleich zum Abstand der Mikro-
phonsignale sehr groß, so ist der Phasenunterschied an den Empfangsorten gering und die
Signale sind sich sehr ¨
ahnlich. Entsprechend der Darstellung in Bild B.1 sollen zwei Quellen in
gleichem Abstand zum Mittelpunkt einer zweikanaligen Mikrophonanordnung angenommen
werden, welche die beiden Signale q1(t) und q2(t) emittieren. Es soll eine Freifeldausbreitung
und f¨
ur die Quellen die Fernfeldn¨
aherung gelten. Dann empfangen die beiden Sensoren die
folgenden Signale
x1(t) = q1(t+ cos ϕ1
d12
2c) + q2(t+ cos ϕ2
d12
2c) (B.1)
x2(t) = q1(t−cos ϕ1
d12
2c) + q2(t−cos ϕ2
d12
2c),(B.2)
wobei d12 den Abstand zwischen den Sensoren und cdie Schallgeschwindigkeit angibt. Die
beiden Einfallswinkel sind beschrieben durch ϕ1bzw. ϕ2. Nach der DTFT ergeben sich folglich
die Signale
X1(Ω) = Q1(Ω)ej(Ωd12 cos ϕ1)/(2T c)+Q2(Ω)ej(Ωd12 cos ϕ2)/(2T c)(B.3)
X2(Ω) = Q1(Ω)e−j(Ωd12 cos ϕ1)/(2T c)+Q2(Ω)e−j(Ωd12 cos ϕ2)/(2T c)(B.4)
mit der normierten Kreisfrequenz Ω und der Abtastperiode T. Die komplexe Koh¨
arenzfunk-
tion kann ¨
aquivalend zu Gl. (2.16) angegeben werden als
γX1X2(Ω) = E{X1(Ω)X∗
2(Ω)}
pE{|X1(Ω)|2}E{|X2(Ω)|2}.(B.5)
Nun soll E{|X1(Ω)|2}=E{|X2(Ω)|2}gelten1, so dass Gl. (B.5) mit Gl. (B.3) und Gl. (B.4)
vereinfacht werden kann zu
γX1X2(Ω) = 1
2ejΩd12 cos ϕ1/(T c)+ejΩd12 cos ϕ2/(T c).(B.6)
Werden also zwei Quellen mit gleicher Leistung auf einer Kugeloberfl¨
achen angeordnet, er-
gibt sich die Koh¨
arenzfunktion Gl. (B.6) durch das arithmetische Mittel zweier komplexer
1Die Erwartungswertbildung E{|X1(Ω)|2}und E{|X2(Ω)|2}gilt bez¨
uglich aller Realisierungen von Q1und
Q2.
160 Anhang B. R¨
aumliche Koh¨
arenz eines diffusen Schallfeldes
Exponentialterme. Diese Eigenschaft kann nun auf NQuellen erweitert werden
γX1X2(Ω) = 1
N
N
X
i=1
ejΩd12 cos ϕi/(T c)(B.7)
und f¨
ur unendlich viele Quellen verteilt auf einer Kugeloberfl¨
ache mit dem Radius r
γX1X2(Ω) = 1
4πr2
2π
Z0
π
Z0
ejΩd12 cos ϕ/(T c)r2sin ϕdϕdθ(B.8)
=1
2
1
Z
−1
ejΩd12ϑ/(T c)dϑ(B.9)
=Tc
2jΩd12 ejΩd12/(T c)−e−jΩd12/(T c)(B.10)
=sin(Ωd12/(Tc))
Ωd12/(Tc)(B.11)
= si Ωd12
Tc .(B.12)
Das Ergebnis in Gl. (B.12) ist gerade die Koh¨
arenzfunktion eines diffusen Schallfelds.
x1(t)x2(t)
q1(t)
q2(t)
ϕ1
ϕ2
θ
x
y
z
Bild B.1: Modell sph¨
arisch angeordneter unkorrellierter Schallquellen.
Anhang C
Geometrische Anordnungen der Simulationen
In diesem Kapitel sollen die verschiedenen Simulationsumgebungen beschrieben werden, wel-
che im Rahmen dieser Arbeit verwedet wurden. Zum einen sind dies die geometrischen An-
ordnungen zur St¨
orger¨
auschunterdr¨
uckung bei Anwesenheit von nur einer Sprachsignalquelle
und zum anderen die geometrischen Anordnungen zur Quellentrennung bei zwei vorhande-
nen Sprachsignalquellen. Allgemein gilt die Abtastrate von fAb = 12kHz f¨
ur alle verwende-
ten Quellsignale und jeweils eine ¨
aquidistante Anordnung der Mikrophone im Abstand von
d= 4cm zueinander.
C.1 Spiegelquellenmethode f¨
ur St¨
orger¨
auschunterdr¨
uckung
Zur Untersuchung der St¨
orger¨
auschunterdr¨
uckung wurden zwei Positionen f¨
ur die Sprachsi-
gnalquellen gew¨
ahlt, jeweils mit dem Abstand von 0,8m zum Mittelpunkt des Arrays. F¨
ur
die erste – gekennzeichnet durch S1 – gilt die Einfallsrichtung θs,1= 45◦und die zweite –
gekennzeichnet durch S2 – entsprechend θs,2= 0◦, jeweils relativ zu Broadside. Des Weiteren
sind zwei St¨
orsignalquellen jeweils im Abstand von 1,6m zum Mittelpunkt des Arrays plat-
ziert, eine bei einer Richtung von θn,1=−20◦– gekennzeichnet durch N1 – und die andere
bei θn,2= 60◦– gekennzeichnet durch N2 – ebenfalls relativ zu Broadside. Alle Quellen be-
finden sich in der gleichen Ebene auf einer H¨
ohe von 1,5m in einem Raum der L¨
ange 6m,
der Breite 5m und der H¨
ohe 3m. Die Anordnung in dem simulierten Raum kann dem Bild
C.1 entnommen werden.
Die Signale an den Sensoren ergeben sich letztendlich durch unterschiedliche Kombinatio-
nen der Quellsignale. Grunds¨
atzlich gilt jedoch, dass den Mischsignalen an den Mikrophonen
jeweils unkorreliertes weißes Rauschen mit einem SNR von 25dB hinzugef¨
ugt wurde. Als
Nutzsignale kamen 10 Beispiels¨
atze der TIMIT-Datenbank zum Einsatz; 5 von m¨
annlichen
und 5 von weiblichen Sprechern. Die St¨
orsignalquelle N1 bei θn,1=−20◦basiert auf der Auf-
nahme eines PC-L¨
ufterger¨
ausches und hat somit Tiefpass-Charakter. Die zweite St¨
orquelle
N2 bei θn,2= 60◦ist k¨
unstlich erzeugtes weißes Rauschen mit anschließender Tiefpassfilte-
rung. Die beiden Leistungsdichtespektren von N1 und N2 sind in Bild C.2 dargestellt. Die
Kombination der verschiedenen Schallquellen ist durch folgende 4 Szenarien gegeben:
Szenario-1 Sprachquelle S1 ist aktiv (mit und ohne diffuses St¨
orschallfeld)
Szenario-2 Sprachquelle S1 und St¨
orquelle N1 sind aktiv
162 Anhang C. Geometrische Anordnungen der Simulationen
3 m 0,5 m
4 cm
6m
5m
S2 S1
N1
N2
θs,1
θn,1θn,2
Bild C.1: Simulierte geometrische Anordnung f¨
ur die St¨
orger¨
auschunterdr¨
uckung. F¨
ur die Nutzsignalquellen
gilt ein radialer Abstand von 0,8 m und θs,1= 45◦, sowie θs,2= 0◦. F¨
ur die St¨
orquellen gilt ein
radialer Abstand von 1,6 m und θn,1=−20◦, sowie θn,2= 60◦.
Szenario-3 Sprachquelle S2 und St¨
orquelle N2 sind aktiv
Szenario-4 Sprachquelle S2 und beide St¨
orquellen N1 und N2 sind aktiv
Bei der Erzeugung der Mikrophonsignale mittels der Spiegelquellenmethode variiert die Nach-
hallzeit T60, das SNR und die Anzahl der verwendeten Mikrophone. Diese Angaben sind
jeweils an der Stelle in dieser Arbeit zu finden, an denen die Signale verwendet wurden.
-60
-40
-20
0
0246
(a)
St¨
orquelle N1
P(Ω) [dB]
Ω/(2πT) [kHz]
-60
-40
-20
0
0246
(b)
St¨
orquelle N2
P(Ω) [dB]
Ω/(2πT) [kHz]
Bild C.2: Leistungsdichtespektrum P(Ω) in (a) f¨
ur die St¨
orquelle N1 und in (b) f¨
ur f¨
ur die St¨
orquelle N2.
C.2 Spiegelquellenmethode f¨
ur blinde Quellentrennung
Zur Untersuchung der Separationsleistung bei der blinden Quellentrennung mittels PCA Be-
amforming wurden in einem simulierten Raum mit einer L¨
ange von 6m, einer Breite von 5m
C.2. Spiegelquellenmethode f¨
ur blinde Quellentrennung 163
und einer H¨
ohe von 3m zwei simultan aktive Sprachsignalquellen S1 und S2 platziert. Der
Abstand der Quellen zum Mittelpunkt der linearen Mikrophongruppe betr¨
agt jeweils 2m und
die Ausrichtungen betragen θs,1=−30◦, sowie θs,2= 45◦. Es wurden wiederum 10 Sprach-
beispiele von 5 m¨
annlichen und 5 weiblichen Sprechern verwendet, wodurch sich insgesamt
45 Kombination ergeben. Dabei sind die beiden verhallten Signale mit gleicher Leistung an
den Mikrophonen aufaddiert und zus¨
atzlich unkorreliertes weißes Rauschen mit einem SNR
von 25dB hinzugef¨
ugt worden. Die Anordnung in dem simulierten Raum kann dem Bild C.3
entnommen werden. Im dieser Arbeit ist die Anordnung aus Bild C.3 mit Szenario-5 bezeich-
3 m 0,5 m
4 cm
6m
5m
S1 S2
θs,1
θs,2
Bild C.3: Simulierte geometrische Anordnung f¨
ur die blinde Quellentrennung. Die Sprachsignalquellen haben
einen radialen Abstand von 2 m und die Einfallsrichtungen sind θs,1=−30 ◦, sowie θs,2= 45 ◦.
net. Die Verhallung wurde wieder mit der Spiegelquellenmethode durchgef¨
uhrt, wobei die
Nachhallzeit T60 und die Anzahl der verwendeten Mikrophone variiert wurden.
164 Anhang C. Geometrische Anordnungen der Simulationen
Anhang D
Robuste Sprache/Pause-Detektion
In Sprachsignalverarbeitungssystemen zur Telekommunikation oder zur akustischen Szenen-
analyse ist die Detektion von Sprachaktivit¨
at eine sehr wichtige, fundamentale Komponen-
te [SHU07]. Abh¨
angig von der konkreten Anwendung sind unterschiedliche Strategien zur
Sprache/Pause-Detektion (engl. Voice Activity Detection, VAD) notwendig. Bei z. B. der auto-
matischen Spracherkennung m¨
ussen alle Segmente, welche Sprachanteile beinhalten vertrau-
ensw¨
urdig identifiziert werden und es sollte kein Sprachsegment ausgelassen werden [ETS02].
Beim Einsatz zur Sch¨
atzung von spektralen Leistungsdichten – wie hier in dieser Arbeit – ist
es jedoch akzeptabel, nicht jedes Segment, sei es Sprache oder Pause, als solches zu identifi-
zieren. Vielmehr sollte beim Entwurf darauf geachtet werden, dass wenn eine Klassifizierung
als Sprache oder Pause erfolgt, diese auch sehr vertrauensw¨
urdig ist. Daher soll eine VAD
mit drei m¨
oglichen Klassen bzw. Zust¨
anden eingesetzt werden: Zu den sonst ¨
ublichen Spra-
che und Pause Zust¨
anden wird noch ein weiterer unentschiedener Zustand (engl. don’t know)
hinzugef¨
ugt.
Typischerweise kann das Klassifikationsproblem in zwei Teilen betrachtet werden: der Ge-
nerierung von Entscheidungsmerkmalen und der Anwendung einer Entscheidungsregel. Als
Entscheidungsmerkmal kann z. B. die Signalenergie dienen [SKS99, MK02, ETS02, WHUS07]
oder die inh¨
arente Charakteristik von Sprachsignalen [KDO05, Tuc92, IN06]. Basierend auf
den generierten Merkmalen erfolgt dann die eigentliche Klassifikation z. B. mittels einer einfa-
chen Schwellwertentscheidung oder statistisch motiviert ¨
uber das Verh¨
altnis von Wahschein-
lichkeitsdichtefunktionen (engl. Likelihood Ratio Test, LRT). Im Folgenden soll die VAD nach
[SKS99] analysiert und modifiziert werden. Hierbei dient die Signalenergie, oder genauer ge-
sagt das SNR als Enscheidungsmerkmal und die Entscheidungsregel ist der Likelihood Ratio
Test.
D.1 Likelihood-Ratio-Entscheidungsregel
Das einkanalige Mikrophonsignal X(Ωk) soll im Frequenzbereich f¨
ur jede diskrete Spektral-
komponente Ωkaus der Komponente des Sprachanteils S(Ωk) und einem unkorrelierten addi-
tiven Rauschterm N(Ωk) bestehen, wobei an dieser Stelle auf den Blockindex verzichtet wer-
den soll. Weiterhin wird angenommen, dass der Sprach- und Rauschanteil jeweils komplexe
Gaußverteilungen besitzt. Dann k¨
onnen die bedingten Wahrscheinlichkeitsdichtefunktionen
p(X(Ωk)|H0(Ωk)) bez¨
uglich der Beobachtung einer spektralen Rauschkomponente gegeben
166 Anhang D. Robuste Sprache/Pause-Detektion
die Hypothese H0(Ωk) einer Sprachpause und entsprechend p(X(Ωk)|H1(Ωk)) f¨
ur die Be-
obachtung von Sprache und Rauschen gegeben die Hypothese H1(Ωk) f¨
ur Sprachaktivit¨
at
geschrieben werden als
p(X(Ωk)|H0(Ωk)) = 1
πσ2
N(Ωk)exp −|X(Ωk)|2
σ2
N(Ωk)(D.1)
p(X(Ωk)|H1(Ωk)) = 1
π(σ2
N(Ωk) + σ2
S(Ωk)) exp −|X(Ωk)|2
σ2
N(Ωk) + σ2
S(Ωk),(D.2)
wobei σ2
N(Ωk) und σ2
S(Ωk) die Varianzen von N(Ωk) und S(Ωk) bezeichnen. Das frequenzab-
h¨
angige Likelihood Ratio ist definiert als
Λ(Ωk) = p(X(Ωk)|H1(Ωk))
p(X(Ωk)|H0(Ωk)) =1
1 + ξ(Ωk)exp γ(Ωk)ξ(Ωk)
1 + ξ(Ωk),(D.3)
mit dem so genannten a posteriori SNR
γ(Ωk) = |X(Ωk)|2
σ2
N(Ωk)(D.4)
und dem a priori SNR
ξ(Ωk) = σ2
S(Ωk)
σ2
N(Ωk).(D.5)
Die Frequenzkomponenten sind als unabh¨
angig untereinander anzusehen. Unter Ber¨
ucksichti-
gung aller Frequenzkomponenten kann das Likelihood Ratio als Produkt ¨
uber alle Frequenzen
(D.3) und nach Logarithmieren als Summe ¨
uber alle frequenzabh¨
angigen Likelihood Ratios
angegeben werden. Daraus folgt dann die gemittelte Entscheidungsregel
log(Λ) = 1
L
L−1
X
k=0
log(Λ(Ωk))
H1(Ωk)
≷
H0(Ωk)
η, (D.6)
mit der L¨
ange Lf¨
ur die diskrete Fourier-Transformation und der Entscheidungsschwelle η.
Robustheitssteigerung der Entscheidungsregel
Da gerade am Ende einer Sprachsequenz sehr wenig Energie in dem Signal vorhanden ist,
f¨
uhrt die direkte Anwendung von Gl. (D.6) h¨
aufig zu verfr¨
uhten Pause-Entscheidungen. Daher
kann eine Verz¨
ogerung (engl. Hang-Over) abfallender Werte von Λ vorgenommen werden.
In [SKS99] wird hierf¨
ur ein Verfahren basierend auf einem Hidden Markov Modell (HMM)
und in [CK01] eine empirisch motivierte Gl¨
attung der Likelihood Ratio vorgeschlagen. Als
Erweiterung der Verarbeitung von Einzelbeobachtungen und einer Nachverarbeitung mittels
HMM oder Gl¨
attung ist in [RSB+05] alternativ die Ausnutzung von Mehrfachbeobachtungen
in die Likelihood-Entscheidungsregel integriert. In zahlreichen Tests, welche im Rahmen dieser
Arbeit durchgef¨
uhrt wurden, hat sich die Gl¨
attung nach [CK01] als sehr effektive Variante
herausgestellt:
Ψm(Ωk) = exp{βlog(Ψm−1(Ωk)) + (1 −β) log(Λm(Ωk))},(D.7)
D.2. Sch¨
atzung des a priori SNR 167
wobei nun der Blockindex min der Rekursion Gl. (D.7) aufgef¨
uhrt ist. Mit βist die Gl¨
at-
tungskonstante bezeichnet, die z. B. zu β= 0.85 gesetzt werden kann. ¨
Aquivalent zu Gl.
(D.6) ergibt sich dann folgende Entscheidungsregel:
log(Ψm) = 1
L
L−1
X
k=0
log(Ψm(Ωk))
H1(Ωk)
≷
H0(Ωk)
η. (D.8)
D.2 Sch¨
atzung des a priori SNR
Um nun die Regel Gl. (D.8) auswerten zu k¨
onnen ist es notwendig das a priori SNR Gl.
(D.5) f¨
ur jeden Block mzu sch¨
atzen, z. B. mit Hilfe der so genannten Decision-Directed (DD)
Methode nach [EM84]:
ˆ
ξm(Ωk) = αˆ
S2
m−1(Ωk)
ˆσ2
N,m−1(Ωk)+ (1 −α)MAX{γm(Ωk),1},(D.9)
wobei ˆ
S2
m(Ωk) die gesch¨
atzte Amplitude der Sprache, αeine Gl¨
attungskonstante (z. B. α=
0.96) und MAX{·} der Maximum-Operator ist, mit MAX{ψ, ϑ}=ψf¨
ur ψ > ϑ, und sonst
MAX{ψ, ϑ}=ϑ. Der Amplitudensch¨
atzer ergibt sich nach [EM84] zu
ˆ
Sm(Ωk) = rπ
2pυm(Ωk)
ˆγm(Ωk)M{−0,5; 1; −υm(Ωk)}|Xm(Ωk)|(D.10)
mit der konfluent hypergeometrischen Funktion
M{−0,5; 1; −υm(Ωk)}= exp −υm(Ωk)
2·(1 + υm(Ωk))I0υm(Ωk)
2
+υm(Ωk)I1υm(Ωk)
2,
(D.11)
wobei
υm(Ωk) = ˆ
ξm(Ωk)
1 + ˆ
ξm(Ωk)ˆγm(Ωk).(D.12)
Mit I0{·} in Gl. (D.11) ist die modifizierte Besselfunktion nullter Ordnung und mit I1{·} der
ersten Ordnung bezeichnet. Da die Auswertung der Besselfunktionen sehr rechenintensiv ist
wurde f¨
ur die Implementierung der VAD folgende Approximation von Gl. (D.11) eingesetzt:
M{−0,5; 1; −υ} ≈ c
M(υ) = 1,163pυ+ 1,1−0,0015υ−0,22 (D.13)
wobei in Gl. (D.13) auf den Frequenz- und Blockindex verzichtet wurde. In Bild D.1 (a) ist der
Verlauf der hypergeometrischen Funktion f¨
ur einen relevanten Wertebereich von υdargestellt
und in D.1 (b) das Quadrat des relativen Fehlers
er(υ) = M{−0,5; 1; −υ}− c
M(υ)
M{−0,5; 1; −υ}.(D.14)
An Bild D.1 ist deutlich zu erkennen, dass Gl. (D.13) eine sehr gute N¨
aherung darstellt.
Zur Berechnung des a priori SNRs Gl. (D.5) ist nun noch die Varianz des Rauschens zu
sch¨
atzen. Dieses kann z. B. in den Sprachpausen erfolgen welches hier als implizite Sch¨
atzung
bezeichnet werden soll oder es wird extern z. B. mit Hilfe der Minimum Statistik (MS)
Methode nach [Mar01] berechnet, welches als explizite Sch¨
atzung bezeichnet werden soll.
168 Anhang D. Robuste Sprache/Pause-Detektion
-10-10 00
00
1
2
5
10
10
10 2020
(a) (b)
·10 -4
M(−0,5; 1; −υ)
e2
r(υ)
10 log10(υ) [dB]10 log10(υ) [dB]
Bild D.1: Verlauf der konfluent hypergeometrischen Funktion nach Gl. (D.11) in (a) und in (b) der quadratische
Fehler der Approximation nach Gl. (D.13).
Implizite Sch¨
atzung der Rauschvarianz
Das Likelihood Ratio soll als Informationsquelle zur Sch¨
atzung einer Sprachpause verwendet
werden. Da dies f¨
ur jede Frequenz erfolgt, wird im Folgenden auf den Frequenzindex erzichtet.
Mit Hilfe der Bayes’schen Regel f¨
ur bedingte Verteilungsdichtefunktionen p(H0,m|Xm)p(Xm) =
p(Xm|H0,m)p(H0,m) und p(Xm) = p(Xm|H0,m)p(H0,m)+p(Xm|H1,m)p(H1,m) kann die Wahr-
scheinlichkeit f¨
ur eine Sprachpause gegeben die Beobachtung Xmgeschrieben werden als
p(H0,m|Xm) = 1
1 + Υm
(D.15)
mit
Υm=p(H1,m)p(Xm|H1,m)
p(H0,m)p(Xm|H0,m)=p(H1,m)
p(H0,m)Ψm.(D.16)
In Anlehnung an [SKS99] soll Υmrekursiv basierend auf einem Hidden Markov Modell berech-
net werden. In dem benutzen zeitinvarianten Markov Prozess bezeichnet aij den Zustands-
¨
ubergang von der Hypothese Hinach Hj, mit i, j ∈ {1,2}. Die Werte sind empirisch gesetzt
auf: a00 = 0,8; a01 = 0,2; a10 = 0,1; a11 = 0,9. Die Rekursionsgleichung f¨
ur Gl. (D.16)
ergibt sich dann zu:
Υm=p(H0,m−1, Xm−1)a01 +p(H1,m−1, Xm−1)a11
p(H0,m−1, Xm−1)a00 +p(H1,m−1, Xm−1)a10
Ψm(D.17)
=a01 + Υm−1a11
a00 + Υm−1a10
Ψm.(D.18)
Die frequenzabh¨
angige Rauschvarianz kann somit rekursiv berechnet werden zu
ˆσ2
N,m(Ωk) = αˆσ2
N,m−1(Ωk) + (1 −α)E{|Nm(Ωk)|2|Xm(Ωk)}(D.19)
mit
E{|Nm(Ωk)|2|Xm(Ωk)} ≈ p(H0,m(Ωk)|Xm(Ωk))|Xm(Ωk)|2
+ (1 −p(H0,m(Ωk)|Xm(Ωk)))ˆσ2
N,m−1(Ωk),(D.20)
wobei p(H0,m(Ωk)|Xm(Ωk)) in Gl. (D.20) aus Gl. (D.15) durch Einsetzen von Gl. (D.18)
hervorgeht.
D.3. Analyse von Fehlsch¨
atzungen der Rauschvarianz 169
Explizite Sch¨
atzung der Rauschvarianz
Die Grundidee der Minimum Statistik nach [Mar94] besteht darin, dass das Minimum der
spektralen Leistungsdichte auf das zu sch¨
atzende Rauschen zur¨
uckzuf¨
uhren ist. Dieses kann
folglich durch eine Minima-Suche in einer gewissen Anzahl von vergangenen Verarbeitungsbl¨
o-
cken pro Spektralkomponente auch w¨
ahrend Sprachaktivit¨
at ermittelt werden. Offensichtlich
besteht jedoch zwischen der zu sch¨
atzenden Rauschvarianz und den so bestimmten Minima
eine systematische Fehlsch¨
atzung. Daher wurde in [Mar01] ein Verzerrungsfaktor als Kor-
rekturterm eingef¨
uhrt. Aufgrund der Komplexit¨
at des Verfahrens sei auf [Mar01] f¨
ur weitere
Details verwiesen. An dieser Stelle soll lediglich die F¨
ahigkeit des implementierten Algorith-
mus, eine kontinuierliche Sch¨
atzung der St¨
orger¨
auschleistung auch w¨
ahrend Sprachsequenzen
durchzuf¨
uhren, anhand des Bildes D.2 exemplarisch verdeutlicht werden. Auf der gesamten
L¨
ange des ausgew¨
ahlten Zeitintervalls liegt Sprachaktivit¨
at vor und dem Sprachsignal wurde
weißes Rauschen mit zeitvarianter Leistungsdichte in Form zweier S¨
agez¨
ahne ¨
uberlagert. Das
SNR variert in dem Bereich zwischen 0dB und 15dB. In Bild D.2 ist zum einen das gegl¨
at-
tete Periodogramm der resultierenden Spektralkomponente bei ca. 1kHz und zum anderen
das gesch¨
atzte St¨
orspektrum Bc·Pmin ¨
uber der Zeit aufgetragen. Hierbei bezeichnet Pmin das
ermittelte Minimum und Bcden Korrekturterm. Ohne quantitative Aussagen zu treffen ist
in Bild D.2 rein qualitativ zu erkennen, dass die Sch¨
atzung der St¨
orung dem S¨
agezahnverlauf
folgt.
0
368
40
50
60
70
Betragsspektrum [dB]
t[s]
P
Bc·Pmin
Bild D.2: Exemplarische Darstellung der Sch¨
atzung der Rauschvarianz nach [Mar01] f¨
ur eine Spektralkompo-
nente des Sprachsignals bei 1 kHz, welches mit einem s¨
agezahnf¨
ormigen Rauschen in dem Bereich
zwischen 0 dB und 15 dB ¨
uberlagert wurde.
D.3 Analyse von Fehlsch¨
atzungen der Rauschvarianz
Die relative Abweichung des Likelihood Ratios soll in Abh¨
angigkeit von einer Fehlsch¨
atzung
der Rauschvarianz untersucht werden, zuerst f¨
ur eine ¨
Ubersch¨
atzung der Varianz, einerseits
verursacht durch Einbeziehung von Sprachanteilen in die Sch¨
atzung aber andererseits auch
durch zeitliche ¨
Anderungen der Rauschstatistik. Danach erfolgt eine Analyse f¨
ur eine Un-
tersch¨
atzung der Rauschvarianz. Da das prinzipielle Verhalten f¨
ur alle Frequenzen gleich ist
wird wieder auf den Frequenzindex verzichtet. Die Abweichung wird nun zuerst definiert zu
∆σ2
N=KSσ2
S,(D.21)
170 Anhang D. Robuste Sprache/Pause-Detektion
wobei der Koeffizient KS∈[0, .., 1] die Gr¨
oße der Abweichung relativ zur Varianz der Sprache
angibt. Dann kann das a priori SNR angegeben werden als
˜
ξ=σ2
S
σ2
N+ ∆σ2
N
=1
ξ−1+KS
,(D.22)
mit dem wahren a priori SNR ξ=σ2
S/σ2
N. Es soll angenommen werden, dass das a posteriori
SNR gegeben ist durch γ=ξ+ 1, wodurch sich die Likelihood-Ratio-Abweichung angeben
l¨
aßt zu
∆ log(Λ) = γξ
1 + ξ−log(1 + ξ)− γ˜
ξ
1 + ˜
ξ−log(1 + ˜
ξ)!.(D.23)
Nimmt man nun ein bestimmtes a priori SNR an, so kann die Erh¨
ohung des Likelihood Ratios
∆ log(Λ) f¨
ur unterschiedliche Abweichungen ∆σ2
Nberechnet werden.
Einen etwas anderen Ausdruck f¨
ur Gl. (D.22) erh¨
alt man, wenn die Abweichung der
gesch¨
atzten Rauschvarianz angenommen wird zu
∆σ2
N=KNσ2
N,(D.24)
wobei der Koeffizient KN∈]−1, .., 0] nun die Gr¨
oße der Abweichung relativ zur Rauschvarianz
festlegt. Mit dieser Differenz ergibt sich dann das a priori SNR
˜
ξ=ξ
1 + KN
,(D.25)
welches wiederum in Gl. (D.23) eingesetzt werden kann.
In Bild D.3 ist Gl. (D.23) exemplarisch ausgewertet f¨
ur die fehlerhaft gesch¨
atzten a priori
SNR nach Gl. (D.22) und Gl. (D.25). Bild D.3 zeigt offensichtlich ein sehr sensibles Verhalten
-8
-6
-4
-2
0
0
(a)
0 dB
3 dB
6 dB
9 dB
12 dB 15 dB 18 dB
-0,8 -0,6 -0,4 -0,2
KN
∆ log(Λ)
00
2
4
6
8
10
(b)
0 dB
3 dB
6 dB
9 dB
12 dB
15 dB
0,8
0,60,40,2
KS
∆ log(Λ)
Bild D.3: Abweichung des Likelihood Ratios nach Gl. (D.23) f¨
ur unterschiedliche a priori SNR: In (a) relativ zur
Varianz des Rauschens (∆σ2
N=KNσ2
N) und in (b) relativ zur Varianz der Sprache (∆σ2
N=KSσ2
S).
der Entscheidungsregel bez¨
uglich der Sch¨
atzung der Rauschvarianz. Daher ist es zwingend
notwendig, einerseits ein m¨
oglichst schnelles Nachf¨
uhren von ˆσ2
N,m(Ωk) zu erm¨
oglichen, aber
andererseits sicherzustellen, dass keine Sprachanteile in die Sch¨
atzung einfließen. Das Verhal-
ten der Entscheidungsregel bez¨
uglich der Abbildung D.3 (b) kann weitergehend dahin inter-
pretiert werden, dass falls Energie der Sprache in die Sch¨
atzung der Varianz des Rauschens
einfließt, der Wert log(Λ(m)) sprunghaft ansteigt und somit noch sicherer Sprachpausen de-
tektiert werden. Somit erfolgt dann wieder eine zuverl¨
assige R¨
uckf¨
uhrung von ˆσ2
N,m(Ωk) auf
den wahren Wert.
D.4. Simulationen 171
Robustheitssteigerung der Rauschvarianzsch¨
atzung
Insbesondere beim Einsetzen von Sprache bzw. beim Ausklingen ist p(H0,m(Ωk)|Xm(Ωk))
in Gl. (D.20) eventuell nicht schnell genug nachgef¨
uhrt. Um nun ein Lecken von Sprachan-
teilen in die Sch¨
atzung von ˆσ2
N,m(Ωk) zu verhindern wird eine Hintergrundsch¨
atzung von
E{|Nm(Ωk)|2|Xm(Ωk)}in Gl. (D.20) in einem Schieberegister vorgenommen und die Wer-
te werden erst in Gl. (D.19) verwendet, wenn z. B. in 10 aufeinanderfolgenden Bl¨
ocken
p(H0,m(Ωk)|Xm(Ωk)) >0,2 gilt. Allerdings beginnt das F¨
ullen des Registers erst nach einem
gewissen Offset von z. B. 20 aufeinanderfolgenden Bl¨
ocken mit p(H0,m(Ωk)|Xm(Ωk)) >0,2.
D.4 Simulationen
Es sollen nun experimentelle Ergebnisse f¨
ur die Detektionsgenauigkeit der VAD folgen. Daf¨
ur
wurden 20 ¨
Außerungen von verschiedenen Sprechern (10 m¨
annlich und 10 weiblich, abgetas-
tet mit 12kHz) zu einem Audiosignal der L¨
ange 120 Sekunden mit einem Sprachanteil von
ungef¨
ahr 50% zusammengefaßt. Eine manuelle Markierung des reinen Sprachsignals auf Ver-
arbeitungsbl¨
ocken der L¨
ange 128 diente als Referenz f¨
ur die Auswertungen. Die DFT-L¨
ange
der VAD wurde auf L= 256 gesetzt, wobei jeweils sich halb ¨
uberlappende Bl¨
ocke nach einer
Hamming-Fensterung transformiert wurden.
Station¨
ares Rauschen
Dem reinen Signal wurde nun station¨
ares weißes Rauschen mit unterschiedlichem SNR im
Bereich von 0dB bis 25dB ¨
uberlagert. In der Signalentdeckungstheorie stellt die Receiver
Operating Characteristic (ROC) Kurve eine Methode zur Darstellung von Fehlern bin¨
arer
Entscheidungen dar und dient der Grenzwertoptimierung. Man ermittelt f¨
ur jeden m¨
oglichen
Grenzwert – hier die Entscheidungsvariable η– die resultierenden relativen H¨
aufigkeitsver-
teilungen und errechnet die jeweils zugeh¨
orige Sensitivit¨
at und Spezifit¨
at. Im Diagramm gibt
die Ordinate die Sensitivit¨
at (= relative H¨
aufigkeit aller richtig-positiven Testergebnisse) und
die Abszisse die Spezifit¨
at (= relative H¨
aufigkeit aller falsch-positiven Testergebnisse) an. Im
Falle der VAD bezeichnet die Sensitivit¨
at die F¨
alle p(log(Ψm)> η|Hm,1) und die Spezifit¨
at
die F¨
alle p(log(Ψm)> η|Hm,0). Die resultierenden ROC Kurven sind in Bild D.4 dargestellt.
Es ist sehr deutlich die hohe Detektionsgenauigkeit insbesondere f¨
ur mittlere SNR-Werte zu
erkennen.
Robustheitssteigerung der Detektionsgenauigkeit
Da jedoch die Werte log(Ψm) f¨
ur Sprache und Pause bei niedrigen SNR deutlich enger bei-
einander liegen als f¨
ur hohe SNR, ist eine gute Wahl f¨
ur den Arbeitspunkt der Entschei-
dungsvariablen ηnicht f¨
ur einen großen Dynamikbereich der erwarteten SNR m¨
oglich. Daher
ist es sinvoll zwei Schwellwerte η0und η1, mit η0< η1, einzuf¨
uhren und eine Pause anzu-
zeigen, wenn gilt log(Ψm)< η0bzw. Sprache anzuzeigen f¨
ur log(Ψm)> η1. Daraus folgt,
dass f¨
ur η0≤log(Ψm)≤η1der unentschiedene Zustand eintritt. Da f¨
ur die Anwendung
der VAD in dieser Arbeit zwar eine sichere Detektion von Sprachsegmenten erforderlich und
aber gleichzeitig ein schnelles Nachf¨
uhren der entsprechenden Algorithmen bei Sprachakti-
vit¨
at w¨
unschenswert ist, wurde η1= 0,8 aus den Auswertungen der Simulationen gew¨
ahlt.
Unter der Annahme einer station¨
aren St¨
orung, bzw. einer sich nur sehr langsam ¨
andernden
172 Anhang D. Robuste Sprache/Pause-Detektion
00,1 0,2 0,3 0,4 0,5
0,9
0,95
1
Sinkendes SNR
p(∆ log(Ψm)> η|Hm,1)
p(∆ log(Ψm)> η|Hm,0)
Bild D.4: ROC-Kurven f¨
ur station¨
ares weißes Rauschen mit unterschiedlichem SNR: 25 dB, 20 dB, 15 dB,
10 dB, 5 dB und 0 dB. Sch¨
atzung der Rauschvarianz mit impliziter Methode nach Gl. (D.19) und
Gl. (D.20) unter Beachtung der aufgef¨
uhrten Robustheitsaspekte.
Rauschstatistik, kann ein Verpassen von Pausesegmenten sehr wohl geduldet werden, wodurch
umgekehrt bei der Detektion von Pausen diese auch mit einer h¨
oheren Wahrscheinlichkeit kor-
rekt sind. Daher wurde η0= 0,2 gew¨
ahlt. Die sich ergebenden Detektionsgenauigkeiten sind
in der Tabelle D.1 zusammengefaßt.
Sprache Pause
falsch korrekt falsch korrekt
SNR p(log(Ψm)>η1|Hm,0)p(log(Ψm)>η1|Hm,1)p(log(Ψm)<η0|Hm,1)p(log(Ψm)<η0|Hm,0)
0 dB 0,02 % 69,00 % 1,76 % 53,44 %
5 dB 0,35 % 87,41 % 1,10 % 54,41 %
10 dB 1,14 % 93,88 % 1,03 % 57,12 %
15 dB 2,45 % 97,10 % 0,87 % 59,75 %
20 dB 3,65 % 98,04 % 0,71 % 67,56 %
25 dB 4,97 % 98,40 % 0,52 % 73,05 %
Tabelle D.1: Detektionsergbnisse f¨
ur falsch bzw. korrekt detektierte Sprache- und Pause-Segmente unter Ver-
wendung der VAD mit drei Zust¨
anden f¨
ur variierendes SNR.
Instation¨
ares Rauschen
Als n¨
achstes sollen noch ROC-Kurven pr¨
asentiert werden f¨
ur einen Vergleich der impliziten
Sch¨
atzung der Rauschvarianz nach Gl. (D.20) und der expliziten kontinuierlichen Sch¨
atzung
mit Hilfe des Minimum-Statistik-Verfahrens, jeweils eingesetzt in Gl. (D.19). Dieser Test
wurde f¨
ur drei Arten von Rauschszenarien durchgef¨
uhrt: Station¨
ares weißes Rauschen mit
einem SNR von 10dB, f¨
ur sich sprunghaft ¨
anderndes weißes Rauschen zwischen einem SNR
von 10dB und 20dB (siehe Bild D.5 (a)) und f¨
ur sich pulsierend ¨
anderndes weißes Rauschen
im Bereich zwischen einem SNR von 6dB und 14dB (siehe Bild D.5 (b)). Die Ergebnisse
f¨
ur die drei Rauschszenarien sind in Bild D.6 dargestellt. Zum einen ist in der Abbildung zu
sehen, dass bei station¨
arem Rauschen die Ergebnisse mit der expliziten Sch¨
atzung minimal
schlechter sind als mit der impliziten Methode. Dies ist durch die kontinuierliche Sch¨
atzung
der Minimum-Statistik-Methode zu erkl¨
aren, da so stets kleine ¨
Anderungen der Rauschvarianz
D.5. Zusammenfassung 173
(a)
0
0
0
20
20
40
40
60
60
80
80
100
100
120
120
x(t)
f[kHz]
t[s]
t[s]
·104
0
2
4
6
2
-2
(b)
0
0
0
20
20
40
40
60
60
80
80
100
100
120
120
x(t)
f[kHz]
t[s]
t[s]
·104
0
2
4
6
2
-2
Bild D.5: Zeitverl¨
aufe und Spektrogramme der beiden verwendeten nichtstation¨
aren Rauscharten: In (a)
sprunghafte ¨
Anderng des Rauschens zwischen einem SNR von 10 dB und 20 dB und in (b) pul-
sierendes Rauschen im Bereich zwischen einem SNR von 6 dB und 14 dB.
¨
uber der Zeit auftreten, die sich aber negativ auf die Entscheidungsregel auswirken. Zum
anderen wird deutlich, dass mit der impliziten Sch¨
atzmethode bei instation¨
arem Rauschen
keine zuverl¨
assigen Sprachaktivit¨
atsentscheidungen mehr zu treffen sind. Hingegen liefert die
VAD betrieben mit der expliziten Rauschsch¨
atzung weiterhin akzeptable Ergebnisse.
00,1 0,2 0,3 0,4 0,5
0,9
0,95
1
StatImp
StatExp
SpImp
SpExp
PulsImp
PulsExp
p(∆ log(Ψm)> η|Hm,1)
p(∆ log(Ψm)> η|Hm,0)
Bild D.6: ROC-Kurven f¨
ur station¨
ares weißes Rauschen (bezeichnet mit “Stat”), f¨
ur sich sprunghaft ¨
anderndes
weißes Rauschen (bezeichnet mit “Sp”) und f¨
ur sich pulsierend ¨
anderndes weißes Rauschen (bezeich-
net mit “Puls”); jeweils f¨
ur die implizite Sch¨
atzung der Rauschvarianz (bezeichnet mit “Imp”) und
expliziter Sch¨
atzung (bezeichnet mit “Exp”).
D.5 Zusammenfassung
Das hier beschriebene Verfahren zur Sprache/Pause-Detektion erlaubt eine robuste Steuerung
der im Verlauf dieser Arbeit vorgestellten Beamforming-Algorithmen. Da die Problemstellung
bei der mehrkanaligen Sprachsignalverbesserung in der Unterdr¨
uckung station¨
arer St¨
orge-
r¨
auschquellen lag, wird die VAD mit der impliziten Rauschvarianzsch¨
atzung betrieben. Weil
die Analyse von Fehlsch¨
atzungen der Rauschvarianz ergeben hat, dass die Entscheidungsre-
gel ein sehr sensitives Verhalten bez¨
uglich Abweichungen der Sch¨
atzung aufweist, wurde zur
Steigerung der Zuverl¨
assigkeit der Rauschvarianzsch¨
atzung die beschriebene Hintergrund-
sch¨
atzung angewendet. Bei der Implementierung wurde insbesondere auf Robustheitsaspekte
geachtet, die ein sicheres Erkennen von Pause- und Sprache-Segmenten gew¨
ahrleisten. Diese
174 Anhang D. Robuste Sprache/Pause-Detektion
kamen bei der Gl¨
attung der Entscheidungsregel und insbesondere durch die Nutzung von drei
Zust¨
anden f¨
ur die Klassifikation zum Tragen.
Anhang E
Adaptive Eigenwertzerlegung
In diesem Abschnitt soll zuerst die Originalherleitung der Oja-Regel pr¨
asentiert werden. Dann
folgen experimentelle Ergebnisse f¨
ur die Schrittweite von Gradientenverfahren zur L¨
osung
des speziellen und des allgemeinen Eigenwertproblems, welche essentiell f¨
ur die Stabilit¨
at der
Algorithmen ist.
E.1 Oja Lernregel
Die Originalherleitung der Oja-Regel nach [Oja82] basiert auf einer Normierung der Filter-
koeffizienten und der anschließenden Taylorreihenentwicklung, also ohne den Ansatz mittels
Lagrange-Multiplikator, wobei C= 1 gew¨
ahlt ist. Die Maximierungsaufgabe ist nachwievor
Gl. (5.26) und normiert wird nun die Hebbsche Lernregel Gl. (5.21)
ˆ
v1,κ =ˆ
v1,κ−1+µXκY∗
κ
||ˆ
v1,κ−1+µXκY∗
κ||.(E.1)
Mit der Vektornotation ˆ
v1,κ = [ˆv1,1,κ,...,ˆv1,M,κ]Tf¨
ur die MKomponenten ergibt sich f¨
ur
den Nenner von Gl. (E.1) eine Funktion f(µ) abh¨
angig von der Schrittweite
f(µ) = M
X
i=1
[ˆv1,i,κ−1+µY ∗
κXi,κ][ˆv∗
1,i,κ−1+µYκX∗
i,κ]!1/2
.(E.2)
Die Funktion f(µ) wird mittels Taylor-Entwicklung in der Umgebung des Punktes µ=µ0= 0
durch eine Potenzreihe Pf(µ0) dargestellt
Pf(µ0) = M
X
i=1 |ˆv1,i,κ−1|21/21 + µ
2
M
X
i=1 Y∗
κXi,κˆv∗
1,i,κ−1+YκX∗
i,κˆv1,i,κ−1+R(µ2) (E.3)
= 1 + µYκY∗
κ+R(µ2),(E.4)
wobei R(µ2) die Restglieder zweiter und h¨
oherer Ordnung beschreibt, Yκ=PM
i=1 Xi,κˆv∗
1,i,κ−1
gilt und die Nebenbedingung eingehalten sein soll (||ˆ
v1,κ−1|| = 1). Mit der N¨
aherung
1
1 + ε≈1−ε(E.5)
176 Anhang E. Adaptive Eigenwertzerlegung
f¨
ur εnahe Null folgt nach Einsetzen von Gl. (E.4) in Gl. (E.1) mit Gl. (E.5)
ˆ
v1,κ =ˆ
v1,κ−1+µXκY∗
κ1−µYκY∗
κ−R(µ2).(E.6)
Nach der Ausmultiplikation von Gl. (E.6) und dem Weglassen aller Terme der Ordnung O(µ2)
bzw. h¨
oherer Ordnung ergibt sich letztendlich das selbe Ergebnis wie in Gl. (5.32)
ˆ
v1,κ =ˆ
v1,κ−1+µY ∗
κ(Xκ−Yκˆ
v1,κ−1).(E.7)
E.2 Schrittweite
Ein wesentliches Problem von Gradientenverfahren ist die Wahl einer geeigneten Schrittweite.
Wird diese klein gew¨
ahlt, so ist die Konvergenzgeschwindigkeit gering, daf¨
ur sind aber auch
die Schwankungen um den station¨
aren Punkt klein. M¨
ochte man allerdings eine schnelle Ad-
aption realisieren ist die Schrittweite zwangsl¨
aufig auf einen m¨
oglichst hohen Wert zu setzen.
Hierbei ist dann insbesondere darauf zu achten, dass das Gradientenverfahren nicht diver-
giert. Es ist also eine Absch¨
atzung f¨
ur eine maximale Schrittweite notwendig. Dies soll anhand
von Simulationen zuerst f¨
ur das spezielle und danach f¨
ur das allgemeine Eigenwertproblem
erfolgen.
Spezielles Eigenwertproblem
Es soll nun anhand von Simulationen die Stabilit¨
at der Oja-Regel f¨
ur unterschiedliche Werte
der Schrittweite untersucht und mit dem neuen Verfahren verglichen werden. Daher sollen
die deterministischen Verfahren Gl. (5.31) und Gl. (5.36) durch hochgestellte Bezeichnung
“(Oja)” und “(Neu)” an den Schrittweiten gekennzeichnet sein
ˆ
v1,κ =
ˆ
v1,κ−1+µ(Oja) ΦXX −ˆ
vH
1,κ−1ΦXX ˆ
v1,κ−1ˆ
v1,κ−1,Ojas Regel
1 + ˆ
vH
1,κ−1ˆ
v1,κ−1
2ˆ
vH
1,κ−1ˆ
v1,κ−1
ˆ
v1,κ−1+µ(Neu) ΦXX −ˆ
vH
1,κ−1ΦXX ˆ
v1,κ−1
ˆ
vH
1,κ−1ˆ
v1,κ−1!ˆ
v1,κ−1,Neue Regel.
(E.8)
Jeder Koeffizientenvektor ˆ
v1,κ soll nun f¨
ur jeden Iterationsschritt durch die Linearkombi-
nation der Eigenvektoren ausgedr¨
uckt werden
ˆ
v1,κ =
M
X
i=1
ci,κvi,(E.9)
wobei ci,κ das Gewicht f¨
ur den Iterationsschritt κbezeichnet. Mit Gl. (E.9) wird aus Gl. (E.8)
cκ=
cκ−1+µ(Oja) Λ−diagcH
κ−1Λcκ−1cκ−1,Ojas Regel
cκ−1
1 + cH
κ−1cκ−1
2cH
κ−1cκ−1
+µ(Neu) Λ−diagcH
κ−1Λcκ−1
cH
κ−1cκ−1!cκ−1,Neue Regel.
(E.10)
Mit der Vektornotation cκ= (c1,κ,...,cM,κ)Tund der Diagonalmatrix der Eigenwerte Λ=
diag{λi}, welche der Gr¨
oße nach angeordnet sein sollen λ1> λ2≥... ≥λM>0. Bei Aus-
f¨
uhrung der Rekursionsvorschriften Gl. (E.10) verschwinden die ci,κ mit i > 1 f¨
ur große κ.
E.2. Schrittweite 177
Dieses Verhalten wird nun als Funktion des Quadrats der Norm cH
0c0=Kbei der Initiali-
sierung betrachtet. Ein weiterer betrachteter Parameter ist das Verh¨
altnis zwischen gr¨
oßtem
und kleinstem Eigenwert χ=λ1/λM.
Durch Simulationen hat sich folgende Schreibweise zur Formulierung einer oberen Grenze
µmax f¨
ur die Schrittweite als geeignet erwiesen
µmax =2
ξmin ·λ1
,(E.11)
wobei experimentell unterschiedliche Werte ξmin f¨
ur Ojas Regel (ξ(Oja)
min ) und f¨
ur die neue Regel
(ξ(Neu)
min ) ermittelt wurden:
ξ(Oja)
min < ξ(Oja)(χ, K) = 1 + K−1
2(1 + 1
χ)< K (E.12)
ξ(Neu)
min < ξ(Neu)(χ) = 1 −1
χ<1.(E.13)
Beispielhafte Simulationsergebnisse f¨
ur ξ(Oja)
min und ξ(Neu)
min sind in Bild E.1 f¨
ur K= 50 und
K= 100 dargestellt, wobei die Dimension M= 4 gew¨
ahlt wurde. Zu sehen sind die markierten
Messwerte, die gerade noch zu einer Konvergenz von Gl. (E.10) f¨
uhren: f¨
ur K= 50 markiert
durch “x” und f¨
ur K= 100 markiert durch “”. Außerdem sind die kontinuierlichen Verl¨
aufe
der Funktionen Gl. (E.12) und Gl. (E.13) aufgetragen.
1510 15
20
20 25 30
40
60
80
100
χ
(a)
ξ(Oja)(χ, K)
K= 50
K= 100
ξ(Oja)
min experimentell:
K= 100 ×K= 50
0
0,2
0,4
0,6
0,8
1
1510 15 20 25 30
χ
(b)
ξ(Neu)(χ)
ξ(Neu)
min experimentell:
K= 100 ×K= 50
Bild E.1: Simulationsergebnisse der unteren Schranken ξ(Oja)
min und ξ(Neu)
min sowie der Verlauf der Absch¨
atzungen
ξ(Oja)(χ, K) und ξ(Neu)(χ) aus Gl. (E.12) und Gl. (E.13) f¨
ur Ojas Regel in (a) und die neue Regel in
(b).
Da eine tempor¨
are, starke Abweichung der Norm des Vektors ˆ
v1,κ von der Nebenbe-
dingung unvorhersehbar ist und im fortlaufenden Betrieb durchaus vorkommen kann, ist
die Unabh¨
angigkeit der maximalen Schrittweite von der Norm ||ˆ
v1,κ|| der neuen Regel sehr
w¨
unschenswert (vgl. Gl. (E.13) unabh¨
angig von K). Andernfalls muss bei der direkten Ver-
wendung der Oja-Regel die Schrittweite um eine Absch¨
atzung f¨
ur eine maximale Abweichung
K−1 reduziert werden.
178 Anhang E. Adaptive Eigenwertzerlegung
Allgemeines Eigenwertproblem
Die beiden Varianten Algorithmus 9 (A-Grad-GG)/(A-RQgrad-GG) des Gradientenverfah-
rens sind nicht in eine Form ¨
aquivalent zu E.10 zu ¨
uberf¨
uhren. Daher wird die Schreibweise
µκ=ρ
rκ
(E.14)
f¨
ur eine experimentelle Ermittlung der maximalen Schrittweite gew¨
ahlt. Der Parameter rκ
stellt den Rayleigh Quotienten zum aktuellen Iterationsschritt dar. Der Faktor ρwird nun auf
stetig steigende Werte gesetzt bis schließlich die beiden Varianten des Gradientenverfahrens
Gl. (E.16) nicht mehr konvergieren sondern divergieren. Mit diesem maximalen Wert ρmax
ergibt sich die maximale Schrittweite
µmax,κ =ρmax
rκ
.(E.15)
Die Experimente wurden mit akustischen Daten nach Szenario-2 durchgef¨
uhrt. Das gerich-
tete Tiefpassrauschen ist mit einem SNR von 5dB dem 5-kanaligen Sprachsignal ¨
uberlagert,
und zus¨
atzlich ist unkorreliertes Rauschen mit einem SNR von 25dB hinzugef¨
ugt worden.
Es werden die deterministischen Gradientenverfahren hergenommen mit perfekt bestimmten
KLDS-Matrizen ˆ
ΦXX und e
ΦNN =ˆ
ΦNN/ˆσ2
N, und ˆσ2
N= Spur{ˆ
ΦNN}/M:
ˆ
v1,κ =C2+ˆ
vH
1,κ−1e
ΦNN ˆ
v1,κ−1
2ˆ
vH
1,κ−1e
ΦNN ˆ
v1,κ−1
ˆ
v1,κ−1+
µ(r)
κˆ
ΦXX ˆ
v1,κ−1−rκe
ΦNN ˆ
v1,κ−1
µ(ξ)
κˆ
ΦXX ˆ
v1,κ−1−ξκe
ΦNN ˆ
v1,κ−1(E.16)
mit dem Rayleigh Quotienten
rκ=ˆ
vH
1,κ−1ˆ
ΦXX ˆ
v1,κ−1
ˆ
vH
1,κ−1e
ΦNN ˆ
v1,κ−1
,(E.17)
der Zielfunktion nach der original Herleitung Gl. (5.66)
ξκ=ℜ(ˆ
vH
1,κ−1ˆ
ΦXX e
ΦNN ˆ
v1,κ−1
ˆ
vH
1,κ−1e
ΦNN e
ΦNN ˆ
v1,κ−1)(E.18)
und den Schrittweiten
µ(r)
κ=ρ(r)
rκ
, µ(ξ)
κ=ρ(ξ)
rκ
.(E.19)
Es ergeben sich somit die beiden maximalen Faktoren ρ(r)
max und ρ(ξ)
max . Exemplarische Si-
mulationsergebnisse sind in Bild E.2 dargestellt f¨
ur zwei Nachhallzeiten, T60 = 0,05s und
T60 = 0,5s. Zu sehen sind in der oberen Zeile in (a) und (b) die gr¨
oßten Eigenwerte λN,max
und die kleinsten Eigenwerte λN,min von e
ΦNN. In der mittleren Zeile in (c) und (d) ist der
maximale Schrittweitefaktor ρ(r)
max f¨
ur die Version von Gl. (E.16) mit dem Rayleigh Quotienten
und in der letzten Zeile in (e) und (f) ist entsprechend der maximale Schrittweitefaktor ρ(ξ)
max
f¨
ur die Version mit der Zielfunktion nach der originalen Herleitung abgebildet. Alle Verl¨
aufe
sind aufgetragen ¨
uber der diskreten Frequenz Ωk/(2πT ) f¨
ur k= 0,...,128 mit 1/T = 12kHz.
Die in Bild E.2 dargestellten Ergebnisse sowie alle weiteren gemachten Experimente f¨
uh-
ren zu dem Schluss, dass die Schrittweitefaktoren ρ(r), ρ(ξ)<1 gew¨
ahlt werden sollten um
Stabilit¨
at zu gew¨
ahrleisten.
E.2. Schrittweite 179
00
1
2
3
3
4
5
6
(a)
T60 = 0,05s
Ωk/(2πT) [kHz]
λN
λN,max
λN,min
00
1
2
3
3
4
5
6
(b)
T60 = 0,5s
Ωk/(2πT ) [kHz]
λN
λN,max
λN,min
0
1
3
5
6
10
(c)
T60 = 0,05s
Ωk/(2πT) [kHz]
ρ(r)
max
0
1
3
5
6
10
(d)
T60 = 0,5s
Ωk/(2πT ) [kHz]
ρ(r)
max
0
1
3
5
6
10
(e)
T60 = 0,05s
Ωk/(2πT) [kHz]
ρ(ξ)
max
0
1
3
5
6
10
(f)
T60 = 0,5s
Ωk/(2πT ) [kHz]
ρ(ξ)
max
Bild E.2: In (a) und (b) der Verlauf des gr¨
oßten und kleinsten Eigenwertes von e
ΦNN. Maximaler Schrittwei-
tefaktor f¨
ur die Version von Gl. (E.16) mit dem Rayleigh Quotienten als Zielfunktion in (c) und (d)
sowie f¨
ur die Version mit der Zielfunktion nach der originalen Herleitung in (e) und (f).
180 Anhang E. Adaptive Eigenwertzerlegung
Anhang F
Exkurs zur blinden Quellentrennung
Im Folgenden soll ein Mehr-Sprecher-Szenario mit PQuellen und MMikrophonen betrachtet
werden, wobei M≥Pgilt. Das Signal der i-ten Quelle im Frequenzbereich sei mit Qi(Ω) be-
schrieben, wodurch sich der Vektor f¨
ur alle Quellen als Q(Ω) = (Q1(Ω), .., QP(Ω))Tschreiben
l¨
asst. Entsprechend existieren PRaum¨
ubertragungsfunktionsvektoren Hi(Ω), i= 1,...,P
zwischen den Quellen und den Mikrophonen, die die so genannte Mischungsmatrix bilden
H(Ω) =
H1,1(Ω) H2,1(Ω) . . . HP,1(Ω)
H1,2(Ω) ....
.
.
.
.
.
H1,M (Ω) . . . HP,M (Ω)
(F.1)
= [H1(Ω),H2(Ω), .., HP(Ω)].(F.2)
F¨
ur das mehrkanalige Mikrophonsignal ergibt sich dann
X(Ω) =
P
X
i=1
Hi(Ω)Qi(Ω) + N(Ω) (F.3)
=H(Ω)Q(Ω) + N(Ω),(F.4)
wobei N(Ω) = (N1(Ω),...,NM(Ω))Teinen M-kanaligen Rauschterm beschreibt (die einzel-
nen Pfade iseien unkorreliert zueinander). Das Ziel der akustischen Quellentrennung besteht
nun darin, ein System zu entwickeln, welches aus dem Gemisch der Sprachsignale an den Mi-
krophonen alle Quellsignale extrahiert. Dieses kann allgemein als MIMO-System (Multiple-
Input Multiple-Output) bezeichnet werden. Soll die Realisierung ohne Informationen ¨
uber die
Array-Geometrie und die Quellenposition erfolgen, so wird sie in der Regel auch als blinde
Quellentrennung (engl. Blind Source Separation, BSS) bezeichnet. Eine besondere Problem-
stellung ist hierbei die Tatsache, dass alle Quellen gleichzeitig aktiv sein k¨
onnen.
Ein Großteil der Arbeiten zur blinden Quellentrennung in den letzten Jahren basiert
darauf, die Eingangsdaten mit Hilfe der Independent Component Analysis (ICA) so zu trans-
formieren, dass die Ergebnisse statistisch unabh¨
angig voneinaner sind [HKO01]. Dabei werden
Statistiken h¨
oherer Ordnung und nichtlineare Kostenfunktionen eingesetzt, wodurch der Re-
chenaufwand ¨
ublicherweise sehr hoch ist. Da die ICA-Ans¨
atze prinzipiell mit instantanen
Mischungen arbeiten, wird die Entmischung im Frequenzbereich pro Frequenzkomponente
182 Anhang F. Exkurs zur blinden Quellentrennung
separat durchgef¨
uhrt [SMM05]. Dabei entsteht das so genante Permutationsproblem, d. h.
die Zuordnung der separierten frequenzabh¨
angigen Daten zu den entsprechenden Quellen ist
nicht eindeutig. Die Zuordnung aller entmischten Frequenzkomponenten jeweis zu den zu-
geh¨
origen Quellen muss noch mit weiteren Algorithmen explizit durchgef¨
uhrt werden. Ein
Ansatz hierbei ist, adaptive Beamformer mit geometrischen Nebenbedingungen und die Ver-
fahren zur BSS zu kombinieren [PA02, KAM07]. Dabei ist jedoch anzumerken, dass solche
Methoden nicht mehr blind arbeiten.
Grunds¨
atzlich ist vom physikalischen Standpunkt her die Separation von zwei akusti-
schen Quellen durch BSS-Verfahren im Frequenzbereich ¨
aquivalent zum so genannten Null-
Beamforming mittels zweier adaptiver Beamformer. In beiden F¨
allen wird das Signal der
st¨
orenden Quelle ged¨
ampft, indem ein Minumum an der korrespondierenden Stelle der Richt-
charakteristik der Filterkoeffizienten geformt wird, welche zu der anderen, der gew¨
unschten
Quelle geh¨
oren [SMH+03]. Dabei ist die Leistungsf¨
ahigkeit der BSS-Verfahren limitiert durch
die Leistungsf¨
ahigkeit von perfekt adaptierten Beamformern [Mak03]. Diese haben allerdings
den Vorteil, dass die separierten Signale unverzerrt bleiben, unter der Voraussetzung, die je-
weiligen Sprecherpositionen zu kennen. Diese sind jedoch gerade in einer verhallten Umgebung
bei gleichzeitiger Aktivit¨
at der Quellen sehr schwierig zu bestimmen.
In diesem Kapitel soll gezeigt werden, wie mit Hilfe blinder PCA Beamformer ein mehr-
kanaliges Gemisch von zwei Quellsignalen separiert werden kann. Dabei bleiben die Vorteile
der r¨
aumlichen Filterung erhalten: trotz der Adaption im Frequenzbereich entsteht kein Per-
mutationsproblem, und die Ausgangssignale sind nur geringf¨
ugig verzerrt.
F.1 Unterbesetzter Zeit-Frequenz-Raum
Obwohl f¨
ur die Herleitung des statistisch optimalen Beamformings von station¨
aren Signalen
ausgegangen wurde, sind Sprachsignale an sich instation¨
are Zufallssignale. Denn gerade in
der zeitlichen ¨
Anderung der statistischen Eigenschaften liegt die Information der gesproche-
nen Sprache. Betrachtet man also das Spektrum einer ¨
Außerung ¨
uber der Zeit, so kann die
spektrale Zusammensetzung erheblich schwanken. Weiterhin kann im Allgemeinen eine deutli-
che Unterbesetzung der Zeit-Frequenz-Darstellung beobachtet werden (engl. Time-Frequency-
Sparseness): nur wenige Spektralkomponenten tragen pro betrachteten Zeitabschnitt einen
Großteil der Energie. Dabei ist insbesondere die grobe Klassifikation in stimmhafte und
stimmlose Sequenzen sehr aufschlussreich. Bei den stimmhaften Lauten konzentriert sich die
Energie auf die Stimmbandgrundfrequenz und ihre harmonischen Oberschwingungen. Stimm-
lose, rausch¨
ahnliche Laute weisen ein gleichm¨
aßigeres Spektrum im oberen Spektralbereich
auf. Diese Energieverteilung und die Unterbesetzung im Zeit-Frequenz-Raum kann mit Hilfe
des Korrelationskoeffizienten zwischen zwei Signalen in unterschiedlichen Frequenzen dar-
gestellt werden. Die Synchronit¨
at der Amplituden von verschiedenen Frequenzen soll hier
beispielhaft nach [AK00, Ane01] durch die Amplitudenmodulationskorrelation (engl. Ampli-
tuden Modulation Correlation, AMCor) veranschaulicht werden. In der normierten Form soll
der Korrelationskoeffizient der AMCor zwischen zwei Signalen im Frequenzbereich Qi(Ωk)
und Qj(Ωl) f¨
ur die k-te bzw. l-te Frequenzkomponente definiert sein zu
ρ(Qi(Ωk), Qj(Ωl)) = c(Qi(Ωk), Qj(Ωl))
pc(Qi(Ωk), Qi(Ωk)) ·c(Qj(Ωl), Qj(Ωl)) (F.5)
F.1. Unterbesetzter Zeit-Frequenz-Raum 183
mit
c(Qi(Ωk), Qj(Ωl)) = E{|Qi(Ωk)||Qj(Ωl)|}−E{|Qi(Ωk)|}E{|Qj(Ωl)|}.(F.6)
Im Folgenden soll beispielhaft der Autokorrelationskoeffizient ρ(Q1(Ωk), Q1(Ωl)) und der
Kreuzkorrelationskoeffizient ρ(Q1(Ωk), Q2(Ωl)) ausgewertet werden. Der Erwartungswert in
Gl. (F.6) wird ¨
uber eine zeitliche, blockweise Mittelung realisiert, wobei die Bl¨
ocke mit ei-
nem Hamming-Fenster der L¨
ange 64ms und einem ¨
Uberlapp von 50% den zu analysierenden
Signalen entnommen wurden. Der Betrag der frequenzabh¨
angigen Auto- und Kreuzkorrelati-
onskoeffizienten ist in Bild F.1 in Form einer zweidimensionalen Darstellung von Grauwerten
abgebildet. Große Werte f¨
ur den Betrag des Korrelationskoeffizienten werden durch dunkle
Graustufen und kleine Werte durch helle Graustufen charakterisiert.
0
00
0,2
0,4
0,6
0,8
1
1
1
2
2
3
3
4
4
5
5
6
6
Ωk/(2πT) [kHz]
(a)
Ωl/(2πT) [kHz]
|ρ(Q1(Ωk), Q1(Ωl))|
0
00
0,2
0,4
0,6
0,8
1
1
1
2
2
3
3
4
4
5
5
6
6
Ωk/(2πT) [kHz]
(b)
Ωl/(2πT) [kHz]
|ρ(Q1(Ωk), Q2(Ωl))|
Bild F.1: Betrag des Korrelationskoeffizienten der AMCor f¨
ur ein Signal in (a) und zwei verschiedene Signale
in (b).
In Bild F.1 (a) kann an dem Autokorrelationskoeffizienten bis etwa 4kHz an dem regel-
m¨
aßigen Muster die Korrelation der harmonischen Oberschwingungen der Stimmbandgrund-
frequenz erkannt werden. Die Abst¨
ande der jeweiligen Maxima h¨
angen von der Stimmband-
grundfrequenz ab. Weiterhin sind hohe Korrelationswerte bei benachbarten Frequenzompo-
nenten zu beobachten, die sich an den ausgepr¨
agten Maxima in der N¨
ahe der Diagonalen
bemerkbar machen. Bei h¨
oheren Frequenzen ab ca. 4kHz ist ein relativ homogener Bereich
zu erkennen, der auf der gleichm¨
aßigeren Amplitudenverteilung der stimmlosen Laute beruht.
Das Bild F.1 (b) zeigt den Kreuzkorrelationskoeffizienten zweier Sprachsignale unter-
schiedlicher Sprecher. An den hellen Graustufen sind die geringen Werte f¨
ur die Korrelation
der Amplitudenwerte zu erkennen. Die Synchronit¨
at der Amplitudenmodulation der analy-
sierten Signale ist somit sehr gering. Dies gilt ebenfalls f¨
ur den Fall unterschiedlicher ¨
Au-
ßerungen desselben Sprechers [AK00]. In [Ane01] wurden erfolgreich Verfahren zur blinden
Quellentrennung entwickelt, welche auf Methoden der Dekorrelation mit Hilfe der Amplitu-
denmodulation basieren.
Basierend auf einem ¨
ahnlichen Ansatz der Unterbesetzung im Zeit-Frequenz-Raum sind in
den Arbeiten [JRY00, RBR01, YR04] einkanalige Verfahren zur Quellentrennung eingesetzt
worden. Dabei berechnet man nun nicht mehr den Grad der Korrelation eines Amplituden-
paars wie in Gl. (F.5) sondern geht per se von einer so genannten disjunkten Orthogonalit¨
at1
1In [JRY00] wird die disjunkte Orthogonalit¨
at in einer etwas allgemeineren Form verwendet, da von Signalen
ausgegangen wird, welche mit einer Funktion W(t) im Zeitbereich gefenstert wurden, und somit auch der Begriff
W-Disjoint Orthogonality gerechtfertigt ist.
184 Anhang F. Exkurs zur blinden Quellentrennung
(engl. Disjoint Orthogonality) aus. Hierbei wird bei der blockweisen Verarbeitung f¨
ur jedes
Signalpaar i, j die disjunkte Orthogonalit¨
at pro Block mzu Qi,m(Ωk)·Q∗
j,m(Ωk) = 0, ∀m, k
mit i6=jdefiniert2. Mit der realistischen Annahme einer approximativen disjunkten Ortho-
gonalit¨
at
Qi,m(Ωk)·Q∗
j,m(Ωk)≈0,∀m, k i 6=j(F.7)
gelangt man zu der Idee, pro Zeit-Frequenz-Punkt ein einkanaliges Signal“an- und abzuschal-
tet” bei der jeweiligen Dominanz einer bestimmten Quelle. Eine solche bin¨
are Maskierung
(engl. Binary Masking, BM) wird im DUET-Algorithmus (Degenerate Unmixing Estimati-
on Technique) vorgenommen [JRY00, RBR01, YR04], wobei die Dominanz mit Hilfe von
Amplituden- und Phaseninformationen eines mehrkanaligen Signals bestimmt wird. Die bi-
n¨
are Maske soll wie folgt definiert sein
(BM)
i,m (Ωk) = (1,f¨
ur |Qi,m(Ωk)|> vg·|Qj,m(Ωk)|,∀i6=j
0,sonst (F.8)
wobei vg∈R+ein heuristischer Parameter ist. Die entmischten Signale ergeben sich dann zu
ˆ
Qi,m(Ωk) = (BM)
i,m (Ωk)X1,m(Ωk).(F.9)
Auch wenn die bin¨
are Maske Gl. (F.8) jeweils optimal bestimmt wird, kann die Qua-
lit¨
at der entmischten Signale durch das harte An- und Abschalten erheblich schwanken
[WHUTV07].
F.2 PCA Beamforming im Mehr-Sprecher-Szenario
Motiviert durch die starke Unterbesetzung des Zeit-Frequenz-Raums soll das PCA Beam-
forming zur blinden Quellentrennung akustischer Signale eingesetzt werden. Die Idee hierbei
liegt darin, mehrere PCA Beamformer zu verwenden, und f¨
ur jeden Zeit-Frequenz-Punkt
diejenige frequenzabh¨
angige PCA-Adaptionsregel zu aktivieren, welche der entsprechenden
dominanten Quelle zugewiesen wurde. Daf¨
ur wird in der Adaptionsregel Gl. (5.37) im addi-
tiven Term der Koeffizienten¨
anderung die bin¨
are Maskierung hinzugef¨
ugt. Dadurch erfolgt
eine ¨
Anderung der Filterkoeffizienten Fi,m(Ωk) des i-ten PCA Beamformers nur dann, wenn
die zugeh¨
orige Quelle Qi,m(Ωk) f¨
ur diesen Zeitpunkt mund diese Frequenzkomponente Ωk
dominant ist. Die Adaptionsregel lautet folglich
Fi,m(Ωk) = M−1+FH
i,m−1(Ωk)Fi,m−1(Ωk)
2FH
i,m−1(Ωk)Fi,m−1(Ωk)Fi,m−1(Ωk)
+(BM)
i,m (Ωk)µi,m(Ωk)Y∗
i,m(Ωk) Xm(Ωk)−Yi,m(Ωk)
FH
i,m−1(Ωk)Fi,m−1(Ωk)Fi,m−1(Ωk)!.
(F.10)
In Gl. (F.10) ist der Constraint nach Abschnitt 6.4.1 zu C2=M−1gesetzt. Die Schrittweite
des i-ten Beamformers µi,m(Ωk) soll abh¨
angig sein von der Frequenz und der Zeit, und der
Ausgang ergibt sich zu Yi,m(Ωk) = FH
i,m−1(Ωk)Xm(Ωk). Das Adaptionsschema ist hier das
2Zu beachten ist der Unterschied zur statistischen Orthogonalit¨
at E{Qi(Ωk)·Q∗
j(Ωk)}= 0, welche ¨
uber
alle Realisierungen von Qi(Ωk) und Qj(Ωk) entsteht.
F.2. PCA Beamforming im Mehr-Sprecher-Szenario 185
gleiche wie bei Algorithmus 4 (S-Grad-IS), jedoch muss dann der Faktor (BM)
i,m (Ωk) f¨
ur die
Adaptionssteuerung eingef¨
ugt werden.
Nach Szenario-5 wurden mehrkanalige Mischsignale f¨
ur den Fall von P= 2 Quellen er-
zeugt, wobei die Leistungen der Signale beider Quellen gleich groß sind. Die beiden Quellen
befinden sich jeweils im Abstand von 2m zum Array mit der Richtung von θs1= 45◦f¨
ur
die eine und θs2= -30◦f¨
ur die andere Quelle relativ zur Broadside-Ausrichtung. Zur Entmi-
schung sind daher zwei PCA Beamformer notwendig, die jeweils mit 256 Koeffizienten pro
Filter und einer jeweiligen L¨
ange von 512 f¨
ur die Fourier-Transformation realisiert wurden.
Da bei Simulationen die Quellsignale bekannt sind, kann eine optimale bin¨
are Maske berech-
net werden. Dabei ist der Grenzwert vgin Gl. (F.8) f¨
ur die Dominanz einer Quelle f¨
ur die
Frequenzkomponente Ωkund den Block mso gew¨
ahlt, dass eine Quelle als Dominat gilt, wenn
deren Leistung mindestens 6dB gr¨
oßer als die Leistung der jeweils anderen Quelle ist. Die
sich so ergebenden Richtdiagramme der beiden PCA Beamformer sind beispielhaft f¨
ur den
Fall einer Freifeldanordnung in Bild F.2 dargestellt. Bei der Adaption waren beide Quellen
simultan aktiv, wobei die Werte (BM)
i,m (Ωk) in Gl. (F.10) optimal bestimmt wurden.
(a)
-90-454590
0
0
1
2
3
4
5
Ω/(2πT ) [kHz]
θ[◦]
PCA Beamformer 1
40
(b)
-10
-20
-30
-90-45
90
0
0
1
2
3
4
5
dB
0
Ω/(2πT) [kHz]
θ[◦]
PCA Beamformer 2
Bild F.2: Richtdiagramme der beiden PCA Beamformer bei zwei aktiven Quellen mit den Richtungen θs1=
45 ◦und θs2= -30 ◦und der Verwendung von M= 8 Sensoren. Die bin¨
aren Masken zur Adaptions-
steuerung wurden optimal bestimmt.
Die Ergebnisse in Bild F.2 veranschaulichen, dass sich die jeweiligen Beamformer auf die
beiden Quellen ausgerichtet haben, obwohl beide Sprecher gleichzeitig aktiv waren. Voraus-
setzung hierbei ist nat¨
urlich, dass die Werte (BM)
i,m (Ωk) korrekt ermittelt werden. Denn nur
wenn tats¨
achlich die Dominanz einer Quelle vorherrscht, kann der zugeh¨
orige Beamformer
und dessen Filterkoeffizienten f¨
ur diesen Zeit-Frequenz-Punkt einen Adaptionsschritt “in die
richtige Richtung” machen. Aus dieser Sicht heraus kann die Adaptionssteuerung auch etwas
allgemeiner formuliert werden. Wenn die Wahrscheinlichkeit hoch ist, dass eine bestimmte
Quelle f¨
ur einen Zeit-Frequenz-Punkt dominant ist, sollten sich die Filterkoeffizenten st¨
arker
¨
andern k¨
onnen als f¨
ur den Fall, dass die Wahrscheinlichkeit f¨
ur die Dominanz gering ist. Oder
anders ausgedr¨
uckt, je dominanter eine bestimmte Quelle f¨
ur einen Zeit-Frequenz-Punkt ist,
desto st¨
arker sollten sich die Filterkoeffizenten ¨
andern k¨
onnen. Mit dieser Erkenntnis soll
eine wahrscheinlichkeitsbasierte Maskierung (engl. Likelihood Masking, LM) vorgeschlagen
werden:
(LM)
i,m (Ωk)≈p(|Qi,m(Ωk)| ≫ |Qj,m(Ωk)||Xm(Ωk)),∀j, j 6=i. (F.11)
In Gl. (F.11) bezeichnet also p(|Qi,m(Ωk)| ≫ |Qj,m(Ωk)||Xm(Ωk)) die Wahrscheinlichkeit da-
186 Anhang F. Exkurs zur blinden Quellentrennung
f¨
ur, dass die i-te Quelle f¨
ur die k-te Spektralkomponente und den m-ten Verarbeitungsblock,
gegeben die mehrkanaligen Eingangsdaten wesentlich dominanter als alle anderen Quellen
ist. In [WHUTV07] wurde ein Verfahren vorgestellt, welches mittels Dekorrelationsfiltern,
jeweils angeordnet zwischen benachbarten Mikrophonen eine grobe Vorseparation der Quell-
signale vornimmt, die dann ins Verh¨
altnis gesetzt einen Wert f¨
ur die Likelihood-Maskierung
liefern. Diese Methode setzt ein ¨
aquidistantes, lineares Mikrophon-Aarray voraus, weshalb die
Bezeichnung symmetrisch adaptive Dekorrelation (engl. Symmetric Adaptive Decorrelation,
SAD) eingef¨
uhrt wurde. Andere Methoden zur Bestimmung von (LM)
i,m (Ωk), wie z. B. die
Ausnutzung von Phasen- und D¨
ampfungseigenschaften der zeitversetzten Mikrophonsignale
wie in [RBR01] oder die Auswertung der Amplitudenmodulation wie in [AK00] sind aktuel-
ler Forschungsgegenstand. An dieser Stelle soll lediglich die M¨
oglichkeit der Separation von
akustischen Signalen mittels PCA Beamforming, gegeben eine perfekte bin¨
are Maskierung,
demonstriert werden.
Nun, da mit Hilfe der zus¨
atzlichen Adaptionssteuerung eine Adaption der PCA Beam-
former hin zu den verschiedenen Quellen m¨
oglich ist, soll noch eine Weiterverarbeitung der
Filterkoeffizienten erfolgen. Denn, obschon das Maximum des Beampatterns auf den Ziel-
sprecher ausgerichtet ist, erfolgt keine explizite Minima-Bildung an den Stellen der anderen
Quellen, wie an den Richtdiagrammen in Bild F.2 zu erkennen ist. Dies ist in der PCA-
Adaptionsregel ja auch nicht vorgesehen. Daher soll eine gegenseitige orthogonale Projektion
(engl. Mutual Orthogonal Projection, MOP) den PCA-Filterkoeffizienten nachgeschaltet wer-
den. Dazu wird f¨
ur jede Frequenzkomponente aus dem System linear unabh¨
angiger Filtervek-
toren der Quellen j6=iein orthogonaler Untervektorraum erzeugt, in den der Filtervektor
der Quelle ihineinprojeziert wird:
Wi,m(Ωk) =
Y
j;j6=i
[I−Fj,m(Ωk)FH
j,m(Ωk)]
Fi,m(Ωk).(F.12)
Verwendet man die Filterkoeffizienten der beiden PCA Beamformer, welche die Richt-
diagramme in Bild F.2 erzeugen, in der orthogonalen Projektion Gl. (F.12), so f¨
uhren die
resultierenden Koeffizienten zu den Beampattern in Bild F.3. Dort sind nun neben den Maxi-
ma f¨
ur die Richtungen der Zielquellen auch Minima zu beobachten, jeweils an der Stelle der
anderen Quelle.
(a)
-90-454590
0
0
1
2
3
4
5
Ω/(2πT ) [kHz]
θ[◦]
Orthogonale Projektion 1
(b)
-10
-20
-30
-90-454590
0
0
1
2
3
4
5
dB
0
Ω/(2πT) [kHz]
θ[◦]
Orthogonale Projektion 2
Bild F.3: Richtdiagramme der beiden Beamformer nach der orthogonalen Projektion f¨
ur zwei aktive Quellen
mit den Richtungen θs1= 45 ◦und θs2= -30 ◦.
F.2. PCA Beamforming im Mehr-Sprecher-Szenario 187
Zur Filterung der breitbandigen Sprachsignale sollen nicht die durch die Projektion be-
stimmten Filterkoeffizienten in Gl. (F.12) direkt verwendet werden. Sondern es soll die domi-
nante Komponente in dem orthogonalen Unterraum explizit berechnet werden, welche dann
zur Reproduktion der Quellsignale f¨
uhrt. F¨
ur die Realisierung in einer adaptiven Gesamt-
stuktur hat sich dabei der Einsatz einer weiteren PCA-Adaption pro orthogonalem Filtersatz
als effektiv erwiesen [TV07]. Die Adaptionsregel f¨
ur den PCA Beamformer mit orthogonaler
Nebenbedingung (engl. Orthogonal Constraint Principal Component Analysis, OCPCA) ist in
Algorithmus 11 (OCPCA) beschrieben. Wie in den anderen Adaptionsalgorithmen soll auch
hier auf den frequenzabh¨
angigen Parameter Ωkverzichtet werden, da das Vorgehen f¨
ur jede
Spektralkomponente gleich ist und so die Darstellung ¨
ubersichtlicher wird.
Algorithmus 11 (OCPCA) W¨
ahle die Gl¨
attungskonstante α, den Schrittweitefaktor ρ, den
Constraint Cund die Startvektoren Wi,0∈CM, i = 1,...,M. Berechne bei gegebenen PCA-
Filterkoeffizienten Fj,m, j = 1,...,M f¨
ur alle Verarbeitungsbl¨
ocke m= 1,2,... und f¨
ur alle OCPCA
Beamformer i= 1,...,M
ˆ
Qi,m := WH
i,m−1Xm
˜µ−1
i,m := α˜µ−1
i,m + (1 −α)|ˆ
Qi,m|2
µi:= ˜µi,mC2
Vi:= Wi,m−1+µiˆ
Q∗
i,m “Xm−ˆ
Qi,mWi,m−1”
˜
Vi:= 0
@Y
j;j6=i
[I−Fj,mFH
j,m]1
AVi
˜
Wi:= ˜
Vi
C˜
V1,i
R2
i:= ˜
WH
i˜
Wi
Wi,m := C2+R2
i
2R2
i
˜
Wi.
Anmerkungen zum Algorithmus 11 (OCPCA) Bei der Filterung WH
i,m−1Xmzur
Sch¨
atzung der Quellsignale ist auf zyklische Effekte zu achten. Dies kann effizient durch das
Overlap-Save-Verfahren geschehen. Weiterhin erfolgt die Subtraktion Xm−ˆ
Qi,mWi,m−1im
Zeitbereich. Die Normierung direkt nach der orthogonalen Projektion mit dem ersten Element
des Vektors ˜
Vi= (˜
V1,i,..., ˜
VM,i)That sich bei den Experimenten als deutliche Robustheits-
steigerung erwiesen. Diese Normierung kann auch mittels adaptiver Methoden recheneffizi-
enter durchgef¨
uhrt werden [TV07]. Die Norm der Filterkoeffizienten wird mit der Division
von ˜
Vidurch Cund der abschließenden Newton-Iteration auf den Wert Cfestgelegt. Wichtig
ist hier noch anzumerken, dass im Gegensatz zu Gl. (F.10) die OCPCA-Filterkoeffizienten
permanent adaptiert werden k¨
onnen.
Zur Beurteilung der Separationsleistung sollen f¨
ur die folgenden Simulationen konvergierte
Filterkoeffizienten f¨
ur die beiden PCA und OCPCA Beamformer angenommen werden. Be-
steht das Eingangssignal nun nur aus dem ersten Quellsignal, so sollte dieses an dem ersten
OCPCA-Ausgang m¨
oglichst unverzerrt beobachtet werden und entsprechend an dem zwei-
ten OCPCA-Ausgang komplett unterdr¨
uckt sein. Bei der Filterung des zweiten Quellsignals
an der anderen r¨
aumlichen Position sollte sich das Verhalten umkehren: das Signal liegt am
zweiten OCPCA-Ausgang vor. Dadurch l¨
asst sich pro Ausgang das Verh¨
altnis der Leistungen
188 Anhang F. Exkurs zur blinden Quellentrennung
des gew¨
unschten Zielsignals zum st¨
orenden Quellsignal (engl. Signal-to-Interference-Ratio,
SIR) bestimmen. Die Sprachqualit¨
at der ermittelten Zielsignale kann relativ zu dem verhall-
ten, reinen Sprachsignal an einem Mikrophon bewertet werden. Bei den Simulationen nach
Szenario-5 ergeben sich dadurch pro untersuchter Nachhallzeit 90 PSM-Werte3. Um deutlich
zu machen, dass die Separationsleistung f¨
ur die beiden Ausg¨
ange unterschiedlich sein kann,
wurden f¨
ur jede Nachhallzeit und jede Quellenkombination die h¨
oheren PSM-Werte und die
niedrigeren PSM-Werte gesondert gemittelt. Diese sind in Bild F.4 in der linken Spalte f¨
ur
die Anordnungen bestehend aus M= 5 und M= 9 Mikrophonen dargestellt und mit “hoch”
f¨
ur die gr¨
oßeren PSM-Werte, sowie mit “niedrig” f¨
ur die kleineren PSM-Werte bezeichnet.
Außerdem ist noch der Mittelwert aller Werte aufgetragen (“mittel”). Das gemittelte SIR f¨
ur
diese beiden Gruppen ist in der rechten Spalte von Bild F.4 zu sehen. Dabei bezeichnet “SIR
PSM-hoch” die gemittelten SIR-Werte aus der Gruppe der Sprachbeispiele mit den h¨
oheren
PSM-Werten und entsprechend“SIR PSM-gering”das gemittelte SIR f¨
ur die Gruppe mit den
kleineren PSM-Werten. Zus¨
atzlich ist der gesamte Mittelwert dargestellt (“SIR mittel”).
00,2 0,4 0,6
0,9
0,92
0,94
0,96
0,98
1
(a)
PSM
M = 5
T60 [s]
hoch
mittel
gering
000,2 0,4 0,6
5
10
15
20
25
(b)
SIR [dB]
M = 5
T60 [s]
SIR PSM-hoch
SIR mittel
SIR PSM-gering
00,2 0,4 0,6
0,9
0,92
0,94
0,96
0,98
1
(c)
PSM
M = 9
T60 [s]
hoch
mittel
gering
000,2 0,4 0,6
5
10
15
20
25
(d)
SIR [dB]
M = 9
T60 [s]
SIR PSM-hoch
SIR mittel
SIR PSM-gering
Bild F.4: Perzeptives Qualit¨
atsmaß und SIR f¨
ur die Quellentrennung nach der Anordnung Szenario-5 f¨
ur
M= 5 und M= 9 Mikrophone. Alle Filterkoeffizienten sind im konvergierten Zustand und haben
jeweils eine L¨
ange von 256.
Wie bei allen Verfahren zur akustischen blinden Quellentrennung nimmt die Separations-
3Bei der Auswahl von 2 aus 10 verschiedenen Sprachsignalen ergeben sich 45 unterschiedliche Kombinatio-
nen. Nach der Verarbeitung liegen somit 90 Sch¨
atzungen f¨
ur die Quellsignale vor.
F.3. Zusammenfassung 189
leistung mit steigender Nachhallzeit deutlich ab. An den Verl¨
aufen des perzeptiven Qualit¨
ats-
maßes ist zwar ein Unterschied zwischen den Ausg¨
angen mit den besseren und den schlech-
teren PSM-Werten zu sehen. In [WHUTV07] wurde demonstriert, dass dieser jedoch z. B. im
Vergleich zur Quellentrennung mit dem DUET-Verfahren sehr gering ist. An den leicht nied-
rigeren SIR-Werten in Bild F.4 f¨
ur die Gruppe der Signale mit der besseren Sprachqualit¨
at
ist zu erkennen, dass sich die St¨
orsignalunterdr¨
uckung prinzipiell kontr¨
ar zur Sprachqualit¨
at
verh¨
alt. Insgesamt ist zu der Sprachqualit¨
at noch anzumerken, dass diese bei subjektiven
H¨
ortests zwar sehr gut ist, aber eine Tendenz zur D¨
ampfung tiefer Frequenzen bei steigen-
der Nachhallzeit vorhanden ist. Dadurch sind die fallenden PSM-Ergebnisse in Bild F.4 (a)
und (c) zu erkl¨
aren. Weiterhin ist noch interessant, dass die Unterschiede zwischen der An-
ordnung mit 5 und mit 9 Mikrophonen gering sind. Bei der Verwendung von weniger als 5
Mikrophonen ist die ¨
Anderung jedoch gr¨
oßer.
Auch wenn das Maximum der r¨
aumlichen ¨
Ubertragungsfunktion an der Stelle der Ziel-
quelle und das Minimum an der Stelle der zu unterdr¨
uckenden St¨
orquelle liegen, sinkt das
SIR deutlich bei steigenden Nachhallzeiten aufgrund der Mehrwegeausbreitung. Hier ist eine
weitere Steigerung der St¨
orsignalunterdr¨
uckung durch die Nachschaltung eines einkanaligen
Filters m¨
oglich. Solch ein Vorgehen ist vergleichbar mit dem Wiener Post Filter bei dem
MMSE Beamformer in Gl. (4.50). Ein ¨
aquivalentes Post Filter ist in [WHUTV07] erfolgreich
eingesetzt worden (siehe [TV07] f¨
ur eine genaue Beschreibung dieser Methode).
F.3 Zusammenfassung
In diesem Kapitel wurde die M¨
oglichkeit zur akustischen Quellentrennung mittels blinder
PCA Beamformer demonstriert. Dabei wird ausgenutzt, dass trotz simultaner Aktivit¨
at ver-
schiedener Quellsignale der Zeit-Frequenz-Raum unterbesetzt ist. Gelingt es also, die Domi-
nanz einer Zielquelle f¨
ur einen Zeit-Frequenz-Punkt festzustellen, so k¨
onnen genau f¨
ur diese
Frequenzkomponente die entsprechenden PCA-Filterkoeffizienten adaptiert werden. Daf¨
ur
wurde hier eine optimal bestimmte bin¨
are Maskierung verwendet. Die robuste Adaptions-
steuerung mit Hilfe einer wahrscheinlichkeitsbasierten Likelihood-Maskierung ist weiterhin
aktueller Forschungsgegenstand. Desweiteren wurde hier gezeigt, wie mit Hilfe einer orthogo-
nalen Projektion in einem PCA-Adaptionsschema die St¨
orsignale zu unterdr¨
ucken sind.
190 Anhang F. Exkurs zur blinden Quellentrennung
Formelzeichen und Abk¨
urzungen
Allgemeine Notation
•Vektoren werden durch fettgedruckte Buchstaben dargestellt: x= [x1, x2,...,xM]T.
•Matrizen werden durch fettgedruckte Buchstaben dargestellt: ΦXX.
•Sch¨
atzgr¨
oßen werden durch ein Dach gekennzeichnet und sind nicht immer explizit
aufgelistet: ˆ
θ.
•Darstellungen im Frequenzbereich werden durch Großbuchstaben gekennzeichnet: X1.
•Der tiefergestellte Index msteht f¨
ur blockabh¨
angige Variablen die nicht immer explizit
aufgelistet sind: Xm.
•Der tiefergestellte Index κsteht f¨
ur iterativ bestimmte Gr¨
oßen die nicht immer explizit
aufgelistet sind: v1,κ.
•Eingef¨
uhrte Variablen in den Beschreibungen der Adaptionsschemata werden hier nicht
aufgelistet.
R¨
omische Formelzeichen
A............... Wandfl¨
ache
Ai(Ω) ........... ¨
Ubertragungsfunktion zwischen St¨
orquelle und dem i-ten Sensor
ai(n) . . . . . . . . . . . (zeitdiskrete) Raumimpulsantwort zwischen St¨
orquelle und dem
i-ten Sensor
aij .............. Zustands¨
ubergang von der Hypothese Hinach Hjin einem HMM
B. . . . . . . . . . . . . . . Blockverschiebung
B(Ω, θ) ......... Beampattern
BDSB(Ω, θ) ...... Beampattern des DSBs
B(LE)
DSB (Ω) ....... Beampattern des DSBs mit Lokalisationsfehler
B(Ω) ........... Blocking Matrix
BASC opt(Ω) . . . . . optimale Adaptive Speech Cancellation Blocking Matrix
BASC(Ω) ........ Adaptive Speech Cancellation Blocking Matrix
BDO(Ω) ........ Delay Only Blocking Matrix
BDOR(Ω) ....... Delay Only Ratio Blocking Matrix
BGEV(Ω) ....... Generalized Eigenvector Blocking Matrix
BTF(Ω) ......... Transfer Function Blocking Matrix
BTFR(Ω) ....... Transfer Function Ratio Blocking Matrix
BA ............. Blocking Ability
192 Anhang F. Exkurs zur blinden Quellentrennung
B(Ω) . . . . . . . . . . . Projektionsvektor der Blocking Matrix
C............... Parameter f¨
ur die Nebenbedingung der Gradientenregel
c. . . . . . . . . . . . . . . Schallgeschwindigkeit
C50 . . . . . . . . . . . . . Deutlichkeitsmaß
C80 . . . . . . . . . . . . . Klarheitsmaß
ci. . . . . . . . . . . . . . . Skalierungsfaktor
cil(τ) . . . . . . . . . . . Kreuzkorrelation zwischen zwei Signalen xi(t) und xl(t)
d. . . . . . . . . . . . . . . Mikrophonabstand zwischen zwei Sensoren
dil . . . . . . . . . . . . . . Mikrophonabstand zwischen dem i-ten Sensor und l-ten Sensor
D(Ω) . . . . . . . . . . . Direktivit¨
at
d(Ω,p) ......... Steering Vector
Dκ. . . . . . . . . . . . . iterativ bestimmte Matrix zur Einhaltung der Nebenbedingung
der neuen Gradientenregel
DI(Ω) .......... B¨
undelungsmaß
diag{·} . . . . . . . . . Diagonalmatrix
E{·} . . . . . . . . . . . . Erwartungswert
E(t) . . . . . . . . . . . . Energie eines Schallereignisses
e. . . . . . . . . . . . . . . Exponentialfunktion
E0. . . . . . . . . . . . . . Anfangsenergie eines Schallereignisses
e(·) . . . . . . . . . . . . . Fehlerfunktion
¯e(·) . . . . . . . . . . . . . mittlerer Fehler
EA(t) . . . . . . . . . . . Energieabfallkurve
ED. . . . . . . . . . . . . Energiedichte des Direktschallfelds
ESt . . . . . . . . . . . . . Energiedichte des station¨
aren Schallfelds
exp{·} . . . . . . . . . . Exponentialfunktion
Ei−1,1(Ω) . . . . . . . . Fehler zwischen dem (i−1)-ten Ausgangssignal der TFRBM und
dem ersten Mikrophonsignal
f. . . . . . . . . . . . . . . kontinuierliche Frequenz
fAb . . . . . . . . . . . . . Abtastfrequenz
fk. . . . . . . . . . . . . . k-te diskrete Frequenz
fi(n) . . . . . . . . . . . . (zeitdiskrete) i-te Beamformer-Filterimpulsantwort
˜
fi(n) . . . . . . . . . . . . (zeitdiskrete) i-te zeitinverse Beamformer-Filterimpulsantwort
Fi(Ω) ........... i-te Beamformer-¨
Ubertragungsfunktion
F(Ω) . . . . . . . . . . . allgemeiner Filterkoeffizientenvektor eines Beamformers
Fref(Ω) . . . . . . . . . Referenz-Filterkoeffizienten des Fixed Beamformers
FFBF(Ω) . . . . . . . . Filterkoeffizientenvektor des Fixed Beamformers
FFrost(Ω) . . . . . . . Filterkoeffizientenvektor des Frost Beamformers
FDSB(Ω) . . . . . . . . Filterkoeffizientenvektor des idealen Delay-and-Sum-Beamformers
FGML(Ω) . . . . . . . Filterkoeffizientenvektor des GML Beamformers
FGMMSE(Ω) . . . . . Filterkoeffizientenvektor des GMMSE Beamformers
FGMV(Ω) . . . . . . . Filterkoeffizientenvektor des GMV Beamformers
FGMVDR(Ω) . . . . Filterkoeffizientenvektor des GMVDR Beamformers
FML(Ω) . . . . . . . . . Filterkoeffizientenvektor des ML Beamformers
FMV(Ω) . . . . . . . . Filterkoeffizientenvektor des MV Beamformers
FMVDR(Ω) . . . . . . Filterkoeffizientenvektor des MVDR Beamformers
FMMSE(Ω) . . . . . . Filterkoeffizientenvektor des MMSE Beamformers
F.3. Zusammenfassung 193
FMF(Ω) ......... Matched-Filter-Koeffizienten
FPCA(Ω) . . . . . . . . Filterkoeffizientenvektor des PCA Beamformers
FPCA ν(Ω) . . . . . . diskretisierte a priori berechnete PCA-Filterkoeffizienten
F(SNR)(Ω) . . . . . . Filterkoeffizientenvektor korrespondierend zu einem dominanten
Eigenwert
F(SNR)(Ω) . . . . . . definierter Filterkoeffizientenvektor welcher das SNR maximiert
˜
FSNR(Ω) ........ L¨
osungsvektor des verallgemeinerten Eigenwertproblems
G(Ω) . . . . . . . . . . . frequenzabh¨
angiger Array Gain
Gi(Ω) ........... i-te Gewichtungsfunktion des GCCs
GW(Ω) ......... White Noise Gain
GW
DSB(Ω) ........ White Noise Gain des idealen Delay-and-Sum-Beamformers
GSNR(Ω) . . . . . . . . SNR-Gewinn des statistisch optimalen Beamformers
GW
SNR(Ω) ........ White Noise Gain des statistisch optimalen Beamformers
G(Ω) . . . . . . . . . . . adaptiver Filterkoeffizientenvektor im GSC
Gopt(Ω) . . . . . . . . . optimaler Filterkoeffizientenvektor im GSC
Hi(Ω) .......... ¨
Ubertragungsfunktion zwischen Sprecher und dem i-ten Sensor
H0(Ωk) . . . . . . . . . Hypothese einer Sprachpause
H1(Ωk) . . . . . . . . . Hypothese f¨
ur Sprachaktivit¨
at
hi(n) . . . . . . . . . . . (zeitdiskrete) i-te Raumimpulsantwort
i................ Laufindex
I0{·} . . . . . . . . . . . . modifizierte Besselfunktion nullter Ordnung
I1{·} . . . . . . . . . . . . modifizierte Besselfunktion erster Ordnung
j............... Laufindex
JGSC(Ω) . . . . . . . . Kostenfunktion der ANC-Filterkoeffizienten
JMSE(·) . . . . . . . . . Kostenfunktion des MSE-Ansatzes
JMV(·) . . . . . . . . . . Kostenfunktion des MV-Ansatzes
k............... Laufindex
KN. . . . . . . . . . . . . Abweichung der Varianzsch¨
atzung des Rauschens relativ zur Varianz
des Rauschens
Ko. . . . . . . . . . . . . . obere Schranke f¨
ur diskrete Spektralkomponenten
KS. . . . . . . . . . . . . Abweichung der Varianzsch¨
atzung des Rauschens relativ zur Varianz
der Sprache
Ku. . . . . . . . . . . . . untere Schranke f¨
ur diskrete Spektralkomponenten
K. . . . . . . . . . . . . . . Krylov Unterraum
L............... L¨
ange der diskreten Fourier-Transformation
l................ Laufindex
lx. . . . . . . . . . . . . . . Anzahl der Verarbeitungsbl¨
ocke des Signals x(n)
ls. . . . . . . . . . . . . . . Anzahl der Verarbeitungsbl¨
ocke des Sprachsignals s(n)
¯
l. . . . . . . . . . . . . . . . mittlere freie Wegl¨
ange des Schalls
ln(·) ............ nat¨
urlicher Logarithmus
Ln. . . . . . . . . . . . . . Anzahl der Abtastwerte des Rauschsignals (ohne Sprachanteil)
Lrel . . . . . . . . . . . . . relativer Schalldruckpegel
Ls. . . . . . . . . . . . . . Anzahl der Abtastwerte des Sprachsignals
log10(·) . . . . . . . . . 10-er Logarithmus
L(·) ............ Log-Likelihood-Funktion
M. . . . . . . . . . . . . . Anzahl der Mikrophone
194 Anhang F. Exkurs zur blinden Quellentrennung
m.............. Blockindex
M{·} . . . . . . . . . . . konfluent hypergeometrische Funktion
N. . . . . . . . . . . . . . Obergrenze von Laufvariablen
n. . . . . . . . . . . . . . . diskreter Zeitindex
ND. . . . . . . . . . . . . Intervall der maximal m¨
oglichen Verschiebungs-Abtastwerte
ni(θ) . . . . . . . . . . . richtungsabh¨
angige Verschiebung am i-ten Mikrophon
Ni(Ω) ........... St¨
orsignal am i-ten Sensor im Frequenzbereich
¯n. . . . . . . . . . . . . . . mittlere Stoßzahl des Schalls
nc(n) . . . . . . . . . . . (zeitdiskretes) r¨
aumlich korreliertes St¨
orsignal
ni(n) . . . . . . . . . . . (zeitdiskretes) St¨
orsignal am i-ten Sensor
nu,i(n) . . . . . . . . . . (zeitdiskretes) r¨
aumlich unkorreliertes St¨
orsignal am i-ten Sensor
n0.............. Zeitindex f¨
ur das Maximum der Impulsantwort
n50 . . . . . . . . . . . . . Zeitindex korrespondierend zur Zeit 50ms
O{·} ............ Komplexit¨
atsordnung
P. . . . . . . . . . . . . . . Schallleistung
p............... Schalldruck
P(θ) . . . . . . . . . . . . Ausgangsleistung eines gesteuerten Filter-and-Sum-Beamformers
P(DSB)(θ) . . . . . . . Ausgangsleistung eines gesteuerten DSBs
P(GEV)(θ) . . . . . . Ausgangsleistung eines GEV Beamformer
P(PCA)(θ) . . . . . . . Ausgangsleistung eines PCA Beamformer
Pf(µ0) . . . . . . . . . . Potenzreihe der Funktion f(µ) um µ0herum
PXi,mXl,m (Ωk) . . . Kurzzeit-Kreuzleistungsdichtespektrum (Kreuzperiodogramm)
des m-ten Segments zwischen Xi(Ωk) und Xl(Ωk)
pκ. . . . . . . . . . . . . . iterativer Projektionsvektor
pn. . . . . . . . . . . . . . Position der St¨
orquelle im Raum
pi.............. Position des i-ten Mikrophons im Raum
ps. . . . . . . . . . . . . . Position des Sprechers im Raum
pt. . . . . . . . . . . . . . Zielkoordinaten der Blickrichtung des Arrays
p(θ; Ω) . . . . . . . . . . Wahrscheinlichkeitsdichtefunktion der Sprecherrichtung
p(X(Ωk)|H0(Ωk)) bedingte Verteilungsdichtefunktion gegeben eine Sprachpause
p(X(Ωk)|H1(Ωk)) bedingte Verteilungsdichtefunktion gegeben eine Sprachaktivit¨
at
r. . . . . . . . . . . . . . . Abstand zwischen Sender und Array
r(Ω,p) .......... Beamformer Response
r(·) . . . . . . . . . . . . . Rayleigh Quotient
rκ. . . . . . . . . . . . . . iterativ bestimmter Rayleigh Quotient
ril(n) . . . . . . . . . . . verallgemeinerte Kreuzkorrelation
rH.............. Hallradius
r(GEV)
il (n) . . . . . . . verallgemeinerte Kreuzkorrelation f¨
ur GEV-Filterkoeffizienten
r(PCA)
il (n) . . . . . . . verallgemeinerte Kreuzkorrelation f¨
ur PCA-Filterkoeffizienten
R(µ2) . . . . . . . . . . Restglieder zweiter und h¨
oherer Ordnung von µ
si(n) . . . . . . . . . . . . (zeitdiskretes) Sprachsignal am i-ten Sensor
Si(Ω) . . . . . . . . . . . Sprachsignal am i-ten Sensor im Frequenzbereich
sc(n) . . . . . . . . . . . (zeitdiskretes) Sprachsignal
Sc(Ω) . . . . . . . . . . . Sprachsignal im Frequenzbereich
si(·) . . . . . . . . . . . . . si-Funktion sin(x)
x
SNRArray(Ω) . . . . frequenzabh¨
angiges SNR am Beamfomer-Ausgang
F.3. Zusammenfassung 195
SNRavg(Ω) . . . . . . gemittelter gesch¨
atzter SNR-Gewinn
SNR(max)
Array (Ω) . . . . maximal erzielbares SNR am Beamfomer-Ausgang
SNRSensor,i(Ω) . . frequenzabh¨
angiges SNR des i-ten Sensors
SNRSensor(Ω) . . . frequenzabh¨
angiges SNR gemittelt ¨
uber alle Sensoren
SNRG . . . . . . . . . . SNR-Gewinn
SNRGκ(Ωk) . . . . . iterativ bestimmter frequenzabh¨
angiger asymptotischer SNR-Gewinn
SNRGκ. . . . . . . . . iterativ bestimmter asymptotischer SNR-Gewinn
T. . . . . . . . . . . . . . . Abtastperiode
t. . . . . . . . . . . . . . . . kontinuierliche Zeitvariable
T60 . . . . . . . . . . . . . Nachhallzeit
TA. . . . . . . . . . . . . . Anfangsnachhallzeit
tg. . . . . . . . . . . . . . . Zeitgrenze zur Einteilung des n¨
utzlichen Schalls
Tn. . . . . . . . . . . . . . Menge der Zeitindizes des Rauschsignals (ohne Sprachanteil)
Ts. . . . . . . . . . . . . . Menge der Zeitindizes des Sprachsignals
U(Ω) ........... St¨
orreferenzsignale am Ausgang der Blocking Matrix
us,i(n) . . . . . . . . . . Sprachsignalkomponente am Ausgang der Blocking Matrix
un,i(n) .......... St¨
orsignalkomponente am Ausgang der Blocking Matrix
V. . . . . . . . . . . . . . . Volumen eines Raums
vg.............. Grenzwert f¨
ur die Dominanz einer Quelle pro Frequenzkomponente
vi.............. i-ter Eigenvektor
ˆ
v1(Ω) ........... Sch¨
atzung des dominanten Eigenvektors
ˆ
v1,κ(Ω) . . . . . . . . . iterativ gesch¨
atzter dominanter Eigenvektor
W(Ω) . . . . . . . . . . . spektrale Gewichtung
w(Ω) . . . . . . . . . . . Nachfilter
wBAN(Ω) . . . . . . . Nachfilter der blinden analytischen Normalisierung
wGMVDR(Ω) . . . . GMVDR-Gwichtungsfaktor
wMN(Ω) . . . . . . . . Nachfilter der Maximum Normalisierung
wopt(Ω) . . . . . . . . . optimales Nachfilter
wBSN(Ω) . . . . . . . . Nachfilter der blinden statistischen Normalisierung
wWPF(Ω) . . . . . . . Wiener Post Filter
Wi,m(Ωk) . . . . . . . Filterkoeffizientenvektor der OPCA
W(Ω) . . . . . . . . . . frei w¨
ahlbarer Vektor der Blocking Matrix
Xi(Ω) . . . . . . . . . . Eingangssignal am i-ten Sensor im Frequenzbereich
xi(n) . . . . . . . . . . . (zeitdiskretes) Eingangssignal am i-ten Sensor
Y(Ω) ........... Beamformer-Ausgangssignal im Frquenzbereich
y(n) . . . . . . . . . . . . (zeitdiskretes) Beamformer-Ausgangssignal
yn(n) . . . . . . . . . . . (zeitdiskretes) Beamformer-Ausgangssignal der St¨
orkomponente
ys(n) . . . . . . . . . . . (zeitdiskretes) Beamformer-Ausgangssignal der Sprachkomponente
YFBF(Ω) . . . . . . . . Ausgangssignal des Fixed Beamformers
YGSC(Ω) . . . . . . . . Ausgangssignal des Generalized Sidelobe Cancellers
Yopt(Ω) . . . . . . . . . optimales Sprachsignal am Beamformer-Ausgang
Yref(Ω) . . . . . . . . . Sprachreferenzsignal am Beamformer-Ausgang
Z(Ω) . . . . . . . . . . . Filterkoeffizientenvektor der Noise Cancellation
Zopt(Ω) . . . . . . . . . optimale Filterkoeffizientenvektor der Noise Cancellation
196 Anhang F. Exkurs zur blinden Quellentrennung
Griechische Formelzeichen
α............... Gl¨
attungskonstante
αA. . . . . . . . . . . . . . Absorptionsgrad einer homogenen Fl¨
ache
¯αA. . . . . . . . . . . . . . mittlerer Absorptionsgrad des Schalls f¨
ur einen Raum
β(Ω) . . . . . . . . . . . . frequenzabh¨
angiger Lagrange-Multiplikator
χ............... Verh¨
altnis zwischen gr¨
oßtem und kleinstem Eigenwert
δ(x) . . . . . . . . . . . . Delta-Distribution
δLDS(Ω) . . . . . . . . . LDS-Verh¨
altnis der reinen Sprachsignale vor und nach dem ANC
∆BA . . . . . . . . . . . Unterschied der Blocking Ability
∆d. . . . . . . . . . . . . Abweichung des Sensorabstands
∆f. . . . . . . . . . . . . Frequenzaufl¨
osung
∆θ. . . . . . . . . . . . . Abweichung von der Sprecherrichtung
∆Ω . . . . . . . . . . . . . normierte Frequenzabweichung
∆SNRG . . . . . . . . Unterschied des SNR-Gewinns
∆σ2
N. . . . . . . . . . . . Abweichung der Rauschvarianzsch¨
atzung
η(Ω) . . . . . . . . . . . . skalarer komplexer frequenzabh¨
angiger Faktor des ML-Ansatzes
η............... Verh¨
altnis von r¨
aumlich unkorreliertem zu korreliertem Rauschen
η0. . . . . . . . . . . . . . Schwellwert der VAD-Entscheidung f¨
ur eine Sprachpause
η1. . . . . . . . . . . . . . Schwellwert der VAD-Entscheidung f¨
ur Sprachaktivit¨
at
γ(Ωk) ........... a posteriori SNR
γXiXl(Ω) . . . . . . . . komplexe Koh¨
arenzfunktion zwischen Xi(Ω) und Xl(Ω)
ΓXiXl(Ω) . . . . . . . Betragsquadrat der Koh¨
arenzfunktion zwischen Xi(Ω) und Xl(Ω)
κ. . . . . . . . . . . . . . . Iterationsindex
λmin . . . . . . . . . . . . minimale Wellenl¨
ange des betrachteten Wellenfeldes
λ(max) .......... gr¨
oßter Eigenwert
λ(max)
S(Ω) . . . . . . . gr¨
oßter frequenzabh¨
angiger Eigenwert (gegeben ΦSS(Ω) und ΦNN(Ω))
λ(max)
X(Ω) . . . . . . . gr¨
oßter frequenzabh¨
angiger Eigenwert (gegeben ΦXX(Ω) und ΦNN(Ω))
λi.............. i-ter Eigenwert
Λ. . . . . . . . . . . . . . . Diagonalmatrix der Eigenwerte
µ............... Schrittweite
µ(Neu) . . . . . . . . . . . Schrittweite der neuen Adaptionsregel
µ(Oja) . . . . . . . . . . . Schrittweite der Oja-Adaptionsregel
ν............... Laufvariable
Ω . . . . . . . . . . . . . . . normierte kontinuierliche Kreisfrequenz
Ωk.............. k-te normierte diskrete Kreisfrequenz
P. . . . . . . . . . . . . . . Anzahl der Nutzsignalquellen bei der BSS
ˆ
φ(GG)
YFBFYFBF (Ω) . . . spektrale Leistungsdichte am Ausgang des FBFs
ˆ
φ(GG)
YGSCYGSC (Ω) . . . spektrale Leistungsdichte am Ausgang des GSCs
φXiXl(Ω) . . . . . . . Kreuzleistungsdichtespektrum zwischen Xi(Ω) und Xl(Ω)
φY Y (Ω) . . . . . . . . . LDS des Beamformer-Ausgangssignals
π. . . . . . . . . . . . . . . 3,14159265359...
ΦNN(Ω) . . . . . . . . Matrix der spektralen Kreuzleistungsdichten der St¨
orsignale N
ΦXX(Ω) . . . . . . . . Matrix der spektralen Kreuzleistungsdichten der Mikrophonsignale X
ΦSS(Ω) . . . . . . . . . Matrix der spektralen Kreuzleistungsdichten der Sprachsignale S
Φ(XN)Kombination der KLDS-Matrizen von St¨
or- und Sprachsignalen
F.3. Zusammenfassung 197
e
ΦNN . . . . . . . . . . . Normierte Matrix der spektralen Kreuzleistungsdichten der St¨
orsignale
(BM)
i,m (Ωk) ...... i-te bin¨
are Maske der BSS f¨
ur den Block m
(LM)
i,m (Ωk) ...... i-te Likelihood Maske der BSS f¨
ur den Block m
Ψm(Ωk) ......... gegl¨
attete Entscheidungsvariable f¨
ur den Block m
ˆ
Φ(GG)
XX,κ . . . . . . . . . . iterative Sch¨
atzung der KLDS-Matrix durch eine gleichm¨
aßige
Gewichtung
ˆ
Φ(EG)
XX,κ . . . . . . . . . . iterative Sch¨
atzung der KLDS-Matrix durch eine exponentielle
Gl¨
attung
ˆ
Φ(IS)
XX,κ . . . . . . . . . . iterative Sch¨
atzung der KLDS-Matrix durch eine instantane Sch¨
atzung
ρR. . . . . . . . . . . . . . Schall-Reflexionsgrad einer homogenen Fl¨
ache
ρ. . . . . . . . . . . . . . . Schrittweitefaktor
σ2.............. Varianz
σ2
LDS . . . . . . . . . . . . Varianz der LDS-Verh¨
altnise
σ2
N(Ωk) . . . . . . . . . Varianz des St¨
orsignals N(Ωk)
σ2
S(Ωk) . . . . . . . . . Varianz des Sprachsignals S(Ωk)
τ............... zeitliche D¨
ampfungskonstante
τe. . . . . . . . . . . . . . . effektive Zeitverz¨
ogerung
τg. . . . . . . . . . . . . . zeitliche Einwirktiefe einer Gl¨
attung
τi. . . . . . . . . . . . . . . Laufzeit des Signals von der Quelle bis zum i-ten Mikrophon
τil .............. die Zeitverz¨
ogerung zwischen zwei Signalen xi(t) und xl(t)
θ............... Winkel
θn. . . . . . . . . . . . . . Richtung der St¨
orschallquelle
θn,i . . . . . . . . . . . . . Richtung der i-ten St¨
orschallquelle
θs. . . . . . . . . . . . . . Sprecherrichtung
θs1. . . . . . . . . . . . . . Sprecherrichtung des ersten Sprechers f¨
ur die BSS
θs2. . . . . . . . . . . . . . Sprecherrichtung des zweiten Sprechers f¨
ur die BSS
θt. . . . . . . . . . . . . . . Richtungswinkel des Arrays bez¨
uglich eines Ziels
ϑ(·) . . . . . . . . . . . . . relativer Anteil an n¨
utzlichem Schall
θt ν . . . . . . . . . . . . . diskretisierte Zielrichtungen
ξ............... Zielfunktion
ξ(Ωk) ........... a priori SNR
˜
ξ. . . . . . . . . . . . . . . fehlerhafte Sch¨
atzung des a priori SNRs
ζ(Ω) . . . . . . . . . . . . komplexer Skalar
Spezielle Symbole
∗. . . . . . . . . . . . . . . Faltungsoperator
(·)∗. . . . . . . . . . . . . konjugiert komplexe Schreibweise
(·)H. . . . . . . . . . . . hermitesch konjungierte Notation
(·)T. . . . . . . . . . . . . transponierte Schreibweise
IM. . . . . . . . . . . . . Einheitsmatrix der Dimension M
ℑ{·} ............ Imagin¨
arteil
∇F{·} . . . . . . . . . . Ableitung bez¨
uglich eines komplexen Vektors
∂
∂F. . . . . . . . . . . . . . komplex konjugierte Ableitung des Vektors F
ℜ{·} ............ Realteil
198 Formelzeichen und Abk¨
urzungen
Rang(A) . . . . . . . . Rang der Matrix A
Spur(A) . . . . . . . . Spur der Matrix A
MAX{·} . . . . . . . . Maximum-Operator
var{·} .......... Varianz
||·|| ............ L2-Norm
Abk¨
urzungen
AMCor ......... Amplituden Modulation Correlation
ANC ........... Adaptive Noise Cancellation
ASC ............ Adaptive Speech Cancellation
ASCBM ........ Adaptive Speech Cancellation Blocking Matrix
BA ............. Blocking Ability
BAN . . . . . . . . . . . blinde analytische Normalisierung
BM ............. Binary Masking
BM ............. Blocking Matrix
BSS ............ Blind Source Separation
DD ............. Decision-Directed
DFT ............ Discrete Fourier Transform
DI .............. Directivity Index
DO ............. Delay Only
DOA ........... Direction-of-Arrival
DOBM ......... Delay Only Blocking Matrix
DOR ........... Delay Only Ratio
DORBM ........ Delay Only Ratio Blocking Matrix
DR ............. Distortionless Response
DSB ............ Delay-and-Sum-Beamformer
DTFT .......... Discrete Time Fourier Transform
DUET .......... Degenerate Unmixing Estimation Technique
EDC ............ Energy Decay Curve
EDT ............ Early Decay Time
EG . . . . . . . . . . . . . Exponentielle Gewichtung
FBF ............ Fixed Beamformer
FEM ........... Finite Element Method
FFT ............ Fast Fourier Transform
FIR ............ Finite Impulse Response
FSB ............ Filter-and-Sum-Beamformer
GCC ........... Generalized Cross Correlation
GEV ........... Generalized Eigenvector
GEVBM ........ Generalized Eigenvector Blocking Matrix
GEVP .......... Generalized Eigenvalue Problem
GG ............. Gleichm¨
aßige Gewichtung
GML ........... Generalized Maximum Likelihood
GMMSE ........ Generalized Minimum Mean Squared Error
GMV ........... Generalized Minimum Variance
GMVDR . . . . . . . Generalized Minimum Variance Distortionless Response
Formelzeichen und Abk¨
urzungen 199
GSC ............ Generalized Sidelobe Canceller
GSVD .......... Generalized Singular Value Decomposition
HMM ........... Hidden Markov Modell
ICA ............ Independent Component Analysis
ICMA .......... In Situ Calibrated Microphone Array
IDFT ........... Inverse Discrete Fourier Transform
IFFT ........... Inverse Fast Fourier Transform
IS . . . . . . . . . . . . . . Instantaner Sch¨
atzer
ITU ............ International Telecommunication Union
KLDS . . . . . . . . . . Kreuzleistungsdichespektrum
LCMVDR . . . . . . Linearly Constrained Minimum Variance Distortionless Response
LDS . . . . . . . . . . . . Leistungsdichtespektrum
LE ............. Localization Error
LM ............. Likelihood Masking
LMS ............ Least Mean Squares
LOS ............ Line of Sight
LRT ............ Likelihood Ratio Test
LSE ............ Least Squares Error
MAP . . . . . . . . . . . maximum a posteriori
MCWF ......... Multi Channel Wiener Filter
MF ............. Matched Filter
MFB ........... Matched Filter Beamformer
MIMO .......... Multiple Input Multiple Output
ML ............. Maximum Likelihood
ML-STBF . . . . . . . Maximum Likelihood Steered Adaptive Beamformer
MMSE ......... Minimum Mean Squared Error
MN . . . . . . . . . . . . . Maximum-Normalisierung
MOP ........... Mutual Orthogonal Projection
MOS ........... Mean Opinion Score
WPF ........... Wiener Post Filter
MS . . . . . . . . . . . . . Minimum Statistik
MSC ........... Magnitude Squared Coherence
MUSIC ......... Multiple Signal Classification
MV ............. Minimum Variance
MWF ........... Multi Channel Wiener Filter
NC ............. Noise Cancellation
OCPCA ........ Orthogonal Constraint Principal Component Analysis
ODG ........... Objective Difference Grade
PAST .......... Projection Approximation Subspace Tracking
PC ............. Personal Computer
PCA ............ Principal Component Analysis
PDF ............ Probability Density Function
PESQ .......... Perceptual Evaluation of Speech Quality
PHAT .......... Phase Transform
PSM ............ Perceptual Similarity Measure
RIA . . . . . . . . . . . . Raumimpulsantwort
200 Formelzeichen und Abk¨
urzungen
RLS ............ Recursive Least Squares
ROC ........... Receiver Operating Characteristic
SAD ............ Symmetric Adaptive Decorrelation
SIR ............. Signal-to-Interference-Ratio
SNR ............ Signal-to-Noise-Ratio
SRP ............ Steered Response Power
TDOA .......... Time-Difference of Arrival
TF ............. Transfer Function
TFBM .......... Transfer Function Blocking Matrix
TFR ............ Transfer Function Ratio
TFRBM ........ Transfer Function Ratio Blocking Matrix
VAD ............ Voice Activity Detection
Literaturverzeichnis
[AB79] Allen, J. B. ; Berkley, D. A.: Image Method for Efficiently Simulating
Small-Room Acoustics. In: Journal of the Acoustical Society of America 107
(1979), Nr. 4, S. 943–950
[AG96] Affes, S. ; Grenier, Y.: A Source Subspace Tracking Array of Microphones
for Double Talk Situations. In: Proc. IEEE Int. Conf. Acoustics, Speech, and
Signal Processing (ICASSP) Bd. 2. Atlanta, USA, May 1996, S. 909–912
[AG97] Affes, S. ; Grenier, Y: A Signal Subspace Tracking Algorithm for Micropho-
ne Array Processing of Speech. In: IEEE Transactions on Speech and Audio
Processing 5 (1997), Sept., S. 425–437
[AHBK03] Aichner, R. ; Herbordt, W. ; Buchner, H. ; Kellermann, W.: Least-
Squares Error Beamforming using Minimum Statistics and Multichannel Fre-
quencydomain Adaptive Filtering. In: Int. Workshop on Acoustic Echo and
Noise Control (IWAENC). Kyoto, Japan, Sept. 2003, S. 223–226
[AK00] Anem¨
uller, J. ; Kollmeier, B.: Amplitude Modulation Decorrelation for
Convolutive Blind Source Separation. In: Proc. of the second international
workshop on independent component analysis and blind signal separation. Hel-
sinki, Finland, June 2000, S. 215–220
[AL05] Alli, M. ; Lyons, R.: A Root of less Evil. In: IEEE Signal Processing Magazine
9 (2005), S. 58–67
[Ama77] Amari, S.: Neural theory of association and concept-formation. In: Biological
Cybernetics 26 (1977), Sept., Nr. 3, S. 175–185
[Ami] Amigo - Ambient Intelligence for the Networked Home Environment.
http://www.amigo-project.org
[Ane01] Anem¨
uller, J.: Across-Frequency Processing in Convolutive Blind Source Se-
paration, University of Oldenburg, Germany, Diss., 2001
[Arn51] Arnoldi, W. E.: The Principle of Minimized Iterations in the Solution of the
Matrix Eigenvalue Problem. In: Quarterly of Applied Mathematics (1951), 9,
S. 17–29
[Bar03] Bartsch, G.: Effiziente Methoden f¨
ur die niederfrequente Schallfeldsimulation,
RWTH Aachen, Germany, Diss., 2003
[BCM05] Benesty, J. ; Chen, J. ; Makino, S.: Speech Enhancement. Springer-Verlag,
2005
202 Literaturverzeichnis
[Ber96] Beranek, L.: Concert and Opera Halls: How They Sound. In: Acoustical
Physics 42 (1996), S. 779–780
[Bit02] Bitzer, J.: Mehrkanalige Ger¨
auschunterdr¨
uckungssysteme - eine vergleichende
Analyse, Universit¨
at Bremen, Germany, Diss., 2002
[Bod56] Bodewig, E.: Matrix Calculus. North-Holland, Amsterdam, 1956
[BP66] Bendat, J. S. ; Piersol, A. G.: Measurement and Analysis of Random Data.
New York : Wiley, 1966
[BP80] Bendat, J. S. ; Piersol, A. G.: Engineering Application of Correlation and
Spectral Analysis. New York : Wiley, 1980
[Bra99] Brandstein, M.: Time-Delay Estimation of Reverberated Speech Exploiting
Harmonic Structure. In: Journal of the Acoustical Society of America 105
(1999), May, S. 2914–2919
[BS73] Bangs, W. J. ; Schultheiss, P. M.: Space Time Processing for Optimal
Parameter Estimation. In: Signal Processing (1973), S. 577–590
[BS01] Bitzer, J. ; Simmer, K. U.: Superdirective Microphone Arrays. In: Brand-
stein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Microphone Arrays: Signal Proces-
sing Techniques and Applications. Springer-Verlag, 2001, S. 19–38
[BSK99a] Bitzer, J. ; Simmer, K. ; Kammeyer, K.: An Alternative Implementation of
the Superdirective Beamformer. In: Proc. IEEE Workshop on Applications of
Signal Processing to Audio and Acoustics (WASPAA). New Paltz NY, USA,
1999, S. 7–10
[BSK99b] Bitzer, J. ; Simmer, K. U. ; Kammeyer, K.-D.: Multi-Microphone Noise
Reduction by Post-Filter and Superdirective Beamformer. In: Int. Workshop
on Acoustic Echo and Noise Control (IWAENC). Pocono Manor, USA, Sept.
1999, S. 100–103
[BSK99c] Bitzer, J. ; Simmer, K. U. ; Kammeyer, K.-D.: Theoretical Noise Reduction
Limits of the Generalized Sidelobe Canceller (GSC) for Speech Enhancement.
In: ICASSP Bd. 4. Phoenix, Arizona, March 1999, S. 2965–2968
[BSRG05] Bhiksha, R. ; Seltzer, M. ; Reyes-Gomez, M. J.: Speech Recognizer based
Maximum Likelihood Beamforming. In: Divenyi, P. (Hrsg.): Speech Separation
by Humans and Machines. Springer US, 2005, S. 65–82
[Buc07] Buck, M.: Optimaler Beamformer-Entwurf unter Ber¨
ucksichtigung spezifischer
Mikrofoneigenschaften. In: Fortschritte der Akustik - DAGA 2007, DEGA e.V.
Stuttgart, M¨
arz 2007, S. 335–336
[CA03] Cichocki, A. ; Amari, S.: Adaptive Blind Signal and Image Processing. John
Wiley & Sons, 2003
[Cap69] Capon, J.: High-Resolution Frequency-Wavenumber Wpectrum Analysis. In:
Proceedings of the IEEE (1969), Aug., S. 1408–1418
Literaturverzeichnis 203
[CBHD06] Chen, J. ; Benesty, J. ; Huang, Y. ; Doclo, S.: New Insights into the
Noise Reduction Wiener Filter. In: IEEE Transactions on Audio, Speech and
Language Processing 14 (2006), July, S. 1218– 1234
[CHY98] Chen, T. ; Hua, Y. ; Yan, W. Y.: Global Convergence of Oja’s Subspace
Algorithm for Principal Component Extraction. In: Journal of Mathematical
Analysis and Applications 106 (1998), S. 69–84
[CK01] Cho, Y.D. ; Kondoz, A.: Analysis and Improvement of a Statistical Model-
based Voice Activity Detector. In: IEEE Signal Processing Letters 8 (2001),
Oct., S. 276–278
[CM78] Cremer, L. ; M¨
uller, H. A.: Die wissenschaftlichen Grundlagen der Raum-
akustik. Band I. S. Hirzel, 1978
[CWB+55] Cook, R. K. ; Waterhouse, R. V. ; Berendt, R. D. ; Edelman, S. ; Thomp-
son, M. C.: Measurement of Correlation Coefficients in Reverberant Sound
Fields. In: Journal Acoust. Soc. Am. 27 (1955), Nr. 6, S. 1072–1077
[CZK86] Cox, H. ; Zeskind, R. ; Kooij, T.: Practical Supergain. In: IEEE Transactions
on Acoustics, Speech, and Signal Processing 34 (1986), June, Nr. 3, S. 393– 398
[CZO87] Cox, H. ; Zeskind, R. M. ; Owen, M. M.: Robust Adaptive Beamforming. In:
IEEE Transactions on Acoustics, Speech, Signal Processing 35 (1987), Oct., S.
1365–1376
[DCP01] Di Claudio, E. D. ; Parisi, R.: Multi-Source Localization Strategies. In:
Brandstein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Microphone Arrays: Signal
Processing Techniques and Applications. Springer-Verlag, 2001, S. 181–201
[DCP03] Di Claudio, E. D. ; Parisi, R.: Robust ML Wideband Beamforming in Re-
verberant Fields. In: IEEE Transactions on Signal Processing 51 (2003), Feb.,
S. 338 –349
[DDP88] Dal-Degan, N. ; Prati, C.: Acoustic Noise Analysis and Speech Enhancement
Techniques for Mobile Radio Applications. In: Signal Processing 15 (1988), Nr.
4, S. 43–56
[DFG01] Doucet, A. ; Freitas, N. de ; Gordon, N.: Sequential Monte Carlo Methods
in Practice. Springer-Verlag, 2001
[Dic97] Dickreiter:Handbuch der Tonstudiotechnik. M¨
unchen : Sauerverlag KG,
1997
[DK96] Diamantaras, K. I. ; Kung, S. Y.: Principal Component Neural Networks -
Theory and Applications. John Wiley & Sons, 1996
[DM99] Doclo, S. ; Moonen, M.: Robustness of SVD-based Optimal Filtering for Noi-
se Reduction in Multi-Microphone Speech Signals. In: Proc. of the 1999 IEEE
International Workshop on Acoustic Echo and Noise Control (IWAENC’99).
Pocono Manor, Pennsylvania, USA, Sep. 1999, S. 80–83
204 Literaturverzeichnis
[DM01] Doclo, S. ; Moonen, M.: GSVD-based Optimal Filtering for Multi-
Microphone Speech Enhancement. In: Brandstein, M.S. (Hrsg.) ; Ward,
D.B. (Hrsg.): Microphone Arrays: Signal Processing Techniques and Applicati-
ons. Springer-Verlag, 2001, S. 111–132
[DM05] Doclo, S. ; Moonen, M.: Multimicrophone Noise Reduction using Recursive
GSVD-based Optimal Filtering with ANC Postprocessing Stage. In: IEEE
Transactions on Speech and Audio Processing 13 (2005), Jan., S. 53– 69
[DM06] Doclo, S. ; Moonen, M.: Superdirective Beamforming Robust Against Mi-
crophone Mismatch. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal
Processing (ICASSP). Toulouse, France, May 2006, S. 41–44
[Dob06] Doblinger, G.: An adaptive Microphone Array for optimum Beamforming
and Noise Reduction. In: Proc. European Signal Processing Conference (EU-
SIPCO) Bd. 2. Florence, Italy, May 2006
[DPK96] Dau, T. ; Puschel, D. ; Kohlrausch, A.: A Quantitative Model of the Ef-
fective Signal Processing in the Auditory System. In: Journal of the Acoustical
Society of America 99 (1996), Nr. 6, S. 3615–3622
[Dre99] Drews, M.: Mikrofonarrays und mehrkanalige Signalverarbeitung zur Verbes-
serung gest¨
orter Sprache, Technische Universit¨
at Berlin, Germany, Diss., 1999
[DSB01] DiBiase, J. ; Silverman, H. ; Brandstein, M.: Robust Localization in Re-
verberant Rooms. In: Brandstein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Micro-
phone Arrays: Signal Processing Techniques and Applications. Springer-Verlag,
2001, S. 157–180
[DSWM05] Doclo, S. ; Spriet, A. ; Wouters, J. ; Moonen, M.: Speech Distortion
Weighted Multichannel Wiener Filtering Techniques for Noise Reduction. In:
Benesty, J. (Hrsg.) ; Huang, A. (Hrsg.) ; S., Makino (Hrsg.): Speech Enhan-
cement. Springer-Verlag, 2005, S. 199–228
[EK03] Elmusrati, M. ; Koivo, H.: Multi-Path MVDR Smart Antenna Algorithm for
Frequency Selective Channels. In: Proc. Int. ITG-Conf. on Antennas (INICA).
Berlin, 2003, S. 369–371
[Elk00] Elko, G. W.: Superdirectional Microphone Arrays. In: Gay, S. L. (Hrsg.) ; Be-
nesty, J. (Hrsg.): Acoustic Signal Processing for Telecommunication. Kluwer
Academic Publishers, 2000, S. 181–237
[EM84] Ephraim, Y. ; Malah, D.: Speech Enhancement using a Minimum Mean Squa-
re Error Short-Time Spectral Amplitude Estimator. In: IEEE Transactions on
Acoust., Speech, Signal Processing ASSP-32 (1984), Dec., S. 1109–1121
[ETS02] ETSI:Speech Processing, Transmission and Quality Aspects; Distributed
Speech Recognition; advanced front-end feature extraction algorithm; compres-
sion algorithms. 2002. – ETSI ES 201 108 Recommendation
[Eyr30] Eyring, C. F.: Reverberation time in ”dead” rooms. In: Journal of the Acou-
stical Society of America (1930), S. 217–241
Literaturverzeichnis 205
[Fis07] Fischer, C.: Realisierung eines akustischen Beamformings unter Verwendung
von Verfahren zur adaptiven Eigenwertzerlegung. 2007. – Studienarbeit, Fach-
gebiet Nachrichtentechnik, Universit¨
at Paderborn
[Flo01] Florencio, H. S.: Multichannel Filtering for optimum Noise Reduction in
Microphone Arrays. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal
Processing (ICASSP). Salt Lake City, USA, May 2001, S. 197–200
[Fra61] Francis, J. G. F.: The QR Transformation: A Unitary Analogue to the LR
Transformation, PartI and Part II. In: The Computer Journal (1961), 4, S.
265–272, 332–345
[Fro72] Frost, O. L.: An Algorithm for Linearly Constrained Adaptive Array Proces-
sing. In: Proceedings of the IEEE 60 (1972), August, Nr. 8, S. 926–935
[FSJ93] Flanagan, J. L. ; Surendran, A. C. ; Jan, E. E.: Spatially Selective Sound
Capture for Speech and Audio Processing. In: Speech Communication 13
(1993), Oct., S. 207–222
[GAG96] Gazor, S. ; Affes, S. ; Grenier, Y.: Robust Adaptive Beamforming via
Target Tracking. In: IEEE Transactions on Signal Processing 44 (1996), June,
S. 1589–1593
[Gan00] Gannot, S.: Array Processing of Nonstationary Signals with Application to
Speech, Tel-Aviv University, Israel, Diss., 2000
[Gar92] Gardner, W. A.: A Unifying View of Coherence in Signal Processing. In:
Signal Processing 29 (1992), Nr. 2, S. 113–140
[GBW99] Gannot, S. ; Burshtein, D. ; Weinstein, E.: Beamforming Methods for
Multi-Channel Speech Enhancement. In: Int. Workshop on Acoustic Echo and
Noise Control (IWAENC). Pocono Manor, USA, Sept. 1999, S. 96–99
[GBW01] Gannot, S. ; Burshtein, D. ; Weinstein, E.: Signal Enhancement using Be-
amforming and Nonstationarity with Applications to Speech. In: IEEE Tran-
sactions on Signal Processing 49 (2001), Aug., Nr. 8, S. 1614–1626
[GBW04] Gannot, S. ; Burshtein, D. ; Weinstein, E.: Analysis of the Power Spectral
Deviation of the General Transfer Function GSC. In: IEEE Transactions on
Signal Processing 52 (2004), April, S. 1115–1121
[GC04] Gannot, S. ; Cohen, I: Speech Enhancement based on the General Transfer
Function GSC and Postfiltering. In: IEEE Transactions on Speech and Audio
Processing 12 (2004), Nov., Nr. 6, S. 561–571
[GJ82] Griffiths, L. J. ; Jim, C. W.: An Alternative Approach to Linearly Constrai-
ned Adaptive Beamforming. In: IEEE Trans. on Antennas and Propagation 30
(1982), January, Nr. 1, S. 27–34
[GM55] Gilbert, E.N. ; Morgan, S.P.: Optimum Design of Directive Antenna Arrays
Subject to Random Variables. In: Bell Systems Technical Journal 34 (1955),
May, S. 637–663
206 Literaturverzeichnis
[GM76] Gray, A. ; Markel, J.: Distance Measures for Speech Processing. In: IEEE
Transactions on Acoustics, Speech, and Signal Processing 24 (1976), Oct., Nr.
8, S. 380–391
[GN02] Grbi`
c, N. ; Nordholm, S.: Soft Contrained Subband Beamforming for Hands-
Free Speech Enhancement. In: Proc. IEEE Int. Conf. Acoustics, Speech, and
Signal Processing (ICASSP). Orlando, USA, May 2002, S. 885–888
[Gri67] Griffiths, L. J.: A comparison of multidimensional Wiener and maximum-
likelihood filters for antenna arrays. In: IEEE Proceedings 55 (1967), Nov., S.
2045– 2047
[GRT03] Gustafsson, T. ; Rao, B. D. ; Trivedi, M.: Source Localization in Reverbe-
rant Environments: Modeling and Statistical Analysis. In: IEEE Transactions
on Speech and Audio Processing 11 (2003), Nov., S. 791–803
[GV99] Golub, G. ; Vorst, H. van d.: Numerical Progress in Eigenvalue Computa-
tion in the 20th Century.citeseer.ist.psu.edu/golub99numerical.html.
Version: 1999
[GV00] Golub, G. H. ; Vorst, H. A. d.: Eigenvalue Computation in the 20th Century.
In: Journal of Computational and Applied Mathematics 123 (2000), Nov., Nr.
1-2, S. 35–65
[Has02] Hasu, V.: Eigenvalue Approach to Joint Power Control and Beamforming
for CDMA Systems. In: IEEE Seventh International Symposium on Spread
Spectrum Techniques and Applications (ISSSTA). Prague, Czech, Sept. 2002,
S. 561–565
[Hay02] Haykin, S.: Adaptive Filter Theory. Prentice Hall, 2002
[HBD00] Hammerschmidt, J. S. ; Brunner, C. ; Drewes, C.: Eigenbeamforming –
A Novel Concept in Array Signal Processing. In: Proc. of European Wireless
Conference. Dresden, Germany, Sept. 2000
[HBNK07] Herbordt, W. ; Buchner, H. ; Nakamura, S. ; Kellermann, W.: Mul-
tichannel bin-wise robust frequency-domain adaptive filtering and its applica-
tion to adaptive beamforming. In: IEEE Transactions on Audio, Speech and
Language Processing 15 (2007), May, Nr. 4, S. 1340–1351
[Her04] Herbordt, W.: Combination of Robust Adaptive Beamforming with Acou-
stic Echo Cancellation for Acoustic Human/Machine Interfaces, Universit¨
at
Erlangen-Nuremberg, Germany, Diss., 2004
[HGJ06] Hongqing, l. ; Guisheng, L. ; Jie, Z.: A robust adaptive Capon beamforming.
In: Signal Processing 86 (2006), Oct., S. 2820–2826
[HK00] Hansen, M. ; Kollmeier, B.: Objective Modeling of Speech Quality with a
Psychoacoustically Validated Auditory Model. In: Journal Audio Eng. Soc. 48
(2000), Nr. 5, S. 395–409
Literaturverzeichnis 207
[HK01] Herbordt, W. ; Kellermann, W.: Efficient Frequency-Domain Realization
of Robust Generalized Sidelobe Cancellers. In: IEEE Workshop on Multimedia
Signal Processing (MMSP). Cannes, Oct. 2001
[HK02] Herbordt, W. ; Kellermann, W.: Analysis of Blocking Matrices for Ge-
neralized Sidelobe Cancellers for Non-Stationary Broadband Signals. In: Proc.
IEEE Int. Conf. Acoust., Speech, Signal Processing (ICASSP). Orlando, USA,
May 2002
[HK03] Herbordt, W. ; Kellermann, W.: Adaptive Beamforming for Audio Si-
gnal Acquisition. In: Benesty, J. (Hrsg.) ; Huang (Hrsg.): Adaptive Signal
Processing. Springer-Verlag, 2003, S. 155–194
[HKO01] Hyv¨
arinen, A. ; Karhunen, J. ; Oja, E.: Independent Component Analysis.
John Wiley & Sons, 2001
[HN76] Hodgkiss, W. S. ; Nolte, L. W.: Covariance between Fourier Coefficients re-
presenting the Time Waveforms observed from an Array of Sensors. In: Journal
of the Acoustical Society of America 59 (1976), March, S. 582–590
[Hou64] Housholder, A. S.: The Theory of Matrices in Numerical Analysis. Dover,
New York, 1964
[HS01] Hoshuyama, O. ; Sugiyama, A.: Robust adaptive beamforming. In: Brand-
stein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Microphone Arrays: Signal Proces-
sing Techniques and Applications. Springer-Verlag, 2001, S. 19–38
[HSH96] Hoshuyama, O. ; Sugiyama, A. ; Hirano, A.: A Robust Adaptive Beam-
former for Microphone Arrays with a Blocking m Matrix using Constrained
Adaptive Filters. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Pro-
cessing (ICASSP). Atlanta, USA, May 1996, S. 925–928
[HSH99] Hoshuyama, O. ; Sugiyama, A. ; Hirano, A.: A Robust Adaptive Beamfor-
mer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive
Filters. In: IEEE Transactions on Signal Processing 47 (1999), Oct., S. 2677–
2684
[HT73] Hahn, W. ; Tretter, S.: Space Time Processing for Optimal Parameter
Estimation. In: IEEE Transactions on Information Theory 19 (1973), Sept., S.
608–614
[Hub03] Huber, R.: Objective Assessment of Audio Quality using an Auditory Proces-
sing Model, University of Oldenburg, Germany, Diss., 2003
[Hub06] Huber, R.: Vorhersage der empfundenen Klangqualit¨
at von Mehrkanal-
St¨
orger¨
auschreduktionsverfahren in Personenkraftwagen. In: Fortschritte der
Akustik - DAGA 2006, DEGA e.V. Berlin, M¨
arz 2006, S. 219–220
[HUKW08] H¨
ab-Umbach, R. ; Kr¨
uger, A. ; Warsitz, E.: Blinde akustische Strahlfor-
mung f¨
ur Anwendungen im KFZ. In: Fortschritte der Akustik - DAGA 2008,
DEGA e.V. Dresden, M¨
arz 2008
208 Literaturverzeichnis
[HUW05] Haeb-Umbach, R. ; Warsitz, E.: Adaptive Filter-and-Sum Beamforming in
Spatially Correlated Noise. In: Int. Workshop on Acoustic Echo and Noise
Control (IWAENC). Eindhoven, Netherlands, Sept. 2005
[IEE79] Programs for Digital Signal Processing. John Wiley & Sons, 1979. – IEEE
Press, Chap. 8.1
[IN06] Ishizuka, K. ; Nakatani, T.: Study of Noise Robust Voice Activity Detection
based on Periodic Component to Aperiodic Component Ratio. In: Statistical
And Perceptual Audition (SAPA). Pittsburgh, USA, Sept. 2006
[Iri97] Irie, R. E.: Multimodal Sensory Integration for Localization in a Humanoid
Robot. In: Proc. of Second IJCAI Workshop on Computational Auditory Scene
Analysis (CASA97). Nagoya, Japan, Aug. 1997, S. 54–58
[IS70] Itakura, F. ; Saito, S.: A Statistical Method for Estimation of Speech Spec-
tral Density and Formant Frequencies. In: Electronics and Communications in
Japan 53A (1970), S. 36–43
[ITU01] ITU: Perceptual Evaluation of Speech Quality (PESQ), an Objective Method
for End-to-End Speech Quality Assessment of Narrowband Telephone Networks
and Speech Codecs. In: Series P: Telephone Transmission Quality Recommen-
dation P.862. International Telecommunications Union (ITU), 2001
[Jac46] Jacobi, C. G. J.: ¨
Uber ein leichtes Verfahren die in der Theorie der S¨
acul¨
ar-
st¨
orungen vorkommenden Gleichungen numerisch aufzul¨
osen. In: Journal f¨
ur
die reine und angewandte Mathematik 30 (1846), Nov., Nr. 1-2, S. 51–94
[JD93] Johnson, D. H. ; Dudgeon, D. E.: Array Signal Processing. New Jersey :
Prentice Hal, 1993
[JF96] Jan, E. E. ; Flanagan, J.: Sound Capture from Spatial Volumes: Matched-
Filter Processing of Microphone Arrays having Randomly Distributed Sensors.
In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP).
Atlanta, USA, 1996
[JG00] James, G. R. ; G., Rafik A.: Optimum Near-Field Performance of Microphone
Arrays subject to a Far-Field Beampattern Constraint. In: The Journal of the
Acoustical Society of America 108 (2000), Nov., S. 2248–2255
[JHLCCC06] Ju-Hong Lee, J.-H. ; Cheng, K.-P. ; C.-C., Wang: Robust Adaptive Array
Beamforming under Steering Angle Mismatch. In: Signal Processing 86 (2006),
Feb., S. 296 – 309
[JN87] Jacobsen, F. ; Nielsen, T. G.: Spatial Correlation and Coherence in a Re-
verberant Sound Field. In: Journal of Sound Vibration 118 (1987), Oct., S.
175–180
[Jor74] Jordan, W.: 47. Conventions AES. Copenhagen : Audio Engineering Society
(AES), 1974
Literaturverzeichnis 209
[JRY00] Jourjine, A. ; Rickard, S. ; Yilmaz, O.: Blind Separation of Disjoint Or-
thogonal Signals. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal
Processing (ICASSP). Istanbul, Turkey, June 2000, S. 2985–2988
[KAM07] Knaak, M. ; Araki, S. ; Makino, S.: Geometrically constrained Independent
Component Analysis. In: IEEE Transactions on Audio, Speech and Language
Processing 15 (2007), Feb., S. 715–726
[Kar84] Karhunen, J.: Adaptive Algorithms for Estimating Eigenvectors of Correla-
tion Type Matrices. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal
Processing (ICASSP) Bd. 9. San Diego, USA, March 1984, S. 592 – 595
[KC76] Knapp, C. H. ; Carter, G. C.: The generalized correlation method for esti-
mation of time delay. In: IEEE Trans. ASSP (1976), S. 320–327
[KDO05] Kristjansson, T. ; Deligne, S. ; Olsen, P.: Joint Speaker Segmentation,
Localization and Identification for Streaming Audio. In: Proc. Interspeech.
Lisbon, Portugal, Sept. 2005
[KHJ06] Kim, L.H. ; Hasegawa-Johnson, M.: Generalized optimal Multi-Microphone
Speech Enhancement using sequential Minimum Variance Distortionless Re-
sponse (MVDR) Beamforming and Postfiltering. In: Proc. IEEE Int. Conf.
Acoustics, Speech, and Signal Processing (ICASSP). Toulouse, France, May
2006, S. 65–68
[KK02] Kammeyer, K.D. ; Kroschel, K.: Digitale Signalverarbeitung. 5. Auflage.
Stuttgart : Teubner, 2002
[Kr¨
u07] Kr¨
uger, A.: Mehrkanalige Sprachsignalverbesserung mittels adaptiver Eigen-
wertzerlegung in einer Generalized Sidelobe Canceller Anordnung. 2007. – Di-
plomarbeit 5/06, Fachgebiet Nachrichtentechnik, Universit¨
at Paderborn
[Kut00] Kuttruff, H.: Room Acoustics. 4th edition. Taylor & Francis Group, 2000
[Lan50] Lanczos, C.: An Iteration Method for the Solution of the Eigenvalue Problem
of Linear Differential and Integral Operators. In: Journal of Research of the
National Bureau of Standards 45 (1950), Oct., Nr. 4, S. 255–282
[Lev64] Levin, M. J.: Maximum-Likelihood Array Processing. M.I.T. Lincoln Labora-
tory, Lexington, USA, Dec. 1964. – Technical Report DDC 455743
[LNO00] Lourens, T. ; Nakadai, K. ; Okuno, H.: Humanoid Active Audition System.
In: Proc. of First IEEE-RAS International Conference on Humanoid Robots
(Humanoids2000). Cambridge, USA, Sep. 2000
[Loi07] Loizou, P.: Speech Enhancement: Theory and Practice. CRC Press, 2007
[LS05] Li, J. ; Stoica, P.: Robust Adaptive Beamforming. Wiley, 2005
[LV06] Lotter, T. ; Vary, P.: Dual-Channel Speech Enhancement by Superdirective
Beamforming. In: EURASIP Journal on Applied Signal Processing 2006 (2006),
S. Article ID 63297, 14 pages. – doi:10.1155/ASP/2006/63297
210 Literaturverzeichnis
[LVKL96] Laakso, T. I. ; V¨
alim¨
aki, V. ; Karjalainen, M. ; Laine, U. K.: Splitting
the Unit Delay. In: IEEE Signal Processing Magazine 13 (1996), Jan., Nr. 1,
S. 30–60
[LWW03] Lehmann, E. A. ; Ward, D. B. ; Williamson, R. C.: Experimental Com-
parison of Particle Filtering Algorithms for Acoustic Source Localization in
Reverberant Room. In: Proc. IEEE Int. Conf. Acoust., Speech, Signal Proces-
sing (ICASSP). Hong Kong, China, April 2003
[MA04] Mungamuru, B. ; Aarabi, P.: Source Localization in Reverberant Environ-
ments: Modeling and Statistical Analysis. In: IEEE Transactions on Systems,
Man and Cybernetics - Part B: Cybernetics 34 (2004), June, S. 1526–1540
[Mak03] Makino, S.: Blind Source Separation of Convolutive Mixtures of Speech. In:
Benesty, J. (Hrsg.) ; Huang (Hrsg.): Adaptive Signal Processing. Springer-
Verlag, 2003, S. 195–225
[Mar94] Martin, R.: Spectral Subtraction based on Minimum Statistics. In: European
Signal Processing Conference (EUSIPCO). Edinburgh, Scotland, Sept. 1994,
S. 1182–1185
[Mar95] Martin, R.: Freisprecheinrichtungen mit mehrkanaliger Echokompensation
und St¨
orger¨
auschreduktion, Technische Hochschule Aachen, Germany, Diss.,
1995
[Mar01] Martin, R.: Noise Power Spectral Density Estimation based on Optimal Smoo-
thing and Minimum Statistics. In: IEEE Transactions Speech and Audio Pro-
cessing 108 (2001), July, S. 504–512
[MB02] McCowan, I.A. ; Bourlard, H.: Microphone Array Post-Filter for Diffuse
Noise Field. In: IEEE Int. Conf. Acoustics, Speech, and Signal Processing
(ICASSP). Orlando, USA, May 2002, S. 905–908
[MB03] McCowan, I.A. ; Bourlard, H: Microphone Array Post-Filter based on Noise
Field Coherence. In: IEEE Transactions on Speech and Audio Processing 11
(2003), S. 240–259
[MK02] Marzinzik, M. ; Kollmeier, B.: Speech Pause Detection for Noise Spectrum
Estimation by Tracking Power Envelope Eynamics. In: IEEE Transactions on
Speech and Audio Processing 10 (2002), Feb., S. 109–118
[MMM00] McCowan, I. ; Marro, C. ; Mauuary, L.: Robust Speech Recognition Using
Near-Field Superdirective Beamforming with Post-Filtering. In: Proc. IEEE
Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP). Istanbul, Tur-
key, June 2000, S. 1723 1726
[MMU98] Marro, C. ; Mahieux, Y. ; U., Simmer K.: Analysis of Noise Reduction and
Dereverberation Techniques based on Microphone Arrays with Postfiltering. In:
IEEE Transactions Speech, Audio Processing 6 (1998), May, S. 240–259
[Mor04] Morgan, D.: Adaptive Algorithms for solving Generalized Eigenvalue Signal
Enhancement Problems. In: Signal Processing 84 (2004), Aug., S. 957–968
Literaturverzeichnis 211
[MPL01] Martin, R. ; Petrovsky, A. ; Lotter, T.: Planar Superdirective Microphone
Arrays for Speech Acquisition in the Car. In: Euro. Conf. Speech Communi-
cation and Technology (EUROSPEECH). Aalborg, Denmark, Sept. 2001, S.
2623–2626
[MRP96] Mathew, G. ; Reddy, V. U. ; Paulraj, A.: A Quasi-Newton Adaptive Al-
gorithm for Estimating Generalized Eigenvectors. In: IEEE Transactions on
Signal Processing 44 (1996), Oct., Nr. 10, S. 2413–2422
[MS97] Meyer, J. ; Sydow, C.: Noise Cancelling for Microphone Arrays. In: Proc.
IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP). Munich,
Germany, April 1997, S. 211–214
[NA79] Neely, S. T. ; Allen, J. B.: Invertibility of a Room Impulse Response. In:
Journal of the Acoustical Society of America (1979), July, S. 165–169
[NCB93] Nordholm, S. ; Claesson, I. ; Bengtsson, B.: Adaptive Array Noise Sup-
pression of Handsfree Speaker Input in Cars. In: IEEE Transactions on Vehi-
cular Technology 42 (1993), Nov., S. 514–518
[NCG01] Nordholm, S. ; Claesson, I. ; Grbi`
c, N.: Optimal and Adaptive Micropho-
ne Arrays for Speech Input in Automobiles. In: Brandstein, M.S. (Hrsg.)
;Ward, D.B. (Hrsg.): Microphone Arrays: Signal Processing Techniques and
Applications. Springer-Verlag, 2001, S. 111–132
[NGL05] Nordholm, H. Q. ; Grbic, N. ; Low, S. Y.: Adaptive Microphone Arrays
Employing Spatial Quadratic Soft Constraints and Spectral Shaping. In: Be-
nesty, J. (Hrsg.) ; Chen, J. (Hrsg.) ; Makino, S. (Hrsg.): Speech Enhancement.
Springer-Verlag, 2005, S. 229–246
[NL00] Nordholm, S. ; Leung, Y. H.: Performance Limits of the Broadband Gene-
ralized Sidelobe Cancelling Structure in an Isotropic Noise Field. In: Journal
of the Acoustical Society of America 107 (2000), Feb., S. 1057–1060
[NNS01] Nishiura, T. ; Nakamura, S. ; Shikano, K.: Speech Enhancement by Multi-
ple Beamforming with Reflection Signal Equalization. In: Proc. IEEE Int. Conf.
Acoustics, Speech, and Signal Processing (ICASSP). Salt Lake City, USA, May
2001, S. 189–192
[Oja82] Oja, E.: A Simplified Neuron Model as a Principal Component Analyzer. In:
J. Math. Biology 15 (1982), S. 267–273
[OK85] Oja, E. ; Karhunen, J.: On stochastic approximation of the eigenvectors
and eigenvalues of the expectation of a random matrix. In: IEEE Transactions
Neural Networks 9 (1985), S. 58–67
[PA02] Parra, L. ; Alvino, C. V.: Geometric Source Separation: Merging Convolutive
Source Separation with Geometric Beamforming. In: IEEE Transactions on
Speech and Audio Processing 10 (2002), Sept., S. 352–362
212 Literaturverzeichnis
[PK01] Pados, D. A. ; Karystinos, G. N.: An iterative Algorithm for the Compu-
tation of the MVDR Filter. In: IEEE Transactions on Signal Processing 49
(2001), Feb., S. 290–300
[QBC88] Quackenbush, S. R. ; Barnwell, T. P. ; Clements, M. A.: Objective Mea-
sures of Speech Quality. New York : Prentice-Hall, 1988
[RAG04] Ristic, B. ; Arulampalam, S. ; Gordon, N.: Beyond the Kalman Filter:
Particle Filters for Tracking Applications. Artech House Publishers, 2004
[RBB03] Rosca, J. ; Balan, R. ; Beaugeant, C.: Multi-Channel Psychoacoustically
Motivated Speech Enhancement. In: Proc. IEEE Int. Conf. Acoustics, Speech,
and Signal Processing (ICASSP). HongKong, China, April 2003, S. 84–87
[RBR01] Rickard, S. ; Balan, R. ; Rosca, J.: Real-Time Time-Frequency based Blind
Source Separation. In: Proc. of the second international workshop on indepen-
dent component analysis and blind signal separation. San Diego, USA, Dec.
2001, S. 651–656
[RC03] Rindel, J. H. ; Christensen, C. L.: Room Acoustic Simulation and Sura-
lization - How close can we get to the real room. In: Eight Western Pacific
Acoustics conference. Melbourne, April 2003
[RGC07a] Reuven, G. ; Gannot, S. ; Cohen, I.: Joint Noise Reduction and Acoustic
Echo Cancellation using the Transfer-Function Generalized Sidelobe Canceller.
In: Speech Communication - Speech Enhancement 49 (2007), Aug., S. 623–635
[RGC07b] Reuven, G. ; Gannot, S. ; Cohen, I.: Performance Analysis of Dual Source
Transfer-Function Generalized Sidelobe Canceller. In: Speech Communication
- Speech Enhancement 49 (2007), Aug., S. 623–635
[RGC08] Reuven, G. ; Gannot, S. ; Cohen, I.: Dual-Source Transfer-Function Ge-
neralized Sidelobe Canceller. In: IEEE Transactions on Audio, Speech and
Language Processing 16 (2008), May, Nr. 4
[RHK05] Rohdenburg, T. ; Hohmann, V. ; Kollmeier, B.: Objective Perceptual
Quality Measures for the Evaluation of Noise Reduction Schemes. In: Interna-
tional Workshop on Acoustic Echo and Noise Control. Eindhoven, Sept. 2005,
S. 169–172
[RM05] Rombouts, G. ; Moonen, M.: Fast QRD-Lattice-based unconstrained Opti-
mal Filtering for Acoustic Noise Reduction. In: IEEE Transactions on Speech
and Audio Processing 13 (2005), Nov., Nr. 6, S. 1130–1143
[RP02] Rao, Y. N. ; Principe, J. C.: Time Series Segmentation Using a Novel Ad-
aptive Eigendecomposition Algorithm. In: Journal of VLSI Signal Processs 32
(2002), Nr. 1-3, S. 7–12
[RPW04] Rao, Y. N. ; Principe, J. C. ; Wong, T. F.: Fast RLS-Like Algorithm for
Generalized Eigendecomposition and its Applications. In: Journal of VLSI
Signal Processs 37 (2004), Nr. 2-3, S. 333–344
Literaturverzeichnis 213
[RRFM98] Rabinkin, D. ; Renomeron, R. ; Flanagan, J. ; Macomber, D. F.: Optimal
Truncation Time for Matched Filter Array Processing. In: Proc. IEEE Int.
Conf. Acoustics, Speech, and Signal Processing (ICASSP). Seattle, USA, May
1998, S. 3269–3273
[RSB+05] Ramirez, J. ; Segura, J.C. ; Benitez, C. ; Garcia, L. ; Rubio, A.: Statistical
Voice Activity Detection using a Multiple Observation Likelihood Ratio Test.
In: IEEE Signal Processing Letters 12 (2005), Oct., S. 689– 692
[RYPD05] Raykar, V. C. ; Yegnanarayana, B. ; Prasanna, S. R. M. ; Duraiswami,
R.: Source Localization in Reverberant Environments: Modeling and Statistical
Analysis. In: IEEE Transactions on Speech and Audio Processing 13 (2005),
Sept., S. 751–760
[Sab22] Sabine, W. C.: Collected Papers on Acoustics. In: Harvard University Press,
reprinted by Peninsula Publishing, Acous. Soc. Am. 1993 edition (1922)
[SBM01] Simmer, K. U. ; Bitzer, J. ; Marro, C.: Post-filtering techniques. In: Brand-
stein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Microphone Arrays: Signal Proces-
sing Techniques and Applications. Springer-Verlag, 2001, S. 39–57
[Sch65] Schroeder, M. R.: New Method of Measuring Reverberation Time. In: Jour-
nal of the Acoustical Society of America 37 (1965), S. 409–412
[Sch79] Schmidt, R. O.: Multiple Emitter Location and Signal Parameter Estimation.
In: Proc. RADC Spectrum Estimation Workshop. Rome, NY, USA, 1979, S.
243–258
[SHU06] Schmalenstroeer, J. ; Haeb-Umbach, R.: Online Speaker Change Detec-
tion by Combining BIC with Microphone Array Beamforming. In: Proc. Inter-
speech. Pittsburgh, USA, Sept. 2006
[SHU07] Schmalenstroeer, J. ; Haeb-Umbach, R.: Joint Speaker Segmentation,
Localization and Identification for Streaming Audio. In: Proc. Interspeech.
Antwerp, Belgium, Aug. 2007
[SHUW07] Schmalenstr¨
oer, J. ; H¨
ab-Umbach, R. ; Warsitz, E.: Projekt Amigo -
Sprachsignalverarbeitung im vernetzten Haus. In: Fortschritte der Akustik -
DAGA 2007, DEGA e.V. Stuttgart, M¨
arz 2007, S. 631–632
[Shy92] Shynk, J.: Frequency-Domain and Multirate Adaptive Filtering. In: IEEE
Signal Processing Magazine 9 (1992), S. 14–39
[SK06] Schwarz, H.-R. ; K¨
ockler, N.: Numerische Mathematik. Teubner, 2006
[SKS99] Sohn, J. ; Kim, N. ; Sung, W.: A Statistical Model-based Voice Activity
Detection. In: IEEE Signal Processing Letters 6 (1999), Jan., S. 1–3
[SMH+03] Shoko, A. ; Makino, S. ; Hinamoto, Y. ; Mukai, R. ; Nishikawa, T. ; Saru-
watari, H.: Equivalence between Frequency-Domain Blind Source Separation
and Frequency-Domain Adaptive Beamforming for Convolutive Mixtures. In:
EURASIP Journal on Applied Signal Processing, 2003, S. 1157–1166
214 Literaturverzeichnis
[SMM05] Sawada, H. ; Mukai, S. ; Makino, S.: Frequency-Domain Blind Source Se-
paration. In: Benesty, J. (Hrsg.) ; Chen, J. (Hrsg.) ; Makino, S. (Hrsg.):
Speech Enhancement. Springer-Verlag, 2005, S. 299–352
[SMW02] Spriet, A. ; Moonen, M. ; Wouters, J.: A multichannel subband gsvd
approach to speech enhancement. In: Eur. Trans. Telecommunications, Special
Issue on Acoustic Echo and Noise Control 13 (2002), March, S. 149–158
[SRS04] Seltzer, M. L. ; Raj, B. ; Stern, R. M.: Likelihood Maximizing Beamforming
for Robust Hands-Free Speech Recognition. In: IEEE Transactions on Speech
and Audio Processing 12 (2004), Sept., S. 489–498
[SSR01] Strobel, N. ; Spors, S. ; Rabenstein, R.: Joint Audio-Video Signal Pro-
cessing for Object Localization and Tracking. In: Brandstein, M.S. (Hrsg.)
;Ward, D.B. (Hrsg.): Microphone Arrays: Signal Processing Techniques and
Applications. Springer-Verlag, 2001, S. 204–225
[SW92] Simmer, K. U. ; Wasiljeff, A.: Adaptive Microphone Arrays for Noise Sup-
pression in the Frequency Domain. In: Second Cost 229 Workshop on Adaptive
Algorithms in Communications. Bordeaux, France, Oct. 1992, S. 185–194
[SW96] Shalvi, O. ; Weinstein, E.: System Identification using Nonstationary Si-
gnals. In: IEEE Transactions on Signal Processing (1996), Aug., S. 2055–2063
[Thi53] Thiele, R.: Richtungsverteilung und Zeitfolge der Schallr¨
uckw¨
urfe in R¨
aumen.
In: Acustica 3, 1953, S. 291–302
[Tuc92] Tucker, R.: Voice Activity Detection Using a Periodicity Measure. In: IEEE
Signal Processing Letters 139 (1992), Aug., S. 377–380
[TV07] Tran Vu, D. H.: Akustische Quellentrennung durch adaptives Beamforming
basierend auf Verfahren zur Eigenwertzerlegung. 2007. – Diplomarbeit 4/06,
Fachgebiet Nachrichtentechnik, Universit¨
at Paderborn
[T¨
ag98] T¨
ager, W.: Near Field Superdirectivity (NFSD). In: Proc. IEEE Int. Conf.
Acoustics, Speech, and Signal Processing (ICASSP). Atlanta, USA, May 1998,
S. 2045–2048
[US56] Uzsoky, M. ; Solymar, L.: Theory of super-directive linear arrays. In: Acta.
Physica Hungarica 6 (1956), May, S. 185–205
[VB01] Vermaak, J. ; Blake, A.: Nonlinear Filtering for Speaker Tracking in Noisy
and Reverberant Environments. In: Proc. IEEE Int. Conf. Acoust., Speech,
Signal Processing (ICASSP). Salt Lake City, USA, April 2001
[VHH98] Vary, P. ; Heute, U. ; Hess, W.: Digitale Sprachsignalverarbeitung. Stuttgart
: Teubner Verlag, 1998
[VM06] Vary, P. ; Martin, R.: Digital Speech Transmission - Enhancement, Coding
& Error Concealment. John Wiley & Sons, 2006
Literaturverzeichnis 215
[VMPG29] Von Mises, R. ; Pollaczek-Geiringer, H.: Praktische Verfahren der Glei-
chungsaufl¨
osung. In: Zeitschrift f¨
ur Angewandte Mathematik und Mechanik
(1929), 9, S. 58–79; 152–164
[VSO97] Viberg, M. ; Stoica, P. ; Ottersten, B.: Maximum Likelihood Array Proces-
sing in Spatially Correlated Noisefields using Parameterized Signals. In: IEEE
Transactions on Acoustics, Speech and Signal Processing 45 (1997), April, S.
996–1004
[VT68] Van Trees, H. L.: Detection, Estimation, and Modulation Theory, Part I.
John Wiley & Sons, 1968
[VT02] Van Trees, H. L.: Optimum Array Processing. John Wiley & Sons, 2002
[VVB88] Van Veen, B. D. ; Buckley, K. M.: Beamforming: A Versatile Approach to
Spatial Filtering. In: IEEE Trans. Acoust., Speech, Signal Processing 5 (1988),
Nr. 4, S. 4–24
[WA96] Wax, M ; Anu, Y.: Performance Analysis of the Minimum Variance Beam-
former in the Presence of Steering Vector Errors. In: IEEE Transactions on
Signal Processing 44 (1996), April, S. 938–947
[WB98] Wang, C. ; Brandstein, M. S.: A Hybrid Real-Time Face Tracking System.
In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP).
Seattle, USA, May 1998, S. 3737–3740
[Wel67] Welch, P.: The use of Fast Fourier Transform for the Estimation of Power
Spectra: A Method based on Time Averaging over Short, Modified Periodo-
grams. In: IEEE Transactions on Audio and Electroacoustics 15 (1967), June,
S. 70–73
[WHU04] Warsitz, E. ; Haeb-Umbach: Robust Speaker Direction Estimation with Par-
ticle Filtering. In: IEEE Workshop on Multimedia Signal Processing (MMSP).
Siena, Italy, Sept. 2004, S. 367– 370
[WHU05] Warsitz, E. ; Haeb-Umbach, R.: Acoustic Filter-and-Sum Beamforming by
Adaptive Principal Component Analysis. In: Proc. IEEE Int. Conf. Acoustics,
Speech, and Signal Processing (ICASSP). Philadelphia, USA, March 2005
[WHU06a] Warsitz, E. ; Haeb-Umbach, R.: Controlling Speech Distortion in Adaptive
Frequency-Domain Principal Eigenvector Beamforming. In: Int. Workshop on
Acoustic Echo and Noise Control (IWAENC). Paris, France, Sept. 2006
[WHU06b] Warsitz, E. ; Haeb-Umbach, R.: Mehrkanalige Sprachsignalverarbeitung
durch adaptives Eigenbeamforming f¨
ur Freisprecheinrichtungen im Kraftfahr-
zeug. In: Fortschritte der Akustik, DAGA 2006 Bd. 32. Braunschweig, M¨
arz
2006, S. 49–50
[WHU07] Warsitz, E. ; Haeb-Umbach, R.: Blind Acoustic Beamforming based on Ge-
neralized Eigenvalue Decomposition. In: IEEE Transactions on Audio, Speech
and Language Processing 15 (2007), July, S. 1529–1539
216 Literaturverzeichnis
[WHUP04] Warsitz, E. ; Haeb-Umbach, R. ; Peschke, S.: Adaptive Beamforming
Combined with Particle Filtering for Acoustic Source Localization. In: Proc.
ICSLP. Jeju, Corea, Oct. 2004, S. 2849–2852
[WHUS07] Warsitz, E. ; H¨
ab-Umbach, R. ; Schmalenstr¨
oer, J.: Zweistufige
Sprache/Pause-Detektion in stark gest¨
orter Umgebung. In: Fortschritte der
Akustik - DAGA 2007, DEGA e.V. Stuttgart, M¨
arz 2007, S. 303–304
[WHUTV07] Warsitz, E. ; Haeb-Umbach, R. ; Tran Vu, D. H.: Blind Adaptive Prin-
cipal Eigenvector Beamforming for Acoustical Source Separation. In: Proc.
Interspeech. Antwerp, Belgium, Aug. 2007
[Wie44] Wielandt, H.: Beitr¨
age zur mathematischen Behandlung komplexer Eigen-
wertprobleme. 1944. – Teil V: Bestimmung h¨
oherer Eigenwerte durch gebroche-
ne Iteration. Bericht B 44/J/37, Aerodynamische Versuchsanstalt G¨
ottingen,
Germany, 1944
[WKHU08] Warsitz, E. ; Krueger, A. ; Haeb-Umbach, R.: Speech Enhancement with a
new Generalized Eigenvector Blocking Matrix for Application in a Generalized
Sidelobe Canceller. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal
Processing (ICASSP). Las Vegas, USA, March/April 2008, S. 73–76
[WKW01] Ward, D. B. ; Kennedy, R. A. ; Williamson, R. C.: Constant Directivity
Beamforming. In: Brandstein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Micro-
phone Arrays: Signal Processing Techniques and Applications. Springer-Verlag,
2001, S. 3–17
[WLW03] Ward, D. B. ; Lehmann, E. A. ; Williamson, R. C.: Particle Filtering
Algorithms for Tracking an Acoustic Source in a Reverberant Environment.
In: IEEE Transactions on Speech and Audio Processing 11 (2003), Nov., S.
826–836
[WMGG67] Widrow, B. ; Mantey, P. E. ; Griffiths, L. J. ; Goode, B. B.: Adaptive
Antenna Systems. In: IEEE Proceedings 55 (1967), Dec., S. 2143– 2159
[WW02] Ward, D. B. ; Williamson, R. C.: Particle Filter Beamforming for Acoustic
Source Location. In: Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing
(ICASSP). Orlando, USA, May 2002
[Yan95] Yang, B.: Projection Approximation Subspace Tracking. In: IEEE Transacti-
ons Signal Processing 43 (1995), Jan., S. 95–107
[YOZC04] Yang, K. ; Ohira, T. ; Zhang, Y. ; Chi, C.-Y.: Super-Exponential Blind
Adaptive Beamforming. In: IEEE Transactions on Signal Processing 52 (2004),
June, Nr. 6, S. 1549–1563
[YR04] Yilmaz, O. ; Richard, S.: Blind Separation of Speech Mixtures via Time-
Frequency Masking. In: IEEE Transactions on Signal Processing 52 (2004),
July, S. 1830–1847
Literaturverzeichnis 217
[YXYZ06] Yang, J. ; Xi, H. ; Yang, F. ; Zhao, Y.: A Quasi-Newton Adaptive Algorithm
for Estimating Generalized Eigenvectors. In: IEEE Transactions on Signal
Processing 44 (2006), Oct., Nr. 10, S. 1177– 1188
[Zel88] Zelinski, R.: A Microphone Array with Adaptive Post-Filtering for Noise
Reduction in Reverberant Rooms. In: Int. Conf. Acoustics, Speech, and Signal
Processing (ICASSP). New York, USA, April 1988, S. 2578–2581
[ZHA04] Zhang, X. ; Hansen, J. H. L. ; Arehart, K.: Speech Enhancement based
on a combined Multi-Channel Array with Constrained Interative and Auditory
Masked Processing. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal
Processing (ICASSP). Montreal, Canada, May 2004, S. 229–232
218 Literaturverzeichnis
Eigene Publikationen
[1] Krueger, A. ; Warsitz, E. ; Haeb-Umbach, R.: Eigenvector based Transfer Func-
tion Ratios Estimation for Speech Enhancement with a GSC-like Structure. In: IEEE
Transactions on Audio, Speech and Language Processing, submitted June 2008
[2] Warsitz, E. ; Krueger, A. ; Haeb-Umbach, R.: Speech Enhancement with a new
Generalized Eigenvector Blocking Matrix for Application in a Generalized Sidelobe Can-
celler. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP).
Las Vegas, USA, March/April 2008, S. 73–76
[3] H¨
ab-Umbach, R. ; Kr¨
uger, A. ; Warsitz, E.: Blinde akustische Strahlformung f¨
ur
Anwendungen im KFZ. In: Fortschritte der Akustik - DAGA 2008, DEGA e.V. Dresden,
M¨
arz 2008
[4] Warsitz, E. ; Haeb-Umbach, R. ; Tran Vu, D. H.: Blind Adaptive Principal Eigen-
vector Beamforming for Acoustical Source Separation. In: Proc. Interspeech. Antwerp,
Belgium, Aug. 2007
[5] Warsitz, E. ; Haeb-Umbach, R.: Blind Acoustic Beamforming based on Generali-
zed Eigenvalue Decomposition. In: IEEE Transactions on Audio, Speech and Language
Processing 15 (2007), July, S. 1529–1539
[6] Schmalenstr¨
oer, J. ; H¨
ab-Umbach, R. ; Warsitz, E.: Projekt Amigo - Sprachsi-
gnalverarbeitung im vernetzten Haus. In: Fortschritte der Akustik - DAGA 2007, DEGA
e.V. Stuttgart, M¨
arz 2007, S. 631–632
[7] Warsitz, E. ; H¨
ab-Umbach, R. ; Schmalenstr¨
oer, J.: Zweistufige Sprache/Pause-
Detektion in stark gest¨
orter Umgebung. In: Fortschritte der Akustik - DAGA 2007,
DEGA e.V. Stuttgart, M¨
arz 2007, S. 303–304
[8] Warsitz, E. ; Haeb-Umbach, R.: Controlling Speech Distortion in Adaptive Frequency-
Domain Principal Eigenvector Beamforming. In: Int. Workshop on Acoustic Echo and
Noise Control (IWAENC). Paris, France, Sept. 2006
[9] Warsitz, E. ; Haeb-Umbach, R.: Mehrkanalige Sprachsignalverarbeitung durch adap-
tives Eigenbeamforming f¨
ur Freisprecheinrichtungen im Kraftfahrzeug. In: Fortschritte
der Akustik, DAGA 2006 Bd. 32. Braunschweig, M¨
arz 2006, S. 49–50
[10] Haeb-Umbach, R. ; Warsitz, E.: Adaptive Filter-and-Sum Beamforming in Spatially
Correlated Noise. In: Int. Workshop on Acoustic Echo and Noise Control (IWAENC).
Eindhoven, Netherlands, Sept. 2005
[11] Warsitz, E. ; Haeb-Umbach, R.: Acoustic Filter-and-Sum Beamforming by Adaptive
Principal Component Analysis. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal
Processing (ICASSP). Philadelphia, USA, March 2005
220 Eigene Publikationen
[12] Warsitz, E. ; Haeb-Umbach, R. ; Peschke, S.: Adaptive Beamforming Combined
with Particle Filtering for Acoustic Source Localization. In: Proc. ICSLP. Jeju, Corea,
Oct. 2004, S. 2849–2852
[13] Warsitz, E. ; Haeb-Umbach: Robust Speaker Direction Estimation with Particle
Filtering. In: IEEE Workshop on Multimedia Signal Processing (MMSP). Siena, Italy,
Sept. 2004, S. 367– 370