Document [original]

AKULTÄT FÜR

LEKTROTECHNIK

NFORMATIK UND

ATHEMATIK

Mehrkanalige Sprachsignalverbesserung

durch adaptive Lösung eines Eigenwertproblems

im Frequenzbereich

Zur Erlangung des akademischen Grades

DOKTORINGENIEUR (Dr.-Ing.)

der Fakultät für Elektrotechnik, Informatik und Mathematik

der Universität Paderborn

vorgelegte Dissertation

von

Dipl.-Ing. Ernst Warsitz

Oppeln

Referent: Prof. Dr.-Ing. Reinhold Häb-Umbach

Korreferent: Prof. Dr.-Ing. Peter Vary

Tag der mündlichen Prüfung: 12.12.2008

Paderborn, den 03.03.2009

Diss. EIM-E/248

Danksagung

Die vorliegende Arbeit entstand w¨

ahrend meiner T¨

atigkeit als wissenschaftlicher Mitarbeiter

im Fachgebiet Nachrichtentechnik der Universit¨

at Paderborn. Insbesondere die spannende

Aufbauphase beim Etablieren der neuen Schwerpunkte Sprachsignalverarbeitung und Spra-

cherkennung w¨

ahrend der Anfangszeit meiner T¨

atigkeit gemeinsam mit dem Fachgebietsleiter

Herrn Prof. Dr.-Ing. Reinhold H¨

ab-Umbach werden mir im Ged¨

achtnis bleiben. Ihm danke ich

f¨

ur die sehr gute Arbeitsatmosph¨

are, f¨

ur die zahlreichen anregenden Diskussionen und f¨

ur die

Ubernahme des Referates dieser Arbeit. Herrn Prof. Dr.-Ing. Peter Vary von der Universit¨

Aachen danke ich f¨

ur die ¨

Ubernahme des Korreferates und die Hinweise zur Verbesserung

dieser Arbeit.

Im Zuge meiner T¨

atigkeit sind eine Reihe von Projekt-, Studien- und Diplomarbeiten

entstanden, deren Ergebnisse vielf¨

altig in die Dissertation eingeflossen sind. Allen Studenten

danke ich f¨

ur die gute Zusammenarbeit. Stellvertretend seien hier Herr Dipl.-Ing. Maik Be-

vermeier, Herr Dipl.-Math. Alexander Kr¨

uger, Herr Dipl.-Ing. J¨

org Schmalenstr¨

oer und Herr

Dipl.-Ing. Dang Hai Tran Vu erw¨

ahnt, die mir nach ihrer studentischen T¨

atigkeit als Kollegen

erhalten geblieben sind. Ihnen und meinen weiteren Kollegen danke ich f¨

ur die vielen fachli-

chen und freundschaftlichen Gespr¨

ache. Meinem Kollegen Herrn Dipl.-Inf. Sven Peschke dan-

ke ich insbesondere f¨

ur die anregende Zeit im gemeinsamen B¨

uro und den unkonventionellen

fachlichen Gedankenaustausch. F¨

ur die hervorragende Unterst¨

utzung bei der fachgebietseige-

nen Simulationssoftware und die liebenswerten Kommentare zu allen Lebenslagen danke ich

Herrn Dr.-Ing. Valentin Ion.

Meinen Seilpartnern Georg, J¨

orn und Ingo danke ich f¨

ur die sch¨

onen Stunden in der Natur

und in der Vertikalen. Sie haben mir mit dem Klettern eine ideale Abwechslung zum Uni-

Alltag erm¨

oglicht und mir geholfen, die aufreibenden Phasen w¨

ahrend der Promotionszeit

durchzustehen.

Meiner Frau Kerstin danke ich f¨

ur ihre unglaubliche Geduld, den Verzicht auf viele ge-

meinsame Wochenenden und das Ertragen angespannter Arbeitsphasen. Durch ihre tatkr¨

af-

tige Unterst¨

utzung im Alltag hat sie mir eine intensive Auseinandersetzung mit dieser Arbeit

erm¨

oglicht. Meiner Tochter Frieda danke ich f¨

ur ihr Lachen und ihre unendliche Liebe.

Abschließend gilt mein Dank den Menschen, die mich von erster Stunde an begleitet

haben, meinen Eltern. Ihr Vertrauen, ihre Großz¨

ugigkeit und ihre stetige Unterst¨

utzung haben

f¨

ur mich erst viele Wege in meinem Leben gangbar gemacht – so auch das Studium und die

Promotion.

Inhaltsverzeichnis

1 Einleitung 1

1.1 Mehrkanalige St¨

orger¨

auschreduktion . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Wissenschaftliche Ziele dieser Arbeit . . . . . . . . . . . . . . . . . . . . . . . 7

2 Statistische Raumakustik 11

2.1 Schallausbreitung in R¨

aumen . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2 Raumimpulsantworten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Mehrkanaliges Signalmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.4 R¨

aumliche Koh¨

arenz akustischer Schallfelder . . . . . . . . . . . . . . . . . . 20

2.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3 Grundlagen zu Mikrophongruppen 29

3.1 Beamformer-Signalmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2 Delay-and-Sum-Beamformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3 Anordnung der Mikrophone . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.4 SNR-basierte Bewertungsgr¨

oßen des Beamformings . . . . . . . . . . . . . . . 40

3.5 Wahrnehmungsbasierte Qualit¨

atsbewertung des Sprachsignals . . . . . . . . . 44

3.6 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4 Statistisch optimales Beamforming 53

4.1 Max-SNR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2 Minimum Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.3 Maximum Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

4.4 Minimum Mean Squared Error . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.5 Experimente zur verallgemeinerten L¨

osung . . . . . . . . . . . . . . . . . . . . 62

4.6 Zusammenfassung und Diskussion . . . . . . . . . . . . . . . . . . . . . . . . 68

5 Adaptive L¨

osung des Eigenwertproblems 71

5.1 Spezielles Eigenwertproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.1.1 Potenzmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.1.2 Projektionsapproximation . . . . . . . . . . . . . . . . . . . . . . . . . 76

5.1.3 Gradientenverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.1.4 Neuartiges Gradientenverfahren . . . . . . . . . . . . . . . . . . . . . . 78

5.1.5 RLS-¨

Ahnliche Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.1.6 Simulationen zum speziellen Eigenwertproblem . . . . . . . . . . . . . 81

vi Inhaltsverzeichnis

5.2 Allgemeines Eigenwertproblem . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.2.1 Potenzmethode und Projektionsapproximation . . . . . . . . . . . . . 85

5.2.2 Neuartiges Gradientenverfahren . . . . . . . . . . . . . . . . . . . . . . 87

5.2.3 Simulationen zum allgemeinen Eigenwertproblem . . . . . . . . . . . . 91

5.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

6 Einkanaliges Nachfilter f¨

ur das Eigenvektor-Beamforming 97

6.1 Analytische Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

6.2 Statistische Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

6.3 Maximum-Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6.4 Simulationen zu Normalisierungsverfahren . . . . . . . . . . . . . . . . . . . . 101

6.4.1 PCA Beamforming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

6.4.2 GEV Beamforming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

7 Sprecherrichtungsbestimmung 113

7.1 Korrelation der Mikrophonsignale . . . . . . . . . . . . . . . . . . . . . . . . . 113

7.2 Abtastung der Richtcharakteristik . . . . . . . . . . . . . . . . . . . . . . . . 116

7.3 Implementierungsaspekte und Experimente . . . . . . . . . . . . . . . . . . . 117

7.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

8 GEV-Beamformer in GSC-Struktur 123

8.1 GSC in station¨

arer Umgebung . . . . . . . . . . . . . . . . . . . . . . . . . . 124

8.2 Realisierung der Blocking Matrix . . . . . . . . . . . . . . . . . . . . . . . . . 126

8.2.1 BM nach Griffiths und Jim . . . . . . . . . . . . . . . . . . . . . . . . 127

8.2.2 BM nach Gannot et al. . . . . . . . . . . . . . . . . . . . . . . . . . . 128

8.2.3 BM nach Hoshuyama et al. . . . . . . . . . . . . . . . . . . . . . . . . 130

8.2.4 Neuartige Bestimmung der Blocking Matrix . . . . . . . . . . . . . . . 132

8.3 Fixed Beamformer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

8.3.1 DSB als FBF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

8.3.2 Matched Filter als FBF . . . . . . . . . . . . . . . . . . . . . . . . . . 134

8.4 Experimentelle Untersuchungen . . . . . . . . . . . . . . . . . . . . . . . . . . 135

8.4.1 Generalized Sidelobe Canceller mit DSB . . . . . . . . . . . . . . . . . 136

8.4.2 Blinder Generalized Sidelobe Canceller . . . . . . . . . . . . . . . . . . 145

8.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

9 Zusammenfassung 151

A Lineare Algebra – Matrizen 155

A.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155

A.2 Matrix Inversion f¨

ur optimales Beamforming . . . . . . . . . . . . . . . . . . 156

A.3 Matrix Inversion f¨

ur Fixpunkt-Adaption . . . . . . . . . . . . . . . . . . . . . 158

Inhaltsverzeichnis vii

B R¨

aumliche Koh¨

arenz eines diffusen Schallfeldes 159

C Geometrische Anordnungen der Simulationen 161

C.1 Spiegelquellenmethode f¨

ur St¨

orger¨

auschunterdr¨

uckung . . . . . . . . . . . . . 161

C.2 Spiegelquellenmethode f¨

ur blinde Quellentrennung . . . . . . . . . . . . . . . 162

D Robuste Sprache/Pause-Detektion 165

D.1 Likelihood-Ratio-Entscheidungsregel . . . . . . . . . . . . . . . . . . . . . . . 165

D.2 Sch¨

atzung des a priori SNR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

D.3 Analyse von Fehlsch¨

atzungen der Rauschvarianz . . . . . . . . . . . . . . . . 169

D.4 Simulationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171

D.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

E Adaptive Eigenwertzerlegung 175

E.1 Oja Lernregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

E.2 Schrittweite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

F Exkurs zur blinden Quellentrennung 181

F.1 Unterbesetzter Zeit-Frequenz-Raum . . . . . . . . . . . . . . . . . . . . . . . 182

F.2 PCA Beamforming im Mehr-Sprecher-Szenario . . . . . . . . . . . . . . . . . 184

F.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

Formelzeichen und Abk¨

urzungen 191

Literaturverzeichnis 201

Eigene Publikationen 219

viii Inhaltsverzeichnis

Kapitel 1

Einleitung

Die wichtigste und nat¨

urlichste Kommunikationsform des Menschen ist die Sprache. Aufgrund

der Entwicklung der Informations- und Kommunikationstechnik in den letzten Jahren sind

viele Anwendungen entstanden, um dem Bed¨

urfnis des Menschen nach allgegenw¨

artiger und

komfortabler Sprachkommunikation zu entsprechen. Dies ist insbesondere an dem sprunghaft

gewachsenen Markt der Mobiltelefonie im letzten Jahrzehnt abzulesen. Zus¨

atzlich zu der mo-

bilen Telefonie und der klassischen Festnetztelefonie entsteht aktuell ein besonderes Interesse

an neuen Kommunikationstechniken wie sie die internetbasierte Telefonie erm¨

oglicht. Dabei

ist insbesondere der Vorteil zur Sprachkommunikation, parallel weitere Daten wie Text-, Bild-

und Videomaterial auszutauschen, sehr reizvoll.

Um den Komfort f¨

ur Kommunikationsteilnehmer zu steigern und eine erh¨

ohte Mobilit¨

w¨

ahrend der Kommunikation zu gew¨

ahrleisten, ist der Einsatz von Freisprecheinrichtungen

w¨

unschenswert1. Im ¨

uberwiegenden Fall ist dabei der Kommunikationspartner ebenfalls ein

Mensch, weshalb auch von Mensch-Mensch-Kommunikation gesprochen wird. Dadurch of-

fenbaren sich aber auch schon zwei wesentliche Probleme der Freisprechanwendung. Zum

einen werden bei der Aufnahme der Sprache vorhandene St¨

orger¨

ausche in der Umgebung des

Sprechers ebenfalls von den Mikrophonen erfasst und mit¨

ubertragen. Zum anderen entste-

hen bei einer Duplex-Verbindung durch die gleichzeitige Ausgabe und Aufnahme der Sprache

beim entfernten Kommunikationspartner auf der Sendeseite Echo- bzw. Halleffekte. Die Ein-

bußen in der Sprachqualit¨

at durch die additiven St¨

orger¨

ausche und die ¨

außerst irritierenden

Echokomponenten m¨

ussen durch geeignete Verfahren zur Sprachsignalverbesserung minimiert

werden, um eine Akzeptanz des Anwenders f¨

ur ein Freisprechsystem zu schaffen.

W¨

ahrend bei einer Mensch-Mensch-Kommunikation St¨

orungen der Sprache lediglich als

qualit¨

atsmindernd anzusehen sind, k¨

onnen gest¨

orte Sprachsignale bei der maschinellen Wei-

terverarbeitung zu erheblichen Fehlern f¨

uhren. Bei dieser so genannten Mensch-Maschine-

Kommunikation ist eine hohe Sprachsignalqualit¨

at von essentieller Bedeutung f¨

ur das ma-

schinelle Erkennen der gesprochenen Sprache. Die automatische Spracherkennung kann dabei

z. B. in Auskunftsystemen, f¨

ur Diktieranwendungen oder aber auch zur Sprachsteuerung

von Robotersystemen eingesetzt werden. Verwandt mit der Spracherkennung ist die Spre-

chererkennung. Diese kann zur Stimmenidentifizierung und Authentifizierung in Sicherheits-

systemen zum Einsatz kommen. Weiterhin kann z. B. f¨

ur ¨

Uberwachungssysteme, oder zur

1Aus Gr¨

unden der Verkehrssicherheit ist das Telefonieren im fahrenden Kraftfahrzeug ohne Freisprechein-

richtung seit Februar 2001 sogar verboten.

2Kapitel 1. Einleitung

Kamerasteuerung bei einer Telekonferenz die Information ¨

uber die Position des Sprechers

in seiner Umgebung von Bedeutung sein. All diese Problemstellungen k¨

onnen auch als Teila-

spekte eines Gesamtsystems verstanden werden, welches dann mit dem Schlagwort akustische

Szenenanalyse bezeichnet werden kann. W¨

ahrend aber bei der akustischen Szenenanalyse al-

le pr¨

asenten Ger¨

auschquellen zu lokalisieren, zu trennen und letztlich zu klassifizieren sind,

ergibt sich unter dem Gesichtspunkt der Sprache als Quellsignal vielmehr die griffig zu for-

mulierende Fragestellung: “Wer spricht wann, wo und was?”

Die genannten Anwendungsbeispiele zeigen die hohe Relevanz der Sprachsignalverarbei-

tung und insbesondere den Teilaspekt der Sprachsignalverbesserung f¨

ur gegenw¨

artig existie-

rende Produktl¨

osungen aber auch f¨

ur zukunftsweisende Szenarien wie z. B. eine vernetzte

Hausumgebung mit intelligenten, multimodalen Schnittstellen als kontextbewusstes System

[Ami, SHUW07]. Hierbei soll die Problemstellung der Sprachsignalverbesserung unter dem

Aspekt lediglich eines aktiven Sprechers2in einer gest¨

orten Umgebung betrachtet werden.

Bez¨

uglich der St¨

orquellen soll die praktisch sehr relevante Annahme gelten, dass es sich

um ein schwach zeitvariantes Hintergrundrauschen mit einer leichten Tiefpasscharakteris-

tik handelt. Grunds¨

atzlich lassen sich dabei Ger¨

auschreduktionssysteme in zwei Kategorien

einteilen: ein- und mehrkanalige Systeme, d. h. ob die zugrundeliegende Freisprecheinrichtung

aus einem oder mehreren Mikrophonen aufgebaut ist. Im Bereich der einkanaligen Sprach-

signalverbesserung sind in den letzten Jahrzehnten eine Vielzahl von Verfahren vorgestellt

worden, die im Wesentlichen rein spektrale Eigenschaften der Eingangsdaten auswerten, sie-

he z. B. [BCM05, VM06, Loi07]. In der Regel ist mit einkanaligen Methoden zwar eine starke

Unterdr¨

uckung der St¨

orsignalkomponenten m¨

oglich, aber gleichzeitig entstehen zus¨

atzliche

Artefakte als tonales Rauschen3und eine nicht unerhebliche Sprachverzerrung.

Durch die Anordnung von mehreren akustischen Sensoren als Mikrophongruppe entsteht

ein mehrkanaliges Signal zur Weiterverarbeitung mittels Algorithmen zur St¨

orger¨

auschreduk-

tion. Die mehrkanaligen Ans¨

atze zur Signalverarbeitung k¨

onnen dann zus¨

atzlich die r¨

aum-

liche Information, welche aufgrund von Laufzeitunterschieden der akustischen Signale von

den Quellen zu den Mikrophonen entstehen, ausnutzen. Dadurch ist eine gewisse r¨

aumliche

Unterscheidung zwischen dem Nutzsignal und dem St¨

orsignal m¨

oglich, wobei Signale aus

der Richtung des Nutzsignals m¨

oglichst unverzerrt zu belassen und St¨

orsignale aus ande-

ren Raumrichtungen zu unterdr¨

ucken sind. Diese Vorgehensweise kann auch als akustische

Strahlformung4(engl. Beamforming) aufgefasst und ¨

uber die so genannte Richtcharakteristik

r¨

aumlich interpretiert werden.

In praktischen Anwendungsbeispielen treten vielf¨

altige Probleme beim Entwurf von Beam-

forming-Verfahren auf, wie der breitbandige Charakter der Sprachsignale, die Mehrwegeaus-

breitung des akustischen Schalls aufgrund von Reflexionen an den Raumbegrenzungen, und

m¨

ogliche Positions¨

anderungen der akustischen Quellen, insbesondere ein sich bewegender

Sprecher. Außerdem unterliegt das Design wirtschaftlichen und geometrischen Restriktionen

bez¨

uglich der Anzahl und der Anordnung der Mikrophone.

2Die Problemstellung, ein Gemisch von mehreren Sprachsignalen zu trennen, wird nur peripher im Anhang

F behandelt.

3Bei dem tonalen Rauschen handelt es sich um spektral gef¨

arbtes, instation¨

ares Rauschen, welches f¨

ur den

Menschen als sehr unangenehm empfunden wird.

4Eine r¨

aumliche Filterung von Signalen wird in verschiedenen Anwendungen eingesetzt wie z. B. der Radar-

technik, der Kommunikationstechnik, bei geophysikalischen Anwendungen oder eben auch in der Sprachsignal-

verarbeitung.

1.1. Mehrkanalige St¨

orger¨

auschreduktion 3

Seit einigen Jahren wird die Verwendung von Mikrophongruppen zur Sprachsignalverar-

beitung immer interessanter aufgrund der stetig steigenden Leistungsf¨

ahigkeit von digitalen

Signalprozessoren.

1.1 Mehrkanalige St¨

orger¨

auschreduktion

Die entscheidende Eigenschaft eines mehrkanaligen Mikrophonsignals besteht im Zeitversatz

der einzelnen Signale zueinander bedingt durch die Laufzeitunt erschiede des akustischen

Signals von der Quelle hin zu den verwendeten Sensoren. Dies gilt f¨

ur die direkten Ausbrei-

tungspfade aber auch f¨

ur die jeweiligen Reflexionen an den Raumbegrenzungen. Die einfachste

Variante einer Strahlformung besteht nun darin, den entstandenen Zeitversatz der direkten

Ausbreitungspfade zu kompensieren und die Signale koh¨

arent zu addieren. Ein solches Ver-

fahren wird entsprechend dem Vorgehen als Delay-and-Sum-Beamformer (DSB) bezeichnet.

Dabei wird das akustische Signal aus einer gew¨

unschten Richtung unverzerrt ¨

ubertragen, wo-

hingegen Signale aus anderen Richtungen ged¨

ampft werden. Zus¨

atzlich ist es m¨

oglich, nach

dem Laufzeitausgleich in jedem Signalpfad Filterfunktionen einzusetzen, welche je nach Ent-

wurfskriterium die Richtcharakteristik des Beamformers beeinflussen. Allgemein kann dann

von einem Filter-and-Sum-Beamformer (FSB) gesprochen werden. Dabei l¨

asst sich der Ent-

wurf f¨

ur die Filter prinzipiell in zwei Klassen aufteilen: datenunabh¨

angige und datenabh¨

an-

gige Verfahren [VVB88]. Bei den datenunabh¨

angigen Verfahren werden die Filtergewichte

a priori entsprechend einer gew¨

unschten Richtcharakteristik entworfen [VT02] und bleiben

w¨

ahrend der Anwendung unver¨

andert; sie sind also unabh¨

angig von den Eigenschaften der

zu verarbeitenden Signale. Im Allgemeinen ist jedoch eine deutlich h¨

ohere Unterdr¨

uckung

von St¨

orger¨

auschen zu erzielen, wenn die Filterkoeffizienten des Beamformers adaptiv dem

konkreten St¨

orszenario angepasst werden k¨

onnen. In diesem Fall spricht man von datenab-

h¨

angigen Beamforming-Verfahren.

Grunds¨

atzlich bedeutet mehrkanalige St¨

orger¨

auschreduktion aus Sicht der statistischen

Signalverarbeitung die Minimierung der Varianz der St¨

orung am Ausgang des Beamformers.

Dieses Ziel wird je nach Anordnung der Mikrophone, sowie a priori Wissen und Annahmen

bez¨

uglich der Signale mit unterschiedlichen Ans¨

atzen der Signalverarbeitung verfolgt. Eine

sehr ¨

ubersichtliche Einf¨

uhrung in die Thematik des adaptiven Beamformings pr¨

asentieren Van

Veen und Buckley in [VVB88]. Cox et al. haben eine Zusammenfassung fr¨

uher Arbeiten zum

adaptiven Beamforming und zu Robustheitsaspekten in [CZO87] erstellt. Das wohl bekanntes-

te Optimierungskriterium besteht in der Minimierung der Ausgangsleistung des Beamformers

mit der Nebenbedingung eines unverzerrten Signals aus einer gew¨

unschten Richtung, welche

im Allgemeinen durch die Sch¨

atzung der Sprecherrichtung gegeben ist. Daher wird auch

vom Minimum Variance Distortionless Response (MVDR) Beamformer gesprochen. F¨

ur den

MVDR Beamformer sind in [GM55] und [Cap69] erste Untersuchungen von besonderer Be-

deutung zu finden, wobei der Fokus auf dem seismischen Anwendungsbereich liegt. Einen

weit verbreiteten adaptiven MVDR-L¨

osungsansatz f¨

ur das akustische Beamforming hat Frost

[Fro72] vorgestellt. Dabei wird f¨

ur die gesch¨

atzte Sprecherrichtung eine vorgegebene spektrale

Ubertragungsfunktion mittels einer Nebenbedingung5eingehalten, w¨

ahrend die Leistung des

5Da es sich in der Regel um lineare Nebenbedingungen beim adaptiven MVDR Beamformer handelt, wird

auch h¨

aufig vom Linearly Constrained Minimum Variance Distortionless Response (LCMVDR) Beamformer

gesprochen.

4Kapitel 1. Einleitung

Rauschens durch die Minimierung der gesamten Ausgangsleistung reduziert wird. W¨

ahrend

die Gradienten-Adaptionsregel in [Fro72] mit den instantanen Eingangsdaten abl¨

auft, erfolgt

in [Dob06] basierend auf der Arbeit in [PK01] dessen Erweiterung unter Ber¨

ucksichtigung der

gegl¨

atteten spektralen Kreuzleistungsdichten der Signale mit dem Ziel einer beschleunigten

Adaption. Eine theoretische Basis f¨

ur die MVDR-L¨

osung unter Einbeziehung der Mehrwege-

ausbreitung von akustischen Signalen wird in [KHJ06] vorgestellt6.

Die Leistungsf¨

ahigkeit von MVDR-Beamforming-Verfahren wird entscheidend von der

Genauigkeit der Sch¨

atzung der Einfallsrichtung des gew¨

unschten Quellensignals, und damit

der Richtung aus der das Signal unverzerrt ¨

ubertragen werden soll, bestimmt. Abweichungen

zwischen wahrer und gesch¨

atzter Richtung, k¨

onnen zu starken Signalverzerrungen und unge-

wollter Verst¨

arkung von St¨

orungen f¨

uhren [WA96]. Weiterhin sind die meisten Beamforming-

Verfahren sehr sensitiv gegen¨

uber nicht kalibrierten Mikrophonsystemen (ungleiche Richtcha-

rakteristiken der verwendeten Mikrophone, unterschiedliche Verst¨

arkung der einzelnen Signal-

pfade in der nachverarbeitenden Elektronik und ungenaue Positionierung der Mikrophone).

Daher besch¨

aftigt sich eine Vielzahl aktueller Arbeiten zu adaptiven MVDR-Beamforming-

Methoden mit Robustheitsaspekten. Hierzu sind in [LS05] wesentliche Methoden beschrieben

und ebenfalls in [HGJ06, JHLCCC06] erw¨

ahnt.

Wird ein Beamformer ausschließlich hinsichtlich der Direktivit¨

at optimiert, also das Signal-

zu-Rauschleistungsverh¨

altnis f¨

ur den Fall eines diffusen St¨

orschallfelds maximiert, so erh¨

alt

man eine spezielle Klasse von MVDR-Beamforming-Verfahren, die in der Praxis von großer

Bedeutung sind. Man bezeichnet solch einen Beamformer als Superdirektiven Beamformer

und dessen Eigenschaft als Superdirektivit¨

at. Fr¨

uhe Arbeiten zur robusten Realisierung Su-

perdirektiver Beamformer sind in [GM55, US56, CZK86] und eine aktuellere ¨

Ubersicht in

[Elk00, BS01] zu finden. Moderne Realisierungen beinhalten z. B. Entwurfskriterien f¨

ur Nah-

feldanwendungen wie in [T¨

ag98, JG00] mit der Anwendung f¨

ur Freisprecheinrichtungen in

Kraftfahrzeugen [MPL01] oder zur Spracherkennung an einem PC-Arbeitsplatz [MMM00].

Weitere aktuelle Arbeiten besch¨

aftigen sich z. B. mit Robustheitsaspekten bez¨

uglich fehlerhaf-

ter Annahmen der Charakteristik von linearen Mikrophongruppen kleiner Apertur [DM06],

dem Beamforming-Design f¨

ur binaurale Anwendungen mit zweikanaliger Ein- und Ausgabe

zur Bewahrung Interauraler Eigenschaften [LV06] oder der Einbeziehung der Richteigenschaf-

ten der verwendeten Mikrophone [Buc07]. Bitzer et al. stellen in [BSK99a] eine alternative

Realisierung des Superdirektiven Beamformers in einer Struktur als Generalized Sidelobe Can-

celler (GSC) mit dem Vorteil einer Reduzierung der Rechenkomplexit¨

at vor.

Grunds¨

atzlich erfolgt bei einem GSC die Minimierung des Rauschens in einem Signal,

welches mit einem nichtadaptiven Beamformer erzeugt wird, mittels adaptiver Filter, an

dessen Eing¨

angen dann St¨

orger¨

auschreferenzsignale anliegen. Diese St¨

orger¨

auschreferenzsi-

gnale werden mit Hilfe einer so genannten Blocking Matrix erzeugt. Die GSC-Struktur wurde

erstmals von Griffiths und Jim [GJ82] vorgeschlagen und kann als Umformung des beding-

ten Minimierungsproblems nach [Fro72] in ein Minimierungsproblem ohne Nebenbedingung

betrachtet werden. In [GJ82] wird vorgeschlagen, die St¨

orger¨

auschreferenzsignale durch die

paarweise Subtraktion aufeinander zeitangepasster Signale zu generieren.

Bitzer et al. [BSK99c] sowie Nordholm und Leug [NL00] haben den GSC abh¨

angig von

dem St¨

orschallfeld untersucht. F¨

ur den Fall von gerichteten St¨

orungen ist dabei die Rausch-

6Obschon bei den Herleitungen in [KHJ06] Reflexionspfade ber¨

ucksichtigt werden, so ist in den Experimen-

ten nur der direkte Ausbreitungspfad zu finden.

1.1. Mehrkanalige St¨

orger¨

auschreduktion 5

unterdr¨

uckung theoretisch unendlich hoch, w¨

ahrend bei dem praktisch sehr relevanten dif-

fusen St¨

orschallfeld die Ger¨

auschreduktion recht gering ausf¨

allt. Ein wesentliches Problem

der Originalvariante nach [GJ82] ist die Annahme der Freifeldausbreitung des Sprachsignals.

Denn nur unter dieser Bedingung k¨

onnen mittels der paarweisen Subtraktion aufeinander

zeitangepasster Mikrophonsignale optimale St¨

orger¨

auschreferenzsignale erzeugt und eine ho-

he St¨

orger¨

auschreduktion bei unverzerrt gebliebenem Sprachsignal erreicht werden. Dieses

Manko ist in einigen Arbeiten explizit aufgegriffen worden.

Nordholm et al. haben in [NCB93] r¨

aumliche Hochpassfilter in der Blocking Matrix ver-

wendet. Durch die aufwendige Filterung sind dann genauere St¨

orger¨

auschreferenzsignale be-

stimmt worden. Meyer und Sydow [MS97] verwenden unterschiedliche Beamformer f¨

ur die

St¨

orung und den Sprecher, um mittels des Beamformers f¨

ur das St¨

orsignal den Anteil der

Sprache im St¨

orger¨

auschreferenzsignal zu vermindern.

Die Mehrwegeausbreitung des Sprachsignals ist von Jan und Flanagan in [JF96] konstruk-

tiv mittels Matched Filter im nichtadaptiven Beamformer genutzt worden. Die Filter bestehen

dabei aus komplex konjugierten ¨

Ubertragungsfunktionen, welche zuvor zwischen dem Spre-

cher und den Sensoren bestimmt wurden. Rabinkin et al. [RRFM98] zeigen, dass solch ein

Matched Filter Beamformer (MFB) einem DSB ¨

uberlegen ist.

Eine adaptive Variante beschreiben Gazor et al. [GAG96], wobei das Nachf¨

uhren der Fil-

ter durch eine iterative Hauptkomponentenanalyse der spektralen Kreuzleistungsdichtematrix

der Eingangsdaten mittels einer modifizierten Variante des Adaptionsverfahrens [Oja82] er-

folgt. Dabei wird das Ausgangssignal des GSCs zur Adaption des Matched Filter Beamformers

r¨

uckgekoppelt. Entscheidend f¨

ur die Adaption sind die Initialwerte der Filterkoeffizienten. Die

Blocking Matrix wird ¨

aquivalent zu [GJ82] berechnet. Eine Erweiterung dieses Verfahrens ist

in [AG97] zu finden mit der Adaptionsregel [Yan95] und einem expliziten L¨

osungsvorschlag

zur Normalisierung der Matched-Filter-Koeffizienten optimiert f¨

ur eine Sprecherposition vor

einem PC-Arbeitsplatz. Hier wird die Blocking Matrix zur Erzeugung der St¨

orger¨

auschrefe-

renzsignale durch eine orthogonale Projektion bestimmt. Bei der Anwendung in einer Um-

gebung mit unbekannten, gerichteten St¨

orschallquellen kann jedoch eine ungewollte Identifi-

zierung der St¨

orung als Nutzsignal vorkommen und vice versa das Sprachsignal unterdr¨

uckt

werden.

Hoshuyama et al. [HSH96, HSH99] haben Least Mean Squares (LMS) adaptive Filter

zur Sprachsignalunterdr¨

uckung in der Blocking Matrix verwendet und benutzen so genannte

leckende (engl. Leaky) Koeffizienten bzw. eine Koeffizientenbeschr¨

ankung zur Robustheitsstei-

gerung bez¨

uglich einer fehlerhaften Sprecherrichtungssch¨

atzung. In Phasen, wenn am Aus-

gang des nichtadaptiven Beamformers lediglich das Sprachsignal beobachtet wird, dient dieses

dann als Referenz zur Adaption der Blocking Matrix. In einem Szenario mit permanent ak-

tiven St¨

orschallquellen, sind solche Zeitabschnitte jedoch nicht vorhanden. Die Adaption mit

einem stark gest¨

orten Sprachsignal f¨

uhrt dann konsequenterweise zu erheblichen Sprachsignal-

verzerrungen durch den GSC. Die Struktur des GSCs mit LMS-adaptiver Blocking Matrix

und LMS-adaptiven Filtern zur Rauschunterdr¨

uckung ist als effiziente Realisierung im Fre-

quenzbereich von Herbordt und Kellermann in [HK01] vorgestellt worden. Die resultierende

GSC-Struktur wurde in [Her04] mit einer Echokompensation in unterschiedlichen Varianten

als Gesamtsystem realisiert und untersucht. In [HBNK07] sind weitere Robustheitsaspekte

bez¨

uglich der Adaption beschrieben, um Probleme bedingt durch das so genannte Gegenspre-

chen in Freisprecheinrichtungen zu l¨

osen.

Eine signalangepasste Blocking Matrix, welche auch mit einem stark gest¨

orten Sprachsi-

6Kapitel 1. Einleitung

gnal adaptiert werden kann, wurde von Gannot et al. [GBW99, GBW01] vorgestellt. Grund-

lage ist dabei die Sch¨

atzung der Verh¨

altnisse der Raum¨

ubertragungsfunktionen zwischen dem

Sprecher und den Mikrophonen nach dem in [SW96] beschriebenen Kriterium der Dekorrelati-

on unter Ausnutzung der Stationarit¨

at des St¨

orsignals und der Nichtstationarit¨

at der Sprache.

Die entstehenden Sprachverzerrungen des Gesamtsystems sind ausf¨

uhrlich in [GBW04] be-

handelt. Dabei scheinen insbesondere in dem unteren Frequenzbereich Probleme aufzutreten.

Die GSC-Struktur ist zur weiteren St¨

orger¨

auschreduktion in [GC04] mit einer zus¨

atzlichen

Nachfilterung versehen worden. Eine Erweiterung des Gesamtsystems zur Unterdr¨

uckung

eines zweiten Sprechers – also einer instation¨

aren St¨

orquelle – wird in [RGC07b, RGC08]

vorgestellt.

Eine andere Variante des adaptiven Beamformings ergibt sich mit dem Ansatz der Mi-

nimierung des kleinsten mittleren quadratischen Fehlers (engl. Minimum Mean Squared Er-

ror, MMSE). Dabei besteht die Schwierigkeit in der Sch¨

atzung eines Referenzsignals. Der

popul¨

arste Ansatz hierbei ergibt sich in der sequenziellen Anordnung eines MVDR Beam-

formers und eines einkanaligen Nachfilters (engl. Postfilter) [SBM01], wobei eine Mittelung

der Kreuzleistungsdichten zwischen jeweils zwei Signalpaaren zur Sch¨

atzung der spektralen

Kreuzleistungsdichte-Matrix des Nutzsignals verwendet werden kann [Zel88]. Eine Verbesse-

rung dieser Sch¨

atzung ist Gegenstand neuerer Ver¨

offentlichungen [SW92, MMU98, BSK99b,

MB02, MB03].

Alternativ wurden von Nordholm et al. [NCG01] ¨

uber eine Kalibrierungs-Sprachsequenz

die optimalen Filterkoeffizienten f¨

ur die Mikrophongruppe (In Situ Calibrated Microphone

Array, ICMA) in einem Kraftfahrzeug berechnet und eine Teilbandimplementierung vorge-

nommen. Dabei beinhaltet die MMSE-Sch¨

atzung repr¨

asentative Einfl¨

usse der verwendeten

Hardware sowie der Mikrophon- und Sprecherposition. In [GN02, NGL05] ist dieser Ansatz

f¨

ur eine gewisse Region (Soft Constrained) um die erwartete Sprecherrichtung erweitert.

Eine andere M¨

oglichkeit zur Sch¨

atzung eines Referenzsignals basiert auf Techniken ¨

ahn-

lich denen zur einkanaligen spektralen Subtraktion. Daf¨

ur wird in [Flo01] eine Sprache/Pause-

Detektion eingesetzt und die Beamformer-Adaption ¨

uber einen LMS-Algorithmus durchge-

f¨

uhrt. Eine Adaption nach dem RLS -Prinzip (engl. Recursive Least Squares, RLS) gekoppelt

mit der kontinuierlichen spektralen Sch¨

atzung der St¨

orung mittels Minimumstatistik nach

Martin [Mar94, Mar01] und spektraler Subtraktion zur Sch¨

atzung eines Sprachreferenzsignals

wird von Aichner et al. [AHBK03] vorgeschlagen.

Bei der statistischen Auswertung der durch die Kovarianzmatrizen von Sprach- und St¨

or-

signal aufgespannten Unterr¨

aume (engl. Subspace) im Zeitbereich oder der Matrizen der spek-

tralen Leistungsdichten im Frequenzbereich erh¨

alt man eine g¨

anzlich andere Klasse von Algo-

rithmen (engl. Subspace Approach). Die Idee hierbei ist, eine gemeinsame Diagonalisierung der

betrachteten Matrizen mit Hilfe der zugeh¨

origen Eigenvektoren durchzuf¨

uhren, um die opti-

malen MMSE-Filterkoeffizienten, bestehend aus den orthogonalen Matrizen dieser Eigenvek-

toren und der Diagonalmatrix der kombinierten Eigenwerte, zu erhalten. Die Berechnung der

Eigenvektoren im Zeitbereich f¨

uhrt zu einer verallgemeinerten Singul¨

arwertzerlegung (engl.

Generalized Singular Value Decomposition, GSVD), die entweder sehr rechenintensiv pro Ab-

tastzeitpunkt, etwas effizienter ¨

uber einen Rekursionsalgorithmus nach Doclo und Moonen

[DM01] oder als Teilbandimplementierung nach Spriet et al. [SMW02] erfolgen kann. Ein

alternatives Vorgehen zur Komplexit¨

atsreduzierung der Filterberechnug wird in [RM05] ¨

uber

eine QR-Zerlegung vorgestellt. Da diese Filterverfahren keinerlei Wissen ¨

uber die Sprecherpo-

1.2. Wissenschaftliche Ziele dieser Arbeit 7

sition ben¨

otigen, ist das Sprachsignal am Ausgang des Beamformers auch nicht verzerrungs-

frei (wie bei dem MVDR-Verfahren). In [DSWM05, CBHD06] werden daher M¨

oglichkeiten

diskutiert, um den Grad der Verzerrung zu bestimmen und konstruktiv zu verwerten. Eine

Erweiterung der GSVD-Technik mit zus¨

atzlichen adaptiven Filtern in einer GSC-Struktur ist

schließlich in [DM05] beschrieben.

1.2 Wissenschaftliche Ziele dieser Arbeit

Das prim¨

are Ziel der vorliegenden Arbeit ist die Entwicklung und Untersuchung von akus-

tischen Strahlformungsverfahren f¨

ur Sprachsignale unter Verwendung eines Optimierungs-

kriteriums, welches auf der Maximierung des Signal-zu-Rauschleistungsverh¨

altnisses (engl.

Signal-to-Noise Ratio, SNR) in jedem Frequenzband basiert. Dieses Kriterium hat den Vor-

teil, dass keine explizite Positionsbestimmung des Sprechers notwendig ist, sondern vielmehr

eine blinde Optimierung mit der impliziten Ber¨

ucksichtigung der gesamten Raumimpulsant-

wort zwischen dem Sprecher und der Mikrophongruppe erfolgt. Diese blinde Vorgehensweise

beinhaltet ebenfalls, dass die geometrische Anordnung der Mikrophone unbekannt sein kann

und eine Kalibrierung der Mikrophone ¨

uberfl¨

ussig ist. Bisher wurde solch ein Optimierungs-

ansatz jedoch nur f¨

ur Schmalband-Strahlformungsprobleme angewendet, bei denen die Band-

breite des Eingangssignals viel kleiner als seine Mittenfrequenz ist (z. B. in der Antennen-

technik). F¨

ur die akustische Strahlformung galt das Kriterium bislang als ungeeignet, da die

Maximierung des SNRs f¨

ur jede betrachtete Frequenzkomponente unabh¨

angig voneinander

durchgef¨

uhrt wird, und sich somit Sprachsignalverzerrungen am Ausgang des Beamformers

einstellen. Daher werden in dieser Arbeit eigenentwickelte Verfahren aufgezeigt, welche diese

Verzerrungen deutlich reduzieren k¨

onnen. Ein weiteres Ziel ist die Entwicklung und Anpas-

sung von Algorithmen zur adaptiven Umsetzung des Optimierungskriteriums f¨

ur verschiede-

ne St¨

orschallfelder. Schließlich ist noch das Ziel der Arbeit unterschiedliche Strukturen zu

realisieren, um eine Optimierung hinsichtlich unterschiedlicher Stationarit¨

atsannahmen be-

z¨

uglich der Sprecherposition durchzuf¨

uhren: einerseits ein Filter-and-Sum-Beamformer f¨

eine schnelle Adaption und andererseits ein Generalized Sidelobe Canceller f¨

ur eine maximale

St¨

orger¨

auschunterdr¨

uckung.

Ausgangspunkt ist die Darstellung und der Vergleich grundlegender L¨

osungsans¨

atze zum

statistisch optimalenBeamforming im Frequenzbereich. Diese Ans¨

atze sind insbesondere: Mi-

nimum Variance Distortionless Response,Maximum Likelihood,Minimum Mean Squared Er-

ror und die Maximierung des SNRs (Max-SNR). Dabei kommt jeweils die allgemeine Annah-

me einer Mehrwegeausbreitung der akustischen Signale – also die Halleigenschaft von R¨

aumen

– zum Tragen. Beim Vergleich der resultierenden Filterkoeffizienten aus den unterschiedlichen

Ans¨

atzen zeigt sich, dass sie sich gerade in einem skalaren Faktor unterscheiden. Dieser kann

in Form eines einkanaligen Nachfilters realisiert werden, ¨

uber diesen dann die L¨

osungen in-

einander ¨

uberf¨

uhrbar sind. Es werden daher drei eigenentwickelte Methoden vorgestellt, um

mit Hilfe eines geeigneten Nachfilters eine approximative Realisierung eines MVDR Beamfor-

mers basierend auf der Maximierung des SNRs darzustellen. Somit bleiben die Vorteile des

SNR-Optimierungskriteriums erhalten, wobei gleichzeitig der Nachteil der Sprachverzerrung

zu einem Großteil ¨

uberwunden wird.

Da bei der vorliegenden Arbeit nicht die Konzeption einer mehrkanaligen Sprachsignalver-

besserung f¨

ur eine konkrete Problemstellung im Vordergrund steht, werden unterschiedliche

8Kapitel 1. Einleitung

Realisierungen f¨

ur unterschiedliche Anwendungsszenarien vorgestellt. Diese h¨

angen einerseits

von dem zu erwartenden St¨

orschallfeld und andererseits von der zu erwartenden Dynamik

der Sprecherbewegung ab. F¨

ur Letztgenanntes gilt, dass bei einem sich bewegenden Sprecher

eine Filter-and-Sum-Beamformer-Struktur mit geringen Filterl¨

angen aufgrund der schnellen

Nachf¨

uhrung der Filterkoeffizienten sinnvoll erscheint. Bei einer relativ statischen Anordnung

hingegen ist die Struktur eines Generalized Sidelobe Cancellers mit gr¨

oßeren Filterl¨

angen

m¨

oglich, da sie zu einer h¨

oheren Rauschunterdr¨

uckung f¨

uhrt.

Aufgrund der Relevanz der Eigenschaften der St¨

orung erfolgt eine Unterteilung verschie-

dener St¨

orungen bzw. St¨

orschallfelder. Die Formulierung des Optimierungskriteriums f¨

allt je

nach dem, ob gerichtete St¨

orschallquellen vorhanden sind oder nicht, anders aus. Wird da-

von ausgegangen, dass keine gerichteten St¨

orschallquellen aktiv sind, oder diese zumindest

sehr wenig Leistung im Vergleich zum Sprecher emittieren, so ergibt sich das spezielle Ei-

genwertproblem bez¨

uglich der Matrix der Kreuzleistungsdichten der Sprachsignale an den

Mikrophonen. Der resultierende Filterkoeffizientenvektor aus der Maximierung des SNRs ist

folglich gerade der dominante Eigenvektor des speziellen Eigenwertproblems. Sind starke ge-

richtete St¨

orschallquellen aktiv, so ergibt sich das verallgemeinerte Eigenwertproblem bez¨

ug-

lich zweier Kreuzleistungsdichtematrizen: die eine beinhaltet nur die St¨

orung und die andere

enth¨

alt zus¨

atzlich die Sprache. Daraus ergibt sich als optimaler Filterkoeffizientenvektor der

dominante Eigenvektor des entsprechenden verallgemeinerten Eigenwertproblems. In dieser

Arbeit werden eigenentwickelte Gradientenverfahren zur adaptiven L¨

osung des speziellen und

des verallgemeinerten Eigenwertproblems vorgestellt. Es findet ein Vergleich zu ausgew¨

ahlten

Verfahren aus der Literatur statt, und die letztendlich verwendeten, modifizierten Algorith-

men werden mit entsprechenden Adaptionsschemata angegeben.

Einen weiteren Schwerpunkt der Arbeit stellt die Entwicklung einer GSC-Struktur basie-

rend auf dem verallgemeinerten Eigenwertproblem dar. Insbesondere wird eine neue Blocking

Matrix vorgestellt, die die Vorteile besitzt, dass auch verhallte Sprachsignale in hohem Maße

ged¨

ampft werden, und dass eine Adaption auf den Sprecher hin erfolgen kann, wenn gleich-

zeitig ein starkes station¨

ares St¨

orschallfeld vorliegt. Die Komponente des so genannten Fixed

Beamformers wird in zwei Varianten realisiert: Zum einen mit einem DSB und zum anderen

mit einem Matched Filter, der aus einer Modifikation des dominanten Eigenvektors hervor-

geht. Der GSC mit der eigenentwickelten Blocking Matrix und einem idealen DSB als Fixed

Beamformer zeigt nahezu das gleiche Leistungsverhalten wie das verwendete Referenzsys-

tem7. Die Verwendung des Matched Filters anstatt des DSBs f¨

uhrt zu geringf¨

ugigen Sprach-

signalverzerrungen, hat jedoch den Vorteil, keine Information ¨

uber die Sprecherrichtung zu

ben¨

otigen.

Weiterhin wird in der vorliegenden Arbeit gezeigt, wie mit Hilfe des adaptiv bestimmten

dominanten Eigenvektors eine relativ zuverl¨

assige Sprecherrichtungssch¨

atzung m¨

oglich ist,

obwohl starke gerichtete St¨

orschallfelder das eigentliche Sprachsignal ¨

uberlagern.

Obschon hier das prim¨

are Ziel in der Verbesserung von Sprachsignalen liegt, bei denen zu

einem gegebenen Zeitpunkt nur ein Sprecher aktiv ist, erfolgt im Anhang ein kleiner Exkurs

zur blinden Quellentrennung. Dabei besteht die Problemstellung darin, zwei gleichzeitig ak-

tive Sprecher zu trennen, also zwei Ausgangssignale zu erzeugen. Diese beinhalten dann im

Idealfall jeweils nur das Signal eines Sprechers. Auch f¨

ur diese Anwendung werden modifizierte

7Als GSC-Referenzsystem wird die Frequenzbereichsrealisierung von [HSH99] verwendet, wobei ein ideali-

siertes Sprachreferenzsignal zur Adaption herangezogen wird.

1.2. Wissenschaftliche Ziele dieser Arbeit 9

Adaptionsalgorithmen zur L¨

osung eines speziellen Eigenwertproblems verwendet.

Gliederung dieser Arbeit

Die vorliegende Arbeit l¨

asst sich in drei Teile gliedern: Im ersten Teil (Kapitel 2 und 3)

werden zuerst relevante akustische Eigenschaften geschlossener R¨

aume erl¨

autert, die f¨

ur das

Verst¨

andnis der im Folgenden untersuchten St¨

orszenarien notwendig sind. Die Erkl¨

arungen zu

einigen Begriffen der Raumakustik sind ebenfalls f¨

ur die Beurteilung der Sprachsignalqualit¨

hilfreich. Danach erfolgt eine Beschreibung m¨

oglicher Anordnungen von Mikrophongruppen

und die Einf¨

uhrung wesentlicher Gr¨

oßen, welche sich aus der Richtcharakteristik ergeben. Die-

se sind f¨

ur die frequenzabh¨

angige objektive Messung von Leistungsmerkmalen mehrkanaliger

Ans¨

atze zur Sprachsignalverbesserung notwendig.

Der zweite Teil (Kapitel 4, 5 und 6) besch¨

aftigt sich mit unterschiedlichen Ans¨

atzen

zum statistisch optimalen Beamforming und Verfahren zur iterativen L¨

osung des Eigen-

wertproblems f¨

ur das SNR-Optimierungskriterium. Es werden eigenentwickelte Adaptions-

vorschriften vorgestellt und experimentelle Untersuchungen zum Konvergenzverhalten pr¨

sentiert. In Kapitel 6 wird mittels neuartiger Nachfilter der Zusammenhang zwischen dem

SNR-Optimierungskriterium und einem verallgemeinerten MVDR Beamforming hergestellt.

Der abschließende dritte Teil (Kapitel 7 und 8) behandelt die M¨

oglichkeit einer robusten

Sprecherrichtungssch¨

atzung mittels Eigenwertzerlegung und die Realisierung eines Genera-

lized Sidelobe Canceller mittels neuartiger Ans¨

atze f¨

ur die Blocking Matrix in Kombination

mit einem Delay-and-Sum-Beamformer aber auch einer“blinden”Variante mit einem Matched

Filter.

10 Kapitel 1. Einleitung

Kapitel 2

Statistische Raumakustik

F¨

ur die Beschreibung akustischer Signale, die sich am Aufnahmeort von Mikrophonen aus-

bilden, ist es notwendig, eine Einteilung unterschiedlicher Schallfelder durchzuf¨

uhren. Dabei

wird insbesondere auf die statistischen Eigenschaften der Schallfelder eingegangen, welche

maßgeblich durch die raumakustischen Bedingungen bestimmt werden. In diesem Kapitel er-

folgt zuerst eine Einf¨

uhrung in die Grundlagen der statistischen Raumakustik, wobei es im

Wesentlichen um die Definition der Nachhallzeit und des Hallradius geht. Daf¨

ur wird ins-

besondere die Raumimpulsantwort betrachtet und deren Simulationsm¨

oglichkeit f¨

ur kleine

R¨

aume. Weiterhin erfolgt eine Analyse der Schallausbreitung in R¨

aumen anhand der r¨

aumli-

chen Koh¨

arenz sowie die Formulierung des Signalmodells, welches die Signale an den Mikro-

phonen des Arrays beschreibt. Dabei wird auf die Problematik beim Messen der r¨

aumlichen

Koh¨

arenz eingegangen. Abschließend sind einige Ergebnisse von Messungen an simulierten

Schallfeldern, aber auch an Aufnahmen von St¨

orfeldern in realen Umgebungen aufgef¨

uhrt.

2.1 Schallausbreitung in R¨

aumen

In halligen R¨

aumen werden Schallwellen an begrenzenden Fl¨

achen und Einrichtungsgegen-

st¨

anden reflektiert. Daher ist es sinnvoll, eine grobe Einteilung der Schallausbreitung in R¨

au-

men vorzunehmen in die direkte Komponente, also den Direktschall von der Quelle zur Imissi-

onsstelle, und in indirekte Komponenten aufgrund der Reflexionen. Dabei kann der indirekte

Anteil noch unterteilt werden in so genannte fr¨

uhe Reflexionen und den Nachhall.

Um das von einer Schallquelle erzeugte Schallfeld vollst¨

andig zu beschreiben, w¨

are es not-

wendig, f¨

ur alle angeregten Frequenzen die Eigenschwingungen des Raums zu betrachten und

zu ¨

uberlagern. Die Schallausbreitung einzelner Frequenzkomponenten kann durch Differential-

gleichungen aus der wellentheoretischen Raumakustik beschrieben werden. Streng genommen

gibt es nur noch eine zweite Methode zur Analyse von Schallvorg¨

angen, die geometrische

Raumakustik. Sie bietet eine einfache M¨

oglichkeit zur Beschreibung der Schallausbreitung im

Raum in Form von geradlinigen Schallstrahlen. Da jedoch auch bei dem Modell der geometri-

schen Raumakustik mit fortschreitendem Beobachtungszeitraum die Komplexit¨

at drastisch

steigt, k¨

onnen ¨

uber das Schallfeld keine exakten Aussagen gemacht werden. Unter der Annah-

me, dass die Energiedichte des Schalls im Raum n¨

aherungsweise gleichverteilt ist, geht man

zu einem dritten Modell, der so genannt statistischen Raumakustik, ¨

uber. Diese besch¨

aftigt

sich nicht mit der Beschreibung aller Ausbreitungspfade der Schallstrahlen, sondern charak-

12 Kapitel 2. Statistische Raumakustik

terisiert R¨

aume durch deren Schallfeldparameter. Zwei wesentliche Gr¨

oßen sind hierbei zum

einen die Nachhallzeit, welche die Zeitdauer beschreibt, nach der die Schallenergiedichte im

Raum um einen definierten Teil gesunken ist, nachdem die Schallquelle abgeschaltet wird.

Zum anderen ist dies der Hallradius, der die Entfernung angibt, bei der die direkte gleich der

reflektierten Schallenergie ist.

Betrachtet man Schallwellen mit einer gewissen Anfangsenergie E0, welche sich im Raum

ausbreiten, so wird die Energie nach jeder Reflexion abnehmen und der Zeitverlauf der Ener-

giedichte nimmt die Exponentialform

E(t) = E0e−t

τ(2.1)

an. Die zeitliche D¨

ampfungseigenschaft des Raums τwird ¨

ublicherweise durch die Nachhall-

zeit ausgedr¨

uckt, die wiederum definiert ist als die Zeitdauer, in der die Schallenergie auf ein

Millionstel gesunken ist bzw. der Schalldruckpegel um 60dB vom Anfangswert abf¨

allt [Sab22].

Daher wird die Nachhallzeit auch h¨

aufig mit T60 benannt. Sie ist die bekannteste und wohl

wichtigste raumakustische Kenngr¨

oße. F¨

ur die D¨

ampfungskonstante ergibt sich somit

τ=−T60

ln(10−6).(2.2)

F¨

ur den station¨

aren Zustand, wenn dem Raum vom Volumen Vdie konstante Schallleistung

Pzugef¨

uhrt wird, l¨

asst sich diese angeben zu

P=ln(106)V p2

(1 −¯αA)T60c2.(2.3)

Hierbei gibt pden Schalldruck und cdie Wellengeschwindigkeit an. Der absorbierte Schallteil

durch die Raumoberfl¨

achen ist mit dem mittleren Absorptionsgrad1¯αAbezeichnet. In der

Praxis ist h¨

aufig ein einfacher geometrischer Zusammenhang zwischen der Nachhallzeit und

dem Absorptionsgrad in analytischer Form von großer Bedeutung. Daf¨

ur kann eine mittlere

freie Wegl¨

ange ¯

l= 4V/A des Schallstrahls im Raum mit dem Volumen Vund der Wandfl¨

ache

Aangesetzt werden [CM78]. So ergibt sich eine mittlere Stoßzahl

¯n=c/¯

l=Ac

4V,(2.4)

welche die Anzahl der Reflexionen des Schalls pro Zeit angibt. Mit dieser l¨

asst sich folgender

zeitlicher Abfall der Schallenergiedichte angeben

E(t) = E0(1 −¯αA)Ac

4Vt=E0eAc ln(1−¯αA)

4Vt.(2.5)

Hierbei ist die D¨

ampfung im Luftvolumen w¨

ahrend der Wellenausbreitung unber¨

ucksichtigt

geblieben. Ein Vergleich von Gl. (2.1) und Gl. (2.2) mit Gl. (2.5) liefert schließlich den ge-

w¨

unschten Zusammenhang2

T60 =4 ln(10−6)V

Ac ln(1 −¯αA).(2.6)

1Mit ¯αAist der mittlere Absorptionsgrad in einem Raum und mit αAder Absorptionsgrad einer homo-

genen Fl¨

ache bezeichnet. Komplement¨

ar zu αA= 1 −ρRist der Reflexionsgrad ρR, mit αA, ρR∈[0,...,1].

Legt man anstelle von Energien Amplituden zugrunde, spricht man von Faktoren: Reflexionsfaktor und Ab-

sorptionsfaktor. Diese k¨

onnen dann auch negative Werte annehmen, wodurch Phasendrehungen ber¨

ucksichtigt

werden.

2H¨

aufig findet man in der Literatur die Nachhallformel nach Sabine, in der die Vereinfachung ln(1 −¯αA)≈

−¯αAim Falle kleiner und mittlerer Absorptionsgrade eingesetzt wird. Diese ist jedoch nur zur Beschreibung

großer R¨

aume zul¨

assig.

2.1. Schallausbreitung in R¨

aumen 13

Diese einfache N¨

aherung ist noch im folgenden Abschnitt von Bedeutung, wenn es um

die Simulation der Schallausbreitung innerhalb eines definierten Raumes geht, wobei eine

gew¨

unschte Nachhallzeit vorgegeben werden soll. Es ist offensichtlich, dass f¨

ur ein genaues

Verh¨

altnis zwischen der Raumbeschaffenheit und der Nachhallzeit sich die Gesamtfl¨

ache aus

Teilfl¨

achen mit unterschiedlichen Reflexionskoeffizienten ergibt [Eyr30]. Noch problematischer

ist allerdings, dass die Nachhallzeit in der Realit¨

at frequenzabh¨

angig ist. Dieser Umstand wird

dadurch hervorgerufen, dass der Absorptionsgrad αAeines Materials nicht f¨

ur jede Schallfre-

quenz derselbe ist. In aller Regel sinkt dieser mit abfallender Frequenz. W¨

ahrend hohe und

teilweise auch mittlere Tonlagen noch recht gut von Materialien mit hohem αAged¨

ampft

werden, hat das gleiche Material im Bereich tiefer Frequenzen praktisch keine Auswirkun-

gen mehr auf den Schall. Durch die Frequenzabh¨

angigkeit der Nachhallzeit werden manche

Frequenzanteile eines Ger¨

ausches l¨

anger zum Ausklingen ben¨

otigen, als andere Teile. Diese

Effekte werden jedoch h¨

aufig in der Raumakustik nicht ber¨

ucksichtigt.

Je nach raumakustischem Zweck k¨

onnen unterschiedliche optimale Nachhallzeiten ange-

geben werden. Bei Aufnahme- und Regier¨

aumen z. B. sind sehr niedrige Nachhallzeiten von

T60 <0,2s notwendig. F¨

ur B¨

uror¨

aume ist ebenfalls eine geringe bis mittlere T60-Zeit von 0,3s

bis 0,5s ¨

ublich und f¨

ur Vortragss¨

ale bereits h¨

ohere zwischen 0,6s und 0,8s. Bei R¨

aumen f¨

Musikdarbietung h¨

angt die optimale Nachhallzeit von der Art der Darbietung ab. Sie kann

Werte zwischen 1s und 3s annehmen.

Aufgrund der vielfachen Reflexionsm¨

oglichkeiten in verhallten R¨

aumen trifft der Nachhall

an einem Raumpunkt mit zunehmender Laufzeit aus allen Richtungen mit ¨

ahnlicher Intensit¨

ein. Allerdings weist erst der sp¨

ate Nachhall im Idealfall eine konstante Schallenergiedichte

im Raum auf (isotrop) [CM78]. Solch ein Schallfeld wird daher auch als diffuses Schallfeld

bezeichnet und hat in der Praxis eine besondere Bedeutung. In unmittelbarer Umgebung

einer Schallquelle herrschen ¨

ahnliche Bedingungen wie im Freien, die Raumr¨

uckwirkungen

machen sich erst mit zunehmendem Abstand bemerkbar.

Das Direktschallfeld kann n¨

aherungsweise durch Kugelwellenausbreitung beschrieben wer-

den, d. h. die Energiedichte verh¨

alt sich reziproportional zu dem Quadrat der Entfernung r

vom Sender gem¨

aß:

ED=P

4πr2c.(2.7)

F¨

ur das station¨

are Schallfeld gilt hingegen mit der Beziehung E=p2/((1 −¯αA)c2) und Gl.

(2.3)

ESt =PT60

ln(106)V.(2.8)

Der Hallradius rHist nun jener Abstand, bei dem die station¨

are Energiedichte gleich der des

Direktschallfeldes ist

rH=sln(106)V

4πcT60

.(2.9)

Die sich hieraus ergebenden Hallradien sind allerdings erstaunlich gering. So w¨

urde nur f¨

in der N¨

ahe zum Sender aufgestellte Mikrophone die Energiedichte des Direktschalls die sta-

tistische Energiedichte ¨

uberwiegen. Nun haben jedoch nur wenige Schallquellen eine allseitig

gleichm¨

aßige Energieabstrahlung. Im Allgemeinen ist mit einer ausgepr¨

agten Richtwirkung zu

rechnen, welche durch einen Korrekturterm unter der Wurzel in Gl. (2.9) ber¨

ucksichtigt wird.

14 Kapitel 2. Statistische Raumakustik

Dieser so genannte B¨

undelungsgrad gibt das Verh¨

altnis der Schallintensit¨

at in Hauptstrahl-

richtung zu deren Mittelwert ¨

uber alle Richtungen an und kann Werte bis zu 100 annehmen.

Bei einem Sprecher als Schallquelle ergibt sich z. B. ein B¨

undelungsgrad von ungef¨

ahr 2

[Mar95]. Praktisch bedeutet dies, dass ein Redner in seiner direkten N¨

ahe gut zu verstehen

und der Nachhall kaum wahrnehmbar ist. Weiter entfernt wird diese Stimme immer mehr

im Nachhall untergehen und die Verst¨

andlichkeit nimmt deutlich ab. Aus nur einem Mikro-

phonsignal jenseits des Hallradius ist die Richtung des Direktsignals nicht mehr eindeutig

bestimmbar, wenn man es um seine Achse dreht. Anders verh¨

alt sich dagegen das menschli-

che binaurale H¨

oren, das es uns erm¨

oglicht noch weit außerhalb des Hallradius die Richtung

der Schallquelle zu bestimmen.

In Bild 2.1 ist der ¨

Ubergang von Direktschall zu diffusem Schall anhand des relativen

Schalldruckpegels Lrel dargestellt [Dic97]. Zu erkennen ist hierbei, dass der Pegel des Di-

rektschalls um 6 dB je Verdoppelung des Abstandes zwischen Schallquelle und Empf¨

anger

abnimmt und der Gesamtschallpegel mit steigender Entfernung auf den Diffusschallpegel

sinkt.

Hallradius rH

Lrel [dB]

r[dB]

3 dB

0,5 1 2 4 8 16

−6

−12

−18

Direktschall

Diffusschall

Bild 2.1: ¨

Uberlagerung von Direkt- und Diffusschall.

2.2 Raumimpulsantworten

Die bisher beschriebenen Schalleigenschaften sollen nun anhand der Raumimpulsantwort be-

trachtet werden. Theoretisch bewirkt ein einzelner Impuls der Schallquelle am Ort des Emp-

f¨

angers aufgrund der Reflexionen eine ganze Folge von Impulsen, deren Dichte mit der Zeit

zunimmt und deren Amplitude immer geringer wird. Jede Raumimpulsantwort ist spezifisch

f¨

ur den Raum und f¨

ur die verwendete Sender- Empf¨

angeranordnung. Bild 2.2 zeigt sche-

matisch eine solche Impulsantwort, wobei eine Aufteilung in charakteristische Teilbereiche

vorgenommen wurde. Der zeitlich erste Impuls wird dem Direktschall zugeordnet, da er den

k¨

urzesten Ausbreitungsweg von der Quelle zum Empf¨

anger nimmt. Nach Gl. (2.7) ist dessen

Amplitude dabei umso kleiner, je weiter die Schallquelle vom Empf¨

anger entfernt ist. Dem Di-

rektschall folgen die fr¨

uhen Echos, welche auf Schallanteile mit nur wenigen Wandreflexionen

2.2. Raumimpulsantworten 15

zur¨

uckzuf¨

uhren sind. Aufgrund der geringen Verz¨

ogerung gegen¨

uber dem Direktschall k¨

onnen

diese Reflexionen und der direkte Schall nicht vom Ohr unterschieden werden, weshalb sie

die Verst¨

andlichkeit von Sprache (Def. siehe unten) und die Transparenz von Musik erh¨

ohen.

Der sich anschließende fr¨

uhe Nachhall geht bereits auf vermehrte Wandreflexionen zur¨

uck, ist

jedoch noch richtungsabh¨

angig. Daher tr¨

agt er zu einem r¨

aumlichen Klangeindruck bei. Im

Bereich des sp¨

aten Nachhalls ist keine Unterscheidung einzelner Echos mehr m¨

oglich, da eine

gleichm¨

aßige Verteilung der Schallleistung ¨

uber den gesamten Raum vorliegt. Erst in diesem

Bereich klingt die Intensit¨

at nach dem Prinzip der statistischen Raumakustik exponentiell ab

[CM78], vgl. Gl. (2.1).

000,1

0,2

0,2 0,3

0,4

0,6

0,8

h(t)

t[s]

direkte Komponente

fr¨

uhe Reflexionen

fr¨

uher Nachhall

sp¨

ater Nachhall

Bild 2.2: Schematische Darstellung einer Raumimpulsantwort h(t).

Es existieren eine Vielzahl von Termini, mit Hilfe derer eine Einsch¨

atzung von Sprach-

bzw. Musikwiedergabe erfolgt. Dabei ist es m¨

oglich, dass ein und derselbe Begriff je nach

Literatur eine unterschiedliche Bedeutung hat. In z. B. [Ber96] findet sich eine umfangreiche

Begriffsbestimmung3zu dieser Thematik. Studien ab den 1960er Jahren haben schließlich

zu den heute g¨

angigen G¨

utemaßen gef¨

uhrt, die es erm¨

oglichen, numerische Aussagen ¨

uber

die akustische Raumqualit¨

at4zu geben. An dieser Stelle soll lediglich auf die allgemeine

Verst¨

andlichkeit von Sprache eingegangen werden, welche durch die Anfangsnachhallzeit und

das Deutlichkeitsmaß charakterisiert sind. Basierend auf dem Vergleich von fr¨

uhen und sp¨

aten

Anteilen der Impulsantwort wurde bereits in [Thi53] folgendes Kriterium f¨

ur den relativen

Anteil an n¨

utzlichem Schall vorgeschlagen:

ϑ(tg) = Rtg

0h2(t)dt

R∞

0h2(t)dt,(2.10)

wobei ϑ(tg= 50ms) Deutlichkeit genannt wurde. Aus Gl. (2.10) hat sich das heute ¨

ubliche

3Die detaillierte Beschreibung des akustischen Eindrucks bei Sprach- und Musikwiedergabe in z. B. Kon-

zertr¨

aumen ist f¨

ur Raumakustiker aber auch f¨

ur Toningenieure von wichtiger Bedeutung. Daf¨

ur existiert ein

umfangreiches Vokabular wie z. B. Abstimmung, Brillanz, Flimmern, Intimit¨

at und viele andere.

4F¨

ur die Beurteilung von R¨

aumen f¨

ur die musikalische Darbietung werden mehrere G¨

utemaße und deren

Kombination verwendet, die jeweils auf der Energie der Raumimpulsantwort f¨

ur verschiedene Zeitintervalle

basieren. So ergeben sich Gr¨

oßen wie z. B. Seitenschallgrad, Bass-Verh¨

altnis oder Silbenverst¨

andlichkeit.

16 Kapitel 2. Statistische Raumakustik

Deutlichkeitsmaß C50 f¨

ur Sprache und das Klarheitsmaß C80 f¨

ur Musik ergeben:

C50 = 10 log R50 ms

0h2(t)dt

R∞

50 msh2(t)dt , C80 = 10 log R80 ms

0h2(t)dt

R∞

80 msh2(t)dt .(2.11)

Die Wahl von tg= 50 ms ist durch den psychoakustischen Effekt der Tr¨

agheit des Oh-

res begr¨

undet, der besagt, dass Impulse, die weiter als diese Zeit auseinander liegen, erst

einzeln erkennbar sind (vgl. Einteilung der Raumimpulsantwort in Bild 2.2). Eine weitere

psychoakustische Auswirkung ist die so genannte Verdeckung. Dabei werden T¨

one frequenz-

selektiv verdeckt, welche unterhalb eines gewissen Schallpegels relativ zu einem zus¨

atzlich

vorhandenen energiereicheren Ton auftreten. D. h., dass f¨

ur das menschliche Empfinden des

Nachhalls vor allem der Anfangsteil des Abklingvorgangs deutlicher wahrgenommen wird als

der sp¨

atere Bereich der Nachhallzeit, da diese normalerweise durch nachfolgende T¨

one ¨

uber-

deckt wird. In [Jor74] wurde daher die Anfangsnachhallzeit TAdefiniert (engl. Early Decay

Time, EDT). Diese gibt die Zeit an, in welcher die Schallintensit¨

at um 10dB abnimmt:

−10 dB !

= 10 log RTA

0h2(t)dt

R∞

0h2(t)dt dB.(2.12)

Die Gr¨

oßen f¨

ur die Anfangsnachhallzeit sowie f¨

ur die Nachhallzeit k¨

onnen anschaulich

aus der Darstellung der R¨

uckw¨

artsintegration der quadrierten Raumimpulsantwort ersehen

werden (Schr¨

oder-R¨

uckw¨

artsintegration) [Sch65]. H¨

aufig wird eine so ermittelte Energieab-

fallkurve (engl. Energy Decay Curve, EDC) in der normierten Form angegeben:

EA(t) = 10 log R∞

th2(t)dt

R∞

0h2(t)dt dB.(2.13)

In Bild 2.3 ist eine Energieabfallkurve beispielhaft f¨

ur die Impulsantwort aus Bild 2.2 mit

einer Anfangsnachhallzeit TA= 46ms, einer Nachhallzeit T60 = 348ms und einem Deutlich-

keitsmaß C50 = 9,9dB dargestellt.

-60

-40

-20

00,05 0,1 0,15 0,2 0,25 0,3 0,35 0,4

EA(t) [dB]

t[s]

Bild 2.3: Energieabfallkurve durch Schr¨

oder-R¨

uckw¨

artsintegration mit einer Anfangsnachhallzeit von TA=

46 ms.

Simulation der Schallausbreitung

Zur Bestimmung von Raumimpulsantworten in simulierten R¨

aumen k¨

onnen grunds¨

atzlich

zwei Arten von Verfahren verwendet werden. Zum einen sind dies wellentheoretische Ans¨

atze

und zum anderen geometrische Verfahren. Als geeignetes Werkzeug f¨

ur die wellentheoretische

Behandlung und modale Analyse von akustischen Problemen hat sich in den letzten Jahren

2.2. Raumimpulsantworten 17

die Methode der Finiten Elemente (engl. Finite Element Method, FEM) bew¨

ahrt [Bar03]. FE-

Verfahren kommen zum Einsatz, wenn bei der Berechnung Phaseneffekte von Schallfeldern

eine Rolle spielen, d. h. wenn Moden, Beugung oder Streuung zu ber¨

ucksichtigende Effekte

sind.

Bei den geometrischen Verfahren zur analytischen Bestimmung von Raumimpulsantwor-

ten stellen einerseits das Schallteilchenverfahren und andererseits die Spiegelquellenmethode

die wichtigsten Methoden dar. Weiterhin werden in der Raum- und Bauakustik zur m¨

og-

lichst genauen Simulation der Schallausbreitung Kombinationen beider Verfahren in Hybrid-

Methoden eingesetzt, um die jeweiligen Vorteile beider Verfahren zu nutzen [RC03], [Bar03]:

die Spiegelquellenmethode ist ein schnelles und exaktes Verfahren zur Berechnung des ersten

Teils der Raumimpulsantwort und eignet sich insbesondere f¨

ur nichtgekr¨

ummte Oberfl¨

achen.

Bei dem Schallteilchenverfahren liegt der Vorteil in der effizienteren Berechnung des sp¨

ateren

Verlaufs der Raumimpulsantwort, sowie der Analyse gekr¨

ummter Oberfl¨

achen im simulierten

Raum. In beiden F¨

allen wird ¨

ublicherweise von einer punktf¨

ormigen und radial abstrahlenden

Schallquelle ausgegangen.

Bei der Schallteilchenmethode (auch Ray-Tracing-Verfahren genannt) werden in zuf¨

al-

lig ausgew¨

ahlte Richtungen Teilchen ausgesendet, die mit einer Anfangsenergie und einem

Zeitstempel versehen sind. Sie werden an den W¨

anden reflektiert und verlieren je nach Ober-

fl¨

acheneigenschaften einen Teil ihrer Energie. Von jedem Teilchen, das am Empf¨

anger eintrifft

wird dann die verbleibende Energie und die Ausbreitungszeitdauer in die Impulsantwort ”ein-

getragen”.

Das Spiegelquellenmodell bietet eine sehr effiziente Methode zur Simulation der Ausbrei-

tung eines Schallfeldes in R¨

aumen einfacher Geometrie und geringer Nachhallzeit, welche

insbesondere h¨

aufig im Bereich der Sprachsignalverarbeitung verwendet wird [AB79]. Da-

bei treffen die von der Schallquelle (Sprecher) emittierten Kugelschallwellen am Empf¨

anger

einerseits auf direktem Wege, andererseits ¨

uber Reflexionen durch die W¨

ande an. Der beim

Empf¨

anger erzeugte Schalldruck h¨

angt nur von der Entfernung zum Sender ab, nicht aber vom

Einfallswinkel. Daher kann von jeder reflektierten Welle angenommen werden, dass sie einer

virtuellen Kugelschallquelle, deren Entfernung vom Empf¨

anger der Laufl¨

ange des Schalls ent-

spricht, entsprungen ist, welche durch Spiegelung der Schallquelle an den Raumbegrenzungen

entstanden ist. Die Ordnung einer Spiegelquelle gibt an, wie oft der durch sie repr¨

asentierte

Schallstrahl reflektiert wird, bevor er den Empf¨

anger erreicht, siehe Bild 2.4 (a) f¨

ur ein Bei-

spiel erster und zweiter Ordnung. Dabei h¨

angt die Amplitude des reflektierten Signals von

der Wandabsorption ab, welche sich z. B. bei der vereinfachten Annahme gleicher Beschaf-

fenheit der Oberfl¨

achen und Vorgabe einer bestimmten Nachhallzeit aus Gl. (2.6) berechnen

l¨

asst. Die Gesamtanordnung wird also derart bestimmt, dass die Position der Quelle an den

W¨

anden des Raumes dreidimensional gespiegelt und alle entstandenen Spiegelquellen als neue

Schallquellen interpretiert werden, siehe Bild 2.4 (b).

18 Kapitel 2. Statistische Raumakustik

Sensor

Reflexionen

(a) (b)

Q′

Bild 2.4: In (a) beispielhafter Verlauf der Originalwege sowie der virtuellen Wege der Schallausbreitung erster

und zweiter Ordnung. In (b) Erweiterung des Raums nach der Spiegelquellenmethode zur Demons-

tration Reflexionen vierter Ordnung.

Im Verlauf dieser Arbeit wurde eine Vielzahl von akustischen Signalen analysiert, welche

aufgrund von mit simulierten Raumimpulsantworten gefalteten Sprachsignalen hervorgegan-

gen sind. Da die hierbei betrachteten R¨

aume als relativ klein angenommen werden und von

einfacher geometrischer Beschaffenheit sind – also keine konkrete Anordnung exakt nachgebil-

det werden soll – wurde die Spiegelquellenmethode zur Erzeugung von Raumimpulsantworten

benutzt. Dabei wird im Allgemeinen von einem quaderf¨

ormigen, leeren Raum ausgegangen,

in dem sich eine punktf¨

ormige Schallquelle und mehrere punktf¨

ormige Schallempf¨

anger be-

finden.

2.3 Mehrkanaliges Signalmodell

Im letzten Abschnitt wurde auf die Eigenschaften des Direktschallfelds, fr¨

uher Reflexionen

und des Nachhalls eingegangen. Mit Hilfe einer gegebenen Raumimpulsantwort k¨

onnen so aus

der Energieabfallkurve akustische Raumeigenschaften abgelesen werden. Nun soll der Fall be-

trachtet werden, dass Aussagen ¨

uber ein gegebenes Schallfeld gemacht werden sollen ohne die

Raumimpulsantwort zu kennen, d. h., ob der fr¨

uhe Anteil der Impulsantwort dominiert oder

der sp¨

ate Nachhall. Dazu soll zun¨

achst in diesem Abschnitt das daf¨

ur notwendige mehrkana-

lige Signalmodell zur Aufnahme der zu analysierenden akustischen Situation erfolgen. In Bild

2.5 ist hierf¨

ur eine allgemeine Anordnung von einem Sprecher, der das Signal sc(t) erzeugt,

einer St¨

orger¨

auschquelle nc(t) und Makustischen Sensoren dargestellt. Der Index “c” soll an-

deuten, dass die durch das Nutzsignal und die St¨

orquelle hervorgerufenen akustischen Signale

an den Sensoren korreliert5sind, im Gegensatz zu den Signalen nu,1(n),...,nu,M (n) welche

St¨

orsignale darstellen, die untereinander als unkorreliert angenommen werden sollen. Hier soll

weiterhin gelten, dass die Sensoren die Mikrophone inklusive Verst¨

arkung und Abtastung zu

den Zeiten nT modellieren, so dass anschließend zeitdiskrete Signale6mit der Abtastrate 1/T

5Grunds¨

atzlich wird auf die r¨

aumliche Korrelation von Schallfeldern noch in Abschnitt 2.4 eingegangen.

Hier soll jedoch noch angemerkt sein, dass sowohl sc(t) als auch nc(t) frequenzabh¨

angige r¨

aumlich unkorrelierte

Komponenten im oberen Frequenzbereich bedingt durch die Eigenschaften diffuser Schallfelder (siehe Abschnitt

2.4) an den Orten der Mikrophone verursachen.

6Genau genommen geht bei einem zeitkontinuierlichen Signal der Parameter tnach einer Abtastung mit

der Periode Tin den zeitdiskreten Parameter nT ¨

uber. In dieser Arbeit sollen die zeitdiskreten Signale jedoch

2.3. Mehrkanaliges Signalmodell 19

und dem Zeitindex nvorliegen. Die unkorrelierten St¨

orungen nu,i(n) mit i= 1,...,M fassen

das Rauschen durch die Mikrophone und die Verst¨

arkung zusammen. Die korrelierten Signale

am Aufnahmeort der Mikrophone ergeben sich aus dem Faltungsprodukt der von den Punkt-

schallquellen abgestrahlten Signale und der zwischen Quelle und Mikrophon bestehenden

Raumimpulsantwort; einerseits f¨

ur das Sprachsignal mit den zeitdiskreten Impulsantworten

hi(n) und andererseits f¨

ur die St¨

orquelle mit den zeitdiskreten Impulsantworten ai(n).

nu,1(n)

x1(n)

nu,2(n)

x2(n)

nu,M (n)

xM(n)

nc(t)

sc(t)

Bild 2.5: Modell zur mehrkanaligen Aufnahme von akustischen Signalen.

Der funktionale Zusammenhang zwischen den zu verarbeitenden zeitdiskreten Signalen

xi(n) und den von den Quellen in dem Raum abgestrahlten Signalen kann schließlich ge-

schrieben werden als

xi(n) = sc(n)∗hi(n) + ai(n)∗nc(n) + nu,i(n) (2.14)

=sc(n)∗hi(n) + ni(n),(2.15)

wobei alle St¨

orungen im i-ten Signalpfad zu ni(n) zusammengefasst sind und ∗den Faltungs-

operator bezeichnet. Hierbei ist leicht zu ersehen, dass bei einer Erweiterung des Modells

um zus¨

atzliche St¨

orquellen im Raum, sich diese in ¨

aquivalenter Schreibweise zu nc(n) in Gl.

(2.14) additiv dem Gesamtsignal ¨

uberlagern und sich schlussendlich ebenfalls alle Rauschter-

me wie in Gl. (2.15) zusammenfassen lassen. An dieser Stelle seien noch zwei h¨

aufig gemachte

Annahmen erw¨

ahnt. Zum einen ist dies die bereits erw¨

ahnte Modellierung der Schallquel-

len als Punktquellen, obwohl sie genau genommen r¨

aumlich ausgedehnte Quellen sind. Zum

anderen sind die Raumimpulsantworten als zeitinvariant vorausgesetzt, was zumindest bei ei-

nem Sprecher als Quelle nicht grunds¨

atzlich eingehalten werden kann, da schon durch leichte

Kopfbewegungen die Impulsantwort zur zeitlich ver¨

anderlichen Funktion wird. Vielfach wird

zus¨

atzlich angenommen, dass die Sprecherposition auf Orte in der N¨

ahe der Mikrophone ein-

gegrenzt werden kann, wodurch der Sprecher sich im Hallradius oder dessen N¨

ahe befindet

und somit der Direktschall dominiert.

Zeitdiskrete Fourier-Transformation Da im weiteren Verlauf die Signalbeschreibung in

der Regel im Frequenzbereich erfolgt, soll hier zuerst die Darstellung der Signale im frequenz-

kontinuierlichen Spektrum eingef¨

uhrt werden. Die Eingangssignale xi(n) erfahren dabei eine

der Einfachheit halber dimensionslos verwendet werden, z. B. sc(n) anstatt sc(nT ).

20 Kapitel 2. Statistische Raumakustik

zeitdiskrete Fourier-Transformation (engl. Discrete Time Fourier Transform, DTFT), so dass

sich die entsprechenden Signale Xi(Ω) mit der normierten Kreisfrequenz Ω ergeben. Hierbei

gilt der Zusammenhang Ω = 2πf/fAb f¨

ur die betrachtete Frequenz fmit der Abtastfrequenz

fAb = 1/T. Die gleiche Darstellung gilt nat¨

urlich ebenso f¨

ur die DTFT des Rauschterms

Ni(Ω) und des Sprachsignals Sc(Ω), sowie die DTFTs der entsprechenden Impulsantworten

Hi(Ω) und Ai(Ω).

Diskrete Frequenzaufl¨

osung F¨

ur die Verarbeitung von Signalen im Frequenzbereich ist

die Betrachtung diskreter Spektralkomponenten mit Hilfe der diskreten Fourier-Transfor-

mation (engl. Discrete Fourier Transform, DFT) unumg¨

anglich. Dabei wird das kontinuier-

liche Spektrum an den Frequenzen fk=fAb/L ·kbzw. Ωk= 2π/L ·kbetrachtet, wobei

k= 0,...,L −1 gilt und Ldie L¨

ange der DFT angibt. Die Eingangssignale xi(n) m¨

us-

sen daf¨

ur jeweils zu Segmenten der L¨

ange Lzusammengefasst und transformiert werden. Als

Segmentindex soll hier der Z¨

ahler mdienen, so dass sich f¨

ur den m-ten Block und das i-te Mi-

krophonsignal z. B. das diskrete Spektrum Xi,m(Ωk) mit dem Frequenzindex k= 0,...,L−1

ergibt. Die DFT wird auf digitalen Rechnern ¨

ublicherweise mit Hilfe der so genannten schnel-

len Fourier-Transformation (engl. Fast Fourier Transform, FFT) umgesetzt.

2.4 R¨

aumliche Koh¨

arenz akustischer Schallfelder

Von an unterschiedlichen Orten in einem Raum aufgenommenen akustischen Signalen kann

man eine Kreuzkorrelation berechnen. Diese ist abh¨

angig vom Abstand der Mikrophone und

der zeitlichen Verschiebung der Signale zueinander. Daher lassen sich Schallfelder durch eine

Raum-Zeit-Kreuzkorrelationsfunktion beschreiben. Die wohl bekannteste Gr¨

oße bez¨

uglich der

r¨

aumlichen Korrelation von Schallfeldern ist die so genannte komplexe Koh¨

arenzfunktion. Sie

ist definiert als das Verh¨

altnis des Kreuzleistungsdichtespektrums φXiXl(Ω) zur Wurzel aus

dem Produkt der Autoleistungsdichtespektren φXiXi(Ω) und φXlXl(Ω) f¨

ur die beiden Signale

xi(n) und xl(n) [BP66], [Gar92]:

γXiXl(Ω) = φXiXl(Ω)

pφXiXi(Ω)φXlXl(Ω).(2.16)

H¨

aufig wird aber auch das Betragsquadrat der Koh¨

arenzfunktion (engl. Magnitude Squared

Coherence, MSC) als Koh¨

arenz bezeichnet

ΓXiXl(Ω) = |φXiXl(Ω)|2

φXiXi(Ω)φXlXl(Ω).(2.17)

Die Koh¨

arenz nach Gl. (2.17) nimmt in der Regel7nur die Werte zwischen Null und Eins an:

0≤ΓXiXl(Ω) ≤1.(2.18)

F¨

ur den Fall von unkorrelierten Signalen wie z. B. nu,i(n) und nu,l(n) in Gl. (2.14) wird die

Koh¨

arenz gerade zu Null. Ansonsten markiert das diffuse Schallfeld die untere Grenze der

Koh¨

arenz. Die obere Grenze ist durch den Direktschall gegeben8und f¨

ur den theoretischen

7Streng genommen gilt Gl. (2.18) f¨

ur zwei zeitdiskrete, verbundstation¨

are und mittelwertfreie stochastische

Prozesse nur unter gewissen Voraussetzungen, vgl. [BP80].

8Die obere Grenze des Betrags der Koh¨

arenzfunktion wird z. B. auch f¨

ur den Fall korrelierter Quellen

erreicht.

2.4. R¨

aumliche Koh¨

arenz akustischer Schallfelder 21

Fall von gegeneinander rein verz¨

ogerter Signale wird sie zu Eins, wobei dann die komplexe

Koh¨

arenzfunktion gegeben ist durch (siehe Anhang B)

γXiXl(Ω) = cos Ω/T ·sin θ·dil

c+j·sin Ω/T ·sin θ·dil

c,(2.19)

wobei in Gl. (2.19) mit jdie imagin¨

are Einheit bezeichnet ist. Die Schallquelle soll sich dabei

in ausreichender Entfernung9zu den Mikrophonen befinden, so dass die sich dann ergebende

ebene Schallwelle mit dem Einfallswinkel θauf die Sensoren trifft, welche im Abstand dil

zueinander angeordnet sind.

F¨

ur das diffuse Schallfeld l¨

asst sich die Koh¨

arenz unter der Annahme von Mikrophonen mit

Kugelcharakteristik als Funktion des Mikrophonabstands geschlossen berechnen [CWB+55],

[Kut00] zu

ΓXiXl(Ω) =

sin2Ω/T dil

c

Ω/T dil

c2= si2Ω/T dil

c.(2.20)

Bild 2.6 zeigt diesen Verlauf ¨

uber der kontinuierlichen Frequenz f¨

ur vier Mikrophonabst¨

ande

dil. Es ist zu erkennen, dass die Koh¨

arenz bei tiefen Frequenzen bis zur ersten Nullstelle der

si2-Funktion hoch ist und mit zunehmender Frequenz und zunehmendem Mikrophonabstand

schnell abnimmt.

0,2

0,4

0,6

0,8

1 2 345 6 78

ΓXiXl(Ω)

Ω/(2πT) [kHz]

dil = 0,05 m

dil = 0,10 m

dil = 0,15 m

dil = 0,20 m

Bild 2.6: Koh¨

arenzverlauf eines idealen diffusen Schallfeldes f¨

ur unterschiedliche Sensorabst¨

ande dil.

Eine M¨

oglichkeit, ein diffuses Schallfeld zu erzeugen, ist die Anordnung unendlich vieler

voneinander unabh¨

angiger Punktschallquellen im Raum bei beliebiger Nachhallzeit. Die dabei

abgestrahlten Signale weisen zueinander keine zeitlichen Korrelationen auf und die an zwei

Raumpunkten aufgenommenen Signale zeichnen sich lediglich durch stochastische Phasenbe-

ziehungen aus [DDP88]. In Bild 2.7 ist beispielhaft die gemessene Koh¨

arenz f¨

ur unterschiedli-

che Sensorabst¨

ande bei der kugelf¨

ormigen Anordnung einer großen Anzahl an punktf¨

ormigen

unabh¨

angigen weißen Rauschquellen um die Messpunkte herum dargestellt (siehe Anhang B).

9Im Falle von großen Entfernungen zwischen der Schallquelle und den Mikrophonen f¨

allt die kugelf¨

ormig

emittierte Schallwelle n¨

aherungsweise planar auf die Sensoren. Diese N¨

aherung wird als so genannte Fernfeld-

n¨

aherung bezeichnet.

22 Kapitel 2. Statistische Raumakustik

Dabei erfolgte die Messung10 der Leistungsdichtespektren und der Koh¨

arenz abschnittweise,

was im Folgenden noch genauer betrachtet werden soll.

-8

-6

-4

-2

0,5

0,50,5

dil = 0,05m dil = 0,10m

dil = 0,15m

gemessen

gemessengemessen

theoretisch

theoretischtheoretisch

PX1X1(Ω) [dB]

ΓXiXl(Ω)

Ω/(2πT) [kHz]Ω/(2πT ) [kHz]

Bild 2.7: Koh¨

arenzverlauf eines simulierten, diffusen Schallfeldes f¨

ur unterschiedliche Sensorabst¨

ande im Ver-

gleich zum idealen Verlauf und das Leistungsdichtespektrum eines Signals.

Aufgrund der zeitvarianten statistischen Eigenschaften von Sprachsignalen werden die

statistischen Kenngr¨

oßen ¨

uber kurze Zeitabschnitte von etwa 8 bis 30ms bestimmt. Die

Kurzzeitspektren der Signale k¨

onnen dann mit Hilfe der Methode von Welch gemessen wer-

den [Wel67]. Dabei werden sich ¨

uberlappende Segmente der Zeitsignale mit einer Fenster-

funktion gewichtet und in den Frequenzbereich transformiert. F¨

ur das komplexe Kurzzeit-

Kreuzleistungsdichtespektrum des m-ten Segments ergibt sich das so genannte Kreuzperi-

odogramm

PXi,mXl,m (Ωk) = 1

LX∗

i,m(Ωk)Xl,m(Ωk) (2.21)

und entsprechend das Kurzzeit-Autoleistungsdichtespektrum, bzw. das Autoperiodogramm

PXi,mXi,m (Ωk) = 1

L|Xi,m(Ωk)|2.(2.22)

Hierbei wird mit (·)∗das konjugiert komplexe Spektrum gekennzeichnet und Lgibt wieder

die Anzahl der St¨

utzstellen der DFT an. Unter Verwendung des Langzeitmittelwerts der

10F¨

ur die genaue Unterscheidung zwischen der Definition und dem Messen statistischer Kenngr¨

oßen sei z. B.

auf [VHH98], [KK02] verwiesen.

2.4. R¨

aumliche Koh¨

arenz akustischer Schallfelder 23

Periodogramme erh¨

alt man so einen Messwert f¨

ur die Koh¨

arenz

ΓXiXl(Ωk) =

N−1

m=0 |PXi,mXl,m (Ωk)|2

N−1

m=0

PXi,mXi,m (Ωk)PXl,mXl,m (Ωk)

.(2.23)

F¨

ur eine m¨

oglichst zuverl¨

assige Bestimmung der Koh¨

arenz sollte die Anzahl der ber¨

ucksich-

tigten Segmente Nhinreichend groß gew¨

ahlt werden. F¨

ur den Extremfall von nur einem

betrachteten Segment ist zu sehen, dass die Kurzzeit-Koh¨

arenz f¨

ur alle Frequenzen den Wert

Eins annimmt. Einen ebenfalls wichtigen Parameter stellt die Frequenzaufl¨

osung

∆f=fAb

L(2.24)

der zugrundeliegenden diskreten Fouriertransformation dar. In z. B. [JN87], [Mar95], [Dre99]

wurde der Zusammenhang zwischen der gemessenen Koh¨

arenz und der Frequenzaufl¨

osung

untersucht. Die dabei erzielten Ergebnisse f¨

uhren zu folgender Schlussfolgerung: Bei einer

Frequenzaufl¨

osung von ∆f≫4/T60 wird in einem Schallfeld, bei dem die Mikrophone au-

ßerhalb des Hallradius der Schallquellen liegen, stets eine Koh¨

arenz gemessen, die n¨

aherungs-

weise dem si2-Verlauf nach Gl. (2.20) entspricht. Der korrekte Koh¨

arenzverlauf stellt sich

hingegen erst bei ∆f < 4/T60 ein. F¨

ur eine ¨

ubliche Nachhallzeit von 0,4 s in einem B¨

roraum w¨

urde sich so eine notwendige Frequenzaufl¨

osung ∆f < 10 Hz ergeben. Da aber

bei der Sprachsignalverarbeitung in der Regel Aufl¨

osungen zwischen 16 kHz/256 = 62,5 Hz

und 16 kHz/1024 = 15,625 Hz verwendet werden, ”sehen” die Mikrophone nicht die korrekte

Koh¨

arenz, sondern einen zur si2-Funktion ¨

ahnlichen Koh¨

arenzverlauf.

Zur Analyse der r¨

aumlichen Koh¨

arenz realer Schallfelder wurde eine Reihe von Messungen

in unterschiedlichen R¨

aumen durchgef¨

uhrt. F¨

ur die Aufnahmen kamen vier ¨

aquidistant im

Abstand von 5cm angeordnete Grenzfl¨

achenmikrophone mit Hypernierencharakteristik (AKG

C-400BL) zum Einsatz. Die dabei gemessene Langzeit-Koh¨

arenz nach Gl. (2.23) soll hier

beispielhaft f¨

ur einige Anordnungen vorgestellt werden, wobei jeweils eine Frequenzaufl¨

osung

von ∆f= 62,5Hz, eine ¨

Uberlappung der Segmente von 50% und ein Hanning-Fenster gew¨

ahlt

wurde.

Zuerst ist in Bild 2.8 die Koh¨

arenz eines aufgenommenen ca. 12s langen Sprachsignals

f¨

ur zwei R¨

aume zu sehen. In einem Fall wurden die Mikrophone auf einem Stativ in einem

reflexionsarmen Raum (Gr¨

oße: 4m x 7m x 3m) und im anderen Fall waren die Mikrophone

auf einem Monitor in einem B¨

uroraum (T60 ≈0,5s; Gr¨

oße: 4m x 5m x 3m) angeordnet. Das

Sprachsignal wurde ¨

uber einen Lautsprecher jeweils in einem Abstand von ca. 0,6m mittig

vor den Mikrophonen ausgegeben, also innerhalb des Hallradius. Im reflexionsarmen Raum

sind f¨

ur alle Frequenzen Koh¨

arenzwerte nahe Eins zu beobachten, die jedoch mit steigender

Frequenz und zunehmendem Mikrophonabstand abnehmen. F¨

ur den Fall des B¨

uroraumes ist

bereits ein stark frequenzselektiver Koh¨

arenzverlauf festzustellen, trotz der mittleren Nach-

hallzeit und des kleinen Abstands zwischen dem Lautsprecher und den Mikrophonen.

24 Kapitel 2. Statistische Raumakustik

-30

-20

-10

0,2

0,20,2

0,4

0,40,4

0,6

0,60,6

0,8

0,80,8

d12 = 0,05m d13 = 0,10m

d14 = 0,15m

PX1X1(Ω) [dB]

ΓX1X2(Ω)

ΓX1X3(Ω)

ΓX1X4(Ω)

Ω/(2πT) [kHz]Ω/(2πT ) [kHz]

Bild 2.8: Gemessener Koh¨

arenzverlauf eines Sprachsignals im B¨

uroraum (–) und im reflexionsarmen Raum

(-·) f¨

ur unterschiedliche Mikrophonabst¨

ande bei 0,6 m Abstand zwischen Lautsprecher und Array im

Vergleich zum si2-Verlauf (- -), sowie das Autoleistungsdichtespektrum des ersten Signals.

Als n¨

achstes sind in Bild 2.9 die Ergebnisse einer Messung, bei der im B¨

uroraum ein

breitbandiges Rauschsignal ¨

uber einen Lautsprecher in einer Entfernung von 3m zu den Mi-

krophonen abgestrahlt wurde. Die Schallquelle befindet sich also außerhalb des Hallradius. Bei

den Koh¨

arenzverl¨

aufen stellt sich folglich f¨

ur sehr niedrige Frequenzen ein ¨

ahnlicher Verlauf

wie bei der si2-Funktion ein. Abgesehen von den niedrigen Frequenzen ist jedoch eine h¨

ohere

r¨

aumliche Koh¨

arenz zu beobachten als beim diffusen Schallfeld. Der koh¨

arente Schalleinfall

des Direktschalls und einiger energiereicher fr¨

uhen Echos zeigte bei den Messungen durchweg

noch große Auswirkungen auf den Koh¨

arenzverlauf, insbesondere bei h¨

oheren Frequenzen.

Erst bei gen¨

ugend großen Entfernungen zu den Mikrophonen im Vergleich zum Hallradius ist

der Direktschall aufgrund der Ausbreitungsd¨

ampfung soweit abgeklungen, dass er einen sehr

geringen Einfluss auf die r¨

aumliche Koh¨

arenz am Aufnahmeort nimmt.

2.4. R¨

aumliche Koh¨

arenz akustischer Schallfelder 25

-80

-60

-40

-20

0,5

0,50,5

d12 = 0,05m d13 = 0,10m

d14 = 0,15m

PX1X1(Ω) [dB]

ΓX1X2(Ω)

ΓX1X3(Ω)

ΓX1X4(Ω)

Ω/(2πT) [kHz]Ω/(2πT ) [kHz]

Ω/(2πT) [kHz]

Bild 2.9: Gemessener Koh¨

arenzverlauf eines breitbandigen Rauschsignals im B¨

uroraum (–) f¨

ur unterschiedliche

Mikrophonabst¨

ande bei 3 m Abstand zwischen Schallquelle und Array im Vergleich zum si2-Verlauf

(- -), sowie Autoleistungsdichtespektrum des ersten Signals.

Um die Auswirkungen des Direktschalls zu untersuchen, wurden verschiedene Anordnun-

gen gew¨

ahlt, bei denen keine Sichtverbindung zwischen der Schallquelle und den Mikrophonen

bestand. Hierbei zeigte sich im Allgemeinen ein zur si2-Funktion deutlich ¨

ahnlicherer Koh¨

renzverlauf im Vergleich zu Anordnungen mit Direktschallkomponente. In Bild 2.10 ist die

Koh¨

arenz f¨

ur eine Beschallungssituation abgebildet, bei der im B¨

uroraum ein Rechnerl¨

ufter

als Schallquelle fungiert hat. Dieser befand sich unter dem Tisch, auf welchem der Monitor

mit den Mikrophonen platziert war. An dem gemessenen Autoleistungsdichtespektrum ist

der f¨

ur einen solchen Fall typische Tiefpasscharakter zu erkennen. Trotz der geringen geome-

trischen Entfernung von ca. 1m ist die Nachbildung des Hauptmaximums der si2-Funktion

deutlich ausgepr¨

agt. Die Koh¨

arenz verschwindet f¨

ur hohe Frequenzen aufgrund nicht vorhan-

dener Frequenzkomponenten der Schallquelle, so dass das unkorrelierte Mikrophonrauschen

dominiert.

26 Kapitel 2. Statistische Raumakustik

-50

-40

-30

-20

-10

0,2

0,20,2

0,4

0,40,4

0,6

0,60,6

0,8

0,80,8

d12 = 0,05m d13 = 0,10m

d14 = 0,15m

PX1X1(Ω) [dB]

ΓX1X2(Ω)

ΓX1X3(Ω)

ΓX1X4(Ω)

Ω/(2πT) [kHz]

Ω/(2πT) [kHz]Ω/(2πT ) [kHz]

Bild 2.10: Gemessener Koh¨

arenzverlauf im B¨

uroraum mit Rechnerl¨

ufter als indirekte St¨

orquelle (–) f¨

ur unter-

schiedliche Mikrophonabst¨

ande im Vergleich zum si2-Verlauf (- -), sowie Autoleistungsdichtespek-

trum des ersten Signals.

Als letztes sind Messergebnisse zur r¨

aumlichen Korrelationseigenschaft eines Laborraums

(T60 ≈0,8s; Gr¨

oße: 7m x 10m x 3m) in Bild 2.11 dargestellt. Das Array befand sich dabei

wiederum auf einem Stativ in 1,60m H¨

ohe. Das Schallfeld wurde durch mehrere Rechner-

l¨

ufter, Festplattenger¨

ausche und einen Drucker erzeugt, wobei sich die Rechner jeweils unter

Arbeitstischen befanden. Im Vergleich zur Anordnung mit nur einem Rechnerl¨

ufter als Schall-

quelle im B¨

uroraum liegt der Unterschied also in der Verwendung von mehreren Quellen und

einer h¨

oheren Nachhallzeit des Raums. Die Folge ist eine deutlich geringere Koh¨

arenz im Be-

reich der mittleren Frequenzen. F¨

ur hohe Frequenzen liegt zwar eine sehr geringe Koh¨

arenz

vor, sie verschwindet aber nicht wie in Bild 2.10, da das Szenario im Laborraum ein brei-

teres Frequenzspektrum aufweist. Aufgrund der h¨

oheren Nachhallzeit und einer r¨

aumlichen

Verteilung der Schallquellen im Abstand von 2 bis 6m zu den Mikrophonen ist der Anteil

an direkten Schallkomponenten sehr gering. Da f¨

ur die Gr¨

oße der r¨

aumlichen Koh¨

arenz das

Verh¨

altnis von Direktschall zu Diffusschall maßgebend ist, l¨

asst sich f¨

ur diese Anordnung also

ein n¨

aherungsweise als diffus zu bezeichnendes Schallfeld messen.

2.5. Zusammenfassung 27

-40

-30

-20

-10

0,2

0,20,2

0,4

0,40,4

0,6

0,60,6

0,8

0,80,8

d12 = 0,05m d13 = 0,10m

d14 = 0,15m

PX1X1(Ω) [dB]

ΓX1X2(Ω)

ΓX1X3(Ω)

ΓX1X4(Ω)

Ω/(2πT) [kHz]

Ω/(2πT) [kHz]Ω/(2πT ) [kHz]

Bild 2.11: Gemessener Koh¨

arenzverlauf im Laborraum mit mehreren St¨

orquellen f¨

ur unterschiedliche Mikro-

phonabst¨

ande, sowie Autoleistungsdichtespektrum des ersten Signals.

2.5 Zusammenfassung

In diesem Kapitel wurden die wesentlichen Kenngr¨

oßen der statistischen Raumakustik einge-

f¨

uhrt. Die hier definierten Schallfeldparameter waren die Anfangsnachhallzeit TA, die Nach-

hallzeit T60, der Hallradius rHund das Deutlichkeitsmaß C50. Sie lassen sich mit Hilfe der

Raumimpulsantwort bzw. anhand der R¨

uckw¨

artsintegration der Raumimpulsantwort bestim-

men. Bei den sp¨

ateren experimentellen Untersuchungen der Beamforming-Verfahren sollen

diese raumakustischen Eigenschaften noch Verwendung finden. Dort werden mit Hilfe der

hier vorgestellten Spiegelquellenmethode mehrkanalige akustische Signale erzeugt. Anhand

dieser simulierten Sprachdaten ist es m¨

oglich die Verfahren f¨

ur unterschiedliche Anordnun-

gen und Nachhallzeiten zu testen.

F¨

ur die Aufnahme von Sprachsignalen mittels Freisprecheinrichtungen kann generell ge-

sagt werden, dass es w¨

unschenswert ist m¨

oglichst viel Schallenergie des Nutzsignals aufzu-

nehmen, d. h., der Sprecher sollte sich innerhalb des Hallradius befinden. Aufgrund der in

diesem Kapitel gemachten Betrachtungen sind f¨

ur die Sprachverst¨

andlichkeit noch zus¨

atzlich

die fr¨

uhen Reflexionen von Bedeutung.

Weiterhin wurde exemplarisch an beispielhaften Messungen realer Schallfelder die r¨

aum-

liche Koh¨

arenz analysiert. Dabei stellte sich heraus, dass sich insbesondere im Falle von in-

direkten Schallquellen ein n¨

aherungsweise diffuses Schallfeld ergibt. Dies ist bei den sp¨

ateren

28 Kapitel 2. Statistische Raumakustik

Betrachtungen von Bedeutung, da sich additiv zu einem Sprachsignal h¨

aufig Hintergrundrau-

schen aufgrund indirekter Quellen ¨

uberlagert, z. B. durch Rechnerl¨

ufter. Werden hingegen

St¨

orschallquellen mit direkter Sichtverbindung zu den Mikrophonen platziert, so ist auch

bei gr¨

oßeren Abst¨

anden zu diesen noch eine deutliche Koh¨

arenz zu messen. Solche Quellen

werden daher im Weiteren gesondert betrachtet und als direkte St¨

orschallquellen bezeichnet.

Kapitel 3

Grundlagen zu Mikrophongruppen

W¨

ahrend bei einkanaligen Verfahren zur Sprachsignalverbesserung lediglich spektrale Infor-

mationen zur Adaption von zeitvarianten Filtergewichten vorliegen, kann bei der mehrkana-

ligen Sprachsignalverarbeitung mittels Mikrophongruppen auch die r¨

aumliche Komponente

der Anordnung genutzt werden. Dabei wird die akustische Welle r¨

aumlich abgetastet und

mit der anschließenden strahlformenden Signalverarbeitung (engl. Beamforming) k¨

onnen

Signale aus bestimmten Raumrichtungen gegen¨

uber anderen verst¨

arkt oder unterdr¨

uckt wer-

den. F¨

ur diese so genannte Raum-Zeit-Filterung kommen ¨

ublicherweise Filter mit endlicher

Impulsantwort (engl. Finite Impulse Response, FIR) in jedem Mikrophonpfad zum Einsatz,

wobei die gefilterten und aufsummierten Mikrophonsignale dann das Ausgangssignal des Be-

amformers ergeben. Daher kann solch eine Strahlformung auch allgemein englischsprachig

als Filter-and-Sum-Beamformer (FSB) bezeichnet werden. In diesem Kapitel soll zun¨

achst

der einfachste Fall der Realisierung der FIR-Filter als reine Verz¨

ogerungsglieder zur Kom-

pensation der Laufzeitunterschiede der akustischen Welle von der Quelle zu den einzelnen

Mikrophonen hin angenommen werden. Es erfolgt eine Beschreibung der Problemstellung

bez¨

uglich der Anordnung von Mikrophongruppen und das sich aus dem Aufbau ergebende

frequenzabh¨

angige D¨

ampfungsverhalten. Desweiteren soll zur allgemeinen Bewertung eines

Gesamtsystems bestehend aus Mikrophonanordnung und Filterung sowohl auf die objektive

Messung von Leistungsmerkmalen wie die Verbesserung des Signal-zu-Rauschverh¨

altnisses,

als auch auf subjektive M¨

oglichkeiten zur Beurteilung des verarbeiteten Sprachsignals ein-

gegangen werden. Dabei zeigt sich ein unterschiedliches Verhalten je nach Annahme des

vorliegenden St¨

orschallfeldes, welche im vorangegangenen Kapitel eingef¨

uhrt wurden.

3.1 Beamformer-Signalmodell

Bereits in Abschnitt 2.3 wurde ein mehrkanaliges Signalsystem zur Aufnahme von St¨

orschall-

feldern vorgestellt, um die r¨

aumliche Koh¨

arenz zu untersuchen. In Bild 3.1 ist diese Anord-

nung um FIR-Filter in jedem Mikrophonpfad erweitert. Ausgegangen wird wieder von einem

Sprecher als Quelle f¨

ur das Nutzsignal sc(t) an der Position ps, einer St¨

orger¨

auschquelle nc(t)

positioniert an den Koordinaten pnund MMikrophonen, jeweils bei pi. Die Positionen ps,

pnund pi,i∈ {1,2,...,M}beschreiben vektoriell den jeweiligen Ort im dreidimensionalen

Raum. Das Mikrophonsignal erf¨

ahrt eine Abtastung zu den Zeiten nT, so dass anschlie-

ßend zeitdiskrete Signale mit der Abtastrate 1/T und dem Zeitindex nvorliegen. Zus¨

atzlich

30 Kapitel 3. Grundlagen zu Mikrophongruppen

zu den korrelierten zeitdiskreten St¨

orsignalen nc(n) sind ebenfalls unkorrelierte St¨

oranteile

nu,1(n),...,nu,M (n) in jedem Signalpfad enthalten, welche das Rauschen durch die Mikropho-

ne und die Verst¨

arkung nachbilden. Der im Mikrophonsignal enthaltene Nutzanteil entsteht

durch Faltung des Sprachsignals mit den jeweiligen Raumimpulsantworten hi(n) und der

des Rauschanteils aus dem Faltungsprodukt des von der St¨

orquelle abgegebenen Signals mit

den Raumimpulsantworten ai(n). Am Beamformer-Ausgang liegt das in jedem Signalpfad

gefilterte und dann aufsummierte Signal y(n) vor. In Bild 3.1 sind die FIR-Filter zeitinvers1

nu,1(n)

x1(n)˜

f1(n)

nu,2(n)

x2(n)˜

f2(n)

nu,M (n)

xM(n)˜

fM(n)

y(n)

nc(t)

sc(t)

Bild 3.1: Allgemeines Modell eines Filter-and-Sum-Beamformers.

mit ˜

fi(n) = fi(−n) angenommen, so dass der funktionale Zusammenhang f¨

ur das allgemeine

Modell eines Filter-and-Sum-Beamformers geschrieben werden kann als

y(n) =

i=1

fi(n)∗xi(n),(3.1)

wobei das Signal xi(n) in jedem Signalpfad entsprechend Bild 3.1 wie folgt zusammengesetzt

ist:

xi(n) = sc(n)∗hi(n) + nc(n)∗ai(n) + nu,i(n) (3.2)

xi(n) = si(n) + ni(n).(3.3)

In Gl. (3.3) sind Nutz- und St¨

oranteile im i-ten Signalpfad zu

si(n) = sc(n)∗hi(n) (3.4)

ni(n) = nc(n)∗ai(n) + nu,i(n) (3.5)

zusammengefasst.

Aquivalent zu der bereits erfolgten Beschreibung in Abschnitt 2.3 soll auch hier eine

Darstellung aller Signale im Frequenzbereich bevorzugt werden. Die zeitdiskrete Fourier-

Transformation von Gl. (3.1) liefert somit folgendes Ergebnis

Y(Ω) =

i=1

F∗

i(Ω) ·Xi(Ω) (3.6)

i=1

F∗

i(Ω) ·(Si(Ω) + Ni(Ω)).(3.7)

1Durch die zeitinverse Notation der FIR-Filter l¨

aßt sich die Filterung mittels Vektorschreibweise im Fre-

quenzbereich kompakt durch Gl. (3.13) darstellen.

3.1. Beamformer-Signalmodell 31

Weiterhin wird im Folgenden vorzugsweise die Vektornotation der Signale verwendet, deren

Komponenten jeweils durch die zugeh¨

origen Signalpfade gegeben sind, z. B. durch

H(Ω) = [H1(Ω),...,HM(Ω)]T(3.8)

S(Ω) = [S1(Ω),...,SM(Ω)]T(3.9)

N(Ω) = [N1(Ω),...,NM(Ω)]T(3.10)

X(Ω) = [X1(Ω),...,XM(Ω)]T(3.11)

F(Ω) = [F1(Ω),...,FM(Ω)]T,(3.12)

wobei (·)Tdie transponierte Schreibweise des jeweiligen Vektors bezeichnet. Mit Hilfe der

beschriebenen Vektornotation ergibt sich aus den Gleichungen (3.6) und (3.7)

Y(Ω) = FH(Ω) ·X(Ω) (3.13)

=FH(Ω) ·(S(Ω) + N(Ω)) (3.14)

=FH(Ω) ·(Sc(Ω)H(Ω) + N(Ω)),(3.15)

mit (·)Hf¨

ur die hermitesch konjugierte Notation. An dieser Stelle soll angemerkt werden,

dass alle eingef¨

uhrten Signale in Gl. (3.8) bis Gl. (3.12) von der konkreten Positionierung

der Schallquellen (Positionen psund pn) und der Mikrophone (Positionen pi) im Raum

abh¨

angen, also nicht nur von der relativen Ausrichtung zueinander, sondern der absoluten

Anordnung im Raum. Daher m¨

ussten konsequenterweise jeweils diese geometrischen Infor-

mationen ebenfalls als Argument der Signale auftreten. Aufgrund einer k¨

urzeren Schreibweise

soll auf diese Notation verzichtet werden, so dass z. B. f¨

ur die Raum¨

ubertragungsfunktion

folgende Definition gilt:

H(Ω) := H(Ω,ps,p1, ..., pM).(3.16)

Aquivalent zur Definition Gl. (3.16) gelten ebenfalls verk¨

urzte Schreibweisen f¨

ur die Signale

in Gl. (3.9) bis Gl. (3.12).

Das Ziel des Beamformings ist es nun, die Filterkoeffizienten F(Ω) so zu w¨

ahlen, dass das

Quellsignal des Sprechers m¨

oglichst gut rekonstruiert wird. Dabei l¨

aßt sich der Filter-Entwurf

grunds¨

atzlich in zwei unterschiedliche Klassen aufteilen: datenunabh¨

angige und datenabh¨

an-

gige Verfahren [VVB88].

Data-Independent-Beamforming Bei einem datenunabh¨

angigen (engl. Data-Indepen-

dent)Beamforming-Verfahren h¨

angen die Filterkoeffizienten nicht von den Eingangsdaten,

also den Mikrophonsignalen, ab. Die Filtergewichte werden entsprechend einer gew¨

unschten

Raum-Zeit-¨

Ubertragungsfunktion entworfen, wobei h¨

aufig ein Signal aus einer vorgegebenen

Richtung am Beamformer-Ausgang erhalten bleiben soll, und weiterhin ein Filter-Design be-

z¨

uglich der Breite der Hauptkeule und der H¨

ohe der Nebenkeulen erfolgt. Die verschiedenen

Formen der Array-Gewichtung sind h¨

aufig ¨

aquivalent zu Fensterfunktionen in der Spektral-

analyse. Die eingesetzte spektrale Gewichtung erm¨

oglicht dann die Richtcharakteristik so zu

optimieren, dass z. B. die H¨

ohe der Nebenkeulen minimiert wird, oder ¨

uber alle Frequen-

zen gemittelt eine Mindestd¨

ampfung der Nebenkeulen erreicht wird; siehe [VT02] f¨

ur einen

Uberblick.

Data-Dependent-Beamforming Einem Beamforming-Design, welches datenabh¨

angig

(engl. Data-Dependent) ausgelegt sein soll, liegt die Idee zugrunde, eine zeitvariante Raum-

32 Kapitel 3. Grundlagen zu Mikrophongruppen

Zeit-¨

Ubertragungsfunktion zu erm¨

oglichen. So kann z. B. auch f¨

ur zeitlich variierende Spre-

cherpositionen ein optimales Beamforming im Sinne des Entwurfskriteriums durch adaptive

Verfahren realisiert werden. In Kapitel 4 werden basierend auf den statistischen Eigenschaften

der Mikrophonsignale einige optimale, datenabh¨

angige Beamforming-Designs vorgestellt.

Second Order Statistics Zum Entwurf statistisch optimaler Beamforming-Verfahren (sie-

he Kapitel 4) aber auch zur Bewertung eines Beamforming-Designs ist es notwendig, statisti-

sche Eigenschaften zweiter Ordnung (engl. Second Order Statistics) zu betrachten, also Signal-

leistungen bzw. spektrale Leistungsdichten. Da es sich bei Mikrophonsignalen im Allgemei-

nen um mittelwertfreie Signale handelt, ist das frequenzabh¨

angige Leistungsdichtespektrum

(LDS) φY Y (Ω) des Beamformer-Ausgangssignals Gl. (3.13) gegeben durch

φY Y (Ω) = E{|Y(Ω)|2}(3.17)

=E{FH(Ω)X(Ω)XH(Ω)F(Ω)}(3.18)

=FH(Ω)E{X(Ω)XH(Ω)}F(Ω),(3.19)

wobei E{·} den Erwartungswert bez¨

uglich aller Realisierungen der entsprechenden Zufalls-

variablen bezeichnet. Unter der Annahme zumindest schwach station¨

arer2Eingangssignale,

sowie unkorrelierten Rausch- und Sprachanteilen, kann Gl. (3.19) angegeben werden als

φY Y (Ω) = FH(Ω)ΦXX(Ω)F(Ω) (3.20)

=FH(k)ΦSS(Ω) + ΦNN(Ω)F(Ω),(3.21)

wobei ΦXX(Ω) die Matrix der spektralen Kreuzleistungsdichten der Mikrophonsignale und

ΦSS(Ω) bzw. ΦNN(Ω) die Matrizen der spektralen Kreuzleistungsdichten des Sprach- bzw.

Rauschanteils sind.

Schmalband Annahme Die Realisierung von Beamforming-Verfahren im Frequenzbereich

und die Berechnung der Kreuzleistungsdichtespektren erfordert eine Dekomposition des breit-

bandigen Audiosignals in einzelne Spektralkomponenten und deren unabh¨

angige Verarbeitung

voneinander. Dabei wird im gesamten Verlauf dieser Arbeit davon ausgegangen, dass in gu-

ter N¨

aherung von der Schmalband Annahme ausgegangen werden kann. Betrachtet man ein

Mikrophonsignal, welches als mittelwertfrei und zumindest schwach station¨

ar angenommen

wird, und integriert das Leistungsdichtespektrum ¨

uber einen bestimmten Frequenzbereich

[Ω0−∆Ω,Ω0+ ∆Ω] mit der Mittenfrequenz Ω0, so ist das Ergebnis proportional der mitt-

leren Leistung des Prozesses in diesem Bereich. F¨

ur gen¨

ugend klein gew¨

ahlte Bereiche ∆Ω

soll nun f¨

ur die Schmalband Annahme3φXiXi(Ω) als n¨

aherungsweise konstant innerhalb des

betrachteten Intervalls gelten [HN76, VVB88]:

ZΩ0+∆Ω

Ω0−∆Ω

φXiXi(Ω)dΩ≈2·∆Ω ·φXiXi(Ω0).(3.22)

2Ein stochastischer Prozess ist stark station¨

ar, wenn dessen Verteilung unabh¨

angig von dem absoluten

Zeitindex ist. Hingegen ist ein stochastischer Prozess schwach station¨

ar, wenn lediglich der Erwartungswert

unabh¨

angig von dem absoluten Zeitindex ist.

3F¨

ur die Schmalband Annahme ist es notwendig, dass die Spektralkomponenten untereinander unkorreliert

sind. Dies gilt jedoch nur asymptotisch f¨

ur unendlich lange Beobachtungsfenster [HN76].

3.2. Delay-and-Sum-Beamformer 33

3.2 Delay-and-Sum-Beamformer

Die einfachste Form der Realisierung der Filterkoeffizienten F(Ω) besteht darin, gerade die

Laufzeitdifferenzen f¨

ur die direkten Ausbreitungspfade der akustischen Welle zwischen der

Quelle und den einzelnen Mikrophonen zu kompensieren, um die einzelnen Signale anschlie-

ßend koh¨

arent zu addieren. Dabei ist zus¨

atzlich auf unterschiedliche Signald¨

amfungen in den

einzelnen Mikrophonpfaden zu achten. Diese entstehen einerseits durch die unterschiedliche

D¨

ampfung aufgrund verschieden langer Ausbreitungspfade, und andererseits durch eine un-

gleiche Verst¨

arkung der Mikrophonsignale bzw. uneinheitliche Mikrophoncharakteristiken.

Solch eine Strahlformung, die lediglich aus den Verz¨

ogerungen, einer reellwertigen, skalaren

Gewichtung und der anschließenden Summation besteht, wird Delay-and-Sum-Beamformer

(DSB) genannt. Unter der idealen Annahme, dass die beschriebene D¨

ampfung in jedem Pfad

identisch ist, reduziert sich die Gewichtung auf 1/M um den Signalpegel des Nutzsignals vom

Eingang zum Ausgang bei Mkoh¨

arent addierten Signalen konstant zu halten. Im Weiteren

soll nun dieser Sachverhalt formal beschrieben und wichtige Begriffe eingef¨

uhrt werden.

Beamformer Response Es soll nun angenommen werden, dass psdie Position einer mo-

nochromatischen Quelle

sc(n) = Sc·ejΩn(3.23)

der normierten Frequenz Ω mit der Amplitude Scangibt. Die Laufzeit des Signals von der

Quelle bis zum i-ten Mikrophon an der Stelle piist dann

τi:= τi(ps,pi) = 1

c||ps−pi||.(3.24)

Das Quellsignal sc(n) gelange ohne Reflexionen und D¨

ampfung zu den Mikrophonen, wo sich

jeweils das Signal

si(n) = ScejΩ(n−τi/T)(3.25)

ergibt. Das Signal am Beamformer-Ausgang kann dann entsprechend Gl. (3.7) geschrieben

werden als

y(n) =

i=1

F∗

i(Ω) ·ScejΩ(n−τi/T ).(3.26)

Aus Gl. (3.26) kann somit die Antwort des Beamformers (engl. Beamformer Response) auf ein

von der Position pauf die Sensorgruppe einfallendes Signal entsprechend [VVB88] definiert

werden:

r(Ω,p) :=

i=1

F∗

i(Ω) ·e−jΩ||p−pi||/(T c).(3.27)

Am Beamformer-Ausgang ergibt sich dann in kompakter Schreibweise

y(n) = ScejΩn·r(Ω,p=ps).(3.28)

Steering Vector M¨

ochte man nun wie eingangs beschrieben eine Laufzeitkompensation in

jedem Signalpfad realisieren, sind ¨

aquivalent zu Gl. (3.27) Exponentialterme einzuf¨

uhren. Hier

nun allerdings aus Sicht des Arrays, d. h. durch geeignete Verz¨

ogerungen kann die “Blickrich-

tung” (engl. Look Direction) des Arrays auf ein Ziel (engl. target)pthin ausgerichtet werden.

Die Zielkoordinaten ptsollten dabei idealerweise gleich den Quellkoordinaten sein pt=ps,

34 Kapitel 3. Grundlagen zu Mikrophongruppen

bzw. einer m¨

oglichst guten Sch¨

atzung dieser entsprechen. Die Laufzeitdifferenz, welche bei

einer Ausrichtung auf ein gew¨

unschtes Ziel auszugleichen ist, ergibt sich dann ¨

aquivalent zu

Gl. (3.24) durch

τi(pt) := τi(pt,pi) = 1

c||pt−pi||,(3.29)

so dass sich die Exponentialterme als Steering Vector4

d(Ω,pt) = (ejΩτ1(pt)/T , ejΩτ2(pt)/T ,...,ejΩτM(pt)/T )H.(3.30)

schreiben lassen. Zu beachten ist in Gl. (3.29), Gl. (3.30) und den folgenden Gleichungen,

dass die Zielrichtung ptals Argument beibehalten wird. Dies ist aus dem Grunde wichtig,

da die Ausrichtung des Arrays nicht zwangsl¨

aufig mit den Quellkoordinaten des Sprechers

ubereinstimmen m¨

ussen.

Grunds¨

atzlich ist es nicht notwendig, die absoluten Laufzeitdifferenzen zwischen der Schall-

quelle und den Sensoren auszugleichen, sondern lediglich die relativen Zeitdifferenzen bezogen

auf einen frei gew¨

ahlten Raumpunkt wie z. B. den Mittelpunkt der Mikrophongruppe. Die

Realisierung von Verz¨

ogerungseinheiten, die nicht in das Abtastintervall fallen, kann durch

so genannte Fractional Delay Filter mit kleinen Approximationsfehlern erfolgen [LVKL96].

Hier soll allerdings der Einfachheit halber die Form in Gl. (3.30) beibehalten werden.

Uniformly Weighted Beamformer Ausgehend von dem Steering Vector Gl. (3.30) ist

schließlich noch eine einheitliche Gewichtung der Beamformer-Signalpfade (engl. Uniformly

Weighted Beamformer) mit 1/M durchzuf¨

uhren. Die Filterkoeffizienten des idealen Delay-

and-Sum-Beamformers

FDSB(Ω) = 1

Md(Ω,pt=ps),(3.31)

erzeugen dann am Beamformer-Ausgang das Signal

Y(Ω) = FH

DSB(Ω)X(Ω).(3.32)

Es kann leicht gepr¨

uft werden, dass mit Gl. (3.32) das monochromatische Eingangssignal Gl.

(3.23) am Ausgang des Delay-and-Sum-Beamformers exakt rekonstruiert wird.

H¨

aufig wird in der Literatur die Laufzeitkompensation als Beamsteering bezeichnet und

als Vorverarbeitungsstufe f¨

ur das “eigentliche Beamforming” durchgef¨

uhrt. D. h. also, dass

f¨

ur das Beamforming-Design von einem mehrkanaligen, so genannten Presteered-Signal aus-

gegangen wird. Obschon in solch einer Anordnung die Laufzeitsteuerung adaptiv auf m¨

ogliche

Sprecherbewegungen ausgelegt sein kann, sei hier noch angemerkt, dass bei einer datenun-

abh¨

angigen, fest eingestellten nachfolgenden spektralen Gewichtung auch h¨

aufig von einem

Fixed Beamformer gesprochen wird. Das in dieser Arbeit vorgestellte Beamformig-Konzept

soll jedoch gerade ohne a priori Wissen bez¨

uglich der Sprecherrichtung auskommen, weshalb

die Laufzeitkompensation nicht als abgekoppelte Einheit betrachtet werden soll.

3.3 Anordnung der Mikrophone

Die wohl wichtigste Anordnung von Mikrophonen innerhalb einer Gruppe, die insbesonde-

re bei einer geringen Anzahl von Mikrophonen h¨

aufig gew¨

ahlt wird, ist eine ¨

aquidistante

4Da eine elektronische und nicht physikalische Ausrichtung des Arrays gemeint ist, wird auch manchmal

statt Steering Vector der Begriff Phase Steering benutzt.

3.3. Anordnung der Mikrophone 35

Platzierung der Mikrophone zueinander. In Bild 3.2 ist solch ein lineares Array mit vier

Mikrophonen und dem Abstand dzueinander dargestellt5. Weiterhin ist in dem Bild die

Broadside-Blickrichtung (senkrecht zum Array), die Endfire-Blickrichtung (entlang der Ver-

bindungsachse der Mikrophone) und eine Wellenfront f¨

ur eine beliebige Einfallsrichtung θ

relativ zur Broadside-Blickrichtung zwecks Definition der Begriffe eingetragen. Unter der

ddd

Endfire

Broadside

Bild 3.2: Lineare Anordnung einer Mikrophongruppe.

Fernfeld-Annahme, dass also der Schall als planare Welle auf die Mikrophone trifft, “sieht”

jedes Mikrophon die Quelle aus der gleichen Richtung6:θi=θt, i = 1,...,M. Es ergibt

sich so f¨

ur die Verz¨

ogerung des i-ten Mikrophonsignals bez¨

uglich des Array-Mittelpunkts als

Referenz

τi(pt) = τi(θt) = M+ 1

2−idsin(θt)

c(3.33)

und folglich f¨

ur den Steering Vector aus Gl. (3.30)

d(Ω,pt) = d(Ω, θt) = (ejΩτ1(θt)/T , ejΩτ2(θt)/T ,...,ejΩτM(θt)/T )H.(3.34)

Bei der linearen Anordnung nach Bild 3.2 stellt sich nun die Frage nach einer geeigneten Wahl

f¨

ur den Mikrophonabstand d. Unter der praktisch relevanten Annahme, dass dem Sprachsi-

gnal ein diffuses St¨

orschallfeld ¨

uberlagert ist, kann aus den Betrachtungen der r¨

aumlichen

Koh¨

arenz im vorangegangenen Kapitel folgendes gesagt werden: Einerseits ist es notwendig

die Mikrophone m¨

oglichst weit auseinender zu platzieren um eine geringe Kreuzkorrelation

f¨

ur das St¨

orschallfeld zu erhalten und dieses somit in der nachfolgenden Signalverarbeitung

gut zu unterdr¨

ucken. Andererseits sollte ein kleiner Abstand der Mikrophone gew¨

ahlt wer-

den, damit das Sprachsignal ¨

uber den gesamten Frequenzbereich eine hohe Kreuzkorrelation

aufweist. Da jedoch davon ausgegangen werden kann, dass sich der Sprecher in einer geringen

Distanz zum Array, also innerhalb des Hallradius befindet, ist ebenfalls bei gr¨

oßeren Mikro-

phonabst¨

anden noch eine starke Kreuzkorrelation auch bei h¨

oheren Frequenzen zu erwarten

(siehe gemessenen Koh¨

arenzverlauf eines Sprachsignals in Bild 2.8).

Ein weiteres, entscheidendes Kriterium bez¨

uglich der Wahl des Mikrophonabstandes ist

die Mehrdeutigkeit (engl. Aliasing) bei der r¨

aumlichen Abtastung der akustischen Welle.

Um dieses r¨

aumliche Aliasing auszuschließen, darf der Abstand zwischen den Mikrophonen

h¨

ochstens der halben minimalen Wellenl¨

ange λmin, welche im Wellenfeld auftritt, betragen.

5H¨

aufig sind lineare Mikrophongruppen entlang der z-Achse im kartesischen Koordinatensystem angeord-

net. Der Zusammenhang zwischen den kartesischen Koordinaten (x, y, z) und den Kugelkoordinaten (r, θ, ϕ)

ist im Anhang in Bild B.1 zu finden.

6Die Berechnung des Einfallswinkels einer sph¨

arischen Wellenfront kann in [JD93] gefunden werden.

36 Kapitel 3. Grundlagen zu Mikrophongruppen

F¨

ur zeitdiskrete Signale korrespondiert die minimale Wellenl¨

ange zur Abtastrate des Systems,

so dass sich f¨

ur den Abstand

d≤λmin

2=Tc (3.35)

ergibt. In der Literatur ist h¨

aufig f¨

ur die mehrkanalige Sprachsignalverarbeitung eine Ab-

tastrate von 1/T =fAb = 8kHz zu finden. Da dabei jedoch nur Frequenzen von maximal

4kHz ber¨

ucksichtigt werden, klingt das verarbeitete Signal oftmals etwas dumpf, weshalb

im Verlauf dieser Arbeit h¨

ohere Abtastraten zum Einsatz kommen. F¨

ur eine Abtastrate von

beispielsweise fAb = 12kHz ergibt sich dann ein maximaler Mikrophonabstand von 2,83cm

bei einer Schallgeschwindigkeit von c= 340m/s. Um die Auswirkung des Mikrophonabstands

und der Anzahl der verwendeten Mikrophone zu untersuchen, soll die Richtcharakteristik des

Arrays analysiert werden.

Beampattern Die Richtcharakteristik (engl. Beampattern) ergibt sich aus der Auswertung

der Beamformer Response in Gl. (3.27) f¨

ur alle Raumrichtungen. Da hier allerdings nur lineare

Arrays betrachtet werden, ist das Beampattern rotationssymmetrisch und somit unabh¨

angig

von der Elevation ϕ:

B(Ω, θ) = B(Ω, θ, ϕ) = r(Ω,p).(3.36)

Das Beampattern B(Ω, θ) wird also im Folgenden verstanden als r¨

aumliche ¨

Ubertragungs-

funktion des Beamformers (Beamformer Response) auf eine planar einfallende Schallwelle

aus der Raum-Richtung θ= [−π/2; π/2] in Abh¨

angigkeit von der Frequenz.

Im Falle des Uniformly Weighted Delay-and-Sum-Beamformers ergeben sich einfach zu

analysierende Eigenschaften bez¨

uglich der Richtcharakteristik. Mit Gl. (3.34) ergibt sich der

Koeffizientenvektor

FDSB(Ω) = 1

Md(Ω, θt) (3.37)

und schließlich das Beampattern

BDSB(Ω, θ) = 1

MdH(Ω, θt)d(Ω, θ) (3.38)

i=1

ejΩ(M+1

2−i)τe/T (3.39)

mit der effektiven Verz¨

ogerung

τe=d

c(sin(θt)−sin(θ)) (3.40)

bez¨

uglich des Array-Mittelpunkts. Mit Hilfe der Formel f¨

ur die geometrische Reihe kann Gl.

(3.38) umgeformt werden zu

BDSB(Ω, θ) = 1

sin MΩτe

2T

sin Ωτe

2T.(3.41)

Anhand der grafischen Darstellung der Richtcharakteristik kann das Prinzip des Beamfor-

mings verdeutlicht werden: durch Gleichung Gl. (3.41) kann das Beampattern entweder f¨

feste Werte von τe¨

uber die Frequenz oder f¨

ur feste Frequenzen Ω ¨

uber den Winkel θbei ein-

gestellter Ausrichtung θtaufgetragen werden. In Bild 3.3 ist das Beampattern beispielhaft f¨

3.3. Anordnung der Mikrophone 37

die Endfire-Blickrichtung θ=π/2 bei gegebener Zielrichtung θt= 0 und einer Anordnung aus

M= 5 Mikrophonen ¨

uber der auf die Geometrie normierten Frequenz f·d/c = Ωd/(2πTc)

logarithmisch dargestellt7. An Bild 3.3 ist die Periodizit¨

at des Betrages des Beampatterns be-

-30

-20

-10

00,5 11,5

Ωd/(2πTc)

10 log10 |B(Ω, θ =π/2)|2[dB]

Bild 3.3: Logarithmische Darstellung des DSB-Beampatterns ¨

uber der Frequenz mit M= 5 Mikrophonen bei

aquidistantem Mikrophonabstand, Endfire-Blickrichtung θ=π/2 und Zielrichtung θt= 0.

z¨

uglich Ω mit der Periode82π/τezu erkennen. Gl. (3.41) ist nun weiterhin derart zu interpre-

tieren, dass bei einer Frequenz von 0 Hz von der Broadside- bis zur Endfire-Richtung, also ¨

uber

den gesamten Winkelbereich, die ¨

Ubertragungsfunktion konstant ist. Mit steigender Frequenz

nimmt die D¨

ampfung zu den Seiten zu, bis schließlich bei der Frequenz Ωd/(2πTc) = 1/M die

erste Nullstelle und somit die komplette Hauptkeule dargestellt ist. Bei gegebenem Mikropho-

nabstand kann also mit steigender Mikrophonanzahl auch bei niedrigen Frequenzen eine gute

Richtwirkung erreicht werden. Nach der ersten Nullstelle entstehen mit weiter ansteigender

Frequenz zus¨

atzlich Nebenkeulen in der Richtcharakteristik.

Betrachtet man nun das Betragsquadrat des Beampatterns in Bild 3.4, so ist der be-

schriebene Sachverhalt in Abh¨

angigkeit des Raumwinkels θzu beobachten. Dabei ist die

Richtcharakteristik logarithmisch oben f¨

ur die Broadside-Blickrichtung θt= 0◦und unten

f¨

ur die Endfire-Blickrichtung θt= 90◦, jeweils links f¨

ur Ωd/(2πTc) = 0,1 und rechts f¨

Ωd/(2πTc) = 0,4 aufgetragen. Zu h¨

oheren Frequenzen hin steigt allgemein die Anzahl der

Nebenkeulen und die Breite der Hauptkeule nimmt ab. Die Hauptkeule sollte in die Richtung

des Sprechers weisen, so dass bei exakter Ausrichtung die Sprachkomponenten synchron und

unverzerrt aufsummiert werden. Andererseits bewirkt die ungleichphasige ¨

Uberlagerung eines

koh¨

arenten Schalleinfalls aus anderen Richtungen stets eine Signald¨

ampfung. Aber auch bei

inkoh¨

arenten Signalen f¨

uhrt die Mittelung aufgrund der stochastischen Phasenbeziehungen

zu einer Signald¨

ampfung. In Bild 3.4 zeigt sich bei sonst gleichen Werten f¨

ur d, Ω und Mei-

ne unterschiedlich breite Hauptkeule f¨

ur die Broadside- und Endfire-Richtung. Die Breite der

Hauptkeule ist durch die erste Nullstelle von Gl. (3.41) gegeben, also durch MΩτe/(2T) = ±π.

F¨

ur die Richtung der ersten Null des Beampatterns gilt dann

sin(θ) = sin(θt)∓2πTc

MdΩ.(3.42)

An Gl. (3.42) ist zu sehen, dass die Breite der Hauptkeule einerseits zu h¨

oheren Frequenzen

hin und andererseits durch Vergr¨

oßerung der Apertur (M−1) ·dabnimmt.

7Das Betragsquadrat des Beampatterns wird auch Powerpattern genannt.

8Die Funktion in Gl. (3.41) ist bez¨

uglich Ωτe/T f¨

ur gerade M2π-periodisch. F¨

ur ungerade Msind die

Maxima bei ±2π, ±6πnegativ und entsprechend bei ±4π, ±8πpositiv; es liegt eine 4π-Periodizit¨

at vor.

38 Kapitel 3. Grundlagen zu Mikrophongruppen

Broadside-Blickrichtung

−20

−10

-150

-120

-90

-60

-30 030

120

150

180

Ωd/(2πTc) = 0,1

θ[Grad]

−20

−10

-150

-120

-90

-60

-30 030

120

150

180

Ωd/(2πTc) = 0,4

θ[Grad]

Endfire-Blickrichtung

−20

−10

-150

-120

-90

-60

-30 030

120

150

180

Ωd/(2πTc) = 0,1

θ[Grad]

−20

−10

-150

-120

-90

-60

-30 030

120

150

180

Ωd/(2πTc) = 0,4

θ[Grad]

Bild 3.4: Beispielhaftes DSB-Beampattern ¨

uber dem Winkel θmit M= 5 Mikrophonen bei ¨

aquidistantem

Mikrophonabstand ohne r¨

aumliches Aliasing. Oben f¨

ur die Zielrichtung θt= 0◦und unten θt= 90◦;

jeweils links f¨

ur Ωd/(2πT c) = 0,1 und rechts f¨

ur Ωd/(2πT c) = 0,4.

Wie bereits erw¨

ahnt, ist das Beampattern B(Ω, θ) periodisch in Ω/T mit der Perioden-

dauer 2π/τe, d. h. sie ist abh¨

angig von der Zielrichtung θtund der Richtung θan dem das

Beampattern ausgewertet wird. F¨

ur das r¨

aumliche Aliasing bedeutet dieser Zusammenhang,

dass eine Vieldeutigkeit beim Durchlaufen der Frequenz zuerst bei einer Endfire-Ausrichtung

θt=±π/2 an der gegen¨

uberliegenden Seite des Arrays bei θ=∓π/2 vorliegt. Dann gilt

f¨

ur die effektive Verz¨

ogerung τe= 2d/c. Nebenkeulen, welche die gleiche H¨

ohe haben wie

die Hauptkeule werden Grating Lobes genannt. An den Stellen der Grating Lobes kann also

folglich keine Unterdr¨

uckung der St¨

orger¨

ausche aus den entsprechenden Einfallsrichtungen

erfolgen. In Bild 3.5 ist der Effekt des r¨

aumlichen Aliasing beispielhaft veranschaulicht. Zu

sehen ist dort die Richtcharakteristik in der oberen Reihe f¨

ur die Zielrichtung θt= 0◦und

unten f¨

ur θt= 90◦. Dabei ist jeweils links die normierte Frequenz zu Ωd/(2πT c) = 0,5 und

rechts zu Ωd/(2πT c) = 1,2 gew¨

ahlt.

Um eine weniger stark frequenzabh¨

angige Richtcharakteristik zu erhalten, kann einerseits

wie bereits erw¨

ahnt eine spektrale Gewichtung als Fixed Beamformer mit entsprechender

Optimierungsbedingung eingesetzt werden. Eine weitere M¨

oglichkeit beim Einsatz einer gr¨

3.3. Anordnung der Mikrophone 39

Broadside-Blickrichtung

−20

−10

-150

-120

-90

-60

-30 030

120

150

180

Ωd/(2πTc) = 0,5

θ[Grad]

−20

−10

-150

-120

-90

-60

-30 030

120

150

180

Ωd/(2πTc) = 1,2

θ[Grad]

Endfire-Blickrichtung

−20

−10

-150

-120

-90

-60

-30 030

120

150

180

Ωd/(2πTc) = 0,5

θ[Grad]

−20

−10

-150

-120

-90

-60

-30 030

120

150

180

Ωd/(2πTc) = 1,2

θ[Grad]

Bild 3.5: Veranschaulichung des r¨

aumlichen Aliasings f¨

ur DSB mit M= 5 Mikrophonen bei ¨

aquidistan-

tem Mikrophonabstand. Oben f¨

ur die Zielrichtung θt= 0◦und unten θt= 90◦; jeweils links f¨

Ωd/(2πT c) = 0,5 und rechts f¨

ur Ωd/(2πT c) = 1,2.

ßeren Anzahl an Mikrophonen ist es, diese in Teil-Arrays mit jeweils ¨

aquidistant zueinander

angeordneten Mikrophonen zu nutzen. Dabei ist es m¨

oglich einige Mikrophonsignale mehr-

fach in den unterschiedlichen Teil-Arrays auszuwerten, wodurch sich zwischen bestimmten

Mikrophonen ein logarithmischer Abstand ergibt [WKW01]. Die Teil-Arrays f¨

uhren dann

getrennt f¨

ur unterschiedliche Frequenzbereiche ein Beamforming durch, wobei das Ziel der

Mikrophonanordnung und des Filterentwurfs ist, ein m¨

oglichst konstantes Beampattern ¨

uber

den gesamten, interessierenden Frequenzbereich zu erhalten.

Es sei noch erw¨

ahnt, dass neben den linear angeordneten Mikrophonen zweidimensionale

Mikrophongruppen von großer Bedeutung sind und in verschiedenen Varianten in der Lite-

ratur diskutiert werden. Dabei ist z. B. eine M¨

oglichkeit, die Mikrophone auf der gesamten

Fl¨

ache eines Rechtecks gleichm¨

aßig zu verteilen. Weitere, h¨

aufiger zu findende Anordnungen

sind jedoch Kreuz-, Quadratkanten- oder Kreis-Mikrophongruppen [VT02]. Solche, aus vie-

len Mikrophonen bestehende Arrays, sind allerdings eher in der Schallfeldanalyse zu finden,

und weniger zur mehrkanaligen Sprachsignalverarbeitung bei Freisprecheinrichtungen, wie es

Gegenstand dieser Arbeit sein soll.

Im Weiteren werden ausschließlich lineare Mikrophongruppen eingesetzt mit variierender

40 Kapitel 3. Grundlagen zu Mikrophongruppen

Anzahl M, einem Abstand der Mikrophone zueinander von d= 4cm und einer Abtastrate

von fAb = 12kHz.

3.4 SNR-basierte Bewertungsgr¨

oßen des Beamformings

Zur objektiven Bewertung der erzielbaren Ger¨

auschreduktion von Beamforming-Verfahren

sind quantitativ messbare Gr¨

oßen w¨

unschenswert. Hier bieten SNR-basierte Methoden ein

einfaches Hilfsmittel zur Bestimmung von Kenngr¨

oßen, die ¨

uberdies eine genaue analytische

Berechnung zulassen.

Array Gain Eine der wichtigsten objektiv messbaren Bewertungsgr¨

oßen bez¨

uglich der Leis-

tungsf¨

ahigkeit von Beamformern stellt die Verbesserung des Signal-zu-Rauschabstandes vom

Eingang zum Ausgang des Beamformers dar. Dieser SNR-Gewinn (engl. SNR Gain) wird h¨

au-

fig mit dem allgemeinen Ausdruck Array Gain bezeichnet [VT02]. Der SNR-Gewinn G(Ω)

wird frequenzabh¨

angig angegeben, da es sich bei Sprache um ein breitbandiges Signal handelt:

G(Ω) = SNRArray(Ω)

SNRSensor(Ω),(3.43)

wobei mit SNRSensor(Ω) das frequenzabh¨

angige SNR an den Sensoren und mit SNRArray(Ω)

das frequenzabh¨

angige SNR am Ausgang des Beamformers bezeichnet ist. Das Signal-zu-

Rauschverh¨

altnis des i-ten Sensors ist gegeben durch

SNRSensor,i(Ω) = φSiSi(Ω)

φNiNi(Ω) (3.44)

und kann gemittelt ¨

uber alle Mikrophone angegeben werden als

SNRSensor(Ω) =

i=1

φSiSi(Ω)

i=1

φNiNi(Ω)

=Spur{ΦSS(Ω)}

Spur{ΦNN(Ω)},(3.45)

wobei Spur{A}die Spur der Matrix Abezeichnet. Am Beamformer-Ausgang ergibt sich mit

Gl. (3.21) folgender Ausdruck:

SNRArray(Ω) = FH(Ω)ΦSS(Ω)F(Ω)

FH(Ω)ΦNN(Ω)F(Ω).(3.46)

Mit Gl. (3.45) und Gl. (3.46) ergibt sich schließlich der SNR-Gewinn in Gl. (3.43) zu

G(Ω) = FH(Ω)ΦSS(Ω)F(Ω)

FH(Ω)ΦNN(Ω)F(Ω) ·Spur{ΦNN(Ω)}

Spur{ΦSS(Ω)}.(3.47)

Unter der Annahme, dass die unterschiedliche D¨

ampfung auf den Ausbreitungspfaden des

Sprachsignals sowie Reflexionen vernachl¨

aßigt werden (Freifeldausbreitung), kann das Kreuz-

leistungsdichtespektrum vereinfacht werden zu

ΦSS(Ω)˛

pt=ps

H(Ω) = d(Ω,pt)

=σ2

S(Ω) ·d(Ω,ps)dH(Ω,ps),(3.48)

3.4. SNR-basierte Bewertungsgr¨

oßen des Beamformings 41

mit der Varianz des Sprachsignals σ2

S(Ω). Der SNR-Gewinn kann dann f¨

ur den Fall des un-

verzerrt gebliebenen Sprachsignals geschrieben werden als

G(Ω)˛

pt=ps

H(Ω) = d(Ω,pt)

=|FH(Ω)d(Ω,ps)|2

FH(Ω)ΦNN(Ω)F(Ω) ·Spur{ΦNN(Ω)}

M.(3.49)

Somit lassen sich bei gegebenen Filterkoeffizienten F(Ω) Aussagen ¨

uber die St¨

orger¨

auschre-

duktion f¨

ur unterschiedliche St¨

orschallfelder machen.

Der SNR-Gewinn innerhalb dieser Arbeit soll vorzugsweise im Zeitbereich ermittelt wer-

den. Grundlage ist hierf¨

ur, dass in den Simulationen die einzelnen Komponenten der Ein-

gangssignale, d. h. jeweils der Sprachanteil si(n) und der Rauschanteil ni(n), separat vor-

liegen. So kann bei gegebenen Filterkoeffizienten der gefilterte Sprachanteil ys(n) und der

gefilterte Rauschanteil yn(n) jeweils getrennt berechnet werden. Unter Beachtung der Menge

der Zeitindizes Ts, welche Sprache beinhalten, soll folgende Definition gelten

SNRG := 10 ·



log10 



P

n∈Ts

s(n)

n∈Ts

n(n)



−log10 





i=1 P

n∈Ts

i(n)

i=1 P

n∈Ts

i(n)









dB.(3.50)

White Noise Gain Der so genannte White Noise Gain gibt den SNR-Gewinn f¨

ur den

Fall eines unkorrelierten Ger¨

auschfeldes an. Da ein wesentlicher Grund f¨

ur solch eine St¨

orung

Mikrophonrauschen sein kann (siehe Abbildung 3.1), ist dieser Wert also ein G¨

utemaß daf¨

ur,

wie empfindlich der Beamformer auf Sensorrauschen reagiert. F¨

ur r¨

aumlich und zeitlich weißes

Rauschen ergibt sich folgende Diagonalmatrix (diag{·}) f¨

ur das Kreuzleistungsdichtespektrum

ΦNuNu= diag{σ2

Nu,1(Ω), σ2

Nu,2(Ω),...,σ2

Nu,M(Ω)}(3.51)

und unter der gerechtfertigten Annahme gleicher Varianzen σ2

Nu,1(Ω) = σ2

Nu,2(Ω) = ... =

σ2

Nu,M (Ω) = σ2

Nu(Ω) in den MSignalpfaden f¨

ur das unkorrelierte Rauschen kann Gl. (3.51)

weiter vereinfacht werden zu

ΦNuNu=σ2

Nu(Ω) ·IM,(3.52)

wobei mit IMdie Einheitsmatrix der Dimension Mbezeichnet ist. Mit Gl. (3.52) kann der

White Noise Gain

GW(Ω) = G(Ω)Weiß (3.53)

angegeben werden zu

GW(Ω)˛

pt=ps

H(Ω) = d(Ω,pt)

=|FH(Ω)d(Ω,ps)|2

FH(Ω)F(Ω) .(3.54)

und l¨

aßt sich f¨

ur den Uniformly Weighted Delay-and-Sum-Beamformer weiter vereinfachen

DSB(Ω)˛

pt=ps

H(Ω) = d(Ω,pt)

=|FH

DSB(Ω)d(Ω,ps)|2

DSB(Ω)FDSB(Ω) =M. (3.55)

42 Kapitel 3. Grundlagen zu Mikrophongruppen

F¨

ur den Uniformly Weighted Delay-and-Sum-Beamformer ergibt sich also ein SNR-Gewinn

f¨

ur r¨

aumlich und zeitlich weißes Rauschen, das gleich der Anzahl der Mikrophone ist. Weiter-

hin bleibt festzuhalten, dass der White Noise Gain f¨

ur alle anderen Filterkoeffizienten kleiner

ausf¨

allt, da bei gleichbleibender Norm von F(Ω) der Ausdruck Gl. (3.54) und somit das innere

Produkt |FH(Ω)d(Ω,ps)|maximal wird, wenn F(Ω) und d(Ω,ps)¨

ubereinstimmen.

Directivity Die Direktivit¨

at D(Ω) (engl. Directivity) gibt das Verh¨

altnis der Leistung des

aufgenommenen Schalls aus der Array-Blickrichtung im Verh¨

altnis zur Schallleistung aus allen

Raumrichtungen9(θ, ϕ) abh¨

angig von der Frequenz an:

D(Ω) = |B(Ω, θt, ϕt)|2

4πR2π

0Rπ

0|B(Ω, θ, ϕ)|2sin θdθdϕ.(3.56)

Die formale Darstellung der Direktivit¨

at in Gl. (3.56) kann nach Berechnung der Integrale

(vgl. Anhang B) als Funktion der Koh¨

arenzmatrix Γ(Ω) eines diffusen Schallfelds dargestellt

werden

D(Ω) = |FH(Ω)d(Ω,pt)|2

FH(Ω)Γ(Ω)F(Ω) ,(3.57)

wobei die Matrixelemente Γi,j(Ω) nach Gl. (2.20) zu besetzen sind. Die Direktivit¨

at in Gl.

(3.57) kann derart interpretiert werden, dass sie dem SNR-Gewinn Gl. (3.49) des Arrays im

Falle eines diffusen St¨

orschallfeldes

G(Ω)Diffus =GD(Ω) (3.58)

und einem empfangenen Sprachsignals ohne Hallkomponenten entspricht:

D(Ω) = GD(Ω)˛

pt=ps

H(Ω) = d(Ω,pt)

.(3.59)

Das B¨

undelungsmaß (engl. Directivity Index) gibt die zur Direktivit¨

at ¨

aquivalente Dar-

stellung im logarithmischen Maß an:

DI(Ω) := 10 log10 D(Ω)dB.(3.60)

F¨

ur die einfachste Wahl der Filterkoeffizienten als DSB (FDSB(Ω)) ergeben sich f¨

ur das

B¨

undelungsmaß die in Bild 3.6 und 3.7 gezeigten Verl¨

aufe. Dabei ist das B¨

undelungsmaß je-

weils ¨

uber der Frequenz f¨

ur verschiedene Zielrichtungen θtin Bild 3.6 und f¨

ur unterschiedliche

Mikrophonanzahl/-abstands-Kombinationen in Bild 3.7 aufgetragen. Es ergibt sich dabei ein

wellenf¨

ormiger Verlauf des Directivity Index, der mit dem si-f¨

ormigen Verlauf der Koh¨

arenz

korrespondiert, d. h. der DI(Ω) schwingt um 10 log(M) herum. Der DI(Ω) steigt mit gr¨

oßer

werdendem Mikrophonabstand steiler an; es wird also ein h¨

oherer SNR-Gewinn bei niedrigen

Frequenzen erzielt. Weiterhin nimmt der DI(Ω) mit zunehmender Mikrophonanzahl zu.

9An dieser Stelle wird das in Gl. (3.36) eingef¨

uhrte Beampattern in Abh¨

angigkeit vom Elevationswinkel ϕ

und vom Azimuthwinkel θf¨

ur planar einfallende Schallwellen geschrieben.

3.4. SNR-basierte Bewertungsgr¨

oßen des Beamformings 43

001

DI(Ω)[dB]

Ω/(2πT)[kHz]

M= 5, d = 4 cm

θt= 0◦

θt= 30◦

θt= 60◦

θt= 90◦

Bild 3.6: Unterschiedliche Verl¨

aufe f¨

ur das B¨

undelungsmaß abh¨

angig von der Zielrichtung θtaufgetragen ¨

uber

der Frequenz f¨

ur M= 5 Mikrophone mit ¨

aquidistantem Abstand von d= 4 cm.

001

DI(Ω)[dB]

Ω/(2πT)[kHz]

M= 8, d = 6cm

M= 8, d = 4cm

M= 4, d = 4cm

M= 4, d = 6cm

θt= 0◦

Bild 3.7: Unterschiedliche Verl¨

aufe f¨

ur das B¨

undelungsmaß bei einer Zielrichtung θt= 0◦aufgetragen ¨

uber der

Frequenz f¨

ur unterschiedliche Kombinationen zwischen der Mikrophonanzahl M∈ {4,8}und dem

Mikrophonabstand d∈ {4 cm,6 cm}.

Averaged SNR Ein wichtiges Hilfsmittel zur Sch¨

atzung des Signal-zu-Rauschabstandes

ist das gemittelte SNR (engl. averaged SNR) im Falle station¨

arer St¨

orger¨

ausche [GBW01].

Dabei liegt das Sprachsignal nicht separat in reiner Form vor, sondern muss mit Hilfe des

Mischsignals bestehend aus Sprach-plus-Rauschanteil gesch¨

atzt werden [WHU06b]. Dazu ist

es notwendig, mit Hilfe einer Sprache/Pause-Detektion (engl. Speech Activity Detection, VAD)

Signalsegmente mit bzw. ohne Sprachanteil entsprechend zu klassifizieren. So ergibt sich z. B.

44 Kapitel 3. Grundlagen zu Mikrophongruppen

f¨

ur das gemittelte SNR am Beamformer-Ausgang folgende Beziehung

SNRavg =

LsP

n∈Ts

y2(n)−1

LnP

n∈Tn

y2(n)

LnP

n∈Tn

y2(n)

.(3.61)

Mit Lsist die Anzahl der Abtastwerte bezeichnet, die zus¨

atzlich zum Rauschen auch das

Sprachsignal enthalten, und mit Lndie Anzahl der Abtastwerte, in denen lediglich Rauschen

beobachtet wird. Weiter bezeichnet Tsdie Menge der Zeitindizes, welche Sprache, und Tndie

Menge der Zeitindizes, welche keine Sprache beinhalten.

3.5 Wahrnehmungsbasierte Qualit¨

atsbewertung des Sprach-

signals

Eine aussagekr¨

aftige subjektive Beurteilung der Sprachqualit¨

at verarbeiteter Signale l¨

aßt sich

durch Auswertung von H¨

ortests einer Gruppe von Versuchspersonen angeben. Die Internatio-

nale Fernmeldeunion (International Telecommunication Union, ITU) hat daf¨

ur Bewertungs-

methoden spezifiziert, welche unter dem Begriff“Mean Opinion Score”10 (MOS) zusammenge-

fasst sind. Da solche H¨

ortests mit hohem Aufwand verbunden sind, werden h¨

aufig objektive

Beurteilungsverfahren herangezogen, um auf der Basis von Algorithmen eine quantitative

Aussage ¨

uber die Qualit¨

at der verarbeiteten Signale angeben zu k¨

onnen. H¨

aufig verwendete

Methoden lassen sich dabei prinzipiell in zwei Klassen unterteilen. Zum einen sind dies Maße

basierend auf dem Vergleich von Sprachmodellparametern, die mit Hilfe der Methode der li-

nearen Pr¨

adiktion gewonnen werden, wie z. B. Itakura-Saito-Distortion,Log-Likelihood-Ratio

oder Log-Area-Ratio, siehe [IS70, GM76, QBC88]. Und zum anderen Verfahren, welche Mo-

delle der auditorischen Signalverarbeitung nutzen, wie z. B. Perceptual Evaluation of Speech

Quality (PESQ) [ITU01] und das Perzeptive Modell zur Qualit¨

atsbeurteilung (PEMO-Q)

[Hub03]. Im Vergleich zu den erstgenannten objektiven Bewertungsverfahren hat sich die

PEMO-Q-Methode als sehr gute Alternative erwiesen [RHK05, Hub06]. Daher wird in dieser

Arbeit das PEMO-Q-Verfahren verwendet, um wahrnehmungsbasierte Unterschiede zwischen

Audiosignalen anzugeben.

Bei der instrumentellen Methode PEMO-Q besteht die Grundidee darin, basierend auf

dem Geh¨

ormodell der “effektiven” auditorischen Signalverarbeitung nach [DPK96], die zu

vergleichenden akustischen Signale in interne Repr¨

asentationen auf perzeptueller Ebene zu

uberf¨

uhren. Die Korrelation der internen Repr¨

asentationen beider Signale ist dann ein Maß f¨

die wahrgenommene ¨

Ahnlichkeit dieser Signale: Perceptual Similarity Measure (PSM). Jeder

wahrnehmbare Unterschied wird als Qualit¨

atsverschlechterung des Testsignals gegen¨

uber dem

Referenzsignal interpretiert.

Das PEMO-Q-Verfahren zum Vergleich eines Test- und Referenzsignales l¨

aßt sich prinzi-

piell in 4 Verarbeitungsstufen einteilen (siehe Bild 3.8):

1.) Vorverarbeitung:

Vor der Transformation der Signale in interne Repr¨

asentationen kann eine zeitliche

10Der MOS bezeichnet Verfahren zur subjektiven Beurteilung der Qualit¨

at von Sprach- und Bild¨

ubertra-

gungen, welche in der ITU-Empfehlung P.800 spezifiziert sind und in der Empfehlung P.830 werden die Be-

wertungsmethoden aktuell verfeinert.

3.5. Wahrnehmungsbasierte Qualit¨

atsbewertung des Sprachsignals 45

Verschiebung sowie eine Pegeldifferenz zwischen den Signalen ermittelt und ausgegli-

chen werden. Weiterhin k¨

onnen Pause-Segmente herausgeschnitten und somit aus der

Messung herausgehalten werden.

2.) Transformation in neuronale Aktivit¨

atsmuster:

Psychoakustisch motiviert erfolgt zun¨

achst eine Aufteilung in 33 B¨

ander mittels einer

Gammaton-Filterbank entsprechend der Basilarmembran-Bandpasscharakteristik mit

Mittenfrequenzen zwischen 235Hz und 14,5kHz. Danach werden die Frequenzb¨

ander

unabh¨

angig voneinander weiterverarbeitet; zuerst durch eine Halbwellen-Gleichrichtung

und eine 1kHz Tiefpassfilterung, welche die Transformation der mechanischen Oszilla-

tion der Schallwellen in neuronales Feuern der inneren H¨

orzellen simuliert. Anschlie-

ßend werden psychoakustische Effekte bez¨

uglich zeitlicher Maskierung und Adaption

durch f¨

unf aufeinander folgende mittels Division r¨

uckgekoppelte Tiefpassfilter model-

liert. Dadurch werden sich schnell ¨

andernde Signale st¨

arker hervorgehoben im Vergleich

zu station¨

aren Signalanteilen.

3.) Nachverarbeitung:

Die Einh¨

ullende wird mittels einer 8-kanaligen linearen Modulationsfilterbank ermittelt,

so dass schließlich die 33 ·8 = 264 Ausg¨

ange die so genannte interne Repr¨

asentation

des akustischen Signals bilden. Im Falle betragsm¨

aßig kleinerer Repr¨

asentanten f¨

ur das

Testsignal im Vergleich zum Referenzsignal wird der interne Repr¨

asentant des Testsi-

gnals durch Mittelung beider ersetzt. Dieser Verarbeitungsschritt ist motiviert durch die

Annahme, dass fehlende Komponenten im Signal weniger st¨

orend wirken als zus¨

atzlich

eingef¨

ugte Ger¨

auschartefakte.

4.) Korrelation:

Die ¨

uber die Zeit und Frequenz gemittelten Kreuzkorrelationen zwischen jedem Repr¨

sentanten des Test- und Referenzsignals werden auf das Intervall [-1,1] normiert und

ergeben schließlich den PSM-Wert.

Weiterhin ist es mit PEMO-Q m¨

oglich, die interne Repr¨

asentation auf eine 5-stufige wahr-

nehmungsbasierte Skala zu transformieren und die Differenz als Objective Difference Grade

(ODG) anzugeben11. Dabei ist die Beeintr¨

achtigung der Audioqualit¨

at entsprechend der ITU-

Empfehlung12 eingeteilt.

Bevor das Pemo-Q-Verfahren in sp¨

ateren Kapiteln zur Sprachqualit¨

atsbeurteilung be-

nutzt wird, soll im Folgenden beispielhaft einerseits die Auswirkung einer fehlerhaften Lauf-

zeitkompensation auf das Sprachsignal am Ausgang eines DSBs (unter der Annahme einer

Schallausbreitung im Freifeld) und andererseits der Einfluss von Nachhall auf ein unverzerrtes

Sprachsignal untersucht werden.

Sprachverzerrung durch fehlerhafte Laufzeitkompensation

In einem DSB k¨

onnen zwei unterschiedliche Fehlerquellen dazu f¨

uhren, dass die Sprachkom-

ponenten in den Mikrophonpfaden nicht exakt koh¨

arent aufaddiert werden. Einerseits ergibt

sich offensichtlich eine fehlerhafte Laufzeitkompensation durch einen Lokalisationsfehler des

11Das PEMO-Q-Softwarepaket liefert noch die weiteren Qualit¨

atsmaße Qc nach [HK00], den instantanen

PSM-Wert PSM(t) und einen lautheitsgewichteten Verlauf der instantanen PSM-Werte.

12Subjektives Qualit¨

atsmaß nach den ITU-Empfehlungen BS.562-3: Subjective Assessment of Sound Quality.

46 Kapitel 3. Grundlagen zu Mikrophongruppen

Audiosignal

Basilarmembranfilterung

Halbwellengleichrichtung

Tiefpassfilterung

Adaption

Modulationsfilterung

Interne Repr¨

asentanten

Bild 3.8: Blockschaltbild des auditorischen Modells zur Qualit¨

atsbeurteilung.

Sprechers. Andererseits resultiert aber auch bei korrekt ermittelter Sprecherrichtung ein unge-

nau eingestellter Mikrophonabstand in falsch berechneten Kompensationszeiten. Betrachtet

man zur Anschauung die in den Bildern 3.3 und 3.4 dargestellten Richtcharakteristiken unter

dem Gesichtspunkt eines eventuell aufgetretenen Lokalisationsfehlers, so wird klar, das lineare

Verzerrungen des Sprachsignals durch eine frequenzabh¨

angige D¨

ampfung des Quellsignals auf-

treten. Diese D¨

ampfung w¨

achst grunds¨

atzlich mit steigender Frequenz aufgrund der schmaler

werdenden Hauptkeule an. Analytisch kann die Sprachsignald¨

amfung durch Auswertung des

Beampatterns in Gl. (3.41) f¨

ur die tats¨

achliche Sprecherrichtung θ=θserfolgen, wobei die

Sprecherrichtung mit der Ausrichtung des Arrays ¨

uber die Abweichung ∆θzusammenh¨

angen

soll:

θt=θs+ ∆θ. (3.62)

3.5. Wahrnehmungsbasierte Qualit¨

atsbewertung des Sprachsignals 47

Dazu soll die effektive Verz¨

ogerung in Gl. (3.40) ausgeschrieben werden zu

τe=1

c(dsin(θt)−dsin(θ)) (3.63)

c(dsin(θs+ ∆θ)−dsin(θs)) (3.64)

c((d+ ∆d(θs,∆θ)) sin(θs)−dsin(θs)) , θs6= 0.(3.65)

Durch das Gleichsetzen von Gl. (3.64) mit Gl. (3.65) soll angedeutet sein, dass eine fehler-

hafte Lokalisation zu der gleichen effektiven Verz¨

ogerung f¨

uhrt wie eine fehlerhafte Anord-

nung der Mikrophone. Die Mikrophone befinden sich also in dem tats¨

achlichen Abstand von

d+ ∆d(θs,∆θ) anstatt des angenommenen Abstandes dzueinander. Ein zu einem Lokali-

sationsfehler ¨

aquivalentes ∆d(θs,∆θ) kann allerdings nur f¨

ur eine Sprecherrichtung θs6= 0

angegeben werden, da f¨

ur eine Broadside-Ausrichtung keine Signalverz¨

ogerung notwendig ist

und f¨

ur beliebige Mikrophonabst¨

ande13 die Summation der Mikrophonsignale das korrekte

Ergebnis liefert. In Bild 3.9 ist die Sprachsignald¨

ampfung durch Auswertung von Gl. (3.41)

mit den Annahmen Gl. (3.62) bis Gl. (3.65) dargestellt:

BDSB(Ω, θs;θt=θs+ ∆θ) = BLE

DSB(Ω,∆θ).(3.66)

Mit dem Index “LE” soll hierbei die Auswertung des Beampatterns bez¨

uglich eines Lokalisa-

tionsfehlers (engl. Localization Error, LE) angedeutet sein. In Bild 3.9 (a) ist die Sprachsi-

gnald¨

ampfung f¨

ur eine Zielausrichtung θt= 0◦und in Bild 3.9 (b) f¨

ur θt= 60◦dargestellt. In

Bild 3.10 ist der ¨

aquivalente fehlerhafte Abstand ∆d(θs,∆θ)¨

uber dem korrespondierenden

Lokalisationsfehler ∆θf¨

ur unterschiedliche Sprecherrichtungen aufgetragen. Die in Bild 3.9

(a)

θt= 0◦

BLE

DSB(Ω,∆θ) [dB]

Ω/(2πT) [kHz]

∆θ= 12◦

∆θ= 8◦

∆θ= 4◦

∆θ= 2◦

(b)

θt= 60◦

BLE

DSB(Ω,∆θ) [dB]

Ω/(2πT) [kHz]

∆θ= 12◦

∆θ= 8◦

∆θ= 4◦

∆θ= 2◦

Bild 3.9: Unterschiedliche Verl¨

aufe der Sprachsignald¨

ampfung in Abh¨

angigkeit von der Frequenz f¨

ur einen

DSB. In (a) f¨

ur eine Zielausrichtung θt= 0◦und in (b) f¨

ur θt= 60◦jeweils f¨

ur M= 5 Mikrophone

mit ¨

aquidistantem Abstand von d= 4 cm.

gezeigten Verl¨

aufe der Sprachsignald¨

ampfung zeigen deutlich ein frequenzselektives Verhalten.

Dies ist offensichtlich, da, wie in Bild 3.4 bereits gezeigt wurde, die Breite der Hauptkeule

zu h¨

oheren Frequenzen hin immer schmaler wird und sich so ein Lokalisationsfehler dort

besonders stark auswirkt. Weiterhin ist der Effekt der Sprachsignald¨

ampfung bei gleichem

13Die Aussage, dass falsch angenommene Mikrophonabst¨

ande bei einem von Broadside-Richtung einfallen-

den Sprachsignal keinerlei Auswirkung auf das resultierende Sprachsignal hat, gilt nat¨

urlich nur, solange die

Fernfeld-Annahme G¨

ultigkeit hat.

48 Kapitel 3. Grundlagen zu Mikrophongruppen

Lokalisationsfehler f¨

ur verschiedene Zielrichtungen θtunterschiedlich stark ausgepr¨

agt. Auch

dieses Verhalten kann durch einen Vergleich mit Bild 3.4 erkl¨

art werden: Die Breite der Haupt-

keule nimmt bei gleicher Frequenz f¨

ur Zielrichtungen von einer Broadside-Ausrichtung hin zur

Endfire-Ausrichtung weiter zu, wodurch sich Lokalisationsfehler in einer geringer werdenden

D¨

ampfung des Sprachsignals bemerkbar machen.

6810 12

∆d(θs,∆θ) [cm]

∆θ[◦]

θs= 10◦

θs= 30◦

θs= 60◦

θs= 80◦

Bild 3.10: ¨

Aquivalenter Fehlerabstand ∆d(θs,∆θ) in Abh¨

angigkeit vom Lokalisationsfehler ∆θf¨

ur unterschied-

liche Sprecherrichtungen; jeweils f¨

ur M= 5 Mikrophone mit ¨

aquidistantem Abstand von d= 4 cm.

F¨

ur den ¨

aquivalenten Fehlerabstand ∆d(θs,∆θ) kann bez¨

uglich der Ausrichtung gefolgert

werden, dass der negative Effekt einer Sprachsignald¨

ampfung sich um so st¨

arker auswirkt,

je weiter die Sprecherrichtung von Broadside hin zu Endfire ¨

ubergeht (bei gleichbleibendem

∆d(θs,∆θ)).

Ebenfalls destruktiv auf das Sprachsignal am Beamformer-Ausgang wirkt sich eine unter-

schiedliche D¨

ampfung des Sprachsignals durch unterschiedliche Ausbreitungspfade zu den ein-

zelnen Mikrophonen (falls diese nicht entsprechend kompensiert wird) auf das DSB-Ausgangs-

signal aus. Ein ¨

ahnlicher Effekt stellt sich ein, wenn ein signifikanter Unterschied zwischen

den Mikrophoncharakteristiken vorliegt und dadurch ein systematischer Fehler in der Pegel-

gewichtung entsteht [DM99]. Dieser Effekt f¨

allt jedoch weitaus geringer als ein Lokalisations-

fehler aus und wird daher hier nicht weiter untersucht.

Nach den bisherigen Betrachtungen zur frequenzselektiven Signald¨

ampfung scheint die

Auswirkung eines Lokalisationsfehlers auf das Sprachsignal erheblich zu sein. Da jedoch die

spektrale Leistungsdichte von Sprachanteilen im oberen Frequenzbereich gering im Vergleich

zu den stimmhaften Anteilen im unteren Frequenzbereich ist, f¨

allt eine fehlerhafte Ausrich-

tung bei einer subjektiven Bewertung der Qualit¨

at des Sprachsignals deutlich geringer ins

Gewicht, als dies durch die Verl¨

aufe in Bild 3.9 vermutet wird. Diese Wahrnehmung spiegelt

sich ebenfalls in der Qualit¨

atsbeurteilung nach dem PEMO-Q-Verfahren wieder. In Bild 3.11

(a) ist beispielhaft der Verlauf der PSM-Werte in Abh¨

angigkeit von dem Lokalisationsfehler

∆θdargestellt. Dabei wurden f¨

ur 10 Sprachbeispiele (5 m¨

annliche und 5 weibliche Sprecher,

abgetastet mit einer Frequenz von 12kHz) M= 5-kanalige Signale unter der Annahme einer

Schallausbreitung im Freifeld jeweils f¨

ur unterschiedliche Einfallsrichtungen auf die Sensor-

gruppe simuliert. Diese wurden mittels DSB mit Broadside-Ausrichtung verarbeitet und die

einkanaligen Ausgangsdaten im Vergleich zu den Referenzsignalen bei ∆θ= 0 ◦bez¨

uglich der

perzeptiven Sprachqualit¨

at verglichen. Das Bild 3.11 (a) zeigt die PSM-Ergebnisse jeweils

gemittelt ¨

uber die 10 verwendeten Sprachbeispiele. In dem Bild 3.11 (b) ist die spektrale

Leistungsdichte des Ausgangssignals f¨

ur unterschiedliche Lokalisationsfehler ¨

uber der Fre-

3.5. Wahrnehmungsbasierte Qualit¨

atsbewertung des Sprachsignals 49

quenz aufgetragen; ebenfalls gemittelt ¨

uber alle Sprachbeispiele. Der Vergleich von Bild 3.11

mit Bild 3.9 zeigt zwar, dass die relative, frequenzselektive Sprachsignald¨

ampfung dem theo-

retischen Verlauf entspricht, aber der messbare Qualit¨

atsverlust der Sprache aufgrund der

niedrigen Leistung in den h¨

oheren Frequenzen sehr gering ist.

0,998

0,996

0,994

510

∆θ[◦]

PSM

(a)

-50

-40

-30

-20

-10

0246

φY Y (Ω) [dB]

Ω/(2πT) [kHz]

(b)

∆θ= 12◦

∆θ= 8◦

∆θ= 4◦

∆θ= 0◦

Bild 3.11: In (a) wahrnehmungsbasierte Qualit¨

atsbeurteilung und in (b) spektrale Leistungsdichte, jeweils

f¨

ur die Ausgangssignale eines DSBs f¨

ur unterschiedliche Lokalisationsfehler ∆θmit Broadside-

Ausrichtung von M= 5 Mikrophonen bei ¨

aquidistantem Abstand d= 4 cm.

Einfluss von Hall auf PEMO-Q

Abschließend soll nun noch einerseits der negative Einfluss von Hall und andererseits die

positive, enthallende Wirkung der koh¨

arenten ¨

Uberlagerung mehrkanaliger Sprachsignale14

bez¨

uglich der wahrnehmungsbasierten Qualit¨

atsbewertung mittels des PEMO-Q-Verfahrens

gezeigt werden. In Bild 3.12 ist beispielhaft der Verlauf der PSM-Werte in Abh¨

angigkeit von

der Nachhallzeit T60 dargestellt. Verglichen werden hierbei die unverhallten 10 Sprachbeispiele

mit den jeweils verhallten Versionen dieser Referenzsignale. Dabei wurde mit der Spiegelquel-

lenmethode in einem Raum der Gr¨

oße (6m)x(5m)x(3m) f¨

ur unterschiedliche Nachhallzeiten

zwischen 0s und 0,8s jeweils die Schallausbreitung zwischen einer Sprachsignalquelle und f¨

unf

Sensoren mit dem Abstand von 0,8m zum Array-Mittelpunkt simuliert. Das Bild 3.12 zeigt

die PSM-Ergebnisse jeweils gemittelt ¨

uber die 10 verwendeten Sprachbeispiele f¨

ur das mittlere

der f¨

unf Sensoren (DSB-Eingangssignale) gekennzeichnet durch ”Mik” und den DSB-Ausgang

”DSB”. Die Sprecherrichtung ist dabei gleich der Beamformer-Ausrichtung θs=θt= 0◦.

Anhand der starken Auswirkung von Hall auf die gemessenen PSM-Werte (vgl. Bild 3.11

mit 3.12) erscheint es sinnvoll, in sp¨

ateren Vergleichen zur Sprachverzerrung jeweils Referenz-

signale heranzuziehen, welche sehr ¨

ahnliche Halleigenschaften wie die zu testenden Signale

aufweisen. Daf¨

ur werden dann jeweils mittels eines Referenzsystems optimal gefilterte ver-

hallte Sprachsignale als Referenzsignale f¨

ur die zu vergleichenden Beamforming-Verfahren

genutzt.

14Bei koh¨

arenter ¨

Uberlagerung mehrkanaliger verhallter akustischer Signale steigt der Energieanteil der

Schallausbreitung ¨

uber die direkte Komponente der resultierenden Raumimpulsantwort und somit das Klar-

heitsmaß des Sprachsignals, vgl. Abschnitt 2.2.

50 Kapitel 3. Grundlagen zu Mikrophongruppen

00,2 0,4 0,6 0,8

0,9

0,92

0,94

0,96

0,98

PSM

DSB

Mik

T60 [s]

Bild 3.12: Degradation der perzeptuellen Qualit¨

atsbeurteilung von verhallten Sprachsignalen “Mik” mit den

jeweils unverhallten Versionen als Referenz im Vergleich zur enthallenden Wirkung eines DSBs

“DSB”.

3.6 Zusammenfassung

In diesem Kapitel wurden die grundlegenden Eigenschaften von Mikrophongruppen und de-

ren Bewertungskriterien aufgezeigt. Hierbei kamen ausschließlich Betrachtungen von line-

ar angeordneten Arrays zum Einsatz, wie sie auch im weiteren Verlauf dieser Arbeit als

Ausgangspunkt f¨

ur das anschließende Beamforming dienen sollen. Mit dem eingef¨

uhrten

Beamformer-Signalmodell wurde anhand eines laufzeitkompensierenden so genannten Delay-

and-Sum-Beamformers die Auswirkung r¨

aumlichen Aliasings in Abh¨

angigkeit von dem ge-

w¨

ahlten Mikrophonabstand untersucht. Dabei ergibt sich einerseits ein bestimmter maximaler

Mikrophonabstand, um r¨

aumliches Aliasing zu vermeiden. Andererseits ist ein deutlich gr¨

ßerer Abstand w¨

unschenswert, um tiefe Frequenzen des St¨

orschallfeldes st¨

arker unterdr¨

ucken

zu k¨

onnen. Folglich soll als Kompromiss zwischen den beiden gegens¨

atzlichen Kriterien im

uberwiegenden Teil der Arbeit ein Mikrophonabstand von d= 4cm bei einer Abtastrate von

fAb = 12kHz zum Einsatz kommen.

Zur Analyse des r¨

aumlichen Aliasings wurde die Richtcharakteristik der Raum-Zeit-Filter-

ung mittels Beamforming-Verfahren eingef¨

uhrt, welche eine r¨

aumliche ¨

Ubertragungsfunktion

f¨

ur Schallwellen aus den entsprechend zu analysierenden Raumrichtungen darstellt. Die Richt-

charakteristik (bzw. Beampattern) ist ein wichtiges Werkzeug zur Veranschaulichung und zur

Leistungsbeurteilung von Beamformern bez¨

uglich ihrer r¨

aumlichen Selektivit¨

at.

Als weitere Bewertungsgr¨

oßen der erzielbaren Ger¨

auschreduktion mittels Beamforming

wurden einerseits wahrnehmungsbasierte Qualit¨

atsmerkmale und andererseits SNR-basierte

Bewertungskriterien beschrieben. Hierbei kann die SNR-Verbesserung vom Ein- zum Ausgang

des Arrays (auch Array Gain oder SNR Gain) unterschieden werden f¨

ur den Fall von weißem,

r¨

aumlich unkorrelierten Rauschen (White Noise Gain) und diffusem Rauschen (Directivity)

als St¨

orschallfeld.

F¨

ur die wahrnehmungsbasierte Qualit¨

atsbewertung mittels des PEMO-Q-Verfahrens ¨

uber

den PSM-Wert wurden in diesem Kapitel erste Ergebnisse f¨

ur den Delay-and-Sum-Beamformer

zum einen f¨

ur die Annahme von Lokalisationsfehlern durchgef¨

uhrt, und zum anderen Analy-

sen zur Absch¨

atzung der Hall-Auswirkung mit und ohne Beamformer vorgenommen. Dabei

zeigte sich, dass die Auswirkung von Lokalisationsfehlern sowohl bei subjektiven H¨

ortests als

3.6. Zusammenfassung 51

auch bei Verwendung des ¨

Ahnlichkeitsmaß geringer ausfallen als vermutet. Verhallte Signale

zeigten hingegen eine hohe Abweichung in der PSM-Bewertung bez¨

uglich einer unverhallten

Referenz. Die Verarbeitung eines verhallten mehrkanaligen Sprachsignals mittels DSB zeigte

hier wie erwartet eine messbare Verbesserung (Enthallung) des Signals.

52 Kapitel 3. Grundlagen zu Mikrophongruppen

Kapitel 4

Statistisch optimales Beamforming

Im Gegensatz zu dem bisher betrachteten Delay-and-Sum-Beamformer werden im folgenden

Kapitel die Grundlagen f¨

ur das so genannte statistisch optimale Beamforming hergeleitet.

Dabei erfolgt die Wahl der Beamformer-Gewichtungsvektoren basierend auf den statistischen

Eigenschaften des Sprachsignals und des St¨

orschallfelds. Zun¨

achst soll hier davon ausgegan-

gen werden, dass die Eingangssignale zumindest schwach station¨

ar sind und deren Statistik

zweiter Ordnung bekannt ist. Auf den praktisch relevanten Fall unbekannter Signalstatistik

bzw. sich zeitlich ¨

andernder Signaleigenschaften wird in diesem Kapitel nur peripher einge-

gangen. Diese Problematik ist vielmehr Gegenstand der weiteren Kapitel, in denen es um die

adaptive Berechnung der Filtergewichte geht.

Zun¨

achst sollen die Filterkoeffizienten derart bestimmt werden, so dass das frequenzab-

h¨

angige Schmalband-SNR maximiert wird. Dieses so genannte Max-SNR-Kriterium f¨

uhrt zu

einem verallgemeinerten Eigenwertproblem, wobei die optimalen Filterkoeffizienten gerade

durch den Eigenvektor korrespondierend zum gr¨

oßten Eigenwert des vorliegenden Eigenwert-

problems gegeben sind. Es soll gezeigt werden, dass eine Skalierung der resultierenden Filter-

koeffizienten durch eine einkanalige Nachfilterung (engl. Post Filter) identisch zu L¨

osungen

ist, welche ¨

uber andere Optimierungskriterien hergeleitet werden k¨

onnen. Diese Kriterien

sind insbesondere Minimierung der Varianz (engl. Minimum Variance, MV), Maximierung

der Plausibilit¨

at (engl. Maximum Likelihood, ML) und Minimierung des kleinsten mittleren

quadratischen Fehlers (engl. Minimum Mean Squared Error, MMSE).

4.1 Max-SNR

Es sollen nun die optimalen Filterkoeffizienten derart hergeleitet werden, so dass das fre-

quenzabh¨

angige SNR am Ausgang des Arrays

SNRArray(Ω) = FH(Ω)ΦSS(Ω)F(Ω)

FH(Ω)ΦNN(Ω)F(Ω) (4.1)

maximiert wird. Offensichtlich stellt der Quotient in Gl. (4.1) den so genannten Rayleigh

Quotienten bez¨

uglich der Matrizen ΦSS(Ω) und ΦNN(Ω) dar [Hay02]. Bei den betrachteten

Matrizen der Kreuzleistungsdichtespektren (KLDS) handelt es sich in der Regel um positiv

definite Matrizen1. Daher kann gefolgert werden, dass die Eigenwerte des verallgemeinerten

1Im praktischen Fall der messtechnischen, iterativen Bestimmung der KLDS-Matrizen handelt es sich auf-

grund unkorrelierter Rauschterme in den Signalpfaden um positiv definite Matrizen. Dennoch kann hier zur

54 Kapitel 4. Statistisch optimales Beamforming

Eigenwertproblems (engl. Generalized Eigenvalue Problem, GEVP) positiv und reellwertig

sind, und dass sich das SNR Gl. (4.1) in dem Bereich

0<SNRArray(Ω) ≤λ(max)

S(Ω).(4.2)

bewegt. In Gl. (4.2) ist mit λ(max)

S(Ω) der gr¨

oßte frequenzabh¨

angige Eigenwert bezeichnet, der

zum verallgemeinerten Eigenwertproblem geh¨

ort. Dieser Wert wird genau dann erreicht, wenn

der Koeffizientenvektor F(Ω) gerade so gew¨

ahlt wird, dass er einem Eigenvektor F(max)(Ω)

korrespondierend zum gr¨

oßten Eigenwert λ(max)

S(Ω) entspricht; dann wird das SNR maximiert

SNR(max)

Array (Ω) = F(max)H(Ω)ΦSS(Ω)F(max)(Ω)

F(max)H(Ω)ΦNN(Ω)F(max)(Ω) =λ(max)

S(Ω).(4.3)

Unter Verwendung der verallgemeinerten Eigenwertgleichung

ΦSS(Ω)F(max)(Ω) = λ(max)

S(Ω)ΦNN(Ω)F(max)(Ω) (4.4)

=F(max)H(Ω)ΦSS(Ω)F(max)(Ω)

F(max)H(Ω)ΦNN(Ω)F(max)(Ω)ΦNN(Ω)F(max)(Ω) (4.5)

und der Annahme r¨

aumlich und zeitlich station¨

arer Sprachsignale

ΦSS(Ω) = φScSc(Ω)H(Ω)HH(Ω) (4.6)

l¨

asst sich der optimale Koeffizientenvektor F(max)(Ω) analytisch berechnen:

H(Ω) = F(max)H(Ω)H(Ω)

F(max)H(Ω)ΦNN(Ω)F(max)(Ω)ΦNN(Ω)F(max)(Ω).(4.7)

F¨

ur Gl. (4.7) ist ausgenutzt worden, dass der Skalar φScSc(Ω)HH(Ω)F(max)(Ω) auf beiden

Seiten der Gleichung Gl. (4.5) nach Einsetzen von Gl. (4.6) vorhanden ist und daher gek¨

urzt

werden kann. Es folgt weiter

F(max)(Ω) = F(max)H(Ω)ΦNN(Ω)F(max)(Ω)

F(max)H(Ω)H(Ω) Φ−1

NN(Ω)H(Ω) (4.8)

=F(max)H(Ω)ΦNN(Ω)F(max)(Ω)

F(max)H(Ω)H(Ω) FSNR(Ω),(4.9)

wobei folgende Definition gelten soll

FSNR(Ω) := Φ−1

NN(Ω)H(Ω).(4.10)

Betrachtet man Gl. (4.9) und Gl. (4.3), so ist festzustellen, dass der skalare Faktor vor dem

Vektor FSNR(Ω) in Gl. (4.9) bez¨

uglich des SNRs keine Rolle spielt, da dieser nach dem

Einsetzen von Gl. (4.9) in Gl. (4.3) herausgek¨

urzt werden kann. Daher soll hier ein allgemeiner

L¨

osungsvektor ˜

FSNR(Ω) eingef¨

uhrt werden, welcher das SNR in Gl. (4.3) maximiert2und

einen beliebigen komplexen Skalar ζ(Ω) zul¨

asst:

FSNR(Ω) = ζ(Ω)FSNR(Ω) ζ(Ω) ∈C.(4.11)

Sicherstellung dieser Eigenschaft ein so genannter Regularisierungsterm eingef¨

ugt werden, siehe Kapitel 5.

2Aufgrund der Beziehung Gl. (4.11) l¨

asst sich nicht von dem Eigenvektor, sondern vielmehr von einem

Eigenvektor sprechen, der das Ausgangs-SNR maximiert.

4.1. Max-SNR 55

Da im Falle der mehrkanaligen Sprachsignalverarbeitung in der Regel nicht die Sprach-

komponente separat beobachtet werden kann, ist es auch nicht m¨

oglich die KLDS-Matrix

ΦSS(Ω) zu bestimmen. Daher kann zur Berechnung des gesuchten Eigenvektors nicht Gl.

(4.4) herangezogen werden. Es kann jedoch die St¨

orkomponente in Sprachpause-Sequenzen

getrennt aufgenommen und somit die KLDS-Matrix ΦNN(Ω) gesch¨

atzt werden. Zus¨

atzlich

kann zu Zeiten von Sprachaktivit¨

at Sprache-plus-St¨

orung an den Mikrophonen beobachtet

und folglich auch die KLDS-Matrix ΦXX(Ω) gesch¨

atzt werden. Daher kann mit

ΦXX(Ω) = ΦSS(Ω) + ΦNN(Ω) (4.12)

Gl. (4.1) umgeschrieben werden zu

SNRArray(Ω) = FH(Ω)ΦXX(Ω)F(Ω)

FH(Ω)ΦNN(Ω)F(Ω) −1.(4.13)

F¨

ur das Eigenwertproblem in Gl. (4.13) bez¨

uglich der Matrizen ΦXX(Ω) und ΦNN(Ω) maxi-

miert ebenfalls der Eigenvektoren F(max)(Ω) bzw. FSNR(Ω) den Rayleigh Quotienten, aller-

dings ergibt sich dann der zugeh¨

orige gr¨

oßte Eigenwert

λ(max)

X(Ω) = F(max)H(Ω)ΦXX(Ω)F(max)(Ω)

F(max)H(Ω)ΦNN(Ω)F(max)(Ω) =λ(max)

S(Ω) + 1.(4.14)

Aquivalent zu Gl. (4.5) gilt hier nun die Eigenwertgleichung

ΦXX(Ω)F(Ω) = λ(max)

X(Ω)ΦNN(Ω)F(Ω),(4.15)

welche nach vorheriger Bestimmung von ΦXX(Ω) und ΦNN(Ω) die Berechnung eines Ko-

effizientenvektors ˜

FSNR(Ω) zul¨

asst. Hierf¨

ur existieren eine Reihe von iterativen L¨

osungen

[MRP96, GV99, Mor04, RPW04, YXYZ06, SK06], deren Eigenschaften eingehender im Ka-

pitel 5 untersucht werden sollen; insbesondere im Zusammenhang mit dem akustischen Be-

amforming [WHU05, HUW05].

Array Gain F¨

ur den optimalen Beamformer nach Gl. (4.10) ergibt sich mit Gl. (3.47) ein

SNR-Gewinn von

GSNR(Ω) = FH

SNR(Ω)ΦSS(Ω)FSNR(Ω)

SNR(Ω)ΦNN(Ω)FSNR(Ω) ·Spur{ΦNN(Ω)}

Spur{ΦSS(Ω)}(4.16)

=HH(Ω)Φ−1

NN(Ω)H(Ω) ·Spur{ΦNN(Ω)}

HH(Ω)H(Ω) .(4.17)

White Noise Gain Der SNR-Gewinn bez¨

uglich eines unkorrelierten Schallfeldes kann an-

gegeben werden mit

SNR(Ω) = M. (4.18)

Beim Vergleich von Gl. (4.18) bzw. Gl. (4.17) und dem White Noise Gain des DSB in Gl.

(3.55) ist zu erkennen, dass der Gewinn der Gr¨

oßenordnung Mbeim DSB nur erzielt wird,

wenn die Ausbreitung des Sprachsignals im Freifeld angenommen wird. Hingegen ist der maxi-

male Gewinn beim optimalen Beamforming Gl. (4.18) f¨

ur beliebige Ausbreitungsbedingungen

m¨

oglich.

56 Kapitel 4. Statistisch optimales Beamforming

Anmerkungen

Bei dem Vergleich zwischen dem einfachen Beamforming-Verfahren mittels DSB und einer

mehrkanaligen Filterung mit den Koeffizienten ˜

FSNR(Ω) fallen abgesehen von der Leistungs-

f¨

ahigkeit einige gravierende Unterschiede bez¨

uglich der Berechnung der Filterkoeffizienten

auf. Als Wissensquellen zur Bestimmung von ˜

FSNR(Ω) ¨

uber das Max-SNR-Kriterium sind

lediglich die Sch¨

atzungen der KLDS-Matrizen3ΦXX(Ω) und ΦNN(Ω) notwendig. Es wird

kein weiteres Wissen ¨

uber die Sprecherrichtung θsund die Mikrophongeometrie (Positionen

pibzw. Abstand d) ben¨

otigt. Soll jedoch als erste Verarbeitungseinheit eine Laufzeitkompen-

sation erfolgen wie z. B. bei einem DSB, so sind dies zwingend notwendige Informationen.

Zus¨

atzlich ist bei einem realen System auf eine gleiche Verst¨

arkung der eingehenden Mikro-

phonsignale zu achten, um eine koh¨

arente ¨

Uberlagerung zu gew¨

ahrleisten. Bei einem DSB

erfolgt dies ¨

uber einen separaten Algorithmus zur Pegelanpassung, entweder im laufenden

Betrieb oder w¨

ahrend einer Kalibrierung in der Startphase [NCG01]. Da sich f¨

ur die Maxi-

mierung des Ausgangs-SNR mittels ˜

FSNR(Ω) automatisch pegelkompensierende Betr¨

age f¨

die Filterkoeffizienten ergeben, ist bei der Nutzung des Eigenvektors zum Beamforming eine

separate Bestimmung der Eingangspegel nicht erforderlich.

Der entscheidende Nachteil bei der Nutzung des Eigenvektors ˜

FSNR(Ω) zum akustischen

Beamforming ergibt sich aufgrund der frequenzabh¨

angigen Skalierung ζ(Ω), die f¨

ur jede be-

trachtete Spektralkomponente je nach Berechnungsvorschrift beliebig ausfallen kann. Dies

bedeutet f¨

ur die Verarbeitung von breitbandigen Sprachsignalen eine Verzerrung des Nutzsi-

gnals, obschon f¨

ur jede Spektralkomponente das Ausgangs-SNR maximal ist. Auf diese Pro-

blematik sowie L¨

osungsvorschl¨

age zur automatischen Kontrolle des Effekts wird in Kapitel 6

detailliert eingegangen.

4.2 Minimum Variance

Der n¨

achste Ansatz zur Herleitung optimaler Filterkoeffizienten beruht auf der Minimierung

der St¨

orvarianz. Dazu wird

FH(Ω)ΦXX(Ω)F(Ω) = φScSc(Ω)FH(Ω)H(Ω)HH(Ω)F(Ω) + FH(Ω)ΦNN(Ω)F(Ω) (4.19)

betrachtet. Da mit H(Ω) die Raum¨

ubertragungsfunktion zwischen dem Sprecher und der

Mikrophongruppe bezeichnet ist, kann das Skalarprodukt FH(Ω)H(Ω) als gesamte ¨

Ubertra-

gungsfunktion zwischen Sprecher und dem Ausgang des Arrays interpretiert werden. Nun soll

f¨

ur genau diese gemeinsame ¨

Ubertragungsfunktion folgende lineare Bedingung (engl. Linear

Constraint) gelten

FH(Ω)H(Ω) = W(Ω).(4.20)

Ausgehend von Gl. (4.19) kann mit der spektralen Gewichtung4W(Ω) des Quellensignals aus

Gl. (4.20) die Kostenfunktion

JMV(F(Ω)) = FH(Ω)ΦNN(Ω)F(Ω) + ℜ{β∗(Ω)(W(Ω) −FH(Ω)H(Ω))}(4.21)

3Es soll hier erw¨

ahnt werden, dass zur Sch¨

atzung der KLDS-Matrizen eine zus¨

atzliche Informationsquelle

in Form einer Sprache/Pause-Detektion vorausgesetzt wird. Allerdings ist solch eine Unterteilung der Ein-

gangsdaten in Sprache- und Pausesequenzen ebenfalls zur Sch¨

atzung der Sprecherrichtung n¨

otig.

4F¨

ur das gefilterte Sprachsignal ergibt sich am Beamformer-Ausgang FH(Ω)S(Ω) = FH(Ω)Sc(Ω)H(Ω) =

Sc(Ω)W(Ω), also das mit W(Ω) gewichtete Quellensignal. Mittels dieser Nebenbedingung k¨

onnen z. B. Spek-

tralkomponenten in denen a priori keine oder wenige Sprachanteile vorhanden sind ged¨

ampft werden (Band-

pass).

4.2. Minimum Variance 57

aufgestellt und minimiert werden. In Gl. (4.21) ist mit ℜ{·} die Realteilbildung und mit

β(Ω) der frequenzabh¨

angige Lagrange-Multiplikator5bezeichnet. Der Methode nach Lagrange

folgend [Hay02] wird der Gradient

∇FJMV(F(Ω)) = 2∂JMV(F(Ω))

∂F∗=ΦNN(Ω)F(Ω) −β∗(Ω)H(Ω) (4.22)

zu Null gesetzt, so dass sich mit

ΦNN(Ω)F(Ω) = β∗(Ω)H(Ω) (4.23)

der unbekannte Lagrange-Multiplikator zu

β(Ω) = FH(Ω)H(Ω)

HH(Ω)Φ−1

NN(Ω)H(Ω).(4.24)

ergibt. Weiter wird f¨

ur die optimalen Filterkoeffizienten angenommen, dass die Bedingung

Gl. (4.20) eingehalten wird,

β(Ω) = W(Ω)

HH(Ω)Φ−1

NN(Ω)H(Ω),(4.25)

und letztendlich der optimale Koeffizientenvektor nach Einsetzen von Gl. (4.25) in Gl. (4.23)

berechnet werden kann:

FGMV(Ω) = W∗(Ω) Φ−1

NN(Ω)H(Ω)

HH(Ω)Φ−1

NN(Ω)H(Ω).(4.26)

Mit dem Index “GMV” soll auf die verallgemeinerte Minimierung der Varianz (engl. Ge-

neralized Minimum Variance, GMV) bez¨

uglich der St¨

orung hingewiesen werden, wobei die

Verallgemeinerung auf die Verwendung der kompletten Raum¨

ubertragungsfunktion H(Ω) zu-

r¨

uckzuf¨

uhren ist.

F¨

ur die Forderung eines unverzerrt gebliebenen Sprachsignals am Beamformer-Ausgang

ist die Bedingung Gl. (4.20) f¨

ur alle Frequenzen konstant zu setzen

W(Ω) = 1.(4.27)

Dadurch ergibt sich ein Beamformer mit einer unverzerrten Antwort (engl. Distortionless

Response, DR) bez¨

uglich des Sprachsignals und der damit verbundene Koeffizientenvektor

FGMVDR(Ω) = Φ−1

NN(Ω)H(Ω)

HH(Ω)Φ−1

NN(Ω)H(Ω).(4.28)

Es kann leicht ¨

uberpr¨

uft werden, dass das mit FGMVDR(Ω) gefilterte Sprachsignal am Ausgang

des Beamformers dem unverzerrten Quellensignal entspricht:

GMVDR(Ω)S(Ω) = HH(Ω)Φ−1

NN(Ω)

HH(Ω)Φ−1

NN(Ω)H(Ω)H(Ω)Sc(Ω) = Sc(Ω).(4.29)

5Entgegen der ¨

ublichen Notation λf¨

ur den Lagrange-Multiplikator soll hier die Bezeichnung βverwendet

werden um Verwechslungen mit der Kennzeichnung von Eigenwerten zu vermeiden.

58 Kapitel 4. Statistisch optimales Beamforming

Vergleicht man nun Gl. (4.28) mit der Max-SNR-L¨

osung Gl. (4.10), so kann folgender

Zusammenhang festgestellt werden:

FGMVDR(Ω) = wGMVDRΦ−1

NN(Ω)H(Ω) (4.30)

=wGMVDR(Ω)FSNR(Ω) (4.31)

mit dem skalaren Faktor

wGMVDR(Ω) = 1

HH(Ω)Φ−1

NN(Ω)H(Ω).(4.32)

Im Gegensatz zur Berechnung von ˜

FSNR(Ω) in Gl. (4.11) ¨

uber die Eigenwertzerlegung bez¨

ug-

lich ΦNN(Ω) und ΦXX(Ω) muss zur Bestimmung von FGMVDR(Ω) in Gl. (4.28) die Raum-

ubertragungsfunktion H(Ω) bekannt sein (aufgrund der Gewichtung Gl. (4.32)). Da dies in

der Regel nicht der Fall ist, werden ¨

ublicherweise nur die Verz¨

ogerungen der direkten Aus-

breitungspfade zwischen den Mikrophonen und dem Sprecher gesch¨

atzt und H(Ω) wird in

Gl. (4.28) durch den Steering Vector Gl. (3.30) ersetzt

FMVDR(Ω) = Φ−1

NN(Ω)d(Ω, θt)

dH(Ω, θt)Φ−1

NN(Ω)d(Ω, θt).(4.33)

Das resultierende FMVDR(Ω) in Gl. (4.33) ist unter dem Begriff Minimum Variance Distor-

tionless Response Beamformer bekannt und wird daher mit dem Index “MVDR” bezeichnet.

Zu beachten ist hierbei, dass beim ¨

Ubergang von Gl. (4.28) nach Gl. (4.33) der Parameter θt

aufgef¨

uhrt wird. Aufgrund der Definition Gl. (3.16) gilt die verk¨

urzte Schreibweise H(Ω) f¨

die Raum¨

ubertragungsfunktion, obschon sie von der Position der Schallquelle psund der Mi-

krophone pi,i= 1,...,M abh¨

angt. Da bei einem linear angeordneten Array f¨

ur FMVDR(Ω)

eine Sprecherrichtungssch¨

atzung θtnotwendig ist, und diese nicht zwangsl¨

aufig identisch mit

der wahren Richtung θs¨

ubereinstimmen muss, wird der Parameter θtim Steering Vector

beibehalten.

F¨

ur den GMVDR Beamformer ergibt sich offensichtlich der gleiche SNR-Gewinn Gl. (4.17)

wie f¨

ur den optimalen Beamformer FSNR(Ω). Hingegen stellen sich je nach Raumsituation

und St¨

orger¨

auschfeld beim MVDR Beamformer geringe Unterschiede im Vergleich zur ver-

allgemeinerten L¨

osung ein. Diese Unterschiede sollen im Abschnitt 4.6 analysiert werden.

Anmerkungen

In der Literatur zum akustischen Beamforming wird nur vereinzelt auf die konstruktive Nut-

zung der Mehrwegeausbreitung eingegangen [NNS01, KHJ06] und fast ausschließlich die Mini-

mierung der Ausgangsleistung des Beamformers mit der Nebenbedingung eines unverzerrten

Signals aus der Look Direction als Optimierungskriterum herangezogen. Dabei stellt insbe-

sondere die adaptive L¨

osung nach Frost [Fro72] eine immer noch stark verbreitete Basis dar.

Da der MVDR Beamformer stark von der genauen Sch¨

atzung der Richtung des gew¨

unschten

Quellensignals, also von der Bestimmung des Steering Vectors abh¨

angt, besch¨

aftigt sich eine

Vielzahl von Ver¨

offentlichungen zu adaptiven MVDR Beamformern mit Robustheitsaspekten

[LS05, HGJ06, JHLCCC06].

Eine Realisierung des MVDR Beamformers mit der Optimierung hinsichtlich der Di-

rektivit¨

at nimmt f¨

ur zahlreiche Autoren einen besonderen Stellenwert ein [T¨

ag98, BSK99a,

Elk00, JG00, BS01]. Diese superdirektiven Beamformer werden f¨

ur den Fall eines diffusen

4.3. Maximum Likelihood 59

St¨

orschallfelds optimiert; es wird also f¨

ur ΦNN(Ω) a priori die Koh¨

arenz-Matrix des diffusen

St¨

orschallfelds eingesetzt. Dabei ist jedoch auf die Besonderheit der Verst¨

arkung von r¨

aum-

lich unkorreliertem Rauschen zu achten [Bit02]. Die Adaption ist dann auf die Bestimmung

der Sprecherrichtung konzentriert.

4.3 Maximum Likelihood

F¨

ur den Maximum-Likelihood-Ansatz wird davon ausgegangen, dass das Quellensignal Sc(Ω)

und das Rauschen am i-ten Mikrophon Ni(Ω) mittelwertfreie, komplexe, gaußverteilte Zu-

fallsvariablen sind. Weiterhin sollen Sc(Ωk) und Ni(Ωk) der Frequenz Ωkjeweils statistisch

unabh¨

angig von Sc(Ων) und Ni(Ων) f¨

ur unterschiedliche Frequenzen Ωk6= Ωνsein. Mit Hilfe

dieser Voraussetzungen kann die a posteriori Wahrscheinlichkeitsdichtefunktion (engl. Proba-

bility Density Function, PDF)

p(Y(Ω)|Sc(Ω)) = η(Ω)e−ˆ

NH(Ω)Φ−1

NN(Ω) ˆ

N(Ω) (4.34)

angegeben und als Likelihood aufgefasst werden [Lev64]; mit der Sch¨

atzung f¨

ur das Rauschen

N(Ω) = X(Ω) −Sc(Ω)H(Ω) (4.35)

und der skalaren Konstante η(Ω), welche unabh¨

angig von Sc(Ω) ist. Somit ergibt sich die zu

minimierende negative Log-Likelihood-Funktion

L(X(Ω)) = ˜η(Ω) ˆ

NH(Ω)Φ−1

NN(Ω) ˆ

N(Ω).(4.36)

Durch null setzen der partiellen Ableitung von L(X(Ω)) nach Sc(Ω) erh¨

alt man schließlich

die Sch¨

atzung ˆ

Sc(Ω) f¨

ur das Quellensignal, welches die Log-Likelihood-Funktion Gl. (4.36)

minimiert

Sc(Ω) = HH(Ω)Φ−1

NN(Ω)

HH(Ω)Φ−1

NN(Ω)H(Ω)X(Ω) = FH

GML(Ω)X(Ω).(4.37)

In Gl. (4.37) ist mit FGML(Ω) der Koeffizientenvektor des verallgemeinerten ML-Ansatzes

(engl. Generalized Maximum Likelihood, GML) bezeichnet

FGML(Ω) = Φ−1

NN(Ω)H(Ω)

HH(Ω)Φ−1

NN(Ω)H(Ω) =FGMVDR(Ω),(4.38)

welcher identisch mit der GMVDR-L¨

osung Gl. (4.28) ist. Auch hier soll vollst¨

andigkeitshalber

noch die vereinfachte Variante

FML(Ω) = Φ−1

NN(Ω)d(Ω, θt)

dH(Ω, θt)Φ−1

NN(Ω)d(Ω, θt)=FMVDR(Ω) (4.39)

mit dem Steering Vektor d(Ω, θt) angegeben sein.

Anmerkungen

Die MVDR-Filterkoeffizienten stellen also den Maximum-Likelihood-Sch¨

atzer f¨

ur das Quel-

lensignal dar, wenn die Sprecherrichtung und die KLDS-Matrix der St¨

orung bekannt sind.

Alternativ wird in [VSO97] von keinerlei Wissen ¨

uber die St¨

orung ausgegangen, sondern von

60 Kapitel 4. Statistisch optimales Beamforming

Annahmen bez¨

uglich des Nutzsignals. Da aber der Zusammenhang Gl. (4.38) bzw. Gl. (4.39)

besteht, werden deutlich weniger Maximum-Likelihood-Beamforming-Verfahren im Vergleich

zur MVDR-L¨

osung in der Literatur diskutiert. Ein großer Teil besch¨

aftigt sich mit Robust-

heitsaspekten und dem Einfluss einer fehlerhaften Richtungssch¨

atzung [LS05].

Interessant ist das in [DCP03] entwickelte ML-Verfahren, welches insbesondere auf das

Problem verhallter Signale eingeht. Dort wird ein so genannter Maximum Likelihood Steered

Adaptive Beamformer beschrieben, in dem ein stark nichtlinearer ML-Ansatz mit Hilfe ei-

nes modifizierten Newton Adaptionsalgorithmus ohne Nebenbedingung gel¨

ost wird und zur

deutlichen Reduzierung von St¨

orinterferenzen f¨

uhrt.

Bei dem in [SRS04, BSRG05] vorgestellten Verfahren steht die Anwendung eines Ma-

ximum Likelihood Beamformers zur Reduzierung der Wortfehlerrate eines nachgeschalteten

Spracherkenners im Vordergrund. Dabei werden die Beamformer-Koeffizienten bez¨

uglich ei-

nes ML-Kriteriums optimiert, in welches die Parameter des vorl¨

aufigen Erkennungsergebnisses

des Spracherkenners einfließen. Der Beamformer wird dann derat adaptiert, dass die Wahr-

scheinlichkeit daf¨

ur steigt, dass die iterativ erkannte Wortfolge mit der gesprochenen Sequenz

ubereinstimmt.

4.4 Minimum Mean Squared Error

Zun¨

achst soll davon ausgegangen werden, dass das gew¨

unschte Quellensignal Sc(Ω) bekannt

sei und sich somit folgender Ausdruck f¨

ur den mittleren quadratischen Fehler (engl. Mean

Squared Error, MSE) angeben l¨

asst:

JMSE(F(Ω)) = E{|Sc(Ω) −FH(Ω)X(Ω)|2}(4.40)

=φScSc−FH(Ω)φXSc(Ω) −φH

XSc(Ω)F(Ω) + FH(Ω)ΦXX(Ω)F(Ω).(4.41)

Zur Minimierung des mittleren quadratischen Fehlers (engl. Minimum MSE, MMSE) wird

der Gradient

∇FJMSE(F(Ω)) = −2φXSc(Ω) + 2ΦXX(Ω)F(Ω) (4.42)

zu Null gesetzt und liefert die verallgemeinerte MMSE-L¨

osung (GMMSE)

FGMMSE(Ω) = Φ−1

XX(Ω)φXSc(Ω),(4.43)

unter der Voraussetzung, dass ΦXX(Ω) nicht singul¨

ar und somit invertierbar ist. Gl. (4.43) ist

die Wiener-Hopf-Gleichung in Matrix-Form und kann daher als mehrkanaliges Wiener Filter

(engl. Multi Channel Wiener Filter, MWF) gesehen werden. Mit der additiven Zusammen-

setzung

ΦXX(Ω) = φScSc(Ω)H(Ω)HH(Ω) + ΦNN(Ω) (4.44)

und dem Matrix Inversion Lemma (siehe Anhang A.2), ist es m¨

oglich das Wiener Filter Gl.

(4.43) in die faktorisierte Form

FGMMSE(Ω) = wWPF(Ω)FGMVDR(Ω).(4.45)

zu ¨

uberf¨

uhren. Der skalare Faktor

wWPF(Ω) = φScSc(Ω)

φScSc(Ω) + HH(Ω)Φ−1

NN(Ω)H(Ω)−1(4.46)

4.4. Minimum Mean Squared Error 61

kann als frequenzabh¨

angige Nachfilterung (engl. Wiener Post Filter, WPF) interpretiert wer-

den [SBM01]. Dies wird um so deutlicher, wenn das Leistungsdichtespektrum der St¨

orung

φNoNo(Ω) am Ausgang des GMVDR Beamformers betrachtet wird:

φNoNo(Ω) = FH

GMVDR(Ω)ΦNN(Ω)FGMVDR(Ω) (4.47)

=HH(Ω)Φ−1

NN(Ω)H(Ω)−1(4.48)

=wGMVDR(Ω).(4.49)

Somit ergibt sich f¨

ur die Nachfilterung Gl. (4.46) der Ausdruck

wWPF(Ω) = φScSc(Ω)

φScSc(Ω) + φNoNo(Ω).(4.50)

Wie bereits gezeigt, maximiert die GMVDR-L¨

osung in gleicher Weise wie die Max-SNR-

L¨

osung zwar das Schmalband-SNR6, aber nicht zwangsl¨

aufig das Breitband-SNR. Dies wird

erst durch das nachgeschaltete mehrkanalige Wiener Filter wWPF(Ω) erreicht. Diese Eigen-

schaft ist sehr gut an dem nachgeschalteten Wiener Filter Gl. (4.50) zu erkennen. W¨

ah-

rend mit den GMVDR-Filterkoeffizienten die r¨

aumliche Information ausgenutzt wird und

das Signal in Blickrichtung unverzerrt erhalten bleibt, erfolgt eine spektrale D¨

ampfung durch

wWPF(Ω) f¨

ur Frequenzkomponenten mit einem geringen SNR. Dadurch wird zwar eine Ver-

zerrung des Sprachsignals7in Kauf genommen, aber eben auch eine SNR-Maximierung des

breitbandigen Audiosignals erzielt.

F¨

ur die optimalen Filterkoeffizienten FGMMSE(Ω) kann nun wieder ¨

aquivalent zu Gl. (4.31)

ein direkter, skalarer Zusammenhang zwischen der MMSE- und der Max-SNR-L¨

osung ange-

geben werden:

FGMMSE(Ω) = wWP F (Ω)wGMVDR(Ω)FSNR(Ω) (4.51)

=wGMMSE(Ω)FSNR(Ω),(4.52)

mit Gl. (4.49) kann das Nachfilter in kompakter Schreibweise zu

wGMMSE(Ω) = φScSc(Ω)wGMVDR(Ω)

φScSc(Ω) + wGMVDR(Ω).(4.53)

formuliert werden.

Wie auch beim MV-Ansatz wird bei der Realisierung von MMSE Beamformern nach

dem oben beschriebenen Schema die Raum¨

ubertragungsfunktion durch den Steering Vector

ersetzt. Dadurch ergibt sich die in der Literatur [SBM01] ¨

ubliche Variante

FMMSE(Ω) = φScSc(Ω)

φScSc(Ω) + dH(Ω)Φ−1

NN(Ω)d(Ω)−1FMVDR(Ω) (4.54)

f¨

ur die Filterkoeffizienten. F¨

ur den Fall, dass das SNR am Eingang des Arrays hoch ist, liefern

also offensichtlich MVDR und MMSE8Beamformer sehr ¨

ahnliche Ergebnisse, wie bereits in

[Gri67] untersucht wurde.

6Das Breitband-SNR bezeichnet das SNR bestimmt ¨

uber alle enthaltenen Frequenzkomponenten. Hingegen

ist das Schmalband-SNR das frequenzabh¨

angige SNR.

7In [RBB03, ZHA04] werden Methoden zur Minimierung der Sprachsignalverzerrung durch psychoakustisch

motivierte Maskierungseffekte beschrieben.

8F¨

ur die Annahme gaußverteilter Real- und Imagin¨

aranteile der frequenzabh¨

angigen Sprach- und St¨

orsi-

gnale ist der optimale MMSE-Sch¨

atzer identisch mit dem maximum a posteriori (MAP) Sch¨

atzer [VT68].

62 Kapitel 4. Statistisch optimales Beamforming

Anmerkungen

Die offensichtliche Schwierigkeit zur Berechnung der MMSE-Filterkoeffizienten besteht in

der Sch¨

atzung des Sprachsignals, oder, allgemeiner ausgedr¨

uckt, in dem Problem der Erzeu-

gung eines Referenzsignals. Bei der Anwendung von Beamforming-Verfahren f¨

ur Antennen-

Arrays ist es m¨

oglich, ein Pilot-Signal aus der Look Direction als Referenzsignal zu nutzen.

In [WMGG67] ist bereits solch eine Methode inklusive Adaption mit Hilfe der kleinsten

Fehlerquadrate vorgestellt. ¨

Aquivalent dazu werden in [NCG01] ¨

uber eine Kalibrierungs-

Sprachsequenz die optimalen Filterkoeffizienten f¨

ur die Mikrophongruppe in einem Kraft-

fahrzeug berechnet. Dabei beinhaltet die MMSE-Sch¨

atzung repr¨

asentative Einfl¨

usse der ver-

wendeten Hardware sowie der Mikrophon- und Sprecherposition, siehe auch [GN02, NGL05].

Die popul¨

arste MMSE-Variante zur Umsetzung von Gl. (4.54) beruht auf der Annahme

von unkorrelierten St¨

orsignalen in den einzelnen Mikrophonpfaden. Dann kann eine Mitte-

lung der Kreuzleistungsdichten zwischen jeweils zwei Signalpaaren zur Sch¨

atzung φScSc(Ω)

hergenommen werden [Zel88]. Da jedoch diese Annahme f¨

ur ein gerichtetes oder diffuses St¨

or-

schallfeld nicht bzw. nur bedingt f¨

ur einen bestimmten Frequenzbereich gilt (vgl. Abschnitt

2.4), ist eine Verbesserung der Sch¨

atzung durch a priori Annahmen f¨

ur die r¨

aumliche Korre-

lation des St¨

orger¨

auschfeldes in [SW92, MMU98, BSK99b] und durch explizite Berechnung

in [MB02, MB03] mit ber¨

ucksichtigt worden.

Eine andere Variante ergibt sich durch die statistische Auswertung der durch das Sprach-

und St¨

orsignal aufgespannten Unterr¨

aume der Kovarianzmatrizen9im Zeitbereich. Dabei er-

geben sich Filterkoeffizienten aus Eigenvektoren mittels einer verallgemeinerten Singul¨

arwert-

zerlegung [DM01, SMW02]. Entstehende Sprachverzerrungen werden in [DSWM05, CBHD06]

gesch¨

atzt und konstruktiv f¨

ur die Adaption benutzt.

4.5 Experimente zur verallgemeinerten L¨

osung

Im folgenden Abschnitt werden einige Ergebnisse zur experimentellen Untersuchung des ver-

allgemeinerten GMVDR-Ansatzes Gl. (4.28) pr¨

asentiert. Hierf¨

ur wurden die Anordnungen

Szenario-1 und Szenario-2 aus dem Anhang C verwendet (also eine Sprecherrichtung von

θs=θt= 45◦) und die ¨

Ubertragungsfunktion zwischen der Sprecherposition und den Sen-

soren mit Hilfe der reinen Sprachdaten gesch¨

atzt. Die Sch¨

atzung der ¨

Ubertragungsfunktion

erfolgte durch den Algorithmus 3 (S-Grad-GG) aus Abschnitt 5.1.5 mit der Normalisierung

aus Abschnitt 6.1. F¨

ur den Fall von M= 5 Sensoren, einer Nachhallzeit von T60 = 0,1s und

einer DFT-L¨

ange von L= 256 ergeben sich die in Bild 4.1 dargestellten Verl¨

aufe10 f¨

ur die ers-

te und f¨

unfte Raumimpulsantwort h1(n) und h5(n), sowie deren Sch¨

atzung ˆ

h1(n) und ˆ

h5(n).

An den identifizierten Impulsantworten in Bild 4.1 sind nun zwei markante Eigenschaften zu

erkennen. Zum einen ist ein Versatz des Anteiles, welcher zum direkten Pfad korrespondiert,

um 4 Abtastwerte (sin(θs)·d·fAb ·c−1·(M−1) = 4) festzustellen. Und zum anderen k¨

onnen

Anteile aufgrund von Reflexionen direkt den vorgegebenen Raumimpulsantworten zugeordnet

werden.

9Aufgrund der Nichtstationarit¨

at der Sprache gelten die Annahmen bez¨

uglich Stationarit¨

at und Unab-

h¨

angigkeit der einzelnen Komponenten untereinander im Frequenzbereich nur n¨

aherungsweise. In [Her04] wird

daher eine konsequente Herleitung optimaler Filterkoeffizienten ¨

uber die Methode der kleinsten Fehlerquadrate

(eng. Least Squares Error, LSE) im Zeitbereich durchgef¨

uhrt.

10Zur besseren Darstellung in Bild 4.1 wurde lediglich der minimalphasige Anteil der Raumimpulsantworten

verwendet [NA79].

4.5. Experimente zur verallgemeinerten L¨

osung 63

-0,2

0,2

0,4

0,6

0,8

30 60 90 120

(a)

h1(n)

-0,2

0,2

0,4

0,6

0,8

30 60 90 120

(b)

h5(n)

-0,1

0,1

0,2

0,3

30 60 90 120

(c)

h1(n)

-0,1

0,1

0,2

0,3

30 60 90 120

(d)

h5(n)

Bild 4.1: (a) Ausschnitt der ersten und (b) der f¨

unften simulierten Raumimpulsantwort.

atzte erste und (d) gesch¨

atzte f¨

unfte Raumimpulsantwort.

Als n¨

achstes soll die Energiabfallkurve Gl. (2.13) untersucht werden, die f¨

ur eine zeitdis-

krete Impulsantwort geschrieben werden kann als

EA(j) := −10 log10

∞

n=j

h2(n)

∞

n=0

h2(n)

dB,(4.55)

wobei h(n) nun f¨

ur drei F¨

alle betrachtet werden soll:

•Raumimpulsantwort “RIA”: Die Raumimpulsantwort zwischen dem Sprecher und dem

ersten Mikrophon.

•Delay-and-Sum “DS”: Die koh¨

arente ¨

Uberlagerung (bez¨

uglich des direkten Pfades) aller

MRaumimpulsantworten.

•Filter-and-Sum “FS”: Die gesamte Impulsantwort zwischen dem Sprecher und der Fal-

tung mit den gesch¨

atzten Raumimpulsantworten: h(j) = PM

i=1 hi(n)⋆ˆ

hi(L−n).

Die Ergebnisse der Energiabfallkurven sind in Bild 4.2 ¨

uber der Zeit aufgetragen. Es ist zu

erkennen, dass zwar der Abfall der Kurven n¨

aherungsweise gleich ist, aber die konstrukti-

ve ¨

Uberlagerung der direkten Ausbreitungspfade der Raumimpulsantworten f¨

uhrt zu einem

gr¨

oßeren Sprung beim Maximum n0der gesamten Impulsantworten der DS- und FS-Kurven.

64 Kapitel 4. Statistisch optimales Beamforming

Dieses Verhalten resultiert in einem h¨

oheren Deutlichkeitsmaß (vgl. Gl. (2.11))

C50 = 10 log10

n0+n50

n=n0

h2(n)

∞

n=n0+n50+1

h2(n)

,(4.56)

wobei hier gilt n50 = 50ms ·fAb = 600. Aufgrund der Verdeckung (vgl. 2.2) ist vor allem

der Anfangsteil der Energiabfallkurve von besonderer Bedeutung. Die Anfangsnachhallzeit

TAf¨

ur eine zeitdiskrete Impulsantwort ergibt sich ¨

aquivalent zu Gl. (2.12) als

−10dB !

= 10 log10

n0+nA

n=n0

h2(n)

∞

n=n0

h2(n)

dB,(4.57)

mit TA=nA/fAb, und dem ersten Abtastwert nA, f¨

ur den Gl. (4.57) zutrifft. Die Ergeb-

nisse f¨

ur das Deutlichkeitsmaß und die Anfangsnachhallzeit sind in Bild 4.3 f¨

ur variierende

Werte der L¨

ange Bder gesch¨

atzten Raumimpulsantworten, der Mikrophonanzahl Mund der

Nachhallzeit T60 dargestellt.

-40

-30

-20

-10

00,01 0,02 0,03 0,04 0,05

EDC [dB]

t [s]

RIA

Bild 4.2: Energiabfallkurven f¨

ur die erste Raumimpulsantwort (RIA), sowie die resultierenden Impulsantworten

mittels koh¨

arenter ¨

Uberlagerung (DS) und der Filterung (FS) mit den gesch¨

atzten Raumimpulsant-

worten f¨

ur M= 5 und T60 = 0,1 s.

F¨

ur die identifizierte L¨

ange der Raumimpulsantworten in Bild 4.3 ist zu beachten, dass

jeweils die L¨

ange der DFT auf L= 2Bgesetzt wurde. Weiterhin soll angemerkt sein, dass

in den Bildern der linken Spalte von 4.3 das Deutlichkeitsmaß und die Anfangsnachhallzeit

f¨

ur RIA und DS zum Vergleich eingetragen sind, obschon sie nicht von dem Parameter B

abh¨

angen.

Grunds¨

atzlich kann an den Verl¨

aufen in Bild 4.3 festgestellt werden, dass durch die Fal-

tung und Aufsummierung (FS) h¨

ohere Werte f¨

ur das Deutlichkeitsmaß erzielt werden und

ein schnellerer Abfall der Energiabfallkurve um 10dB – gekennzeichnet durch die Anfangs-

nachhallzeit – im Vergleich zu RIA und DS erfolgt. Weiterhin ist offensichtlich, dass eine

steigende Anzahl von Mikrophonen zu einem steigenden C50 und abfallendem TAbei gleicher

Nachhallzeit f¨

ur DS und FS f¨

uhrt. Bei steigendem Nachhall sind die Verl¨

aufe aller Kurven

ebenfalls folgerichtig, da der Sprung nach dem Anteil der EDC, der auf den direkten Pfad

zur¨

uckzuf¨

uhren ist, mit steigendem T60 deutlich kleiner und der anschließende lineare Abfall

wesentlich geringer wird.

4.5. Experimente zur verallgemeinerten L¨

osung 65

0,02

0,04

0,06

0,08

128

256

512

C50 [dB]

TA[s]

RIA

M= 5, T60 = 0,3 s

0,020,02

0,040,04

0,060,06

0,080,08

0,2

0,4

0,6

C50 [dB]

TA[s]

T60 [s]

RIA

B= 256, T60 = 0,3 s

B= 256, M = 5

Bild 4.3: Auswertung des Deutlichkeitsmaßes C50 in der oberen Reihe und der Anfangsnachhallzeit TAin der

unteren Reihe f¨

ur variierende Werte folgender Parameter: L¨

ange Bder gesch¨

atzten Raumimpulsant-

worten, Mikrophonanzahl Mund Nachhallzeit T60.

Nach den exemplarischen Auswertungen der Energiabfallkurven stellt sich die Frage,

wie sich die Identifikation der Raum¨

ubertragungsfunktionen auf die Leistungsf¨

ahigkeit des

GMVDR Beamformers auswirkt, also auf den Vergleich von Gl. (4.28) zu Gl. (4.33). Grund-

lage sind hier wieder Szenario-1 und Szenario-2, wobei die KLDS-Matrix11 der St¨

orung durch

eine Sch¨

atzung ¨

uber L= 512 Werte, einem Vorschub von B=L/2 und einer Hann-Fensterung

erfolgte. Die Inverse ist optimal bestimmt worden. Das Bild 4.4 (a) zeigt den SNR-Gewinn

f¨

ur den Fall, wenn die St¨

orung nur aus weißem, unkorrelierten Rauschen besteht und in Bild

4.4 (b) ist der SNR-Gewinn f¨

ur das gerichtete Tiefpassrauschen aus der Richtung θn=−20◦

dargestellt; jeweils f¨

ur M= 5 Mikrophone aufgetragen ¨

uber der Nachhallzeit. F¨

ur das un-

korrelierte Rauschen stellt sich bei T60 = 0s der theoretisch maximale SNR-Gewinn von

10 ·log10(M)≃7dB ein, der mit steigendem Nachhall leicht abf¨

allt. F¨

ur die gerichtete St¨

rung ist f¨

ur geringe Nachhallzeiten eine sehr hohe Unterdr¨

uckung des St¨

orger¨

ausches m¨

oglich,

da an der Stelle θ=θndas Beampattern ein deutliches Minimum ausbildet (siehe Bild 4.5).

Der sich einstellende SNR-Gewinn ist dabei von mehreren Faktoren abh¨

angig wie der geo-

11Um sicherzustellen, dass die KLDS-Matrix der St¨

orung invertierbar ist, wurde ein Regulisierungsterm von

-30 dB eingef¨

ugt: ΦNN(Ω) ←ΦNN(Ω) + 0,001 ·σ2

N(Ω) ·I, mit σ2

N(Ω) = Spur{ΦNN(Ω)}/M.

66 Kapitel 4. Statistisch optimales Beamforming

metrischen Anordnung, der Anzahl der Mikrophone und der spektralen Zusammensetzung

der St¨

orquelle. Wichtig an dieser Stelle ist lediglich der Vergleich zwischen den Verl¨

aufen von

MVDR und GMVDR. Und dabei zeigt sich kein signifikanter Unterschied12

000,2 0,4 0,6

(a) T60 [s]

MVDR

GMVDR

SNRG [dB]

000,2 0,4 0,6

(b) T60 [s]

MVDR

GMVDR

SNRG [dB]

Bild 4.4: SNR-Gewinn f¨

ur den MVDR und den verallgemeinerten MVDR Beamformer. (a) St¨

orung besteht

nur aus unkorreliertem Rauschen. (b) Gerichtetes Tiefpassrauschen als St¨

orquelle.

Abgesehen von den geometrischen Verh¨

altnissen und den spektralen Eigenschaften der

St¨

orung ist die Genauigkeit13 der Sch¨

atzungen der ¨

Ubertragungsfunktion H(Ω) und der

KLDS-Matrix ΦNN(Ω) bzw. ihrer Inversen von entscheidender Bedeutung f¨

ur die erzielbare

St¨

orger¨

auschunterdr¨

uckung [Kr¨

u07]. Die in Bild 4.4 gezeigten Ergebnisse wurden mit einer

Blockl¨

ange von L= 512 berechnet. Dies f¨

uhrt jedoch bei h¨

oheren Nachhallzeiten aufgrund

einer zu geringen Frequenzaufl¨

osung zu ungenauen Sch¨

atzungen von ΦNN(Ω). Um aber eine

ann¨

ahernd korrekte Sch¨

atzung zu erhalten ist nach [JN87] eine Blockl¨

ange von L > fAb/4·T60

notwendig. Wird diese nicht eingehalten, so ist mit Abstrichen in der resultierenden St¨

orge-

r¨

auschreduktion zu rechnen. Dieser Zusammenhang kann durch folgende Betrachtungen ver-

anschaulicht werden. Unter der Annahme einer korrekt gesch¨

atzten frequenzkontinuierlichen

KLDS-Matrix ergibt sich diese f¨

ur eine gerichtete St¨

orung mit der Varianz σ2

N,c(Ω) und der

Ubertragungsfunktion A(Ω), sowie der Varianz σ2

N,u(Ω) f¨

ur das unkorrelierte Rauschen zu

ΦNN(Ω) = σ2

N,c(Ω)A(Ω)AH(Ω) + σ2

N,u(Ω)I(4.58)

i=1

λi(Ω)vi(Ω)vH

i(Ω).(4.59)

In Gl. (4.59) ist mit λi(Ω) der i−te Eigenwert von ΦNN(Ω) und mit vi(Ω) der zugeh¨

orige

Eigenvektor bezeichnet. Die Eigenwerte sind reellwertig und seien hier, wie in den weiteren

Kapiteln der Gr¨

oße nach geordnet

λ1(Ω) ≥λ2(Ω) ≥...≥λM(Ω) ≥0.(4.60)

Da jeder Vektor Eigenvektor einer Einheitsmatrix ist, gilt dies auch f¨

ur den Vektor definiert

12Bei den hier gemachten Vergleichen zwischen den GMVDR und MVDR Beamformern soll nochmals darauf

hingewiesen werden, dass die Filterkoeffizienten optimal mit den reinen Sprachdaten berechnet wurden.

13Die Genauigkeit der gesch¨

atzten ¨

Ubertragungsfunktionen kann hier nicht explizit untersucht werden, da

die zur Erzeugung der Sprachdaten verwendeten Impulsantworten nicht dirkt zu einem Vergleich zu verwenden

sind. Diese sind deutlich l¨

anger und haben einen beliebigen Alpass-Anteil.

4.5. Experimente zur verallgemeinerten L¨

osung 67

durch die gerichtete St¨

orung

v1(Ω) = A(Ω)

||A(Ω)||.(4.61)

Dieser korrespondiert im Zusammenhang mit Gl. (4.58) zum gr¨

oßten Eigenwert

λ1(Ω) = σ2

N,c(Ω) ·||A(Ω)||2+σ2

N,u(Ω) (4.62)

und f¨

ur alle anderen Eigenwerte gilt

λi(Ω) = σ2

N,u(Ω), i = 2,...,M. (4.63)

F¨

ur die Inverse gilt folgende allgemeine Form

Φ−1

NN(Ω) =

i=1

λi

(Ω)vi(Ω)vH

i(Ω).(4.64)

Nun wird ein Eingangsvektor X(Ω) = Nc(Ω) ·A(Ω), welcher durch die gerichtete St¨

orung

hervorgerufen wird, angenommen und die Auswirkung dessen Filterung mit Gl. (4.28) un-

tersucht. F¨

ur die Bildung des Minimums in der r¨

aumlichen ¨

Ubertragungsfunktion und somit

der Unterdr¨

uckung von St¨

orger¨

auschen der gerichteten Quelle ist bei der Anwendung von Gl.

(4.28) im Wesentlichen die Rechtsmultiplikation von Φ−1

NN(Ω) mit X(Ω) verantwortlich

Φ−1

NN(Ω)X(Ω) = "A(Ω)AH(Ω)

||A(Ω)||2λ1(Ω) +

i=2

vi(Ω)vH

i(Ω)

λi(Ω) #Nc(Ω)A(Ω) (4.65)

≈0,f¨

ur σ2

N,c ≫σ2

N,u ⇔λ1(Ω) ≫λi(Ω), i > 1.(4.66)

Da die weiteren Eigenvektoren vi(Ω), i = 2,...,M orthogonal zu v1(Ω) sind, ergibt sich also

n¨

aherungsweise der Nullvektor f¨

ur ein sehr kleines Verh¨

altnis σ2

N,u(Ω)/σ2

N,c(Ω), welches f¨

ein letztes Experiment bezeichnet werden soll mit

η:= 10 log10

σ2

N,u

σ2

N,c

dB.(4.67)

Das Verh¨

altnis ηin Gl. (4.67) ist jedoch nicht mehr frequenzabh¨

angig, sondern soll unter

Ber¨

ucksichtigung aller Frequenzkomponenten im Zeitbereich ermittelt werden. In Bild 4.5 (a)

ist der SNR-Gewinn f¨

ur ein variierendes ηim Bereich zwischen -50dB und 20dB dargestellt,

wobei wieder das Szenario-2 zugrunde liegt und eine Nachhallzeit von T60 = 0,05s gew¨

ahlt

wurde. Es ist deutlich zu erkennen, dass f¨

ur ein steigendes ηder SNR-Gewinn sinkt und gegen

den Wert 10 ·log10(M)≃7dB l¨

auft. Das Bild 4.5 (b) verdeutlicht den Effekt der r¨

aumlichen

Filterung. Zu sehen ist das Beampattern ausgewertet f¨

ur eine Frequenz von ca. 1 kHz f¨

unterschiedliche Verh¨

altnisse der Varianzen Gl. (4.67). Das r¨

aumliche Minimum ist umso

ausgepr¨

agter, je gr¨

oßer die Varianz der korrelierten St¨

orung im Vergleich zum unkorrelierten

Rauschen ist. F¨

ur den Grenzwert η→ −∞ hat die Matrix Φ−1

NN(Ω) den Rang eins, also

alle Eigenwerte λi(Ω), i = 2,...,M verschwinden und das Beampattern an der Stelle der

St¨

orquelle geht gegen −∞.

Die explizite Betrachtung von Gl. (4.65) unter der Ber¨

ucksichtigung von Gl. (4.58) zeigt

die Degradation der St¨

orger¨

auschunterdr¨

uckung von r¨

aumlich korrelierten St¨

orschallfeldern

mit steigender Varianz unkorrelierter St¨

orungen. Das Verh¨

altnis σ2

N,u/σ2

N,c wird in der Praxis

beeinflusst durch ein variierendes σ2

N,c bei gleichbleibendem σ2

N,u (hervorgerufen durch z. B.

68 Kapitel 4. Statistisch optimales Beamforming

-40 -20

(a)

SNRG [dB]

η[dB]

-60

-40

-30

-20

-10

20 60

(b) θ[◦]

10 log10 |B(Ωk0, θ)|2[dB]

η= 0 dB

η= -10 dB

η= -20 dB

η= -40 dB

Bild 4.5: Analyse des variierenden Verh¨

altnisses ηder Varianzen der gerichteten und unkorrelierten St¨

orung

bei T60 = 0,05 s.(a) SNR-Gewinn und (b) Beampattern f¨

ur eine Frequenz von ca. 1 kHz.

Mikrophonrauschen) und durch steigende Nachhallzeiten, so dass der diffuse Anteil des St¨

or-

schallfeldes f¨

ur h¨

ohere Frequenzen einen Beitrag zur unkorrelierten St¨

orung leistet. Weiterhin

ist nat¨

urlich eine m¨

oglichst genaue Sch¨

atzung von ΦNN(Ω) bzw. ihrer Inversen notwendig.

Mit steigender Nachhallzeit schleicht sich hier jedoch aufgrund zu kurzer Analysefenster ein

systematischer Fehler ein, weshalb v1(Ω) = A(Ω)/||A(Ω)|| f¨

ur Gl. (4.65) immer ungenauer

gesch¨

atzt wird.

4.6 Zusammenfassung und Diskussion

F¨

ur die mehrkanalige Ger¨

auschreduktion mittels Beamforming wurden in diesem Kapitel

statistisch optimale Filterkoeffizienten im Frequenzbereich hergeleitet. Dabei kam eine konse-

quente Schreibweise der verallgemeinerten Zusammenh¨

ange zum Tragen, also die Verwendung

der Raum¨

ubertragungsfunktion H(Ω) zwischen dem Sprecher und der Mikrophongruppe,

anstatt der Vereinfachung durch den Steering Vector. Die hier gezeigten unterschiedlichen

Ans¨

atze Max-SNR-Kriterium, Minimierung der Varianz, Maximierung der Plausibilit¨

at und

Minimierung des kleinsten mittleren quadratischen Fehlers f¨

uhren alle zu den gleichen opti-

malen Filterkoeffizienten bez¨

uglich der r¨

aumlichen Selektivit¨

at und unterscheiden sich gerade

in einem skalaren Faktor, welcher als spektrale, einkanalige Nachfilterung betrachtet werden

kann. Wesentliche Unterschiede ergeben sich letztlich bei der Wahl des Adaptionsverfahrens14

und der konkreten Implementierung.

Das Max-SNR-Kriterium unterscheidet sich jedoch von den anderen Verfahren dadurch,

dass ein verallgemeinertes Eigenwertproblem gel¨

ost werden kann und hierf¨

ur keinerlei Wis-

sen ¨

uber die Sprecherposition und die Array-Geometrie notwendig ist, weshalb es auch als

“blindes” Verfahren bezeichnet werden kann. Die resultierenden Filterkoeffizienten beinhal-

ten implizit eine Sch¨

atzung der Raum¨

ubertragungsfunktion. Diese Eigenschaft bringt jedoch

auch einen entscheidenden Nachteil mit sich: da f¨

ur ein breitbandiges Sprachsignal15 die

14Die in diesem Kapitel aufgezeigten L¨

osungen f¨

ur die optimalen Filterkoeffizienten ergeben sich bei einer

entsprechenden Implementierung nach der Konvergenz der Koeffizienten. Dies kann mit unterschiedlichen

Adaptionsverfahren erreicht werden (siehe z. B. Abschnitt 5).

15In der Antennentechnik werden aufgrund der schmalbandigen Signale Strukturen mittels Eigenwert-

zerlegung bedeutend h¨

aufiger diskutiert als bei der breitbandigen Sprachsignalverarbeitung (siehe z. B.

[HBD00, Has02, EK03, YOZC04]).

4.6. Zusammenfassung und Diskussion 69

Eigenwert-Dekomposition f¨

ur jede Frequenz unabh¨

angig voneinander erfolgt, k¨

onnen gravie-

rende Sprachverzerrungen auftreten. Hier kann eine einkanalige Nachfilterung deutliche Ab-

hilfe schaffen, welche einen Zusammenhang zu dem GMVDR-Verfahren herstellen soll. Auf

M¨

oglichkeiten der Realisierung eines solchen Post Filters wird in Kapitel 6 eingegangen.

Da die explizite Sch¨

atzung der Raum¨

ubertragungsfunktion bzw. einzelner Ausbreitungs-

pfade in einer stark verhallten Umgebung sehr schwierig ist, werden solche Ans¨

atze zur kon-

struktiven Nutzung der Mehrwegeausbreitung nur vereinzelt in der Literatur diskutiert. Eine

fr¨

uhe Arbeit, welche sich mit der Sch¨

atzung ausgepr¨

agter Reflektionen besch¨

aftigt, ist in

[FSJ93] zu finden und f¨

uhrte zum so genannten Matched Filter Array [JF96]. Diese eher

theoretisch angesiedelten Simulationen (Array mit 200 Sensoren) wurde in [RRFM98] weiter

untersucht. In [AG97] fand der Matched-Filter-Ansatz eine Anwendung in einer GSC-Struktur

f¨

ur einen PC-Arbeitsplatz und einer expliziten Ber¨

ucksichtigung von Double-Talk-Situationen

in [AG96].

In [NNS01] ist ein Verfahren beschrieben, um multiple Beamformer, ausgerichtet auf den

direkten Pfad und fr¨

uhe Reflexionen, zu kombinieren. Ein ¨

ahnlicher Ansatz findet in [KHJ06]

Anwendung. Hier wird wieder eine explizite Sch¨

atzung mehrerer Ausbreitungspfade verwen-

det, um sequentiell kaskadierte MVDR Beamformer zu adaptieren.

Weitere erfolgreiche Ans¨

atze zur Ausnutzung der Mehrwegeausbreitung sind im Zusam-

menhang mit einer GSC-Struktur zu finden (siehe Kapitel 8). In [HSH99, HS01] werden adap-

tive Filter verwendet, um das verhallte Nutzsignal aus den Eingangssignalen herauszufiltern

(Blocking Matrix) und so St¨

orreferenzsignale zu erzeugen, die einen m¨

oglichst geringen An-

teil des Sprachsignals enthalten. Dieser Ansatz findet in [HK01] eine effiziente Realisierung

im Frequenzbereich und ist in [HK03] mit einer mehrkanaligen Echokompensation kombi-

niert. Eine zus¨

atzliche Erweiterung zur Robustheitssteigerung bei impulsartigen St¨

orungen

in Double-Talk-Situationen wird in [HBNK07] beschrieben. In [GBW01] wird ein Verfahren

vorgeschlagen um das Verh¨

altnis der ¨

Ubertragungsfunktionen (engl. Transfer Function Ratio)

durch Ausnutzung der relativen Stationarit¨

at der ¨

Ubertragungsfunktionen im Vergleich zu

dem Nutzsignal zu sch¨

atzen und so ebenfalls St¨

orreferenzsignale zu erzeugen. Dieser Ansatz

ist in [GC04] mit einem Post Filter zur weiteren St¨

orger¨

auschreduktion kombiniert.

70 Kapitel 4. Statistisch optimales Beamforming

Kapitel 5

Adaptive L¨

osung des Eigenwertproblems

Die Berechnung der optimalen Filterkoeffizienten nach dem Max-SNR-Kriterium im laufenden

Betrieb erfordert eine iterative L¨

osung des Eigenwertproblems Gl. (4.15) um eine adaptive

Nachf¨

uhrung der Filterkoeffizienten zu gew¨

ahrleisten. Grundvoraussetzung hierf¨

ur ist eine

robuste Sprache/Pause-Detektion (siehe Anhang D), um einerseits das Kreuzleistungsdich-

tespektrum des St¨

orschallfeldes und andererseits das Kreuzleistungsdichtespektrum aus der

Uberlagerung von St¨

or- und Nutzsignal zu sch¨

atzen.

Im Folgenden soll zun¨

achst eine Untersuchung des speziellen Eigenwertproblems und an-

schließend des allgemeinen Eigenwertproblems erfolgen. Daf¨

ur werden Methoden vorgestellt

und analysiert, die einerseits ¨

uber Fixpunktverfahren und andererseits ¨

uber Gradientenver-

fahren einen Eigenvektor korrespondierend zum gr¨

oßten Eigenwert einer Matrix iterativ be-

stimmen. Weiterhin muss die Unterscheidung gemacht werden, ob die Statistik der Eingangs-

daten sich nicht mehr ¨

andert und davon ausgegangen wird, dass die entsprechenden Matrizen

deterministisch vorliegen. Oder, wie im Falle des akustischen Beamformings, die statistischen

Eigenschaften der Signale sich ¨

uber die Zeit sehr wohl ¨

andern, weshalb der ¨

Ubergang zu

stochastischen Iterationsvorschriften gemacht werden muss. Experimentelle Untersuchungen

bez¨

uglich des Konvergenzverhaltens von Verfahren aus der Literatur und eigenentwickelten

Verfahren zur iterativen Bestimmung des gesuchten Eigenvektors sollen hier durchgef¨

uhrt

werden.

Da die iterative Sch¨

atzung des gesuchten Eigenvektors f¨

ur den frequenzdiskreten Fall um-

gesetzt werden soll, und diese f¨

ur jede Frequenzkomponente unabh¨

angig voneinander durch-

zuf¨

uhren ist, wird in diesem Kapitel auf einen frequenzabh¨

angigen Parameter verzichtet. Dies

erh¨

oht die Lesbarkeit, insbesondere, da ein zus¨

atzlicher Index f¨

ur den Iterationsschritt einge-

f¨

uhrt werden muss.

5.1 Spezielles Eigenwertproblem

Die grundlegende Thematik dieses Abschnitts ist mit der Formulierung des speziellen Eigen-

wertproblems

ΦXXvi=λivi,1≤i≤M(5.1)

gegeben. Es sei angemerkt, dass die viin Gl. (5.1) nicht eindeutig bestimmt sind, da die

Eigenwertgleichung ebenfalls f¨

ur alle Vektoren ζvimit dem komplexwertigen Skalar ζgilt.

Außerdem existieren f¨

ur beliebige Matrizen ΦXX der Dimension M×Mnicht immer M

72 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

unabh¨

angige Eigenvektoren. Daher wird hier und im Folgenden immer davon ausgegangen,

dass die Eigenvektoren auf die Einheitsl¨

ange normiert sein sollen

||vi|| = 1,∀i. (5.2)

Obschon L¨

osungsvorschl¨

age f¨

ur die Problemstellung Gl. (5.1) seit ¨

uber 160 Jahren1in der

Literatur diskutiert werden, ist nach wie vor die iterative L¨

osung des Eigenwertproblems

Gegenstand aktueller Forschungsarbeiten aufgrund der hohen Relevanz im Bereich der nu-

merischen, linearen Algebra, siehe z. B. [GV00, CA03]. In dieser Arbeit ist von einer positiv

definiten, hermiteschen Matrix ΦXX der Dimension M×Mauszugehen, so dass die MEi-

genwerte λipositiv und reell sind. Diese seien der Gr¨

oße nach angeordnet

λ1> λ2≥...≥λM≥0.(5.3)

Weiterhin ist im Rahmen dieser Arbeit nur ein Eigenvektor korrespondierend zum gr¨

oßten

Eigenwert λ(max) =λ1zu bestimmen (engl. Principal Component Analysis, PCA). Dieser

tr¨

agt gem¨

aß der Nummerierung in Gl. (5.3) den Index Eins (v1) und entspricht gerade dem

gesuchten Filterkoeffizientenvektor F. Diese Definition entspricht der Annahme, dass in der

allgemeinen Betrachtung Gl. (4.15) die KLDS-Matrix der St¨

orung nicht ber¨

ucksichtigt wird

ΦXXF=λ(max)F.(5.4)

F¨

ur das Beamforming ist diese Formulierung ¨

aquivalent zur Ausrichtung der Hauptkeule des

Beampatterns in Richtung der dominanten Quelle. F¨

ur die Betrachtung der drei m¨

oglichen

Arten von St¨

orschallfeldern hat dies folgende Bedeutung:

•Da die unkorrelierte St¨

orung keinerlei Einfluss auf die “Richtung” von v1hat, sondern

lediglich auf dessen Skalierung, ergibt sich an dieser Stelle keinerlei Informationsverlust.

•Im Falle des diffusen St¨

orschallfeldes werden die frequenzabh¨

angigen Hauptkeulen eben-

falls korrekt auf den Zielsprecher ausgerichtet. Jedoch ergibt sich hier unter Vernach-

l¨

assigung des Koh¨

arenzterms Gl. (2.20) ein Verlust bez¨

uglich des maximal erzielba-

ren SNR-Gewinns aufgrund der reduzierten Direktivit¨

at. Da jedoch grunds¨

atzlich das

Nutzsignal in den einzelnen Signalpfaden nach der Filterung mit den Beamformer-

Koeffizienten koh¨

arent vorliegt, kann eine Nachfilterung ¨

ahnlich zum superdirektiven

Beamforming zur Steigerung der Direktivit¨

at vorgenommen werden.

•Ist im Raum jedoch eine starke, gerichtete St¨

orung vorhanden, so wird das frequenzab-

h¨

angige Beampattern, gegeben durch die L¨

osung von Gl. (5.4), sich entweder auf den

Sprecher oder auf die St¨

orung, bzw. einer Mischung aus beiden, ausrichten. F¨

ur diesen

Fall ist die L¨

osung des allgemeinen Eigenwertproblems Gl. (4.15) unerl¨

asslich. Daher

kann eine PCA-Adaption nur eingesetzt werden wenn keine starken St¨

orer vorhanden

sind. Dies ist ¨

uber eine SNR abh¨

angige Steuerung sicherzustellen.

Dies bedeutet also, dass im Falle nicht vorhandener gerichteter St¨

orquellen, oder wenn

diese zumindest im Vergleich zum Sprachsignal nur eine sehr geringe Leistung emittieren,

durch die L¨

osung des speziellen Eigenwertproblems die Filterkoeffizienten eine Matched Fil-

terung vornehmen und somit quasi ein“selbstjustierender”DSB realisiert werden kann. Dessen

Direktivit¨

at kann durch eine geeignete Nachfilterung noch erh¨

oht werden.

1Im Jahre 1846 erschien bereits eine wichtige Arbeit von Jacobi [Jac46] zur L¨

osung des Eigenwertproblems.

Da die Matrixnotation damals noch unbekannt war, formulierte er das Problem allerdings durch elementweise

Betrachtung von Systemgleichungen.

5.1. Spezielles Eigenwertproblem 73

5.1.1 Potenzmethode

Zun¨

achst soll davon ausgegangen werden, dass ΦXX aus der blockweisen Verarbeitung der

eingehenden Mikrophonsignale Xmmit dem Blockindex mbestimmt worden ist

ΦXX =

i=1

λivivH

i= lim

N→∞

m=1

XmXH

m(5.5)

und somit deterministische Methoden verwendet werden k¨

onnen. Als Motivation f¨

ur die Po-

tenzmethode kann nun folgende Vorgehensweise gesehen werden. F¨

ur den gesuchten Eigen-

vektor gilt unter Ber¨

ucksichtigung von Gl. (5.2)

ΦXXv1=λ1v1(5.6)

ΦXXv1

||ΦXXv1|| =v1.(5.7)

Mit der Einf¨

uhrung des Iterationsz¨

ahlers κ, ergibt sich das einfache Iterationsverfahren der

Potenzmethode2zu

v1,κ =ΦXX ˆ

v1,κ−1

||ΦXX ˆ

v1,κ−1||, κ = 1,2,... (5.8)

mit dem Startvektor3

v1,0=

i=1

civi, ci∈C, c16= 0.(5.9)

Das Konvergenzverhalten kann anschaulich an der Folge ΦXX ˆ

v1,0,ΦXX(ΦXX ˆ

v1,0),... be-

trachtet werden. Es gilt f¨

ur den κ-ten Schritt

Φκ

XX ˆ

v1,0=

i=1

ciλκ

ivi

=λκ

1"c1v1+

i=2

ciλi

λ1κ

vi#.(5.10)

Mit der Annahme Gl. (5.3) erkennt man, dass der rechte Term in Gl. (5.10) f¨

ur ein steigendes

κverschwindet und somit nur noch eine Komponente in die Richtung v1¨

ubrig bleibt. Die

Folge {ˆ

v1,κ}κ∈Nin Gl. (5.8) konvergiert also linear gegen c1/|c1|v1mit der Konvergenzrate

λ2/λ1, da der Ausdruck (λ2/λ1)κin Gl. (5.10) am langsamsten gegen Null strebt. Es bleibt

noch anzumerken, dass der Fehler zwischen zwei Iterationen von der Wahl der Startwerte ci

abh¨

angt, wie an Gl. (5.10) ebenfalls abgelesen werden kann.

Anhand der vorhergehenden Betrachtungen liegt der wesentliche Nachteil der Potenzme-

thode klar auf der Hand. Liegen die Eigenwerte nahe beieinander, so konvergiert die Folge

Gl. (5.8) nur sehr langsam. Abhilfe verschaffen hier zahlreiche Verfahren, welche in der Li-

teratur der letzten Jahrzehnte zu finden sind. Diese sind jedoch bedeutend komplexer vom

Rechenaufwand her oder gehen von bestimmten Annahmen an die Problemstellung aus. Liegt

2Housholder [Hou64] schreibt die erste Verwendung der Potenzmethode dem Mathematiker M¨

untz im

Jahre 1913 zu. Zuvor wurde sie jedoch in [Bod56] dem Mathematiker von Mises und dessen Ver¨

offentlichung

[VMPG29] im Jahre 1929 zuerkannt. Daher wird die Potenzmethode auch als Vektoriteration nach von Mises

bezeichnet.

3Es l¨

aßt sich keine Methode zur Bestimmung eines idealen Startvektors angeben. Als sinnvoll hat sich hier

die Wahl eines rein reellen Vektors mit gleichen Eintr¨

agen f¨

ur alle Elemente erwiesen.

74 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

z. B. eine gute Approximation der gesuchten Eigenwerte vor, so erreicht man mit der inversen

Iteration nach Wielandt [Wie44] eine erhebliche Beschleunigung der Potenzmethode. Viele

Methoden basieren auf Orthogonaltransformationsverfahren und beziehen die gesamte Itera-

tionsfolge {Φκ

XX ˆ

v1,0}κ∈Nin die Iteration ein, welche den so genannten Krylov Unterraum K

bildet

Kκ(ˆ

v1,0;ΦXX)≡span{ˆ

v1,0,ΦXX ˆ

v1,0,...,Φκ

XX ˆ

v1,0}.(5.11)

Mit span{u1,...,uM}ist ein Unterraum beschrieben, der durch die Vektoren u1,...,uMauf-

gespannt (engl. span) wird. Wichtige, grundlegende Verfahren sind hier das Lanczos-Verfahren

[Lan50] sowie das Arnoldi-Verfahren [Arn51].

F¨

ur die Bestimmung aller Eigenwerte und Eigenvektoren des Eigenwertproblems kann

z. B. der recht aufwendige QR-Algorithmus [Fra61] verwendet werden. Dabei wird in der Re-

gel zuerst eine Hessenberg-Matrix (quadratische Matrix, deren Eintr¨

age unterhalb der ersten

Nebendiagonalen gleich Null sind) berechnet und anschließend eine QR-Transformation4vor-

genommen. Weitere Verfahren zur Eigenwertbestimmung k¨

onnen z. B. [GV00] entnommen

werden.

Zusammenfassend l¨

asst sich sagen, dass bei Matrizen geringer Ordnung und Interesse

an lediglich eines Eigenvektors korrespondierend zum gr¨

oßten Eigenwert die Potenzmethode

aufgrund der geringen Rechenkomplexit¨

at ein sehr effektives Verfahren darstellt. Wobei je

nach Anwendung5auf die oben genannten Konvergenzeigenschaften zu achten ist. F¨

ur die

Anwendung des akustischen Beamformings bedeutet dies:

•F¨

ur das Max-SNR-Kriterium ist nur ein Eigenvektor einer Matrix geringer Ordnung zu

berechnen.

•Die Potenzmethode eignet sich auch bei schwach besetzten Matrizen.

•Der Rechenaufwand ist gering und eignet sich somit f¨

ur Echtzeit-Anwendungen.

•In der Regel6gilt λ1≫λ2, wodurch eine Konvergenz sichergestellt ist.

•Die letztendliche Konvergenzgeschwindigkeit h¨

angt maßgeblich von einer guten Sch¨

at-

zung der KLDS-Matrizen ab und weniger von der Konvergenzrate der Potenzmethode.

Nun soll der stochastische Fall betrachtet werden, f¨

ur den statt der Matrix ΦXX nur

eine stochastische Sch¨

atzung ˆ

ΦXX,κ zum Iterationszeitpunkt κvorliegt. Hierbei werden al-

le eingehenden Daten bis zum Iterationszeitpunkt f¨

ur die Sch¨

atzung ˆ

ΦXX,κ verwendet. In

der Regel ist dabei der Blockindex mgleichbedeutend mit dem Iterationsindex κ, so dass

zwischen drei M¨

oglichkeiten der Zeitreihenanalyse unterschieden werden kann: der Gleichm¨

ßigen Gewichtung (GG), der Exponentiellen Gl¨

attung (EG) und der Instantanen Sch¨

atzung

(IS).

Gleichm¨

aßige Gewichtung (GG) Bei der gleichm¨

aßigen Gewichtung bzw. dem gleiten-

den Mittelwert (engl. Moving Average) tragen alle eingehenden Daten innerhalb eines gewis-

4Wenn Aeine gegebene Matrix mit linear unabh¨

angigen Spalten ist, so gibt es eine Matrix Qmit ortho-

gonalen Spalten und eine obere Dreiecksmatrix R, so dass A=QR gilt.

5Google benutzt z. B. die Potenzmethode zur Bewertung der relativen Wichtigkeit eines Links (PageRank).

6F¨

ur den Fall eines Ein-Sprecher-Szenarios gilt λ1≫λ2(siehe alternativ blinde Quellentrennung [TV07]).

5.1. Spezielles Eigenwertproblem 75

sen Zeitfensters Ngleichstark zur rekursiven Sch¨

atzung bei

Φ(GG)

XX,κ =









κ−1

κˆ

Φ(GG)

XX,κ−1+1

κXκXH

κfalls 1 ≤κ≤N,

Φ(GG)

XX,κ−1+1

NXκXH

κ−Xκ−NXH

κ−Nsonst.

(5.12)

W¨

ahlt man N→ ∞ so w¨

urde f¨

ur alle Zeiten die Gesamtheit der Eingangsdaten gleichgewich-

tet ber¨

ucksichtigt werden. Einerseits bedeutet dies, dass eine gute Approximation im Sinne

von Gl. (5.5) anf¨

allt, aber andererseits man ¨

Anderungen in der Statistik (z. B. Sprecherbe-

wegungen) f¨

ur große κnicht erfassen w¨

urde. Dennoch wird diese Variante der konsistenteren

Notation wegen mit der gleichm¨

aßigen Gewichtung assoziiert.

Exponentielle Gl¨

attung (EG) Die exponentielle Gl¨

attung versieht Daten mit abneh-

mender Aktualit¨

at mit einem geringer werdenden Gewicht

Φ(EG)

XX,κ =αˆ

Φ(EG)

XX,κ−1+ (1 −α)XκXH

κ,0< α < 1,(5.13)

wobei die Gl¨

attungskonstante αnahe bei Eins liegt. Sie kann auch f¨

ur eine gew¨

unschte zeit-

liche Einwirktiefe τgder exponentiellen Gl¨

attung und gegebener Blockl¨

ange Lanalytisch

bestimmt werden mit

α= 1 −L

τg·fAb

.(5.14)

Instantaner Sch¨

atzer (IS) Wird lediglich der aktuelle Eingangsblock verwendet, so liegt

eine instantane Sch¨

atzung vor

Φ(IS)

XX,κ =XκXH

κ.(5.15)

Solch ein Vorgehen weist nat¨

urlich eine hohe Varianz der Sch¨

atzung auf, erm¨

oglicht aber

auch ein schnelles Reagieren auf eine sich ¨

andernde Statistik der Eingangsdaten. In der Regel

wird eine instantane Sch¨

atzung im Zusammenhang mit einer weiteren Mittelung oder mit

Schrittweite-Verfahren verwendet.

F¨

ur die Iteration mittels der Potenzmethode bedeutet der stochastische Ansatz eine wech-

selseitige Aktualisierung von zuerst ˆ

ΦXX,κ und danach ˆ

v1,κ aus Gl. (5.8). In [Kar84] ist diese

wechselseitige Iteration mit Gl. (5.12) und N→ ∞ bereits explizit beschrieben. Hier sollen

nun zwei Algorithmen f¨

ur die stochastische Potenzmethode angegeben werden; zur L¨

osung

des speziellen Eigenwertproblems mittels Potenzmethode und gleichm¨

aßiger Gewichtung (S-

PM-GG):

Algorithmus 1 (S-PM-GG) W¨

ahle die Fenstergr¨

oße Nund einen Startvektor ˆ

v1,0∈CM. Be-

rechne f¨

ur κ= 1,2, . . .

Φ(GG)

XX,κ := 8

κ−1

κˆ

Φ(GG)

XX,κ−1+1

κXκXH

κfalls 1≤κ≤N,

Φ(GG)

XX,κ−1+1

N`XκXH

κ−Xκ−NXH

κ−N´sonst

a:= ˆ

Φ(GG)

XX,κ ˆ

v1,κ−1

v1,κ := a

||a||

76 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

sowie f¨

ur das spezielle Eigenwertproblem mittels Potenzmethode und exponentieller Gewich-

tung (S-PM-EG):

Algorithmus 2 (S-PM-EG) W¨

ahle eine Gl¨

attungskonstante αund einen Startvektor ˆ

v1,0∈CM.

Berechne f¨

ur κ= 1,2, . . .

Φ(EG)

XX,κ := αˆ

Φ(EG)

XX,κ−1+ (1 −α)XκXH

a:= ˆ

Φ(EG)

XX,κ ˆ

v1,κ−1

v1,κ := a

||a||

5.1.2 Projektionsapproximation

Eine Reduzierung des Rechenaufwands der Potenzmethode f¨

ur den stochastischen Fall mit

gleichm¨

aßiger Gewichtung zur Bestimmung von ˆ

ΦXX,κ ist in [RP02, RPW04] erl¨

autert. Dabei

wird entsprechend der Potenzmethode von folgendem Ausdruck ausgegangen

Φ(GG)

XX,κ ˆ

v1,κ−1=1

m=1

XmXH

mˆ

v1,κ−1.(5.16)

Die Projektion von Xmauf ˆ

v1,κ−1in Gl. (5.16) wird dann wie folgt angen¨

ahert:

mˆ

v1,κ−1≈XH

mˆ

v1,m−1∀m, κ 1≤m≤κ. (5.17)

Die rechte Seite von Gl. (5.17) entspricht gerade der Filterung der Eingangsdaten f¨

ur den

Block m, also der Definition Y∗

m:= XH

mˆ

v1,m−1. Verwendet man nun diese Definition mit der

Approximation Gl. (5.17) in Gl. (5.16) und setzt zus¨

atzlich noch Gl. (5.12) ein ergibt sich der

gleichgewichtete Projektionsvektor

p(GG)

κ=κ−1

κp(GG)

κ−1+1

κXκY∗

κ,(5.18)

bzw. mit Gl. (5.13) der exponentiell gewichtete Projektionsvektor

p(EG)

κ=αp(EG)

κ−1+ (1 −α)XκY∗

κ.(5.19)

Die Iterationsvorschrift der stochastischen Potenzmethode mit Projektionsapproximation7

besteht dann nat¨

urlich noch aus der Normierung

v1,κ =pκ

||pκ||,(5.20)

wobei der hochgestellte Index f¨

ur die Bezeichnung der Gl¨

attung in Gl. (5.20) nicht expli-

zit aufgef¨

uhrt ist. Es bleibt also festzuhalten, dass durch die Projektionsapproximation eine

Komplexit¨

atsreduktion von der Ordnung O(M2) hin zu O(M) vorgenommen wurde.

7Projektionsmethoden, die eine N¨

aherung f¨

ur die Sch¨

atzung von Eigenr¨

aumen von Matrizen bilden, sind

auch unter dem Begriff Projection Approximation Subspace Tracking (PAST) Verfahren bekannt, auch wenn

diese Begrifflichkeit in [RP02, RPW04] nicht explizit f¨

allt.

5.1. Spezielles Eigenwertproblem 77

5.1.3 Gradientenverfahren

Setzt man f¨

ur die Gl¨

attungskonstante αin Gl. (5.19) einen Wert sehr nahe 1 an und bezeichnet

1−αals Schrittweite µ, so kann Gl. (5.19) wiederum approximiert werden durch

pκ=pκ−1+µXκ(XH

κpκ−1).(5.21)

Es ergibt sich damit ein Zusammenhang zu dem so genannten Hebbschen Postulat8des Phy-

siologen Donald Hebb von 1949. Darin beschreibt er prinzipiell die Regel Gl. (5.21) mit dem

Begriff Effizienz, welche in seinem Fall die synaptische Ver¨

anderung zwischen Nervenzellen

meint. Die Interpretation von Gl. (5.21) ist nun derart, dass es sich um ein Gradientenan-

stiegsverfahren handelt, welches die Ausgangsenergie |˜

Yκ|2:= |pH

κ−1Xκ|2mit fortlaufender

Iteration prinzipiell unendlich stark anwachsen l¨

asst. Definiert man die Kostenfunktion

J(pκ−1) = pH

κ−1ˆ

Φ(IS)

XX,κpκ−1,(5.22)

welche durch geeignete Wahl von pκ−1zu maximieren ist, so kann mit

∇pJ(pκ−1) = 2 ˆ

Φ(IS)

XX,κpκ−1(5.23)

an der allgemeinen Lernregel f¨

ur das Gradientenanstiegsverfahren

pκ=pκ−1+µ

2∇pJ(pκ−1) (5.24)

und Gl. (5.15) die Gleichheit von Gl. (5.21) und Gl. (5.24) eerkannt werden. Das Problem

des unbegrenzten Anwachsens von pκist in [Ama77] intuitiv mit einer expliziten Normierung

des Koeffizientenvektors wie folgt gel¨

ost:

Yκ:= ˆ

1,κ−1Xκ→p1,κ =p1,κ−1+µXκY∗

κ→ˆ

v1,κ =pκ

||pκ||.(5.25)

Interessanterweise ist der explizite Normierungsschritt in Gl. (5.25) in [Oja82] implizit

in die Herleitung der Gradientenanstiegsmethode eingebunden. Diese Vorschrift wird wegen

[Oja82] auch synonym Ojas-Regel genannt. F¨

ur die folgende Herleitung des Algorithmus soll

zun¨

achst der deterministische Ansatz hergenommen werden. Daf¨

ur soll eine Maximierungs-

aufgabe mit Randbedingung formuliert werden:

max

vHvHΦXXvunter der Randbed. vHv=C2, C ∈R+.(5.26)

Die Norm der Filterkoeffizienten ist also durch den reellwertigen Parameter Cfestgelegt. Es

soll nun eine reelle Kostenfunktion definiert werden, welche im Vergleich zu Gl. (5.22) die

Randbedingung durch den reellwertigen Lagrange-Multiplikator βbeinhaltet

J(v) = vHΦXXv+β(vHv−C2).(5.27)

F¨

ur den Gradienten von J(v) bez¨

uglich den gesuchten Koeffizienten vergibt sich

∇vJ= 2ΦXXv+ 2βv,(5.28)

8”Wenn ein Axon der Zelle A nahe genug ist, um eine Zelle B zu erregen und wiederholt oder dauerhaft sich

am Feuern beteiligt, geschieht ein Wachstumsprozess oder metabolische ¨

Anderung in einer oder beiden Zellen

derart, dass A’s Effizienz, als eine der auf B feuernde Zellen, anw¨

achst.” (frei ¨

Ubersetzt nach D. Hebb, 1949)

78 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

welcher zu Null zu setzen ist. Dadurch l¨

asst sich schließlich mit Einhaltung der Nebenbedin-

gung der gesuchte Faktor βberechnen

β=vHΦXXv

C2.(5.29)

Die Iterationsgleichung f¨

ur ˆ

v1,κ mittels determinstischem Gradientenanstieg und Gl. (5.28)

sowie Gl. (5.29) ist

v1,κ =ˆ

v1,κ−1+µ

2∇vJv=ˆ

v1,κ−1

(5.30)

=ˆ

v1,κ−1+µ ΦXXˆ

v1,κ−1−ˆ

1,κ−1ΦXX ˆ

v1,κ−1

C2ˆ

v1,κ−1!.(5.31)

In [OK85, CHY98] wurde gezeigt, dass Oja’s Regel Gl. (5.31) gegen den gew¨

unschten Ei-

genvektor konvergiert, und also der Fehlerterm in der Klammer f¨

ur κ→ ∞ verschwindet.

Setzt man nun die instantane Sch¨

atzung Gl. (5.15) in Gl. (5.31) ein, so ergibt sich mit

Yκ=ˆ

1,κ−1Xκdie stochastische Regel

v1,κ =ˆ

v1,κ−1+µY ∗

κXκ−Yκ

C2ˆ

v1,κ,(5.32)

welche nach wie vor eine der beliebtesten Iterationsregeln zur Sch¨

atzung des Eigenvektors v1

darstellt. F¨

ur Gl. (5.32) bleibt der Koeffizientenvektor im station¨

aren Zustand (ˆ

v1,κ =ˆ

v1,κ−1)

unter folgenden Bedingungen: (i) ˆ

v1,κ =Cv1, (ii) ˆ

1,κ ˆ

v1,κ =C2und (iii) Xκ=c1,κv1mit

c1,κ ∈C. Da die Bedingung (iii) bei der Adaption sicherlich nicht f¨

ur alle Eingangsdaten

zutrifft, wird die Sch¨

atzung je nach Gr¨

oße der Schrittweite µum den gesuchten Eigenvektor

herum schwanken. Es sei noch angemerkt, dass ¨

ublicherweise die Nebenbedingung (engl.

Constraint) zu C= 1 gesetzt wird.

5.1.4 Neuartiges Gradientenverfahren

Die Herleitung eines neuen Gradientenverfahrens zur iterativen Bestimmung von v1basiert

ebenfalls auf der Maximierungsaufgabe Gl. (5.26), der Kostenfunktion Gl. (5.27) und der

Gradientenanstieg-Methode Gl. (5.30). Das Verfahren wurde erstmals in [WHU05] pr¨

asen-

tiert und f¨

ur das akustische Beamforming eingesetzt. Der Lagrange-Multiplikator wird jedoch

mittels der Bedingung

1,κˆ

v1,κ !

=C2, C ∈R+.(5.33)

berechnet, also der Einhaltung der Nebenbedingung im n¨

achsten Iterationsschritt:

C2=ˆ

1,κ−1+µˆ

1,κ−1(ΦXX +βI)ˆ

v1,κ−1+µ(ΦXX +βI)ˆ

v1,κ−1

≈ˆ

1,κ−1ˆ

v1,κ−1+ 2µˆ

1,κ−1(ΦXX +βI)ˆ

v1,κ−1,(5.34)

wobei der Term mit µ2in der Approximation Gl. (5.34) vernachl¨

assigt wurde (aufgrund von

µ < 10−4). Man erh¨

alt schließlich f¨

ur den Lagrange-Multiplikator

β≈C2−ˆ

1,κ−1ˆ

v1,κ−1−2µˆ

1,κ−1ΦXX ˆ

v1,κ−1

2µˆ

1,κ−1ˆ

v1,κ−1

.(5.35)

5.1. Spezielles Eigenwertproblem 79

Setzt man Gl. (5.35) in Gl. (5.28) ein und benutzt die Iterationsgleichung Gl. (5.30), ergibt

sich nach einiger Rechnung

v1,κ =C2+ˆ

1,κ−1ˆ

v1,κ−1

2ˆ

1,κ−1ˆ

v1,κ−1

v1,κ−1+µ ΦXX ˆ

v1,κ−1−ˆ

1,κ−1ΦXX ˆ

v1,κ−1

1,κ−1ˆ

v1,κ−1

v1,κ−1!,(5.36)

und ¨

aquivalent zu Gl. (5.32) kann auch hier mit Yκ=ˆ

1,κ−1Xκeine stochastische Adapti-

onsregel angegeben werden

v1,κ =C2+ˆ

1,κ−1ˆ

v1,κ−1

2ˆ

1,κ−1ˆ

v1,κ−1

v1,κ−1+µY ∗

κ Xκ−Yκ

1,κ−1ˆ

v1,κ−1

v1,κ−1!.(5.37)

An dem neuen Algorithmus ist zuerst einmal eine Eigenschaft offensichtlich: Wird bei

der Iteration die Nebenbedingung erf¨

ullt, so geht Gl. (5.37) in Ojas-Regel Gl. (5.32) ¨

uber.

Aber, Gl. (5.37) stellt bez¨

uglich der Nebenbedingung einen allgemeineren Fall im Vergleich

zu Gl. (5.32) dar, denn es wird nicht davon ausgegangen, dass die Nebenbedingung erf¨

ullt ist.

Vielmehr wird durch den ersten Term auf der rechten Seite von Gl. (5.37) ein Newtonsches

N¨

aherungsverfahren9zur Berechnung der Nullstelle von der Funktion f(ˆ

v1) = C2−ˆ

1ˆ

realisiert. F¨

ur den reellwertigen, skalaren Fall entspricht dies dem so genannten Babylonischen

Wurzelziehen10, wenn also die Nullstelle von f(a) = a2−ξgesucht wird mit a∈R, a > 0.

Die iterative Berechnung der Quadratwurzel von ξmit dem Iterationsindex κlautet

aκ+1 =aκ−f(aκ)∂f(aκ)

∂aκ−1

(5.38)

=ξ+a2

2a2

aκ.(5.39)

Das Iterations-Verfahren Gl. (5.39) konvergiert asymptotisch mit quadratischer Konvergen-

zordnung gegen lim

κ→∞aκ=√ξ. Vergleicht man Gl. (5.39) mit dem linken Term der rechten

Seite von Gl. (5.37), so ist zu erkennen, dass die Norm der iterativ berechneten Filterkoeffi-

zienten durch das Newton-Verfahren auf dem Wert Cgehalten werden bzw. in einer nahen

Umgebung von diesem. Dieses Verhalten f¨

uhrt zu einer erh¨

ohten Stabilit¨

at im Vergleich zu

Gl. (5.32), was durch Simulationen zum Konvergenzverhalten in [WHU05] gezeigt werden

konnte (siehe auch Anhang E.2).

5.1.5 RLS-¨

Ahnliche Konvergenz

Mit der Voraussetzung ˆ

1,κ−1ˆ

v1,κ−1=C2= 1 soll eine Betrachtung zur Konvergenzbeschleu-

nigung mittels iterationsabh¨

angiger Schrittweite folgen. Diese Betrachtung ist angelehnt an

die rekursive Kleinste-Quadrate-Methode (engl. Recursive Least Squares, RLS) [Yan95, DK96,

CA03]. ¨

Ublicherweise wird beim RLS-Algorithmus ein gew¨

unschtes Signal durch ein Eingangs-

signal mittels Transversalfilterung rekonstruiert. Im Falle der Bestimmung des gesuchten Ei-

genvektors bedeutet dies jedoch, dass ˆ

v1,κˆ

1,κXdas Eingangssignal Xso gut wie m¨

oglich

rekonstruiert. Daher lautet die Kostenfunktion anstatt dessen

J(ˆ

v1,κ) = E||X−ˆ

v1,κ ˆ

1,κX||2≃

i=1

ακ−i||Xi−ˆ

v1,κˆ

1,κXi||2,(5.40)

9Das Newtonsche N¨

aherungsverfahren wird auch Newton-Raphsonsche Methode genannt.

10Das Babylonische Wurzelziehen ist auch bekannt als Heronverfahren nach Heron von Alexandria. Es kann

sehr effizient auf digitalen Signalprozessoren eingesetzt werden [AL05].

80 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

wobei αeinen Gl¨

attungsfaktor darstellt mit 0 < α ≤1. Benutzt man die Projektionsappro-

ximation ˆ

1,κXi≈Yil¨

asst sich schließlich schreiben

J′(ˆ

v1,κ) =

i=1

ακ−i||Xi−ˆ

v1,κYi||2.(5.41)

Der zu Null gesetzte Gradientenvektor von Gl. (5.41) ergibt die optimalen Filterkoeffizienten

v1,κ =ˆ

ΦXY,κ ˆ

φ−1

Y Y,κ,(5.42)

wobei

ΦXY,κ =

i=1

ακ−iXiY∗

i=αˆ

ΦXY,κ−1+XκY∗

κ,(5.43)

φY Y,κ =

i=1

ακ−iYiY∗

i=αˆ

φY Y,κ−1+YκY∗

κ.(5.44)

und die Startwerte definiert sind zu

ΦXY,0:= 0ˆ

φY Y,0:= 0.(5.45)

Mit der rekursiven Berechnung von ˆ

φ−1

Y Y,κ und ˆ

ΦXY,κ mittels Matrix Inversion Lemma und

der allgemeinen Vorgehensweise zur Bestimmung der RLS-Filterkoeffizienten nach [Hay02]

kann schließlich geschrieben werden

v1,κ =ˆ

v1,κ−1+ˆ

φ−1

Y Y,κY∗

κ(Xκ−Yκˆ

v1,κ−1).(5.46)

Gl. (5.46) zeichnet sich durch den iterationsabh¨

angigen Faktor ˆ

φ−1

Y Y,κ aus, welcher als

iterationsabh¨

angige Schrittweite interpretiert werden kann. Bei der Wahl von 0 < α < 1

verschwindet diese f¨

ur große κ, da ˆ

φY Y,κ in Gl. (5.44) stetig anw¨

achst. Dies ist zwar f¨

ur die

asymptotische Konvergenz w¨

unschenswert, f¨

ur die Anwendung zum akustischen Beamforming

jedoch ungeeignet. Hier ist ja gerade das Verfolgen eines sich ¨

andernden Eigenvektors v1

w¨

unschenswert. Weitere Untersuchungen bez¨

uglich der Schrittweite sind im Anhang E.2 zu

finden.

Als Fazit der Ergebnisse Gl. (5.36), Gl. (5.37), Gl. (5.46) und Gl. (E.11) k¨

onnen zwei

Algorithmen f¨

ur das stochastische Gradientenverfahren angegeben werden; zur L¨

osung des

speziellen Eigenwertproblems mittels Gradientenverfahren und gleichm¨

aßiger Gewichtung (S-

Grad-GG):

5.1. Spezielles Eigenwertproblem 81

Algorithmus 3 (S-Grad-GG) Es gilt ˜µ−1

0:= 0. W¨

ahle die Fenstergr¨

oße N, eine Gl¨

attungs-

konstante α, den Schrittweitefaktor ρ, den Constraint Cund einen Startvektor ˆ

v1,0∈CM. Berechne f¨

κ= 1,2, . . .

Yκ:= ˆ

1,κ−1Xκ

˜µ−1

κ:= α˜µ−1

κ−1+ (1 −α)|Yκ|2

µκ:= ˜µκρC2

Φ(GG)

XX,κ := 8

κ−1

κˆ

Φ(GG)

XX,κ−1+1

κXκXH

κfalls 1≤κ≤N

Φ(GG)

XX,κ−1+1

N`XκXH

κ−Xκ−NXH

κ−N´sonst

Q:= ˆ

1,κ−1ˆ

v1,κ−1

a:= ˆ

Φ(GG)

XX,κ ˆ

v1,κ−1

v1,κ := C2+Q

2Qˆ

v1,κ−1+µκ a−ˆ

1,κ−1a

Qˆ

v1,κ−1!

sowie f¨

ur das spezielle Eigenwertproblem mittels Gradientenverfahren und instantaner Sch¨

at-

zung der Kreuzleistungsdichten (S-Grad-IS):

Algorithmus 4 (S-Grad-IS) Es gilt ˜µ−1

0:= 0. W¨

ahle die Gl¨

attungskonstante α, den Schrittwei-

tefaktor ρ, den Constraint Cund einen Startvektor ˆ

v1,0∈CM. Berechne f¨

ur κ= 1,2, . . .

Yκ:= ˆ

1,κ−1Xκ

˜µ−1

κ:= α˜µ−1

κ−1+ (1 −α)|Yκ|2

µκ:= ˜µκρC2

Q:= ˆ

1,κ−1ˆ

v1,κ−1

v1,κ := C2+Q

2Qˆ

v1,κ−1+µκY∗

κ„Xκ−Yκ

Qˆ

v1,κ−1«.

Der Parameter C2aus der Randbedingung ist wegen der Allgemeinheit eingef¨

uhrt und

der Faktor ρ, mit 0,05 < ρ < 0,5 soll die Sicherstellung der Konvergenz gew¨

ahrleisten.

5.1.6 Simulationen zum speziellen Eigenwertproblem

In diesem Abschnitt werden die Konvergenzgeschwindigkeiten des neuen Gradientenverfah-

rens und der Potenzmethode mit simulierten akustischen Eingangsdaten miteinander vergli-

chen. Das betrachtete Quellsignal hat hier eine zeitliche L¨

ange von ca. 4 Sekunden und wird

nach Szenario-1 f¨

ur M= 5 Mikrophonsignale erzeugt. Mit einer Blockl¨

ange von L= 256

und einem Vorschub von B= 128 ergibt dies lx= 382 zu verarbeitende Bl¨

ocke. Zu beachten

ist hierbei, dass die Sprache nach einer sehr kurzen Pause von 0,15 Sekunden, also von 14

Bl¨

ocken einsetzt.

Zun¨

achst erfolgt eine Untersuchung von Algorithmus 1 (S-PM-GG) und Algorithmus 3

(S-Grad-GG) hinsichtlich des relativen Fehlers der gesch¨

atzten Filterkoeffizienten zu dem

wahren Koeffizientenvektor und des erreichten SNRs. F¨

ur beide Verfahren gilt N > lx, so

dass ¨

uber die gesamte L¨

ange eine gleichgewichtete Gl¨

attung der Kreuzleistungsdichten er-

folgt. Weiterhin gilt jeweils f¨

ur die Initialisierung ˆ

v1,0= 1/√5·(1,1,1,1,1)T. Bei dem

Gradientenverfahren wurde C= 1, α= 0,98 und ρ= 0,1 gesetzt. Nun soll auch wieder die

Schreibweise mit der diskreten Frequenzkomponente Ωkf¨

ur die Vektoren verwendet werden.

Zu jedem Iterationszeitpunkt wird f¨

ur das aktuell gesch¨

atzte ˆ

Φ(GG)

XX,κ(Ωk) der wahre gesuchte

82 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

Eigenvektor v1,κ(Ωk) bestimmt. Dieses optimale Verfahren wird mit (S-Opt-GG) gekenn-

zeichnet. Dadurch l¨

asst sich ein relativer Fehler pro Frequenzkomponente definieren zu

e(ˆ

v1,κ(Ωk)) = 

v1,κ(Ωk)

v1,1,κ(Ωk)−ˆ

v1,κ(Ωk)

ˆv1,1,κ(Ωk)·

v1,κ(Ωk)

v1,1,κ(Ωk)

−1

.(5.47)

Damit der Fehler eindeutig ist, wurden die Vektoren in Gl. (5.47) jeweils auf die erste Kom-

ponente ˆv1,1,κ(Ωk) bzw. v1,1,κ(Ωk) normiert. ¨

Uber alle Frequenzen gemittelt ergibt sich dann

der mittlere Fehler

¯e(ˆ

v1,κ) = 1

k=1

e(ˆ

v1,κ(Ωk)).(5.48)

Da das letztendlich wahrgenommene Ergebnis des akustischen Beamformings nicht der

relative Fehler Gl. (5.48) ist, sondern die Verbesserung des Sprachsignals, soll noch ein fre-

quenzabh¨

angiger asymptotischer SNR-Gewinn nach der Filterung definiert werden

SNRGκ(Ωk) = ˆ

1,κ(Ωk)ˆ

Φ(GG)

SS,ls(Ωk)ˆ

v1,κ(Ωk)

1,κ(Ωk)ˆ

Φ(GG)

NN,lx(Ωk)ˆ

v1,κ(Ωk)·Spur{ˆ

Φ(GG)

NN,lx(Ωk)}

Spur{ˆ

Φ(GG)

SS,ls(Ωk)}

.(5.49)

In Gl. (5.49) ist mit ˆ

Φ(GG)

SS,ls(Ωk) die Matrix der Kreuzleistungsdichten des reinen Sprachsignals

bezeichnet, die ¨

uber lsBl¨

ocke gleichm¨

aßig gewichtet ermittelt wurde. Entsprechend Gl. (5.48)

ergibt sich ein asymptotischer SNR-Gewinn gemittelt ¨

uber alle Frequenzen

SNRGκ:= 10 ·log10 1

k=1

SNRGκ(Ωk)!dB.(5.50)

In Bild 5.1 sind beispielhafte Verl¨

aufe f¨

ur den Fehler Gl. (5.48) und den asymptotischen

SNR-Gewinn Gl. (5.50) f¨

ur den Fall von lediglich unkorreliertem, weißen Rauschen als St¨

or-

signal mit einem SNR pro Eingangssignal von 25dB dargestellt. In Bild 5.1 (a) und (b) sind

diese Verl¨

aufe f¨

ur eine Nachhallzeit von T60 = 0,05s und in Bild 5.1 (c) und (d) f¨

ur T60 = 0,5s

zu sehen.

Wird dem mehrkanaligen Sprachsignal noch diffuses Tiefpassrauschen mit einem SNR

von 5dB ¨

uberlagert, so sind die Ergebnisse in Bild 5.2 zu erreichen. An den repr¨

asentativen

Verl¨

aufen in den Bildern 5.1 und 5.2 ist klar zu erkennen, dass der gesuchte Eigenvektor

gefunden wird, und das schon nach wenigen Iterationsschritten. Da zu Beginn erst einige Si-

gnalbl¨

ocke zur Sch¨

atzung der Kreuzleistungsdichten ben¨

otigt werden, ergibt sich ein gewisser

Einschwingvorgang, der jeweils besonders an dem Fehler ¯e(ˆ

v1,κ) zu erkennen ist. F¨

ur die Po-

tenzmethode liegen die Kurven f¨

ur den asymptotischen SNR-Gewinn nahezu auf den optimal

ermittelten Verl¨

aufen. Bei dem Gradientenverfahren ist eine kleine Verz¨

ogerung zu erkennen,

die jedoch bei der gew¨

ahlten Abtastrate und Blockl¨

ange im Bereich von unter 100ms liegt.

Als letztes sollen noch Verl¨

aufe zur Konvergenzgeschwindigkeit pr¨

asentiert werden, wel-

che nicht aus einer gleichm¨

aßig gewichteten Sch¨

atzung der Matrix ˆ

ΦXX,κ(Ωk) hervorgehen,

sondern f¨

ur die Potenzmethode aus einer exponentiellen Gl¨

attung nach Algorithmus 2 (S-PM-

EG) und f¨

ur das Gradientenverfahren durch eine instantane Sch¨

atzung nach Algorithmus 4

(S-Grad-IS). Das zugrundeliegende Sprachsignal soll aus zwei Sequenzen bestehen. F¨

ur die

erste ist die Sprecherrichtung wieder 45◦wie in den Experimenten f¨

ur die Bilder 5.1 und 5.2.

In der zweiten Sequenz wechselt die Sprecherrichtung nach einer sehr kurzen Pause auf 0◦.

5.1. Spezielles Eigenwertproblem 83

100 200 300

(a)

¯e(ˆ

v1,κ)

T60 = 0,05s

S-PM-GG

S-Grad-GG

100 200 300

(b)

SNRGκ[dB]

T60 = 0,05s

S-PM-GG

S-Opt-GG

S-Grad-GG

100 200 300

(c)

¯e(ˆ

v1,κ)

T60 = 0,5s

S-PM-GG

S-Grad-GG

100 200 300

(d)

SNRGκ[dB]

T60 = 0,5s

S-PM-GG

S-Opt-GG

S-Grad-GG

Bild 5.1: Mittlerer Adaptionsfehler und SNR-Gewinn f¨

ur Algorithmus 1 (S-PM-GG) und Algorithmus 3 (S-

Grad-GG) bei unkorreliertem weißen Rauschen als St¨

orsignal.

100 200 300

(a)

¯e(ˆ

v1,κ)

T60 = 0,05s

S-PM-GG

S-Grad-GG

100 200 300

(b)

SNRGκ[dB]

T60 = 0,05s

S-PM-GG

S-Opt-GG

S-Grad-GG

100 200 300

(c)

¯e(ˆ

v1,κ)

T60 = 0,5s

S-PM-GG

S-Grad-GG

100 200 300

(d)

SNRGκ[dB]

T60 = 0,5s

S-PM-GG

S-Opt-GG

S-Grad-GG

Bild 5.2: Mittlerer Adaptionsfehler und SNR-Gewinn f¨

ur Algorithmus 1 (S-PM-GG) und Algorithmus 3 (S-

Grad-GG) bei diffusem Tiefpassrauschen und additivem unkorrelierten weißen Rauschen als St¨

orsi-

gnal.

Die Vektoren wurden wieder jeweils mit ˆ

v1,0= 1/√5·(1,1,1,1,1)Tinitialisiert und die

Werte f¨

ur die weiteren Parameter wurden wie folgt gew¨

ahlt: C= 1, α= 0,98 und ρ= 0,1.

In Bild 5.3 sind exemplarische Verl¨

aufe f¨

ur den SNR-Gewinn bei rein unkorrelierten additi-

ven St¨

orsignalen mit einem SNR von 25dB zu sehen; (a) f¨

ur eine Nachhallzeit von T60 = 0,05s

und (b) f¨

ur T60 = 0,5s. Zus¨

atzlich sind die SNR-Verl¨

aufe dargestellt, welche sich bei der op-

timalen Bestimmung der Eigenvektoren mit einer gleichm¨

aßig gewichteten Sch¨

atzung der

Matrizen ˆ

Φ(GG)

XX,κ(Ωk) ergeben, die jedoch zu Beginn der zweiten Sprachsequenz neu initia-

84 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

lisiert wurden. An den Ergebnissen in Bild 5.3 sind deutlich die Spr¨

unge zu erkennen, die

sich durch den Richtungswechsel bei κ= 380 ergeben. Beide Verfahren, Algorithmus 2 (S-

PM-EG) und Algorithmus 4 (S-Grad-IS) folgen recht gut den optimalen Verl¨

aufen, wobei f¨

Algorithmus 4 (S-Grad-IS) die Abweichung minimal gr¨

oßer ist.

200 400 600

(a)

SNRGκ[dB]

T60 = 0,05s

S-PM-EG

S-Opt-GG

S-Grad-IS

200 400 600

(b)

SNRGκ[dB]

T60 = 0,5s

S-PM-EG

S-Opt-GG

S-Grad-IS

Bild 5.3: SNR-Gewinn f¨

ur Algorithmus 2 (S-PM-EG) und Algorithmus 4 (S-Grad-IS) bei unkorreliertem wei-

ßen Rauschen als St¨

orsignal und einem Wechsel der Sprecherrichtung bei κ= 380.

Wird den beiden Sprachsequenzen zus¨

atzlich zum unkorrelierten weißen Rauschen noch

eine additive diffuse St¨

orung mit einem SNR von 5dB ¨

uberlagert, so ergeben sich die bei-

spielhaften Verl¨

aufe in Bild 5.4. Aufgrund des recht hohen St¨

oranteils im Eingangssignal sind

nun die Schwankungen bez¨

uglich des SNR-Gewinns deutlich ausgepr¨

agter. Dennoch ist gut

zu erkennen, dass beide Algorithmen dem optimalen Verlauf folgen und insbesondere auf den

abrupten Wechsel der Sprecherrichtung reagiert wird.

200 400 600

(a) κ

SNRGκ[dB]

T60 = 0,05s

S-PM-EG

S-Opt-GG

S-Grad-IS

200 400 600

(b) κ

SNRGκ[dB]

T60 = 0,5s

S-PM-EG

S-Opt-GG

S-Grad-IS

Bild 5.4: SNR-Gewinn f¨

ur Algorithmus 2 (S-PM-EG) und Algorithmus 4 (S-Grad-IS) bei diffusem Tiefpass-

rauschen und additivem unkorrelierten weißen Rauschen als St¨

orsignal und einem Wechsel der Spre-

cherrichtung bei κ= 380.

Als Fazit l¨

asst sich an dieser Stelle sagen, dass trotz der h¨

oheren Schwankungen im

SNR-Gewinn das neuartige Gradientenverfahren mit instantaner Sch¨

atzung der Kreuzleis-

tungsdichten gem¨

aß Algorithmus 4 (S-Grad-IS) ein sehr schnelles und robustes Verfahren zur

Ermittlung und Verfolgung des gesuchten Eigenvektors darstellt. Da hier keinerlei Matrix-

Operationen ben¨

otigt werden, ist die Komplexit¨

at linear in Mund somit eine Potenz gerin-

ger als die Komplexit¨

at der Potenzmethode gem¨

aß Algorithmus 2 (S-PM-EG). Ein weiterer

Vorteil ist die einfache Vermeidung von zyklischen Effekten bei der Anwendung des Gradi-

entenverfahrens, welche bisher bei der Auflistung von Algorithmus 4 (S-Grad-IS) außer acht

gelassen wurden. In der letztendlichen Implementierung zur mehrkanaligen Sprachsignalver-

besserung sind jedoch noch drei Aspekte ber¨

ucksichtigt worden [Shy92]:

•Die Mikrophonsignale werden mittels Overlap-Save-Verfahrens mit den Filterkoeffizien-

5.2. Allgemeines Eigenwertproblem 85

ten gefiltert.

•Die Subtraktion in dem Fehlerterm Xκ(Ωk)−Yκ(Ωk)/(ˆ

1,κ−1(Ωk)ˆ

v1,κ−1(Ωk))·ˆ

v1,κ−1(Ωk)

wird im Zeitbereich durchgef¨

uhrt.

•Der Gradiententerm, also die gesamte ¨

Anderung der Filterkoeffizienten von einem Ite-

rationsschritt zum n¨

achsten, wird im Zeitbereich f¨

ur die zweite H¨

alfte der Impulsant-

worten auf Null gesetzt.

5.2 Allgemeines Eigenwertproblem

In diesem Abschnitt wird die Kreuzleistungsdichtematrix der St¨

orung ΦNN beim Eigenwert-

problem mit ber¨

ucksichtigt

ΦXXvi=λiΦNNvi,(5.51)

mit den hermiteschen, positiv definiten Matrizen ΦXX,ΦNN ∈CM×M. Es soll wieder von

normierten Eigenvektoren mit ||vi|| = 1 ∀iausgegangen werden. Die Eigenwerte sind wieder-

um reellwertig und positiv, weshalb auch hier folgende Sortierung gelten soll:

λ1> λ2≥...≥λM≥0.(5.52)

Gesucht wird ein Eigenvektor v1korrespondierend zum gr¨

oßten Eigenwert λ1. Daf¨

ur sollen

im Folgenden zum einen Gradientenverfahren verwendet werden, die direkt die Matrizen

ΦXX und ΦNN ben¨

otigen. Zum anderen kommen Fixpunktverfahren zum Einsatz, welche die

Berechnung der Inversen von ΦNN voraussetzen und somit das allgemeine in ein spezielles

Eigenwertproblem umformen.

5.2.1 Potenzmethode und Projektionsapproximation

Das allgemeine Eigenwertproblem Gl. (5.51) kann in folgendes spezielles Eigenwertproblem

umgeschrieben werden

Φ−1

NNΦXXvi=λivi,(5.53)

so dass ¨

aquivalent zu Gl. (5.6) f¨

ur den gesuchten Eigenvektor gilt

Φ−1

NNΦXXv1=λ1v1(5.54)

Φ−1

NNΦXXv1

||Φ−1

NNΦXXv1|| =v1.(5.55)

Die iterative L¨

osung ergibt sich entsprechend zu

v1,κ =Φ−1

NNΦXX ˆ

v1,κ−1

||Φ−1

NNΦXX ˆ

v1,κ−1|| κ= 1,2,3,... (5.56)

mit dem Startvektor ˆ

v1,0=PM

i=1 civi, ci∈C, c16= 0. F¨

ur die Konvergenz gilt entsprechend

den ¨

Uberlegungen in Abschnitt 5.1.1, dass die Konvergenzrate wieder maßgeblich durch das

Verh¨

altnis λ2/λ1bestimmt wird und die Folge {ˆ

v1,κ}κ∈Nin Gl. (5.56) linear gegen c1/|c1|v1

konvergiert. Zus¨

atzlich zu den Startwerten cih¨

angt der Iterationsfehler von einem Iterati-

onsschritt zum n¨

achsten noch von den Eigenwerten von ΦNN ab. Je kleiner das Verh¨

altnis

zwischen dem gr¨

oßten und dem kleinsten Eigenwert der Matrix ΦNN ist, je ¨

ahnlicher ΦNN

86 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

also der Einheitsmatrix wird, desto genauer wird im Allgemeinen die N¨

aherung ˆ

v1,κ f¨

ur den

Schritt κ[Kr¨

u07].

Beim Einsatz f¨

ur das akustische Beamforming sind nun zun¨

achst die Matrizen Φ−1

NN und

ΦXX zu sch¨

atzen. F¨

ur die Inverse der St¨

orleistungsdichten soll eine rekursive Gl¨

attung11 nach

Gl. (A.29) verwendet werden. Diese Sch¨

atzung wird zu Zeitpunkten durchgef¨

uhrt, in denen

nur das St¨

orsignal an den Sensoren vorliegt. Vice versa wird ΦXX gesch¨

atzt, w¨

ahrend Sprach-

aktivit¨

at vorliegt. W¨

ahrend dieser Sequenzen erfolgt ebenfalls wechselseitig die Iteration des

gesuchten Eigenvektors. Die Sch¨

atzung ˆ

Φ−1

NN ist w¨

ahrend dieser Zeiten unver¨

andert und soll

daher keinen Iterationsindex tragen. Es sollen nun zwei Algorithmen f¨

ur die stochastische

Potenzmethode angegeben werden; zur L¨

osung des allgemeinen Eigenwertproblems mittels

Potenzmethode und gleichm¨

aßiger Gewichtung (A-PM-GG):

Algorithmus 5 (A-PM-GG) Gegeben sei ˆ

Φ−1

NN. Setze A(GG)

0:= 0. W¨

ahle die Fenstergr¨

oße N

und einen Startvektor ˆ

v1,0∈CM. Berechne f¨

ur κ= 1,2, . . .

bκ:= ˆ

Φ−1

NNXκ

A(GG)

κ:= 8

κ−1

κA(GG)

κ−1+1

κbκXH

κfalls 1≤κ≤N

A(GG)

κ−1+1

N`bκXH

κ−bκ−NXH

κ−N´sonst

a:= A(GG)

κˆ

v1,κ−1

v1,κ := a

||a||

sowie f¨

ur das allgemeine Eigenwertproblem mittels Potenzmethode und exponentieller Ge-

wichtung (A-PM-EG):

Algorithmus 6 (A-PM-EG) Gegeben sei ˆ

Φ−1

NN. Setze A(EG)

0:= 0. W¨

ahle eine Gl¨

attungskon-

stante αund einen Startvektor ˆ

v1,0∈CM. Berechne f¨

ur κ= 1,2, . . .

bκ:= ˆ

Φ−1

NNXκ

A(EG)

κ:= αA(EG)

κ−1+ (1 −α)bκXH

a:= A(EG)

κˆ

v1,κ−1

v1,κ := a

||a||

Der Rechenaufwand der Potenzmethode l¨

asst sich wiederum nach der Methode der Projek-

tionsapproximation gem¨

aß des Vorgehens in 5.1.2 reduzieren. Daf¨

ur sollen zwei Algorithmen

angegeben werden; zur L¨

osung des allgemeinen Eigenwertproblems mittels Projektionsappro-

ximation und gleichm¨

aßiger Gewichtung (A-PA-GG)

11Alternativ zur iterativen Berechnung der Inversen von ΦNN kann das allgemeine Eigenwertproblem auch

durch eine Cholesky-Zerlegung von ΦNN in ein spezielles Eigenwertproblem umgeformt werden.

5.2. Allgemeines Eigenwertproblem 87

Algorithmus 7 (A-PA-GG) Gegeben sei ˆ

Φ−1

NN. Setze p(GG)

0:= 0. W¨

ahle die Fenstergr¨

oße N

und einen Startvektor ˆ

v1,0∈CM. Berechne f¨

ur κ= 1,2, . . .

Y∗

κ:= XH

κˆ

v1,κ−1

p(GG)

κ:= 8

κ−1

κp(GG)

κ−1+1

κXκY∗

κfalls 1≤κ≤N

p(GG)

κ−1+1

N(XκY∗

κ−Xκ−NY∗

κ−N)sonst

a:= ˆ

Φ−1

NNp(GG)

v1,κ := a

||a||

sowie f¨

ur das allgemeinen Eigenwertproblem mittels Projektionsapproximation und exponen-

tieller Gewichtung (A-PA-EG):

Algorithmus 8 (A-PA-EG) Gegeben sei ˆ

Φ−1

NN. Setze p(EG)

0:= 0. W¨

ahle eine Gl¨

attungskonstante

αund einen Startvektor ˆ

v1,0∈CM. Berechne f¨

ur κ= 1,2, . . .

Y∗

κ:= XH

κˆ

v1,κ−1

p(EG)

κ:= αp(EG)

κ−1+ (1 −α)XκY∗

a:= ˆ

Φ−1

NNp(EG)

v1,κ := a

||a||

F¨

ur die Konvergenz von Algorithmus 7 (A-PA-GG) gelten prinzipiell die gleichen ¨

Uber-

legungen wie f¨

ur Algorithmus 5 (A-PM-GG).

Weitere untersuchte Verfahren f¨

ur die iterative Berechnung des Eigenvektors zum gr¨

oß-

ten Eigenwert wie z. B. das Minimierungsverfahren mittels einer Quasi-Newton-Methode

[MRP96] oder das RLS-basierte Verfahren [YXYZ06] weisen ein ¨

aquivalentes oder schlechte-

res Adaptionsverhalten als die hier gezeigten Algorithmen auf [Kr¨

u07].

5.2.2 Neuartiges Gradientenverfahren

Das im Weiteren vorgestellte Gradientenverfahren basiert auf den gleichen Herleitungsschrit-

ten wie jenes in Abschnitt 5.1.4, jedoch mit dem Unterschied, dass die Kreuzleistungsdichte-

matrix der St¨

orung mit einbezogen wird. F¨

ur das Maximierungsproblem bedeutet dies

max

vHvHΦXXvunter der Randbed. vHΦNNv=C2, C ∈R+.(5.57)

Mit dem Lagrange-Multiplikator βkann dann eine Kostenfunktion angegeben werden

J(v, β) = vHΦXXv+β(vHΦNNv−C2),(5.58)

deren Gradientenvektor

∇vJ(v, β) = 2ΦXXv+ 2βΦNNv,(5.59)

in die Iterationsgleichung f¨

ur ˆ

v1,κ mittels deterministischem Gradientenanstieg

v1,κ =ˆ

v1,κ−1+µ

2∇vJ(v, β)v=ˆ

v1,κ−1

(5.60)

einzusetzen ist. Um den Lagrange-Multiplikator zu berechnen wird nun gefordert, dass die

Nebenbedingung f¨

ur den Iterationsschritt κeingehalten bleibt

1,κΦNN ˆ

v1,κ !

=C2.(5.61)

88 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

Nach dem Einsetzen von Gl. (5.60) in Gl. (5.61) und der Verwendung von Gl. (5.59) ergibt

sich unter Vernachl¨

assigung der Terme quadratisch in µdie N¨

aherung

C2≈ˆ

1,κ−1ΦNN ˆ

v1,κ−1+µˆ

1,κ−1(ΦXXΦNN +ΦNNΦXX)ˆ

v1,κ−1

+ 2βµˆ

1,κ−1ΦNNΦNN ˆ

v1,κ−1.(5.62)

Zur k¨

urzeren Schreibweise soll die Definition

Φ(XN)=ΦXXΦNN +ΦNNΦXX (5.63)

eingef¨

uhrt werden, welche in die nach βaufgel¨

oste N¨

aherung Gl. (5.62) eingesetzt wird

β≈C2−ˆ

1,κ−1ΦNN ˆ

v1,κ−1−µˆ

1,κ−1Φ(XN)ˆ

v1,κ−1

2µˆ

1,κ−1ΦNNΦNN ˆ

v1,κ−1

.(5.64)

Unter Ausnutzung von Gl. (5.64) kann Gl. (5.60) mit Gl. (5.59) angegeben werden zu

v1,κ ="I+C2−ˆ

1,κ−1ΦNN ˆ

v1,κ−1

2ˆ

1,κ−1ΦNNΦNN ˆ

v1,κ−1

ΦNN#ˆ

v1,κ−1

+µ ΦXX ˆ

v1,κ−1−ˆ

1,κ−1Φ(XN)ˆ

v1,κ−1

2ˆ

1,κ−1ΦNNΦNN ˆ

v1,κ−1

ΦNN ˆ

v1,κ−1!.

(5.65)

Definiert man weiter

Dκ−1=I+C2−ˆ

1,κ−1ΦNN ˆ

v1,κ−1

2ˆ

1,κ−1ΦNNΦNN ˆ

v1,κ−1

ΦNN ξκ−1=ˆ

1,κ−1Φ(XN)ˆ

v1,κ−1

2ˆ

1,κ−1ΦNNΦNN ˆ

v1,κ−1

,(5.66)

so ergibt sich f¨

ur Gl. (5.65)

v1,κ =Dκ−1ˆ

v1,κ−1+µΦXX ˆ

v1,κ−1−ξκ−1ΦNN ˆ

v1,κ−1.(5.67)

Die Interpretation von Gl. (5.67) ist nun zweierlei. Zum einen sorgt die Matrix Dκ−1f¨

ur die

Einhaltung der Randbedingung und wird gerade zur Einheitsmatrix wenn diese erf¨

ullt ist.

Zum anderen bewirkt die Zielfunktion ξκ−1eine Art Steuerung der Anteile der beiden Vekto-

ren in den Klammern auf der rechten Seite von Gl. (5.67). Denn durch das positive Vorzeichen

von ΦXX ˆ

v1,κ−1strebt der Vektor in die Richtung, die ˆ

1,κ−1ΦXX ˆ

v1,κ−1maximiert. Und das

negative Vorzeichen vor dem Ausdruck ΦNN ˆ

v1,κ−1bewirkt eine Verst¨

arkung des Vektors der

Richtung, welche ˆ

1,κ−1ΦNN ˆ

v1,κ−1minimiert. Beide Ausdr¨

ucke sind bekanntlich im Gleich-

gewicht, wenn die Zielfunktion dem gr¨

oßten Eigenwert λ1und ˆ

v1,κ−1dem korrespondierenden

Eigenvektor v1entspricht.

Bei zahlreichen Experimenten hat sich herausgestellt, dass die Matrix Dκ−1zwar f¨

ur eine

sehr gute Einhaltung der Randbedingung sorgt, allerdings auch zu schwankenden Abwei-

chungen von dem optimalen Vektor f¨

uhren kann. Dieses Verhalten wird durch die drehende

Wirkung von Dκ−1verursacht, also hin zu der dominanten Komponente von ΦNN bei Un-

terschreitung der Randbedingung und entsprechend weg von der dominanten Richtung von

ΦNN bei ¨

Uberschreitung der Randbedingung. Daher wird eine heuristische ¨

Anderung von

Gl. (5.67) vorgenommen und Dκ−1ersetzt durch

Dκ−1:= C2+ˆ

1,κ−1ΦNN ˆ

v1,κ−1

2ˆ

1,κ−1ΦNN ˆ

v1,κ−1

,(5.68)

5.2. Allgemeines Eigenwertproblem 89

also durch lediglich einen Skalar der eine reine L¨

angen¨

anderung von ˆ

v1,κ−1bewirkt. Die

Verwendung von Gl. (5.68) ist motiviert durch die Erkenntnisse aus Abschnitt 5.1.4.

Als n¨

achstes soll die Bedeutung der Zielfunktion ξκ−1erl¨

autert werden. Dazu wird das

verallgemeinerte Eigenwertproblem aus Gl. (5.51) auf beiden Seiten mit ΦNN von links mul-

tipliziert und umgestellt

λi=vH

iΦNNΦXXvi

iΦNNΦNNvi

.(5.69)

F¨

ur beliebige Vektoren vin Gl. (5.69) ergibt sich an Stelle von λiein komplexwertiger Skalar,

dessen Realteil die Form

ℜvHΦNNΦXXv

vHΦNNΦNNv=vHΦ(XN)v

2vHΦNNΦNNv=ξ(v) (5.70)

annimmt und man erkennt beim Vergleich mit Gl. (5.66), dass Gl. (5.70) einen zur Zielfunktion

ξκ−1¨

aquivalenten Ausdruck darstellt. Mit dem Rayleigh Quotienten

r(v) = vHΦXXv

vHΦNNv(5.71)

kann zwar f¨

ur v=vigefolgert werden, dass ξ(vi) = r(vi) gilt, f¨

ur beliebige vist jedoch der

theoretische Zusammenhang sehr schwierig zu zeigen. Daher sollen anhand von Monte-Carlo-

Simulationen Streudiagramme (engl. Scatterplot) zur graphischen Darstellung der Wertepaare

ξ(v) und r(v) pr¨

asentiert werden. Grundlage hierf¨

ur ist wieder das Szenario-2 und die Matri-

zen ΦXX und ΦNN sollen optimal gesch¨

atzt sein. Dann kann f¨

ur zuf¨

allig gew¨

ahlte Vektoren v

der sich ergebende Wert ξ(v)¨

uber r(v) als Punkt in ein kartesisches Koordinatensystem ein-

getragen werden. In Bild 5.5 sind f¨

ur unterschiedliche Frequenzen Streudiagramme abgebildet.

Die Nachhallzeit liegt bei T60 = 0,05s und die Anzahl der zuf¨

allig gezogenen komplexen Vek-

toren betrug 1000. Das Bild 5.6 zeigt die Streudiagramme f¨

ur unterschiedliche Frequenzen bei

0,5

ξ(v)/λ1

r(v)/λ1

f,0,5kHz

0,5

ξ(v)/λ1

r(v)/λ1

f,1kHz

0,5

ξ(v)/λ1

r(v)/λ1

f,2kHz

Bild 5.5: Streudiagramme f¨

ur unterschiedliche Frequenzen ausgewertet f¨

ur das Szenario-2 mit optimal be-

stimmten Matrizen und einer Nachhallzeit von T60 = 0,05 s.

einer Nachhallzeit von T60 = 0,5s und die Anzahl der zuf¨

allig gezogenen komplexen Vektoren

betrug wieder 1000. Interessant an den beispielhaften Ergebnissen in den Diagrammen Bild

5.5 und Bild 5.6 ist, dass keine eindeutige Aussage ¨

uber den Zusammenhang von ξ(v) und

r(v) gemacht werden kann. Es lassen sich lediglich zwei Tendenzen ausmachen. Zum einen

f¨

allt die Abweichung zwischen ξ(v) und r(v) bei steigender Nachhallzeit meistens kleiner aus,

und zum anderen n¨

ahert sich ξ(v) dem Wert von r(v) in der Regel von unten an, wenn sich

der ausgewertete Vektor der dominanten Komponente v1n¨

ahert. Die Interpretationen dieser

Tendenzen ist, dass in Gl. (5.67) die Maximierung durch ΦXXˆ

v1,κ−1gegen¨

uber der Minimie-

rung mittels ξκ−1ΦNN ˆ

v1,κ−1dominiert. Und zwar um so st¨

arker, je “sch¨

arfer” der Sprecher

90 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

0,5

ξ(v)/λ1

r(v)/λ1

f,0,5kHz

0,5

ξ(v)/λ1

r(v)/λ1

f,1kHz

0,5

ξ(v)/λ1

r(v)/λ1

f,2kHz

Bild 5.6: Streudiagramme f¨

ur unterschiedliche Frequenzen ausgewertet f¨

ur das Szenario-2 mit optimal be-

stimmten Matrizen und einer Nachhallzeit von T60 = 0,5 s.

von der St¨

orquelle zu trennen ist (also f¨

ur geringe Nachhallzeiten). Bei der Iteration von ˆ

v1,κ

wird also prinzipiell die Ausgangsleistung gegeben die Statistik des Mischsignals von Sprache

und St¨

orung schneller maximiert als die Leistung des gefilterten St¨

orsignals minimiert wird.

Bez¨

uglich der Wahl der Schrittweite sind im Anhang E.2 Absch¨

atzungen aufgrund von

Simulationen zu finden. Als Ergebnis dieser Experimente soll ein Wertebereich f¨

ur eine Schritt-

weite angegeben werden:

µκ=ρ

rκ

,0,05 < ρ < 1.(5.72)

In Gl. (5.72) ist mit ρzwar ein frei w¨

ahlbarer doch w¨

ahrend der Adaption konstanter Schritt-

weitefaktor bezeichnet. Der Parameter rκstellt den Rayleigh Quotienten zum aktuellen Ite-

rationsschritt dar. Weiterhin wird die KLDS-Matrix der St¨

orung in einer normierten Version

verwendet: e

ΦNN =ˆ

ΦNN/ˆσ2

N, mit ˆσ2

N= Spur{ˆ

ΦNN}/M.

Abschließend soll ein Algorithmus zur L¨

osung des allgemeinen Eigenwertproblems mittels

Gradientenverfahren und gleichm¨

aßiger Gewichtung in zwei Varianten angegeben werden;

mit der Zielfunktion wie sie sich nach der Herleitung in Gl. (5.67) (A-Grad-GG) ergibt und

alternativ mit dem aktuellen Rayleigh Quotienten als Zielfunktion (A-RQgrad-GG):

Algorithmus 9 (A-Grad-GG) und (A-RQgrad-GG) Gegeben sei ˆ

ΦNN und somit

ΦNN =ˆ

ΦNN/ˆσ2

N. Setze ˆ

Φ(GG)

XX,0:= 0. W¨

ahle die Fenstergr¨

oße N, den Schrittweitefaktor ρ, den Constraint

Cund einen Startvektor ˆ

v1,0∈CM. Berechne f¨

ur κ= 1,2, . . .

Φ(GG)

XX,κ := 8

κ−1

κˆ

Φ(GG)

XX,κ−1+1

κXκXH

κfalls 1≤κ≤N

Φ(GG)

XX,κ−1+1

N`XκXH

κ−Xκ−NXH

κ−N´sonst

a:= ˆ

Φ(GG)

XX,κ ˆ

v1,κ−1

b:= e

ΦNN ˆ

v1,κ−1

Q:= ˆ

1,κ−1b

r:= ˆ

1,κ−1a

ξ:= (rf¨

ur Algorithmus (A-RQgrad-GG)

ℜ{ aHb

bHb}f¨

ur Algorithmus (A-Grad-GG)

v1,κ := C2+Q

2Qˆ

v1,κ−1+ρ

r(a−ξb)

F¨

ur das allgemeine Eigenwertproblem mittels Gradientenverfahren und instantaner Sch¨

at-

zung der Kreuzleistungsdichten ergibt sich (A-Grad-IS) und alternativ mit dem aktuellen

5.2. Allgemeines Eigenwertproblem 91

Rayleigh Quotienten als Zielfunktion (A-RQgrad-IS):

Algorithmus 10 (A-Grad-IS) und (A-RQgrad-IS) Gegeben sei ˆ

ΦNN und somit e

ΦNN =

ΦNN/ˆσ2

N. Setze P0:= 0. W¨

ahle die Gl¨

attungskonstante α, den Schrittweitefaktor ρ, den Constraint C

und einen Startvektor ˆ

v1,0∈CM. Berechne f¨

ur κ= 1,2, . . .

Yκ:= ˆ

1,κ−1Xκ

Pκ:= αPκ−1+ (1 −α)|Yκ|2

b:= e

ΦNN ˆ

v1,κ−1

Q:= ˆ

1,κ−1b

r:= Pκ

ξ:= (rf¨

ur Algorithmus (A-RQgrad-IS)

ℜ{YκXH

κb

bHb}f¨

ur Algorithmus (A-Grad-IS)

v1,κ := C2+Q

2Qˆ

v1,κ−1+ρ

r(Y∗

κXκ−ξb)

5.2.3 Simulationen zum allgemeinen Eigenwertproblem

Beispiele zum Konvergenzverhalten der im letzten Abschnitt vorgestellten Verfahren sollen im

Folgenden pr¨

asentiert werden. Das betrachtete Sprachsignal hat eine zeitliche L¨

ange von ca.

4 Sekunden, mit dessen Hilfe M= 5 Mikrophonsignale nach Szenario-2 f¨

ur unterschiedliche

Nachhallzeiten erzeugt werden. Das Sprachsignal f¨

allt also aus einer Richtung von 45◦und

das gerichtete Tiefpassrauschen unter einem Winkel von -20◦auf die Sensoren ein, wobei das

Tiefpassrauschen mit einem SNR von 5dB hinzugemischt wurde. Zus¨

atzlich sind den einzelnen

Signalpfaden jeweils unkorreliertes weißes Rauschen mit einem SNR pro Eingangssignal von

25dB ¨

uberlagert. Die Blockl¨

ange betr¨

agt wieder L= 256, der Vorschub B= 128 und die

Anzahl zu verarbeitenden Bl¨

ocke ergibt lx= 382.

Die untersuchten Verfahren sind zun¨

achst Algorithmus 5 (A-PM-GG), Algorithmus 7 (A-

PA-GG) und die beiden Varianten Algorithmus 9 (A-Grad-GG)/(A-RQgrad-GG). Es gilt

N > lx, so dass ¨

uber die gesamte L¨

ange eine gleichgewichtete Gl¨

attung der Kreuzleistungs-

dichten erfolgt und die Initialisierung ist zu ˆ

v1,0= 1/√5·(1,1,1,1,1)Tgew¨

ahlt. F¨

ur die

Gradientenverfahren wird e

ΦNN(Ωk) = Mˆ

ΦNN(Ωk)/Spur{ˆ

ΦNN(Ωk)}eingesetzt, wodurch

mit C= 1/32 eine Reduzierung der St¨

orleistung vom Eingang zum Ausgang um ca. 15dB

festgelegt wird. Weiterhin wurde der Schrittweitefaktor zu ρ= 0,6 gesetzt. In Bild 5.7 ist der

Fehler Gl. (5.48) und der asymptotische SNR-Gewinn Gl. (5.50) aufgetragen: in (a) und (b)

f¨

ur eine Nachhallzeit von T60 = 0,05s und in (c) und (d) f¨

ur T60 = 0,5s. Aus ¨

Ubersichtlich-

keitsgr¨

unden wird auf den Verlauf des optimalen Ergebnisses verzichtet.

An den Ergebnissen in Bild 5.7 sind drei Eigenschaften festzustellen:

•Der Unterschied zwischen dem Verfahren mit Projektionsapproximation und der Po-

tenzmethode ist sehr gering. Die Approximation Gl. (5.17) ist also zul¨

assig und f¨

uhrt

kaum zu Einbußen.

•Bei den zwei Varianten des Gradientenverfahrens ist kein wesentlicher Unterschied zu

erkennen.

•Trotz eines Fehlers ¯e(ˆ

v1,κ)6= 0 kann der SNR-Gewinn nahezu konvergiert sein.

92 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

0,5

1,5

100 200 300

(a) κ

¯e(ˆ

v1,κ)

T60 = 0,05s

A-PM-GG

A-PA-GG

A-Grad-GG

A-RQgrad-GG

100 200 300

(b) κ

SNRGκ[dB]

T60 = 0,05s

A-PM-GG

A-PA-GG

A-Grad-GG

A-RQgrad-GG

0,5

1,5

100 200 300

¯e(ˆ

v1,κ)

T60 = 0,5s

A-PM-GG

A-PA-GG

A-Grad-GG

A-RQgrad-GG

100 200 300

(d) κ

SNRGκ[dB]

T60 = 0,5s

A-PM-GG

A-PA-GG

A-Grad-GG

A-RQgrad-GG

Bild 5.7: Mittlerer Adaptionsfehler und SNR-Gewinn f¨

ur Algorithmus 5 (A-PM-GG), Algorithmus 7 (A-PA-

GG) und die beiden Varianten Algorithmus 9 (A-Grad-GG)/(A-RQgrad-GG) bei gerichtetem Tief-

passrauschen und additivem unkorrelierten weißen Rauschen als St¨

orsignal.

•F¨

ur die Gradientenverfahren stellt sich eine schnellere Konvergenz mit steigender Nach-

hallzeit ein.

Um einer sich ¨

andernden Statistik zu folgen – hervorgerufen etwa durch einen sich bewe-

genden Sprecher – ist wieder beim Einsatz f¨

ur das akustische Beamforming von der gleichge-

wichteten Gl¨

attung abzusehen. Es wird daher die exponentielle Gl¨

attung f¨

ur die Potenzme-

thode Algorithmus 6 (A-PM-EG) und f¨

ur die Projektionsapproximation aus Algorithmus 8

(A-PA-EG) verwendet. F¨

ur die beiden Gradientenverfahren kommt die instantane Sch¨

atzung

in Algorithmus 10 (A-Grad-IS)/(A-RQgrad-IS) zum Einsatz. Das zugrundeliegende Sprach-

signal soll aus zwei Sequenzen bestehen. F¨

ur die erste ist die Sprecherrichtung wieder 45◦

wie in den Experimenten in Bild 5.7, und in der zweiten Sequenz wechselt die Sprecher-

richtung nach einer sehr kurzen Pause auf 0◦. Die Initialisierung der Vektoren wurde zu

v1,0= 1/√5·(1,1,1,1,1)Tgew¨

ahlt und die Werte der weiteren Parameter betrugen

C= 1/32, α= 0,98 und ρ= 0,6. Die KLDS-Matrix der St¨

orung kam in der normierten

Form e

ΦNN(Ωk) = Mˆ

ΦNN(Ωk)/Spur{ˆ

ΦNN(Ωk)}zum Einsatz. Exemplarische Ergebnisse

dieser Anordnung sind in Bild 5.8 dargestellt; links f¨

ur eine Nachhallzeit von T60 = 0,05s

und rechts f¨

ur T60 = 0,5s. Es zeigt sich hierbei ein deutlicher Unterschied zwischen den

Gradientenverfahren und den Fixpunktalgorithmen. Obschon die Schrittweite f¨

ur die Gradi-

entenverfahren relativ hoch gew¨

ahlt wurde, ist die Konvergenzgeschwindigkeit im Vergleich

zur Potenzmethode und dem Verfahren mit Projektionsapproximation signifikant geringer,

insbesondere bei niedrigen Nachhallzeiten. Wird zus¨

atzlich zur gerichteten St¨

orung noch dif-

fuses Rauschen hinzuaddiert, so f¨

allt der Unterschied im Konvergenzverhalten umso geringer

aus, je h¨

oher der Anteil des diffusen Rauschens im Verh¨

altnis zur gerichteten St¨

orung ist.

Abschließend l¨

asst sich bez¨

uglich der vorgestellten Verfahren zur adaptiven Berechnung

des Eigenvektors korrespondierend zum gr¨

oßten Eigenwert eines allgemeinen Eigenwertpro-

blems folgern, dass zwar die Komplexit¨

at O(M2) f¨

ur die Potenzmethode und die Gradien-

5.2. Allgemeines Eigenwertproblem 93

200 400 600

(a) κ

SNRGκ[dB]

T60 = 0,05s

A-PM-EG

A-PA-EG

A-RQgrad-IS

A-Grad-IS

200 400 600

(b) κ

SNRGκ[dB]

T60 = 0,5s

A-PM-EG

A-PA-EG

A-RQgrad-IS

A-Grad-IS

Bild 5.8: SNR-Gewinn f¨

ur Algorithmus 6 (A-PM-EG), Algorithmus 8 (A-PA-EG) und die beiden Varianten

Algorithmus 10 (A-Grad-IS)/(A-RQgrad-IS) bei einem Sprecherwechsel und station¨

arer St¨

orung be-

stehend aus gerichtetem Tiefpassrauschen und additivem unkorrelierten, weißen Rauschen .

tenverfahren gleich sind, das Adaptionsverhalten der Potenzmethode jedoch deutlich besser

ausf¨

allt. Einen geringeren Rechenaufwand erfordert der Algorithmus mittels Projektionsap-

proximation bei sehr ¨

ahnlichem Verhalten wie die Potenzmethode. Bei den beiden Varianten

des Gradientenverfahrens l¨

asst sich keine eindeutige Pr¨

aferenz aussprechen. Der gr¨

oßte Nach-

teil bei beiden Varianten liegt darin, dass ein geeigneter Schrittweitefaktor gew¨

ahlt werden

muss. Dieser Nachteil sollte dann in Kauf genommen werden, wenn ˆ

ΦNN(Ωk) ebenfalls durch

eine instantane Sch¨

atzung approximiert wird und die Rechenkomplexit¨

at dadurch um eine

Potenz geringer ausf¨

allt, also linear in Mist. In [Mor04] werden z. B. zweistufige Gradien-

tenverfahren f¨

ur den Anwendungsbereich in der Mobilfunktechnik beschrieben die auf einer

instantanen Sch¨

atzung der KLDS-Matrix der St¨

orung basieren.

Zum Einsatz der Fixpunktverfahren f¨

ur das Beamforming muss bei der letztendlichen

Implementierung im Frequenzbereich und der Nutzung des Overlap-Save-Verfahrens auf die

Vermeidung der zyklischen Faltung geachtet werden. Ein m¨

ogliches Vorgehen ist hierbei:

•Pro Verarbeitungskanal ist die Blockl¨

ange bzw. FFT-L¨

ange Lmit dem Vorschub B,

so dass Lzu filternde Spektralkomponenten anfallen, f¨

ur die also LFilterkoeffizienten

berechnet werden.

•Nach der R¨

ucktransformation der Filterkoeffizienten in den Zeitbereich werden L−

BFilterkoeffizienten pro Signalpfad herausgeschnitten, mit Nullen auf die L¨

ange L

aufgef¨

ullt und wieder in den Frequenzbereich transformiert.

Anmerkungen zu ˆ

ΦNN(Ωk) Die KLDS-Matrix kann mittels einer exponentiellen Gl¨

at-

tung in den Sprachpausen gesch¨

atzt werden. Da angenommen wird, dass sich die Statistik

der St¨

orung nur langsam ¨

andert, kann diese Sch¨

atzung auch w¨

ahrend Sprachaktivit¨

at als

g¨

ultig erachtet werden. Durch die exponentielle Gl¨

attung wird gew¨

ahrleistet, dass langsame

Anderungen von Sprachpause zu Sprachpause erfassbar sind.

Bei unkorrelierten St¨

oranteilen und bei diffusem Rauschen sind die jeweiligen Strukturen

von ΦNN(Ωk) gegeben durch die Einheitsmatrix bzw. die mit si-Termen gef¨

ullte Koh¨

arenz-

matrix. Aber diese beiden Strukturen ergeben sich erst nach der Erwartungswert-Bildung

uber eine große Menge von Eingangsdaten. Hingegen gilt f¨

ur den Anteil einer gerichteten

St¨

orung Nm(Ωk)NH

m(Ωk) = |Nc,m(Ωk)|2A(Ωk)AH(Ωk), mit A(Ωk) als ¨

Ubertragungsfunkti-

on der gerichteten St¨

orung. Jeder Block menth¨

alt somit bereits die Information ¨

uber die

Struktur von ΦNN, welcher als Beitrag in das exponentiell gegl¨

attete ˆ

ΦNN(Ωk) eingeht. Dies

94 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

bedeutet also, dass nur ein paar Bl¨

ocke f¨

ur eine gute Sch¨

atzung notwendig sind. Bei steigender

Nachhallzeit kommen bei rein gerichteten St¨

orungen noch diffuse Komponenten zu ˆ

ΦNN(Ωk)

aufgrund der dann zu kurzen Blockl¨

ange hinzu. Es sind dann also mehr Eingangsbl¨

ocke f¨

eine gute Sch¨

atzung notwendig.

Aus Robustheitsgr¨

unden sollte generell noch ein Regularisierungsterm der Gr¨

oßenord-

nung −30dB bis −40dB ¨

uberlagert werden [Bit02]: ˆ

ΦNN(Ωk) := ˆ

ΦNN(Ωk) + δσ2

N(Ωk)I, mit

0,001 < δ < 0,0001.

Anmerkungen zu ˆ

Φ−1

NN(Ωk) F¨

ur Mikrophongruppen mit wenigen Sensoren ist auch eine

direkte Inversion von ˆ

ΦNN(Ωk) am Ende einer Sprachpause denkbar. In dieser Arbeit findet

jedoch die rekursive Sch¨

atzung nach Gl. (A.29) Anwendung. Dabei kann insbesondere eine ge-

ringe Quantisierungsaufl¨

osung zu numerischen Problemen f¨

uhren. Auch hier ist mittels eines

zus¨

atzlichen Regularisierungsterms eine Steigerung der Robustheit der Sch¨

atzung ˆ

Φ−1

NN(Ωk)

zu erzielen. Allerdings muss hierf¨

ur bei der inversen Sch¨

atzung zu den Eingangsdaten ein

Rauschen hinzuaddiert werden. Eine effiziente Implementierung ist dabei im Frequenzbereich

m¨

oglich [Fis07]. In jedem Iterationsschritt wird ein M-dimensionaler, komplexer Vektor aus

einer Normalverteilung gezogen und entsprechend gewichtet zur ersten Frequenzkomponente

der Eingangsdaten hinzuaddiert. Diese Zufallswerte werden dann nach jedem Iterationsschritt

in Richtung steigender Frequenzkomponenten verschoben und zu diesen neu gewichtet hin-

zuaddiert.

Bez¨

uglich der Geschwindigkeit f¨

ur eine vertrauensw¨

urdige Sch¨

atzung gelten die gleichen

Uberlegungen wie bei der Ermittlung von ˆ

ΦNN(Ωk).

Anmerkungen zur Nichtstationarit¨

at der Sprache Es gelten die oben gemachten An-

merkungen zu ˆ

ΦNN und ˆ

Φ−1

NN, wobei an dieser Stelle wieder auf die frequenzabh¨

angige Nota-

tion verzichtet wird. Diese Matrizen sind w¨

ahrend der Adaption von ˆ

v1,κ unver¨

andert, jedoch

ist die Varianz der Sprache φScSc,κ nun abh¨

angig von dem Iterationsschritt, welcher gleich-

bedeutend mit dem Blockindex ist. Das allgemeine Eigenwertproblem kann somit formuliert

werden zu

Φ−1

NN ˆ

ΦXX,κ ˆ

v1,κ =ˆ

λ1,κˆ

v1,κ (5.73)

Φ−1

NN hφScSc,κHHH+ˆ

ΦNNiˆ

v1,κ =ˆ

λ1,κˆ

v1,κ,(5.74)

mit der aktuellen Sch¨

atzung ˆ

λ1,κ f¨

ur den gr¨

oßten Eigenwert. Weiter umgestellt folgt aus Gl.

(5.74) schließlich

Φ−1

NNHHHˆ

v1,κ =ˆ

λ1,κ −1

φScSc,κ

v1,κ,mit φScSc,κ 6= 0.(5.75)

An Gl. (5.75) ist zu erkennen, dass die Nichtstationarit¨

at der Sprache lediglich die “L¨

ange”

des gesch¨

atzten Eigenvektors ¨

andert aber nicht dessen “Richtung”. Da aber nach jedem Ite-

rationsschritt die Sch¨

atzung ˆ

v1,κ auf die Einheitsl¨

ange normiert wird, spielt diese Tatsache

f¨

ur das Beamforming keine Rolle, solange sich die Position des Sprechers – und damit die

Ubertragungsfunktion H– nicht ¨

andert.

5.3. Zusammenfassung 95

5.3 Zusammenfassung

In diesem Kapitel wurden iterative Verfahren zur Bestimmung des Eigenvektors korrespon-

dierend zum gr¨

oßten Eigenwert eines speziellen und des allgemeinen Eigenwertproblems pr¨

sentiert und miteinander verglichen. Einerseits waren dies Fixpunktverfahren wie die Potenz-

methode und der Algorithmus mittels Projektionsapproximation und andererseits eigenent-

wickelte Gradientenverfahren.

Die experimentellen Ergebnisse f¨

ur das allgemeine Eigenwertproblem bez¨

uglich der Kon-

vergenz zeigen eine ¨

Uberlegenheit der Fixpunktverfahren im Vergleich zu den Gradienten-

verfahren, insbesondere, da sie unabh¨

angig von Schrittweitefaktoren sind. Daher sollte die

Potenzmethode zum Einsatz f¨

ur das akustische Beamforming unter Ber¨

ucksichtigung der

Kreuzleistungsdichtematrix der St¨

orung pr¨

aferiert werden. Um eine Nachf¨

uhrung der Filter-

koeffizienten bei einem sich bewegenden Sprecher zu erm¨

oglichen, ist das stochastische Verfah-

ren Algorithmus 6 (A-PM-EG) mit exponentieller Gl¨

attung der KLDS-Matrix der Eingangs-

daten einzusetzen. F¨

ur die neuartige GSC-Struktur mittels adaptiver Eigenwertzerlegung in

Kapitel 8 sollte jedoch das Verfahren Algorithmus 5 (A-PM-GG) verwendet werden, da dort

von keinerlei (oder sehr geringen) Sprecherbewegungen w¨

ahrend der Adaption ausgegangen

wird.

Beim Einsatz eines Beamformers mit den optimalen Filterkoeffizienten nach dem Max-

SNR-Kriterium in einer “gem¨

aßigten” Umgebung, wenn also außer dem Sprecher keine weite-

ren dominanten Schallquellen zu erwarten sind, sollte lediglich das spezielle Eigenwertproblem

der Kreuzleistungsdichtematrix der Mikrophonsignale gel¨

ost werden. Hier zeigt das neuartige

Gradientenverfahren vergleichbare Konvergenzeigenschaften wie die Potenzmethode auf, hat

jedoch eine deutlich geringere Rechenkomplexit¨

at. Daher kann unter diesen Randbedingungen

das eigenentwickelte stochastische Gradientenverfahren Algorithmus 4 (S-Grad-IS) eingesetzt

werden. Dieses ist als Erweiterung der bekannten Adaptionsregel nach Oja anzusehen, jedoch

im Vergleich zu dieser weist das neue Verfahren eine signifikante Steigerung der Robustheit

bez¨

uglich der Stabilit¨

at auf, was in den vergleichenden Analysen im Anhang gezeigt werden

konnte.

96 Kapitel 5. Adaptive L¨

osung des Eigenwertproblems

Kapitel 6

Einkanaliges Nachfilter f¨

ur das

Eigenvektor-Beamforming

In Kapitel 4 wurde gezeigt, dass unterschiedliche Optimierungskriterien zu statistisch optima-

len Filterkoeffizienten f¨

uhren, welche sich nur in einem skalaren Faktor unterscheiden. Hierbei

zeigt das Max-SNR-Kriterium insbesondere den Vorteil, dass keinerlei Wissen ¨

uber die geome-

trische Anordnung zur Bestimmung der Filterkoeffizienten notwendig ist. Diese Koeffizienten

k¨

onnen ¨

uber adaptive Algorithmen zur L¨

osung eines Eigenwertproblems im Frequenzbereich,

wie sie in Kapitel 5 vorgestellt wurden, berechnet werden. Es ergibt sich also der iterativ

bestimmte Vektor

v1(Ω) = ˜

FSNR(Ω) = ζ(Ω)FSNR(Ω), ζ(Ω) ∈C.(6.1)

Die Filterung der mehrkanaligen Eingangsdaten mit einem Eigenvektor korrespondierend zum

verallgemeinerten Eigenwertproblem wird als Generalized Eigenvector (GEV) Beamforming

bezeichnet. Bei der Filterung der Eingangsdaten mit einem Eigenvektor korrespondierend zum

speziellen Eigenwertproblem hingegen wird hier von Principal Component Analysis (PCA)

Beamforming gesprochen.

Da die Maximierung des frequenzabh¨

angigen Schmalband-SNRs im Allgemeinen zu Ver-

zerrungen des breitbandigen Sprachsignals f¨

uhrt, sollen in diesem Abschnitt Verfahren vor-

gestellt werden, welche ebendiese Verzerrungen deutlich reduzieren k¨

onnen. Dabei liegt die

Grundidee darin, die Filterkoeffizienten mit w(Ω) so zu normalisieren, dass sie denen des

GMVDR Beamformers n¨

aherungsweise entsprechen:

w(Ω)ˆ

v1(Ω) ≈FGMVDR(Ω), w(Ω) ∈R.(6.2)

Da also diese Normalisierung f¨

ur jeden Verarbeitungszweig durchgef¨

uhrt wird, kann auch

synonym von einer einkanaligen Nachfilterung gesprochen werden.

F¨

ur den GMVDR Beamformer ist das explizite Wissen der Raum¨

ubertragungsfunktion

notwendig. Die im folgenden beschriebenen Normalisierungsverfahren nutzen jedoch das im-

plizit in den Filterkoeffizienten FSNR(Ω) = Φ−1

NN(Ω)H(Ω) steckende Wissen ¨

uber die Raum-

ubertragungsfunktion aus.

Vorgestellt werden sollen drei m¨

ogliche Methoden zur Realisierung des Nachfilters1w(Ω)

[WHU06a, WHU07]: eine analytische N¨

aherung f¨

ur den Fall perfekt ermittelter Eigenvekto-

1Bei den in dieser Arbeit vorgestellten Verfahren soll versucht werden, die enthallende Wirkung des Be-

98 Kapitel 6. Einkanaliges Nachfilter f¨

ur das Eigenvektor-Beamforming

ren, und zwei weitere Verfahren, die auf Eigenschaften der Richtcharakteristik des Beamfor-

mers beruhen. Letztere zeichnen sich dadurch aus, dass nicht zwangsl¨

aufig von konvergierten

Filterkoeffizienten ausgegangen wird.

6.1 Analytische Normalisierung

Um ein unverzerrtes Sprachsignal am Ausgang des Beamformers zu erhalten, muss f¨

ur die

Gesamt¨

ubertragungsfunktion bestehend aus dem Koeffizientenvektor ˆ

v1und aus der Raum-

ubertragungsfunktion2H(Ω) von der Quelle zu den Sensoren gelten

|w∗

opt(Ω)ˆ

1(Ω)H(Ω)|= 1 (6.3)

mit dem optimalen Nachfilter3

|wopt(Ω)|=

1(Ω)H(Ω)(6.4)

=|ζ(Ω)|

1(Ω)ΦNN(Ω)ˆ

v1(Ω).(6.5)

Offensichtlich ist weder der Vektor H(Ω) in Gl. (6.4) noch der Skalar ζ(Ω) in Gl. (6.5) bekannt.

Daher wird nun zun¨

achst der Ausdruck ΦNN(Ω)ˆ

v1(Ω) betrachtet

||ΦNN(Ω)ˆ

v1(Ω)||2=|ζ(Ω)|2||H(Ω)||2(6.6)

und folgende N¨

aherung hinzugenommen

||H(Ω)||2≈ ||d(Ω, θt)||2=M, (6.7)

mit dem Steering Vektor d(Ω, θt) aus Gl. (3.34) f¨

ur ein linear und ¨

aquidistant angeordnetes

Array. Die N¨

aherung Gl. (6.7) ist motiviert durch die Tatsache, dass bei kurzen Filterl¨

an-

gen des GEV Beamformers sich bez¨

uglich des Nutzsignals im Wesentlichen ein Ausgleich

der Laufzeitdifferenzen der direkten Ausbreitungpfade ausbildet. Das Nachfilter, welches sich

analytisch aus Gl. (6.5) und Gl. (6.6), sowie mit Hilfe der N¨

aherung Gl. (6.7) angeben l¨

asst,

soll als blinde analytische Normalisierung (BAN) bezeichnet werden:

wBAN(Ω) = ||ˆ

1(Ω)ΦNN(Ω)||

1(Ω)ΦNN(Ω)ˆ

v1(Ω) ·√M.(6.8)

Der Begriff “analytisch” soll darauf hinweisen, dass hier eine geschlossene L¨

osung bzw. N¨

ahe-

rung angegeben werden kann, im Gegensatz zu den noch folgenden Verfahren. “Blind” ist die

Normalisierung Gl. (6.8) aufgrund der Tatsache, dass keine Informationen ¨

uber die Position

von den Mikrophonen bzw. den akustischen Quellen enthalten ist. Aufgrund der analytisch zu

amformings beizuhalten. Im Gegensatz dazu wurde in [HUKW08] eine Methode vorgeschlagen, bei der eine

Normalisierung auf das Sprachsignal eines Signalpfades hin erfolgt. Die Halleigenschaften dises Pfades sind

dann am Ausgang des Beamformers wiederzufinden.

2Es soll nochmal darauf hingewiesen werden, dass im Abschnitt 3.1 die vereinfachte Schreibweise H(Ω) :=

H(Ω,ps,p1, ..., pM) f¨

ur die mehrkanalige Raum¨

ubertragungsfunktion eingef¨

uhrt wurde, in der die Abh¨

angig-

keit von der Position der Schallquelle psund der Mikrophone piim Raum aus ¨

Ubersichtlichkeitsgr¨

unden

vernachl¨

assigt ist. Außerdem ergeben sich folglich adaptiv berechnete Filterkoeffizienten, die ebenfalls von den

geometrischen Daten abh¨

angen.

3An die Phase der herzuleitenden Nachfilter soll keinerlei Bedingung gestellt werden.

6.2. Statistische Normalisierung 99

berechnenden Normalisierungsfaktoren wBAN(Ω) stellt dieser Nachfilterungsalgorithmus zwar

ein relativ einfaches Verfahren dar. Der wesentliche Nachteil liegt jedoch in der Tatsache, dass

die Koeffizienten ˆ

v1(Ω) exakt bestimmt worden sein m¨

ussen, damit Gl. (6.6) zutrifft. Bei dem

realen Einsatz des GEV Beamformers ist diese Bedingung jedoch aufgrund zeitver¨

anderlicher

Verh¨

altnisse nicht immer gew¨

ahrleistet.

6.2 Statistische Normalisierung

Es soll nun wieder von den optimalen Faktoren aus Gl. (6.4) ausgegangen werden, allerdings

jedoch f¨

ur eine Freifeld-Anordnung

|wopt(Ω)|˛

θt=θs

H(Ω) = d(Ω, θs)

=

1(Ω)d(Ω, θs).(6.9)

Da ein blindes Beamforming realisiert werden soll, ist die Richtung θsals unbekannt

anzunehmen. Daher wird hier ein statistisch motivierter Ansatz zur Sch¨

atzung der Sprecher-

richtung bzw. der Normalisierungskoeffizienten vorgeschlagen:

wBSN(Ω) = 1

π/2

−π/2

p(θ; Ω)|ˆ

1(Ω)d(Ω, θ)|dθ

.(6.10)

F¨

ur die blinde statistische Normalisierung (BSN) Gl. (6.10) ist eine frequenzabh¨

angige Wahr-

scheinlichkeitsdichtefunktion p(θ; Ω) bez¨

uglich der gesuchten Sprecherrichtung eingef¨

uhrt.

Optimaler Weise sollte die Wahrscheinlichkeitsdichtefunktion gleich der entsprechend ver-

schobenen Delta-Distribution4sein p(θ; Ω) = δ(θ−θs), wodurch dann Gl. (6.10) in Gl. (6.9)

ubergeht.

Da keine weiteren Verfahren zur Bestimmung der Sprecherrichtung verwendet werden sol-

len, wird das implizite Wissen ¨

uber die gesuchte Richtung in den Filterkoeffizienten benutzt.

Denn f¨

ur das Beampattern sollten folgende Bedingungen gelten

θs≈argmax

θ|ˆ

1(Ω)d(Ω, θ)|(6.11)

|ˆ

1(Ω)d(Ω, θs)| ≫ |ˆ

1(Ω)d(Ω, θn,i)|,∀i(6.12)

wobei θn,i die Richtung der i-ten St¨

orquelle beschreibt. So kann die r¨

aumliche ¨

Ubertragungs-

funktion selbst in normalisierter Form als Wahrscheinlichkeitsdichtefunktion dienen

p(θ; Ω) = |ˆ

1(Ω)d(Ω, θ)|

π/2

−π/2|ˆ

1(Ω)d(Ω, θ)|dθ

.(6.13)

Mit Gl. (6.13) eingesetzt in Gl. (6.10) ergibt sich schließlich f¨

ur die blinde statistische

4Die Delta-Distribution ist definiert durch δ(x) = (0 f¨

ur x6= 0

∞falls x= 0.

100 Kapitel 6. Einkanaliges Nachfilter f¨

ur das Eigenvektor-Beamforming

Normalisierung

wBSN(Ω) =

π/2

−π/2|ˆ

1(Ω)d(Ω, θ)|dθ

π/2

−π/2|ˆ

1(Ω)d(Ω, θ)|2dθ

.(6.14)

Die Bezeichnung “blind” trifft f¨

ur das BSN-Verfahren zwar nicht mehr auf die Anordnung

der Mikrophongruppe zu, da ja der Mikrophonabstand f¨

ur den Steering Vektor bekannt sein

muss. Aber die Position des Sprechers im Raum ist weiterhin nicht notwendigerweise explizit

zu bestimmen.

Es sei noch angemerkt, dass f¨

ur die Realisierung der blinden statistischen Normalisierung

die Integrale in Gl. (6.14) in Summen zu ¨

uberf¨

uhren sind und das Beampattern f¨

ur 2N+ 1

diskrete St¨

utzstellen auszuwerten ist:

wBSN(Ω) =

i=−N|ˆ

1(Ω)d(Ω, θi)|

i=−N|ˆ

1(Ω)d(Ω, θi)|2

mit θi=π

2Ni. (6.15)

6.3 Maximum-Normalisierung

Das Nachfilter Gl. (6.14) f¨

uhrt dazu, dass die resultierende r¨

aumliche ¨

Ubertragungsfunktion in

Richtung des Sprechers im Mittel f¨

ur alle Frequenzen gleich ist. Es wird also nicht auf einzelne

Werte des Beampatterns f¨

ur bestimmte Richtungen vertraut, sondern auf die Gesamtheit der

Ubertragungsfunktion. Der Nachteil liegt also in der Mitber¨

ucksichtigung von breiten Haupt-

keulen f¨

ur tiefe Frequenzen und Grating Lobes f¨

ur hohe Frequenzen. Zahlreiche experimentelle

Untersuchungen und die sehr guten Adaptionseigenschaften der Algorithmen aus dem Ab-

schnitt 5 zeigen jedoch, dass insbesondere die Annahme Gl. (6.11) recht gut eingehalten wird

(siehe auch Kapitel 7). Daher soll die instantane frequenzabh¨

angige Richtungssch¨

atzung5

θs(Ω) = argmax

θ|ˆ

1(Ω)d(Ω, θ)|(6.16)

in Gl. (6.9) eingesetzt und diese als Maximum-Normalisierung (MN) bezeichnet werden

wMN(Ω) = 1

|ˆ

1(Ω)d(Ω,ˆ

θs(Ω)|.(6.17)

Die Maximum-Normalisierung ist f¨

ur θt=ˆ

θsvergleichbar mit der impliziten Normalisie-

rung der MVDR-Filterkoeffizienten Gl. (4.33). Da jedoch die GEV-Beamformer-Koeffizienten

das Ausgangs-SNR maximieren, ist zu erwarten, dass die Sch¨

atzung ˆ

θs(Ω) fehlerbehaftet ist.

Aber f¨

ur eine explizite Sprecherrichtungsbestimmung mittels eines gesonderten Verfahrens

und dem Einsatz des MVDR Beamformers ist ebenfalls davon auszugehen, dass θtin Gl.

(4.33) nur eine gute Sch¨

atzung der gesuchten Richtung darstellt.

F¨

ur die Maximum-Normalisierung wird nicht mehr die Bezeichnung “blind” verwendet,

da eine frequenzabh¨

angige Richtungsbestimmung in Gl. (6.16) vorgenommen wird.

5Die Richtungssch¨

atzung mittels Gl. (6.16) wird durch die Maximum-Suche ¨

uber diskrete St¨

utzstellen

|ˆ

1(Ω)d(Ω, θi)|realisiert.

6.4. Simulationen zu Normalisierungsverfahren 101

6.4 Simulationen zu Normalisierungsverfahren

In diesem Abschnitt soll die Auswirkung der Normalisierungsverfahren f¨

ur das akustische Be-

amforming veranschaulicht werden. Dazu erfolgt eine Aufteilung der Problemstellung ohne

und mit Ber¨

ucksichtigung der Kreuzleistungsdichten des St¨

orschallfeldes; also in der Imple-

mentierung als PCA Beamformer f¨

ur den ersten Fall und entsprechend als GEV Beamformer

f¨

ur den zweiten Fall.

6.4.1 PCA Beamforming

F¨

ur die experimentellen Ergebnisse zur verallgemeinerten MVDR-L¨

osung in Abschnitt 4.5

sowie der Herleitung von Verfahren zur L¨

osung des speziellen Eigenwertproblems in Abschnitt

5.1 wurde nicht auf die Normierung der Filterkoeffizienten eingegangen. Bei der Betrachtung

des letztendlichen Ausgangssignals ist diese jedoch sehr wichtig und wird hier f¨

ur den PCA

Beamformer mittels BAN-Methode vorgeschlagen.

Da f¨

ur das PCA Beamforming das spezielle Eigenwertproblem gel¨

ost wird, ist die KLDS-

Matrix ΦNN(Ω) nicht ber¨

ucksichtigt bzw. kann gleich der Einheitsmatrix gesetzt werden.

Das Nachfilter wird somit zu

wBAN(Ω) = 1

qMˆ

1(Ω)ˆ

v1(Ω)

(6.18)

und folglich die PCA-Filterkoeffizienten zu

FPCA(Ω) = 1

√M

v1(Ω)

||ˆ

v1(Ω)|| ⇒FH

PCAFPCA =1

M.(6.19)

Sieht man den PCA Beamformer als “selbstjustierenden” DSB (zumindestens f¨

ur geringe

Nachhallzeiten), so ist die Normierung ¨

aquivalent zu der des DSBs in Gl. (3.31): FDSB(Ω) =

d(Ω, θt)/M, mit ||d(Ω, θt)|| =√M. Die einkanalige Nachfilterung bzw. Normalisierung Gl.

(6.19) kann bei der Verwendung von Algorithmus 3 (S-Grad-GG) oder Algorithmus 4 (S-

Grad-IS) sehr einfach durch die Wahl von C2= 1/M ohne zus¨

atzliche Rechenoperationen

realisiert werden.

Um die Resultate der Normalisierung des PCA Beamformers zu visualisieren, soll das

Beampattern f¨

ur alle relevanten Frequenzen und Winkel betrachtet werden. Dazu wurden

akustische Sprachdaten nach Szenario-1 f¨

ur M= 5 Sensoren erzeugt und mit unkorreliertem

bzw. diffusem Rauschen ¨

uberlagert. Das Sprachsignal f¨

allt also aus einer Richtung von 45◦

bez¨

uglich Broadside auf das Array ein. Die Filterkoeffizienten sind mit Hilfe von Algorithmus

3 (S-Grad-GG) mit dem Wert C2= 1/M und einer Filterl¨

ange von B= 128 bestimmt

worden.

In Bild 6.1 sind verschiedene Richtcharakteristiken des PCA Beamformers in Form einer

zweidimensionalen Darstellung von Grauwerten zu sehen. Eine hohe D¨

ampfung wird durch

die Farbe Schwarz und keine D¨

ampfung durch die Farbe Weiß charakterisiert.

Prinzipiell bildet sich bei der Verwendung des PCA Beamformers eine ¨

ahnliche Richtcha-

rakteristik wie bei einem Delay-and-Sum-Beamformer aus. Zus¨

atzlich zu der konstruktiven

Uberlagerung der Signalkomponenten welche ¨

uber die direkte Sichtverbindung auf die Mi-

krophone einfallen werden allerdings noch fr¨

uhe Reflexionen ber¨

ucksichtigt (vgl. Abschnitt

4.5). Auf den exemplarischen Darstellungen der Richtcharakteristik in Bild 6.1 sind folgende

Eigenschaften abzulesen:

102 Kapitel 6. Einkanaliges Nachfilter f¨

ur das Eigenvektor-Beamforming

Unkorreliertes Rauschen mit 25dB SNR

(a)

T60 = 0,05s

θ[◦]

Ω/(2πT) [kHz]

-90

-454590

(b)

T60 = 0,5s

θ[◦]

Ω/(2πT) [kHz]

-90

-454590

dB

-10

-20

-30

-40

Unkorreliertes Rauschen mit 25dB SNR und diffuse St¨

orung mit 5dB SNR

(c)

T60 = 0,05s

θ[◦]

Ω/(2πT) [kHz]

-90-45

4590

(d)

T60 = 0,5s

θ[◦]

Ω/(2πT) [kHz]

-90-45

4590

dB

-10

-20

-30

-40

Bild 6.1: Richtcharakteristiken des PCA Beamformers f¨

ur eine Sprecherrichtung von θs= 45 ◦und den Nach-

hallzeiten T60 = 0,05 s sowie T60 = 0,5 s. In (a) und (b) mit additivem unkorrelierten Rauschen von

25 dB und in (c) und (d) f¨

ur zus¨

atzliches diffuses Rauschen von 5 dB SNR.

•Es erfolgt eine automatische Ausrichtung auf die Sprecherrichtung θs= 45◦.

•F¨

ur kleine Nachhallzeiten wird f¨

ur alle Frequenzen die gleiche D¨

ampfung des Signals

von 0dB aus der Richtung θs= 45◦erreicht.

•Bei h¨

oheren Nachhallzeiten ist nur n¨

aherungsweise die gleiche D¨

ampfung des Signals

aus θs= 45◦aufgrund der mitber¨

ucksichtigten Reflexionen erzielbar.

•Diffuses Rauschen hat keinen signifikanten Einfluss auf das PCA Beamforming.

6.4.2 GEV Beamforming

F¨

ur den GEV Beamformer sollen zun¨

achst Richtdiagramme und anschließend erzielbare SNR-

Gewinne in Kombination mit dem perzeptuellen Sprachqualit¨

atsmaß PSM pr¨

asentiert werden.

Diese sind f¨

ur unterschiedliche geometrische Anordnungen sowie verschiedene Parameterein-

stellungen untersucht worden. Grunds¨

atzlich wird bei allen Simulationen den Eingangsdaten

jeweils weißes, r¨

aumlich unkorreliertes Rauschen mit einem SNR von 25dB hinzugef¨

ugt. Des-

6.4. Simulationen zu Normalisierungsverfahren 103

weiteren ist die Matrix der Kreuzleistungsdichten der St¨

orung immer mit einem Regularisie-

rungsterm von −40dB versehen worden.

Beampattern

Im Gegensatz zum PCA Beamformer bildet der GEV Beamformer bei Vorhandensein einer

diffusen St¨

orung im niederfrequenten Bereich eine g¨

anzlich andere Richtcharakteristik aus.

Die Hauptkeulen werden dort schmaler, wodurch die aus allen Richtungen einfallende St¨

rung besser unterdr¨

uckt werden kann; die Direktivit¨

at des Beamformers ist somit deutlich

ausgepr¨

agter. Dieses Verhalten ist an den in Bild 6.2 dargestellten Richtcharakteristiken f¨

den GEV Beamformer ohne und mit nachgeschalteten Normalisierungsverfahren zu erken-

nen. Die Anzahl der Filterkoeffizienten betr¨

agt B= 128 bei einer Verarbeitungsblockl¨

ange

von L= 2B. Die Koeffizienten wurden mit Hilfe von Algorithmus 5 (A-PM-GG) f¨

ur das

Szenario-1 mit M= 5 Mikrophonen und zus¨

atzlicher ¨

Uberlagerung von unkorreliertem so-

wie diffusem Rauschen bestimmt. An dem Beampattern f¨

ur den Fall ohne Normalisierung in

Bild 6.2 ist die entstehende Signalverzerrung aufgrund der unterschiedlichen Skalierung von

bis zu 15dB Differenz bei der Einfallsrichtung θs= 45◦erkennbar. Abhilfe verschaffen hier

alle der vorgestellten Nachfilter BAN, BSN und MN. Das recheneffizienteste Verfahren BAN

ben¨

otigt keinerlei Information ¨

uber die Array-Geometrie und die Sprecherrichtung. F¨

ur das

BSN-Verfahren ist hingegen der Abstand der Mikrophone zueinander als bekannt vorausge-

setzt. Wegen der Ber¨

ucksichtigung aller Raumrichtungen in der Normalisierung kommt es zu

einer leichten Verst¨

arkung des Sprachsignals bei den niedriegen Frequenzanteilen, was daran

zu erkennen ist, dass der maximale Wert, gekennzeichnet durch die Farbe Weiß, bei ca. 4dB

liegt. Bei der Maximum-Normalisierung wird wieder der Abstand der Mikrophone zueinan-

der ben¨

otigt. Da nun auf den maximalen Wert des Beampatterns pro Frequenzkomponente

normiert wird, ist hier keinerlei Verst¨

arkung des Signals gr¨

oßer 0dB zu beobachten.

F¨

ur eine gerichtete St¨

orung nach Szenario-2 bildet sich abh¨

angig von der Nachhallzeit

ein ausgepr¨

agtes Minimum im Beampattern an der Stelle der Einfallsrichtung des St¨

orsignals

bei θn=−20◦aus. In Bild 6.3 ist das Richtdiagramm f¨

ur den GEV Beamformer ohne

Nachfilter f¨

ur die Nachhallzeit T60 = 0,05s zu sehen. Da es sich um eine St¨

orquelle mit

Tiefpasscharakter handelt, nimmt die Auspr¨

agung des Minimums bei der Richtung −20◦

zu hohen Frequenzen hin ab und l¨

auft in das Minimum der DSB-Richtcharakteristik aus

(vgl. Bild 6.1). Im Vergleich zu dem Beampattern ohne Normalisierung in Bild 6.2 ist zu

erkennen, dass hier die resultierende Sprachverzerrung f¨

ur das Nutzsignal aus der Richtung

θs= 45◦geringer ausf¨

allt. Die D¨

ampfung der r¨

aumlichen ¨

Ubertragungsfunktion variiert bei

der Sprecherrichtung weniger stark im Vergleich zum Richtdiagramm des diffusen Rauschens

Bild 6.2.

Das Verhalten der Nachfilterungsalgorithmen f¨

ur das gerichtete Rauschen ist in Bild 6.4

an den resultierenden Richtdiagrammen f¨

ur die Nachhallzeit T60 = 0,05s in der linken Spalte

und T60 = 0,5s in der rechten Spalte zu sehen. Bei der geringen Nachhallzeit ergibt sich

jeweils ein klares Maximum an der Stelle der Sprecherrichtung, wobei hier wieder eine leichte

Verst¨

arkung f¨

ur das BSN-Verfahren von ca. 3dB auftritt. In den Richtdiagrammen f¨

ur die

hohe Nachhallzeit scheint die Richtcharakteristik etwas zu “verschwimmen”. Bei genauerer

Betrachtung sind jedoch die beiden Eigenschaften Gl. (6.11) und Gl. (6.12) zu erkennen.

Das Maximum des Beampattern liegt weiterhin in einer sehr nahen Umgebung um θsherum

104 Kapitel 6. Einkanaliges Nachfilter f¨

ur das Eigenvektor-Beamforming

(a)

Ohne Normalisierung

θ[◦]

Ω/(2πT) [kHz]

-90-454590

dB

-10

-20

-30

-40

(b)

BAN

θ[◦]

Ω/(2πT) [kHz]

-90-454590

dB

-10

-20

-30

-40

(c)

BSN

θ[◦]

Ω/(2πT) [kHz]

-90-4545

dB

-10

-20

-30

-40

(d)

θ[◦]

Ω/(2πT) [kHz]

-90-4545

dB

-10

-20

-30

-40

Bild 6.2: Richtcharakteristiken des GEV Beamformers ohne und mit unterschiedlichen Normalisierungsver-

fahren. Die Sprecherrichtung betr¨

agt θs= 45 ◦, die Nachhallzeit ist T60 = 0,05s und es wurde

unkorreliertes sowie diffuses Rauschen von 25 dB bzw. 5 dB SNR dem Sprachsignal ¨

uberlagert.

Ω/(2πT) [kHz]

θ[◦]

ohne Normalisierung

-90-454590

dB

-10

-20

-30

-40

Bild 6.3: Richtcharakteristik des GEV Beamformers ohne Nachfilter f¨

ur die Nachhallzeit vont T60 = 0,05 s.

Die Sprecherrichtung ist θs= 45 ◦und das gerichtete Tiefpassrauschen hat eine Einfallsrichtung von

θn=−20 ◦bei einem SNR von 5 dB

und an der Stelle θnergibt sich ein ausgepr¨

agtes Minimum. Wie stark sich letztendlich die

Nachfilterverfahren auf die akustische Qualit¨

at des Beamformer-Ausgangs auswirkt, soll im

Folgenden ausgewertet werden.

6.4. Simulationen zu Normalisierungsverfahren 105

Blinde Analytische Normalisierung

T60 = 0,05s

θ[◦]

Ω/(2πT) [kHz]

-90-45

4590

T60 = 0,5s

θ[◦]

Ω/(2πT) [kHz]

-90-45

4590

dB

-10

-20

-30

-40

Blinde Statistische Normalisierung

T60 = 0,05s

θ[◦]

Ω/(2πT) [kHz]

-90-454590

T60 = 0,5s

θ[◦]

Ω/(2πT) [kHz]

-90-45

4590

dB

-10

-20

-30

-40

Maximum-Normalisierung

T60 = 0,05s

θ[◦]

Ω/(2πT) [kHz]

-90-454590

T60 = 0,5s

θ[◦]

Ω/(2πT) [kHz]

-90-454590

dB

-10

-20

-30

-40

Bild 6.4: Richtcharakteristiken des GEV Beamformers mit unterschiedlichen Normalisierungsverfahren f¨

ur die

Nachhallzeiten von T60 = 0,05 s und T60 = 0,5 s. Die Sprecherrichtung betr¨

agt θs= 45 ◦und das

gerichtete Tiefpassrauschen hat eine Einfallsrichtung von θn=−20 ◦.

SNR-Gewinne und PSM-Werte f¨

ur unterschiedliche geometrische Anordnungen

F¨

ur das Szenario-2 sind die Verl¨

aufe des SNR-Gewinns in Bild 6.5 (a) und die Verl¨

aufe des

perzeptiven Qualit¨

atsmaßes in Bild 6.5 (b) jeweils ¨

uber der Nachhallzeit aufgetragen. Als

106 Kapitel 6. Einkanaliges Nachfilter f¨

ur das Eigenvektor-Beamforming

Referenz soll hier der GMVDR Beamformer dienen. F¨

ur diesen sind die Filterkoeffizienten

mit Gl. (4.28) bestimmt worden, wobei die Raum¨

ubertragungsfunktion mittels Algorithmus

1 (S-PM-GG) mit einer Blockl¨

ange von L= 256 aus den reinen Sprachdaten gesch¨

atzt6

wurde. Diese und die folgenden gemessenen Ergebnisse basieren auf konvergierten Filterko-

effizienten. Zur Ermittlung der PSM-Werte wurden nur die reinen Sprachdaten mit diesen

Filterkoeffizienten gefiltert um die Auswirkung der Nachfilteralgorithmen auf die Sprachver-

zerrung separat ohne zus¨

atzliche St¨

orger¨

ausche zu analysieren. Das reine, verhallte, mit den

GMVDR-Koeffizienten gefilterte Sprachsignal dient also jeweils als Referenzsignal. Und die

reinen, verhallten, mit den GEV-Verfahren gefilterten Sprachsignale werden jeweils als Test-

signal gegen¨

uber dem Referenzsignal verglichen.

000,2 0,4 0,6

(a)

SNRG [dB]

T60 [s]

GEV

BAN

BSN

GMVDR

00,2 0,4 0,6

0,96

0,97

0,98

0,99

(b)

PSM

T60 [s]

GEV

BAN

BSN

Bild 6.5: SNR-Gewinn in (a) und das perzeptive Qualit¨

atsmaß in (b) f¨

ur eine Sprecherrichtung von θs= 45 ◦

und einer St¨

orquelle bei θn= -20 ◦.

An dem relativ hohen SNR-Gewinn des GEV Beamformers ohne Normalisierung (be-

zeichnet mit GEV) in Bild 6.5 (a) l¨

asst sich erahnen, dass an dessen Ausgang Sprachver-

zerrungen zu erwarten sind. Genau dieses Verhalten spiegeln in der rechten Darstellung die

deutlich geringeren PSM-Werte im Vergleich zum Beamforming mit Normalisierungsverfah-

ren (bezeichnet mit BAN, BSN und MN) wieder. Werden die GEV-Filterkoeffizienten mit den

beschriebenen Nachfiltern normalisiert, so ergibt sich ein sehr ¨

ahnliches Verhalten bez¨

uglich

der St¨

orger¨

auschreduktion wie f¨

ur den GMVDR Beamformer. Die Sprachqualit¨

at l¨

asst sich

bei subjektiven H¨

ortests ebenfalls deutlich dichter den optimal gefilterten Signalen zuordnen,

als dies durch das Diagramm in Bild 6.5 (b) ausgedr¨

uckt wird. Sie kommen also in der Qua-

lit¨

at den Referenzsignalen sehr nahe, wohingegen die Filterung ohne Normalisierung je nach

spektraler Zusammensetzung der St¨

orung 7zur unkontrollierten Verst¨

arkung bzw. D¨

ampfung

einzelner Spektralkomponenten f¨

uhren kann.

Als n¨

achstes sind in Bild 6.6 die Ergebnisse f¨

ur das Szenario-3 dargestellt. Hierbei f¨

allt

das Sprachsignal von Broadside, aus einer Distanz von 0,8m, auf das Array ein. Es befindet

6Da bei dem idealisierten Fall keinerlei Rauschen dem Sprachsignal ¨

uberlagert ist, kann die BAN bei der

Bestimmung der Raum¨

ubertragungsfunktion verwendet werden.

7Bei der Potenzmethode wird nach jedem Iterationsschritt κder gesch¨

atze Vektor auf die Einheitsl¨

ange

normiert: ˆ

v1,κ

||ˆ

v1,κ|| =ζ

|ζ|

−1

NNH

qHHˆ

−2

NN H

. Im Gegensatz zu den optimalen GMVDR-Filterkoeffizienten ist hier also

zu sehen, dass ˆ

Φ−1

NN in quadrierter Form im Nenner vorkommt.

6.4. Simulationen zu Normalisierungsverfahren 107

sich eine St¨

orquelle in 1,6m Abstand zum Array und bei einer Richtung von θn= 60◦. F¨

den SNR-Gewinn des GMVDR Beamformers und des GEV Beamformers mit Filternormali-

sierung ergeben sich ¨

ahnliche Verl¨

aufe wie f¨

ur das Szenario-2 in Bild 6.5 (a). Bei dem GEV

Beamformer ohne Nachfilter sieht in Bild 6.6 (a) die Kurve jedoch anders aus: f¨

ur kleine

Nachhallzeiten ergibt sich ein leicht ¨

uberh¨

ohtes und f¨

ur hohe Nachhallzeiten ein geringf¨

ugig

kleineres SNR im Vergleich zu den anderen Verl¨

aufen. Das perzeptuelle Maß in Bild 6.6 (b)

zeigt jedoch auch hier wie schon vorher deutliche Verzerrungen in der gefilterten Sprache

an. Im Gegensatz zum vorherigen Szenario ist nun die Sprachqualit¨

at f¨

ur die Verfahren mit

normalisierten Filterkoeffizienten noch etwas angestiegen. Insbesondere ergibt sich f¨

ur das

BAN-Verfahren ¨

uber alle Nachhallzeiten und alle betrachteten Sprachbeispiele ein minimal

homogeneres Klangbild. Generell hat sich bei den Experimenten gezeigt, dass alle Nachfilter-

verfahren f¨

ur eine Broadside-Ausrichtung die besten Ergebnisse bez¨

uglich der Sprachqualit¨

liefern.

000,2 0,4 0,6

(a)

SNRG [dB]

T60 [s]

GEV

BAN

BSN

GMVDR

00,2 0,4 0,6

0,96

0,97

0,98

0,99

(b)

PSM

T60 [s]

GEV

BAN

BSN

Bild 6.6: SNR-Gewinn in (a) und das perzeptive Qualit¨

atsmaß in (b) f¨

ur eine Sprecherrichtung von θs= 0 ◦

und einer St¨

orquelle bei θn= 60 ◦.

In der Anordnung nach Szenario-4 f¨

allt das Sprachsignal wieder von Broadside, aus ei-

ner Distanz von 0,8m, auf das Array ein. Es sind nun zwei St¨

orquellen platziert: eine bei

−20◦und eine bei 60◦, jeweils in einem Abstand von 1,6m zu den Mikrophonen. Bei dieser

Anordnung sind nun deutliche Auspr¨

agungen der Sprachverzerrung des GEV Beamformings

ohne Nachfilterung bei geringen Nachhallzeiten in Bild 6.7 (b) zu beobachten. Daf¨

ur liegt der

SNR-Gewinn weit ¨

uber den Werten des SNR-Gewinns des GMVDR Beamformers. Dessen

St¨

orger¨

auschreduktion liegt insgesamt deutlich tiefer im Vergleich zu den anderen Szenarien,

da hier eine komplexere Anordnung aus zwei gerichteten St¨

orquellen vorliegt. Die BSN- und

MN-Verfahren zeigen bei dieser Anordnung f¨

ur geringe Nachhallzeiten eine Verf¨

alschung des

Sprachsignals durch eine leichte Anhebung der tiefen Frequenzkomponenten. Da bei geringen

Nachhallzeiten zwei ausgepr¨

agte Minima entstehen, bildet sich ein recht komplexes Beampat-

tern aus. Die Normalisierungsmethoden, basierend rein auf diesem Beampattern, zeigen hier

nun leichte Schw¨

achen. Hingegen arbeitet die blinde analytische Normalisierung weiterhin

sehr zuverl¨

assig und mit durchweg guten Ergebnissen.

Abschließend sollen noch explizit Ergebnisse f¨

ur den SNR-Gewinn und die resultierende

108 Kapitel 6. Einkanaliges Nachfilter f¨

ur das Eigenvektor-Beamforming

000,2 0,4 0,6

(a)

SNRG [dB]

T60 [s]

GEV

BAN

BSN

GMVDR

00,2 0,4 0,6

0,96

0,97

0,98

0,99

(b)

PSM

T60 [s]

GEV

BAN

BSN

Bild 6.7: SNR-Gewinn in (a) und das perzeptive Qualit¨

atsmaß in (b) f¨

ur eine Sprecherrichtung von θs= 0 ◦

und zwei St¨

orquellen: eine bei −20 ◦und eine bei 60 ◦.

Sprachqualit¨

at f¨

ur einen Sprecher nach Szenario-1 in einem diffusen St¨

orschallfeld pr¨

asen-

tiert werden. Das SNR am Eingang betr¨

agt dabei wieder 5dB. Die SNR-Gewinne in Bild

6.8 (a) fallen erwartungsgem¨

aß geringer aus als f¨

ur die Anordnungen mit gerichteten St¨

or-

schallquellen. Auffallend sind hier die schlechtesten Werte f¨

ur die St¨

orger¨

auschreduktion bei

dem GEV Beamformer ohne Nachfilter und die entstehenden Sprachverzerrungen bei nied-

rigen Nachhallzeiten. Auch bei dieser Anordnung zeigt wieder die BAN-Methode das beste

Leistungsverhalten der vorgestellten Nachfilterverfahren.

000,2 0,4 0,6

(a)

SNRG [dB]

T60 [s]

GEV

BAN

BSN

GMVDR

00,2 0,4 0,6

0,96

0,97

0,98

0,99

(b)

PSM

T60 [s]

GEV

BAN

BSN

Bild 6.8: SNR-Gewinn in (a) und das perzeptive Qualit¨

atsmaß in (b) f¨

ur eine Sprecherrichtung von θs= 45 ◦

und einem diffusen St¨

orschallfeld.

SNR-Gewinne und PSM-Werte f¨

ur verschiedene Parametereinstellungen

F¨

ur das Szenario-2 wird der Einfluss folgender Parameter exemplarisch untersucht: die Anzahl

der Filterkoeffizienten B, das Eingangs-SNR und die Anzahl der Mikrophone M. Daf¨

ur wird

ausschließlich der GEV Beamformer mit BAN-Methode verwendet.

Die Verl¨

aufe in Bild 6.9 zeigen die Auswirkung f¨

ur die Wahl unterschiedlicher Werte

von B∈ {64,128,256,512}. Dabei betr¨

agt die Verarbeitungsblockl¨

ange, also die L¨

ange der

6.4. Simulationen zu Normalisierungsverfahren 109

Fourier-Transformation wieder jeweils L= 2B. Das SNR am Eingang wurde auf 5dB gesetzt

und die Mikrophonanzahl betr¨

agt M= 5.

000,2 0,4 0,6

(a)

SNRG [dB]

T60 [s]

B = 64

B = 128

B = 256

B = 512

00,2 0,4 0,6

0,96

0,97

0,98

0,99

(b)

PSM

T60 [s]

B = 64

B = 128

B = 256

B = 512

Bild 6.9: SNR-Gewinn in (a) und das perzeptive Qualit¨

atsmaß in (b) f¨

ur eine variierende Filterl¨

ange Bbei

dem Szenario-2. Das SNR am Eingang betr¨

agt 5 dB und die Anzahl der Mikrophone ist M= 5.

An dem SNR-Gewinn in Bild 6.9 (a) ist eine ansteigende St¨

orger¨

auschreduktion f¨

ur gr¨

ßere Filterl¨

angen beobachtbar. Diese beruht prinzipiell auf der Tatsache, dass eine genauere

Berechnung der Matrix der Kreuzleistungsdichten der St¨

orung bei steigender Verarbeitungs-

blockl¨

ange Lm¨

oglich ist (vgl. Gl. (4.65)). Im Gegensatz dazu wird jedoch die Sch¨

atzung der

Filterkoeffizienten bei gleichzeitiger Aktivit¨

at der St¨

orung mit ansteigender Koeffizientenan-

zahl ungenauer, was sich an einer st¨

arkeren Verf¨

alschung der spektralen Zusammensetzung im

Ausgangssignal bemerkbar macht. Dieses Verhalten ist sehr gut an den fallenden PSM-Werten

f¨

ur steigende Filterl¨

angen in Bild 6.9 (b) zu erkennen. Insgesamt hat sich bei zahlreichen Expe-

rimenten eine Filterl¨

ange von B= 128 als guter Kompromiss zwischen St¨

orger¨

auschreduktion

einerseits und Sprachqualit¨

at sowie Rechenkomplexit¨

at andererseits erwiesen.

F¨

ur die Ergebnisse in Bild 6.10 variiert nun das SNR des gerichteten Tiefpassrauschens

an den Mikrophonen bei gleichbleibendem SNR des r¨

aumlich unkorrelierten weißen Rau-

schens von 25dB. Die Anzahl der verwendeten Mikrophone ist M= 5 und die Filterl¨

ange

betr¨

agt B= 128. Bei sehr geringen Nachhallzeiten ist die Steigerung der St¨

orger¨

auschreduk-

tion f¨

ur gr¨

oßere Verh¨

altnisse von r¨

aumlich korreliertem zu r¨

aumlich unkorreliertem Rauschen

ausgepr¨

agter. Dieses Verhalten kann an Gl. (4.65) abgelesen werden und wurde in Bild 4.5

mit expliziten Simulationen dargestellt. F¨

ur komplexer werdende Raumimpulsantworten bei

wachsenden Nachhallzeiten wird bei steigendem SNR die Sch¨

atzung der optimalen Filterko-

effizienten genauer. Dies ist an den leicht h¨

oheren PSM-Werten f¨

ur gr¨

oßere SNR und h¨

ohere

Nachhallzeiten in Bild 6.10 (b) abzulesen.

Das Verhalten des GEV Beamformers mit BAN-Methode ist f¨

ur eine variierende Anzahl

von verwendeten Mikrophonen M∈ {3,5,7,9}in Bild 6.11 dargestellt. Das SNR am Ein-

gang wurde auf 5dB gesetzt und die gew¨

ahlte Filterl¨

ange betr¨

agt B= 128. Hier ist nun ein

ausgepr¨

agter SNR-Gewinn f¨

ur steigende Nachhallzeiten bei der Verwendung von zus¨

atzlichen

Mikrophonen zu erkennen. Bei geringen Nachhallzeiten ist die Bildung eines Minimums der

r¨

aumlichen ¨

Ubertragungsfunktion des Beamformers schon mit nur drei Mikrophonen m¨

oglich.

110 Kapitel 6. Einkanaliges Nachfilter f¨

ur das Eigenvektor-Beamforming

000,2 0,4 0,6

(a)

SNRG [dB]

T60 [s]

0 dB

5 dB

15 dB

10 dB

00,2 0,4 0,6

0,96

0,97

0,98

0,99

(b)

PSM

T60 [s]

0 dB

5 dB

15 dB

10 dB

Bild 6.10: SNR-Gewinn in (a) und das perzeptive Qualit¨

atsmaß in (b) f¨

ur ein variierendes SNR der Mikro-

phonsignale bei dem Szenario-2. Die Filterl¨

ange betr¨

agt B= 128 und die Anzahl der verwendeten

Mikrophone ist M= 5.

000,2 0,4 0,6

(a)

SNRG [dB]

T60 [s]

M= 5

M= 3

M= 9

M= 7

00,2 0,4 0,6

0,96

0,97

0,98

0,99

(b)

PSM

T60 [s]

M= 5

M= 3

M= 9

M= 7

Bild 6.11: SNR-Gewinn in (a) und das perzeptive Qualit¨

atsmaß in (b) f¨

ur eine variierende Anzahl von ver-

wendeten Mikrophonen Mbei dem Szenario-2. Die Filterl¨

ange betr¨

agt B= 128 und das SNR der

Mikrophonsignale betr¨

agt 5 dB.

Daher sind die relativen Unterschiede im SNR Gewinn hier nicht so deutlich. Mit steigen-

der Nachhallzeit wird der Charakter des St¨

orger¨

auschfeldes immer diffuser. Damit wird die

N¨

aherung f¨

ur die St¨

orger¨

auschunterdr¨

uckung mit SNRG ≈10 log(M) dB immer zutreffender

und der relative Unterschied der Verl¨

aufe gr¨

oßer. Sehr interessant ist der Unterschied der

PSM-Verl¨

aufe f¨

ur die verschiedenen Werte Min Bild 6.11 (b). Hier ist ein umgekehrtes Ver-

halten im Gegensatz zum SNR-Gewinn erkennbar: mit steigender Anzahl der verwendeten

Mikrophone f¨

allt die gemessene Sprachqualit¨

at leicht ab. Die Erkl¨

arung daf¨

ur ist wie folgt:

je mehr Sensoren f¨

ur das Beamforming verwendet werden, umso schmaler f¨

allt die sich bil-

dende Hauptkeule pro Frequenzkomponente aus. Bei gleicher Frequenz macht sich aber eine

ungenaue Normalisierung umso st¨

arker bemerkbar, je schmaler die entsprechende Hauptkeule

ist. Da die blinde analytische Normalisierung nur eine Sch¨

atzung darstellt, machen sich also

folglich Ungenauigkeiten f¨

ur eine steigende Anzahl von Mikrophonen st¨

arker bemerkbar.

Die exemplarischen Untersuchungen verschiedener Parameter f¨

ur das Eigenvektor-Beam-

forming mit Normalisierungsverfahren f¨

uhren allgemein zu folgenden Aussagen:

6.5. Zusammenfassung 111

•Bei der moderaten Wahl der Filterl¨

ange und der Anzahl der Mikrophone ist ein blindes

Beamforming mit geringen Sprachverzerrungen bei gleichzeitig guter St¨

orger¨

auschre-

duktion m¨

oglich, insbesondere im Fall einer gerichteten St¨

orschallquelle.

•Eine kurze Filterl¨

ange von B= 128 erm¨

oglicht ausreichend genaue Sch¨

atzungen der

Raum¨

ubertragungsfunktionen bzw. ihrer Verh¨

altnisse bei simultaner Aktivit¨

at der St¨

or-

schallquellen.

•Eine eher geringe Anzahl von z. B. M= 5 Mikrophonen f¨

uhrt zu einem eher klei-

nen Einfluss von Normalisierungsfehlern und hat zus¨

atzlich den Vorteil einer geringen

Rechenkomplexit¨

at.

6.5 Zusammenfassung

In diesem Kapitel wurden einkanalige Nachfilter hergeleitet, welche eine Normalisierung

der Eigenvektorkoeffizienten pro Frequenzkomponente vornehmen. Das recheneffizienteste

Verfahren ist die blinde analytische Normalisierung (BAN), bei der im Wesentlichen eine

Matrix-Vektor-Multiplikation notwendig ist. Gleichzeitig weist dieses Verfahren die gerings-

ten Sprachverzerrungen auf. Die beiden weiteren vorgestellten Verfahren nutzen die Struktur

des Beampatterns aus, welches jedoch relativ aufwendig abgetastet werden muss: die blinde

statistische Normalisierung (BSN) normiert die Filterkoeffizienten auf einen mittleren und

die Maximum-Normalisierung (MN) auf den maximalen Wert des Beampatterns.

Da die Normalisierungsverfahren besser bei einer eher moderaten Wahl f¨

ur die Filterl¨

ange

und die Anzahl der Mikrophone funktionieren, ist die St¨

orger¨

auschreduktion f¨

ur die Anwen-

dung in R¨

aumen mit h¨

oheren Nachhallzeiten ebenfalls eher moderat. Der große Vorteil ist

jedoch eine schnelle Adaption und somit eine Verfolgung eines sich bewegenden Sprechers.

Dies wird aus einer anderen Problemstellung heraus noch in Kapitel 7 demonstriert.

Eine h¨

ohere St¨

orger¨

auschreduktion in einer aufwendigeren Struktur bei gleichzeitig kaum

noch vorhandenen Sprachverzerrungen soll am Schluss dieser Arbeit in Kapitel 8 vorgestellt

werden. Dabei ist dann aber von einer eher geringen Sprecherbewegung auszugehen, und

außerdem ist eine explizite Bestimmung der Sprecherrichtung notwendig.

112 Kapitel 6. Einkanaliges Nachfilter f¨

ur das Eigenvektor-Beamforming

Kapitel 7

Sprecherrichtungsbestimmung

Die Sprecherrichtung ist eine wichtige Information f¨

ur verschiedenste Anwendungen wie z. B.

innerhalb einer allgemeinen akustischen Szenenanalyse [SHUW07], in Audio/Video-Konferenz-

systemen [WB98, SSR01], zur Sprachsignalsegmentierung und Sprecheridentifikation [SHU06,

SHU07], f¨

ur eine multimodale Mensch-Maschine-Kommunikation [Iri97, LNO00] oder aber

zum Laufzeitausgleich in einem Generalized Sidelobe Canceller wie er im folgenden Kapitel

noch vorgestellt wird.

Nach [DSB01] k¨

onnen bestehende Lokalisationsverfahren grob in drei Kategorien unter-

teilt werden: Maximierung der Ausgangsleistung eines Beamformers durch Steuerung seiner

Richtcharakteristik (engl. Steered Response Power, SRP), Methoden, welche direkt die Zeit-

differenz der einfallenden Signale mittels Korrelationsverfahren bestimmen (engl. Time Diffe-

rence of Arrival, TDOA) und spektral hochaufl¨

osende Verfahren. F¨

ur schmalbandige Signale

ist in [Sch79] erstmals ein spektral hochaufl¨

osendes Verfahren vorgestellt, welches die Bezeich-

nung MUSIC (Multiple Signal Classification) tr¨

agt. Dieses findet seither vielfach Anwendung

in der Antennentechnik. Dabei ist eine komplette Eigenwert-Dekomposition des Signalraums

notwendig, welche insbesondere bei der Erweiterung auf breitbandige Signale wie Sprache

sehr rechenintensiv ist. F¨

ur Sprachsignale werden daher in der Regel Methoden basierend

auf SRP und TDOA eingesetzt [DSB01]. Das Prinzip dieser Verfahren und die ¨

Ubertragung

auf das Eigenvektor-Beamforming sollen im Folgenden beschrieben werden. Die Funktions-

f¨

ahigkeit der neuen Varianten wird durch experimentelle Untersuchungen f¨

ur verschiedene

Schallfelder demonstriert.

7.1 Korrelation der Mikrophonsignale

Die Idee beim TDOA-Verfahren liegt darin, die Zeitverz¨

ogerung τil zwischen zwei Signalen

xi(t) und xl(t) mittels der Kreuzkorrelation zu bestimmen

cil(τ) = Z∞

−∞

xi(t)xl(t+τ)dt, i, l ∈ {1,...,M}(7.1)

τil = argmax

τ∈D

cil(τ).(7.2)

Stellen die beiden Signale xi(t) und xl(t) die zeitkontinuierlichen Mikrophonsignale dar, so ist

mit Hilfe der geometrischen Daten der Anordnung eine Umrechnung von τil in die entspre-

chende Einfallsrichtung m¨

oglich. Dabei ist die Maximumsuche in Gl. (7.2) auf das durch die

114 Kapitel 7. Sprecherrichtungsbestimmung

geometrische Anordnung bedingte maximal m¨

ogliche Intervall Dbeschr¨

ankt. F¨

ur die Umset-

zung von Gl. (7.1) auf einem digitalen Rechner sind die abgetasteten, zeitdiskreten Signale

zu betrachten. Desweiteren ist zwecks Effizienzsteigerung die Berechnung im Frequenzbereich

sinnvoll. Zun¨

achst soll hierf¨

ur die zeitdiskrete Fourier-Transformation betrachtet werden.

In [KC76] ist eine verallgemeinerte Kreuzkorrelation (engl. Generalized Cross Correlation,

GCC) vorgestellt worden, die hier definiert wird zu

ril(n) = 1

2πZπ

−πGi(Ω)Xi(Ω)Gl(Ω)Xl(Ω)∗ejΩndΩ,(7.3)

wobei die Verschiebung nil zwischen den Signalen aus der Maximumsuche im zu D¨

aquiva-

lenten Intervall NDhervorgeht

nil = argmax

n∈ND

ril(n).(7.4)

Die Verallgemeinerung ist auf die beiden spektralen Gewichtungsfunktionen Gi(Ω) und

Gl(Ω) in Gl. (7.3) zur¨

uckzuf¨

uhren. In [KC76] wurden f¨

unf verschiedene Varianten von Gewich-

tungsfunktionen beschrieben, wovon sich zwei in praktischen Systemen durchgesetzt haben.

Eine basiert auf dem SNR des zu analysierenden Signals und wird als Maximum-Likelihood-

Gewichtungsfunktion bezeichnet [MA04]. Dabei werden diejenigen Spektralkomponenten in

Gl. (7.3) akzentuiert, die wenig Rauschen enthalten. Die h¨

aufigste Methode ist jedoch, aus-

schließlich die Phaseninformation der zu vergleichenden Signale zu nutzen. Diese Phasentrans-

formation (engl. Phase Transform, PHAT) ergibt sich durch folgende Gewichtungsfunktionen

Gi(Ω) = 1

|Xi(Ω)|, Gl(Ω) = 1

|Xl(Ω)|.(7.5)

Die Leistungsf¨

ahigkeit der PHAT-GCC wurde in zahlreichen Publikationen gezeigt und auch

mit theoretischen Grenzen basierend auf statistischen Modellen der Schallausbreitung vergli-

chen [GRT03]. Zus¨

atzlich zu den in [KC76] aufgef¨

uhrten Gewichtungsfunktionen existieren

nat¨

urlich noch weitere, je nach konkreter Anwendung. Da ja die Einfallsrichtung von Sprach-

signalen detektiert werden soll, ist z. B. in [Bra99, RYPD05] die Charakteristik von stimm-

haften Lauten in der Sprache ausgenutzt worden. Werden z. B. viele Mikrophone verteilt im

Raum angeordnet, ist es weiterhin sinnvoll, die jeweiligen Richtungssch¨

atzungen wiederum

geeignet gewichtet zu einer Positionsbestimmung zusammenzuf¨

uhren [MA04, SHUW07].

Betrachtet man nun gem¨

aß der Signalbeschreibung in Abschnitt 3.1 die Einzelkomponen-

ten, aus denen ein Signal in Gl. (7.3) besteht

Xi(Ω) = Sc(Ω)Hi(Ω) + Nc(Ω)Ai(Ω) + Nu,i(Ω),(7.6)

so sind folgende Probleme erkennbar:

•Zur Bestimmung der Einfallsrichtung des Sprachsignals, muss auch der Sprecher aktiv

sein (Sc(Ω) 6= 0). Bei einer blockweisen Verarbeitung ist also eine Auswertung f¨

ur die

Signalabschnitte vorzunehmen, in denen auch das Sprachsignal enthalten ist.

•Nach M¨

oglichkeit sollte keine weitere gerichtete Quelle aktiv sein (Nc(Ω) = 0), da sonst

auch keine zuverl¨

assige Sch¨

atzung der Sprecherrichtung erfolgen kann. Ist dies nicht si-

cherzustellen, so m¨

ussen entweder Verfahren verwendet werden, die mehrere Schallquel-

len lokalisieren k¨

onnen [DCP01], oder es ist, im Falle von gerichteten St¨

orschallquellen,

die hier im weiteren Verlauf vorgestellte Methode einzusetzen.

7.1. Korrelation der Mikrophonsignale 115

•Werden die ersten beiden Punkte eingehalten, so ergeben sich noch aufgrund des un-

korrelierten Rauschterms Ungenauigkeiten in der Richtungssch¨

atzung.

•Insgesamt h¨

angt die Genauigkeit der Sch¨

atzung von der Nachhallzeit und der Komple-

xit¨

at von H(Ω) ab. Bei geringen Nachhallzeiten und einer Sichtverbindung zwischen

den Mikrophonen und dem Mund des Sprechers sind gute Ergebnisse zu erwarten. Bei

h¨

oheren Nachhallzeiten und einem abgewendeten Kopf des Sprechers k¨

onnen auch die

Richtungen fr¨

uher Reflexionen f¨

alschlicherweise als direkter Pfad detektiert werden. Ab-

hilfe verschaffen hier große Analysefenster von bis zu mehreren hundert Millisekunden

und eine Gl¨

attung der instantanen Sch¨

atzergebnisse.

Das “ideale Eingangssignal” ist folglich bestimmt durch Xi(Ω) = Sc(Ω)Hi(Ω). Setzt man

dies in Gl. (7.3) ein und verwendet die Gewichtungsfunktionen Gl. (7.5), so erh¨

alt man

ril(n) = 1

2πZπ

−π

Hi(Ω)H∗

l(Ω)

|Hi(Ω)||Hl(Ω)|ejΩndΩ.(7.7)

Erinnert man sich nun daran, dass die Eigenvektorbestimmung in Kapitel 5 gerade implizit

eine Sch¨

atzung der Raum¨

ubertragungsfunktion bzw. derer Verh¨

altnisse durchf¨

uhrt, so ist es

naheliegend, genau diese Sch¨

atzungen in Gl. (7.7) zu verwenden. Der Vorteil dabei ist, dass

f¨

ur die adaptive, iterative Eigenvektorbestimmung mehrere Signalbl¨

ocke verwendet werden

und somit bereits implizit eine gewisse zeitliche Gl¨

attung erfolgt. Weiterhin ist auch im Falle

von gerichteten St¨

orschallquellen eine relativ gute Bestimmung der Sprecherrichtung m¨

oglich.

Bildet also der zu lokalisierende Sprecher die alleinige, bzw. dominante Schallquelle, so

kann zun¨

achst der dominante Eigenvektor v1(Ω) = ζ(Ω)H(Ω) gesch¨

atzt werden. Diese Sch¨

at-

zung ˆ

v1(Ω) = (ˆv1,1(Ω),...,ˆv1,M (Ω))Twird dann ¨

aquivalent zu Gl. (7.7) jeweils f¨

ur die Kom-

ponenten ˆv1,i(Ω) und ˆv1,l(Ω) ausgewertet

r(PCA)

il (n) = 1

2πZπ

−π

ˆv1,i(Ω)ˆv∗

1,l(Ω)

|ˆv1,i(Ω)||ˆv1,l(Ω)|ejΩndΩ.(7.8)

Die hochgestellte Bezeichnung “(PCA)” in Gl. (7.8) soll darauf hinweisen, dass die ausgewer-

teten Koeffizienten aus dem speziellen Eigenwertproblem hervorgehen. Wird hingegen das

verallgemeinerte Eigenwertproblem unter Ber¨

ucksichtigung der Matrix ΦNN(Ω) betrachtet,

so ist der dominante Eigenvektor v1(Ω) = ζ(Ω)Φ−1

NN(Ω)H(Ω) zu sch¨

atzen. Dessen Sch¨

atzung

v1(Ω) ist dann zun¨

achst von links mit ΦNN(Ω) zu multiplizieren, ˜

v1(Ω) = ΦNN(Ω)ˆ

v1(Ω), so

dass die resultierenden Komponenten von ˜

v1(Ω) = (˜v1,1(Ω),...,˜v1,M (Ω))Tf¨

ur die Auswer-

tung hergenommen werden k¨

onnen

r(GEV)

il (n) = 1

2πZπ

−π

˜v1,i(Ω)˜v∗

1,l(Ω)

|˜v1,i(Ω)||˜v1,l(Ω)|ejΩndΩ.(7.9)

Nun weist der Index“(GEV)”in Gl. (7.9) auf die vorherige Auswertung des verallgemeinerten

Eigenwertproblems hin. Durch die Ber¨

ucksichtigung von ΦNN(Ω) ist also auch eine Bestim-

mung der Sprecherrichtung m¨

oglich, obwohl weitere, gerichtete Schallquellen vorhanden sind.

Deren Statistik muss allerdings in ΦNN(Ω) erfasst worden sein.

Die gesch¨

atzte Sprecherrichtung folgt f¨

ur die PCA- und GEV-basierte Kreuzkorrelation

aus der gleichen Vorschrift zur Maximumsuche wie in Gl. (7.4).

116 Kapitel 7. Sprecherrichtungsbestimmung

7.2 Abtastung der Richtcharakteristik

Bereits in [BS73, HT73] ist das Prinzip beschrieben, einen Beamformer in verschiedene Rich-

tungen zu steuern und nach Maxima in der Ausgangsleistung zu suchen. Die Richtung korre-

spondierend zu dem absoluten Maximum kann dann als die Einfallsrichtung der dominanten

Quelle kategorisiert werden.

Die Ausgangsleistung eines gesteuerten Filter-and-Sum-Beamformers, abh¨

angig von der

betrachteten Einfallsrichtung θ, kann geschrieben werden als

P(θ) = Zπ

−π

i=1

Gi(Ω)Xi(Ω)ejΩni(θ)

dΩ (7.10)

wobei ni(θ) in Gl. (7.10) die richtungsabh¨

angige Verschiebung am i-ten Mikrophon gegen¨

uber

einer Referenz, z. B. n1(θ) = 0 beschreibt und Gi(Ω) die spektrale Gewichtung des i-ten

Signalpfades. Die Sch¨

atzung der Sprecherrichtung ˆ

θsfolgt aus der Maximumsuche

θs= argmax

P(θ).(7.11)

Man erkennt, dass die Vektorschreibweise der komplex konjugierten Exponentialterme in

Gl. (7.10) gerade den Steering Vektor d(Ω, θ) ergibt. Setzt man eine Gleichgewichtung von

Gi(Ω) = 1/M ∀ian, so resultiert der Uniformly Weighted Beamformer aus Abschnitt 3.3,

welcher in dieser Arbeit auch synonym als DSB bezeichnet wird. Die einfachste Realisierung

der SRP-Methode mittels DSB-Anordnung ist folglich gegeben durch die Maximumsuche1in

P(DSB)(θ) = 1

MZπ

−πdH(Ω, θ)X(Ω)2dΩ.(7.12)

Wird das allgemeine Signal aus Gl. (7.6) in Gl. (7.12) eingesetzt, ergeben sich ¨

ahnliche Proble-

me, wie sie im Abschnitt 7.1 bereits aufgezeigt wurden. Gem¨

aß [DSB01] ist die SRP-Methode

im Vergleich zu dem TDOA-Verfahren weniger robust und weist deutlich mehr Nebenmaxima

auf.

Betrachtet man allerdings ¨

aquivalent zum vorherigen Abschnitt nur die Phase der Ein-

gangssignale durch die entsprechende Wahl von Gi(Ω) = M/||X(Ω)|| ∀i, was insgesamt einer

Normierung auf die mittlere Leistung2entspricht, und setzt wieder ausschließlich nur das

mehrkanalige reine Sprachsignal in Gl. (7.10) ein, so ergibt sich

P(θ) = MZπ

−πdH(Ω, θ)H(Ω)

||H(Ω)||

dΩ,(7.13)

was aber gerade das Powerpattern der Raum¨

ubertragungsfunktion ausgewertet f¨

ur die Rich-

tung θdarstellt (vgl. Abschnitt 3.3). In Gl. (7.13) l¨

aßt sich wieder der Vektor der Raum-

ubertragungsfunktion durch den gesch¨

atzten dominanten Eigenvektor ersetzen. Mit dem Ko-

effizientenvektor ˆ

v1(Ω), resultierend aus dem speziellen Eigenwertproblem, l¨

asst sich dann

schreiben

P(PCA)(θ) = MZπ

−πdH(Ω, θ)ˆ

v1(Ω)

||ˆ

v1(Ω)||

dΩ.(7.14)

1F¨

ur die Maximumsuche in Gl. (7.12) ist der Faktor 1/M unerheblich.

2F¨

ur die Maximumsuche in Gl. (7.13) ist der Faktor Munerheblich.

7.3. Implementierungsaspekte und Experimente 117

Die Interpretation von Gl. (7.14) ist also, dass die Richtcharakteristik des PCA Beamformers

abgetastet wird, und der Wert von θ, f¨

ur den sich das Maximum dieser Abtastung ergibt,

gerade die Sch¨

atzung der Sprecherrichtung darstellt. Dieses Vorgehen deckt sich mit den

Erkenntnissen aus dem Abschnitt 6, insbesondere bei der Betrachtung der Richtdiagramme

in z. B. Bild 6.1 oder Bild 6.3.

Im Falle von gerichteten St¨

orschallquellen ist die Sch¨

atzung des dominanten, generalisier-

ten Eigenvektors ˆ

v1(Ω) zun¨

achst wieder von links mit ΦNN(Ω) zu multiplizieren, ˜

v1(Ω) =

ΦNN(Ω)ˆ

v1(Ω), und ˜

v1(Ω) kann dann f¨

ur eine zu Gl. (7.13) bzw. Gl. (7.14) ¨

aquivalente Form

genutzt werden

P(GEV)(θ) = MZπ

−πdH(Ω, θ)˜

v1(Ω)

||˜

v1(Ω)||

dΩ.(7.15)

7.3 Implementierungsaspekte und Experimente

Zun¨

achst soll auf Implementierungsaspekte der Eigenvektor-basierten Korrelationsmethode

bzw. Abtastung der Richtcharakteristik eingegangen werden. Der erste wesentliche Punkt

dabei ist die diskrete Verarbeitung der einzelnen Spektralkomponenten Ωkim Frequenzbe-

reich. Eng damit verkn¨

upft ist die blockweise Betrachtung der Signale mit dem Blockindex

mund die blockweise Iteration der Eigenvektoren ˆ

v1,m. Je nach Ansatz – spezielles oder

allgemeines Eigenwertproblem – ergeben sich unterschiedliche Vektoren, die zur kompakteren

Schreibweise wie folgt zugewiesen werden sollen

Fm(Ωk) = 









v1,m(Ωk)

||ˆ

v1,m(Ωk)|| f¨

ur PCA-Filterkoeffizienten

ΦNN(Ωk)ˆ

v1,m(Ωk)

||ˆ

ΦNN(Ωk)ˆ

v1,m(Ωk)|| f¨

ur GEV-Filterkoeffizienten.

(7.16)

Dies f¨

uhrt f¨

ur jeden Verarbeitungsblock mzu

ril,m(n) = 1

L−1

k=0

Fm,i(Ωk)F∗

m,l(Ωk)

|Fm,i(Ωk)||Fm,l(Ωk)|ejΩkn(7.17)

nil,m = argmax

n∈ND

ril,m(n),(7.18)

wobei Gl. (7.17) effizient mit der schnellen Fourier-Transformation berechnet werden kann.

Nun soll der Einfachheit halber die Fernfeld-N¨

aherung zwecks einfacher Berechnung des Ein-

fallswinkels verwendet werden. Weiterhin sind die Mikrophone linear und ¨

aquidistant mit

dem Abstand dzueinander angeordnet. ¨

Aquivalent zu Gl. (3.33) kann dann mit Gl. (7.18)

die Sch¨

atzung der Sprecherrichtung f¨

ur das Mikrophonpaar (i, l) angegeben werden zu

θil,m = arcsin c·nil,m

fAb ·d·(i−l), i 6=l. (7.19)

Unter Verwendung aller Mikrophonpaare – ohne Permutation – ergibt sich schließlich f¨

ur die

Sprecherrichtung θsdie gemittelte Sch¨

atzung pro Verarbeitungsblock

θs,m =2

M(M−1)

M−1

i=1

l=i+1

θil,m.(7.20)

118 Kapitel 7. Sprecherrichtungsbestimmung

Bei dieser Vorgehensweise entsteht ein gewisses Problem bez¨

uglich der Aufl¨

osung, die mit

Gl. (7.19) erreicht werden kann. Denn bei der hier betrachteten Anwendung ist der Abstand

zwischen benachbarten Mikrophonen relativ klein: d= 0,04m. Nimmt man bei einer Ab-

tastfrequenz von fAb = 12kHz beispielsweise folgende Verschiebung nil,m =i−lan, also

gerade einen Abtastwert zwischen zwei benachbarten Mikrophonen, so ergibt sich f¨

ur das

Paar (1,2) ungef¨

ahr der Winkel 45◦, f¨

ur das Paar (1,3) 21◦, f¨

ur das Paar (1,4) 14◦und f¨

das Paar (1,5) 11◦. Diese Aufl¨

osung ist jedoch deutlich zu gering. Daher ist es sinnvoll eine

Interpolation von ril,m(n) in Gl. (7.17) um die Stelle ril,m(nil,m) herum durchzuf¨

uhren. Es

wurde ein Interpolationsfilter mit MATLAB nach [IEE79] entworfen und in die Software zur

Bestimmung der Sprecherrichtung derart eingebunden, so dass die Anzahl der interpolierten

Werte zwischen den St¨

utzstellen variabel eingestellt werden kann. Benutzt man z. B. 16 in-

terpolierte Werte, kann bereits mit zwei benachbarten Mikrophonen eine Einfallsrichtung von

±2,5◦detektiert werden.

F¨

ur die Methode der Abtastung der Richtcharakteristik ist eine Interpolation nicht not-

wendig, da der Steering Vector f¨

ur beliebige Winkel direkt berechnet werden kann. Bei 2N+1

aquidistanten Winkeln

θν=π

2Nν, ν =−N,...,N (7.21)

ist mit z. B. N= 45 eine ausreichende Aufl¨

osung von 2◦eingestellt. Die resultierenden

M·(2N+ 1) Exponentialterme pro Frequenzkomponente im Steering Vector k¨

onnen a priori

berechnet werden, so dass letztlich

P(θν) =

k=KudH(Ωk, θν)Fm(Ωk)2(7.22)

auszuwerten ist. In Gl. (7.22) ist durch die Angabe einer unteren Schranke Kuund einer

oberen Schranke Komit 0 ≤Ku< Ko≤L−1, die Auswahl einer Menge von Spektralkom-

ponenten m¨

oglich. Die gesch¨

atzte Sprecherrichtung folgt wieder aus einer Maximumsuche

θs= argmax

θν

P(θν).(7.23)

Simulationen

Die Funktionsf¨

ahigkeit der vorgestellten Lokalisationsalgorithmen basierend auf der Korre-

lation der gesch¨

atzten Raum¨

ubertragungsfunktionen bzw. der Abtastung ihrer Richtcharak-

teristik soll anhand von anschaulichen Beispielen exemplarisch gezeigt werden. Dazu wurde

eine Quelle im Wechsel an zwei Positionen platziert, welche jeweils einen Abstand von 0,8m

zum Mittelpunkt der Mikrophongruppe hatte. Die beiden Einfallsrichtungen des akustischen

Signals waren -45◦und 0◦. So wurde ein mehrkanaliges Signal zu einer Datei bestehend aus

drei Teilsequenzen zusammengefasst: eine Sprach¨

außerung bei -45◦, anschließend bei 0◦und

wieder eine ¨

Außerung bei -45◦. Dem mehrkanaligen, reinen Sprachsignal wurde jeweils un-

korreliertes weißes Rauschen mit einem SNR von 25dB hinzuaddiert und wahlweise diffuses

bzw. gerichtetes Rauschen mit einem SNR von 5dB ¨

uberlagert.

In allen F¨

allen ist der Algorithmus 6 (A-PM-EG) zur Bestimmung des verallgemeinerten

dominanten Eigenvektors verwendet worden. Die Konstante f¨

ur die exponentielle Gl¨

attung ist

zu α= 0,96 gew¨

ahlt und die Anzahl der berechneten Koeffizienten betr¨

agt 128. Die so itera-

tiv bestimmten GEV-Filterkoeffizienten werden f¨

ur jeden Eingangsblock mit Gl. (7.16) in Gl.

7.3. Implementierungsaspekte und Experimente 119

(7.17) bzw. Gl. (7.22) ausgewertet, so dass sich einerseits mittels Gl. (7.18), Gl. (7.19) und Gl.

(7.20), sowie andererseits mittels Gl. (7.23) die blockabh¨

angigen Sch¨

atzungen f¨

ur die Spre-

cherrichtung ergeben. F¨

ur die Korrelationsmethode sind 16 interpolierte Werte zwischen den

St¨

utzstellen um das Maximum herum benutzt worden. F¨

ur die Abtastung der Richtcharakte-

ristik soll hier eine Winkelaufl¨

osung von einem Grad und ein ausgewerteter Frequenzbereich

von 500Hz bis 5500Hz verwendet werden.

Die Ergebnisse f¨

ur die Bestimmung der Sprecherrichtung sind in Bild 7.1 ¨

uber der Zeit

aufgetragen. Das Verfahren mittels der Kreuzkorrelationen der gesch¨

atzten Raum¨

ubertra-

gungsfunktionen ist mit “XK” bezeichnet und die Abtastung der Richtcharakteristik mit

“AR”. Zus¨

atzlich ist in Bild 7.1 die tats¨

achliche Einfallsrichtung zu sehen, wobei diese nur f¨

die drei Zeitabschnitte dargestellt ist, in denen auch Sprachaktivit¨

at vorliegt. Daher ist die

Bezeichnung “S/W” gew¨

ahlt worden (“S” f¨

ur Sprachaktivit¨

at und “W” f¨

ur wahrer Winkel).

An den Ergebnissen f¨

ur die geringe Nachhallzeit in der linken Spalte von Bild 7.1 ist nun

eine Eigenschaft besonders auff¨

allig, und zwar die scheinbare Unabh¨

angigkeit von dem vorlie-

genden St¨

orschallfeld. In der Tat ist aufgrund der expliziten Ber¨

ucksichtigung der Kreuzleis-

tungsdichten der St¨

orung bei der Eigenvektorbestimmung eine gute Sch¨

atzung f¨

ur die Einfalls-

richtung des Nutzsignals in unterschiedlichsten Anordnungen beobachtet worden. Dies gilt bei

kleinen Nachhallzeiten f¨

ur beide Lokalisationsverfahren. Bei mittleren und h¨

oheren Nachhall-

zeiten weist die Methode durch Abtastung der Richtcharakteristik die genaueren Ergebnisse

auf. In der rechten Spalte von Bild 7.1 ist deutlich zu erkennen, dass das Korrelationsverfah-

ren eine ungenauere Sch¨

atzung liefert. Hier f¨

uhrt die Kombination aus signifikanten fr¨

uhen

Reflexionen in den Raumimpulsantworten und die Interpolation der Korrelationsergebnisse

zu Sch¨

atzfehlern, was aufgrund der Anordnung und den damit verbundenen ausgepr¨

agteren

Reflexionen bei der Richtung -45◦deutlich zu erkennen ist. Es sei dennoch angemerkt, dass

bei solch stark gest¨

orten Sprachsignalen, wie sie hier zugrundeliegen, eine Ungenauigkeit von

±5◦als sehr gering einzustufen ist.

Die guten Ergebnisse bei der Abtastung der Richtcharakteristik wurden durch einen hohen

Rechenaufwand aufgrund der zahlreichen komplexen Multiplikationen in Gl. (7.22) erkauft.

Die Berechnungsdauer liegt um ein Vielfaches ¨

uber der Dauer zur Sch¨

atzung der Sprecherrich-

tung mittels der Korrelationsmethode. Hier verhilft jedoch ein einfacher Trick zu einer deut-

lichen Komplexit¨

atsreduzierung. Da bei den gew¨

ahlten Parametern ca. alle 10ms Gl. (7.22)

ausgewertet wird, k¨

onnen einerseits sehr schnell ¨

Anderungen der Sprecherrichtung erfasst

werden, wie an den Verl¨

aufen in Bild 7.1 zu sehen ist. F¨

ur eine praktische Anwendung scheint

dies jedoch nicht in dem Maße notwendig zu sein. Daher kann eine Berechnung der Werte

|dH(Ωk, θν)Fm(Ωk)|2zwar f¨

ur alle Winkel θνaber f¨

ur eine bestimmte Untermenge an Fre-

quenzkomponenten k=Ku, Ku+∆, Ku+2∆, ... im Abstand ∆ f¨

ur einen Verarbeitungsblock

merfolgen, welche dann f¨

ur weitere Verarbeitungsbl¨

ocke als konstant erachtet werden. F¨

den n¨

achsten Verarbeitungsblock m+1 erfolgt die Aktualisierung von |dH(Ωk, θν)Fm+1(Ωk)|2

f¨

ur die Spektralkomponenten k=Ku+1, Ku+∆+1, Ku+2∆+1, ..., im ¨

ubern¨

achsten Block

m+ 2 f¨

ur die Komponenten k=Ku+ 2, Ku+ ∆ + 2, Ku+ 2∆ + 2, ... usw., wodurch der

Berechnungsaufwand ungef¨

ahr noch 1/∆ des urspr¨

unglichen Aufwands betr¨

agt. Weiterhin

sollte zur Komplexit¨

atsreduktion eine gr¨

obere Winkelaufl¨

osung von z. B. 3◦gew¨

ahlt werden.

In Bild 7.2 sind die Verl¨

aufe f¨

ur die Lokalisationsmethode durch Abtastung der Richtcha-

rakteristik f¨

ur die Anordnung mit der gerichteten St¨

orschallquelle dargestellt. Es wurde eine

Winkelaufl¨

osung von 3◦durch die Wahl von N= 30 in Gl. (7.21) eingestellt und einerseits

∆ = 1 sowie andererseits ∆ = 30 gew¨

ahlt.

120 Kapitel 7. Sprecherrichtungsbestimmung

Nur unkorreliertes Rauschen

-40

-20

02 4 6 8 10

T60 = 0,05 s

t[s]

θ[◦]

XK AR S/W

-40

-20

02 4 6 8 10

T60 = 0,5 s

t[s]

θ[◦]

XK AR S/W

Unkorreliertes und diffuses Rauschen

-40

-20

02468 10

T60 = 0,05 s

t[s]

θ[◦]

XK AR S/W

-40

-20

02468 10

T60 = 0,5 s

t[s]

θ[◦]

XK AR S/W

Unkorreliertes und gerichtetes Rauschen

-40

-20

02 4 6 8 10

T60 = 0,05 s

t[s]

θ[◦]

XK AR S/W

-40

-20

02 4 6 8 10

T60 = 0,5 s

t[s]

θ[◦]

XK AR S/W

Bild 7.1: Sprecherrichtungsbestimmung mittels Kreuzkorrelationen der gesch¨

atzten Raum¨

ubertragungsfunk-

tionen “XK”und der Abtastung der Richtcharakteristik “AR”. Der tats¨

achliche Winkel ist mit “W/S”

dargestellt und nur f¨

ur Zeiten mit Sprachaktivit¨

at eingetragen.

Die Lokalisiationsergebnisse in Bild 7.2 zeigen zum einen f¨

ur einige Zeitpunkte Spr¨

unge

in der Richtungssch¨

atzung durch die gr¨

obere Winkelaufl¨

osung. Zum anderen ist f¨

ur den Fall

der Aktualisierung lediglich jede 30. Spektralkomponente pro Verarbeitungsblock bei der

Abtastung der Richtcharakteristik durch die Wahl von ∆ = 30 eine sehr geringe Verz¨

ogerung

in der Nachf¨

uhrung der Sprecherrichtung zu erkennen. Aufgrund der enormen Reduzierung

des Berechungsaufwands sind diese beiden Effekte jedoch tolerierbar. Insbesondere, da die

7.3. Implementierungsaspekte und Experimente 121

-40

-20

02 4 68 10

(a)

T60 = 0,05 s

t[s]

θ[◦]

N=30

∆=1 N=30

∆=30 S/W

-40

-20

02468 10

(b)

T60 = 0,5 s

t[s]

θ[◦]

N=30

∆=1 N=30

∆=30 S/W

Bild 7.2: Sprecherrichtungsbestimmung mittels der Abtastung der Richtcharakteristik f¨

ur die Anordnung mit

der gerichteten St¨

orschallquelle. Die Winkelaufl¨

osung betr¨

agt 3 ◦(N= 30) und pro Verarbeitungs-

block wird einerseits jede Spektralkomponente aktualisiert (∆ = 1) sowie andererseits nur jede 30.

Spektralkomponente (∆ = 30).

Verz¨

ogerung einer Nachf¨

uhrung der Richtungssch¨

atzung maßgeblich durch das Anzeigen von

Sprachaktivit¨

at durch die Sprache/Pause-Detektion abh¨

angt.

Zustandsbasierte Nachfilterung

Die in Bild 7.1 und Bild 7.2 gezeigten Ergebnisse stellen instantane Sch¨

atzungen pro Verar-

beitungsblock dar. Grunds¨

atzlich k¨

onnen diese noch durch z. B. eine Median-Filterung oder

eine exponentielle Gl¨

attung nachgefiltert werden, um ein robusteres Verhalten gegen¨

uber ge-

ringen Positions¨

anderungen des Sprechers zu erhalten. F¨

ur ein Szenario, in dem eine sich

kontinuierlich bewegende Schallquelle verfolgt werden soll, k¨

onnen auch aufwendigere Algo-

rithmen zur Weiterverarbeitung genutzt werden. Dabei ist es m¨

oglich, eine instantane Positi-

onssch¨

atzung dadurch zu verbessern, indem rekursiv alle bisherigen Beobachtungen durch ein

Zustandsmodell in die Sch¨

atzung mit einfließen. Ein Zustand enth¨

alt dabei die Positions- und

Geschwindigkeitsinformation. Daf¨

ur ist einerseits ein Messmodell f¨

ur die Beobachtungen und

andererseits ein Bewegungsmodell3zur Nachbildung der Bewegungseigenschaften notwendig.

Handelt es sich bei den Modellen um lineare Systeme, so kann ein Kalman Filter als stochasti-

scher Zustandssch¨

atzer zur Verfolgung der Sprecherbewegung genutzt werden. Dabei wird je-

doch nur die instantane (linearisierte) Positionssch¨

atzung als Beobachtung verwendet. W¨

ahlt

man z. B. das SRP-Verfahren als Messung f¨

ur die Wahrscheinlichkeit einer hypothetisierten

Sprecherrichtung, so ist es m¨

oglich, den durch die Linearisierung entstehenden Informations-

verlust zu vermeiden, und jede ausgewertete Richtung wird als Beobachtung herangezogen.

Dadurch wird rekursiv die gerade aktuelle, aber unbekannte Wahrscheinlichkeitsdichte auf

dem Zustandsraum gesch¨

atzt, um daraus den wahrscheinlichsten Systemzustand zu bestim-

men. Hierf¨

ur wird eine Wolke so genannter Partikel erzeugt, die Paare aus einem Gewicht und

einem Punkt im Zustandsraum sind, und als Ganzes die Wahrscheinlichkeitsdichte modellie-

ren. Diese Variante der stochastischen Verfahren zur Zustandssch¨

atzung wird sequenzielle

Monte-Carlo-Methode oder aber auch Partikel-Filterung genannt [DFG01, RAG04].

Zur Verfolgung einer Sprecherposition wurde eine Partikel-Filterung erstmals in [VB01]

vorgestellt, wobei die Gewichtung aus einer Kreuzkorrelation der Mikrophonsignale – also

3In [VB01, WW02, WHUP04] sind Mess- und Bewegungsmodelle f¨

ur die Problemstellung der Sprecherver-

folgung zu finden.

122 Kapitel 7. Sprecherrichtungsbestimmung

TDOA-Verfahren – berechnet wurde. In [WW02, LWW03, WLW03] kamen robustere Vari-

anten zur Gewichsbestimmung mittels eines gesteuerten DSBs – also SRP-Verfahren – zum

Einsatz. Eine Variante der hier vorgestellten Abtastung der Richtcharakteristik von PCA-

Beamformer-Koeffizienten wurde schließlich in [WHUP04] f¨

ur eine zweidimensionale Positi-

onsbestimmung und in [WHU04] lediglich zur Richtungsbestimmung eingesetzt. Dabei konnte

gezeigt werden, dass eine genauere Sprecherverfolgung mittels der Kombination aus PCA Be-

amforming und Partikel-Filterung im Vergleich zur Kombination aus GCC bzw. DSB-SRP

und Partikel-Filterung erreicht wird. Außerdem wurde in [WHUP04, WHU04] die ¨

Uberlegen-

heit der Partikel-Filterung gegen¨

uber dem Kalman Filter f¨

ur diese Anwendung demonstriert.

7.4 Zusammenfassung

In diesem Kapitel wurden zwei h¨

aufig benutzte Verfahren zur Sprecherrichtungsbestimmung

vorgestellt. Dies ist zum einen die TDOA-Methode, welche die Zeitdifferenz zweier Mikro-

phonsignale bestimmt und zum anderen das SRP-Verfahren, welches die Ausgangsleistung

eines Beamformers durch Steuerung seiner Richtcharakteristik maximiert.

Diese Methoden wurden hier derart erweitert, dass auch unter Einfluss starker statio-

n¨

arer St¨

orungen eine gute Sprecherrichtungsbestimmung m¨

oglich ist. Dabei erfolgt nicht die

Auswertung der Mikrophonsignale, sondern der iterativ bestimmten dominanten Eigenvek-

toren des verallgemeinerten Eigenwertproblems. Bei einer guten Sch¨

atzung der spektralen

Kreuzleistungsdichten der St¨

orung kann somit auch eine zuverl¨

assige Richtungssch¨

atzung in

Anwesenheit von gerichteten St¨

orquellen erfolgen.

Da die Abtastung der Richtcharakteristik der Eigenvektoren sehr rechenintensiv ist, sind

Implementierungsm¨

oglichkeiten aufgezeigt worden, die zu einer erheblichen Reduzierung des

Berechnungsaufwands f¨

uhren. Die Komplexit¨

at ist dadurch ¨

ahnlich wie die der Korrelations-

methode, bei einer nur sehr geringen damit einhergehenden Verz¨

ogerung, und dennoch einem

insgesamt robusteren Verhalten im Vergleich zur Korrelationsmethode.

Kapitel 8

GEV-Beamformer in GSC-Struktur

In Kapitel 4 wurde das Prinzip des statistisch optimalen Beamformings aufgezeigt, wobei das

Optimierungskriterium in Abschnitt 4.2 aus der Minimierung der Varianz des Ausgangssignals

des Beamformers unter der Einhaltung einer Nebenbedingung besteht. Basierend auf diesem

Ansatz ist in dem bekannten Verfahren nach [Fro72] zur Minimierung der Rauschleistung ein

Adaptionsschema mit Nebenbedingung beschrieben. In [GJ82] wurde das Minimierungspro-

blem mit Nebenbedingung umgewandelt in ein Minimierungsproblem ohne Nebenbedingung,

so dass die adaptiven Filter zur St¨

orger¨

auschreduktion (engl. Adaptive Noise Cancellation,

ANC) einfach mittels LMS-Algorithmus realisiert werden k¨

onnen. Dabei erfolgt die Mini-

mierung des Rauschens in einem Signal, welches mittels eines unver¨

anderlichen Beamformers

(engl. Fixed Beamformer, FBF) erzeugt wird. Hierbei wird davon ausgegangen, dass das mehr-

kanalige Eingangssignal des FBFs bez¨

uglich des Sprachsignals zeitangepasst, also koh¨

arent

vorliegt. Die adaptiven Filter ben¨

otigen dann am Eingang vorverarbeitete Mikrophonsignale,

die m¨

oglichst keine Sprachkomponenten mehr enthalten und daher auch als St¨

orger¨

auschrefe-

renzsignale bezeichnet werden. Die St¨

orger¨

auschreferenzsignale gehen prinzipiell aus einer Ma-

trixmultiplikation mit den Mikrophonsignalen hervor, wobei diese Sprachsignal-blockierende

Matrix (engl. Blocking Matrix, BM) nach [GJ82] eine feste, nicht adaptive1Struktur aufweist.

Die sich ergebende Gesamtstruktur bestehend aus FBF, BM und ANC wird als Generalized

Sidelobe Canceller (GSC) bezeichnet, siehe Bild 8.1.

Die Leistungsf¨

ahigkeit eines GSCs zur St¨

orger¨

auschreduktion h¨

angt insbesondere von der

G¨

ute der St¨

orger¨

auschreferenzsignale ab, welche m¨

oglichst frei von dem Nutzsignal sein soll-

ten. Diese Eigenschaft wird dabei maßgeblich durch zwei Problemstellungen beeinflusst: zum

einen ist dies die Mehrwegeausbreitung des Sprachsignals und zum anderen simultan aktive

St¨

orger¨

auschquellen.

In diesem Kapitel werden unterschiedliche Realisierungen der Blocking Matrix behandelt.

Dabei wird insbesondere ein neuartiges Verfahren vorgestellt, welches auf einem GEV Be-

amforming basiert. Dieses hat den Vorteil, sich adaptiv dem Sprachsignal anzupassen, auch

wenn ein permanentes St¨

orschallfeld vorliegt.

1Ein feste, nicht adaptive Blocking Matrix setzt eine der Sprecherposition entsprechende Laufzeitkompen-

sation des direkten Pfades voraus.

124 Kapitel 8. GEV-Beamformer in GSC-Struktur

−

Fixed

Beamformer

Blocking

Matrix

Adaptive

Noise

Cancellation

yFBF(n)yGSC(n)

x1(n)

FFBF(Ω)

B(Ω) Z(Ω)

x2(n)

xM(n)

u1(n)

u2(n)

uM(n)

Bild 8.1: Blockschaltbild des Generalized Sidelobe Cancellers.

8.1 GSC in station¨

arer Umgebung

Eine ¨

aquivalente Schreibweise zur Minimierung der Kostenfunktion Gl. (4.21) ist gegeben

durch

minimiere

F(Ω) FH(Ω)ΦXX(Ω)F(Ω) (8.1)

mit FH(Ω)H(Ω) = W(Ω),(8.2)

mit der spektralen Gewichtung W(Ω) (vgl. Gl. (4.20)). Dieser Ansatz kann mit Hilfe der

Lagrange-Funktion und einem Gradienten-Abstiegs-Verfahrens gel¨

ost werden (siehe L¨

osung

Gl. (4.28)). F¨

ur eine unverzerrte Filterung des Sprachsignals muss folgende Bedingung gelten

W(Ω) = 1.(8.3)

Optimale Filter der ANC

Nun wird der Filterkoeffizientenvektor aufgespaltet in zwei additive Anteile

F(Ω) = FFBF(Ω) −B(Ω)Z(Ω),(8.4)

wobei FFBF(Ω) die eigentliche Strahlformung (Fixed Beamformer), B(Ω) die Sprachsignal-

Blockierung (Blocking Matrix) und Z(Ω) die St¨

orger¨

ausch-Ausl¨

oschung (Noise Cancellation)

beschreibt (vgl. Bild 8.1). Nach Einsetzen von Gl. (8.4) in Gl. (8.2) mit W(Ω) = 1 ergibt sich

FH

FBF(Ω) −ZH(Ω)BH(Ω)H(Ω) = 1,(8.5)

wobei Gl. (8.5) durch die Bedingungen

FBF(Ω)H(Ω) = 1 (8.6)

BH(Ω)H(Ω) = 0 (8.7)

8.1. GSC in station¨

arer Umgebung 125

erf¨

ullt werden kann. Falls Gl. (8.6) und Gl. (8.7) eingehalten werden, k¨

onnen die mehrkana-

ligen Filter Z(Ω) zur Erf¨

ullung der Bedingung Gl. (8.5) beliebig gew¨

ahlt werden und m¨

ussen

keine Nebenbedingung einhalten. Daher sind sie nun so zu w¨

ahlen, dass in dem einkanaligen

Ausgangssignal des Fixed Beamformers

YFBF(Ω) = FH

FBF(Ω)X(Ω),(8.8)

alle St¨

orsignalkomponenten, welche mit dem mehrkanaligen St¨

orger¨

auschreferenzsignal

U(Ω) = BH(Ω)X(Ω) (8.9)

r¨

aumlich korreliert sind, entfernt werden, und sich das letztendliche Ausgangssignal des GSCs

YGSC(Ω) = YFBF(Ω) −ZH(Ω)U(Ω) (8.10)

ergibt. Die Kostenfunktion f¨

ur das Minimierungsproblem ist

JGSC(Z(Ω)) = FH

FBF(Ω) −ZH(Ω)BH(Ω)ΦXX(Ω) [FFBF(Ω) −B(Ω)Z(Ω)] (8.11)

und ergibt somit den Gradientenvektor

∇ZJGSC(Z(Ω)) = −BH(Ω)ΦXX(Ω)FFBF(Ω) + BH(Ω)ΦXX(Ω)B(Ω)Z(Ω).(8.12)

Durch Nullsetzen von Gl. (8.12) kann das mehrkanalige Wiener Filter mit den optimalen

Koeffizienten angegeben werden als

Zopt(Ω) = BH(Ω)ΦXX(Ω)B(Ω)−1BH(Ω)ΦXX(Ω)FFBF(Ω) (8.13)

=Φ−1

UU(Ω)ΦUYFBF (Ω),(8.14)

wobei ΦUU(Ω) = E{U(Ω)UH(Ω)}als invertierbar angenommen wird und ΦUYFBF (Ω) =

E{U(Ω)Y∗

FBF(Ω)}gilt.

Implementierung und Adaption der ANC

Die Filterkoeffizienten Gl. (8.13) der mehrkanaligen ANC k¨

onnen in einer Implementierung

iterativ f¨

ur jeden Verarbeitungsblock mit dem Index mund jede Frequenzkomponente Ωk

uber die normalisierte LMS-Adaptionsregel bestimmt werden

Zm+1(Ωk) = Zm(Ωk) + µP−1

m(Ωk)Um(Ωk)Y∗

GSC m(Ωk) (8.15)

Pm+1(Ωk) = αPm(Ωk) + (1 −α)M−1UH

m(Ωk)Um(Ωk),(8.16)

mit der festen Schrittweite µund dem Gl¨

attungsfaktor α. Im Sinne der adaptiven Filterung

beschreibt YGSC m(Ωk) das Fehlersignal zwischen dem Referenzsignal des FBFs und dem ge-

filterten Signal am Ausgang der ANC. Dieses kann genau genommen nur f¨

ur Signalbl¨

ocke

herangezogen werden, in denen kein Nutzsignal enthalten ist. Daher sollte die Adaptions-

regel Gl. (8.15) und Gl. (8.16) ¨

uber eine Sprache/Pause-Detektion gesteuert werden. Au-

ßerdem ist der Fehler im Zeitbereich zu ermitteln, und durch Einf¨

ugen von Nullen in die

Filterimpulsantworten werden zyklische Effekte vermieden [Shy92]. Um eine m¨

oglichst hohe

St¨

orger¨

auschreduktion zu erhalten, sollte jeweils die Filterl¨

ange m¨

oglichst groß gew¨

ahlt wer-

den. Dies bedeutet jedoch auch, dass die Adaptionsdauer zunimmt. Bei einer Abtastrate von

fAb = 12kHz stellt eine Filterl¨

ange von 1024 einen guten Kompromiss und sinnvollen Wert

dar.

126 Kapitel 8. GEV-Beamformer in GSC-Struktur

Allgemeine Form der BM

Das Ziel der Blocking Matrix ist, eine Projektion der Eingangssignale auf den zur Sprachsi-

gnalkomponente orthogonalen Unterraum durchzuf¨

uhren. F¨

ur die Einhaltung der Bedingung

BH(Ω)H(Ω) = 0 wird eine Struktur in der Form

BH(Ω) = I−BH(Ω) (8.17)

gew¨

ahlt, wobei BH(Ω)H(Ω) = H(Ω) gelten soll. Die Projektion BH(Ω) soll das Sprachsignal

also so gut wie m¨

oglich rekonstruieren. Es kann folglich die allgemeine Formulierung

BH(Ω) = H(Ω)WH(Ω)

WH(Ω)H(Ω) (8.18)

verwendet werden, wobei der Vektor W(Ω) in Gl. (8.18) prinzipiell beliebig gew¨

ahlt werden

kann aber ungleich dem Nullvektor sein muss und nicht orthogonal zu H(Ω) sein darf. Es ist

also direkt zu sehen, dass mit der Formulierung Gl. (8.18) die Bedingung Gl. (8.7) eingehalten

wird. F¨

ur die Filterung des Eingangssignals X(Ω) = Sc(Ω)H(Ω) + N(Ω) mit der Blocking

Matrix ergibt sich

U(Ω) = BH(Ω)X(Ω) = I−H(Ω)WH(Ω)

WH(Ω)H(Ω)N(Ω),(8.19)

wobei offensichtlich das Sprachsignal verschwindet und in U(Ω) nur noch gefilterte St¨

orsi-

gnalkomponenten verbleiben.

Es stellt sich nun die Frage, wie die Matrix BH(Ω) realisiert werden soll. Wie ist also

der Vektor W(Ω) zu w¨

ahlen und wie kann die Raum¨

ubertragungsfunktion H(Ω) bestimmt

werden.

8.2 Realisierung der Blocking Matrix

Im Folgenden sollen drei BM-Varianten aus der Literatur vorgestellt werden:

•die einfache Methode der Subtraktion zeitangepasster Mikrophonsignale nach Griffiths

und Jim [GJ82],

•die L¨

osung nach Gannot et al. [GBW01] durch Einsetzen von zuvor bestimmten Ver-

h¨

altnissen der Raum¨

ubertragungsfunktionen und

•das robuste Verfahren nach Hoshuyama et al. [HSH99], bei dem die Sprachanteile in

den Mikrophonsignalen mittels adaptiver Filter und einem Sprachreferenzsignal entfernt

werden.

Weiterhin wird eine neuartige Realisierung basierend auf dem GEV Beamforming hergeleitet.

Zun¨

achst sollen zwei fundamentale Realisierungen der Blocking Matrix aufgezeigt werden.

W¨

ahlt man WH(Ω) = (1,0,...,0) so ergibt sich

TFR(Ω) = 1

H1(Ω)







0 0 ... 0

−H2(Ω) H1(Ω) 0 ... .

−H3(Ω) 0 H1(Ω) ...

....

−HM(Ω) 0 . . . H1(Ω)







.(8.20)

8.2. Realisierung der Blocking Matrix 127

Aufgrund der Tatsache, dass in Gl. (8.20) die Verh¨

altnisse Hi(Ω)/H1(Ω) f¨

ur i= 2,3,...,M

zu bestimmen sind, wird die Matrix auch Transfer Function Ratio (TFR) Blocking Matrix

(TFRBM) genannt und f¨

uhrt daher zu dem Index “TFR” in Gl. (8.20). Das Grundprinzip

bei der Filterung der Mikrophonsignale mit BH

TFR(Ω) besteht darin, paarweise aufeinander

angepasste Signale zu subtrahieren, also Xi(Ω) −Hi(Ω)/H1(Ω)X1(Ω) f¨

ur i= 2,3,...,M zu

berechnen.

Als n¨

achstes ergibt sich mit WH(Ω) = (1,1,...,1) die voll besetzte Matrix

TF(Ω) = 1

i=1

Hi(Ω)







i=2

Hi(Ω) −H1(Ω) ... −H1(Ω)

−H2(Ω)

i=1, i6=2

Hi(Ω) ... −H2(Ω)

....

−HM(Ω) −HM(Ω) ...

M−1

i=1

Hi(Ω)







(8.21)

mit der Bezeichnung “TF” f¨

ur Transfer Function. Die Matrix in Gl. (8.21) soll demzufolge

Transfer Function Blocking Matrix (TFBM) genannt werden. Der Rang von BH

TF(Ω) ist wei-

terhin M−1, was bedeutet, dass eins der MSt¨

orger¨

auschreferenzsignale linear abh¨

angig ist

von den anderen St¨

orger¨

auschreferenzsignalen.

8.2.1 BM nach Griffiths und Jim

Die Grundidee nach [GJ82] basiert auf der Annahme der Freifeldausbreitung des Sprach-

signals, so dass lediglich zeitangepasste Mikrophonsignale subtrahiert werden m¨

ussen, um

das Nutzsignal zu entfernen. Die ¨

Ubertragungsfunktion f¨

ur die Sprecherrichtung θssoll also

beschrieben sein durch

d(Ω, θs) = (ejΩτ1(θs)/T , ejΩτ2(θs)/T ,...,ejΩτM(θs)/T )H.(8.22)

Bei einer Implementierung w¨

urden die durch Gl. (8.22) entstehenden relativen Verz¨

ogerungen

in einem ersten Schritt kompensiert werden

X(Ω) = e−jΩtk/T diag{(ejΩτ1(θs)/T,ejΩτ2(θs)/T,...,ejΩτM(θs)/T)}X(Ω),(8.23)

wobei die Verz¨

ogerung e−jΩtk/T mit tk>max{τi}zur Realisierung einer kausalen Filterung

eingef¨

ugt wurde. Das so koh¨

arent verschobene mehrkanalige Signal ˜

X(Ω) dient als Eingangs-

signal f¨

ur die Blocking Matrix.

Mit diesen Annahmen ergibt sich aus Gl. (8.20) die einfache Form der Delay Only Ratio

Blocking Matrix (DORBM) mit dem Index “DOR”

DOR(Ω) =







0 0 ... 0

−1 1 0 ... 0

−1 0 1

....

−1 0 0 ... 1







,(8.24)

128 Kapitel 8. GEV-Beamformer in GSC-Struktur

und entsprechend aus Gl. (8.21) folgt die Delay Only Blocking Matrix (DOBM) mit dem

Index “DO”

DO(Ω) = 1







M−1−1... −1

−1M−1.

....

−1−1. . . M −1





.(8.25)

In Gl. (8.25) wird also quasi von jedem Eingangssignal der Mittelwert der anderen Eingangs-

signale subtrahiert. Auch hier ist der Rang der (M×M)-Matrix BH

DO(Ω) wieder M−1.

Implementierung der DORBM und DOBM

Grunds¨

atzlich sind die Matrizen Gl. (8.24) und Gl. (8.25) nichtadaptiv und ben¨

otigen also

kein direktes Nachf¨

uhren von Koeffizienten. Die Subtraktion kann sehr effizient und ohne

Verzerrungen im Zeitbereich umgesetzt werden. Bei der Implementierung des Gesamtsys-

tems ist jedoch eine adaptive Sprecherrichtungsbestimmung und -nachf¨

uhrung, sowie eine

Laufzeitkompensation des direkten Ausbreitungspfades notwendig. Wird der Zeitausgleich

korrekt vorgenommen, besteht aufgrund der nichtadaptiven Struktur der BM der Vorteil

einer st¨

orger¨

auschunabh¨

angigen Sprachsignalunterdr¨

uckung. Da aber die Annahme der Frei-

feldausbreitung f¨

ur reale Anwendungen in verhallten R¨

aumen nicht haltbar ist, gelangt mit

steigender Nachhallzeiten ein wachsender Anteil an Sprachsignalkomponenten in die St¨

orge-

r¨

auschreferenzsignale hinein. Weiterhin entsteht dieser Effekt nat¨

urlich auch bei nicht korrekt

zeitangepassten Mikrophonsignalen.

8.2.2 BM nach Gannot et al.

F¨

ur die TFR Blocking Matrix Gl. (8.20) m¨

ussen die Verh¨

altnisse Hi(Ω)/H1(Ω) f¨

ur i=

2,3,...,M gesch¨

atzt werden. Ein Verfahren hierzu ist in [GBW99] erstmals im Zusammen-

hang mit einer GSC-Realisierung vorgestellt worden, wobei ausf¨

uhrlichere Beschreibungen in

[Gan00, GBW01] zu finden sind. Grundlage bildet Gl. (8.9), welche umgestellt wird zu

Xi(Ω) = Ui−1(Ω) + Hi(Ω)

H1(Ω)X1(Ω).(8.26)

Mit Gl. (8.26) wird unter Beachtung der blockweisen Verarbeitung eine gleichgewichtete

Sch¨

atzung der spektralen Kreuzleistungsdichte zwischen dem i-ten und dem ersten Mikrophon

f¨

ur den Zeitpunkt mangegeben zu

φ(GG)

XiX1,m(Ω) = ˆ

φ(GG)

Ui−1X1,m(Ω) + Hi(Ω)

H1(Ω) ˆ

φ(GG)

X1X1,m(Ω), i = 2,3,...,M, (8.27)

wobei ausgenutzt wurde, dass das Nutz- und das St¨

orsignal miteinander unkorreliert und

jeweils mittelwertfrei sind.

Weiterhin wird der Fehler zwischen dem Spektrum des (i−1)-ten Ausgangssignal der BM

und dem ersten Mikrophonsignal definiert

Ei−1,m(Ω) = ˆ

φ(GG)

Ui−1X1,m(Ω) −φUi−1X1(Ω).(8.28)

8.2. Realisierung der Blocking Matrix 129

Mit Gl. (8.27) und Gl. (8.28) ist es m¨

oglich, nach NBl¨

ocken folgendes ¨

uberbestimmtes lineares

Gleichungssystem aufzustellen







φ(GG)

XiX1,1(Ω)

φ(GG)

XiX1,2(Ω)

φ(GG)

XiX1,N (Ω)







=





φ(GG)

X1X1,1(Ω) 1

φ(GG)

X1X1,2(Ω) 1

φ(GG)

X1X1,N (Ω) 1





"Hi(Ω)/H1(Ω)

φUi−1X1(Ω) #+





Ei−1,1(Ω)

Ei−1,2(Ω)

Ei−1,N (Ω)





.(8.29)

Mit der entscheidenden Forderung der Stationarit¨

at des St¨

orsignals und der Ausnutzung der

Nichtstationarit¨

at der Sprache kann eine Sch¨

atzung ˆ

Hi(Ω)/ˆ

H1(Ω) abgeleitet werden. Dabei

wird die Methode der kleinsten Quadrate auf das Gleichungssystem Gl. (8.29) nach dem in

[SW96] vorgestellten Prinzip angewendet. Die L¨

osung ergibt sich dann laut [GBW01] zu

Hi(Ω)

H1(Ω) =

m=1 ˆ

φ(GG)

X1X1,m(Ω)ˆ

φ(GG)

XiX1,m(Ω)−

m=1

φ(GG)

X1X1,m(Ω)

m=1

φ(GG)

XiX1,m(Ω)

m=1 ˆ

φ(GG)

X1X1,m(Ω)2−

m=1 ˆ

φ(GG)

XiX1,m(Ω)2.(8.30)

Implementierung der TFRs

Grunds¨

atzlich ist die Implementierung von Gl. (8.30) f¨

ur diskrete Spektralkomponenten Ωk

vorzunehmen; es werden also die Verh¨

altnisse ˆ

Hi(Ωk)/ˆ

H1(Ωk) bestimmt. In [GBW01] wird

berichtet, dass die Bl¨

ocke zur gleichgewichteten Sch¨

atzung der Kreuzleistungsdichten sich

nicht ¨

uberlappen sollten. Weiterhin ist nat¨

urlich die Sch¨

atzung durchzuf¨

uhren, wenn das

Nutzsignal auch in den Mikrophonsignalen vorliegt, weshalb eine Sprache/Pause-Detektion

notwendig ist. In der Realisierung [GBW01] wurden die Filterl¨

angen in der Blocking Matrix

jeweils zu 181 bei einer Abtastrate von 8kHz gew¨

ahlt. Daher scheint eine Wahl von B= 256

f¨

ur die Filterimpulsantworten bei der Abtastrate fAb = 12kHz gerechtfertigt zu sein. Diese

sind wie folgt zu ermitteln. Aus den nicht¨

uberlappenden Abtastwerten am Eingang werden

L= 512 Daten mittels einer Hamming-Fensterung herausgenommen und im Frequenzbereich

entsprechend viele Koeffizienten mittels Gl. (8.30) berechnet. Nach der R¨

ucktransformation

in den Zeitbereich werden B= 256 Koeffizienten herausgeschnitten2, mit Nullen auf eine

L¨

ange L= 512 aufgef¨

ullt und wieder in den Frequenzbereich transformiert.

F¨

ur eine konsequente Nutzung der Verh¨

altnisse der ¨

Ubertragungsfunktionen k¨

onnen diese

auch in den FBF eingesetzt werden. Die entstehenden Sprachverzerrungen des Gesamtsys-

tems sind ausf¨

uhrlich in [GBW04] behandelt. Dabei scheinen insbesondere in dem unteren

Frequenzbereich (f < 500Hz) Probleme aufzutreten.

Die GSC-Struktur kann zur weiteren St¨

orger¨

auschreduktion mit einem Post Filter [GC04]

und einer Echokompensation [RGC07a] erweitert werden. In [RGC07b] ist das Gesamtsystem

schließlich noch auf das Vorhandensein eines zus¨

atzlichen Sprechers ausgelegt worden, also

einem Szenario mit zwei instation¨

aren Quellen.

2Prinzipiell l¨

asst sich zur Vermeidung zyklischer Effekte bei der Filterung im Frequenzbereich auch folgende

Methode verwenden: Nach der Fourier-Transformation der L¨

ange 512 werden zu jeder zweiten Frequenzkompo-

nente die Verh¨

altnisse Gl. (8.30) berechnet. Diese 256 Koeffizienten sind in den Zeitbereich zu transformieren

und mit Nullen zu erweitern, so dass schließlich wieder eine Fourier-Transformation der L¨

ange 512 angewendet

werden kann.

130 Kapitel 8. GEV-Beamformer in GSC-Struktur

8.2.3 BM nach Hoshuyama et al.

Im Folgenden wird eine Variante der BM beschrieben, die ohne direkte Berechnung der ¨

Uber-

tragungsfunktionen bzw. Verh¨

altnisse dieser auskommt. Das Verfahren wurde erstmals in

[HSH96] vorgestellt, wobei die Sprachanteile in den Mikrophonsignalen mittels adaptiver

Filter und einem Sprachreferenzsignal entfernt werden. Eine genauere Beschreibung ist in

[HSH99] zu finden. Die dort vorgestellte LMS-Adaption ist im Zeitbereich realisiert und in

[HK01] auf eine recheneffiziente Version im Frequenzbereich ¨

ubertragen worden.

Die Idee besteht darin, ein Sprachreferenzsignal Yref(Ω) zu erzeugen, welches aus der

Filterung der Eingangsdaten mit dem Filtervektor Fref(Ω) hervorgeht

Yref(Ω) = FH

ref(Ω)X(Ω).(8.31)

Zwischen diesem Referenzsignal und den Eingangssignalen werden weitere FIR-Filter G(Ω)

eingef¨

ugt, um die St¨

orger¨

auschreferenzsignale zu generieren

U(Ω) = X(Ω) −G(Ω)Yref(Ω).(8.32)

Die statistisch optimalen Koeffizienten sollen mit optimalen Eingangsdaten, also X(Ω) =

S(Ω) und dem optimalen Referenzsignal

Yopt(Ω) = Yref(Ω)X(Ω)=S(Ω) (8.33)

bestimmt werden, mittels der Bedingung

EX(Ω) −G(Ω)Yref(Ω)Y∗

ref(Ω)X(Ω)=S(Ω)

= 0.(8.34)

Das Ergebnis ist das folgende Wiener Filter

Gopt(Ω) = ΦSYopt (Ω)

φYoptYopt (Ω).(8.35)

Die optimalen Filterkoeffizienten des Wiener Filters Gl. (8.35) k¨

onnen weiter umgeformt

werden zu

Gopt(Ω) = φScSc(Ω)H(Ω)HH(Ω)Fref(Ω)

φScSc(Ω)HH(Ω)Fref(Ω)FH

ref(Ω)H(Ω) (8.36)

=H(Ω)

ref(Ω)H(Ω).(8.37)

An Gl. (8.37) kann abgelesen werden, dass mit Hilfe der idealisierten Annahme X(Ω) = S(Ω)

gerade eine Systemidentifikation m¨

oglich ist, da eine skalierte Version der Raum¨

ubertragungs-

funktion bestimmt wurde.

Da durch die Subtraktion in Gl. (8.32) die St¨

orger¨

auschreferenzsignale mittels einer ad-

aptiven Sprachsignalausl¨

oschung (engl. Adaptive Speech Cancellation, ASC) generiert werden

sollen, wird die so entstehende Blocking Matrix in dieser Arbeit als ASCBM bezeichnet und

mit dem Index “ASC” versehen. Die optimale ASCBM ergibt sich aus den oberen Erkennt-

nissen zu

ASC opt(Ω) = I−Gopt(Ω)FH

ref(Ω) (8.38)

=I−H(Ω)FH

ref(Ω)

ref(Ω)H(Ω).(8.39)

8.2. Realisierung der Blocking Matrix 131

Bei dem Vergleich von Gl. (8.39) mit der allgemeinen Formulierung Gl. (8.17) und Gl. (8.18)

gilt f¨

ur diesen Ansatz offensichtlich

W(Ω) = Fref(Ω).(8.40)

Grunds¨

atzlich gilt auch hier wieder, dass die Wahl des Vektors Fref(Ω) beliebig ist, solange

dieser ungleich dem Nullvektor und nicht orthogonal zu der Raum¨

ubertragungsfunktion des

Sprachsignals ist. Geht man zun¨

achst noch davon aus, dass das Eingangssignal keine St¨

orkom-

ponenten beinhaltet, so f¨

uhrt z. B. die Wahl von Fref = (1,0,...,0)Tzu einer BM die identisch

zu BTFR(Ω) aus Gl. (8.20) ist. Bei der realen Anwendung gilt jedoch X(Ω) = S(Ω) + N(Ω),

weshalb eine andere Wahl f¨

ur Fref (Ω) zur Erzeugung eines Sprachreferenzsignals sinnvoll ist.

Da der Fokus der Arbeiten von z. B. [HSH99, HS01] und [HK03] auf der Unterdr¨

uckung

nicht station¨

arer Quellen – also weiterer Sprecher – liegt, wird nur von unkorreliertem Mikro-

phonrauschen und sehr geringem diffusen Rauschen ausgegangen. Diese Rauschkomponen-

ten k¨

onnen mit dem FBF in der Realisierung als DSB oder besser z. B. mit einem Dolph-

Chebyshev-Fenster angewendet auf die zeitkompensierten Mikrophonsignale deutlich redu-

ziert werden. Daher kann das Ausgangssignal YFBF(Ω) des FBFs als Sprachreferenzsignal

dienen und f¨

ur die Filterkoeffizienten gilt demnach

Fref(Ω) = FFBF(Ω).(8.41)

Implementierung und Adaption der ASCBM

Die blockorientierte adaptive Bestimmung von Gm(Ωk) f¨

ur die diskreten Spektralkomponen-

ten Ωkund den Verarbeitungsblock mergibt sich demzufolge ¨

aquivalent zu Gl. (8.15) durch

Gm+1(Ωk) = Gm(Ωk) + µP−1

m(Ωk)Xm(Ωk)Y∗

FBF m(Ωk) (8.42)

Pm+1(Ωk) = αPm(Ωk) + (1 −α)|YFBF m(Ωk)|2,(8.43)

wiederum mit der festen Schrittweite µund dem Gl¨

attungsfaktor α. Auch hier ist wieder auf

die Besonderheiten der Filterung im Frequenzbereich zu achten [Shy92]. Robustheitsaspekte

wie eine Begrenzung der Filterkoeffizienten oder ein Leaky-Faktor sind in Gl. (8.42) nicht

ber¨

ucksichtigt worden. Im Gegensatz zu Gl. (8.15) erfolgt die Iteration in Gl. (8.42) w¨

ahrend

Sprachaktivit¨

at, welche ¨

uber eine Sprache/Pause-Detektion angezeigt werden muss. Nach der

Analyse [HK02] zu der ASC Blocking Matrix ist bei einer Abtastrate von fAb = 12kHz eine

L¨

ange von 256 f¨

ur die adaptiven Filter als sinnvoll zu erachten.

Die resultierende GSC-Struktur wurde in [Her04] mit einer Echokompensation in unter-

schiedlichen Varianten als Gesamtsystem untersucht. In [HBNK07] sind weitere Robustheitsa-

spekte bez¨

uglich der Adaption beschrieben, speziell f¨

ur den Fall von Double-Talk-Situationen.

Besonders wichtig ist hier noch abschließend zu erw¨

ahnen, dass bei einem permanent

aktiven starken St¨

orger¨

auschfeld der GSC mit ASC Blocking Matrix zu starken Sprachsi-

gnalverzerrungen und einer schlechten St¨

orger¨

auschreduktion f¨

uhren kann [Kr¨

u07]. Dies ist

offensichtlich, da zum Erreichen der optimalen Koeffizienten in Gl. (8.35) bei der Adapti-

onsregel Gl. (8.42) in dem Referenzsignal YFBF m(Ωk) nur Sprachkomponenten vorhanden

sein d¨

urfen. F¨

ur die Problemstellung in dieser Arbeit dient dieses Verfahren also lediglich als

Referenzverfahren, welches unter optimalen Bedingungen adaptiert wird.

132 Kapitel 8. GEV-Beamformer in GSC-Struktur

8.2.4 Neuartige Bestimmung der Blocking Matrix

Wie in Abschnitt 5.2 gezeigt wurde, ist mittels der adaptiven Eigenwertzerlegung eine gute

Sch¨

atzung f¨

ur den dominanten Eigenvektor

v1(Ω) = ζ(Ω)Φ−1

NN(Ω)H(Ω) (8.44)

m¨

oglich. Die optimale L¨

osung Gl. (8.44) kann nun von links mit ΦNN(Ω) multipliziert werden

H(Ω) = ΦNN(Ω)v1(Ω) (8.45)

um die resultierenden Funktionen ˜

H(Ω) = ( ˜

H1(Ω),˜

H2(Ω),..., ˜

HM(Ω))Tdirekt in Gl. (8.20)

oder Gl. (8.21) einzusetzen. Der noch verbleibende skalare Faktor ζ(Ω) zwischen ˜

Hi(Ω) und

Hi(Ω) spielt dabei keine Rolle, da die Normierung in Gl. (8.20) bzw. Gl. (8.21) daf¨

ur sorgt,

dass dieser herausf¨

allt. Die so ermittelte Blocking Matrix soll mit GTFRBM bezeichnet wer-

den, in Anlehnung an die TFRBM, allerdings hier berechnet mit Hilfe des GEV.

Eine andere Variante [WKHU08] ergibt sich auf der Grundlage der ASCBM aus dem vor-

herigen Abschnitt. Denn wie in dem Kapitel 4 gezeigt wurde, kann mittels des Filtervektors

v1(Ω) – abgesehen von der Skalierung – ein statistisch optimales Beamforming erreicht wer-

den. Daher ist das so gefilterte Eingangssignal als optimales Sprachreferenzsignal anzusehen

Fref(Ω) = v1(Ω) (8.46)

Yref(Ω) = vH

1(Ω)X(Ω).(8.47)

Folgt man dem Ansatz Gl. (8.32), bei dem zwischen dem Referenzsignal und den Eingangs-

signalen Filter eingef¨

ugt werden, so ergeben sich diese durch die Bedingung

EX(Ω) −G(Ω)Yref(Ω)Y∗

ref(Ω)X(Ω)=S(Ω)+N(Ω)

= 0,(8.48)

wobei nun in Gl. (8.48) ein gest¨

ortes Sprachsignal am Eingang zugelassen wird. Das optimale

Ergebnis kann durch Ausnutzung der Eigenwertgleichung ΦXX(Ω)v1(Ω) = λ1(Ω)ΦNN(Ω)v1(Ω)

angegeben werden zu

Gopt(Ω) = ΦNN(Ω)v1(Ω)

1(Ω)ΦNN(Ω)v1(Ω).(8.49)

Da in Gl. (8.49) alle Gr¨

oßen als bekannt angenommen werden, ist keine weitere Adaption wie

im Abschnitt 8.2.3 notwendig. Es l¨

asst sich also direkt die GEV Blocking Matrix (GEVBM)

angeben

GEV(Ω) = I−ΦNN(Ω)v1(Ω)vH

1(Ω)

1(Ω)ΦNN(Ω)v1(Ω),(8.50)

wobei der Index“GEV”in Gl. (8.50) auf die Bestimmung mittels des dominanten Eigenvektors

hinweist. Selbstverst¨

andlich kann Gl. (8.50) mit Gl. (8.45) und Gl. (8.46) in eine zu Gl. (8.39)

aquivalente Form umgewandelt werden.

Implementierung der GTFRBM und GEVBM

Die blockorientierte adaptive Bestimmung von BH

GEV(Ω) nach Gl. (8.50) f¨

ur die diskreten

Spektralkomponenten Ωkerfolgt im Wesentlichen durch die Bestimmung des dominanten Ei-

genvektors v1(Ωk) mit Hilfe des Algorithmus 5 (A-PM-GG). Daf¨

ur wird zun¨

achst in Sprach-

pausen durch exponentielle Gl¨

attung die Matrix ˆ

Φ−1

NN(Ωk) bestimmt und w¨

ahrend Sprachak-

tivit¨

at v1(Ωk) sowie die gleichgewichtete Sch¨

atzung von ˆ

ΦXX(Ωk) aktualisiert (siehe 5.2.1).

8.3. Fixed Beamformer 133

Danach erfolgt die Umformung gem¨

aß Gl. (8.50). F¨

ur die letztendliche Filterung der Mikro-

phonsignale ist nun wieder auf die Vermeidung von zyklischen Effekten zu achten. Daher wird

ein Verfahren ¨

aquivalent zu dem Vorgehen bei der TFRBM eingesetzt. Es werden also die

L= 2BFilterkoeffizienten der Blocking Matrix zun¨

achst wieder in den Zeitbereich transfor-

miert. Hier sind BKoeffizienten herauszuschneiden und mit Nullen auf die doppelte L¨

ange

aufzuf¨

ullen. Nach einer erneuten Fourier-Transformation liegen die LFilterkoeffizienten zur

Filterung vor. F¨

ur den Fall der GTFRBM ist prinzipiell das gleiche Vorgehen anwendbar.

8.3 Fixed Beamformer

Um die GSC-Struktur nach Bild 8.1 zu realisieren ist noch ein geeigneter Fixed Beamformer

notwendig. In dieser Arbeit werden hierf¨

ur zwei Varianten vorgeschlagen. Zum einen ist dies

die einfachste Methode mittels DSB und zum anderen ein “blindes” Verfahren basierend auf

der Sch¨

atzung der ¨

Ubertragungsfunktionen mittels adaptiver Eigenwertzerlegung.

8.3.1 DSB als FBF

F¨

ur den Aufbau eines DSBs sind zwei Komponenten notwendig. Zuerst ist die Sprecherrich-

tung zu bestimmen und als n¨

achstes sind die jeweiligen Laufzeitunterschiede des direkten

Pfades zwischen der Quelle und den Mikrophonen auszugleichen. Der Vorteil bei diesem FBF

ist eine unverzerrte ¨

Ubertragung des Sprachsignals. Der Nachteil ist jedoch die Notwendigkeit

einer expliziten Bestimmung der Sprecherrichtung. Dadurch ergibt sich nat¨

urlich eine gewisse

Einschr¨

ankung des angef¨

uhrten Vorteils, da nur dann ein unverzerrtes Nutzsignal am Ausgang

erreicht wird, wenn die DOA auch korrekt ermittelt wird. Weiterhin gilt diese Einschr¨

ankung

ebenfalls f¨

ur den Aspekt einer optimalen Realisierung der Laufzeitkompensation.

Wie in Kapitel 7 gezeigt wurde, ist mittels der Methode der Abtastung der Richtcharak-

teristik unter Verwendung des generalisierten dominanten Eigenvektors ˆ

v1(Ω) in Gl. (7.15)

eine sehr gute Sch¨

atzung der Sprecherrichtung m¨

oglich. Und zwar auch in Umgebungen mit

gerichteten St¨

orschallquellen. Daher soll dieses Verfahren zur Bestimmung der DOA in der

GSC-Struktur Verwendung finden.

Zur Kompensation der Laufzeitunterschiede sind in [LVKL96] verschiedene Verfahren zur

Realisierung von Verz¨

ogerungen kleiner als die Abtastzeit zusammengestellt. Ein Problem

stellt dabei insbesondere die frequenzunabh¨

angige Signald¨

ampfung dar, die je nach gew¨

ahltem

Verfahren stark von der umzusetzenden Verz¨

ogerung abh¨

angt. Hinzu kommt noch der nicht

zu untersch¨

atzende Rechenaufwand f¨

ur die fortlaufende Berechnung der Interpolationsfilter

in Abh¨

angigkeit der ermittelten DOA. Daher soll hier eine g¨

anzlich andere Methode zur

Laufzeitkompensation vorgeschlagen werden, die sich bei der Realisation des Gesamtsystem

als sehr effizient erwiesen hat.

Die Untersuchungen zur Sprachverzerrung durch eine fehlerhafte Laufzeitkompensation

in Kapitel 3.5 haben gezeigt, dass eine geringe Abweichung zwischen Zielrichtung des Ar-

rays und tats¨

achlicher Sprecherrichtung als durchaus tolerierbar einzustufen ist. Daher ist es

sinnvoll, f¨

ur eine konkrete geometrische Anordnung a priori Interpolationsfilter f¨

ur ein be-

stimmtes Raster von Zielrichtungen zu berechnen und in einer Datenbank abzulegen. Diese

Filterkoeffizienten m¨

ussen dann zur Laufzeit der Software f¨

ur die ermittelten DOAs nur noch

aus der Datenbank ausgelesen, aber nicht mehr berechnet werden. Eine Winkelaufl¨

osung von

134 Kapitel 8. GEV-Beamformer in GSC-Struktur

∆θt= 4◦erscheint hierbei ausreichend und ergibt somit 2N+1 = 45 m¨

ogliche Zielrichtungen

θt ν =ν∆θt, ν =−N, . . . , N. (8.51)

Die Filterkoeffizienten FPCA ν(Ω) f¨

ur die Richtungen θt ν werden wie folgt berechnet. In einer

simulierten Umgebung mit Freifeldausbreitung (T60 = 0s) wird jeweils an diesen Zielrich-

tungen eine Quellen platziert, welche weißes Rauschen emittiert. Mittels PCA Beamforming

werden dann die optimalen Filterkoeffizienten berechnet, wie in Abschnitt 5.1.4 beschrie-

ben ist. Somit ist gew¨

ahrleistet, dass ein optimaler Laufzeitausgleich gegeben eine bestimmte

Filterl¨

ange realisiert wird.

F¨

ur die eigentliche Filterung zur Laufzeit ist dann schließlich der Koeffizientensatz zu

w¨

ahlen, der zu dem Index der Richtung geh¨

ort, f¨

ur die gilt

ˆν= argmin

ν|ˆ

θs−θt ν|,(8.52)

wobei ˆ

θsdie gesch¨

atzte Sprecherrichtung ist. Das Ausgangssignal ist somit gegeben durch

YFBF(Ω) = FH

PCA ˆν(Ω)X(Ω).(8.53)

Bei der blockorientierten Implementierung ist die Filterung Gl. (8.53) wieder mittels

Overlap-Save-Methode [Shy92] f¨

ur diskrete Spektralkomponenten Ωkumzusetzen, wobei na-

t¨

urlich aufgrund der zeitabh¨

angigen Sch¨

atzung der Sprecherrichtung auch die Wahl der Fil-

terkoeffizienten von Block zu Block unterschiedlich sein kann.

8.3.2 Matched Filter als FBF

Die explizite Bestimmung der Sprecherrichtung kann vermieden werden, wenn der domi-

nante Eigenvektor Gl. (8.44) in einer nachverarbeiteten Version zur Filterung hergenom-

men wird. Dazu sind zun¨

achst wieder die skalierten Raum¨

ubertragungsfunktionen ˜

H(Ω) =

ΦNN(Ω)v1(Ω) zu bestimmen, welche dann entsprechend der BAN-Methode aus Abschnitt

6.4.1 normiert werden (vgl. Gl. (6.18) bzw. Gl. (6.19))

FMF(Ω) = 1

√M

H(Ω)

||˜

H(Ω)||.(8.54)

F¨

ur die Filterkoeffizienten in Gl. (8.54) wurde der Index “MF” als Kennzeichnung f¨

ur das

Matched Filter verwendet. Denn obschon die Koeffizienten ¨

aquivalent zum PCA Beamforming

und ines damit verbundenen Matched Filters sind, basiert die Bestimmung des Eigenvektors

nicht auf dem speziellen, sondern dem allgemeinen Eigenwertproblem.

Gl. (8.54) basiert auf der N¨

aherung ||H(Ω)|| ≈ √M, wodurch dann folglich auch nur

n¨

aherungsweise ein unverzerrtes Sprachsignal am Ausgang des FBFs zu erwarten ist:

YFBF(Ω) = FH

MF(Ω)X(Ω) (8.55)

=FH

MF(Ω)Sc(Ω)H(Ω) + N(Ω)(8.56)

=ζ(Ω)

|ζ(Ω)|||H(Ω)||

√MSc(Ω) + FH

MF(Ω)N(Ω) (8.57)

≈ζ(Ω)

|ζ(Ω)|Sc(Ω) + FH

MF(Ω)N(Ω).(8.58)

8.4. Experimentelle Untersuchungen 135

Bei einer kleinen Nachhallzeit erh¨

alt man ein nahezu unverzerrt gefiltertes Signal aus der

implizit ermittelten Sprecherrichtung. F¨

ur große Nachhallzeiten ist mit einer gering variie-

renden, frequenzselektiven D¨

ampfung f¨

ur die gew¨

unschte Richtung zu rechnen. Dieses Ver-

halten ist beispielhaft an den Richtcharakteristiken in Bild 8.2 verdeutlicht. Dargestellt sind

die Beampattern der Filterkoeffizienten nach Gl. (8.54) bei Anwendung des Verfahrens in dem

Szenario-2 f¨

ur zwei unterschiedliche Nachhallzeiten.

T60 = 0,05s

Ω/(2πT) [kHz]

θ[◦]

-90-454590

(a)

T60 = 0,5s

Ω/(2πT) [kHz]

θ[◦]

-90-454590

dB

-10

-20

-30

-40

(b)

Bild 8.2: Richtcharakteristiken der Koeffizienten des Matched Filters als FBF f¨

ur die Nachhallzeiten von T60 =

0,05 s und T60 = 0,5 s. Die Sprecherrichtung betr¨

agt θs= 45 ◦und das gerichtete Tiefpassrauschen

hat eine Einfallsrichtung von θn=−20 ◦.

An dem Beampattern f¨

ur die Nachhallzeit T60 = 0,05s in Bild 8.2 (a) ist sehr gut das

zu einem DSB ¨

aquivalente Verhalten zu erkennen. F¨

ur die Nachhallzeit T60 = 0,5s in Bild

8.2 (b) ist die f¨

ur einen Matched Filter Beamformer typische Charakteristik wiederzufinden.

Es bildet sich f¨

ur die Sprecherrichtung θs= 45◦nur n¨

aherungsweise f¨

ur alle Frequenzen

die gleiche D¨

ampfung aus, da bei der Ermittlung des dominanten Eigenvektors noch fr¨

uhe

Reflexionen ber¨

ucksichtigt werden. Bei subjektiven H¨

ortest hat sich dieses Verhalten jedoch

als nicht signifikant erwiesen. Da also der Matched Filter Beamformer den Vorteil einer blinden

Arbeitsweise aufweist, ist hierin eine sehr gute Alternative zur Realisierung als FBF in einer

GSC-Struktur zu sehen.

8.4 Experimentelle Untersuchungen

Im Folgenden sollen Ergebnisse zu den experimentellen Untersuchungen der GSC-Strukturen

mit den beiden unterschiedlichen Fixed Beamformern pr¨

asentiert werden. Zun¨

achst ist dies

die Realisierung des Fixed Beamformers als DSB und im Anschluss die Variante mittels eines

Matched Filters. Grunds¨

atzlich gilt hier wieder bei den adaptiven Filtern, dass alle Messungen

mit konvergierten Koeffizienten vorgenommen wurden. Dies betrifft die adaptiven Blocking-

Matrix-Varianten, die Adaptive Noise Cancellation und den Matched Filter Beamformer. Der

DSB ist optimal realisiert mit dem a priori Wissen ¨

uber die Sprecherrichtung und einer

exakten Laufzeitkompensation.

F¨

ur die Ergebnisse in den nachfolgenden Diagrammen sollen folgende Abk¨

urzungen defi-

niert sein:

•Generalized Sidelobe Canceller mit Delay-and-Sum-Beamformer als Fixed Beamformer

und verschiedenen Varianten der Blocking Matrix

136 Kapitel 8. GEV-Beamformer in GSC-Struktur

◦DOR: Delay Only Ratio Blocking Matrix gem¨

aß Gl. (8.24) durch die paarweise

Subtraktion zeitangepasster Mikrophonsignale nach Griffiths und Jim [GJ82]

◦TFR: Transfer Function Ratio Blocking Matrix Gl. (8.20) mit der Bestimmung

des Verh¨

altnisses der ¨

Ubertragungsfunktionen nach Gannot et al. [GBW01] mit

Gl. (8.30)

◦ASC: Adaptive Speech Cancellation Blocking Matrix mit Hilfe adaptiver Filter und

NLMS-Adaption mit Gl. (8.42) und Gl. (8.43), wobei das reine Sprachsignal am

DSB-Ausgang als Referenzsignal3dient

◦GTFR: Generalized Eigenvector Transfer Function Ratio Blocking Matrix basie-

rend auf der BM Gl. (8.20), wobei die ¨

Ubertragungsfunktionen mittels Algorithmus

5 (A-PM-GG) bestimmt werden

◦GEV: Generalized Eigenvector Blocking Matrix entsprechend der neuartigen Form

in Gl. (8.50)

•Generalized Sidelobe Canceller mit Matched Filter nach Gl. (8.54) als Fixed Beamformer

und beide Varianten der Blocking Matrix basierend auf dem dominanten Eigenvektor

◦MF-GTFR: Matched Filter FBF und Generalized Eigenvector Transfer Function

Ratio Blocking Matrix

◦MF-GEV: Matched Filter FBF und Generalized Eigenvector Blocking Matrix

Alle adaptiven Filter sind im Frequenzbereich unter Anwendung der blockorientierten

Overlap-Save-Methode realisiert worden. Bis auf eine explizit gekennzeichnete Ausnahme

wurden f¨

ur das Verfahren nach Gannot und die eigenvektorbasierten Methoden eine Fil-

terl¨

ange von B= 256 Koeffizienten gew¨

ahlt. Das Matched Filter FBF ist jedoch mit einer

Filterl¨

ange von 128 f¨

ur jeden Mikrophonpfad implementiert worden. Daf¨

ur kann sehr effizient

aus dem adaptiv berechneten dominanten Eigenvektor in der entsprechenden Blocking Ma-

trix jede zweite Frequenzkomponente entnommen werden. Die Motivation f¨

ur eine geringere

Filterl¨

ange im FBF ist in Abschnitt 6.4.2 zu finden.

Die mehrkanalige Adaptive Noise Cancellation ist mit einer Filterl¨

ange von 1024 pro Pfad

realisiert, wobei die Filterkoeffizienten gem¨

aß der normalisierten LMS-Adaptionsregel Gl.

(8.15) und Gl. (8.16) bestimmt wurden.

Grunds¨

atzlich wird bei allen Simulationen den Eingangsdaten wieder jeweils weißes, r¨

aum-

lich unkorreliertes Rauschen mit einem SNR von 25dB hinzugef¨

ugt. Desweiteren werden die

jeweiligen r¨

aumlich korrelierten St¨

orsignale mit einem SNR von 5dB additiv ¨

uberlagert.

8.4.1 Generalized Sidelobe Canceller mit DSB

Gem¨

aß Gl. (8.7) sollten die St¨

orger¨

auschreferenzsignale im Idealfall keinen Sprachanteil mehr

enthalten. Dies ist nat¨

urlich insbesondere f¨

ur steigende Nachhallzeiten aufgrund der begrenz-

ten Filterl¨

ange in der Blocking Matrix und den jeweiligen Sch¨

atzfehlern der verwendeten

Verfahren nur bedingt zu erzielen. Um das Verm¨

ogen der Sprachblockierung (engl. Blocking

3Es soll nochmal darauf hingewiesen werden, dass f¨

ur die ASCBM in der Praxis nicht das reine Sprachsignal

am DSB-Ausgang beobachtet werden kann und daher diese Anordnung nur zu Vergleichszwecken verwendet

wird.

8.4. Experimentelle Untersuchungen 137

Ability, BA) einer Blocking Matrix zu messen, soll im Zeitbereich die D¨

ampfung des Sprach-

signals relativ zur St¨

orung vom Eingang zum Ausgang f¨

ur die betrachtete BM wie folgt

bestimmt werden

BA := 10 ·



log10 





i=1 P

n∈Ts

s,i(n)

i=1 P

n∈Ts

n,i(n)





−log10 





i=1 P

n∈Ts

s,i(n)

i=1 P

n∈Ts

n,i(n)









dB.(8.59)

Es wird also in Gl. (8.59) von dem mittleren SNR in den MSt¨

orger¨

auschreferenzsignalen

im logarithmischen Bereich das mittlere SNR in den Mikrophonsignalen, unter Beachtung

der Menge der Zeitindizes Tswelche Sprache beinhalten, subtrahiert. us,i(n) bezeichnet den

Sprachanteil im i-ten St¨

orger¨

auschreferenzsignal und un,i(n) entsprechend den Rauschanteil.

In Bild 8.3 (a) ist die Blocking Ability f¨

ur das Szenario-2 und in Bild 8.3 (b) der SNR-

Gewinn dargestellt. Wie erwartet wird f¨

ur den idealen Fall mit der ASCBM die gr¨

oßte D¨

amp-

fung des Sprachsignals erzielt. Die BA der ASCBM setzt sich insbesondere bei der Freifeld-

ausbreitung deutlich von der BA der anderen Verfahren ab. Obschon f¨

ur T60 = 0s gerade

die korrekte Randbedingung f¨

ur den Einsatz der DORBM eingehalten wird, sind doch mini-

male Fehler bez¨

uglich der Zeitanpassung aufgrund der Annahme einer planar auf das Array

einfallenden Schallwelle vorhanden (trotz bekannter Sprecherrichtung). Zus¨

atzlich sind Pegel-

differenzen zwischen den Sensorsignalen nicht kompensiert. Beiden Effekten kann jedoch mit

den adaptiven Filtern in der ASCBM optimal begegnet werden. Mit steigender Nachhallzeit

steigt auch der Sprachanteil in den St¨

orger¨

auschreferenzsignalen f¨

ur alle BM-Varianten. Hier

liegen die Werte der Blocking Ability der GTFRBM und GEVBM im Bereich zwischen den

Ergebnissen f¨

ur die ASCBM und die DORBM. Hingegen unterscheiden sich die Verl¨

aufe der

BA f¨

ur die TFRBM und DOR nicht wesentlich voneinander.

Der SNR-Gewinn in Bild 8.3 (b) zeigt, dass die Verl¨

aufe f¨

ur die GSC-Strukturen mit

GEVBM und GTFRBM dem optimalen Verlauf bei der Realisierung mit der ASCBM sehr

nahe kommen. Leider liefert hier die Struktur mit TFRBM nicht die erwartete Leistungsf¨

higkeit. Der SNR-Gewinn liegt signifikant unter den Ergebnissen der anderen Verfahren und

ist nur f¨

ur gr¨

oßere Nachhallzeiten ¨

ahnlich zu dem SNR-Gewinn mit der DORBM. Maßgeb-

lich ist hierf¨

ur eine schlechte Unterdr¨

uckung der unteren Frequenzkomponenten der Sprache

durch die TFRBM, welche insbesondere bei geringen Nachhallzeiten ins Gewicht f¨

allt. Da-

mit verbunden ist eine schlechte Rauschunterdr¨

uckung des GSCs im unteren Frequenzbereich

und eine generelle Anhebung des gefilterten Signals f¨

ur diese Frequenzen. Dieses Verhalten

soll durch eine genauere Betrachtung des reinen Sprachsignals am GSC-Ausgang verdeutlicht

werden. Hierf¨

ur wird das Verh¨

altnis der spektralen Leistungsdichte der reinen Sprachsignale

vor und nach der Subtraktion ¨

uber den Noise-Cancellation-Pfad gebildet:

δLDS(Ω) =

φ(GG)

YGSCYGSC (Ω)

φ(GG)

YFBFYFBF (Ω) X(Ω)=S(Ω)

.(8.60)

In Gl. (8.60) beschreibt ˆ

φ(GG)

YFBFYFBF (Ω) die ¨

uber die gesamte Sprach¨

außerung gleichgewich-

tet gemittelte spektrale Leistungsdichte nach dem FBF und ˆ

φ(GG)

YGSCYGSC (Ω) entsprechend das

gemittelte Leistungsdichtespektrum nach dem GSC jeweils f¨

ur das reine Sprachsignal. Die

Abweichung δLDS(Ω) ist in Bild 8.4 (a) gemittelt ¨

uber alle 10 Sprachbeispiele f¨

ur die GSC-

Strukturen mit TFRBM, GTFRBM und GEVBM exemplarisch f¨

ur eine Nachhallzeit von

138 Kapitel 8. GEV-Beamformer in GSC-Struktur

-40

-30

-20

-10

00,2 0,4 0,6

BA [dB]

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(a)

00,2 0,4 0,6

SNRG [dB]

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(b)

Bild 8.3: Blocking Ability in (a) und SNR-Gewinn in (b) f¨

ur eine Sprecherrichtung von θs= 45 ◦und eine

St¨

orquelle bei θn=−20 ◦.

T60 = 0,1s dargestellt und in Bild 8.4 (b) f¨

ur die GSC-Strukturen mit DORBM und ASCBM.

F¨

ur den GSC mit TFRBM ist eine auff¨

allige Anhebung der Spektralkomponenten bis ca.

500Hz zu erkennen, welche auch bereits in [GBW04] Erw¨

ahnung fand. Mit der GTFRBM

und GEVBM erfolgt hingegen eine leichte D¨

ampfung der unteren Frequenzkomponenten. Ab-

gesehen von dem GSC mit DORBM ergibt sich f¨

ur die anderen Methoden eine D¨

ampfung

des Signals f¨

ur die h¨

ochsten Frequenzen, da hier nahezu kein Sprachsignal vorhanden ist.

Ω/(2πT) [kHz]

δLDS(Ω)

GEV

GTFR

TFR

(a)

0,5

1,5

246

Ω/(2πT) [kHz]

δLDS(Ω)

DOR

ASC

(b)

Bild 8.4: LDS-Verh¨

altnisse nach Gl. (8.60) f¨

ur eine Sprecherrichtung von θs= 45 ◦und eine St¨

orquelle bei

θn=−20 ◦f¨

ur eine Nachhallzeit von T60 = 0,1 s.

Daher soll nun die Varianz der spektralen Abweichung f¨

ur die Spektralkomponenten kor-

respondierend zu dem Frequenzbereich zwischen ca. 0,5kHz und 5kHz untersucht werden:

σ2

LDS := var{δLDS(Ω)}. Eine Varianz von Null besagt, dass alle Frequenzkomponenten gleich

stark ged¨

ampft bzw. verst¨

arkt werden und sich somit lediglich eine Lautst¨

arke¨

anderung er-

geben kann. Große Werte f¨

ur die Varianz bedeuten hingegen, dass die verschiedenen Fre-

quenzkomponenten unterschiedlich stark ged¨

ampft oder verst¨

arkt wurden, was folglich zu

einer Sprachverzerrung f¨

uhrt. Die Varianz σ2

LDS wird wieder ¨

uber alle Beispiel¨

außerungen

gemittelt und ¨

uber der Nachhallzeit betrachtet. F¨

ur das Szenario-2 sind die Ergebnisse in

Bild 8.5 (a) dargestellt. Die Varianz σ2

LDS in Bild 8.5 zeigt f¨

ur alle Verfahren geringe Werte

8.4. Experimentelle Untersuchungen 139

0,05

0,1

0,15

0,2

0,2 0,4 0,6

σ2

LDS

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(a)

00,2 0,4 0,6

0,97

0,98

0,99

PSM

T60 [s]

GEV

GTFR

TFR

DOR

(b)

Bild 8.5: In (a) Varianz der Verh¨

altnisse der spektralen Leistungsdichte des GSC-Ausgangssignals zu der des

FBFs -Ausgangssignal und in (b) das perzeptive Qualit¨

atsmaß f¨

ur eine Sprecherrichtung von θs= 45 ◦

und einer St¨

orquelle bei θn=−20 ◦.

f¨

ur kleine Nachhallzeiten. Mit steigendem T60 weist dann der GSC mit DORBM die h¨

ochs-

ten Werte f¨

ur die Varianz auf gefolgt von der TFR-Methode. Die beiden Realisierungen mit

dem dominanten Eigenvektor in der GTFRBM und der GEVBM weisen nur geringe Unter-

schiede zueinander auf. Die geringste Varianz ergibt sich schließlich f¨

ur das Referenzsystem

mit ASCBM. Die Ergebnisse der Varianzmessung decken sich prinzipiell mit den Ergebnissen

der perzeptiven Sprachqualit¨

atsmessung, welche in Bild 8.5 (b) zu sehen sind. Dabei sind

nun wieder alle Spektralkomponenten beteiligt und pro Nachhallzeit ist der Mittelwert der

PSM-Werte der 10 verwendeten Beispiels¨

atze abgebildet. Als Referenzsignal wurde jeweils

das reine Sprachsignal des GSC-Referenzsystems mit ASCBM verwendet. Die auff¨

allig gerin-

geren PSM-Werte f¨

ur das TFRBM System bei kleinen Nachhallzeiten sind wieder durch die

Tiefenanhebung zu erkl¨

aren.

Als n¨

achstes folgen Ergebnisse zu den gleichen Messungen wie zuvor, jedoch f¨

ur das dif-

fuse St¨

orschallfeld bei weiterhin einer Sprecherrichtung von θs= 45◦. Die Blocking Ability

und der SNR-Gewinn f¨

ur diese Anordnung sind in Bild 8.6 dargestellt. Die Blocking Ability

der DORBM und ASCBM sind nahezu identisch zu den entsprechenden Verl¨

aufen in Bild

8.3, jedoch sind die Ergebnisse f¨

ur die GEVBM geringf¨

ugig schlechter und f¨

ur die TFRBM

geringf¨

ugig besser. Der SNR-Gewinn f¨

ur den GSC mit TFRBM liegt nun auch leicht ¨

uber

der Methode mit DORBM, wobei weiterhin – abgesehen von dem Referenzsystem – der GSC

mit GEVBM die gr¨

oßte Rauschunterdr¨

uckung liefert.

Die Abweichung der spektralen Leistungsdichte f¨

ur das System mit TFRBM hat sich im

unteren Frequenzbereich deutlich verringert, was beispielhaft an Bild 8.7 zu sehen ist. Daher

ist auch die Varianz σ2

LDS dieser Realisierung ¨

ahnlich zu denen der GSCs mit GTFRBM und

GEVBM. Auff¨

allig an den Verl¨

aufen der Varianz in Bild 8.8 sind die relativ geringen Werte

f¨

ur den GSC mit DORBM. Dieses Verhalten liegt an der Tatsache, dass hier insgesamt nur

recht geringe Signalanteile ¨

uber das Sidelobe Cancellation eliminiert werden. Dies ist an dem

kleinen SNR-Gewinn zu erkennen. Daher wird auch das Sprachsignal am Ausgang des FBFs

nur geringf¨

ugig angegriffen, was auch an dem PSM-Verlauf in Bild 8.7 wiederzufinden ist.

Ebenfalls kann auch die relativ gute Sprachqualit¨

at der Struktur mit TFRBM f¨

ur den Fall

140 Kapitel 8. GEV-Beamformer in GSC-Struktur

-40

-30

-20

-10

00,2 0,4 0,6

BA [dB]

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(a)

00,2 0,4 0,6

SNRG [dB]

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(b)

Bild 8.6: Blocking Ability in (a) und SNR-Gewinn in (b) f¨

ur eine Sprecherrichtung von θs= 45 ◦und diffusen

St¨

orschall.

des diffusen St¨

orschallfelds an den PSM-Werten abgelesen werden.

Ω/(2πT) [kHz]

δLDS(Ω)

GEV

GTFR

TFR

(a)

0,5

1,5

2 4 6

Ω/(2πT) [kHz]

δLDS(Ω)

DOR

ASC

(b)

Bild 8.7: LDS-Verh¨

altnisse nach Gl. (8.60) f¨

ur eine Sprecherrichtung von θs= 45 ◦und ein diffuses St¨

orschall-

feld.

F¨

ur eine Sprecherrichtung von θs= 0◦und einer St¨

orquelle bei θn= 60◦gem¨

aß Szenario-3

sind die Blocking Ability und der SNR-Gewinn in Bild 8.9 dargestellt. Die Sprachsignalun-

terdr¨

uckung ist insgesamt f¨

ur alle Blocking-Matrix-Realisierungen f¨

ur das Szenario-3 gr¨

oßer

als f¨

ur das Szenario-2. Bei der TFRBM sind die Werte der BA zwar f¨

ur geringe Nachhall-

zeiten schlechter im Vergleich zu den Werten der GTFRBM und GEVBM, aber f¨

ur h¨

ohere

Nachhallzeiten durchaus ¨

ahnlich zu diesen. Trotzdem sind die SNR-Gewinne f¨

ur alle Verfah-

ren etwas geringer im Vergleich zu dem Szenario-2. Außerdem ist nun der SNR-Gewinn f¨

den GSC mit DORBM sehr ¨

ahnlich zu den Methoden mit den eigenvektorbasierten Blocking-

Matrix-Verfahren. F¨

ur das Verfahren mit TFRBM macht sich allerdings wieder die schlechte

Rauschunterdr¨

uckung in dem unteren Frequenzbereich bemerkbar, insbesondere bei geringen

Nachhallzeiten.

F¨

ur den GSC mit TFRBM ist bei dem Szenario-3 eine signifikante Abweichung δLDS(Ω)

der Leistungsdichtespektren beobachtet worden. Dies ist beispielhaft f¨

ur eine Nachhallzeit

8.4. Experimentelle Untersuchungen 141

0,05

0,1

0,15

0,2 0,4 0,6

σ2

LDS

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(a)

00,2 0,4 0,6

0,96

0,97

0,98

0,99

PSM

T60 [s]

GEV

GTFR

TFR

DOR

(b)

Bild 8.8: In (a) Varianz der Verh¨

altnisse der spektralen Leistungsdichte des GSC-Ausgangssignals zu dem FBF

Ausgangssignal und in (b) das perzeptive Qualit¨

atsmaß f¨

ur eine Sprecherrichtung von θs= 45 ◦und

einem diffusen St¨

orschallfeld.

-40

-30

-20

-10

00,2 0,4 0,6

BA [dB]

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(a)

00,2 0,4 0,6

SNRG [dB]

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(b)

Bild 8.9: Blocking Ability in (a) und SNR-Gewinn in (b) f¨

ur eine Sprecherrichtung von θs= 0 ◦und eine

St¨

orquelle bei θn= 60 ◦.

von T60 = 0,1s in Bild 8.10 zu sehen. Damit verbunden f¨

allt dann auch die Varianz der

Abweichungen deutlich h¨

oher aus, wie an dem Verlauf in Bild 8.11 (a) zu erkennen ist. Die

Verl¨

aufe f¨

ur die Strukturen mit GTFRBM und GEVBM sind ¨

ahnlich zu dem Verlauf des

Referenzsystems und liegen deutlich unter dem des GSCs mit DORBM. Diese Ergebnisse

gehen konform mit der gemessenen perzeptiven Sprachqualit¨

at, was an den PSM-Werten in

Bild 8.11 (b) abzulesen ist.

Als letztes folgen noch die Ergebnisse f¨

ur das Szenario-4, also f¨

ur die Anordnung einer

Sprachquelle bei θs= 0◦und zwei St¨

orquellen: eine bei -20◦und eine bei 60◦. F¨

ur die-

ses Szenario ist nun die Sprachsignalblockierung der GEVBM schlechter als f¨

ur die anderen

adaptiven Verfahren, wie an Bild 8.12 (a) zu sehen ist. Aufgrund der komplizierteren An-

ordnung ist der SNR-Gewinn f¨

ur alle GSC-Varianten geringer im Vergleich zum Szenario-2

und Szenario-3. Der Verlauf des SNR-Gewinns des GSCs mit TFRBM ist recht ¨

ahnlich zum

GSC mit DORBM. Hingegen liefern die eigenvektorbasierten Methoden eine leicht h¨

ohere

St¨

orger¨

auschunterdr¨

uckung.

142 Kapitel 8. GEV-Beamformer in GSC-Struktur

Ω/(2πT) [kHz]

δLDS(Ω)

GEV

GTFR

TFR

(a)

0,5

1,5

2 4 6

Ω/(2πT) [kHz]

δLDS(Ω)

DOR

ASC

(b)

Bild 8.10: LDS-Verh¨

altnisse nach Gl. (8.60) f¨

ur eine Sprecherrichtung von θs= 0 ◦und eine St¨

orquelle bei

θn= 60 ◦.

0,1

0,2

0,3

0,4 0,6

σ2

LDS

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(a)

00,2 0,4 0,6

0,98

0,985

0,99

0,995

PSM

T60 [s]

GEV

GTFR

TFR

DOR

(b)

Bild 8.11: In (a) Varianz der Verh¨

altnisse der spektralen Leistungsdichte des GSC-Ausgangssignals zu der des

FBFs-Ausgangssignal und in (b) das perzeptive Qualit¨

atsmaß f¨

ur eine Sprecherrichtung von θs= 0 ◦

und einer St¨

orquelle bei θn= 60 ◦.

Die spektrale Abweichung δLDS(Ω) ist hier f¨

ur den GSC mit TFRBM bei den tiefen Fre-

quenzen nicht so deutlich ausgepr¨

agt, wie beispielhaft an Bild 8.13 zu erkennen ist. Dennoch

sind st¨

arkere Abweichungen ¨

uber den gesamten Frequenzbereich beobachtet worden als f¨

die Verfahren mit GTFRBM und GEVBM. F¨

ur diese zeigt die Varianz σ2

LDS in Bild 8.14 (a)

sehr ¨

ahnliche Verl¨

aufe wie das Referenzsystem. Aber dennoch ist erstaunlicherweise die resul-

tierende Sprachqualit¨

at aufgrund eines leichten Hochpass-Charakters geringf¨

ugig schlechter

im Vergleich zum System mit TFRBM.

Die Simulationsergebnisse f¨

ur die GSC-Strukturen mit einem DSB als Fixed Beamformer

k¨

onnen wie folgt zusammengefasst werden:

•Die ASCBM liefert nat¨

urlich die besten Resultate, da die Adaption ja mit dem reinen

Sprachsignal am DSB-Ausgang erfolgt.

•Die eigenvektorbasierten Blocking-Matrix-Methoden GTFRBM und GEVBM unter-

scheiden sich nur geringf¨

ugig. Dennoch liefert die GEVBM aber eine leicht bessere

8.4. Experimentelle Untersuchungen 143

-40

-30

-20

-10

00,2 0,4 0,6

BA [dB]

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(a)

000,2 0,4 0,6

SNRG [dB]

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(b)

Bild 8.12: Blocking Ability in (a) und SNR-Gewinn in (b) f¨

ur eine Sprecherrichtung von θs= 0 ◦und zwei

St¨

orquellen: eine bei -20 ◦und eine bei 60 ◦.

Ω/(2πT) [kHz]

δLDS(Ω)

GEV

GTFR

TFR

(a)

0,5

1,5

246

Ω/(2πT) [kHz]

δLDS(Ω)

DOR

ASC

(b)

Bild 8.13: LDS-Verh¨

altnisse nach Gl. (8.60) f¨

ur eine Sprecherrichtung von θs= 0 ◦und zwei St¨

orquellen: eine

bei -20 ◦und eine bei 60 ◦.

Rauschunterdr¨

uckung bei einem tendenziell unverf¨

alschterem Sprachsignal.

•Die nichtadaptive Realisierung der Blocking Matrix als DORBM zeigt gute Ergebnisse,

die jedoch deutlich unter denen der eigenvektorbasierten Methoden liegen.

•Die Leistungsf¨

ahigkeit des GSCs mit TFRBM ist stark abh¨

angig von der konkreten

Anordnung. Bei zahlreichen Experimenten hat diese Realisierung bez¨

uglich des SNR-

Gewinns und der Sprachqualit¨

at schlechtere Ergebnisse erzielt als die konventionelle

nichtadaptive Methode. Insbesondere treten hier h¨

aufig Probleme im unteren Frequenz-

bereich auf.

Nach den ausf¨

uhrlichen Betrachtungen der Simulationsergebnisse f¨

ur unterschiedliche An-

ordnungen der Schallquellen bleibt die Frage nach der Auswirkung von unterschiedlich ge-

w¨

ahlten Parametern. Hierzu k¨

onnen folgende Aussagen getroffen werden:

•Eine variierende Anzahl Mder verwendeten Mikrophone hat maßgeblichen Einfluss

auf die Unterdr¨

uckung von r¨

aumlich unkorreliertem Rauschen, also das additive Mi-

144 Kapitel 8. GEV-Beamformer in GSC-Struktur

0,05

0,1

0,15

0,2

0,2 0,4 0,6

σ2

LDS

T60 [s]

GEV

GTFR

TFR

DOR

ASC

(a)

00,2 0,4 0,6

0,97

0,98

0,99

PSM

T60 [s]

GEV

GTFR

TFR

DOR

(b)

Bild 8.14: In (a) Varianz der Verh¨

altnisse der spektralen Leistungsdichte des GSC-Ausgangssignals zu der des

FBFs-Ausgangssignal und in (b) das perzeptive Qualit¨

atsmaß f¨

ur eine Sprecherrichtung von θs= 0 ◦

und zwei St¨

orquellen: eine bei -20 ◦und eine bei 60 ◦.

krophonrauschen, die diffuse St¨

orung bei h¨

oheren Frequenzen und auch bei gerichteten

St¨

orquellen f¨

ur h¨

ohere Nachhallzeiten (vgl. Bild 6.11).

•Unterschiedlich gew¨

ahltes SNR bei gerichteten St¨

orschallquellen hat insofern Auswir-

kungen, da hier das Verh¨

altnis der St¨

orleistung des r¨

aumlich korrelierten zum r¨

aumlich

unkorrelierten Rauschen maßgeblich ist. Je gr¨

oßer dieses Verh¨

altnis ausf¨

allt, desto gr¨

ßer ist auch die erzielbare St¨

orger¨

auschunterdr¨

uckung (vgl. Bild 6.10).

•Weiterhin gilt f¨

ur alle GSC-Strukturen, dass mit l¨

angeren Filterimpulsantworten in der

Adaptive Noise Cancellation f¨

ur h¨

ohere Nachhallzeiten auch eine h¨

ohere St¨

orger¨

ausch-

unterdr¨

uckung erreichbar ist.

•Interessant erscheint hier noch eine explizite Untersuchung der Anzahl der verwendeten

Filterkoeffizienten in den adaptiven Blocking-Matrix-Realisierungen, f¨

ur die im Folgen-

den einige exemplarische Ergebnisse pr¨

asentiert werden sollen.

F¨

ur das Szenario-2 wurden unterschiedliche Werte B∈ {64,128,256,512}f¨

ur die Anzahl der

Filterkoeffizienten bei einer Nachhallzeit von T60 = 0,3s gew¨

ahlt. In Bild 8.15 ist zun¨

achst

die Blocking Ability in (a) und der SNR-Gewinn in (b) dargestellt. F¨

ur die Verfahren mit

TFRBM, GTTRBM und GEVBM sind geringe Unterschiede f¨

ur unterschiedliche Werte B

zu erkennen. Insgesamt scheint tendenziell eine gr¨

oßer gew¨

ahlte Filterl¨

ange zu einer h¨

oheren

Sprachsignalunterdr¨

uckung der Blocking-Matrix-Strukturen zu f¨

uhren und zu einem schlech-

teren SNR-Gewinn des entsprechenden GSCs. Auff¨

allig sind die Ergebnisse f¨

ur das Referenz-

system mit ASCBM. Hier scheint sich die eher geringe Frequenzaufl¨

osung bei B= 64 st¨

arker

auszuwirken und f¨

uhrt zu leicht schlechteren Ergebnissen im Vergleich zur GEVBM. Generell

kann noch angemerkt werden, dass wenn durch den Fixed Beamformer der direkte Pfad nicht

koh¨

arent aufsummiert wird, umso mehr Filterkoeffizienten in der ASCBM notwendig werden,

um die gleiche Sprachsignald¨

ampfung zu erzielen. Da die TFRBM, GTFRBM und GEVBM

unabh¨

angig vom FBF arbeiten, ist hierin ein klarer Vorteil zu sehen. Dass B= 64 f¨

ur die

ASCBM eher ung¨

unstig scheint, wird auch durch die spektrale Varianz σ2

LDS in Bild 8.16 (a)

best¨

atigt. Denn f¨

ur diese kurze Filterl¨

ange ergeben sich die gr¨

oßten spektralen Abweichungen

zwischen dem GSC- und dem FBF-Ausgangssignal. Ab B≥128 stellen sich jedoch wieder

8.4. Experimentelle Untersuchungen 145

-12

-10

-8

-6

-4

-2

64 128 256 512

BA [dB]

GEV

GTFR

TFR

ASC

(a)

64 128 256 512

SNRG [dB]

GEV

GTFR

TFR

ASC

(b)

Bild 8.15: Blocking Ability in (a) und SNR-Gewinn in (b) f¨

ur eine Sprecherrichtung von θs= 45 ◦und eine

St¨

orquelle bei θn=−20 ◦f¨

ur unterschiedliche Filterl¨

angen der Blocking Matrix.

die geringsten Werte f¨

ur die Varianz im Vergleich zu den anderen Verfahren ein. Daher sollte

der GSC mit ASCBM als Referenzsystem f¨

ur die Messung der Sprachqualit¨

at mit B= 64 als

fragw¨

urdig gelten. Denn auch die PSM-Werte in Bild 8.16 (b) liegen f¨

ur die eigenvektorbasier-

ten Verfahren f¨

ur B= 64 unter denen bei B= 128. Insgesamt wird hier in ¨

Ubereinstimmung

mit [HK02] eine Filterl¨

ange von 128 oder 256 als sinnvoll erachtet.

0,1

0,2

0,3

64 128 256 512

σ2

LDS

GEV

GTFR

TFR

ASC

(a)

0,98

0,985

0,99

0,995

64 128 256 512

PSM

GEV

GTFR

TFR

(b)

Bild 8.16: In (a) Varianz der Verh¨

altnisse der spektralen Leistungsdichte des GSC-Ausgangssignals zu dem

FBF Ausgangssignal und in (b) das perzeptive Qualit¨

atsmaß f¨

ur eine Sprecherrichtung von θs= 45 ◦

und einer St¨

orquelle bei θn=−20 ◦f¨

ur unterschiedliche Filterl¨

angen der Blocking Matrix.

8.4.2 Blinder Generalized Sidelobe Canceller

Den vorangegangenen Simulationsergebnissen mit einem DSB als Fixed Beamformer im GSC

folgen nun Experimente, bei denen das Matched Filter Gl. (8.54) als Fixed Beamformer mit

den eigenvektorbasierten Blocking-Matrix-Methoden kombiniert wird. F¨

ur diese Anordnungen

ist dann keine explizite Sch¨

atzung der Sprecherrichtung mehr erforderlich. In den nachfolgen-

den Bildern 8.17 bis 8.20 sind f¨

ur die unterschiedlichen Szenarien die SNR-Gewinne und die

PSM-Werte f¨

ur den DSB und GTFRBM bzw. GEVBM sowie f¨

ur den Matched Filter und

146 Kapitel 8. GEV-Beamformer in GSC-Struktur

GTFRBM bzw. GEVBM dargestellt. Letztere sind gekennzeichnet durch “MF-GTFR” bzw.

“MF-GEV”. Dabei zeigen die SNR-Gewinne f¨

ur die beiden Varianten des Fixed Beamfor-

mers und jeweils gleicher Blocking Matrix durchweg fast identische Verl¨

aufe. Lediglich die

PSM-Werte liefern f¨

ur gr¨

oßere Nachhallzeiten leichte Differenzen zu Ungunsten der “blin-

den” Varianten mit Matched Filter Beamformer auf. Diese ergeben sich durch eine minimale

Anhebung der oberen Frequenzkomponenten, welche bei subjektiven H¨

ortests aber nicht als

st¨

orend empfunden wurde.

00,2 0,4 0,6

SNRG [dB]

T60 [s]

GEV

GTFR

MF-GEV

MF-GTFR

(a)

00,2 0,4 0,6

0,97

0,98

0,99

PSM

T60 [s]

GEV

GTFR

MF-GEV

MF-GTFR

(b)

Bild 8.17: Vergleich zwischen DSB und Matched Filter als Fixed Beamformer: SNR-Gewinn in (a) und das

perzeptive Qualit¨

atsmaß in (b) f¨

ur eine Sprecherrichtung von θs= 45 ◦und einer St¨

orquelle bei

θn=−20 ◦.

00,2 0,4 0,6

SNRG [dB]

T60 [s]

GEV

GTFR

MF-GEV

MF-GTFR

(a)

00,2 0,4 0,6

0,98

0,985

0,99

0,995

PSM

T60 [s]

GEV

GTFR

MF-GEV

MF-GTFR

(b)

Bild 8.18: Vergleich zwischen DSB und Matched Filter als Fixed Beamformer: SNR-Gewinn in (a) und das

perzeptive Qualit¨

atsmaß in (b) f¨

ur eine Sprecherrichtung von θs= 0 ◦und eine St¨

orquelle bei

θn= 60 ◦.

Die guten Ergebnisse in den Bildern 8.17 bis 8.20 des blinden Generalized Sidelobe Can-

cellers im Vergleich zu der Variante mit DSB als Fixed Beamformer und damit implizit der

Vergleich zur klassichen Variante nach Griffiths und Jim [GJ82] best¨

atigen exemplarisch des-

sen Leistungsf¨

ahigkeit. Insbesondere, da die DORBM und der DSB als optimal angesetzt

wurden. In der Regel k¨

onnen beim Sch¨

atzen der Sprecherrichtung jedoch Fehler auftreten,

wodurch die DORBM und der DSB keine optimalen Signale liefern. Dies soll abschließend

8.4. Experimentelle Untersuchungen 147

000,2 0,4 0,6

SNRG [dB]

T60 [s]

GEV

GTFR

MF-GEV

MF-GTFR

(a)

00,2 0,4 0,6

0,97

0,98

0,99

PSM

T60 [s]

GEV

GTFR

MF-GEV

MF-GTFR

(b)

Bild 8.19: Vergleich zwischen DSB und Matched Filter als Fixed Beamformer: SNR-Gewinn in (a) und das

perzeptive Qualit¨

atsmaß in (b) f¨

ur eine Sprecherrichtung von θs= 0 ◦und zwei St¨

orquellen: eine

bei -20 ◦und eine bei 60 ◦.

000,2 0,4 0,6

SNRG [dB]

T60 [s]

GEV

GTFR

MF-GEV

MF-GTFR

(a)

00,2 0,4 0,6

0,96

0,97

0,98

0,99

PSM

T60 [s]

GEV

GTFR

MF-GEV

MF-GTFR

(b)

Bild 8.20: Vergleich zwischen DSB und Matched Filter als Fixed Beamformer: SNR-Gewinn in (a) und das

perzeptive Qualit¨

atsmaß in (b) f¨

ur eine Sprecherrichtung von θs= 45 ◦und einem diffusen St¨

or-

schallfeld.

f¨

ur das Szenario-3 mit einer Broadside-Ausrichtung θt= 0◦des DSBs f¨

ur variierende geringe

Abweichungen ∆θ∈ {5◦,10◦,15◦}von der tats¨

achlichen Sprecherrichtung

θt=θs+ ∆θ(8.61)

gezeigt werden. Um die Ergebnisse in etwas kompakterer Form darzustellen soll lediglich

die Abweichung zwischen GSC mit DORBM und dem blinden GSC mit Matched Filter und

GEVBM pr¨

asentiert werden. Der in Bild 8.21 (a) gezeigte Unterschied der Blocking Ability

ergibt sich im logarithmischen Maßstab zu

∆BA = (BA|MF-GEV −BA|DORBM) dB (8.62)

und die in Bild 8.21 (b) dargestellte Differenz der SNR-Gewinne ist folglich

∆SNRG = (SNRG|MF-GEV −SNRG|DORBM) dB.(8.63)

148 Kapitel 8. GEV-Beamformer in GSC-Struktur

-15

-10

-5

00,2 0,4 0,6

∆BA [dB]

T60 [s]

∆θ= 5◦

∆θ= 10◦

∆θ= 15◦

(a)

00,2 0,4 0,6

∆SNRG [dB]

T60 [s]

∆θ= 5◦

∆θ= 10◦

∆θ= 15◦

(b)

Bild 8.21: Differenzen der Blocking Ability in (a) und des SNR-Gewinns in (b) zwischen GSC mit DSB und

DORBM und GSC mit MF und GEVBM f¨

ur unterschiedliche Sprecherrichtungen mit den Abwei-

chungen 5 ◦, 10 ◦und 15 ◦relativ zu Broadside. Der DSB ist jeweils auf θt= 0 ◦eingestellt. Die

St¨

orquelle befindet sich bei θn= 60 ◦.

An den Verl¨

aufen in Bild 8.21 (a) ist gut zu erkennen, dass mit einer gr¨

oßer werden-

den Abweichung ∆θ=θt−θsdie DORBM eine geringer werdende D¨

ampfungseigenschaft

bez¨

uglich des Sprachsignals besitzt. Andersherum kann gesagt werden, dass die D¨

ampfungs-

eigenschaft der GEVBM nahezu gleich bei relativ geringer Variation der Sprecherrichtung

ist. Aus diesen Zusammenh¨

angen heraus sind dann die Verl¨

aufe des SNR-Gewinns in Bild

8.21 (b) folgerichtig. Denn mit steigendem ∆θnimmt das relative SNR des blinden GSCs im

Vergleich zur konventionellen Methode zu.

8.5 Zusammenfassung

In diesem Kapitel wurde die Struktur des Generalized Sidelobe Cancellers4bestehend aus

einem Fixed Beamformer zur Erzeugung eines Sprachreferenzsignals, einer Blocking Matrix

zur Erzeugung eines Rauschreferenzsignals und einer Adaptive Noise Cancellation zur Mi-

nimierung des Rauschens im Ausgang des Fixed Beamformers basierend auf dem Rauschre-

ferenzsignal erl¨

autert. Ausgehend von den vorangegangenen Erkenntnissen zum statistisch

optimalen Beamforming mittels adaptiver Eigenwertzerlegung im Frequenzbereich wurden

hier zwei neue Methoden zur Bildung einer Blocking Matrix vorgestellt. Zum Einen ist dies

die GTFRBM, welche aus Verh¨

altnissen von gesch¨

atzten Raum¨

ubertragungsfunkionen be-

steht und ¨

aquivalent zur BM nach Gannot et al. [GBW01] ist. Jedoch erfolgt bei dem hier

vorgeschlagenen Verfahren die Sch¨

atzung der Verh¨

altnisse der Raum¨

ubertragungsfunktionen

im Gegensatz zu [GBW01] mit Hilfe einer Eigenwertzerlegung. Die zweite neuartige Metho-

de GEVBM wird ebenfalls mit Hilfe des dominanten Eigenvektors bestimmt, jedoch basie-

rend auf dem Orthogonalit¨

atsprinzip in Anlehnung an das Verfahren nach Hoshuyama et al.

[HSH99]. Beide Matrizen, GTFRBM und GEVBM, weisen in Kombination mit dem DSB und

4Eine GSC-Implementierung in C/C++ bestehend aus einer Sprecherrichtungsbestimmung mit Hilfe des

dominanten Eigenvektors, einem DSB als Fixed Beamformer, der GEV Blocking Matrix und dem ANC f¨

f¨

unf Mikrophone und den zuvor angegebenen Filterl¨

angen weist f¨

ur die Rechenzeit einen Echtzeitfaktor von

ca. 0,3 mit einem Intel Quad-Core Xeon E5345/2,33 GHz Prozessor auf. Hierin ist das mehrkanalige Ein- und

Ausgabemanagement bereits enthalten.

8.5. Zusammenfassung 149

der ANC eine bessere St¨

orger¨

auschreduktion im Vergleich zu dem Verfahren nach Gannot et

al. [GBW01] und der konventionellen Methode nach Griffiths und Jim [GJ82] auf. Im Allge-

meinen liefert die Variante GEVBM ein geringf¨

ugig besseres SNR und gleichzeitig weniger

Sprachverzerrungen im Vergleich zur Methode mit GTFRBM. Weiterhin wurde in diesem

Kapitel ein Matched Filter Fixed Beamformer mit den eigenvektorbasierten BM-Varianten

kombiniert und die Gesamtanordnung als blinder GSC bezeichnet. Die resultierenden Vor-

teile sind dabei wie folgt: Zum einen kann jede eigenvektorbasierte BM auch bei gleichzeitig

zum Sprecher aktivem station¨

aren Rauschen berechnet werden. Dies ist zwar mit dem Ver-

fahren nach Gannot et al. [GBW01] auch m¨

oglich, die hier vorgeschlagenen Methoden f¨

uhren

jedoch zu einer h¨

oheren St¨

orger¨

auschunterdr¨

uckung und weniger Sprachverzerrungen. Und

zum anderen wird beim Matched Filter FBF keine explizite Sprecherrichtungsbestimmung

ben¨

otigt, da dieser auf den adaptiv berechneten dominanten Eigenvektoren basiert. Es ergibt

sich dabei zwar eine leicht gr¨

oßere Sprachverzerung als bei der Variante mit einem perfekten

DSB, aber es entsteht der Vorteil einer Reduzierung des Rechenaufwandes.

150 Kapitel 8. GEV-Beamformer in GSC-Struktur

Kapitel 9

Zusammenfassung

Im Rahmen dieser Arbeit wurden Algorithmen zur mehrkanaligen St¨

orger¨

auschreduktion

basierend auf der L¨

osung eines Eigenwertproblems im Frequenzbereich entwickelt und unter-

sucht. Das betrachtete Eigenwertproblem entsteht aufgrund eines Optimierungsproblems, wel-

chem die Maximierung des Signal-zu-Rauschleistungsverh¨

altnisses am Beamformer-Ausgang

zugrunde liegt. Die L¨

osung des Eigenwertproblems kam hierbei in zwei Beamformer-Strukturen

zum Tragen: zum einen als Filter-and-Sum-Beamformer und zum anderen als Generalized Si-

delobe Canceller, bestehend aus den Komponenten Fixed Beamformer,Blocking Matrix und

Adaptive Sidelobe Canceller, wobei der neuartige Ansatz in der Blocking Matrix und im Fixed

Beamformer angesetzt wurde. Grunds¨

atzlich erm¨

oglicht der Generalized Sidelobe Canceller

eine h¨

ohere St¨

orger¨

auschreduktion als der Filter-and-Sum-Beamformer, setzt jedoch im Ver-

gleich zu diesem eine gewisse Stationarit¨

at der Sprecherposition voraus.

In einem adaptiven Filter-and-Sum-Beamformer zur breitbandigen Sprachsignalverbes-

serung kam das Kriterium der Maximierung des Signal-zu-Rauschleistungsverh¨

altnisses auf-

grund der einhergehenden Signalverzerrungen bislang nicht zum Einsatz. In der vorliegenden

Arbeit ist es gelungen, durch geeignete Nachfilterverfahren die entstehenden Sprachverzer-

rungen deutlich zu reduzieren und somit eine Anwendung zur mehrkanaligen St¨

orger¨

ausch-

reduktion zu erm¨

oglichen. Basierend auf diesen Verfahren ist ein Matched Filter als Teil

eines neuartigen Generalized Sidelobe Cancellers entstanden. Dieser beinhaltet desweiteren

eine eigenentwickelte Blocking Matrix, welcher ebenfalls das Kriterium der Maximierung des

Signal-zu-Rauschleistungsverh¨

altnisses zugrunde liegt.Signal-zu-

Die in dieser Arbeit vorgelegten Beamforming-Verfahren, sowohl Filter-and-Sum-Beam-

former als auch Generalized Sidelobe Canceller, zeichnen sich insbesondere durch ihre blin-

den Adaptionseigenschaften aus. Dies bedeutet, dass keine explizite Positionsbestimmung

des Sprechers notwendig ist und die geometrische Anordnung der Mikrophone unbekannt

sein kann. Weiterhin erfolgt bei der Adaption eine implizite, konstruktive Nutzung mehrerer

Ausbreitungspfade des Sprachsignals zwischen dem Sprecher und der Mikrophongruppe.

Der Vergleich unterschiedlicher Ans¨

atze zum statistisch optimalen Beamforming in Kapi-

tel 4 zeigte, dass die L¨

osungen sich nur in einem skalaren Faktor unterscheiden. Daraus ent-

stand der grundlegende Gedanke zur Realisierung eines Filter-and-Sum-Beamformers mittels

SNR-Maximierung und einer nachgeschalteten Normalisierung der resultierenden Filterkoef-

fizienten. Ziel der Normalisierung war es, eine approximative Darstellung eines MVDR Beam-

152 Kapitel 9. Zusammenfassung

formers zu erreichen. Im Gegensatz zu dem MVDR Beamformer bietet der neue Ansatz jedoch

den Vorteil auf eine Positionsbestimmung des Sprechers zu verzichten. Ein weiterer Vorteil

der L¨

osung des Eigenwertproblems ist die Einbeziehung der Halleigenschaften von R¨

aumen,

wie in den Simulationen in Kapitel 4 gezeigt werden konnte. Ausgehend von der Analyse der

Koh¨

arenz unterschiedlicher St¨

orger¨

auschfelder in Kapitel 2 wurde in Kapitel 5 aufgezeigt, wie

die Formulierung des zu l¨

osenden Eigenwertproblems ausf¨

allt: F¨

ur den Fall von r¨

aumlich kor-

relierten St¨

orungen wie diffuse und gerichtete St¨

orschallfelder ergibt sich das verallgemeinerte

Eigenwertproblem bez¨

uglich der Kreuzleistungsdichtematrix der St¨

orsignale und der Kreuz-

leistungsdichtematrix aus der ¨

Uberlagerung von St¨

orsignal- und Sprachsignalkomponenten.

Bei r¨

aumlich unkorrelierten St¨

orungen wie Mikrophonrauschen folgt hingegen das spezielle

Eigenwertproblem bez¨

uglich der Matrix der Kreuzleistungsdichten der Sprachsignale an den

Mikrophonen. Da jedoch bei einem diffusen St¨

orschallfeld in Abh¨

angigkeit von der Mikro-

phonanordnung eine signifikante Koh¨

arenz prim¨

ar f¨

ur den unteren Frequenzbereich vorliegt,

wird f¨

ur dieses St¨

orschallfeld ebenfalls die L¨

osung des speziellen Eigenwertproblems empfoh-

len. Dadurch f¨

allt der zu erwartende SNR-Gewinn im unteren Frequenzbereich zwar geringer

aus, jedoch ergibt sich der Vorteil einer reduzierten Rechenkomplexit¨

at. Zur Bestimmung der

jeweiligen spektralen Kreuzleistungsdichtematrizen ist eine robuste Sprache/Pause-Detektion

notwendig. Ein geeignetes Verfahren hierzu wurde im Anhang in Kapitel D vorgestellt.

In Kapitel 5 wurden iterative Verfahren zur Bestimmung eines Eigenvektors korrespondie-

rend zum gr¨

oßten Eigenwert eines speziellen und des verallgemeinerten Eigenwertproblems

pr¨

asentiert und miteinander verglichen. Dies waren zum einen eigenentwickelte Gradienten-

verfahren und zum anderen Verfahren aus der Literatur, sowohl Gradienten- als auch Fix-

punktverfahren. Hierbei zeigten die experimentellen Ergebnisse eine deutliche ¨

Uberlegenheit

der Fixpunktverfahren im Vergleich zu den Gradientenverfahren f¨

ur die Problemstellung des

verallgemeinerten Eigenwertproblems. F¨

ur das spezielle Eigenwertproblem zeigt das neuartige

Gradientenverfahren einerseits eine signifikante Robustheitssteigerung bez¨

uglich der Konver-

genz im Vergleich zu dem Gradientenverfahren nach Oja und andererseits ¨

ahnlich gute Kon-

vergenzeigenschaften wie die Fixpunktverfahren auf, mit dem Vorteil einer deutlichen Verrin-

gerung der Rechenkomplexit¨

at. F¨

ur das akustische Beamforming unter Ber¨

ucksichtigung der

Kreuzleistungsdichtematrix der St¨

orung wird daher ein Fixpunktverfahren und beim Einsatz

eines Beamformers in einer Umgebung, in der außer dem Sprecher keine weiteren dominanten

Schallquellen zu erwarten sind, das eigenentwickelte Gradientenverfahren pr¨

aferiert.

Bei der Anwendung des dominanten Eigenvektors zur akustischen Strahlformung als

Filter-and-Sum-Beamformer sind in Kapitel 6 die resultierenden Sprachverzerrungen unter-

sucht worden. Dabei kamen die in Kapitel 3 eingef¨

uhrten Bewertungskriterien zum Einsatz,

insbesondere die wahrnehmungsbasierte Qualit¨

atsbewertung PEMO-Q. Die vorgestellten drei

eigenentwickelten Verfahren zur Normalisierung der Filterkoeffizienten wiesen eine signifikan-

te Reduzierung der Sprachverzerrung auf, wobei die blinde analytische Normalisierung die

besten Ergebnisse f¨

ur alle betrachteten akustischen Szenarien zeigte. Aufgrund der guten

Adaptionseigenschaften des neuen Beamforming-Verfahrens und der Verwendung kurzer Fil-

terl¨

angen ist das Folgen einer variierenden Sprecherposition m¨

oglich.

Bei der Realisierung des neuartigen Generalized Sidelobe Cancellers in Kapitel 8 findet

die L¨

osung eines Eigenwertproblems im Frequenzbereich insbesondere im Teilkomplex der

Blocking Matrix ihre Anwendung. Hier war der Grundgedanke, ¨

aquivalent zu der Blocking Ma-

trix nach Hoshuyama, einen zum Sprachsignal orthogonalen Unterraum mittels eines Sprach-

153

referenzsignals zu erzeugen. Im Gegensatz zu der Blocking Matrix nach Hoshuyama ist jedoch

kein explizites Sprachreferenzsignal erforderlich, da dies inh¨

arenter Bestandteil des neuen Al-

gorithmus ist. Die neuartige Blocking Matrix bietet somit den Vorteil, dass keine Sprecherrich-

tungsbestimmung notwendig ist und eine Adaption auch in stark gest¨

orten Umgebungen mit

permanent aktiven St¨

orschallquellen m¨

oglich ist. Diese Vorz¨

uge bietet die Blocking Matrix

nach Gannot zwar auch, jedoch weist diese deutliche Sprachverzerrungen und eine geringere

St¨

orger¨

auschreduktion im Vergleich zu der Eigenentwicklung auf. Die klassische Variante der

Blocking Matrix nach Griffiths und Jim kann zwar ebenfalls bei permanentem St¨

orschall-

feld betrieben werden, hat jedoch zur eigenentwickelten Methode den Nachteil, dass nur der

direkte Ausbreitungspfad des Sprachsignals ber¨

ucksichtigt wird.

Der in der GSC-Struktur notwendige Fixed Beamformer wurde in zwei Varianten umge-

setzt: zum einen als Delay-and-Sum-Beamformer und zum anderen mittels eines eigenent-

wickelten Matched Filters. Die f¨

ur den DSB erforderliche Sprecherrichtung wurde mit einem

neuartigen Verfahren, ebenfalls basierend auf dem dominanten Eigenvektor, ermittelt. Dieses

Verfahren zeigt im Gegensatz zu den in der Literatur diskutierten Methoden den Vorteil,

nahezu unabh¨

angig von dem betrachteten St¨

orger¨

auschfeld zu sein, wie die experimentellen

Ergebnisse in Kapitel 7 demonstrieren. Das Matched Filter als Fixed Beamformer weist zwar

im Gegensatz zum DSB leichte Sprachverzerrungen auf, bietet jedoch den Vorteil einen blin-

den Generalized Sidelobe Canceller zu realisieren: es ist keine Sprecherrichtungsbestimmung

notwendig und die geometrische Anordnung der Mikrophone kann unbekannt sein.

154 Kapitel 9. Zusammenfassung

Anhang A

Lineare Algebra – Matrizen

Im Folgenden sollen einige grundlegende Begriffe bez¨

uglich der in dieser Arbeit verwendeten

Matrix-Algebra definiert werden.

A.1 Grundlagen

Rang F¨

ur eine Matrix Ader Dimension (m×n) stimmt die maximale Anzahl linear unab-

h¨

angiger Spalten (Spaltenrang) mit der maximalen Anzahl linear unabh¨

angiger Zeilen (Zei-

lenrang) ¨

uberein und wird kurz als Rang bezeichnet

Rang(A)≤min{m, n}.(A.1)

Spur Die Summe ¨

uber alle Hauptdiagonalenelemente aii mit i= 1,2,...,m einer Matrix

Ader Dimension (m×m) wird Spur genannt

Spur(A) =

i=1

aii.(A.2)

Hermitesch Eine komplexe, quadratische Matrix Aheißt hermitesch, wenn sie gleich der

konjugierten, transponierten Matrix Aist

A= (A∗)T=AH.(A.3)

Unit¨

ar/Orthogonal Dies ist eine Bezeichnung f¨

ur eine komplexwertige, quadratische Ma-

trix A, wenn deren Spalten zueinander orthonormal sind. Damit gilt

AHA=I,(A.4)

mit If¨

ur die Einheitsmatrix und weiterhin f¨

ur die Inverse

A−1=AH.(A.5)

Ist Aeine reelwertige Matrix, die die Eigenschaften Gl. (A.4) und Gl. (A.5) erf¨

ullt, so wird

sie als orthogonal bezeichnet.

156 Anhang A. Lineare Algebra – Matrizen

Kern/Bild Gegeben sei die lineare Abbildung A:V→W. F¨

ur den Kern der Abbildung

gilt

Kern(A) = {v∈V:0=Av}(A.6)

und die Menge der Vektoren aus W, die die Abbildung tats¨

achlich annimmt, wird Bild

genannt

Bild(A) = {w∈W:w=Av,v∈V}.(A.7)

Ableitung bez¨

uglich eines komplexen Vektors Es sei gegeben der komplexe Vektor

F= [F1, F2,...,Fm]Tder Dimension (m×1). Die Elemente des Vektors bestehen aus Fi=

xi+j·yi,i= 1,2,...,mmit den reellwertigen Gr¨

oßen xiund yiund der imagin¨

aren Einheit

j. Dann ist ∂/∂Fdie Ableitung bez¨

uglich Fund ∂/∂F∗die korrespondierende komplexe

konjugierte Ableitung

∂

∂F=1







∂

∂x1−∂

∂y1

∂

∂x2−∂

∂y2

∂

∂xm−∂

∂ym







∂

∂F∗=1







∂

∂x1

+∂

∂y1

∂

∂x2

+∂

∂y2

∂

∂xm

+∂

∂ym







(A.8)

Mit Hilfe von Gl. (A.8) kann folgender Gradientenvektor definiert werden

∇F∗= 2 ∂

∂F∗.(A.9)

Span Die lineare H¨

ulle (auch engl. linear span) bildet einen Vektorraum aus einer vorgege-

benen Menge von Vektoren {vi:i= 1,...,m}durch deren Linearkombinationen

span(v1,v2,...,vm) = {a1v1+a2v2+...+amvm:a1, a2,...,am∈C}.(A.10)

Matrix Inversion Lemma Es seien Aund Bzwei positiv definite (M×M)-Matrizen, D

sei positiv definit der Dimension (N×N) und Cist eine (M×N)-Matrix. Dann gilt f¨

A=B−1+CD−1CH(A.11)

das Matrix Inversion Lemma1[Hay02]

A−1=B−BC[D+CHBC]−1CHB.(A.12)

A.2 Matrix Inversion f¨

ur optimales Beamforming

An dieser Stelle wird zum einen die ¨

Aqivalenz des MV-Ansatzes nach Gl. (4.21) und der

L¨

osung Gl. (4.28) zum L¨

osungsansatz

minimiere

F(Ω) FH(Ω)ΦXX(Ω)F(Ω) (A.13)

mit FH(Ω)H(Ω) = 1 (A.14)

1Das Matrix Inversion Lemma ist in der Literatur ebenfalls unter Sherman-Morrison-Woodbury oder Wood-

bury Formel bzw. Woodbury Matrix Identit¨

at bekannt.

A.2. Matrix Inversion f¨

ur optimales Beamforming 157

mit den resultierenden Filterkoeffizienten

FFrost(Ω) = Φ−1

XX(Ω)H(Ω)

HH(Ω)Φ−1

XX(Ω)H(Ω).(A.15)

gezeigt, welche nach Frost [Fro72] mit Hilfe eines Gradienten-Abstiegs-Verfahrens berechnet

werden k¨

onnen. Zum Anderen wird die faktorisierte MMSE-L¨

osung Gl. (4.45) hergeleitet.

Grundlage in beiden F¨

allen ist die Invertierung der Matrix ΦXX(Ω), wobei im Folgenden auf

die frequenzabh¨

angige Notation – gekennzeichnet durch den Parameter Ω – verzichtet werden

soll. Zur Invertierung von

ΦXX =φScScHHH+ΦNN (A.16)

sind die Matrizen in Gl. (A.11) zu definieren als:

B−1=ΦNN,C=pφScScH,D= 1.(A.17)

Die Anwendung von Gl. (A.12) auf Gl. (A.16) ergibt

φScScHHH+ΦNN−1=Φ−1

NN −φScScΦ−1

NNHHHΦ−1

1 + φScScHHΦ−1

NNH.(A.18)

Mit Φ−1

NNHHHΦ−1

NNH=HHΦ−1

NNHΦ−1

NNH(A.19)

folgt weiter

φScScHHH+ΦNN−1H="Φ−1

NN −φScScHHΦ−1

NNHΦ−1

1 + φScScHHΦ−1

NNH#H(A.20)

1 + φScScHHΦ−1

NNHΦ−1

NNH.(A.21)

L¨

osung nach Frost [Fro72] Wird das Ergebnis der Invertierung Gl. (A.21) in Gl. (A.15)

eingesetzt, so erh¨

alt man nach dem K¨

urzen des skalaren Faktors 1/(1 + φScScHHΦ−1

NNH)

FFrost =Φ−1

NNH

HHΦ−1

NN(Ω)H=FGMVDR.(A.22)

Faktorisieren der MMSE-L¨

osung Um die Faktorisierung des mehrkanaligen Wiener

Filters in Abschnitt 4.4 durchzuf¨

uhren wird in

FGMMSE =Φ−1

XXφScScH=φScScHHH+ΦNN−1φScScH(A.23)

Gl. (A.21) eingesetzt

FGMMSE =φScSc

1 + φScScHHΦ−1

NNHΦ−1

NNH(A.24)

="φScSc

φScSc+HHΦ−1

NNH−1#Φ−1

NNH

HHΦ−1

NNH(A.25)

="φScSc

φScSc+HHΦ−1

NNH−1#FGMVDR.(A.26)

158 Anhang A. Lineare Algebra – Matrizen

A.3 Matrix Inversion f¨

ur Fixpunkt-Adaption

Das Ziel ist hier, die iterative Sch¨

atzung

ΦNN,κ+1 =αˆ

ΦNN,κ + (1 −α)NκNH

κ(A.27)

zu invertieren, wobei auf die frequenzabh¨

angige Notation verzichtet wird, mit κder Iterati-

onsindex und mit αdie Gl¨

attungskonstante bezeichnet ist. Die Matrizen in Gl. (A.11) werden

wie folgt substituiert:

B−1=αˆ

ΦNN,κ,C=√1−αNκ,D= 1.(A.28)

Nach Einsetzen der Matrizen Gl. (A.28) in Gl. (A.12) ergibt sich f¨

Φ−1

NN,κ+1 =1

α

I−

Φ−1

NN,κNκNH

1−α+NH

κˆ

Φ−1

NN,κNH

κ

ˆ

Φ−1

NN,κ.(A.29)

Anhang B

R¨

aumliche Koh¨

arenz eines diffusen Schallfeldes

Ausschlaggebend f¨

ur die Gr¨

oße der Koh¨

arenz ist der Phasenunterschied zwischen den Schall-

wellen an den Aufnahmeorten. Ist die Wellenl¨

ange im Vergleich zum Abstand der Mikro-

phonsignale sehr groß, so ist der Phasenunterschied an den Empfangsorten gering und die

Signale sind sich sehr ¨

ahnlich. Entsprechend der Darstellung in Bild B.1 sollen zwei Quellen in

gleichem Abstand zum Mittelpunkt einer zweikanaligen Mikrophonanordnung angenommen

werden, welche die beiden Signale q1(t) und q2(t) emittieren. Es soll eine Freifeldausbreitung

und f¨

ur die Quellen die Fernfeldn¨

aherung gelten. Dann empfangen die beiden Sensoren die

folgenden Signale

x1(t) = q1(t+ cos ϕ1

d12

2c) + q2(t+ cos ϕ2

d12

2c) (B.1)

x2(t) = q1(t−cos ϕ1

d12

2c) + q2(t−cos ϕ2

d12

2c),(B.2)

wobei d12 den Abstand zwischen den Sensoren und cdie Schallgeschwindigkeit angibt. Die

beiden Einfallswinkel sind beschrieben durch ϕ1bzw. ϕ2. Nach der DTFT ergeben sich folglich

die Signale

X1(Ω) = Q1(Ω)ej(Ωd12 cos ϕ1)/(2T c)+Q2(Ω)ej(Ωd12 cos ϕ2)/(2T c)(B.3)

X2(Ω) = Q1(Ω)e−j(Ωd12 cos ϕ1)/(2T c)+Q2(Ω)e−j(Ωd12 cos ϕ2)/(2T c)(B.4)

mit der normierten Kreisfrequenz Ω und der Abtastperiode T. Die komplexe Koh¨

arenzfunk-

tion kann ¨

aquivalend zu Gl. (2.16) angegeben werden als

γX1X2(Ω) = E{X1(Ω)X∗

2(Ω)}

pE{|X1(Ω)|2}E{|X2(Ω)|2}.(B.5)

Nun soll E{|X1(Ω)|2}=E{|X2(Ω)|2}gelten1, so dass Gl. (B.5) mit Gl. (B.3) und Gl. (B.4)

vereinfacht werden kann zu

γX1X2(Ω) = 1

2ejΩd12 cos ϕ1/(T c)+ejΩd12 cos ϕ2/(T c).(B.6)

Werden also zwei Quellen mit gleicher Leistung auf einer Kugeloberfl¨

achen angeordnet, er-

gibt sich die Koh¨

arenzfunktion Gl. (B.6) durch das arithmetische Mittel zweier komplexer

1Die Erwartungswertbildung E{|X1(Ω)|2}und E{|X2(Ω)|2}gilt bez¨

uglich aller Realisierungen von Q1und

Q2.

160 Anhang B. R¨

aumliche Koh¨

arenz eines diffusen Schallfeldes

Exponentialterme. Diese Eigenschaft kann nun auf NQuellen erweitert werden

γX1X2(Ω) = 1

i=1

ejΩd12 cos ϕi/(T c)(B.7)

und f¨

ur unendlich viele Quellen verteilt auf einer Kugeloberfl¨

ache mit dem Radius r

γX1X2(Ω) = 1

4πr2

2π

ejΩd12 cos ϕ/(T c)r2sin ϕdϕdθ(B.8)

−1

ejΩd12ϑ/(T c)dϑ(B.9)

=Tc

2jΩd12 ejΩd12/(T c)−e−jΩd12/(T c)(B.10)

=sin(Ωd12/(Tc))

Ωd12/(Tc)(B.11)

= si Ωd12

Tc .(B.12)

Das Ergebnis in Gl. (B.12) ist gerade die Koh¨

arenzfunktion eines diffusen Schallfelds.

x1(t)x2(t)

q1(t)

q2(t)

ϕ1

ϕ2

Bild B.1: Modell sph¨

arisch angeordneter unkorrellierter Schallquellen.

Anhang C

Geometrische Anordnungen der Simulationen

In diesem Kapitel sollen die verschiedenen Simulationsumgebungen beschrieben werden, wel-

che im Rahmen dieser Arbeit verwedet wurden. Zum einen sind dies die geometrischen An-

ordnungen zur St¨

orger¨

auschunterdr¨

uckung bei Anwesenheit von nur einer Sprachsignalquelle

und zum anderen die geometrischen Anordnungen zur Quellentrennung bei zwei vorhande-

nen Sprachsignalquellen. Allgemein gilt die Abtastrate von fAb = 12kHz f¨

ur alle verwende-

ten Quellsignale und jeweils eine ¨

aquidistante Anordnung der Mikrophone im Abstand von

d= 4cm zueinander.

C.1 Spiegelquellenmethode f¨

ur St¨

orger¨

auschunterdr¨

uckung

Zur Untersuchung der St¨

orger¨

auschunterdr¨

uckung wurden zwei Positionen f¨

ur die Sprachsi-

gnalquellen gew¨

ahlt, jeweils mit dem Abstand von 0,8m zum Mittelpunkt des Arrays. F¨

die erste – gekennzeichnet durch S1 – gilt die Einfallsrichtung θs,1= 45◦und die zweite –

gekennzeichnet durch S2 – entsprechend θs,2= 0◦, jeweils relativ zu Broadside. Des Weiteren

sind zwei St¨

orsignalquellen jeweils im Abstand von 1,6m zum Mittelpunkt des Arrays plat-

ziert, eine bei einer Richtung von θn,1=−20◦– gekennzeichnet durch N1 – und die andere

bei θn,2= 60◦– gekennzeichnet durch N2 – ebenfalls relativ zu Broadside. Alle Quellen be-

finden sich in der gleichen Ebene auf einer H¨

ohe von 1,5m in einem Raum der L¨

ange 6m,

der Breite 5m und der H¨

ohe 3m. Die Anordnung in dem simulierten Raum kann dem Bild

C.1 entnommen werden.

Die Signale an den Sensoren ergeben sich letztendlich durch unterschiedliche Kombinatio-

nen der Quellsignale. Grunds¨

atzlich gilt jedoch, dass den Mischsignalen an den Mikrophonen

jeweils unkorreliertes weißes Rauschen mit einem SNR von 25dB hinzugef¨

ugt wurde. Als

Nutzsignale kamen 10 Beispiels¨

atze der TIMIT-Datenbank zum Einsatz; 5 von m¨

annlichen

und 5 von weiblichen Sprechern. Die St¨

orsignalquelle N1 bei θn,1=−20◦basiert auf der Auf-

nahme eines PC-L¨

ufterger¨

ausches und hat somit Tiefpass-Charakter. Die zweite St¨

orquelle

N2 bei θn,2= 60◦ist k¨

unstlich erzeugtes weißes Rauschen mit anschließender Tiefpassfilte-

rung. Die beiden Leistungsdichtespektren von N1 und N2 sind in Bild C.2 dargestellt. Die

Kombination der verschiedenen Schallquellen ist durch folgende 4 Szenarien gegeben:

Szenario-1 Sprachquelle S1 ist aktiv (mit und ohne diffuses St¨

orschallfeld)

Szenario-2 Sprachquelle S1 und St¨

orquelle N1 sind aktiv

162 Anhang C. Geometrische Anordnungen der Simulationen

3 m 0,5 m

4 cm

S2 S1

θs,1

θn,1θn,2

Bild C.1: Simulierte geometrische Anordnung f¨

ur die St¨

orger¨

auschunterdr¨

uckung. F¨

ur die Nutzsignalquellen

gilt ein radialer Abstand von 0,8 m und θs,1= 45◦, sowie θs,2= 0◦. F¨

ur die St¨

orquellen gilt ein

radialer Abstand von 1,6 m und θn,1=−20◦, sowie θn,2= 60◦.

Szenario-3 Sprachquelle S2 und St¨

orquelle N2 sind aktiv

Szenario-4 Sprachquelle S2 und beide St¨

orquellen N1 und N2 sind aktiv

Bei der Erzeugung der Mikrophonsignale mittels der Spiegelquellenmethode variiert die Nach-

hallzeit T60, das SNR und die Anzahl der verwendeten Mikrophone. Diese Angaben sind

jeweils an der Stelle in dieser Arbeit zu finden, an denen die Signale verwendet wurden.

-60

-40

-20

0246

(a)

St¨

orquelle N1

P(Ω) [dB]

Ω/(2πT) [kHz]

-60

-40

-20

0246

(b)

St¨

orquelle N2

P(Ω) [dB]

Ω/(2πT) [kHz]

Bild C.2: Leistungsdichtespektrum P(Ω) in (a) f¨

ur die St¨

orquelle N1 und in (b) f¨

ur f¨

ur die St¨

orquelle N2.

C.2 Spiegelquellenmethode f¨

ur blinde Quellentrennung

Zur Untersuchung der Separationsleistung bei der blinden Quellentrennung mittels PCA Be-

amforming wurden in einem simulierten Raum mit einer L¨

ange von 6m, einer Breite von 5m

C.2. Spiegelquellenmethode f¨

ur blinde Quellentrennung 163

und einer H¨

ohe von 3m zwei simultan aktive Sprachsignalquellen S1 und S2 platziert. Der

Abstand der Quellen zum Mittelpunkt der linearen Mikrophongruppe betr¨

agt jeweils 2m und

die Ausrichtungen betragen θs,1=−30◦, sowie θs,2= 45◦. Es wurden wiederum 10 Sprach-

beispiele von 5 m¨

annlichen und 5 weiblichen Sprechern verwendet, wodurch sich insgesamt

45 Kombination ergeben. Dabei sind die beiden verhallten Signale mit gleicher Leistung an

den Mikrophonen aufaddiert und zus¨

atzlich unkorreliertes weißes Rauschen mit einem SNR

von 25dB hinzugef¨

ugt worden. Die Anordnung in dem simulierten Raum kann dem Bild C.3

entnommen werden. Im dieser Arbeit ist die Anordnung aus Bild C.3 mit Szenario-5 bezeich-

3 m 0,5 m

4 cm

S1 S2

θs,1

θs,2

Bild C.3: Simulierte geometrische Anordnung f¨

ur die blinde Quellentrennung. Die Sprachsignalquellen haben

einen radialen Abstand von 2 m und die Einfallsrichtungen sind θs,1=−30 ◦, sowie θs,2= 45 ◦.

net. Die Verhallung wurde wieder mit der Spiegelquellenmethode durchgef¨

uhrt, wobei die

Nachhallzeit T60 und die Anzahl der verwendeten Mikrophone variiert wurden.

164 Anhang C. Geometrische Anordnungen der Simulationen

Anhang D

Robuste Sprache/Pause-Detektion

In Sprachsignalverarbeitungssystemen zur Telekommunikation oder zur akustischen Szenen-

analyse ist die Detektion von Sprachaktivit¨

at eine sehr wichtige, fundamentale Komponen-

te [SHU07]. Abh¨

angig von der konkreten Anwendung sind unterschiedliche Strategien zur

Sprache/Pause-Detektion (engl. Voice Activity Detection, VAD) notwendig. Bei z. B. der auto-

matischen Spracherkennung m¨

ussen alle Segmente, welche Sprachanteile beinhalten vertrau-

ensw¨

urdig identifiziert werden und es sollte kein Sprachsegment ausgelassen werden [ETS02].

Beim Einsatz zur Sch¨

atzung von spektralen Leistungsdichten – wie hier in dieser Arbeit – ist

es jedoch akzeptabel, nicht jedes Segment, sei es Sprache oder Pause, als solches zu identifi-

zieren. Vielmehr sollte beim Entwurf darauf geachtet werden, dass wenn eine Klassifizierung

als Sprache oder Pause erfolgt, diese auch sehr vertrauensw¨

urdig ist. Daher soll eine VAD

mit drei m¨

oglichen Klassen bzw. Zust¨

anden eingesetzt werden: Zu den sonst ¨

ublichen Spra-

che und Pause Zust¨

anden wird noch ein weiterer unentschiedener Zustand (engl. don’t know)

hinzugef¨

ugt.

Typischerweise kann das Klassifikationsproblem in zwei Teilen betrachtet werden: der Ge-

nerierung von Entscheidungsmerkmalen und der Anwendung einer Entscheidungsregel. Als

Entscheidungsmerkmal kann z. B. die Signalenergie dienen [SKS99, MK02, ETS02, WHUS07]

oder die inh¨

arente Charakteristik von Sprachsignalen [KDO05, Tuc92, IN06]. Basierend auf

den generierten Merkmalen erfolgt dann die eigentliche Klassifikation z. B. mittels einer einfa-

chen Schwellwertentscheidung oder statistisch motiviert ¨

uber das Verh¨

altnis von Wahschein-

lichkeitsdichtefunktionen (engl. Likelihood Ratio Test, LRT). Im Folgenden soll die VAD nach

[SKS99] analysiert und modifiziert werden. Hierbei dient die Signalenergie, oder genauer ge-

sagt das SNR als Enscheidungsmerkmal und die Entscheidungsregel ist der Likelihood Ratio

Test.

D.1 Likelihood-Ratio-Entscheidungsregel

Das einkanalige Mikrophonsignal X(Ωk) soll im Frequenzbereich f¨

ur jede diskrete Spektral-

komponente Ωkaus der Komponente des Sprachanteils S(Ωk) und einem unkorrelierten addi-

tiven Rauschterm N(Ωk) bestehen, wobei an dieser Stelle auf den Blockindex verzichtet wer-

den soll. Weiterhin wird angenommen, dass der Sprach- und Rauschanteil jeweils komplexe

Gaußverteilungen besitzt. Dann k¨

onnen die bedingten Wahrscheinlichkeitsdichtefunktionen

p(X(Ωk)|H0(Ωk)) bez¨

uglich der Beobachtung einer spektralen Rauschkomponente gegeben

166 Anhang D. Robuste Sprache/Pause-Detektion

die Hypothese H0(Ωk) einer Sprachpause und entsprechend p(X(Ωk)|H1(Ωk)) f¨

ur die Be-

obachtung von Sprache und Rauschen gegeben die Hypothese H1(Ωk) f¨

ur Sprachaktivit¨

geschrieben werden als

p(X(Ωk)|H0(Ωk)) = 1

πσ2

N(Ωk)exp −|X(Ωk)|2

σ2

N(Ωk)(D.1)

p(X(Ωk)|H1(Ωk)) = 1

π(σ2

N(Ωk) + σ2

S(Ωk)) exp −|X(Ωk)|2

σ2

N(Ωk) + σ2

S(Ωk),(D.2)

wobei σ2

N(Ωk) und σ2

S(Ωk) die Varianzen von N(Ωk) und S(Ωk) bezeichnen. Das frequenzab-

h¨

angige Likelihood Ratio ist definiert als

Λ(Ωk) = p(X(Ωk)|H1(Ωk))

p(X(Ωk)|H0(Ωk)) =1

1 + ξ(Ωk)exp γ(Ωk)ξ(Ωk)

1 + ξ(Ωk),(D.3)

mit dem so genannten a posteriori SNR

γ(Ωk) = |X(Ωk)|2

σ2

N(Ωk)(D.4)

und dem a priori SNR

ξ(Ωk) = σ2

S(Ωk)

σ2

N(Ωk).(D.5)

Die Frequenzkomponenten sind als unabh¨

angig untereinander anzusehen. Unter Ber¨

ucksichti-

gung aller Frequenzkomponenten kann das Likelihood Ratio als Produkt ¨

uber alle Frequenzen

(D.3) und nach Logarithmieren als Summe ¨

uber alle frequenzabh¨

angigen Likelihood Ratios

angegeben werden. Daraus folgt dann die gemittelte Entscheidungsregel

log(Λ) = 1

L−1

k=0

log(Λ(Ωk))

H1(Ωk)

≷

H0(Ωk)

η, (D.6)

mit der L¨

ange Lf¨

ur die diskrete Fourier-Transformation und der Entscheidungsschwelle η.

Robustheitssteigerung der Entscheidungsregel

Da gerade am Ende einer Sprachsequenz sehr wenig Energie in dem Signal vorhanden ist,

f¨

uhrt die direkte Anwendung von Gl. (D.6) h¨

aufig zu verfr¨

uhten Pause-Entscheidungen. Daher

kann eine Verz¨

ogerung (engl. Hang-Over) abfallender Werte von Λ vorgenommen werden.

In [SKS99] wird hierf¨

ur ein Verfahren basierend auf einem Hidden Markov Modell (HMM)

und in [CK01] eine empirisch motivierte Gl¨

attung der Likelihood Ratio vorgeschlagen. Als

Erweiterung der Verarbeitung von Einzelbeobachtungen und einer Nachverarbeitung mittels

HMM oder Gl¨

attung ist in [RSB+05] alternativ die Ausnutzung von Mehrfachbeobachtungen

in die Likelihood-Entscheidungsregel integriert. In zahlreichen Tests, welche im Rahmen dieser

Arbeit durchgef¨

uhrt wurden, hat sich die Gl¨

attung nach [CK01] als sehr effektive Variante

herausgestellt:

Ψm(Ωk) = exp{βlog(Ψm−1(Ωk)) + (1 −β) log(Λm(Ωk))},(D.7)

D.2. Sch¨

atzung des a priori SNR 167

wobei nun der Blockindex min der Rekursion Gl. (D.7) aufgef¨

uhrt ist. Mit βist die Gl¨

at-

tungskonstante bezeichnet, die z. B. zu β= 0.85 gesetzt werden kann. ¨

Aquivalent zu Gl.

(D.6) ergibt sich dann folgende Entscheidungsregel:

log(Ψm) = 1

L−1

k=0

log(Ψm(Ωk))

H1(Ωk)

≷

H0(Ωk)

η. (D.8)

D.2 Sch¨

atzung des a priori SNR

Um nun die Regel Gl. (D.8) auswerten zu k¨

onnen ist es notwendig das a priori SNR Gl.

(D.5) f¨

ur jeden Block mzu sch¨

atzen, z. B. mit Hilfe der so genannten Decision-Directed (DD)

Methode nach [EM84]:

ξm(Ωk) = αˆ

m−1(Ωk)

ˆσ2

N,m−1(Ωk)+ (1 −α)MAX{γm(Ωk),1},(D.9)

wobei ˆ

m(Ωk) die gesch¨

atzte Amplitude der Sprache, αeine Gl¨

attungskonstante (z. B. α=

0.96) und MAX{·} der Maximum-Operator ist, mit MAX{ψ, ϑ}=ψf¨

ur ψ > ϑ, und sonst

MAX{ψ, ϑ}=ϑ. Der Amplitudensch¨

atzer ergibt sich nach [EM84] zu

Sm(Ωk) = rπ

2pυm(Ωk)

ˆγm(Ωk)M{−0,5; 1; −υm(Ωk)}|Xm(Ωk)|(D.10)

mit der konfluent hypergeometrischen Funktion

M{−0,5; 1; −υm(Ωk)}= exp −υm(Ωk)

2·(1 + υm(Ωk))I0υm(Ωk)

2

+υm(Ωk)I1υm(Ωk)

2,

(D.11)

wobei

υm(Ωk) = ˆ

ξm(Ωk)

1 + ˆ

ξm(Ωk)ˆγm(Ωk).(D.12)

Mit I0{·} in Gl. (D.11) ist die modifizierte Besselfunktion nullter Ordnung und mit I1{·} der

ersten Ordnung bezeichnet. Da die Auswertung der Besselfunktionen sehr rechenintensiv ist

wurde f¨

ur die Implementierung der VAD folgende Approximation von Gl. (D.11) eingesetzt:

M{−0,5; 1; −υ} ≈ c

M(υ) = 1,163pυ+ 1,1−0,0015υ−0,22 (D.13)

wobei in Gl. (D.13) auf den Frequenz- und Blockindex verzichtet wurde. In Bild D.1 (a) ist der

Verlauf der hypergeometrischen Funktion f¨

ur einen relevanten Wertebereich von υdargestellt

und in D.1 (b) das Quadrat des relativen Fehlers

er(υ) = M{−0,5; 1; −υ}− c

M(υ)

M{−0,5; 1; −υ}.(D.14)

An Bild D.1 ist deutlich zu erkennen, dass Gl. (D.13) eine sehr gute N¨

aherung darstellt.

Zur Berechnung des a priori SNRs Gl. (D.5) ist nun noch die Varianz des Rauschens zu

sch¨

atzen. Dieses kann z. B. in den Sprachpausen erfolgen welches hier als implizite Sch¨

atzung

bezeichnet werden soll oder es wird extern z. B. mit Hilfe der Minimum Statistik (MS)

Methode nach [Mar01] berechnet, welches als explizite Sch¨

atzung bezeichnet werden soll.

168 Anhang D. Robuste Sprache/Pause-Detektion

-10-10 00

10 2020

(a) (b)

·10 -4

M(−0,5; 1; −υ)

r(υ)

10 log10(υ) [dB]10 log10(υ) [dB]

Bild D.1: Verlauf der konfluent hypergeometrischen Funktion nach Gl. (D.11) in (a) und in (b) der quadratische

Fehler der Approximation nach Gl. (D.13).

Implizite Sch¨

atzung der Rauschvarianz

Das Likelihood Ratio soll als Informationsquelle zur Sch¨

atzung einer Sprachpause verwendet

werden. Da dies f¨

ur jede Frequenz erfolgt, wird im Folgenden auf den Frequenzindex erzichtet.

Mit Hilfe der Bayes’schen Regel f¨

ur bedingte Verteilungsdichtefunktionen p(H0,m|Xm)p(Xm) =

p(Xm|H0,m)p(H0,m) und p(Xm) = p(Xm|H0,m)p(H0,m)+p(Xm|H1,m)p(H1,m) kann die Wahr-

scheinlichkeit f¨

ur eine Sprachpause gegeben die Beobachtung Xmgeschrieben werden als

p(H0,m|Xm) = 1

1 + Υm

(D.15)

mit

Υm=p(H1,m)p(Xm|H1,m)

p(H0,m)p(Xm|H0,m)=p(H1,m)

p(H0,m)Ψm.(D.16)

In Anlehnung an [SKS99] soll Υmrekursiv basierend auf einem Hidden Markov Modell berech-

net werden. In dem benutzen zeitinvarianten Markov Prozess bezeichnet aij den Zustands-

ubergang von der Hypothese Hinach Hj, mit i, j ∈ {1,2}. Die Werte sind empirisch gesetzt

auf: a00 = 0,8; a01 = 0,2; a10 = 0,1; a11 = 0,9. Die Rekursionsgleichung f¨

ur Gl. (D.16)

ergibt sich dann zu:

Υm=p(H0,m−1, Xm−1)a01 +p(H1,m−1, Xm−1)a11

p(H0,m−1, Xm−1)a00 +p(H1,m−1, Xm−1)a10

Ψm(D.17)

=a01 + Υm−1a11

a00 + Υm−1a10

Ψm.(D.18)

Die frequenzabh¨

angige Rauschvarianz kann somit rekursiv berechnet werden zu

ˆσ2

N,m(Ωk) = αˆσ2

N,m−1(Ωk) + (1 −α)E{|Nm(Ωk)|2|Xm(Ωk)}(D.19)

mit

E{|Nm(Ωk)|2|Xm(Ωk)} ≈ p(H0,m(Ωk)|Xm(Ωk))|Xm(Ωk)|2

+ (1 −p(H0,m(Ωk)|Xm(Ωk)))ˆσ2

N,m−1(Ωk),(D.20)

wobei p(H0,m(Ωk)|Xm(Ωk)) in Gl. (D.20) aus Gl. (D.15) durch Einsetzen von Gl. (D.18)

hervorgeht.

D.3. Analyse von Fehlsch¨

atzungen der Rauschvarianz 169

Explizite Sch¨

atzung der Rauschvarianz

Die Grundidee der Minimum Statistik nach [Mar94] besteht darin, dass das Minimum der

spektralen Leistungsdichte auf das zu sch¨

atzende Rauschen zur¨

uckzuf¨

uhren ist. Dieses kann

folglich durch eine Minima-Suche in einer gewissen Anzahl von vergangenen Verarbeitungsbl¨

cken pro Spektralkomponente auch w¨

ahrend Sprachaktivit¨

at ermittelt werden. Offensichtlich

besteht jedoch zwischen der zu sch¨

atzenden Rauschvarianz und den so bestimmten Minima

eine systematische Fehlsch¨

atzung. Daher wurde in [Mar01] ein Verzerrungsfaktor als Kor-

rekturterm eingef¨

uhrt. Aufgrund der Komplexit¨

at des Verfahrens sei auf [Mar01] f¨

ur weitere

Details verwiesen. An dieser Stelle soll lediglich die F¨

ahigkeit des implementierten Algorith-

mus, eine kontinuierliche Sch¨

atzung der St¨

orger¨

auschleistung auch w¨

ahrend Sprachsequenzen

durchzuf¨

uhren, anhand des Bildes D.2 exemplarisch verdeutlicht werden. Auf der gesamten

L¨

ange des ausgew¨

ahlten Zeitintervalls liegt Sprachaktivit¨

at vor und dem Sprachsignal wurde

weißes Rauschen mit zeitvarianter Leistungsdichte in Form zweier S¨

agez¨

ahne ¨

uberlagert. Das

SNR variert in dem Bereich zwischen 0dB und 15dB. In Bild D.2 ist zum einen das gegl¨

at-

tete Periodogramm der resultierenden Spektralkomponente bei ca. 1kHz und zum anderen

das gesch¨

atzte St¨

orspektrum Bc·Pmin ¨

uber der Zeit aufgetragen. Hierbei bezeichnet Pmin das

ermittelte Minimum und Bcden Korrekturterm. Ohne quantitative Aussagen zu treffen ist

in Bild D.2 rein qualitativ zu erkennen, dass die Sch¨

atzung der St¨

orung dem S¨

agezahnverlauf

folgt.

368

Betragsspektrum [dB]

t[s]

Bc·Pmin

Bild D.2: Exemplarische Darstellung der Sch¨

atzung der Rauschvarianz nach [Mar01] f¨

ur eine Spektralkompo-

nente des Sprachsignals bei 1 kHz, welches mit einem s¨

agezahnf¨

ormigen Rauschen in dem Bereich

zwischen 0 dB und 15 dB ¨

uberlagert wurde.

D.3 Analyse von Fehlsch¨

atzungen der Rauschvarianz

Die relative Abweichung des Likelihood Ratios soll in Abh¨

angigkeit von einer Fehlsch¨

atzung

der Rauschvarianz untersucht werden, zuerst f¨

ur eine ¨

Ubersch¨

atzung der Varianz, einerseits

verursacht durch Einbeziehung von Sprachanteilen in die Sch¨

atzung aber andererseits auch

durch zeitliche ¨

Anderungen der Rauschstatistik. Danach erfolgt eine Analyse f¨

ur eine Un-

tersch¨

atzung der Rauschvarianz. Da das prinzipielle Verhalten f¨

ur alle Frequenzen gleich ist

wird wieder auf den Frequenzindex verzichtet. Die Abweichung wird nun zuerst definiert zu

∆σ2

N=KSσ2

S,(D.21)

170 Anhang D. Robuste Sprache/Pause-Detektion

wobei der Koeffizient KS∈[0, .., 1] die Gr¨

oße der Abweichung relativ zur Varianz der Sprache

angibt. Dann kann das a priori SNR angegeben werden als

ξ=σ2

σ2

N+ ∆σ2

ξ−1+KS

,(D.22)

mit dem wahren a priori SNR ξ=σ2

S/σ2

N. Es soll angenommen werden, dass das a posteriori

SNR gegeben ist durch γ=ξ+ 1, wodurch sich die Likelihood-Ratio-Abweichung angeben

l¨

aßt zu

∆ log(Λ) = γξ

1 + ξ−log(1 + ξ)− γ˜

1 + ˜

ξ−log(1 + ˜

ξ)!.(D.23)

Nimmt man nun ein bestimmtes a priori SNR an, so kann die Erh¨

ohung des Likelihood Ratios

∆ log(Λ) f¨

ur unterschiedliche Abweichungen ∆σ2

Nberechnet werden.

Einen etwas anderen Ausdruck f¨

ur Gl. (D.22) erh¨

alt man, wenn die Abweichung der

gesch¨

atzten Rauschvarianz angenommen wird zu

∆σ2

N=KNσ2

N,(D.24)

wobei der Koeffizient KN∈]−1, .., 0] nun die Gr¨

oße der Abweichung relativ zur Rauschvarianz

festlegt. Mit dieser Differenz ergibt sich dann das a priori SNR

ξ=ξ

1 + KN

,(D.25)

welches wiederum in Gl. (D.23) eingesetzt werden kann.

In Bild D.3 ist Gl. (D.23) exemplarisch ausgewertet f¨

ur die fehlerhaft gesch¨

atzten a priori

SNR nach Gl. (D.22) und Gl. (D.25). Bild D.3 zeigt offensichtlich ein sehr sensibles Verhalten

-8

-6

-4

-2

(a)

0 dB

3 dB

6 dB

9 dB

12 dB 15 dB 18 dB

-0,8 -0,6 -0,4 -0,2

∆ log(Λ)

(b)

0 dB

3 dB

6 dB

9 dB

12 dB

15 dB

0,8

0,60,40,2

∆ log(Λ)

Bild D.3: Abweichung des Likelihood Ratios nach Gl. (D.23) f¨

ur unterschiedliche a priori SNR: In (a) relativ zur

Varianz des Rauschens (∆σ2

N=KNσ2

N) und in (b) relativ zur Varianz der Sprache (∆σ2

N=KSσ2

S).

der Entscheidungsregel bez¨

uglich der Sch¨

atzung der Rauschvarianz. Daher ist es zwingend

notwendig, einerseits ein m¨

oglichst schnelles Nachf¨

uhren von ˆσ2

N,m(Ωk) zu erm¨

oglichen, aber

andererseits sicherzustellen, dass keine Sprachanteile in die Sch¨

atzung einfließen. Das Verhal-

ten der Entscheidungsregel bez¨

uglich der Abbildung D.3 (b) kann weitergehend dahin inter-

pretiert werden, dass falls Energie der Sprache in die Sch¨

atzung der Varianz des Rauschens

einfließt, der Wert log(Λ(m)) sprunghaft ansteigt und somit noch sicherer Sprachpausen de-

tektiert werden. Somit erfolgt dann wieder eine zuverl¨

assige R¨

uckf¨

uhrung von ˆσ2

N,m(Ωk) auf

den wahren Wert.

D.4. Simulationen 171

Robustheitssteigerung der Rauschvarianzsch¨

atzung

Insbesondere beim Einsetzen von Sprache bzw. beim Ausklingen ist p(H0,m(Ωk)|Xm(Ωk))

in Gl. (D.20) eventuell nicht schnell genug nachgef¨

uhrt. Um nun ein Lecken von Sprachan-

teilen in die Sch¨

atzung von ˆσ2

N,m(Ωk) zu verhindern wird eine Hintergrundsch¨

atzung von

E{|Nm(Ωk)|2|Xm(Ωk)}in Gl. (D.20) in einem Schieberegister vorgenommen und die Wer-

te werden erst in Gl. (D.19) verwendet, wenn z. B. in 10 aufeinanderfolgenden Bl¨

ocken

p(H0,m(Ωk)|Xm(Ωk)) >0,2 gilt. Allerdings beginnt das F¨

ullen des Registers erst nach einem

gewissen Offset von z. B. 20 aufeinanderfolgenden Bl¨

ocken mit p(H0,m(Ωk)|Xm(Ωk)) >0,2.

D.4 Simulationen

Es sollen nun experimentelle Ergebnisse f¨

ur die Detektionsgenauigkeit der VAD folgen. Daf¨

wurden 20 ¨

Außerungen von verschiedenen Sprechern (10 m¨

annlich und 10 weiblich, abgetas-

tet mit 12kHz) zu einem Audiosignal der L¨

ange 120 Sekunden mit einem Sprachanteil von

ungef¨

ahr 50% zusammengefaßt. Eine manuelle Markierung des reinen Sprachsignals auf Ver-

arbeitungsbl¨

ocken der L¨

ange 128 diente als Referenz f¨

ur die Auswertungen. Die DFT-L¨

ange

der VAD wurde auf L= 256 gesetzt, wobei jeweils sich halb ¨

uberlappende Bl¨

ocke nach einer

Hamming-Fensterung transformiert wurden.

Station¨

ares Rauschen

Dem reinen Signal wurde nun station¨

ares weißes Rauschen mit unterschiedlichem SNR im

Bereich von 0dB bis 25dB ¨

uberlagert. In der Signalentdeckungstheorie stellt die Receiver

Operating Characteristic (ROC) Kurve eine Methode zur Darstellung von Fehlern bin¨

arer

Entscheidungen dar und dient der Grenzwertoptimierung. Man ermittelt f¨

ur jeden m¨

oglichen

Grenzwert – hier die Entscheidungsvariable η– die resultierenden relativen H¨

aufigkeitsver-

teilungen und errechnet die jeweils zugeh¨

orige Sensitivit¨

at und Spezifit¨

at. Im Diagramm gibt

die Ordinate die Sensitivit¨

at (= relative H¨

aufigkeit aller richtig-positiven Testergebnisse) und

die Abszisse die Spezifit¨

at (= relative H¨

aufigkeit aller falsch-positiven Testergebnisse) an. Im

Falle der VAD bezeichnet die Sensitivit¨

at die F¨

alle p(log(Ψm)> η|Hm,1) und die Spezifit¨

die F¨

alle p(log(Ψm)> η|Hm,0). Die resultierenden ROC Kurven sind in Bild D.4 dargestellt.

Es ist sehr deutlich die hohe Detektionsgenauigkeit insbesondere f¨

ur mittlere SNR-Werte zu

erkennen.

Robustheitssteigerung der Detektionsgenauigkeit

Da jedoch die Werte log(Ψm) f¨

ur Sprache und Pause bei niedrigen SNR deutlich enger bei-

einander liegen als f¨

ur hohe SNR, ist eine gute Wahl f¨

ur den Arbeitspunkt der Entschei-

dungsvariablen ηnicht f¨

ur einen großen Dynamikbereich der erwarteten SNR m¨

oglich. Daher

ist es sinvoll zwei Schwellwerte η0und η1, mit η0< η1, einzuf¨

uhren und eine Pause anzu-

zeigen, wenn gilt log(Ψm)< η0bzw. Sprache anzuzeigen f¨

ur log(Ψm)> η1. Daraus folgt,

dass f¨

ur η0≤log(Ψm)≤η1der unentschiedene Zustand eintritt. Da f¨

ur die Anwendung

der VAD in dieser Arbeit zwar eine sichere Detektion von Sprachsegmenten erforderlich und

aber gleichzeitig ein schnelles Nachf¨

uhren der entsprechenden Algorithmen bei Sprachakti-

vit¨

at w¨

unschenswert ist, wurde η1= 0,8 aus den Auswertungen der Simulationen gew¨

ahlt.

Unter der Annahme einer station¨

aren St¨

orung, bzw. einer sich nur sehr langsam ¨

andernden

172 Anhang D. Robuste Sprache/Pause-Detektion

00,1 0,2 0,3 0,4 0,5

0,9

0,95

Sinkendes SNR

p(∆ log(Ψm)> η|Hm,1)

p(∆ log(Ψm)> η|Hm,0)

Bild D.4: ROC-Kurven f¨

ur station¨

ares weißes Rauschen mit unterschiedlichem SNR: 25 dB, 20 dB, 15 dB,

10 dB, 5 dB und 0 dB. Sch¨

atzung der Rauschvarianz mit impliziter Methode nach Gl. (D.19) und

Gl. (D.20) unter Beachtung der aufgef¨

uhrten Robustheitsaspekte.

Rauschstatistik, kann ein Verpassen von Pausesegmenten sehr wohl geduldet werden, wodurch

umgekehrt bei der Detektion von Pausen diese auch mit einer h¨

oheren Wahrscheinlichkeit kor-

rekt sind. Daher wurde η0= 0,2 gew¨

ahlt. Die sich ergebenden Detektionsgenauigkeiten sind

in der Tabelle D.1 zusammengefaßt.

Sprache Pause

falsch korrekt falsch korrekt

SNR p(log(Ψm)>η1|Hm,0)p(log(Ψm)>η1|Hm,1)p(log(Ψm)<η0|Hm,1)p(log(Ψm)<η0|Hm,0)

0 dB 0,02 % 69,00 % 1,76 % 53,44 %

5 dB 0,35 % 87,41 % 1,10 % 54,41 %

10 dB 1,14 % 93,88 % 1,03 % 57,12 %

15 dB 2,45 % 97,10 % 0,87 % 59,75 %

20 dB 3,65 % 98,04 % 0,71 % 67,56 %

25 dB 4,97 % 98,40 % 0,52 % 73,05 %

Tabelle D.1: Detektionsergbnisse f¨

ur falsch bzw. korrekt detektierte Sprache- und Pause-Segmente unter Ver-

wendung der VAD mit drei Zust¨

anden f¨

ur variierendes SNR.

Instation¨

ares Rauschen

Als n¨

achstes sollen noch ROC-Kurven pr¨

asentiert werden f¨

ur einen Vergleich der impliziten

Sch¨

atzung der Rauschvarianz nach Gl. (D.20) und der expliziten kontinuierlichen Sch¨

atzung

mit Hilfe des Minimum-Statistik-Verfahrens, jeweils eingesetzt in Gl. (D.19). Dieser Test

wurde f¨

ur drei Arten von Rauschszenarien durchgef¨

uhrt: Station¨

ares weißes Rauschen mit

einem SNR von 10dB, f¨

ur sich sprunghaft ¨

anderndes weißes Rauschen zwischen einem SNR

von 10dB und 20dB (siehe Bild D.5 (a)) und f¨

ur sich pulsierend ¨

anderndes weißes Rauschen

im Bereich zwischen einem SNR von 6dB und 14dB (siehe Bild D.5 (b)). Die Ergebnisse

f¨

ur die drei Rauschszenarien sind in Bild D.6 dargestellt. Zum einen ist in der Abbildung zu

sehen, dass bei station¨

arem Rauschen die Ergebnisse mit der expliziten Sch¨

atzung minimal

schlechter sind als mit der impliziten Methode. Dies ist durch die kontinuierliche Sch¨

atzung

der Minimum-Statistik-Methode zu erkl¨

aren, da so stets kleine ¨

Anderungen der Rauschvarianz

D.5. Zusammenfassung 173

(a)

100

120

x(t)

f[kHz]

t[s]

·104

-2

(b)

100

120

x(t)

f[kHz]

t[s]

·104

-2

Bild D.5: Zeitverl¨

aufe und Spektrogramme der beiden verwendeten nichtstation¨

aren Rauscharten: In (a)

sprunghafte ¨

Anderng des Rauschens zwischen einem SNR von 10 dB und 20 dB und in (b) pul-

sierendes Rauschen im Bereich zwischen einem SNR von 6 dB und 14 dB.

uber der Zeit auftreten, die sich aber negativ auf die Entscheidungsregel auswirken. Zum

anderen wird deutlich, dass mit der impliziten Sch¨

atzmethode bei instation¨

arem Rauschen

keine zuverl¨

assigen Sprachaktivit¨

atsentscheidungen mehr zu treffen sind. Hingegen liefert die

VAD betrieben mit der expliziten Rauschsch¨

atzung weiterhin akzeptable Ergebnisse.

00,1 0,2 0,3 0,4 0,5

0,9

0,95

StatImp

StatExp

SpImp

SpExp

PulsImp

PulsExp

p(∆ log(Ψm)> η|Hm,1)

p(∆ log(Ψm)> η|Hm,0)

Bild D.6: ROC-Kurven f¨

ur station¨

ares weißes Rauschen (bezeichnet mit “Stat”), f¨

ur sich sprunghaft ¨

anderndes

weißes Rauschen (bezeichnet mit “Sp”) und f¨

ur sich pulsierend ¨

anderndes weißes Rauschen (bezeich-

net mit “Puls”); jeweils f¨

ur die implizite Sch¨

atzung der Rauschvarianz (bezeichnet mit “Imp”) und

expliziter Sch¨

atzung (bezeichnet mit “Exp”).

D.5 Zusammenfassung

Das hier beschriebene Verfahren zur Sprache/Pause-Detektion erlaubt eine robuste Steuerung

der im Verlauf dieser Arbeit vorgestellten Beamforming-Algorithmen. Da die Problemstellung

bei der mehrkanaligen Sprachsignalverbesserung in der Unterdr¨

uckung station¨

arer St¨

orge-

r¨

auschquellen lag, wird die VAD mit der impliziten Rauschvarianzsch¨

atzung betrieben. Weil

die Analyse von Fehlsch¨

atzungen der Rauschvarianz ergeben hat, dass die Entscheidungsre-

gel ein sehr sensitives Verhalten bez¨

uglich Abweichungen der Sch¨

atzung aufweist, wurde zur

Steigerung der Zuverl¨

assigkeit der Rauschvarianzsch¨

atzung die beschriebene Hintergrund-

sch¨

atzung angewendet. Bei der Implementierung wurde insbesondere auf Robustheitsaspekte

geachtet, die ein sicheres Erkennen von Pause- und Sprache-Segmenten gew¨

ahrleisten. Diese

174 Anhang D. Robuste Sprache/Pause-Detektion

kamen bei der Gl¨

attung der Entscheidungsregel und insbesondere durch die Nutzung von drei

Zust¨

anden f¨

ur die Klassifikation zum Tragen.

Anhang E

Adaptive Eigenwertzerlegung

In diesem Abschnitt soll zuerst die Originalherleitung der Oja-Regel pr¨

asentiert werden. Dann

folgen experimentelle Ergebnisse f¨

ur die Schrittweite von Gradientenverfahren zur L¨

osung

des speziellen und des allgemeinen Eigenwertproblems, welche essentiell f¨

ur die Stabilit¨

at der

Algorithmen ist.

E.1 Oja Lernregel

Die Originalherleitung der Oja-Regel nach [Oja82] basiert auf einer Normierung der Filter-

koeffizienten und der anschließenden Taylorreihenentwicklung, also ohne den Ansatz mittels

Lagrange-Multiplikator, wobei C= 1 gew¨

ahlt ist. Die Maximierungsaufgabe ist nachwievor

Gl. (5.26) und normiert wird nun die Hebbsche Lernregel Gl. (5.21)

v1,κ =ˆ

v1,κ−1+µXκY∗

||ˆ

v1,κ−1+µXκY∗

κ||.(E.1)

Mit der Vektornotation ˆ

v1,κ = [ˆv1,1,κ,...,ˆv1,M,κ]Tf¨

ur die MKomponenten ergibt sich f¨

den Nenner von Gl. (E.1) eine Funktion f(µ) abh¨

angig von der Schrittweite

f(µ) = M

i=1

[ˆv1,i,κ−1+µY ∗

κXi,κ][ˆv∗

1,i,κ−1+µYκX∗

i,κ]!1/2

.(E.2)

Die Funktion f(µ) wird mittels Taylor-Entwicklung in der Umgebung des Punktes µ=µ0= 0

durch eine Potenzreihe Pf(µ0) dargestellt

Pf(µ0) = M

i=1 |ˆv1,i,κ−1|21/21 + µ

i=1 Y∗

κXi,κˆv∗

1,i,κ−1+YκX∗

i,κˆv1,i,κ−1+R(µ2) (E.3)

= 1 + µYκY∗

κ+R(µ2),(E.4)

wobei R(µ2) die Restglieder zweiter und h¨

oherer Ordnung beschreibt, Yκ=PM

i=1 Xi,κˆv∗

1,i,κ−1

gilt und die Nebenbedingung eingehalten sein soll (||ˆ

v1,κ−1|| = 1). Mit der N¨

aherung

1 + ε≈1−ε(E.5)

176 Anhang E. Adaptive Eigenwertzerlegung

f¨

ur εnahe Null folgt nach Einsetzen von Gl. (E.4) in Gl. (E.1) mit Gl. (E.5)

v1,κ =ˆ

v1,κ−1+µXκY∗

κ1−µYκY∗

κ−R(µ2).(E.6)

Nach der Ausmultiplikation von Gl. (E.6) und dem Weglassen aller Terme der Ordnung O(µ2)

bzw. h¨

oherer Ordnung ergibt sich letztendlich das selbe Ergebnis wie in Gl. (5.32)

v1,κ =ˆ

v1,κ−1+µY ∗

κ(Xκ−Yκˆ

v1,κ−1).(E.7)

E.2 Schrittweite

Ein wesentliches Problem von Gradientenverfahren ist die Wahl einer geeigneten Schrittweite.

Wird diese klein gew¨

ahlt, so ist die Konvergenzgeschwindigkeit gering, daf¨

ur sind aber auch

die Schwankungen um den station¨

aren Punkt klein. M¨

ochte man allerdings eine schnelle Ad-

aption realisieren ist die Schrittweite zwangsl¨

aufig auf einen m¨

oglichst hohen Wert zu setzen.

Hierbei ist dann insbesondere darauf zu achten, dass das Gradientenverfahren nicht diver-

giert. Es ist also eine Absch¨

atzung f¨

ur eine maximale Schrittweite notwendig. Dies soll anhand

von Simulationen zuerst f¨

ur das spezielle und danach f¨

ur das allgemeine Eigenwertproblem

erfolgen.

Spezielles Eigenwertproblem

Es soll nun anhand von Simulationen die Stabilit¨

at der Oja-Regel f¨

ur unterschiedliche Werte

der Schrittweite untersucht und mit dem neuen Verfahren verglichen werden. Daher sollen

die deterministischen Verfahren Gl. (5.31) und Gl. (5.36) durch hochgestellte Bezeichnung

“(Oja)” und “(Neu)” an den Schrittweiten gekennzeichnet sein

v1,κ =









v1,κ−1+µ(Oja) ΦXX −ˆ

1,κ−1ΦXX ˆ

v1,κ−1ˆ

v1,κ−1,Ojas Regel

1 + ˆ

1,κ−1ˆ

v1,κ−1

2ˆ

1,κ−1ˆ

v1,κ−1

v1,κ−1+µ(Neu) ΦXX −ˆ

1,κ−1ΦXX ˆ

v1,κ−1

1,κ−1ˆ

v1,κ−1!ˆ

v1,κ−1,Neue Regel.

(E.8)

Jeder Koeffizientenvektor ˆ

v1,κ soll nun f¨

ur jeden Iterationsschritt durch die Linearkombi-

nation der Eigenvektoren ausgedr¨

uckt werden

v1,κ =

i=1

ci,κvi,(E.9)

wobei ci,κ das Gewicht f¨

ur den Iterationsschritt κbezeichnet. Mit Gl. (E.9) wird aus Gl. (E.8)

cκ=









cκ−1+µ(Oja) Λ−diagcH

κ−1Λcκ−1cκ−1,Ojas Regel

cκ−1

1 + cH

κ−1cκ−1

2cH

κ−1cκ−1

+µ(Neu) Λ−diagcH

κ−1Λcκ−1

κ−1cκ−1!cκ−1,Neue Regel.

(E.10)

Mit der Vektornotation cκ= (c1,κ,...,cM,κ)Tund der Diagonalmatrix der Eigenwerte Λ=

diag{λi}, welche der Gr¨

oße nach angeordnet sein sollen λ1> λ2≥... ≥λM>0. Bei Aus-

f¨

uhrung der Rekursionsvorschriften Gl. (E.10) verschwinden die ci,κ mit i > 1 f¨

ur große κ.

E.2. Schrittweite 177

Dieses Verhalten wird nun als Funktion des Quadrats der Norm cH

0c0=Kbei der Initiali-

sierung betrachtet. Ein weiterer betrachteter Parameter ist das Verh¨

altnis zwischen gr¨

oßtem

und kleinstem Eigenwert χ=λ1/λM.

Durch Simulationen hat sich folgende Schreibweise zur Formulierung einer oberen Grenze

µmax f¨

ur die Schrittweite als geeignet erwiesen

µmax =2

ξmin ·λ1

,(E.11)

wobei experimentell unterschiedliche Werte ξmin f¨

ur Ojas Regel (ξ(Oja)

min ) und f¨

ur die neue Regel

(ξ(Neu)

min ) ermittelt wurden:

ξ(Oja)

min < ξ(Oja)(χ, K) = 1 + K−1

2(1 + 1

χ)< K (E.12)

ξ(Neu)

min < ξ(Neu)(χ) = 1 −1

χ<1.(E.13)

Beispielhafte Simulationsergebnisse f¨

ur ξ(Oja)

min und ξ(Neu)

min sind in Bild E.1 f¨

ur K= 50 und

K= 100 dargestellt, wobei die Dimension M= 4 gew¨

ahlt wurde. Zu sehen sind die markierten

Messwerte, die gerade noch zu einer Konvergenz von Gl. (E.10) f¨

uhren: f¨

ur K= 50 markiert

durch “x” und f¨

ur K= 100 markiert durch “”. Außerdem sind die kontinuierlichen Verl¨

aufe

der Funktionen Gl. (E.12) und Gl. (E.13) aufgetragen.

1510 15

20 25 30

100

(a)

ξ(Oja)(χ, K)

K= 50

K= 100

ξ(Oja)

min experimentell:

K= 100 ×K= 50

0,2

0,4

0,6

0,8

1510 15 20 25 30

(b)

ξ(Neu)(χ)

ξ(Neu)

min experimentell:

K= 100 ×K= 50

Bild E.1: Simulationsergebnisse der unteren Schranken ξ(Oja)

min und ξ(Neu)

min sowie der Verlauf der Absch¨

atzungen

ξ(Oja)(χ, K) und ξ(Neu)(χ) aus Gl. (E.12) und Gl. (E.13) f¨

ur Ojas Regel in (a) und die neue Regel in

(b).

Da eine tempor¨

are, starke Abweichung der Norm des Vektors ˆ

v1,κ von der Nebenbe-

dingung unvorhersehbar ist und im fortlaufenden Betrieb durchaus vorkommen kann, ist

die Unabh¨

angigkeit der maximalen Schrittweite von der Norm ||ˆ

v1,κ|| der neuen Regel sehr

w¨

unschenswert (vgl. Gl. (E.13) unabh¨

angig von K). Andernfalls muss bei der direkten Ver-

wendung der Oja-Regel die Schrittweite um eine Absch¨

atzung f¨

ur eine maximale Abweichung

K−1 reduziert werden.

178 Anhang E. Adaptive Eigenwertzerlegung

Allgemeines Eigenwertproblem

Die beiden Varianten Algorithmus 9 (A-Grad-GG)/(A-RQgrad-GG) des Gradientenverfah-

rens sind nicht in eine Form ¨

aquivalent zu E.10 zu ¨

uberf¨

uhren. Daher wird die Schreibweise

µκ=ρ

rκ

(E.14)

f¨

ur eine experimentelle Ermittlung der maximalen Schrittweite gew¨

ahlt. Der Parameter rκ

stellt den Rayleigh Quotienten zum aktuellen Iterationsschritt dar. Der Faktor ρwird nun auf

stetig steigende Werte gesetzt bis schließlich die beiden Varianten des Gradientenverfahrens

Gl. (E.16) nicht mehr konvergieren sondern divergieren. Mit diesem maximalen Wert ρmax

ergibt sich die maximale Schrittweite

µmax,κ =ρmax

rκ

.(E.15)

Die Experimente wurden mit akustischen Daten nach Szenario-2 durchgef¨

uhrt. Das gerich-

tete Tiefpassrauschen ist mit einem SNR von 5dB dem 5-kanaligen Sprachsignal ¨

uberlagert,

und zus¨

atzlich ist unkorreliertes Rauschen mit einem SNR von 25dB hinzugef¨

ugt worden.

Es werden die deterministischen Gradientenverfahren hergenommen mit perfekt bestimmten

KLDS-Matrizen ˆ

ΦXX und e

ΦNN =ˆ

ΦNN/ˆσ2

N, und ˆσ2

N= Spur{ˆ

ΦNN}/M:

v1,κ =C2+ˆ

1,κ−1e

ΦNN ˆ

v1,κ−1

2ˆ

1,κ−1e

ΦNN ˆ

v1,κ−1

v1,κ−1+









µ(r)

κˆ

ΦXX ˆ

v1,κ−1−rκe

ΦNN ˆ

v1,κ−1

µ(ξ)

κˆ

ΦXX ˆ

v1,κ−1−ξκe

ΦNN ˆ

v1,κ−1(E.16)

mit dem Rayleigh Quotienten

rκ=ˆ

1,κ−1ˆ

ΦXX ˆ

v1,κ−1

1,κ−1e

ΦNN ˆ

v1,κ−1

,(E.17)

der Zielfunktion nach der original Herleitung Gl. (5.66)

ξκ=ℜ(ˆ

1,κ−1ˆ

ΦXX e

ΦNN ˆ

v1,κ−1

1,κ−1e

ΦNN e

ΦNN ˆ

v1,κ−1)(E.18)

und den Schrittweiten

µ(r)

κ=ρ(r)

rκ

, µ(ξ)

κ=ρ(ξ)

rκ

.(E.19)

Es ergeben sich somit die beiden maximalen Faktoren ρ(r)

max und ρ(ξ)

max . Exemplarische Si-

mulationsergebnisse sind in Bild E.2 dargestellt f¨

ur zwei Nachhallzeiten, T60 = 0,05s und

T60 = 0,5s. Zu sehen sind in der oberen Zeile in (a) und (b) die gr¨

oßten Eigenwerte λN,max

und die kleinsten Eigenwerte λN,min von e

ΦNN. In der mittleren Zeile in (c) und (d) ist der

maximale Schrittweitefaktor ρ(r)

max f¨

ur die Version von Gl. (E.16) mit dem Rayleigh Quotienten

und in der letzten Zeile in (e) und (f) ist entsprechend der maximale Schrittweitefaktor ρ(ξ)

max

f¨

ur die Version mit der Zielfunktion nach der originalen Herleitung abgebildet. Alle Verl¨

aufe

sind aufgetragen ¨

uber der diskreten Frequenz Ωk/(2πT ) f¨

ur k= 0,...,128 mit 1/T = 12kHz.

Die in Bild E.2 dargestellten Ergebnisse sowie alle weiteren gemachten Experimente f¨

uh-

ren zu dem Schluss, dass die Schrittweitefaktoren ρ(r), ρ(ξ)<1 gew¨

ahlt werden sollten um

Stabilit¨

at zu gew¨

ahrleisten.

E.2. Schrittweite 179

(a)

T60 = 0,05s

Ωk/(2πT) [kHz]

λN

λN,max

λN,min

(b)

T60 = 0,5s

Ωk/(2πT ) [kHz]

λN

λN,max

λN,min

(c)

T60 = 0,05s

Ωk/(2πT) [kHz]

ρ(r)

max

(d)

T60 = 0,5s

Ωk/(2πT ) [kHz]

ρ(r)

max

(e)

T60 = 0,05s

Ωk/(2πT) [kHz]

ρ(ξ)

max

(f)

T60 = 0,5s

Ωk/(2πT ) [kHz]

ρ(ξ)

max

Bild E.2: In (a) und (b) der Verlauf des gr¨

oßten und kleinsten Eigenwertes von e

ΦNN. Maximaler Schrittwei-

tefaktor f¨

ur die Version von Gl. (E.16) mit dem Rayleigh Quotienten als Zielfunktion in (c) und (d)

sowie f¨

ur die Version mit der Zielfunktion nach der originalen Herleitung in (e) und (f).

180 Anhang E. Adaptive Eigenwertzerlegung

Anhang F

Exkurs zur blinden Quellentrennung

Im Folgenden soll ein Mehr-Sprecher-Szenario mit PQuellen und MMikrophonen betrachtet

werden, wobei M≥Pgilt. Das Signal der i-ten Quelle im Frequenzbereich sei mit Qi(Ω) be-

schrieben, wodurch sich der Vektor f¨

ur alle Quellen als Q(Ω) = (Q1(Ω), .., QP(Ω))Tschreiben

l¨

asst. Entsprechend existieren PRaum¨

ubertragungsfunktionsvektoren Hi(Ω), i= 1,...,P

zwischen den Quellen und den Mikrophonen, die die so genannte Mischungsmatrix bilden

H(Ω) = 





H1,1(Ω) H2,1(Ω) . . . HP,1(Ω)

H1,2(Ω) ....

H1,M (Ω) . . . HP,M (Ω)





(F.1)

= [H1(Ω),H2(Ω), .., HP(Ω)].(F.2)

F¨

ur das mehrkanalige Mikrophonsignal ergibt sich dann

X(Ω) =

i=1

Hi(Ω)Qi(Ω) + N(Ω) (F.3)

=H(Ω)Q(Ω) + N(Ω),(F.4)

wobei N(Ω) = (N1(Ω),...,NM(Ω))Teinen M-kanaligen Rauschterm beschreibt (die einzel-

nen Pfade iseien unkorreliert zueinander). Das Ziel der akustischen Quellentrennung besteht

nun darin, ein System zu entwickeln, welches aus dem Gemisch der Sprachsignale an den Mi-

krophonen alle Quellsignale extrahiert. Dieses kann allgemein als MIMO-System (Multiple-

Input Multiple-Output) bezeichnet werden. Soll die Realisierung ohne Informationen ¨

uber die

Array-Geometrie und die Quellenposition erfolgen, so wird sie in der Regel auch als blinde

Quellentrennung (engl. Blind Source Separation, BSS) bezeichnet. Eine besondere Problem-

stellung ist hierbei die Tatsache, dass alle Quellen gleichzeitig aktiv sein k¨

onnen.

Ein Großteil der Arbeiten zur blinden Quellentrennung in den letzten Jahren basiert

darauf, die Eingangsdaten mit Hilfe der Independent Component Analysis (ICA) so zu trans-

formieren, dass die Ergebnisse statistisch unabh¨

angig voneinaner sind [HKO01]. Dabei werden

Statistiken h¨

oherer Ordnung und nichtlineare Kostenfunktionen eingesetzt, wodurch der Re-

chenaufwand ¨

ublicherweise sehr hoch ist. Da die ICA-Ans¨

atze prinzipiell mit instantanen

Mischungen arbeiten, wird die Entmischung im Frequenzbereich pro Frequenzkomponente

182 Anhang F. Exkurs zur blinden Quellentrennung

separat durchgef¨

uhrt [SMM05]. Dabei entsteht das so genante Permutationsproblem, d. h.

die Zuordnung der separierten frequenzabh¨

angigen Daten zu den entsprechenden Quellen ist

nicht eindeutig. Die Zuordnung aller entmischten Frequenzkomponenten jeweis zu den zu-

geh¨

origen Quellen muss noch mit weiteren Algorithmen explizit durchgef¨

uhrt werden. Ein

Ansatz hierbei ist, adaptive Beamformer mit geometrischen Nebenbedingungen und die Ver-

fahren zur BSS zu kombinieren [PA02, KAM07]. Dabei ist jedoch anzumerken, dass solche

Methoden nicht mehr blind arbeiten.

Grunds¨

atzlich ist vom physikalischen Standpunkt her die Separation von zwei akusti-

schen Quellen durch BSS-Verfahren im Frequenzbereich ¨

aquivalent zum so genannten Null-

Beamforming mittels zweier adaptiver Beamformer. In beiden F¨

allen wird das Signal der

st¨

orenden Quelle ged¨

ampft, indem ein Minumum an der korrespondierenden Stelle der Richt-

charakteristik der Filterkoeffizienten geformt wird, welche zu der anderen, der gew¨

unschten

Quelle geh¨

oren [SMH+03]. Dabei ist die Leistungsf¨

ahigkeit der BSS-Verfahren limitiert durch

die Leistungsf¨

ahigkeit von perfekt adaptierten Beamformern [Mak03]. Diese haben allerdings

den Vorteil, dass die separierten Signale unverzerrt bleiben, unter der Voraussetzung, die je-

weiligen Sprecherpositionen zu kennen. Diese sind jedoch gerade in einer verhallten Umgebung

bei gleichzeitiger Aktivit¨

at der Quellen sehr schwierig zu bestimmen.

In diesem Kapitel soll gezeigt werden, wie mit Hilfe blinder PCA Beamformer ein mehr-

kanaliges Gemisch von zwei Quellsignalen separiert werden kann. Dabei bleiben die Vorteile

der r¨

aumlichen Filterung erhalten: trotz der Adaption im Frequenzbereich entsteht kein Per-

mutationsproblem, und die Ausgangssignale sind nur geringf¨

ugig verzerrt.

F.1 Unterbesetzter Zeit-Frequenz-Raum

Obwohl f¨

ur die Herleitung des statistisch optimalen Beamformings von station¨

aren Signalen

ausgegangen wurde, sind Sprachsignale an sich instation¨

are Zufallssignale. Denn gerade in

der zeitlichen ¨

Anderung der statistischen Eigenschaften liegt die Information der gesproche-

nen Sprache. Betrachtet man also das Spektrum einer ¨

Außerung ¨

uber der Zeit, so kann die

spektrale Zusammensetzung erheblich schwanken. Weiterhin kann im Allgemeinen eine deutli-

che Unterbesetzung der Zeit-Frequenz-Darstellung beobachtet werden (engl. Time-Frequency-

Sparseness): nur wenige Spektralkomponenten tragen pro betrachteten Zeitabschnitt einen

Großteil der Energie. Dabei ist insbesondere die grobe Klassifikation in stimmhafte und

stimmlose Sequenzen sehr aufschlussreich. Bei den stimmhaften Lauten konzentriert sich die

Energie auf die Stimmbandgrundfrequenz und ihre harmonischen Oberschwingungen. Stimm-

lose, rausch¨

ahnliche Laute weisen ein gleichm¨

aßigeres Spektrum im oberen Spektralbereich

auf. Diese Energieverteilung und die Unterbesetzung im Zeit-Frequenz-Raum kann mit Hilfe

des Korrelationskoeffizienten zwischen zwei Signalen in unterschiedlichen Frequenzen dar-

gestellt werden. Die Synchronit¨

at der Amplituden von verschiedenen Frequenzen soll hier

beispielhaft nach [AK00, Ane01] durch die Amplitudenmodulationskorrelation (engl. Ampli-

tuden Modulation Correlation, AMCor) veranschaulicht werden. In der normierten Form soll

der Korrelationskoeffizient der AMCor zwischen zwei Signalen im Frequenzbereich Qi(Ωk)

und Qj(Ωl) f¨

ur die k-te bzw. l-te Frequenzkomponente definiert sein zu

ρ(Qi(Ωk), Qj(Ωl)) = c(Qi(Ωk), Qj(Ωl))

pc(Qi(Ωk), Qi(Ωk)) ·c(Qj(Ωl), Qj(Ωl)) (F.5)

F.1. Unterbesetzter Zeit-Frequenz-Raum 183

mit

c(Qi(Ωk), Qj(Ωl)) = E{|Qi(Ωk)||Qj(Ωl)|}−E{|Qi(Ωk)|}E{|Qj(Ωl)|}.(F.6)

Im Folgenden soll beispielhaft der Autokorrelationskoeffizient ρ(Q1(Ωk), Q1(Ωl)) und der

Kreuzkorrelationskoeffizient ρ(Q1(Ωk), Q2(Ωl)) ausgewertet werden. Der Erwartungswert in

Gl. (F.6) wird ¨

uber eine zeitliche, blockweise Mittelung realisiert, wobei die Bl¨

ocke mit ei-

nem Hamming-Fenster der L¨

ange 64ms und einem ¨

Uberlapp von 50% den zu analysierenden

Signalen entnommen wurden. Der Betrag der frequenzabh¨

angigen Auto- und Kreuzkorrelati-

onskoeffizienten ist in Bild F.1 in Form einer zweidimensionalen Darstellung von Grauwerten

abgebildet. Große Werte f¨

ur den Betrag des Korrelationskoeffizienten werden durch dunkle

Graustufen und kleine Werte durch helle Graustufen charakterisiert.

0,2

0,4

0,6

0,8

Ωk/(2πT) [kHz]

(a)

Ωl/(2πT) [kHz]

|ρ(Q1(Ωk), Q1(Ωl))|

0,2

0,4

0,6

0,8

Ωk/(2πT) [kHz]

(b)

Ωl/(2πT) [kHz]

|ρ(Q1(Ωk), Q2(Ωl))|

Bild F.1: Betrag des Korrelationskoeffizienten der AMCor f¨

ur ein Signal in (a) und zwei verschiedene Signale

in (b).

In Bild F.1 (a) kann an dem Autokorrelationskoeffizienten bis etwa 4kHz an dem regel-

m¨

aßigen Muster die Korrelation der harmonischen Oberschwingungen der Stimmbandgrund-

frequenz erkannt werden. Die Abst¨

ande der jeweiligen Maxima h¨

angen von der Stimmband-

grundfrequenz ab. Weiterhin sind hohe Korrelationswerte bei benachbarten Frequenzompo-

nenten zu beobachten, die sich an den ausgepr¨

agten Maxima in der N¨

ahe der Diagonalen

bemerkbar machen. Bei h¨

oheren Frequenzen ab ca. 4kHz ist ein relativ homogener Bereich

zu erkennen, der auf der gleichm¨

aßigeren Amplitudenverteilung der stimmlosen Laute beruht.

Das Bild F.1 (b) zeigt den Kreuzkorrelationskoeffizienten zweier Sprachsignale unter-

schiedlicher Sprecher. An den hellen Graustufen sind die geringen Werte f¨

ur die Korrelation

der Amplitudenwerte zu erkennen. Die Synchronit¨

at der Amplitudenmodulation der analy-

sierten Signale ist somit sehr gering. Dies gilt ebenfalls f¨

ur den Fall unterschiedlicher ¨

Au-

ßerungen desselben Sprechers [AK00]. In [Ane01] wurden erfolgreich Verfahren zur blinden

Quellentrennung entwickelt, welche auf Methoden der Dekorrelation mit Hilfe der Amplitu-

denmodulation basieren.

Basierend auf einem ¨

ahnlichen Ansatz der Unterbesetzung im Zeit-Frequenz-Raum sind in

den Arbeiten [JRY00, RBR01, YR04] einkanalige Verfahren zur Quellentrennung eingesetzt

worden. Dabei berechnet man nun nicht mehr den Grad der Korrelation eines Amplituden-

paars wie in Gl. (F.5) sondern geht per se von einer so genannten disjunkten Orthogonalit¨

at1

1In [JRY00] wird die disjunkte Orthogonalit¨

at in einer etwas allgemeineren Form verwendet, da von Signalen

ausgegangen wird, welche mit einer Funktion W(t) im Zeitbereich gefenstert wurden, und somit auch der Begriff

W-Disjoint Orthogonality gerechtfertigt ist.

184 Anhang F. Exkurs zur blinden Quellentrennung

(engl. Disjoint Orthogonality) aus. Hierbei wird bei der blockweisen Verarbeitung f¨

ur jedes

Signalpaar i, j die disjunkte Orthogonalit¨

at pro Block mzu Qi,m(Ωk)·Q∗

j,m(Ωk) = 0, ∀m, k

mit i6=jdefiniert2. Mit der realistischen Annahme einer approximativen disjunkten Ortho-

gonalit¨

Qi,m(Ωk)·Q∗

j,m(Ωk)≈0,∀m, k i 6=j(F.7)

gelangt man zu der Idee, pro Zeit-Frequenz-Punkt ein einkanaliges Signal“an- und abzuschal-

tet” bei der jeweiligen Dominanz einer bestimmten Quelle. Eine solche bin¨

are Maskierung

(engl. Binary Masking, BM) wird im DUET-Algorithmus (Degenerate Unmixing Estimati-

on Technique) vorgenommen [JRY00, RBR01, YR04], wobei die Dominanz mit Hilfe von

Amplituden- und Phaseninformationen eines mehrkanaligen Signals bestimmt wird. Die bi-

n¨

are Maske soll wie folgt definiert sein

(BM)

i,m (Ωk) = (1,f¨

ur |Qi,m(Ωk)|> vg·|Qj,m(Ωk)|,∀i6=j

0,sonst (F.8)

wobei vg∈R+ein heuristischer Parameter ist. Die entmischten Signale ergeben sich dann zu

Qi,m(Ωk) = (BM)

i,m (Ωk)X1,m(Ωk).(F.9)

Auch wenn die bin¨

are Maske Gl. (F.8) jeweils optimal bestimmt wird, kann die Qua-

lit¨

at der entmischten Signale durch das harte An- und Abschalten erheblich schwanken

[WHUTV07].

F.2 PCA Beamforming im Mehr-Sprecher-Szenario

Motiviert durch die starke Unterbesetzung des Zeit-Frequenz-Raums soll das PCA Beam-

forming zur blinden Quellentrennung akustischer Signale eingesetzt werden. Die Idee hierbei

liegt darin, mehrere PCA Beamformer zu verwenden, und f¨

ur jeden Zeit-Frequenz-Punkt

diejenige frequenzabh¨

angige PCA-Adaptionsregel zu aktivieren, welche der entsprechenden

dominanten Quelle zugewiesen wurde. Daf¨

ur wird in der Adaptionsregel Gl. (5.37) im addi-

tiven Term der Koeffizienten¨

anderung die bin¨

are Maskierung hinzugef¨

ugt. Dadurch erfolgt

eine ¨

Anderung der Filterkoeffizienten Fi,m(Ωk) des i-ten PCA Beamformers nur dann, wenn

die zugeh¨

orige Quelle Qi,m(Ωk) f¨

ur diesen Zeitpunkt mund diese Frequenzkomponente Ωk

dominant ist. Die Adaptionsregel lautet folglich

Fi,m(Ωk) = M−1+FH

i,m−1(Ωk)Fi,m−1(Ωk)

2FH

i,m−1(Ωk)Fi,m−1(Ωk)Fi,m−1(Ωk)

+(BM)

i,m (Ωk)µi,m(Ωk)Y∗

i,m(Ωk) Xm(Ωk)−Yi,m(Ωk)

i,m−1(Ωk)Fi,m−1(Ωk)Fi,m−1(Ωk)!.

(F.10)

In Gl. (F.10) ist der Constraint nach Abschnitt 6.4.1 zu C2=M−1gesetzt. Die Schrittweite

des i-ten Beamformers µi,m(Ωk) soll abh¨

angig sein von der Frequenz und der Zeit, und der

Ausgang ergibt sich zu Yi,m(Ωk) = FH

i,m−1(Ωk)Xm(Ωk). Das Adaptionsschema ist hier das

2Zu beachten ist der Unterschied zur statistischen Orthogonalit¨

at E{Qi(Ωk)·Q∗

j(Ωk)}= 0, welche ¨

uber

alle Realisierungen von Qi(Ωk) und Qj(Ωk) entsteht.

F.2. PCA Beamforming im Mehr-Sprecher-Szenario 185

gleiche wie bei Algorithmus 4 (S-Grad-IS), jedoch muss dann der Faktor (BM)

i,m (Ωk) f¨

ur die

Adaptionssteuerung eingef¨

ugt werden.

Nach Szenario-5 wurden mehrkanalige Mischsignale f¨

ur den Fall von P= 2 Quellen er-

zeugt, wobei die Leistungen der Signale beider Quellen gleich groß sind. Die beiden Quellen

befinden sich jeweils im Abstand von 2m zum Array mit der Richtung von θs1= 45◦f¨

die eine und θs2= -30◦f¨

ur die andere Quelle relativ zur Broadside-Ausrichtung. Zur Entmi-

schung sind daher zwei PCA Beamformer notwendig, die jeweils mit 256 Koeffizienten pro

Filter und einer jeweiligen L¨

ange von 512 f¨

ur die Fourier-Transformation realisiert wurden.

Da bei Simulationen die Quellsignale bekannt sind, kann eine optimale bin¨

are Maske berech-

net werden. Dabei ist der Grenzwert vgin Gl. (F.8) f¨

ur die Dominanz einer Quelle f¨

ur die

Frequenzkomponente Ωkund den Block mso gew¨

ahlt, dass eine Quelle als Dominat gilt, wenn

deren Leistung mindestens 6dB gr¨

oßer als die Leistung der jeweils anderen Quelle ist. Die

sich so ergebenden Richtdiagramme der beiden PCA Beamformer sind beispielhaft f¨

ur den

Fall einer Freifeldanordnung in Bild F.2 dargestellt. Bei der Adaption waren beide Quellen

simultan aktiv, wobei die Werte (BM)

i,m (Ωk) in Gl. (F.10) optimal bestimmt wurden.

(a)

-90-454590

Ω/(2πT ) [kHz]

θ[◦]

PCA Beamformer 1

(b)

-10

-20

-30

-90-45

dB

Ω/(2πT) [kHz]

θ[◦]

PCA Beamformer 2

Bild F.2: Richtdiagramme der beiden PCA Beamformer bei zwei aktiven Quellen mit den Richtungen θs1=

45 ◦und θs2= -30 ◦und der Verwendung von M= 8 Sensoren. Die bin¨

aren Masken zur Adaptions-

steuerung wurden optimal bestimmt.

Die Ergebnisse in Bild F.2 veranschaulichen, dass sich die jeweiligen Beamformer auf die

beiden Quellen ausgerichtet haben, obwohl beide Sprecher gleichzeitig aktiv waren. Voraus-

setzung hierbei ist nat¨

urlich, dass die Werte (BM)

i,m (Ωk) korrekt ermittelt werden. Denn nur

wenn tats¨

achlich die Dominanz einer Quelle vorherrscht, kann der zugeh¨

orige Beamformer

und dessen Filterkoeffizienten f¨

ur diesen Zeit-Frequenz-Punkt einen Adaptionsschritt “in die

richtige Richtung” machen. Aus dieser Sicht heraus kann die Adaptionssteuerung auch etwas

allgemeiner formuliert werden. Wenn die Wahrscheinlichkeit hoch ist, dass eine bestimmte

Quelle f¨

ur einen Zeit-Frequenz-Punkt dominant ist, sollten sich die Filterkoeffizenten st¨

arker

andern k¨

onnen als f¨

ur den Fall, dass die Wahrscheinlichkeit f¨

ur die Dominanz gering ist. Oder

anders ausgedr¨

uckt, je dominanter eine bestimmte Quelle f¨

ur einen Zeit-Frequenz-Punkt ist,

desto st¨

arker sollten sich die Filterkoeffizenten ¨

andern k¨

onnen. Mit dieser Erkenntnis soll

eine wahrscheinlichkeitsbasierte Maskierung (engl. Likelihood Masking, LM) vorgeschlagen

werden:

(LM)

i,m (Ωk)≈p(|Qi,m(Ωk)| ≫ |Qj,m(Ωk)||Xm(Ωk)),∀j, j 6=i. (F.11)

In Gl. (F.11) bezeichnet also p(|Qi,m(Ωk)| ≫ |Qj,m(Ωk)||Xm(Ωk)) die Wahrscheinlichkeit da-

186 Anhang F. Exkurs zur blinden Quellentrennung

f¨

ur, dass die i-te Quelle f¨

ur die k-te Spektralkomponente und den m-ten Verarbeitungsblock,

gegeben die mehrkanaligen Eingangsdaten wesentlich dominanter als alle anderen Quellen

ist. In [WHUTV07] wurde ein Verfahren vorgestellt, welches mittels Dekorrelationsfiltern,

jeweils angeordnet zwischen benachbarten Mikrophonen eine grobe Vorseparation der Quell-

signale vornimmt, die dann ins Verh¨

altnis gesetzt einen Wert f¨

ur die Likelihood-Maskierung

liefern. Diese Methode setzt ein ¨

aquidistantes, lineares Mikrophon-Aarray voraus, weshalb die

Bezeichnung symmetrisch adaptive Dekorrelation (engl. Symmetric Adaptive Decorrelation,

SAD) eingef¨

uhrt wurde. Andere Methoden zur Bestimmung von (LM)

i,m (Ωk), wie z. B. die

Ausnutzung von Phasen- und D¨

ampfungseigenschaften der zeitversetzten Mikrophonsignale

wie in [RBR01] oder die Auswertung der Amplitudenmodulation wie in [AK00] sind aktuel-

ler Forschungsgegenstand. An dieser Stelle soll lediglich die M¨

oglichkeit der Separation von

akustischen Signalen mittels PCA Beamforming, gegeben eine perfekte bin¨

are Maskierung,

demonstriert werden.

Nun, da mit Hilfe der zus¨

atzlichen Adaptionssteuerung eine Adaption der PCA Beam-

former hin zu den verschiedenen Quellen m¨

oglich ist, soll noch eine Weiterverarbeitung der

Filterkoeffizienten erfolgen. Denn, obschon das Maximum des Beampatterns auf den Ziel-

sprecher ausgerichtet ist, erfolgt keine explizite Minima-Bildung an den Stellen der anderen

Quellen, wie an den Richtdiagrammen in Bild F.2 zu erkennen ist. Dies ist in der PCA-

Adaptionsregel ja auch nicht vorgesehen. Daher soll eine gegenseitige orthogonale Projektion

(engl. Mutual Orthogonal Projection, MOP) den PCA-Filterkoeffizienten nachgeschaltet wer-

den. Dazu wird f¨

ur jede Frequenzkomponente aus dem System linear unabh¨

angiger Filtervek-

toren der Quellen j6=iein orthogonaler Untervektorraum erzeugt, in den der Filtervektor

der Quelle ihineinprojeziert wird:

Wi,m(Ωk) = 

Y

j;j6=i

[I−Fj,m(Ωk)FH

j,m(Ωk)]

Fi,m(Ωk).(F.12)

Verwendet man die Filterkoeffizienten der beiden PCA Beamformer, welche die Richt-

diagramme in Bild F.2 erzeugen, in der orthogonalen Projektion Gl. (F.12), so f¨

uhren die

resultierenden Koeffizienten zu den Beampattern in Bild F.3. Dort sind nun neben den Maxi-

ma f¨

ur die Richtungen der Zielquellen auch Minima zu beobachten, jeweils an der Stelle der

anderen Quelle.

(a)

-90-454590

Ω/(2πT ) [kHz]

θ[◦]

Orthogonale Projektion 1

(b)

-10

-20

-30

-90-454590

dB

Ω/(2πT) [kHz]

θ[◦]

Orthogonale Projektion 2

Bild F.3: Richtdiagramme der beiden Beamformer nach der orthogonalen Projektion f¨

ur zwei aktive Quellen

mit den Richtungen θs1= 45 ◦und θs2= -30 ◦.

F.2. PCA Beamforming im Mehr-Sprecher-Szenario 187

Zur Filterung der breitbandigen Sprachsignale sollen nicht die durch die Projektion be-

stimmten Filterkoeffizienten in Gl. (F.12) direkt verwendet werden. Sondern es soll die domi-

nante Komponente in dem orthogonalen Unterraum explizit berechnet werden, welche dann

zur Reproduktion der Quellsignale f¨

uhrt. F¨

ur die Realisierung in einer adaptiven Gesamt-

stuktur hat sich dabei der Einsatz einer weiteren PCA-Adaption pro orthogonalem Filtersatz

als effektiv erwiesen [TV07]. Die Adaptionsregel f¨

ur den PCA Beamformer mit orthogonaler

Nebenbedingung (engl. Orthogonal Constraint Principal Component Analysis, OCPCA) ist in

Algorithmus 11 (OCPCA) beschrieben. Wie in den anderen Adaptionsalgorithmen soll auch

hier auf den frequenzabh¨

angigen Parameter Ωkverzichtet werden, da das Vorgehen f¨

ur jede

Spektralkomponente gleich ist und so die Darstellung ¨

ubersichtlicher wird.

Algorithmus 11 (OCPCA) W¨

ahle die Gl¨

attungskonstante α, den Schrittweitefaktor ρ, den

Constraint Cund die Startvektoren Wi,0∈CM, i = 1,...,M. Berechne bei gegebenen PCA-

Filterkoeffizienten Fj,m, j = 1,...,M f¨

ur alle Verarbeitungsbl¨

ocke m= 1,2,... und f¨

ur alle OCPCA

Beamformer i= 1,...,M

Qi,m := WH

i,m−1Xm

˜µ−1

i,m := α˜µ−1

i,m + (1 −α)|ˆ

Qi,m|2

µi:= ˜µi,mC2

Vi:= Wi,m−1+µiˆ

Q∗

i,m “Xm−ˆ

Qi,mWi,m−1”

Vi:= 0

j;j6=i

[I−Fj,mFH

j,m]1

AVi

Wi:= ˜

C˜

V1,i

i:= ˜

i˜

Wi,m := C2+R2

2R2

Wi.

Anmerkungen zum Algorithmus 11 (OCPCA) Bei der Filterung WH

i,m−1Xmzur

Sch¨

atzung der Quellsignale ist auf zyklische Effekte zu achten. Dies kann effizient durch das

Overlap-Save-Verfahren geschehen. Weiterhin erfolgt die Subtraktion Xm−ˆ

Qi,mWi,m−1im

Zeitbereich. Die Normierung direkt nach der orthogonalen Projektion mit dem ersten Element

des Vektors ˜

Vi= (˜

V1,i,..., ˜

VM,i)That sich bei den Experimenten als deutliche Robustheits-

steigerung erwiesen. Diese Normierung kann auch mittels adaptiver Methoden recheneffizi-

enter durchgef¨

uhrt werden [TV07]. Die Norm der Filterkoeffizienten wird mit der Division

von ˜

Vidurch Cund der abschließenden Newton-Iteration auf den Wert Cfestgelegt. Wichtig

ist hier noch anzumerken, dass im Gegensatz zu Gl. (F.10) die OCPCA-Filterkoeffizienten

permanent adaptiert werden k¨

onnen.

Zur Beurteilung der Separationsleistung sollen f¨

ur die folgenden Simulationen konvergierte

Filterkoeffizienten f¨

ur die beiden PCA und OCPCA Beamformer angenommen werden. Be-

steht das Eingangssignal nun nur aus dem ersten Quellsignal, so sollte dieses an dem ersten

OCPCA-Ausgang m¨

oglichst unverzerrt beobachtet werden und entsprechend an dem zwei-

ten OCPCA-Ausgang komplett unterdr¨

uckt sein. Bei der Filterung des zweiten Quellsignals

an der anderen r¨

aumlichen Position sollte sich das Verhalten umkehren: das Signal liegt am

zweiten OCPCA-Ausgang vor. Dadurch l¨

asst sich pro Ausgang das Verh¨

altnis der Leistungen

188 Anhang F. Exkurs zur blinden Quellentrennung

des gew¨

unschten Zielsignals zum st¨

orenden Quellsignal (engl. Signal-to-Interference-Ratio,

SIR) bestimmen. Die Sprachqualit¨

at der ermittelten Zielsignale kann relativ zu dem verhall-

ten, reinen Sprachsignal an einem Mikrophon bewertet werden. Bei den Simulationen nach

Szenario-5 ergeben sich dadurch pro untersuchter Nachhallzeit 90 PSM-Werte3. Um deutlich

zu machen, dass die Separationsleistung f¨

ur die beiden Ausg¨

ange unterschiedlich sein kann,

wurden f¨

ur jede Nachhallzeit und jede Quellenkombination die h¨

oheren PSM-Werte und die

niedrigeren PSM-Werte gesondert gemittelt. Diese sind in Bild F.4 in der linken Spalte f¨

die Anordnungen bestehend aus M= 5 und M= 9 Mikrophonen dargestellt und mit “hoch”

f¨

ur die gr¨

oßeren PSM-Werte, sowie mit “niedrig” f¨

ur die kleineren PSM-Werte bezeichnet.

Außerdem ist noch der Mittelwert aller Werte aufgetragen (“mittel”). Das gemittelte SIR f¨

diese beiden Gruppen ist in der rechten Spalte von Bild F.4 zu sehen. Dabei bezeichnet “SIR

PSM-hoch” die gemittelten SIR-Werte aus der Gruppe der Sprachbeispiele mit den h¨

oheren

PSM-Werten und entsprechend“SIR PSM-gering”das gemittelte SIR f¨

ur die Gruppe mit den

kleineren PSM-Werten. Zus¨

atzlich ist der gesamte Mittelwert dargestellt (“SIR mittel”).

00,2 0,4 0,6

0,9

0,92

0,94

0,96

0,98

(a)

PSM

M = 5

T60 [s]

hoch

mittel

gering

000,2 0,4 0,6

(b)

SIR [dB]

M = 5

T60 [s]

SIR PSM-hoch

SIR mittel

SIR PSM-gering

00,2 0,4 0,6

0,9

0,92

0,94

0,96

0,98

(c)

PSM

M = 9

T60 [s]

hoch

mittel

gering

000,2 0,4 0,6

(d)

SIR [dB]

M = 9

T60 [s]

SIR PSM-hoch

SIR mittel

SIR PSM-gering

Bild F.4: Perzeptives Qualit¨

atsmaß und SIR f¨

ur die Quellentrennung nach der Anordnung Szenario-5 f¨

M= 5 und M= 9 Mikrophone. Alle Filterkoeffizienten sind im konvergierten Zustand und haben

jeweils eine L¨

ange von 256.

Wie bei allen Verfahren zur akustischen blinden Quellentrennung nimmt die Separations-

3Bei der Auswahl von 2 aus 10 verschiedenen Sprachsignalen ergeben sich 45 unterschiedliche Kombinatio-

nen. Nach der Verarbeitung liegen somit 90 Sch¨

atzungen f¨

ur die Quellsignale vor.

F.3. Zusammenfassung 189

leistung mit steigender Nachhallzeit deutlich ab. An den Verl¨

aufen des perzeptiven Qualit¨

ats-

maßes ist zwar ein Unterschied zwischen den Ausg¨

angen mit den besseren und den schlech-

teren PSM-Werten zu sehen. In [WHUTV07] wurde demonstriert, dass dieser jedoch z. B. im

Vergleich zur Quellentrennung mit dem DUET-Verfahren sehr gering ist. An den leicht nied-

rigeren SIR-Werten in Bild F.4 f¨

ur die Gruppe der Signale mit der besseren Sprachqualit¨

ist zu erkennen, dass sich die St¨

orsignalunterdr¨

uckung prinzipiell kontr¨

ar zur Sprachqualit¨

verh¨

alt. Insgesamt ist zu der Sprachqualit¨

at noch anzumerken, dass diese bei subjektiven

H¨

ortests zwar sehr gut ist, aber eine Tendenz zur D¨

ampfung tiefer Frequenzen bei steigen-

der Nachhallzeit vorhanden ist. Dadurch sind die fallenden PSM-Ergebnisse in Bild F.4 (a)

und (c) zu erkl¨

aren. Weiterhin ist noch interessant, dass die Unterschiede zwischen der An-

ordnung mit 5 und mit 9 Mikrophonen gering sind. Bei der Verwendung von weniger als 5

Mikrophonen ist die ¨

Anderung jedoch gr¨

oßer.

Auch wenn das Maximum der r¨

aumlichen ¨

Ubertragungsfunktion an der Stelle der Ziel-

quelle und das Minimum an der Stelle der zu unterdr¨

uckenden St¨

orquelle liegen, sinkt das

SIR deutlich bei steigenden Nachhallzeiten aufgrund der Mehrwegeausbreitung. Hier ist eine

weitere Steigerung der St¨

orsignalunterdr¨

uckung durch die Nachschaltung eines einkanaligen

Filters m¨

oglich. Solch ein Vorgehen ist vergleichbar mit dem Wiener Post Filter bei dem

MMSE Beamformer in Gl. (4.50). Ein ¨

aquivalentes Post Filter ist in [WHUTV07] erfolgreich

eingesetzt worden (siehe [TV07] f¨

ur eine genaue Beschreibung dieser Methode).

F.3 Zusammenfassung

In diesem Kapitel wurde die M¨

oglichkeit zur akustischen Quellentrennung mittels blinder

PCA Beamformer demonstriert. Dabei wird ausgenutzt, dass trotz simultaner Aktivit¨

at ver-

schiedener Quellsignale der Zeit-Frequenz-Raum unterbesetzt ist. Gelingt es also, die Domi-

nanz einer Zielquelle f¨

ur einen Zeit-Frequenz-Punkt festzustellen, so k¨

onnen genau f¨

ur diese

Frequenzkomponente die entsprechenden PCA-Filterkoeffizienten adaptiert werden. Daf¨

wurde hier eine optimal bestimmte bin¨

are Maskierung verwendet. Die robuste Adaptions-

steuerung mit Hilfe einer wahrscheinlichkeitsbasierten Likelihood-Maskierung ist weiterhin

aktueller Forschungsgegenstand. Desweiteren wurde hier gezeigt, wie mit Hilfe einer orthogo-

nalen Projektion in einem PCA-Adaptionsschema die St¨

orsignale zu unterdr¨

ucken sind.

190 Anhang F. Exkurs zur blinden Quellentrennung

Formelzeichen und Abk¨

urzungen

Allgemeine Notation

•Vektoren werden durch fettgedruckte Buchstaben dargestellt: x= [x1, x2,...,xM]T.

•Matrizen werden durch fettgedruckte Buchstaben dargestellt: ΦXX.

•Sch¨

atzgr¨

oßen werden durch ein Dach gekennzeichnet und sind nicht immer explizit

aufgelistet: ˆ

θ.

•Darstellungen im Frequenzbereich werden durch Großbuchstaben gekennzeichnet: X1.

•Der tiefergestellte Index msteht f¨

ur blockabh¨

angige Variablen die nicht immer explizit

aufgelistet sind: Xm.

•Der tiefergestellte Index κsteht f¨

ur iterativ bestimmte Gr¨

oßen die nicht immer explizit

aufgelistet sind: v1,κ.

•Eingef¨

uhrte Variablen in den Beschreibungen der Adaptionsschemata werden hier nicht

aufgelistet.

R¨

omische Formelzeichen

A............... Wandfl¨

ache

Ai(Ω) ........... ¨

Ubertragungsfunktion zwischen St¨

orquelle und dem i-ten Sensor

ai(n) . . . . . . . . . . . (zeitdiskrete) Raumimpulsantwort zwischen St¨

orquelle und dem

i-ten Sensor

aij .............. Zustands¨

ubergang von der Hypothese Hinach Hjin einem HMM

B. . . . . . . . . . . . . . . Blockverschiebung

B(Ω, θ) ......... Beampattern

BDSB(Ω, θ) ...... Beampattern des DSBs

B(LE)

DSB (Ω) ....... Beampattern des DSBs mit Lokalisationsfehler

B(Ω) ........... Blocking Matrix

BASC opt(Ω) . . . . . optimale Adaptive Speech Cancellation Blocking Matrix

BASC(Ω) ........ Adaptive Speech Cancellation Blocking Matrix

BDO(Ω) ........ Delay Only Blocking Matrix

BDOR(Ω) ....... Delay Only Ratio Blocking Matrix

BGEV(Ω) ....... Generalized Eigenvector Blocking Matrix

BTF(Ω) ......... Transfer Function Blocking Matrix

BTFR(Ω) ....... Transfer Function Ratio Blocking Matrix

BA ............. Blocking Ability

192 Anhang F. Exkurs zur blinden Quellentrennung

B(Ω) . . . . . . . . . . . Projektionsvektor der Blocking Matrix

C............... Parameter f¨

ur die Nebenbedingung der Gradientenregel

c. . . . . . . . . . . . . . . Schallgeschwindigkeit

C50 . . . . . . . . . . . . . Deutlichkeitsmaß

C80 . . . . . . . . . . . . . Klarheitsmaß

ci. . . . . . . . . . . . . . . Skalierungsfaktor

cil(τ) . . . . . . . . . . . Kreuzkorrelation zwischen zwei Signalen xi(t) und xl(t)

d. . . . . . . . . . . . . . . Mikrophonabstand zwischen zwei Sensoren

dil . . . . . . . . . . . . . . Mikrophonabstand zwischen dem i-ten Sensor und l-ten Sensor

D(Ω) . . . . . . . . . . . Direktivit¨

d(Ω,p) ......... Steering Vector

Dκ. . . . . . . . . . . . . iterativ bestimmte Matrix zur Einhaltung der Nebenbedingung

der neuen Gradientenregel

DI(Ω) .......... B¨

undelungsmaß

diag{·} . . . . . . . . . Diagonalmatrix

E{·} . . . . . . . . . . . . Erwartungswert

E(t) . . . . . . . . . . . . Energie eines Schallereignisses

e. . . . . . . . . . . . . . . Exponentialfunktion

E0. . . . . . . . . . . . . . Anfangsenergie eines Schallereignisses

e(·) . . . . . . . . . . . . . Fehlerfunktion

¯e(·) . . . . . . . . . . . . . mittlerer Fehler

EA(t) . . . . . . . . . . . Energieabfallkurve

ED. . . . . . . . . . . . . Energiedichte des Direktschallfelds

ESt . . . . . . . . . . . . . Energiedichte des station¨

aren Schallfelds

exp{·} . . . . . . . . . . Exponentialfunktion

Ei−1,1(Ω) . . . . . . . . Fehler zwischen dem (i−1)-ten Ausgangssignal der TFRBM und

dem ersten Mikrophonsignal

f. . . . . . . . . . . . . . . kontinuierliche Frequenz

fAb . . . . . . . . . . . . . Abtastfrequenz

fk. . . . . . . . . . . . . . k-te diskrete Frequenz

fi(n) . . . . . . . . . . . . (zeitdiskrete) i-te Beamformer-Filterimpulsantwort

fi(n) . . . . . . . . . . . . (zeitdiskrete) i-te zeitinverse Beamformer-Filterimpulsantwort

Fi(Ω) ........... i-te Beamformer-¨

Ubertragungsfunktion

F(Ω) . . . . . . . . . . . allgemeiner Filterkoeffizientenvektor eines Beamformers

Fref(Ω) . . . . . . . . . Referenz-Filterkoeffizienten des Fixed Beamformers

FFBF(Ω) . . . . . . . . Filterkoeffizientenvektor des Fixed Beamformers

FFrost(Ω) . . . . . . . Filterkoeffizientenvektor des Frost Beamformers

FDSB(Ω) . . . . . . . . Filterkoeffizientenvektor des idealen Delay-and-Sum-Beamformers

FGML(Ω) . . . . . . . Filterkoeffizientenvektor des GML Beamformers

FGMMSE(Ω) . . . . . Filterkoeffizientenvektor des GMMSE Beamformers

FGMV(Ω) . . . . . . . Filterkoeffizientenvektor des GMV Beamformers

FGMVDR(Ω) . . . . Filterkoeffizientenvektor des GMVDR Beamformers

FML(Ω) . . . . . . . . . Filterkoeffizientenvektor des ML Beamformers

FMV(Ω) . . . . . . . . Filterkoeffizientenvektor des MV Beamformers

FMVDR(Ω) . . . . . . Filterkoeffizientenvektor des MVDR Beamformers

FMMSE(Ω) . . . . . . Filterkoeffizientenvektor des MMSE Beamformers

F.3. Zusammenfassung 193

FMF(Ω) ......... Matched-Filter-Koeffizienten

FPCA(Ω) . . . . . . . . Filterkoeffizientenvektor des PCA Beamformers

FPCA ν(Ω) . . . . . . diskretisierte a priori berechnete PCA-Filterkoeffizienten

F(SNR)(Ω) . . . . . . Filterkoeffizientenvektor korrespondierend zu einem dominanten

Eigenwert

F(SNR)(Ω) . . . . . . definierter Filterkoeffizientenvektor welcher das SNR maximiert

FSNR(Ω) ........ L¨

osungsvektor des verallgemeinerten Eigenwertproblems

G(Ω) . . . . . . . . . . . frequenzabh¨

angiger Array Gain

Gi(Ω) ........... i-te Gewichtungsfunktion des GCCs

GW(Ω) ......... White Noise Gain

DSB(Ω) ........ White Noise Gain des idealen Delay-and-Sum-Beamformers

GSNR(Ω) . . . . . . . . SNR-Gewinn des statistisch optimalen Beamformers

SNR(Ω) ........ White Noise Gain des statistisch optimalen Beamformers

G(Ω) . . . . . . . . . . . adaptiver Filterkoeffizientenvektor im GSC

Gopt(Ω) . . . . . . . . . optimaler Filterkoeffizientenvektor im GSC

Hi(Ω) .......... ¨

Ubertragungsfunktion zwischen Sprecher und dem i-ten Sensor

H0(Ωk) . . . . . . . . . Hypothese einer Sprachpause

H1(Ωk) . . . . . . . . . Hypothese f¨

ur Sprachaktivit¨

hi(n) . . . . . . . . . . . (zeitdiskrete) i-te Raumimpulsantwort

i................ Laufindex

I0{·} . . . . . . . . . . . . modifizierte Besselfunktion nullter Ordnung

I1{·} . . . . . . . . . . . . modifizierte Besselfunktion erster Ordnung

j............... Laufindex

JGSC(Ω) . . . . . . . . Kostenfunktion der ANC-Filterkoeffizienten

JMSE(·) . . . . . . . . . Kostenfunktion des MSE-Ansatzes

JMV(·) . . . . . . . . . . Kostenfunktion des MV-Ansatzes

k............... Laufindex

KN. . . . . . . . . . . . . Abweichung der Varianzsch¨

atzung des Rauschens relativ zur Varianz

des Rauschens

Ko. . . . . . . . . . . . . . obere Schranke f¨

ur diskrete Spektralkomponenten

KS. . . . . . . . . . . . . Abweichung der Varianzsch¨

atzung des Rauschens relativ zur Varianz

der Sprache

Ku. . . . . . . . . . . . . untere Schranke f¨

ur diskrete Spektralkomponenten

K. . . . . . . . . . . . . . . Krylov Unterraum

L............... L¨

ange der diskreten Fourier-Transformation

l................ Laufindex

lx. . . . . . . . . . . . . . . Anzahl der Verarbeitungsbl¨

ocke des Signals x(n)

ls. . . . . . . . . . . . . . . Anzahl der Verarbeitungsbl¨

ocke des Sprachsignals s(n)

l. . . . . . . . . . . . . . . . mittlere freie Wegl¨

ange des Schalls

ln(·) ............ nat¨

urlicher Logarithmus

Ln. . . . . . . . . . . . . . Anzahl der Abtastwerte des Rauschsignals (ohne Sprachanteil)

Lrel . . . . . . . . . . . . . relativer Schalldruckpegel

Ls. . . . . . . . . . . . . . Anzahl der Abtastwerte des Sprachsignals

log10(·) . . . . . . . . . 10-er Logarithmus

L(·) ............ Log-Likelihood-Funktion

M. . . . . . . . . . . . . . Anzahl der Mikrophone

194 Anhang F. Exkurs zur blinden Quellentrennung

m.............. Blockindex

M{·} . . . . . . . . . . . konfluent hypergeometrische Funktion

N. . . . . . . . . . . . . . Obergrenze von Laufvariablen

n. . . . . . . . . . . . . . . diskreter Zeitindex

ND. . . . . . . . . . . . . Intervall der maximal m¨

oglichen Verschiebungs-Abtastwerte

ni(θ) . . . . . . . . . . . richtungsabh¨

angige Verschiebung am i-ten Mikrophon

Ni(Ω) ........... St¨

orsignal am i-ten Sensor im Frequenzbereich

¯n. . . . . . . . . . . . . . . mittlere Stoßzahl des Schalls

nc(n) . . . . . . . . . . . (zeitdiskretes) r¨

aumlich korreliertes St¨

orsignal

ni(n) . . . . . . . . . . . (zeitdiskretes) St¨

orsignal am i-ten Sensor

nu,i(n) . . . . . . . . . . (zeitdiskretes) r¨

aumlich unkorreliertes St¨

orsignal am i-ten Sensor

n0.............. Zeitindex f¨

ur das Maximum der Impulsantwort

n50 . . . . . . . . . . . . . Zeitindex korrespondierend zur Zeit 50ms

O{·} ............ Komplexit¨

atsordnung

P. . . . . . . . . . . . . . . Schallleistung

p............... Schalldruck

P(θ) . . . . . . . . . . . . Ausgangsleistung eines gesteuerten Filter-and-Sum-Beamformers

P(DSB)(θ) . . . . . . . Ausgangsleistung eines gesteuerten DSBs

P(GEV)(θ) . . . . . . Ausgangsleistung eines GEV Beamformer

P(PCA)(θ) . . . . . . . Ausgangsleistung eines PCA Beamformer

Pf(µ0) . . . . . . . . . . Potenzreihe der Funktion f(µ) um µ0herum

PXi,mXl,m (Ωk) . . . Kurzzeit-Kreuzleistungsdichtespektrum (Kreuzperiodogramm)

des m-ten Segments zwischen Xi(Ωk) und Xl(Ωk)

pκ. . . . . . . . . . . . . . iterativer Projektionsvektor

pn. . . . . . . . . . . . . . Position der St¨

orquelle im Raum

pi.............. Position des i-ten Mikrophons im Raum

ps. . . . . . . . . . . . . . Position des Sprechers im Raum

pt. . . . . . . . . . . . . . Zielkoordinaten der Blickrichtung des Arrays

p(θ; Ω) . . . . . . . . . . Wahrscheinlichkeitsdichtefunktion der Sprecherrichtung

p(X(Ωk)|H0(Ωk)) bedingte Verteilungsdichtefunktion gegeben eine Sprachpause

p(X(Ωk)|H1(Ωk)) bedingte Verteilungsdichtefunktion gegeben eine Sprachaktivit¨

r. . . . . . . . . . . . . . . Abstand zwischen Sender und Array

r(Ω,p) .......... Beamformer Response

r(·) . . . . . . . . . . . . . Rayleigh Quotient

rκ. . . . . . . . . . . . . . iterativ bestimmter Rayleigh Quotient

ril(n) . . . . . . . . . . . verallgemeinerte Kreuzkorrelation

rH.............. Hallradius

r(GEV)

il (n) . . . . . . . verallgemeinerte Kreuzkorrelation f¨

ur GEV-Filterkoeffizienten

r(PCA)

il (n) . . . . . . . verallgemeinerte Kreuzkorrelation f¨

ur PCA-Filterkoeffizienten

R(µ2) . . . . . . . . . . Restglieder zweiter und h¨

oherer Ordnung von µ

si(n) . . . . . . . . . . . . (zeitdiskretes) Sprachsignal am i-ten Sensor

Si(Ω) . . . . . . . . . . . Sprachsignal am i-ten Sensor im Frequenzbereich

sc(n) . . . . . . . . . . . (zeitdiskretes) Sprachsignal

Sc(Ω) . . . . . . . . . . . Sprachsignal im Frequenzbereich

si(·) . . . . . . . . . . . . . si-Funktion sin(x)

SNRArray(Ω) . . . . frequenzabh¨

angiges SNR am Beamfomer-Ausgang

F.3. Zusammenfassung 195

SNRavg(Ω) . . . . . . gemittelter gesch¨

atzter SNR-Gewinn

SNR(max)

Array (Ω) . . . . maximal erzielbares SNR am Beamfomer-Ausgang

SNRSensor,i(Ω) . . frequenzabh¨

angiges SNR des i-ten Sensors

SNRSensor(Ω) . . . frequenzabh¨

angiges SNR gemittelt ¨

uber alle Sensoren

SNRG . . . . . . . . . . SNR-Gewinn

SNRGκ(Ωk) . . . . . iterativ bestimmter frequenzabh¨

angiger asymptotischer SNR-Gewinn

SNRGκ. . . . . . . . . iterativ bestimmter asymptotischer SNR-Gewinn

T. . . . . . . . . . . . . . . Abtastperiode

t. . . . . . . . . . . . . . . . kontinuierliche Zeitvariable

T60 . . . . . . . . . . . . . Nachhallzeit

TA. . . . . . . . . . . . . . Anfangsnachhallzeit

tg. . . . . . . . . . . . . . . Zeitgrenze zur Einteilung des n¨

utzlichen Schalls

Tn. . . . . . . . . . . . . . Menge der Zeitindizes des Rauschsignals (ohne Sprachanteil)

Ts. . . . . . . . . . . . . . Menge der Zeitindizes des Sprachsignals

U(Ω) ........... St¨

orreferenzsignale am Ausgang der Blocking Matrix

us,i(n) . . . . . . . . . . Sprachsignalkomponente am Ausgang der Blocking Matrix

un,i(n) .......... St¨

orsignalkomponente am Ausgang der Blocking Matrix

V. . . . . . . . . . . . . . . Volumen eines Raums

vg.............. Grenzwert f¨

ur die Dominanz einer Quelle pro Frequenzkomponente

vi.............. i-ter Eigenvektor

v1(Ω) ........... Sch¨

atzung des dominanten Eigenvektors

v1,κ(Ω) . . . . . . . . . iterativ gesch¨

atzter dominanter Eigenvektor

W(Ω) . . . . . . . . . . . spektrale Gewichtung

w(Ω) . . . . . . . . . . . Nachfilter

wBAN(Ω) . . . . . . . Nachfilter der blinden analytischen Normalisierung

wGMVDR(Ω) . . . . GMVDR-Gwichtungsfaktor

wMN(Ω) . . . . . . . . Nachfilter der Maximum Normalisierung

wopt(Ω) . . . . . . . . . optimales Nachfilter

wBSN(Ω) . . . . . . . . Nachfilter der blinden statistischen Normalisierung

wWPF(Ω) . . . . . . . Wiener Post Filter

Wi,m(Ωk) . . . . . . . Filterkoeffizientenvektor der OPCA

W(Ω) . . . . . . . . . . frei w¨

ahlbarer Vektor der Blocking Matrix

Xi(Ω) . . . . . . . . . . Eingangssignal am i-ten Sensor im Frequenzbereich

xi(n) . . . . . . . . . . . (zeitdiskretes) Eingangssignal am i-ten Sensor

Y(Ω) ........... Beamformer-Ausgangssignal im Frquenzbereich

y(n) . . . . . . . . . . . . (zeitdiskretes) Beamformer-Ausgangssignal

yn(n) . . . . . . . . . . . (zeitdiskretes) Beamformer-Ausgangssignal der St¨

orkomponente

ys(n) . . . . . . . . . . . (zeitdiskretes) Beamformer-Ausgangssignal der Sprachkomponente

YFBF(Ω) . . . . . . . . Ausgangssignal des Fixed Beamformers

YGSC(Ω) . . . . . . . . Ausgangssignal des Generalized Sidelobe Cancellers

Yopt(Ω) . . . . . . . . . optimales Sprachsignal am Beamformer-Ausgang

Yref(Ω) . . . . . . . . . Sprachreferenzsignal am Beamformer-Ausgang

Z(Ω) . . . . . . . . . . . Filterkoeffizientenvektor der Noise Cancellation

Zopt(Ω) . . . . . . . . . optimale Filterkoeffizientenvektor der Noise Cancellation

196 Anhang F. Exkurs zur blinden Quellentrennung

Griechische Formelzeichen

α............... Gl¨

attungskonstante

αA. . . . . . . . . . . . . . Absorptionsgrad einer homogenen Fl¨

ache

¯αA. . . . . . . . . . . . . . mittlerer Absorptionsgrad des Schalls f¨

ur einen Raum

β(Ω) . . . . . . . . . . . . frequenzabh¨

angiger Lagrange-Multiplikator

χ............... Verh¨

altnis zwischen gr¨

oßtem und kleinstem Eigenwert

δ(x) . . . . . . . . . . . . Delta-Distribution

δLDS(Ω) . . . . . . . . . LDS-Verh¨

altnis der reinen Sprachsignale vor und nach dem ANC

∆BA . . . . . . . . . . . Unterschied der Blocking Ability

∆d. . . . . . . . . . . . . Abweichung des Sensorabstands

∆f. . . . . . . . . . . . . Frequenzaufl¨

osung

∆θ. . . . . . . . . . . . . Abweichung von der Sprecherrichtung

∆Ω . . . . . . . . . . . . . normierte Frequenzabweichung

∆SNRG . . . . . . . . Unterschied des SNR-Gewinns

∆σ2

N. . . . . . . . . . . . Abweichung der Rauschvarianzsch¨

atzung

η(Ω) . . . . . . . . . . . . skalarer komplexer frequenzabh¨

angiger Faktor des ML-Ansatzes

η............... Verh¨

altnis von r¨

aumlich unkorreliertem zu korreliertem Rauschen

η0. . . . . . . . . . . . . . Schwellwert der VAD-Entscheidung f¨

ur eine Sprachpause

η1. . . . . . . . . . . . . . Schwellwert der VAD-Entscheidung f¨

ur Sprachaktivit¨

γ(Ωk) ........... a posteriori SNR

γXiXl(Ω) . . . . . . . . komplexe Koh¨

arenzfunktion zwischen Xi(Ω) und Xl(Ω)

ΓXiXl(Ω) . . . . . . . Betragsquadrat der Koh¨

arenzfunktion zwischen Xi(Ω) und Xl(Ω)

κ. . . . . . . . . . . . . . . Iterationsindex

λmin . . . . . . . . . . . . minimale Wellenl¨

ange des betrachteten Wellenfeldes

λ(max) .......... gr¨

oßter Eigenwert

λ(max)

S(Ω) . . . . . . . gr¨

oßter frequenzabh¨

angiger Eigenwert (gegeben ΦSS(Ω) und ΦNN(Ω))

λ(max)

X(Ω) . . . . . . . gr¨

oßter frequenzabh¨

angiger Eigenwert (gegeben ΦXX(Ω) und ΦNN(Ω))

λi.............. i-ter Eigenwert

Λ. . . . . . . . . . . . . . . Diagonalmatrix der Eigenwerte

µ............... Schrittweite

µ(Neu) . . . . . . . . . . . Schrittweite der neuen Adaptionsregel

µ(Oja) . . . . . . . . . . . Schrittweite der Oja-Adaptionsregel

ν............... Laufvariable

Ω . . . . . . . . . . . . . . . normierte kontinuierliche Kreisfrequenz

Ωk.............. k-te normierte diskrete Kreisfrequenz

P. . . . . . . . . . . . . . . Anzahl der Nutzsignalquellen bei der BSS

φ(GG)

YFBFYFBF (Ω) . . . spektrale Leistungsdichte am Ausgang des FBFs

φ(GG)

YGSCYGSC (Ω) . . . spektrale Leistungsdichte am Ausgang des GSCs

φXiXl(Ω) . . . . . . . Kreuzleistungsdichtespektrum zwischen Xi(Ω) und Xl(Ω)

φY Y (Ω) . . . . . . . . . LDS des Beamformer-Ausgangssignals

π. . . . . . . . . . . . . . . 3,14159265359...

ΦNN(Ω) . . . . . . . . Matrix der spektralen Kreuzleistungsdichten der St¨

orsignale N

ΦXX(Ω) . . . . . . . . Matrix der spektralen Kreuzleistungsdichten der Mikrophonsignale X

ΦSS(Ω) . . . . . . . . . Matrix der spektralen Kreuzleistungsdichten der Sprachsignale S

Φ(XN)Kombination der KLDS-Matrizen von St¨

or- und Sprachsignalen

F.3. Zusammenfassung 197

ΦNN . . . . . . . . . . . Normierte Matrix der spektralen Kreuzleistungsdichten der St¨

orsignale

(BM)

i,m (Ωk) ...... i-te bin¨

are Maske der BSS f¨

ur den Block m

(LM)

i,m (Ωk) ...... i-te Likelihood Maske der BSS f¨

ur den Block m

Ψm(Ωk) ......... gegl¨

attete Entscheidungsvariable f¨

ur den Block m

Φ(GG)

XX,κ . . . . . . . . . . iterative Sch¨

atzung der KLDS-Matrix durch eine gleichm¨

aßige

Gewichtung

Φ(EG)

XX,κ . . . . . . . . . . iterative Sch¨

atzung der KLDS-Matrix durch eine exponentielle

Gl¨

attung

Φ(IS)

XX,κ . . . . . . . . . . iterative Sch¨

atzung der KLDS-Matrix durch eine instantane Sch¨

atzung

ρR. . . . . . . . . . . . . . Schall-Reflexionsgrad einer homogenen Fl¨

ache

ρ. . . . . . . . . . . . . . . Schrittweitefaktor

σ2.............. Varianz

σ2

LDS . . . . . . . . . . . . Varianz der LDS-Verh¨

altnise

σ2

N(Ωk) . . . . . . . . . Varianz des St¨

orsignals N(Ωk)

σ2

S(Ωk) . . . . . . . . . Varianz des Sprachsignals S(Ωk)

τ............... zeitliche D¨

ampfungskonstante

τe. . . . . . . . . . . . . . . effektive Zeitverz¨

ogerung

τg. . . . . . . . . . . . . . zeitliche Einwirktiefe einer Gl¨

attung

τi. . . . . . . . . . . . . . . Laufzeit des Signals von der Quelle bis zum i-ten Mikrophon

τil .............. die Zeitverz¨

ogerung zwischen zwei Signalen xi(t) und xl(t)

θ............... Winkel

θn. . . . . . . . . . . . . . Richtung der St¨

orschallquelle

θn,i . . . . . . . . . . . . . Richtung der i-ten St¨

orschallquelle

θs. . . . . . . . . . . . . . Sprecherrichtung

θs1. . . . . . . . . . . . . . Sprecherrichtung des ersten Sprechers f¨

ur die BSS

θs2. . . . . . . . . . . . . . Sprecherrichtung des zweiten Sprechers f¨

ur die BSS

θt. . . . . . . . . . . . . . . Richtungswinkel des Arrays bez¨

uglich eines Ziels

ϑ(·) . . . . . . . . . . . . . relativer Anteil an n¨

utzlichem Schall

θt ν . . . . . . . . . . . . . diskretisierte Zielrichtungen

ξ............... Zielfunktion

ξ(Ωk) ........... a priori SNR

ξ. . . . . . . . . . . . . . . fehlerhafte Sch¨

atzung des a priori SNRs

ζ(Ω) . . . . . . . . . . . . komplexer Skalar

Spezielle Symbole

∗. . . . . . . . . . . . . . . Faltungsoperator

(·)∗. . . . . . . . . . . . . konjugiert komplexe Schreibweise

(·)H. . . . . . . . . . . . hermitesch konjungierte Notation

(·)T. . . . . . . . . . . . . transponierte Schreibweise

IM. . . . . . . . . . . . . Einheitsmatrix der Dimension M

ℑ{·} ............ Imagin¨

arteil

∇F{·} . . . . . . . . . . Ableitung bez¨

uglich eines komplexen Vektors

∂

∂F. . . . . . . . . . . . . . komplex konjugierte Ableitung des Vektors F

ℜ{·} ............ Realteil

198 Formelzeichen und Abk¨

urzungen

Rang(A) . . . . . . . . Rang der Matrix A

Spur(A) . . . . . . . . Spur der Matrix A

MAX{·} . . . . . . . . Maximum-Operator

var{·} .......... Varianz

||·|| ............ L2-Norm

Abk¨

urzungen

AMCor ......... Amplituden Modulation Correlation

ANC ........... Adaptive Noise Cancellation

ASC ............ Adaptive Speech Cancellation

ASCBM ........ Adaptive Speech Cancellation Blocking Matrix

BA ............. Blocking Ability

BAN . . . . . . . . . . . blinde analytische Normalisierung

BM ............. Binary Masking

BM ............. Blocking Matrix

BSS ............ Blind Source Separation

DD ............. Decision-Directed

DFT ............ Discrete Fourier Transform

DI .............. Directivity Index

DO ............. Delay Only

DOA ........... Direction-of-Arrival

DOBM ......... Delay Only Blocking Matrix

DOR ........... Delay Only Ratio

DORBM ........ Delay Only Ratio Blocking Matrix

DR ............. Distortionless Response

DSB ............ Delay-and-Sum-Beamformer

DTFT .......... Discrete Time Fourier Transform

DUET .......... Degenerate Unmixing Estimation Technique

EDC ............ Energy Decay Curve

EDT ............ Early Decay Time

EG . . . . . . . . . . . . . Exponentielle Gewichtung

FBF ............ Fixed Beamformer

FEM ........... Finite Element Method

FFT ............ Fast Fourier Transform

FIR ............ Finite Impulse Response

FSB ............ Filter-and-Sum-Beamformer

GCC ........... Generalized Cross Correlation

GEV ........... Generalized Eigenvector

GEVBM ........ Generalized Eigenvector Blocking Matrix

GEVP .......... Generalized Eigenvalue Problem

GG ............. Gleichm¨

aßige Gewichtung

GML ........... Generalized Maximum Likelihood

GMMSE ........ Generalized Minimum Mean Squared Error

GMV ........... Generalized Minimum Variance

GMVDR . . . . . . . Generalized Minimum Variance Distortionless Response

Formelzeichen und Abk¨

urzungen 199

GSC ............ Generalized Sidelobe Canceller

GSVD .......... Generalized Singular Value Decomposition

HMM ........... Hidden Markov Modell

ICA ............ Independent Component Analysis

ICMA .......... In Situ Calibrated Microphone Array

IDFT ........... Inverse Discrete Fourier Transform

IFFT ........... Inverse Fast Fourier Transform

IS . . . . . . . . . . . . . . Instantaner Sch¨

atzer

ITU ............ International Telecommunication Union

KLDS . . . . . . . . . . Kreuzleistungsdichespektrum

LCMVDR . . . . . . Linearly Constrained Minimum Variance Distortionless Response

LDS . . . . . . . . . . . . Leistungsdichtespektrum

LE ............. Localization Error

LM ............. Likelihood Masking

LMS ............ Least Mean Squares

LOS ............ Line of Sight

LRT ............ Likelihood Ratio Test

LSE ............ Least Squares Error

MAP . . . . . . . . . . . maximum a posteriori

MCWF ......... Multi Channel Wiener Filter

MF ............. Matched Filter

MFB ........... Matched Filter Beamformer

MIMO .......... Multiple Input Multiple Output

ML ............. Maximum Likelihood

ML-STBF . . . . . . . Maximum Likelihood Steered Adaptive Beamformer

MMSE ......... Minimum Mean Squared Error

MN . . . . . . . . . . . . . Maximum-Normalisierung

MOP ........... Mutual Orthogonal Projection

MOS ........... Mean Opinion Score

WPF ........... Wiener Post Filter

MS . . . . . . . . . . . . . Minimum Statistik

MSC ........... Magnitude Squared Coherence

MUSIC ......... Multiple Signal Classification

MV ............. Minimum Variance

MWF ........... Multi Channel Wiener Filter

NC ............. Noise Cancellation

OCPCA ........ Orthogonal Constraint Principal Component Analysis

ODG ........... Objective Difference Grade

PAST .......... Projection Approximation Subspace Tracking

PC ............. Personal Computer

PCA ............ Principal Component Analysis

PDF ............ Probability Density Function

PESQ .......... Perceptual Evaluation of Speech Quality

PHAT .......... Phase Transform

PSM ............ Perceptual Similarity Measure

RIA . . . . . . . . . . . . Raumimpulsantwort

200 Formelzeichen und Abk¨

urzungen

RLS ............ Recursive Least Squares

ROC ........... Receiver Operating Characteristic

SAD ............ Symmetric Adaptive Decorrelation

SIR ............. Signal-to-Interference-Ratio

SNR ............ Signal-to-Noise-Ratio

SRP ............ Steered Response Power

TDOA .......... Time-Difference of Arrival

TF ............. Transfer Function

TFBM .......... Transfer Function Blocking Matrix

TFR ............ Transfer Function Ratio

TFRBM ........ Transfer Function Ratio Blocking Matrix

VAD ............ Voice Activity Detection

Literaturverzeichnis

[AB79] Allen, J. B. ; Berkley, D. A.: Image Method for Efficiently Simulating

Small-Room Acoustics. In: Journal of the Acoustical Society of America 107

(1979), Nr. 4, S. 943–950

[AG96] Affes, S. ; Grenier, Y.: A Source Subspace Tracking Array of Microphones

for Double Talk Situations. In: Proc. IEEE Int. Conf. Acoustics, Speech, and

Signal Processing (ICASSP) Bd. 2. Atlanta, USA, May 1996, S. 909–912

[AG97] Affes, S. ; Grenier, Y: A Signal Subspace Tracking Algorithm for Micropho-

ne Array Processing of Speech. In: IEEE Transactions on Speech and Audio

Processing 5 (1997), Sept., S. 425–437

[AHBK03] Aichner, R. ; Herbordt, W. ; Buchner, H. ; Kellermann, W.: Least-

Squares Error Beamforming using Minimum Statistics and Multichannel Fre-

quencydomain Adaptive Filtering. In: Int. Workshop on Acoustic Echo and

Noise Control (IWAENC). Kyoto, Japan, Sept. 2003, S. 223–226

[AK00] Anem¨

uller, J. ; Kollmeier, B.: Amplitude Modulation Decorrelation for

Convolutive Blind Source Separation. In: Proc. of the second international

workshop on independent component analysis and blind signal separation. Hel-

sinki, Finland, June 2000, S. 215–220

[AL05] Alli, M. ; Lyons, R.: A Root of less Evil. In: IEEE Signal Processing Magazine

9 (2005), S. 58–67

[Ama77] Amari, S.: Neural theory of association and concept-formation. In: Biological

Cybernetics 26 (1977), Sept., Nr. 3, S. 175–185

[Ami] Amigo - Ambient Intelligence for the Networked Home Environment.

http://www.amigo-project.org

[Ane01] Anem¨

uller, J.: Across-Frequency Processing in Convolutive Blind Source Se-

paration, University of Oldenburg, Germany, Diss., 2001

[Arn51] Arnoldi, W. E.: The Principle of Minimized Iterations in the Solution of the

Matrix Eigenvalue Problem. In: Quarterly of Applied Mathematics (1951), 9,

S. 17–29

[Bar03] Bartsch, G.: Effiziente Methoden f¨

ur die niederfrequente Schallfeldsimulation,

RWTH Aachen, Germany, Diss., 2003

[BCM05] Benesty, J. ; Chen, J. ; Makino, S.: Speech Enhancement. Springer-Verlag,

2005

202 Literaturverzeichnis

[Ber96] Beranek, L.: Concert and Opera Halls: How They Sound. In: Acoustical

Physics 42 (1996), S. 779–780

[Bit02] Bitzer, J.: Mehrkanalige Ger¨

auschunterdr¨

uckungssysteme - eine vergleichende

Analyse, Universit¨

at Bremen, Germany, Diss., 2002

[Bod56] Bodewig, E.: Matrix Calculus. North-Holland, Amsterdam, 1956

[BP66] Bendat, J. S. ; Piersol, A. G.: Measurement and Analysis of Random Data.

New York : Wiley, 1966

[BP80] Bendat, J. S. ; Piersol, A. G.: Engineering Application of Correlation and

Spectral Analysis. New York : Wiley, 1980

[Bra99] Brandstein, M.: Time-Delay Estimation of Reverberated Speech Exploiting

Harmonic Structure. In: Journal of the Acoustical Society of America 105

(1999), May, S. 2914–2919

[BS73] Bangs, W. J. ; Schultheiss, P. M.: Space Time Processing for Optimal

Parameter Estimation. In: Signal Processing (1973), S. 577–590

[BS01] Bitzer, J. ; Simmer, K. U.: Superdirective Microphone Arrays. In: Brand-

stein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Microphone Arrays: Signal Proces-

sing Techniques and Applications. Springer-Verlag, 2001, S. 19–38

[BSK99a] Bitzer, J. ; Simmer, K. ; Kammeyer, K.: An Alternative Implementation of

the Superdirective Beamformer. In: Proc. IEEE Workshop on Applications of

Signal Processing to Audio and Acoustics (WASPAA). New Paltz NY, USA,

1999, S. 7–10

[BSK99b] Bitzer, J. ; Simmer, K. U. ; Kammeyer, K.-D.: Multi-Microphone Noise

Reduction by Post-Filter and Superdirective Beamformer. In: Int. Workshop

on Acoustic Echo and Noise Control (IWAENC). Pocono Manor, USA, Sept.

1999, S. 100–103

[BSK99c] Bitzer, J. ; Simmer, K. U. ; Kammeyer, K.-D.: Theoretical Noise Reduction

Limits of the Generalized Sidelobe Canceller (GSC) for Speech Enhancement.

In: ICASSP Bd. 4. Phoenix, Arizona, March 1999, S. 2965–2968

[BSRG05] Bhiksha, R. ; Seltzer, M. ; Reyes-Gomez, M. J.: Speech Recognizer based

Maximum Likelihood Beamforming. In: Divenyi, P. (Hrsg.): Speech Separation

by Humans and Machines. Springer US, 2005, S. 65–82

[Buc07] Buck, M.: Optimaler Beamformer-Entwurf unter Ber¨

ucksichtigung spezifischer

Mikrofoneigenschaften. In: Fortschritte der Akustik - DAGA 2007, DEGA e.V.

Stuttgart, M¨

arz 2007, S. 335–336

[CA03] Cichocki, A. ; Amari, S.: Adaptive Blind Signal and Image Processing. John

Wiley & Sons, 2003

[Cap69] Capon, J.: High-Resolution Frequency-Wavenumber Wpectrum Analysis. In:

Proceedings of the IEEE (1969), Aug., S. 1408–1418

Literaturverzeichnis 203

[CBHD06] Chen, J. ; Benesty, J. ; Huang, Y. ; Doclo, S.: New Insights into the

Noise Reduction Wiener Filter. In: IEEE Transactions on Audio, Speech and

Language Processing 14 (2006), July, S. 1218– 1234

[CHY98] Chen, T. ; Hua, Y. ; Yan, W. Y.: Global Convergence of Oja’s Subspace

Algorithm for Principal Component Extraction. In: Journal of Mathematical

Analysis and Applications 106 (1998), S. 69–84

[CK01] Cho, Y.D. ; Kondoz, A.: Analysis and Improvement of a Statistical Model-

based Voice Activity Detector. In: IEEE Signal Processing Letters 8 (2001),

Oct., S. 276–278

[CM78] Cremer, L. ; M¨

uller, H. A.: Die wissenschaftlichen Grundlagen der Raum-

akustik. Band I. S. Hirzel, 1978

[CWB+55] Cook, R. K. ; Waterhouse, R. V. ; Berendt, R. D. ; Edelman, S. ; Thomp-

son, M. C.: Measurement of Correlation Coefficients in Reverberant Sound

Fields. In: Journal Acoust. Soc. Am. 27 (1955), Nr. 6, S. 1072–1077

[CZK86] Cox, H. ; Zeskind, R. ; Kooij, T.: Practical Supergain. In: IEEE Transactions

on Acoustics, Speech, and Signal Processing 34 (1986), June, Nr. 3, S. 393– 398

[CZO87] Cox, H. ; Zeskind, R. M. ; Owen, M. M.: Robust Adaptive Beamforming. In:

IEEE Transactions on Acoustics, Speech, Signal Processing 35 (1987), Oct., S.

1365–1376

[DCP01] Di Claudio, E. D. ; Parisi, R.: Multi-Source Localization Strategies. In:

Brandstein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Microphone Arrays: Signal

Processing Techniques and Applications. Springer-Verlag, 2001, S. 181–201

[DCP03] Di Claudio, E. D. ; Parisi, R.: Robust ML Wideband Beamforming in Re-

verberant Fields. In: IEEE Transactions on Signal Processing 51 (2003), Feb.,

S. 338 –349

[DDP88] Dal-Degan, N. ; Prati, C.: Acoustic Noise Analysis and Speech Enhancement

Techniques for Mobile Radio Applications. In: Signal Processing 15 (1988), Nr.

4, S. 43–56

[DFG01] Doucet, A. ; Freitas, N. de ; Gordon, N.: Sequential Monte Carlo Methods

in Practice. Springer-Verlag, 2001

[Dic97] Dickreiter:Handbuch der Tonstudiotechnik. M¨

unchen : Sauerverlag KG,

1997

[DK96] Diamantaras, K. I. ; Kung, S. Y.: Principal Component Neural Networks -

Theory and Applications. John Wiley & Sons, 1996

[DM99] Doclo, S. ; Moonen, M.: Robustness of SVD-based Optimal Filtering for Noi-

se Reduction in Multi-Microphone Speech Signals. In: Proc. of the 1999 IEEE

International Workshop on Acoustic Echo and Noise Control (IWAENC’99).

Pocono Manor, Pennsylvania, USA, Sep. 1999, S. 80–83

204 Literaturverzeichnis

[DM01] Doclo, S. ; Moonen, M.: GSVD-based Optimal Filtering for Multi-

Microphone Speech Enhancement. In: Brandstein, M.S. (Hrsg.) ; Ward,

D.B. (Hrsg.): Microphone Arrays: Signal Processing Techniques and Applicati-

ons. Springer-Verlag, 2001, S. 111–132

[DM05] Doclo, S. ; Moonen, M.: Multimicrophone Noise Reduction using Recursive

GSVD-based Optimal Filtering with ANC Postprocessing Stage. In: IEEE

Transactions on Speech and Audio Processing 13 (2005), Jan., S. 53– 69

[DM06] Doclo, S. ; Moonen, M.: Superdirective Beamforming Robust Against Mi-

crophone Mismatch. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal

Processing (ICASSP). Toulouse, France, May 2006, S. 41–44

[Dob06] Doblinger, G.: An adaptive Microphone Array for optimum Beamforming

and Noise Reduction. In: Proc. European Signal Processing Conference (EU-

SIPCO) Bd. 2. Florence, Italy, May 2006

[DPK96] Dau, T. ; Puschel, D. ; Kohlrausch, A.: A Quantitative Model of the Ef-

fective Signal Processing in the Auditory System. In: Journal of the Acoustical

Society of America 99 (1996), Nr. 6, S. 3615–3622

[Dre99] Drews, M.: Mikrofonarrays und mehrkanalige Signalverarbeitung zur Verbes-

serung gest¨

orter Sprache, Technische Universit¨

at Berlin, Germany, Diss., 1999

[DSB01] DiBiase, J. ; Silverman, H. ; Brandstein, M.: Robust Localization in Re-

verberant Rooms. In: Brandstein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Micro-

phone Arrays: Signal Processing Techniques and Applications. Springer-Verlag,

2001, S. 157–180

[DSWM05] Doclo, S. ; Spriet, A. ; Wouters, J. ; Moonen, M.: Speech Distortion

Weighted Multichannel Wiener Filtering Techniques for Noise Reduction. In:

Benesty, J. (Hrsg.) ; Huang, A. (Hrsg.) ; S., Makino (Hrsg.): Speech Enhan-

cement. Springer-Verlag, 2005, S. 199–228

[EK03] Elmusrati, M. ; Koivo, H.: Multi-Path MVDR Smart Antenna Algorithm for

Frequency Selective Channels. In: Proc. Int. ITG-Conf. on Antennas (INICA).

Berlin, 2003, S. 369–371

[Elk00] Elko, G. W.: Superdirectional Microphone Arrays. In: Gay, S. L. (Hrsg.) ; Be-

nesty, J. (Hrsg.): Acoustic Signal Processing for Telecommunication. Kluwer

Academic Publishers, 2000, S. 181–237

[EM84] Ephraim, Y. ; Malah, D.: Speech Enhancement using a Minimum Mean Squa-

re Error Short-Time Spectral Amplitude Estimator. In: IEEE Transactions on

Acoust., Speech, Signal Processing ASSP-32 (1984), Dec., S. 1109–1121

[ETS02] ETSI:Speech Processing, Transmission and Quality Aspects; Distributed

Speech Recognition; advanced front-end feature extraction algorithm; compres-

sion algorithms. 2002. – ETSI ES 201 108 Recommendation

[Eyr30] Eyring, C. F.: Reverberation time in ”dead” rooms. In: Journal of the Acou-

stical Society of America (1930), S. 217–241

Literaturverzeichnis 205

[Fis07] Fischer, C.: Realisierung eines akustischen Beamformings unter Verwendung

von Verfahren zur adaptiven Eigenwertzerlegung. 2007. – Studienarbeit, Fach-

gebiet Nachrichtentechnik, Universit¨

at Paderborn

[Flo01] Florencio, H. S.: Multichannel Filtering for optimum Noise Reduction in

Microphone Arrays. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal

Processing (ICASSP). Salt Lake City, USA, May 2001, S. 197–200

[Fra61] Francis, J. G. F.: The QR Transformation: A Unitary Analogue to the LR

Transformation, PartI and Part II. In: The Computer Journal (1961), 4, S.

265–272, 332–345

[Fro72] Frost, O. L.: An Algorithm for Linearly Constrained Adaptive Array Proces-

sing. In: Proceedings of the IEEE 60 (1972), August, Nr. 8, S. 926–935

[FSJ93] Flanagan, J. L. ; Surendran, A. C. ; Jan, E. E.: Spatially Selective Sound

Capture for Speech and Audio Processing. In: Speech Communication 13

(1993), Oct., S. 207–222

[GAG96] Gazor, S. ; Affes, S. ; Grenier, Y.: Robust Adaptive Beamforming via

Target Tracking. In: IEEE Transactions on Signal Processing 44 (1996), June,

S. 1589–1593

[Gan00] Gannot, S.: Array Processing of Nonstationary Signals with Application to

Speech, Tel-Aviv University, Israel, Diss., 2000

[Gar92] Gardner, W. A.: A Unifying View of Coherence in Signal Processing. In:

Signal Processing 29 (1992), Nr. 2, S. 113–140

[GBW99] Gannot, S. ; Burshtein, D. ; Weinstein, E.: Beamforming Methods for

Multi-Channel Speech Enhancement. In: Int. Workshop on Acoustic Echo and

Noise Control (IWAENC). Pocono Manor, USA, Sept. 1999, S. 96–99

[GBW01] Gannot, S. ; Burshtein, D. ; Weinstein, E.: Signal Enhancement using Be-

amforming and Nonstationarity with Applications to Speech. In: IEEE Tran-

sactions on Signal Processing 49 (2001), Aug., Nr. 8, S. 1614–1626

[GBW04] Gannot, S. ; Burshtein, D. ; Weinstein, E.: Analysis of the Power Spectral

Deviation of the General Transfer Function GSC. In: IEEE Transactions on

Signal Processing 52 (2004), April, S. 1115–1121

[GC04] Gannot, S. ; Cohen, I: Speech Enhancement based on the General Transfer

Function GSC and Postfiltering. In: IEEE Transactions on Speech and Audio

Processing 12 (2004), Nov., Nr. 6, S. 561–571

[GJ82] Griffiths, L. J. ; Jim, C. W.: An Alternative Approach to Linearly Constrai-

ned Adaptive Beamforming. In: IEEE Trans. on Antennas and Propagation 30

(1982), January, Nr. 1, S. 27–34

[GM55] Gilbert, E.N. ; Morgan, S.P.: Optimum Design of Directive Antenna Arrays

Subject to Random Variables. In: Bell Systems Technical Journal 34 (1955),

May, S. 637–663

206 Literaturverzeichnis

[GM76] Gray, A. ; Markel, J.: Distance Measures for Speech Processing. In: IEEE

Transactions on Acoustics, Speech, and Signal Processing 24 (1976), Oct., Nr.

8, S. 380–391

[GN02] Grbi`

c, N. ; Nordholm, S.: Soft Contrained Subband Beamforming for Hands-

Free Speech Enhancement. In: Proc. IEEE Int. Conf. Acoustics, Speech, and

Signal Processing (ICASSP). Orlando, USA, May 2002, S. 885–888

[Gri67] Griffiths, L. J.: A comparison of multidimensional Wiener and maximum-

likelihood filters for antenna arrays. In: IEEE Proceedings 55 (1967), Nov., S.

2045– 2047

[GRT03] Gustafsson, T. ; Rao, B. D. ; Trivedi, M.: Source Localization in Reverbe-

rant Environments: Modeling and Statistical Analysis. In: IEEE Transactions

on Speech and Audio Processing 11 (2003), Nov., S. 791–803

[GV99] Golub, G. ; Vorst, H. van d.: Numerical Progress in Eigenvalue Computa-

tion in the 20th Century.citeseer.ist.psu.edu/golub99numerical.html.

Version: 1999

[GV00] Golub, G. H. ; Vorst, H. A. d.: Eigenvalue Computation in the 20th Century.

In: Journal of Computational and Applied Mathematics 123 (2000), Nov., Nr.

1-2, S. 35–65

[Has02] Hasu, V.: Eigenvalue Approach to Joint Power Control and Beamforming

for CDMA Systems. In: IEEE Seventh International Symposium on Spread

Spectrum Techniques and Applications (ISSSTA). Prague, Czech, Sept. 2002,

S. 561–565

[Hay02] Haykin, S.: Adaptive Filter Theory. Prentice Hall, 2002

[HBD00] Hammerschmidt, J. S. ; Brunner, C. ; Drewes, C.: Eigenbeamforming –

A Novel Concept in Array Signal Processing. In: Proc. of European Wireless

Conference. Dresden, Germany, Sept. 2000

[HBNK07] Herbordt, W. ; Buchner, H. ; Nakamura, S. ; Kellermann, W.: Mul-

tichannel bin-wise robust frequency-domain adaptive filtering and its applica-

tion to adaptive beamforming. In: IEEE Transactions on Audio, Speech and

Language Processing 15 (2007), May, Nr. 4, S. 1340–1351

[Her04] Herbordt, W.: Combination of Robust Adaptive Beamforming with Acou-

stic Echo Cancellation for Acoustic Human/Machine Interfaces, Universit¨

Erlangen-Nuremberg, Germany, Diss., 2004

[HGJ06] Hongqing, l. ; Guisheng, L. ; Jie, Z.: A robust adaptive Capon beamforming.

In: Signal Processing 86 (2006), Oct., S. 2820–2826

[HK00] Hansen, M. ; Kollmeier, B.: Objective Modeling of Speech Quality with a

Psychoacoustically Validated Auditory Model. In: Journal Audio Eng. Soc. 48

(2000), Nr. 5, S. 395–409

Literaturverzeichnis 207

[HK01] Herbordt, W. ; Kellermann, W.: Efficient Frequency-Domain Realization

of Robust Generalized Sidelobe Cancellers. In: IEEE Workshop on Multimedia

Signal Processing (MMSP). Cannes, Oct. 2001

[HK02] Herbordt, W. ; Kellermann, W.: Analysis of Blocking Matrices for Ge-

neralized Sidelobe Cancellers for Non-Stationary Broadband Signals. In: Proc.

IEEE Int. Conf. Acoust., Speech, Signal Processing (ICASSP). Orlando, USA,

May 2002

[HK03] Herbordt, W. ; Kellermann, W.: Adaptive Beamforming for Audio Si-

gnal Acquisition. In: Benesty, J. (Hrsg.) ; Huang (Hrsg.): Adaptive Signal

Processing. Springer-Verlag, 2003, S. 155–194

[HKO01] Hyv¨

arinen, A. ; Karhunen, J. ; Oja, E.: Independent Component Analysis.

John Wiley & Sons, 2001

[HN76] Hodgkiss, W. S. ; Nolte, L. W.: Covariance between Fourier Coefficients re-

presenting the Time Waveforms observed from an Array of Sensors. In: Journal

of the Acoustical Society of America 59 (1976), March, S. 582–590

[Hou64] Housholder, A. S.: The Theory of Matrices in Numerical Analysis. Dover,

New York, 1964

[HS01] Hoshuyama, O. ; Sugiyama, A.: Robust adaptive beamforming. In: Brand-

stein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Microphone Arrays: Signal Proces-

sing Techniques and Applications. Springer-Verlag, 2001, S. 19–38

[HSH96] Hoshuyama, O. ; Sugiyama, A. ; Hirano, A.: A Robust Adaptive Beam-

former for Microphone Arrays with a Blocking m Matrix using Constrained

Adaptive Filters. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Pro-

cessing (ICASSP). Atlanta, USA, May 1996, S. 925–928

[HSH99] Hoshuyama, O. ; Sugiyama, A. ; Hirano, A.: A Robust Adaptive Beamfor-

mer for Microphone Arrays with a Blocking Matrix using Constrained Adaptive

Filters. In: IEEE Transactions on Signal Processing 47 (1999), Oct., S. 2677–

2684

[HT73] Hahn, W. ; Tretter, S.: Space Time Processing for Optimal Parameter

Estimation. In: IEEE Transactions on Information Theory 19 (1973), Sept., S.

608–614

[Hub03] Huber, R.: Objective Assessment of Audio Quality using an Auditory Proces-

sing Model, University of Oldenburg, Germany, Diss., 2003

[Hub06] Huber, R.: Vorhersage der empfundenen Klangqualit¨

at von Mehrkanal-

St¨

orger¨

auschreduktionsverfahren in Personenkraftwagen. In: Fortschritte der

Akustik - DAGA 2006, DEGA e.V. Berlin, M¨

arz 2006, S. 219–220

[HUKW08] H¨

ab-Umbach, R. ; Kr¨

uger, A. ; Warsitz, E.: Blinde akustische Strahlfor-

mung f¨

ur Anwendungen im KFZ. In: Fortschritte der Akustik - DAGA 2008,

DEGA e.V. Dresden, M¨

arz 2008

208 Literaturverzeichnis

[HUW05] Haeb-Umbach, R. ; Warsitz, E.: Adaptive Filter-and-Sum Beamforming in

Spatially Correlated Noise. In: Int. Workshop on Acoustic Echo and Noise

Control (IWAENC). Eindhoven, Netherlands, Sept. 2005

[IEE79] Programs for Digital Signal Processing. John Wiley & Sons, 1979. – IEEE

Press, Chap. 8.1

[IN06] Ishizuka, K. ; Nakatani, T.: Study of Noise Robust Voice Activity Detection

based on Periodic Component to Aperiodic Component Ratio. In: Statistical

And Perceptual Audition (SAPA). Pittsburgh, USA, Sept. 2006

[Iri97] Irie, R. E.: Multimodal Sensory Integration for Localization in a Humanoid

Robot. In: Proc. of Second IJCAI Workshop on Computational Auditory Scene

Analysis (CASA97). Nagoya, Japan, Aug. 1997, S. 54–58

[IS70] Itakura, F. ; Saito, S.: A Statistical Method for Estimation of Speech Spec-

tral Density and Formant Frequencies. In: Electronics and Communications in

Japan 53A (1970), S. 36–43

[ITU01] ITU: Perceptual Evaluation of Speech Quality (PESQ), an Objective Method

for End-to-End Speech Quality Assessment of Narrowband Telephone Networks

and Speech Codecs. In: Series P: Telephone Transmission Quality Recommen-

dation P.862. International Telecommunications Union (ITU), 2001

[Jac46] Jacobi, C. G. J.: ¨

Uber ein leichtes Verfahren die in der Theorie der S¨

acul¨

ar-

st¨

orungen vorkommenden Gleichungen numerisch aufzul¨

osen. In: Journal f¨

die reine und angewandte Mathematik 30 (1846), Nov., Nr. 1-2, S. 51–94

[JD93] Johnson, D. H. ; Dudgeon, D. E.: Array Signal Processing. New Jersey :

Prentice Hal, 1993

[JF96] Jan, E. E. ; Flanagan, J.: Sound Capture from Spatial Volumes: Matched-

Filter Processing of Microphone Arrays having Randomly Distributed Sensors.

In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP).

Atlanta, USA, 1996

[JG00] James, G. R. ; G., Rafik A.: Optimum Near-Field Performance of Microphone

Arrays subject to a Far-Field Beampattern Constraint. In: The Journal of the

Acoustical Society of America 108 (2000), Nov., S. 2248–2255

[JHLCCC06] Ju-Hong Lee, J.-H. ; Cheng, K.-P. ; C.-C., Wang: Robust Adaptive Array

Beamforming under Steering Angle Mismatch. In: Signal Processing 86 (2006),

Feb., S. 296 – 309

[JN87] Jacobsen, F. ; Nielsen, T. G.: Spatial Correlation and Coherence in a Re-

verberant Sound Field. In: Journal of Sound Vibration 118 (1987), Oct., S.

175–180

[Jor74] Jordan, W.: 47. Conventions AES. Copenhagen : Audio Engineering Society

(AES), 1974

Literaturverzeichnis 209

[JRY00] Jourjine, A. ; Rickard, S. ; Yilmaz, O.: Blind Separation of Disjoint Or-

thogonal Signals. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal

Processing (ICASSP). Istanbul, Turkey, June 2000, S. 2985–2988

[KAM07] Knaak, M. ; Araki, S. ; Makino, S.: Geometrically constrained Independent

Component Analysis. In: IEEE Transactions on Audio, Speech and Language

Processing 15 (2007), Feb., S. 715–726

[Kar84] Karhunen, J.: Adaptive Algorithms for Estimating Eigenvectors of Correla-

tion Type Matrices. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal

Processing (ICASSP) Bd. 9. San Diego, USA, March 1984, S. 592 – 595

[KC76] Knapp, C. H. ; Carter, G. C.: The generalized correlation method for esti-

mation of time delay. In: IEEE Trans. ASSP (1976), S. 320–327

[KDO05] Kristjansson, T. ; Deligne, S. ; Olsen, P.: Joint Speaker Segmentation,

Localization and Identification for Streaming Audio. In: Proc. Interspeech.

Lisbon, Portugal, Sept. 2005

[KHJ06] Kim, L.H. ; Hasegawa-Johnson, M.: Generalized optimal Multi-Microphone

Speech Enhancement using sequential Minimum Variance Distortionless Re-

sponse (MVDR) Beamforming and Postfiltering. In: Proc. IEEE Int. Conf.

Acoustics, Speech, and Signal Processing (ICASSP). Toulouse, France, May

2006, S. 65–68

[KK02] Kammeyer, K.D. ; Kroschel, K.: Digitale Signalverarbeitung. 5. Auflage.

Stuttgart : Teubner, 2002

[Kr¨

u07] Kr¨

uger, A.: Mehrkanalige Sprachsignalverbesserung mittels adaptiver Eigen-

wertzerlegung in einer Generalized Sidelobe Canceller Anordnung. 2007. – Di-

plomarbeit 5/06, Fachgebiet Nachrichtentechnik, Universit¨

at Paderborn

[Kut00] Kuttruff, H.: Room Acoustics. 4th edition. Taylor & Francis Group, 2000

[Lan50] Lanczos, C.: An Iteration Method for the Solution of the Eigenvalue Problem

of Linear Differential and Integral Operators. In: Journal of Research of the

National Bureau of Standards 45 (1950), Oct., Nr. 4, S. 255–282

[Lev64] Levin, M. J.: Maximum-Likelihood Array Processing. M.I.T. Lincoln Labora-

tory, Lexington, USA, Dec. 1964. – Technical Report DDC 455743

[LNO00] Lourens, T. ; Nakadai, K. ; Okuno, H.: Humanoid Active Audition System.

In: Proc. of First IEEE-RAS International Conference on Humanoid Robots

(Humanoids2000). Cambridge, USA, Sep. 2000

[Loi07] Loizou, P.: Speech Enhancement: Theory and Practice. CRC Press, 2007

[LS05] Li, J. ; Stoica, P.: Robust Adaptive Beamforming. Wiley, 2005

[LV06] Lotter, T. ; Vary, P.: Dual-Channel Speech Enhancement by Superdirective

Beamforming. In: EURASIP Journal on Applied Signal Processing 2006 (2006),

S. Article ID 63297, 14 pages. – doi:10.1155/ASP/2006/63297

210 Literaturverzeichnis

[LVKL96] Laakso, T. I. ; V¨

alim¨

aki, V. ; Karjalainen, M. ; Laine, U. K.: Splitting

the Unit Delay. In: IEEE Signal Processing Magazine 13 (1996), Jan., Nr. 1,

S. 30–60

[LWW03] Lehmann, E. A. ; Ward, D. B. ; Williamson, R. C.: Experimental Com-

parison of Particle Filtering Algorithms for Acoustic Source Localization in

Reverberant Room. In: Proc. IEEE Int. Conf. Acoust., Speech, Signal Proces-

sing (ICASSP). Hong Kong, China, April 2003

[MA04] Mungamuru, B. ; Aarabi, P.: Source Localization in Reverberant Environ-

ments: Modeling and Statistical Analysis. In: IEEE Transactions on Systems,

Man and Cybernetics - Part B: Cybernetics 34 (2004), June, S. 1526–1540

[Mak03] Makino, S.: Blind Source Separation of Convolutive Mixtures of Speech. In:

Benesty, J. (Hrsg.) ; Huang (Hrsg.): Adaptive Signal Processing. Springer-

Verlag, 2003, S. 195–225

[Mar94] Martin, R.: Spectral Subtraction based on Minimum Statistics. In: European

Signal Processing Conference (EUSIPCO). Edinburgh, Scotland, Sept. 1994,

S. 1182–1185

[Mar95] Martin, R.: Freisprecheinrichtungen mit mehrkanaliger Echokompensation

und St¨

orger¨

auschreduktion, Technische Hochschule Aachen, Germany, Diss.,

1995

[Mar01] Martin, R.: Noise Power Spectral Density Estimation based on Optimal Smoo-

thing and Minimum Statistics. In: IEEE Transactions Speech and Audio Pro-

cessing 108 (2001), July, S. 504–512

[MB02] McCowan, I.A. ; Bourlard, H.: Microphone Array Post-Filter for Diffuse

Noise Field. In: IEEE Int. Conf. Acoustics, Speech, and Signal Processing

(ICASSP). Orlando, USA, May 2002, S. 905–908

[MB03] McCowan, I.A. ; Bourlard, H: Microphone Array Post-Filter based on Noise

Field Coherence. In: IEEE Transactions on Speech and Audio Processing 11

(2003), S. 240–259

[MK02] Marzinzik, M. ; Kollmeier, B.: Speech Pause Detection for Noise Spectrum

Estimation by Tracking Power Envelope Eynamics. In: IEEE Transactions on

Speech and Audio Processing 10 (2002), Feb., S. 109–118

[MMM00] McCowan, I. ; Marro, C. ; Mauuary, L.: Robust Speech Recognition Using

Near-Field Superdirective Beamforming with Post-Filtering. In: Proc. IEEE

Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP). Istanbul, Tur-

key, June 2000, S. 1723 1726

[MMU98] Marro, C. ; Mahieux, Y. ; U., Simmer K.: Analysis of Noise Reduction and

Dereverberation Techniques based on Microphone Arrays with Postfiltering. In:

IEEE Transactions Speech, Audio Processing 6 (1998), May, S. 240–259

[Mor04] Morgan, D.: Adaptive Algorithms for solving Generalized Eigenvalue Signal

Enhancement Problems. In: Signal Processing 84 (2004), Aug., S. 957–968

Literaturverzeichnis 211

[MPL01] Martin, R. ; Petrovsky, A. ; Lotter, T.: Planar Superdirective Microphone

Arrays for Speech Acquisition in the Car. In: Euro. Conf. Speech Communi-

cation and Technology (EUROSPEECH). Aalborg, Denmark, Sept. 2001, S.

2623–2626

[MRP96] Mathew, G. ; Reddy, V. U. ; Paulraj, A.: A Quasi-Newton Adaptive Al-

gorithm for Estimating Generalized Eigenvectors. In: IEEE Transactions on

Signal Processing 44 (1996), Oct., Nr. 10, S. 2413–2422

[MS97] Meyer, J. ; Sydow, C.: Noise Cancelling for Microphone Arrays. In: Proc.

IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP). Munich,

Germany, April 1997, S. 211–214

[NA79] Neely, S. T. ; Allen, J. B.: Invertibility of a Room Impulse Response. In:

Journal of the Acoustical Society of America (1979), July, S. 165–169

[NCB93] Nordholm, S. ; Claesson, I. ; Bengtsson, B.: Adaptive Array Noise Sup-

pression of Handsfree Speaker Input in Cars. In: IEEE Transactions on Vehi-

cular Technology 42 (1993), Nov., S. 514–518

[NCG01] Nordholm, S. ; Claesson, I. ; Grbi`

c, N.: Optimal and Adaptive Micropho-

ne Arrays for Speech Input in Automobiles. In: Brandstein, M.S. (Hrsg.)

;Ward, D.B. (Hrsg.): Microphone Arrays: Signal Processing Techniques and

Applications. Springer-Verlag, 2001, S. 111–132

[NGL05] Nordholm, H. Q. ; Grbic, N. ; Low, S. Y.: Adaptive Microphone Arrays

Employing Spatial Quadratic Soft Constraints and Spectral Shaping. In: Be-

nesty, J. (Hrsg.) ; Chen, J. (Hrsg.) ; Makino, S. (Hrsg.): Speech Enhancement.

Springer-Verlag, 2005, S. 229–246

[NL00] Nordholm, S. ; Leung, Y. H.: Performance Limits of the Broadband Gene-

ralized Sidelobe Cancelling Structure in an Isotropic Noise Field. In: Journal

of the Acoustical Society of America 107 (2000), Feb., S. 1057–1060

[NNS01] Nishiura, T. ; Nakamura, S. ; Shikano, K.: Speech Enhancement by Multi-

ple Beamforming with Reflection Signal Equalization. In: Proc. IEEE Int. Conf.

Acoustics, Speech, and Signal Processing (ICASSP). Salt Lake City, USA, May

2001, S. 189–192

[Oja82] Oja, E.: A Simplified Neuron Model as a Principal Component Analyzer. In:

J. Math. Biology 15 (1982), S. 267–273

[OK85] Oja, E. ; Karhunen, J.: On stochastic approximation of the eigenvectors

and eigenvalues of the expectation of a random matrix. In: IEEE Transactions

Neural Networks 9 (1985), S. 58–67

[PA02] Parra, L. ; Alvino, C. V.: Geometric Source Separation: Merging Convolutive

Source Separation with Geometric Beamforming. In: IEEE Transactions on

Speech and Audio Processing 10 (2002), Sept., S. 352–362

212 Literaturverzeichnis

[PK01] Pados, D. A. ; Karystinos, G. N.: An iterative Algorithm for the Compu-

tation of the MVDR Filter. In: IEEE Transactions on Signal Processing 49

(2001), Feb., S. 290–300

[QBC88] Quackenbush, S. R. ; Barnwell, T. P. ; Clements, M. A.: Objective Mea-

sures of Speech Quality. New York : Prentice-Hall, 1988

[RAG04] Ristic, B. ; Arulampalam, S. ; Gordon, N.: Beyond the Kalman Filter:

Particle Filters for Tracking Applications. Artech House Publishers, 2004

[RBB03] Rosca, J. ; Balan, R. ; Beaugeant, C.: Multi-Channel Psychoacoustically

Motivated Speech Enhancement. In: Proc. IEEE Int. Conf. Acoustics, Speech,

and Signal Processing (ICASSP). HongKong, China, April 2003, S. 84–87

[RBR01] Rickard, S. ; Balan, R. ; Rosca, J.: Real-Time Time-Frequency based Blind

Source Separation. In: Proc. of the second international workshop on indepen-

dent component analysis and blind signal separation. San Diego, USA, Dec.

2001, S. 651–656

[RC03] Rindel, J. H. ; Christensen, C. L.: Room Acoustic Simulation and Sura-

lization - How close can we get to the real room. In: Eight Western Pacific

Acoustics conference. Melbourne, April 2003

[RGC07a] Reuven, G. ; Gannot, S. ; Cohen, I.: Joint Noise Reduction and Acoustic

Echo Cancellation using the Transfer-Function Generalized Sidelobe Canceller.

In: Speech Communication - Speech Enhancement 49 (2007), Aug., S. 623–635

[RGC07b] Reuven, G. ; Gannot, S. ; Cohen, I.: Performance Analysis of Dual Source

Transfer-Function Generalized Sidelobe Canceller. In: Speech Communication

- Speech Enhancement 49 (2007), Aug., S. 623–635

[RGC08] Reuven, G. ; Gannot, S. ; Cohen, I.: Dual-Source Transfer-Function Ge-

neralized Sidelobe Canceller. In: IEEE Transactions on Audio, Speech and

Language Processing 16 (2008), May, Nr. 4

[RHK05] Rohdenburg, T. ; Hohmann, V. ; Kollmeier, B.: Objective Perceptual

Quality Measures for the Evaluation of Noise Reduction Schemes. In: Interna-

tional Workshop on Acoustic Echo and Noise Control. Eindhoven, Sept. 2005,

S. 169–172

[RM05] Rombouts, G. ; Moonen, M.: Fast QRD-Lattice-based unconstrained Opti-

mal Filtering for Acoustic Noise Reduction. In: IEEE Transactions on Speech

and Audio Processing 13 (2005), Nov., Nr. 6, S. 1130–1143

[RP02] Rao, Y. N. ; Principe, J. C.: Time Series Segmentation Using a Novel Ad-

aptive Eigendecomposition Algorithm. In: Journal of VLSI Signal Processs 32

(2002), Nr. 1-3, S. 7–12

[RPW04] Rao, Y. N. ; Principe, J. C. ; Wong, T. F.: Fast RLS-Like Algorithm for

Generalized Eigendecomposition and its Applications. In: Journal of VLSI

Signal Processs 37 (2004), Nr. 2-3, S. 333–344

Literaturverzeichnis 213

[RRFM98] Rabinkin, D. ; Renomeron, R. ; Flanagan, J. ; Macomber, D. F.: Optimal

Truncation Time for Matched Filter Array Processing. In: Proc. IEEE Int.

Conf. Acoustics, Speech, and Signal Processing (ICASSP). Seattle, USA, May

1998, S. 3269–3273

[RSB+05] Ramirez, J. ; Segura, J.C. ; Benitez, C. ; Garcia, L. ; Rubio, A.: Statistical

Voice Activity Detection using a Multiple Observation Likelihood Ratio Test.

In: IEEE Signal Processing Letters 12 (2005), Oct., S. 689– 692

[RYPD05] Raykar, V. C. ; Yegnanarayana, B. ; Prasanna, S. R. M. ; Duraiswami,

R.: Source Localization in Reverberant Environments: Modeling and Statistical

Analysis. In: IEEE Transactions on Speech and Audio Processing 13 (2005),

Sept., S. 751–760

[Sab22] Sabine, W. C.: Collected Papers on Acoustics. In: Harvard University Press,

reprinted by Peninsula Publishing, Acous. Soc. Am. 1993 edition (1922)

[SBM01] Simmer, K. U. ; Bitzer, J. ; Marro, C.: Post-filtering techniques. In: Brand-

stein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Microphone Arrays: Signal Proces-

sing Techniques and Applications. Springer-Verlag, 2001, S. 39–57

[Sch65] Schroeder, M. R.: New Method of Measuring Reverberation Time. In: Jour-

nal of the Acoustical Society of America 37 (1965), S. 409–412

[Sch79] Schmidt, R. O.: Multiple Emitter Location and Signal Parameter Estimation.

In: Proc. RADC Spectrum Estimation Workshop. Rome, NY, USA, 1979, S.

243–258

[SHU06] Schmalenstroeer, J. ; Haeb-Umbach, R.: Online Speaker Change Detec-

tion by Combining BIC with Microphone Array Beamforming. In: Proc. Inter-

speech. Pittsburgh, USA, Sept. 2006

[SHU07] Schmalenstroeer, J. ; Haeb-Umbach, R.: Joint Speaker Segmentation,

Localization and Identification for Streaming Audio. In: Proc. Interspeech.

Antwerp, Belgium, Aug. 2007

[SHUW07] Schmalenstr¨

oer, J. ; H¨

ab-Umbach, R. ; Warsitz, E.: Projekt Amigo -

Sprachsignalverarbeitung im vernetzten Haus. In: Fortschritte der Akustik -

DAGA 2007, DEGA e.V. Stuttgart, M¨

arz 2007, S. 631–632

[Shy92] Shynk, J.: Frequency-Domain and Multirate Adaptive Filtering. In: IEEE

Signal Processing Magazine 9 (1992), S. 14–39

[SK06] Schwarz, H.-R. ; K¨

ockler, N.: Numerische Mathematik. Teubner, 2006

[SKS99] Sohn, J. ; Kim, N. ; Sung, W.: A Statistical Model-based Voice Activity

Detection. In: IEEE Signal Processing Letters 6 (1999), Jan., S. 1–3

[SMH+03] Shoko, A. ; Makino, S. ; Hinamoto, Y. ; Mukai, R. ; Nishikawa, T. ; Saru-

watari, H.: Equivalence between Frequency-Domain Blind Source Separation

and Frequency-Domain Adaptive Beamforming for Convolutive Mixtures. In:

EURASIP Journal on Applied Signal Processing, 2003, S. 1157–1166

214 Literaturverzeichnis

[SMM05] Sawada, H. ; Mukai, S. ; Makino, S.: Frequency-Domain Blind Source Se-

paration. In: Benesty, J. (Hrsg.) ; Chen, J. (Hrsg.) ; Makino, S. (Hrsg.):

Speech Enhancement. Springer-Verlag, 2005, S. 299–352

[SMW02] Spriet, A. ; Moonen, M. ; Wouters, J.: A multichannel subband gsvd

approach to speech enhancement. In: Eur. Trans. Telecommunications, Special

Issue on Acoustic Echo and Noise Control 13 (2002), March, S. 149–158

[SRS04] Seltzer, M. L. ; Raj, B. ; Stern, R. M.: Likelihood Maximizing Beamforming

for Robust Hands-Free Speech Recognition. In: IEEE Transactions on Speech

and Audio Processing 12 (2004), Sept., S. 489–498

[SSR01] Strobel, N. ; Spors, S. ; Rabenstein, R.: Joint Audio-Video Signal Pro-

cessing for Object Localization and Tracking. In: Brandstein, M.S. (Hrsg.)

;Ward, D.B. (Hrsg.): Microphone Arrays: Signal Processing Techniques and

Applications. Springer-Verlag, 2001, S. 204–225

[SW92] Simmer, K. U. ; Wasiljeff, A.: Adaptive Microphone Arrays for Noise Sup-

pression in the Frequency Domain. In: Second Cost 229 Workshop on Adaptive

Algorithms in Communications. Bordeaux, France, Oct. 1992, S. 185–194

[SW96] Shalvi, O. ; Weinstein, E.: System Identification using Nonstationary Si-

gnals. In: IEEE Transactions on Signal Processing (1996), Aug., S. 2055–2063

[Thi53] Thiele, R.: Richtungsverteilung und Zeitfolge der Schallr¨

uckw¨

urfe in R¨

aumen.

In: Acustica 3, 1953, S. 291–302

[Tuc92] Tucker, R.: Voice Activity Detection Using a Periodicity Measure. In: IEEE

Signal Processing Letters 139 (1992), Aug., S. 377–380

[TV07] Tran Vu, D. H.: Akustische Quellentrennung durch adaptives Beamforming

basierend auf Verfahren zur Eigenwertzerlegung. 2007. – Diplomarbeit 4/06,

Fachgebiet Nachrichtentechnik, Universit¨

at Paderborn

[T¨

ag98] T¨

ager, W.: Near Field Superdirectivity (NFSD). In: Proc. IEEE Int. Conf.

Acoustics, Speech, and Signal Processing (ICASSP). Atlanta, USA, May 1998,

S. 2045–2048

[US56] Uzsoky, M. ; Solymar, L.: Theory of super-directive linear arrays. In: Acta.

Physica Hungarica 6 (1956), May, S. 185–205

[VB01] Vermaak, J. ; Blake, A.: Nonlinear Filtering for Speaker Tracking in Noisy

and Reverberant Environments. In: Proc. IEEE Int. Conf. Acoust., Speech,

Signal Processing (ICASSP). Salt Lake City, USA, April 2001

[VHH98] Vary, P. ; Heute, U. ; Hess, W.: Digitale Sprachsignalverarbeitung. Stuttgart

: Teubner Verlag, 1998

[VM06] Vary, P. ; Martin, R.: Digital Speech Transmission - Enhancement, Coding

& Error Concealment. John Wiley & Sons, 2006

Literaturverzeichnis 215

[VMPG29] Von Mises, R. ; Pollaczek-Geiringer, H.: Praktische Verfahren der Glei-

chungsaufl¨

osung. In: Zeitschrift f¨

ur Angewandte Mathematik und Mechanik

(1929), 9, S. 58–79; 152–164

[VSO97] Viberg, M. ; Stoica, P. ; Ottersten, B.: Maximum Likelihood Array Proces-

sing in Spatially Correlated Noisefields using Parameterized Signals. In: IEEE

Transactions on Acoustics, Speech and Signal Processing 45 (1997), April, S.

996–1004

[VT68] Van Trees, H. L.: Detection, Estimation, and Modulation Theory, Part I.

John Wiley & Sons, 1968

[VT02] Van Trees, H. L.: Optimum Array Processing. John Wiley & Sons, 2002

[VVB88] Van Veen, B. D. ; Buckley, K. M.: Beamforming: A Versatile Approach to

Spatial Filtering. In: IEEE Trans. Acoust., Speech, Signal Processing 5 (1988),

Nr. 4, S. 4–24

[WA96] Wax, M ; Anu, Y.: Performance Analysis of the Minimum Variance Beam-

former in the Presence of Steering Vector Errors. In: IEEE Transactions on

Signal Processing 44 (1996), April, S. 938–947

[WB98] Wang, C. ; Brandstein, M. S.: A Hybrid Real-Time Face Tracking System.

In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP).

Seattle, USA, May 1998, S. 3737–3740

[Wel67] Welch, P.: The use of Fast Fourier Transform for the Estimation of Power

Spectra: A Method based on Time Averaging over Short, Modified Periodo-

grams. In: IEEE Transactions on Audio and Electroacoustics 15 (1967), June,

S. 70–73

[WHU04] Warsitz, E. ; Haeb-Umbach: Robust Speaker Direction Estimation with Par-

ticle Filtering. In: IEEE Workshop on Multimedia Signal Processing (MMSP).

Siena, Italy, Sept. 2004, S. 367– 370

[WHU05] Warsitz, E. ; Haeb-Umbach, R.: Acoustic Filter-and-Sum Beamforming by

Adaptive Principal Component Analysis. In: Proc. IEEE Int. Conf. Acoustics,

Speech, and Signal Processing (ICASSP). Philadelphia, USA, March 2005

[WHU06a] Warsitz, E. ; Haeb-Umbach, R.: Controlling Speech Distortion in Adaptive

Frequency-Domain Principal Eigenvector Beamforming. In: Int. Workshop on

Acoustic Echo and Noise Control (IWAENC). Paris, France, Sept. 2006

[WHU06b] Warsitz, E. ; Haeb-Umbach, R.: Mehrkanalige Sprachsignalverarbeitung

durch adaptives Eigenbeamforming f¨

ur Freisprecheinrichtungen im Kraftfahr-

zeug. In: Fortschritte der Akustik, DAGA 2006 Bd. 32. Braunschweig, M¨

arz

2006, S. 49–50

[WHU07] Warsitz, E. ; Haeb-Umbach, R.: Blind Acoustic Beamforming based on Ge-

neralized Eigenvalue Decomposition. In: IEEE Transactions on Audio, Speech

and Language Processing 15 (2007), July, S. 1529–1539

216 Literaturverzeichnis

[WHUP04] Warsitz, E. ; Haeb-Umbach, R. ; Peschke, S.: Adaptive Beamforming

Combined with Particle Filtering for Acoustic Source Localization. In: Proc.

ICSLP. Jeju, Corea, Oct. 2004, S. 2849–2852

[WHUS07] Warsitz, E. ; H¨

ab-Umbach, R. ; Schmalenstr¨

oer, J.: Zweistufige

Sprache/Pause-Detektion in stark gest¨

orter Umgebung. In: Fortschritte der

Akustik - DAGA 2007, DEGA e.V. Stuttgart, M¨

arz 2007, S. 303–304

[WHUTV07] Warsitz, E. ; Haeb-Umbach, R. ; Tran Vu, D. H.: Blind Adaptive Prin-

cipal Eigenvector Beamforming for Acoustical Source Separation. In: Proc.

Interspeech. Antwerp, Belgium, Aug. 2007

[Wie44] Wielandt, H.: Beitr¨

age zur mathematischen Behandlung komplexer Eigen-

wertprobleme. 1944. – Teil V: Bestimmung h¨

oherer Eigenwerte durch gebroche-

ne Iteration. Bericht B 44/J/37, Aerodynamische Versuchsanstalt G¨

ottingen,

Germany, 1944

[WKHU08] Warsitz, E. ; Krueger, A. ; Haeb-Umbach, R.: Speech Enhancement with a

new Generalized Eigenvector Blocking Matrix for Application in a Generalized

Sidelobe Canceller. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal

Processing (ICASSP). Las Vegas, USA, March/April 2008, S. 73–76

[WKW01] Ward, D. B. ; Kennedy, R. A. ; Williamson, R. C.: Constant Directivity

Beamforming. In: Brandstein, M.S. (Hrsg.) ; Ward, D.B. (Hrsg.): Micro-

phone Arrays: Signal Processing Techniques and Applications. Springer-Verlag,

2001, S. 3–17

[WLW03] Ward, D. B. ; Lehmann, E. A. ; Williamson, R. C.: Particle Filtering

Algorithms for Tracking an Acoustic Source in a Reverberant Environment.

In: IEEE Transactions on Speech and Audio Processing 11 (2003), Nov., S.

826–836

[WMGG67] Widrow, B. ; Mantey, P. E. ; Griffiths, L. J. ; Goode, B. B.: Adaptive

Antenna Systems. In: IEEE Proceedings 55 (1967), Dec., S. 2143– 2159

[WW02] Ward, D. B. ; Williamson, R. C.: Particle Filter Beamforming for Acoustic

Source Location. In: Proc. IEEE Int. Conf. Acoust., Speech, Signal Processing

(ICASSP). Orlando, USA, May 2002

[Yan95] Yang, B.: Projection Approximation Subspace Tracking. In: IEEE Transacti-

ons Signal Processing 43 (1995), Jan., S. 95–107

[YOZC04] Yang, K. ; Ohira, T. ; Zhang, Y. ; Chi, C.-Y.: Super-Exponential Blind

Adaptive Beamforming. In: IEEE Transactions on Signal Processing 52 (2004),

June, Nr. 6, S. 1549–1563

[YR04] Yilmaz, O. ; Richard, S.: Blind Separation of Speech Mixtures via Time-

Frequency Masking. In: IEEE Transactions on Signal Processing 52 (2004),

July, S. 1830–1847

Literaturverzeichnis 217

[YXYZ06] Yang, J. ; Xi, H. ; Yang, F. ; Zhao, Y.: A Quasi-Newton Adaptive Algorithm

for Estimating Generalized Eigenvectors. In: IEEE Transactions on Signal

Processing 44 (2006), Oct., Nr. 10, S. 1177– 1188

[Zel88] Zelinski, R.: A Microphone Array with Adaptive Post-Filtering for Noise

Reduction in Reverberant Rooms. In: Int. Conf. Acoustics, Speech, and Signal

Processing (ICASSP). New York, USA, April 1988, S. 2578–2581

[ZHA04] Zhang, X. ; Hansen, J. H. L. ; Arehart, K.: Speech Enhancement based

on a combined Multi-Channel Array with Constrained Interative and Auditory

Masked Processing. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal

Processing (ICASSP). Montreal, Canada, May 2004, S. 229–232

218 Literaturverzeichnis

Eigene Publikationen

[1] Krueger, A. ; Warsitz, E. ; Haeb-Umbach, R.: Eigenvector based Transfer Func-

tion Ratios Estimation for Speech Enhancement with a GSC-like Structure. In: IEEE

Transactions on Audio, Speech and Language Processing, submitted June 2008

[2] Warsitz, E. ; Krueger, A. ; Haeb-Umbach, R.: Speech Enhancement with a new

Generalized Eigenvector Blocking Matrix for Application in a Generalized Sidelobe Can-

celler. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal Processing (ICASSP).

Las Vegas, USA, March/April 2008, S. 73–76

[3] H¨

ab-Umbach, R. ; Kr¨

uger, A. ; Warsitz, E.: Blinde akustische Strahlformung f¨

Anwendungen im KFZ. In: Fortschritte der Akustik - DAGA 2008, DEGA e.V. Dresden,

M¨

arz 2008

[4] Warsitz, E. ; Haeb-Umbach, R. ; Tran Vu, D. H.: Blind Adaptive Principal Eigen-

vector Beamforming for Acoustical Source Separation. In: Proc. Interspeech. Antwerp,

Belgium, Aug. 2007

[5] Warsitz, E. ; Haeb-Umbach, R.: Blind Acoustic Beamforming based on Generali-

zed Eigenvalue Decomposition. In: IEEE Transactions on Audio, Speech and Language

Processing 15 (2007), July, S. 1529–1539

[6] Schmalenstr¨

oer, J. ; H¨

ab-Umbach, R. ; Warsitz, E.: Projekt Amigo - Sprachsi-

gnalverarbeitung im vernetzten Haus. In: Fortschritte der Akustik - DAGA 2007, DEGA

e.V. Stuttgart, M¨

arz 2007, S. 631–632

[7] Warsitz, E. ; H¨

ab-Umbach, R. ; Schmalenstr¨

oer, J.: Zweistufige Sprache/Pause-

Detektion in stark gest¨

orter Umgebung. In: Fortschritte der Akustik - DAGA 2007,

DEGA e.V. Stuttgart, M¨

arz 2007, S. 303–304

[8] Warsitz, E. ; Haeb-Umbach, R.: Controlling Speech Distortion in Adaptive Frequency-

Domain Principal Eigenvector Beamforming. In: Int. Workshop on Acoustic Echo and

Noise Control (IWAENC). Paris, France, Sept. 2006

[9] Warsitz, E. ; Haeb-Umbach, R.: Mehrkanalige Sprachsignalverarbeitung durch adap-

tives Eigenbeamforming f¨

ur Freisprecheinrichtungen im Kraftfahrzeug. In: Fortschritte

der Akustik, DAGA 2006 Bd. 32. Braunschweig, M¨

arz 2006, S. 49–50

[10] Haeb-Umbach, R. ; Warsitz, E.: Adaptive Filter-and-Sum Beamforming in Spatially

Correlated Noise. In: Int. Workshop on Acoustic Echo and Noise Control (IWAENC).

Eindhoven, Netherlands, Sept. 2005

[11] Warsitz, E. ; Haeb-Umbach, R.: Acoustic Filter-and-Sum Beamforming by Adaptive

Principal Component Analysis. In: Proc. IEEE Int. Conf. Acoustics, Speech, and Signal

Processing (ICASSP). Philadelphia, USA, March 2005

220 Eigene Publikationen

[12] Warsitz, E. ; Haeb-Umbach, R. ; Peschke, S.: Adaptive Beamforming Combined

with Particle Filtering for Acoustic Source Localization. In: Proc. ICSLP. Jeju, Corea,

Oct. 2004, S. 2849–2852

[13] Warsitz, E. ; Haeb-Umbach: Robust Speaker Direction Estimation with Particle

Filtering. In: IEEE Workshop on Multimedia Signal Processing (MMSP). Siena, Italy,

Sept. 2004, S. 367– 370