Document [original]

Akustische Szenenanalyse

für die ambiente Kommunikation

im vernetzten Haus

Zur Erlangung des akademischen Grades

DOKTORINGENIEUR (Dr.-Ing.)

der Fakultät für Elektrotechnik, Informatik und Mathematik

der Universität Paderborn

genehmigte Dissertation

von

Dipl.-Ing. Jörg Schmalenströer

Paderborn

Referent: Prof. Dr.-Ing. Reinhold Häb-Umbach

Korreferent: Prof. Dr.-Ing. Gernot A. Fink

Tag der mündlichen Prüfung: 09.03.2010

Paderborn, den 15.03.2010

Diss. EIM-E/264

Danksagung

Die vorliegende Arbeit entstand während meiner Tätigkeit im Fachgebiet Nachrichtentech-

nik der Universität Paderborn. Sie wurde im Rahmen des europäischen Forschungsprojektes

Amigo (IST 004182) gefördert.

Mein besonderer Dank gilt dem Fachgebietsleiter Herrn Prof. Dr.-Ing. Reinhold Häb-

Umbach für die Betreuung dieser Arbeit. Die vielen gemeinsamen Diskussionen und der

rege Ideenaustausch führten zu einer sehr guten Arbeitsatmosphäre und trugen entscheidend

zum Erfolg bei. Herrn Prof. Dr.-Ing. Gernot A. Fink möchte ich für die Übernahme des

Korreferates und die interessanten Gespräche danken.

Den wissenschaftlichen Mitarbeitern des Fachgebietes Nachrichtentechnik danke ich für

die gemeinsame Zeit und ihre fachliche Unterstützung. Insbesondere gilt mein Dank Herrn

Dr.-Ing. Valentin Ion und Herrn Dr.-Ing. Ernst Warsitz für die vielfältigen Diskussionen über

meine Arbeit. Des Weiteren danke ich meinen Kollegen Herrn Dipl.-Math. Alexander Krü-

ger, Herrn Dipl.-Inf. Sven Peschke, Herrn Dipl.-Ing. Maik Bevermeier, Herrn Dipl.-Ing.

Dang Hai Tran Vu und Herrn Dipl.-Ing. Volker Leutnant für ihre konstruktiven Kommen-

tare und ihre Unterstützung. Allen Studierenden, deren Arbeiten ich in den letzten Jahren

betreuen durfte, danke ich für ihre motivierte Mitarbeit.

An dieser Stelle möchte ich noch meinen Freunden, speziell Nicole Fröhleke, Björn Kehl

und Romina Kehl, für die vielen hilfreichen Kritiken zu meiner Arbeit danken.

Meiner Frau Nicole danke ich für den Rückhalt und die Unterstützung, welche mir gerade

in anstrengenden und schwierigen Zeiten viel Kraft für meine Arbeit gab. Meiner Tochter

Lea danke ich für ihre Liebe und die vielen kleinen Ablenkungen. Besonders möchte ich

meinen Eltern danken, deren Vertrauen und kontinuierliche Unterstützung mich während

des Studiums und der anschließenden Arbeit an meiner Promotion bestärkte. Sie haben für

mich diesen Weg erst ermöglicht.

Inhaltsverzeichnis

1 Einleitung 1

2 Stand der Forschung 5

2.1 Akustische Szenenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2 Middleware und ambiente Intelligenz . . . . . . . . . . . . . . . . . . . . 8

2.3 Ambiente Kommunikation . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Wissenschaftliche Ziele 11

3.1 Akustische Szenenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.2 Middleware und ambiente Intelligenz . . . . . . . . . . . . . . . . . . . . 12

3.3 Ambiente Kommunikation . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4 Akustische Szenenanalyse 15

4.1 Merkmalsextraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.1.1 Störgeräuschunterdrückung . . . . . . . . . . . . . . . . . . . . . 15

4.1.2 Mel-Frequency Cepstral Coefficients . . . . . . . . . . . . . . . . . 16

4.1.3 Maximum Autocorrelation Value . . . . . . . . . . . . . . . . . . . 17

4.2 Akustische Positionsschätzung . . . . . . . . . . . . . . . . . . . . . . . . 18

4.2.1 Generalized Cross Correlation with Phase Transformation . . . . . 18

4.2.2 Akustische Strahlformung . . . . . . . . . . . . . . . . . . . . . . 19

4.2.3 Lokalisation mittels verteilter Mikrophongruppen . . . . . . . . . . 20

4.3 Segmentierung und Sprecheridentifikation . . . . . . . . . . . . . . . . . . 26

4.3.1 Sequentielle Sprecherwechseldetektion und Identifikation . . . . . 27

4.3.2 Gemeinsame Sprecherwechseldetektion und Identifikation . . . . . 33

4.3.3 Experimentelle Ergebnisse . . . . . . . . . . . . . . . . . . . . . . 39

4.4 Audio-visuelle Sprecherprotokollierung . . . . . . . . . . . . . . . . . . . 48

4.4.1 System zur Gesichtsidentifikation . . . . . . . . . . . . . . . . . . 48

4.4.2 Gesichtsdetektion . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.4.3 Gesichtsidentifikation . . . . . . . . . . . . . . . . . . . . . . . . 51

4.4.4 Kamerasteuerung und Systemintegration . . . . . . . . . . . . . . 53

4.4.5 Integration der visuellen Information . . . . . . . . . . . . . . . . 55

4.4.6 Experimentelle Ergebnisse . . . . . . . . . . . . . . . . . . . . . . 56

5 Akustische Ereignisdetektion 61

5.1 Datenbasis Ereignisdetektion . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.2 Experimente zur Modellierung . . . . . . . . . . . . . . . . . . . . . . . . 62

5.2.1 Modellierung mit Gauß’schen Mischungsverteilungen . . . . . . . 62

Inhaltsverzeichnis

5.2.2 Modellierung mit universellen Hintergrundmodellen . . . . . . . . 64

5.3 Diskriminative Lernverfahren . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.3.1 MMI-Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . 67

5.3.2 Experimentelle Ergebnisse . . . . . . . . . . . . . . . . . . . . . . 71

5.4 Quellenauswahl und Fusion . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.4.1 Ansätze zur Fusion von Modellbewertungen . . . . . . . . . . . . . 74

5.4.2 Experimentelle Ergebnisse . . . . . . . . . . . . . . . . . . . . . . 76

6Middleware und ambiente Intelligenz 79

6.1 Semantisches Netz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.1.1 Ontologien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.1.2 Kontextinformation . . . . . . . . . . . . . . . . . . . . . . . . . . 80

6.1.3 Abfragesprache für Kontextinformationen . . . . . . . . . . . . . . 81

6.1.4 Verzeichnisdienst . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2 Webservice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.3 Amigo Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.3.1 Plattform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.3.2 Amigo Middleware . . . . . . . . . . . . . . . . . . . . . . . . . . 85

6.3.3 Intelligente Dienste . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6.4 Kontextmanagement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

6.4.1 Schnittstellendefinition und Kommunikation . . . . . . . . . . . . 87

6.4.2 Kontextbewusste Applikationen . . . . . . . . . . . . . . . . . . . 88

6.4.3 Akustische Szenenanalyse als Kontextquelle . . . . . . . . . . . . 89

7 Ambiente Kommunikation 91

7.1 Systemarchitektur und Middleware-Integration . . . . . . . . . . . . . . . 91

7.2 Signalverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

7.2.1 Begrenzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

7.2.2 Sprachaktivitätsdetektion . . . . . . . . . . . . . . . . . . . . . . . 95

7.2.3 Echounterdrückung . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.3 Echtzeitkommunikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

7.3.1 Lokalisation von Nutzern . . . . . . . . . . . . . . . . . . . . . . . 100

7.3.2 Sitzungsverwaltung . . . . . . . . . . . . . . . . . . . . . . . . . . 100

7.3.3 Datenaustausch . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

7.4 Kontextbasierte Steuerung . . . . . . . . . . . . . . . . . . . . . . . . . . 103

7.4.1 Follow-Me-Fähigkeiten . . . . . . . . . . . . . . . . . . . . . . . . 103

7.4.2 SAInt als Kontextquelle . . . . . . . . . . . . . . . . . . . . . . . . 104

7.4.3 Schutz der Privatsphäre . . . . . . . . . . . . . . . . . . . . . . . . 105

7.5 Visuelle Kommunikation . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

7.5.1 Systemintegration . . . . . . . . . . . . . . . . . . . . . . . . . . 106

7.5.2 Kommunikationsbeispiel . . . . . . . . . . . . . . . . . . . . . . . 107

7.5.3 Follow-Me-Fähigkeiten . . . . . . . . . . . . . . . . . . . . . . . . 108

7.6 Demonstration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

8 Zusammenfassung 109

Inhaltsverzeichnis

iii

A Anhang 113

A.1 Herleitung ∆BIC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

A.2 Herleitung MMI-Parameterschätzung . . . . . . . . . . . . . . . . . . . . . 115

A.3 Experimentelle Ergebnisse der Ereignisdetektion . . . . . . . . . . . . . . 120

A.4 ML- und MMI-Parameterschätzung . . . . . . . . . . . . . . . . . . . . . . 121

Abkürzungsverzeichnis 123

Formelzeichen 127

Abbildungsverzeichnis 131

Tabellenverzeichnis 132

Literaturverzeichnis 135

Eigene Publikationen 147

“Ambient intelligence refers to the presence of a digital environment that is sensitive, ad-

aptive, and responsive to the presence of people. Within a home environment, ambient in-

telligence will improve the quality of life of people by creating the desired atmosphere and

functionality via intelligent, personalized inter-connected systems and services.”

Emile Aarts, Philips Research [Aar09]

“This technologywill recognize us, notice our habbits, learn our likes and dislikes, and adapt

its behaviour and the services it offers us accordingly.”

Stefano Marzano über Intelligente Dienste [AM04]

1 Einleitung

Im Rahmen dieser Arbeit wird ein neues Verfahren zur Informationsgewinnung aus akus-

tischen Signalen vorgestellt. Die gewonnenen Informationen geben Aufschluss über anwe-

sende Personen und stattgefundene Ereignisse sowie deren Position im Raum. Anschließend

wird die Integration dieser Informationsquelle in eine vernetzte Hausumgebung gezeigt und

in den Kontext der ambienten Intelligenz gesetzt. Aufbauend auf den Informationsquellen

der Hausumgebung wird abschließend ein audio-visuelles Kommunikationssystem vorge-

stellt. Dieses nutzt die im Haus vorhandenen Informationsquellen zur Realisierung einer

kontextbewussten Steuerung der Kommunikation.

Das Paradigma ambiente Intelligenz (AI) formuliert das Konzept einer vernetzten Umge-

bung, welche intelligent auf Personen und Ereignisse reagiert. Dabei soll das System sensitiv

gegenüber Wünschen und Bedürfnissen der Nutzer sein und auf diese adaptiv reagieren, so

dass eine Steigerung des Komforts und der Lebensqualität für den Nutzer erfahrbar wird

[AM04]. Diese weitreichende Definition von ambienter Intelligenz umfasst Forschungs-

themen sowohl im Bereich der Hardware- als auch der Softwareentwicklung. Verwandte

Forschungsbereiche mit starken Überschneidungen im Aufgabenspektrum sind Ubiquitous

Computing bzw. Pervasive Computing [Wei99]. Beide Begriffe beschreiben eine Vernetzung

und Durchsetzung alltäglicher Gegenstände mit Mikroprozessoren und Sensoren, wobei der

Begriff des Pervasive Computing vornehmlich durch die Industrie geprägt wurde. Geräte

sollen sich automatisch untereinander vernetzen und eine allgegenwärtige Kapazität an Re-

chenleistung bereitstellen. Diese hardwareorientierte Sichtweise unterscheidet das Ubiqui-

tous Computing von dem Paradigma ambiente Intelligenz. Im Sinne der ambienten Intel-

ligenz ist eine vernetzte Hardware eine notwendige Grundlage für ein System, jedoch soll

diese in den Hintergrund treten und möglichst aus dem Wahrnehmungsfeld des Nutzers ver-

schwinden. Die Funktionen und Dienste der Hardware sollen bei diesem Prozess erhalten

bleiben. Zusätzlich soll eine starke Orientierung auf den Benutzer erfolgen. Die Nutzung ei-

ner Funktion soll intuitiver werden, so dass dem Nutzer das Erlernen eines Bedienschemas

abgenommen wird, indem das System sich „intelligent“ verhält [Ami06].

Die zentralen Eigenschaften der ambienten Intelligenz sind durch Integration, Kontext-

bewusstsein, Personalisierung, Adaptivität und Antizipation gegeben [AM04]. Zunächst soll

ein System aus dem Wahrnehmungsbereich der Nutzer entfernt werden, indem die Hardware

in die Umgebung oder Dinge des täglichen Lebens vollständig integriert wird. Diese unauf-

fällige Bereitstellung von Funktionen und Diensten führt zu einer verbesserten Akzeptanz

der Technik, da sie dem Nutzer weniger aufdringlich erscheint. Das Kontextbewusstsein ist

der Schlüssel zu einer aus der Sicht des Nutzers als „intelligent“ wahrgenommenen Umge-

bung. Ein kontextbewusstes System ist dadurch gekennzeichnet, dass es entsprechend der

verfügbaren Informationen Entscheidungen trifft und auf aktuelle Ereignisse reagiert. Das

Verhalten des Systems ist somit nicht nur abhängig von den Eingaben des Nutzers, sondern

Einleitung

auch von dem aktuellen Kontext, in dem das System genutzt wird. Da das System kontextbe-

wusst handeln soll, muss es folglich Regeln beinhalten, die entweder vom Nutzer vorgegeben

oder selbstständig gelernt werden. Diese Personalisierung ist eine aus dem Paradigma am-

biente Intelligenz abgeleitete Notwendigkeit, da das System sich dem Nutzer anpassen soll

und nicht umgekehrt. Damit verbunden ist die Eigenschaft der Adaptivität, welche die Fä-

higkeit beschreibt, auf den Benutzer zu reagieren und sich seinem Verhalten anzupassen.

Somit wird die Adaption auf den Benutzer zwangsläufig zu einer Personalisierung führen.

Die sicherlich am schwierigsten zu realisierende Eigenschaft der ambienten Intelligenz ist

die Antizipation. Das System soll die Absichten und Wünsche von Benutzern prognostizie-

ren und vorausschauende Entscheidungen treffen. Dies bedingt zunächst eine große Men-

ge an Informationen über den aktuellen Kontext und eine entsprechende Beschreibung der

möglichen zukünftigen Ereignisse basierend auf den vorhandenen Informationen. Häufige

Fehlentscheidungen und dadurch ausgelöste Reaktionen des Systems werden zwangsläufig

zu einer Ablehnung des Systems durch den Nutzer führen, da aus der Wahrnehmung des

Nutzers heraus das System „irrational“ agiert. Die Realisierung von ambienter Intelligenz

bedingt somit grundsätzlich eine Verfügbarkeit von verlässlichen Informationen.

Die Europäische Union unterstützt die Forschung im Bereich ambienter Intelligenz im

Rahmen der Information Society Technologies (IST) Projekte. Das 6. Rahmenprogramm

beinhaltete unter anderem das mittlerweile abgeschlossene Projekt Amigo [Ami06], des-

sen Untertitel „Ambient Intelligence for the networked home environment“ die Zielvorgaben

des Projektes verdeutlicht. Das Projekt Amigo hatte das Ziel, die Vorteile einer vernetzten

Umgebung für den Benutzer erfahrbar zu machen, indem intelligente Dienste auf Basis einer

Middleware entwickelt wurden. Eine Middleware ist dabei eine Software, welche im Hin-

tergrund, d. h. vor dem Anwender verborgen, Systemkomponenten miteinander verknüpft.

Die vorliegende Arbeit stellt Teile der Forschungsergebnisse aus dem Bereich der akusti-

schen Szenenanalyse und der ambienten Kommunikation vor und gibt einen Einblick in die

Mechanismen der Amigo Middleware.

Obwohl schon häufiger prognostiziert, haben Systeme zur Realisierung von ambienter In-

telligenz den Weg in den Massenmarkt noch nicht gefunden. Im Projekt Amigo wurde als

eines der Haupthindernisse hierfür die fehlende Interoperabilität von Geräten unterschiedli-

cher Hersteller identifiziert. Trotz fortschreitender Entwicklung im Bereich der Vernetzung

entwickeln viele Hersteller isolierte Lösungen, welche auf das eigene Produktportfolio ab-

gestimmt sind. Infolgedessen sind die in einem Haushalt vorhandenen Geräte, welche sich in

die Kategorien Haushaltsgeräte, Unterhaltungselektronik, mobile Geräte und Personal Com-

puter einteilen lassen, oft isoliert voneinander anstatt einen Verbund darzustellen [Ami06].

Aktuelle Entwicklungen führen zwar vermehrt zur Vernetzung von Geräten, wie z. B. zwi-

schen Computern und Unterhaltungselektronik, jedoch ist dies kein Weg zur allgemeinen In-

teroperabilität, sondern eine eher harte Verknüpfung über proprietäre Protokolle. Im Projekt

Amigo wurde daher eine quelloffene, standardisierte und interoperable Middleware entwi-

ckelt, welche mit den auf dem Markt etablierten Middleware-Technologien sowohl intera-

gieren als auch diese miteinander verknüpfen kann.

Das Bindeglied der ambienten Intelligenz ist eine Middleware, welche die im Haus vor-

handenen Sensoren, Geräte, Dienste und Applikationen untereinander verbindet. Folglich

sorgt sie dafür, dass die in den Sensoren und Diensten gewonnenen Informationen im ge-

samten Netz verfügbar sind. Neben Messwert nehmenden Sensoren, wie z. B. Tempera-

turfühlern, sind in der vernetzten Hausumgebung auch komplexere Sensoren in Form von

Einleitung

Mikrophonen und Kameras vorstellbar. Diese erfordern im Vergleich zu Messwertsensoren

spezielle Analyseverfahren zur Auswertung der aufgenommenen Daten. Im Falle von Mi-

krophondaten ist dies die akustische Szenenanalyse und für die Videodaten sind dies Ver-

fahren zur visuellen Personen- oder Objekterkennung. Die akustische Szenenanalyse hat das

Ziel, die in einem akustischen Signal enthaltenen Quellen zu identifizieren und alle nutz-

baren Daten zu extrahieren. Entstanden ist dieses Forschungsgebiet aus dem Bestreben, die

automatische Spracherkennung zu verbessern, indem eine bessere Identifikation der Stör-

quellen vorgenommen wird [RO98]. Betrachtet man die akustische Szenenanalyse aus dem

Blickwinkel der ambienten Intelligenz, so kann diese als eine wertvolle Informationsquelle

für kontextuelle Zusammenhänge gesehen werden. Vorteilhaft hierbei ist, dass Mikrophone

als Sensoren unauffällig in die Umgebung integriert werden können. Dabei erfassen sie den

gesamten Raum und sind unabhängig von den Beleuchtungsverhältnissen, wodurch sie In-

formationen liefern, die durch Kamerasysteme nicht erfassbar sind. Die in der akustischen

Szenenanalyse gewonnenen Daten geben Aufschluss über Benutzer, deren Aktivitäten und

auftretende Ereignisse.

Mikrophone sind als Sensoren für die akustische Szenenanalyse notwendig, jedoch ist die

Nutzung nicht auf die reine Informationsgewinnung beschränkt. In Kombination mit Laut-

sprechern und Netzwerktechnik ist der Aufbau verteilter Kommunikationssysteme möglich.

Orientiert sich solch ein System an den Ideen der ambienten Intelligenz, so wird es durch

den Begriff „ambiente Kommunikation“ charakterisiert. Die Grenzen zwischen der „klassi-

schen“ Kommunikation über Internetprotokolle (engl. Voice over Internet Protocol,VoIP)

und der „ambienten Kommunikation“ sind fließend, da in beiden Verfahren vergleichbare

Komponenten eingesetzt werden.

Ein Merkmal der ambienten Kommunikation ist die nicht vorhandene Bindung des Ge-

sprächs an ein dediziertes Gerät, wie z. B. ein Telefon. Der Nutzer muss nicht mehr ein

Gerät für die Funktion der Kommunikation aufsuchen, stattdessen tritt die Hardware in den

Hintergrund und die reine Funktionalität bleibt bestehen. Folglich kann der Nutzer jederzeit

eine Kommunikation starten und sich währenddessen frei bewegen. Das System setzt somit

eine Freisprechfunktion und einen über mehrere Räume verteilten Aufbau voraus.

Ein weiteres Merkmal der ambienten Kommunikation resultiert aus den Benutzerstudien

des Projektes Amigo [M+05]. Vielfach wurde durch die Testpersonen der Wunsch geäußert,

eine „intelligente Umgebung“ solle den Kontakt zu Freunden und nahen Verwandten unter-

stützen. Hieraus entstand die Idee einer kontinuierlichen Verbindung zwischen räumlich ent-

fernten, jedoch emotional nahe stehenden Personen, die ein Gefühl des „Verbunden-Seins“

erzeugen soll. Hierbei ist die Menge der ausgetauschten Informationen zwischen den Perso-

nen über die Zeit betrachtet geringer als bei einem klassischen Telefongespräch. Die Kom-

munikation ist fortlaufend aktiv und die Personen hören, was der entfernte Partner macht.

Somit entsteht bei beiden das Gefühl, dass der jeweils andere sich im Nebenraum befin-

det. Denkbar ist zum Beispiel, dass das System automatisch die Verbindung zwischen zwei

Personen etabliert, sobald beide von der Arbeit nach Hause kommen und jeweils, entspre-

chend der persönlichen Systemkonfigurationen, bei bestimmten Ereignissen die Verbindung

automatisch trennt.

Die Kommunikation kann sowohl durch explizite wie auch implizite Benutzereingaben

kontrolliert werden. Die explizite Interaktion beinhaltet die klassische Steuerung der Kom-

munikation durch den Benutzer, die durch direkte Eingaben, z. B. über einen berührungs-

empfindlichen Bildschirm, gekennzeichnet ist. Die implizite Steuerung versucht das System

Einleitung

intuitiver für den Benutzer zu gestalten, indem aus dem Verhalten des Nutzers die impli-

zierten Befehle ermittelt werden. Vorstellbar ist zum Beispiel der automatische Aufbau einer

Kommunikation, wenn sich der Nutzer auf ein Bild des gewünschten Kommunikationspart-

ners zubewegt.

Die vorliegende Arbeit behandelt Aspekte aus den Themengebieten akustische Szenen-

analyse, Middleware und ambiente Kommunikation und gliedert sich in die folgenden Kapi-

tel: In Kap. 2 wird ein Überblick über den aktuellen Stand der Forschung in den Bereichen

akustische Szenenanalyse, ambiente Intelligenz, Middleware und ambiente Kommunikati-

on gegeben. Die wissenschaftlichen Ziele dieser Arbeit werden im darauffolgenden Kap. 3

definiert. Das Kap. 4 stellt die Verfahren zur akustischen Szenenanalyse vor und fasst die

experimentellen Ergebnisse in diesem Bereich zusammen. In Kap. 5 werden Aspekte der

akustischen Ereignisdetektion als ein spezieller Teil der akustischen Szenenanalyse näher

untersucht. Das Amigo System und die Verknüpfung der akustischen Szenenanalyse mit der

Amigo Middleware werden in Kap. 6 erläutert. Anschließend wird in Kap. 7 gezeigt, wie

das Amigo System zur Realisierung eines kontextbewussten Dienstes genutzt werden kann.

Das hierbei betrachtete Beispiel der ambienten Kommunikation verwendet sowohl akusti-

sche als auch visuelle Daten. Eine Zusammenfassung der Ergebnisse dieser Arbeit erfolgt

abschließend in Kap. 8.

2 Stand der Forschung

Diese Arbeit behandelt die Themengebiete akustische Szenenanalyse, ambiente Intelligenz,

Middleware und ambiente Kommunikation. Dabei sollen die für die ambiente Intelligenz zu

entwickelnden Komponenten der Middleware die Informationsgewinnung mittels der akus-

tischen Szenenanalyse mit der Anwendung, der ambienten Kommunikation, verknüpfen. Im

Folgenden wird ein Überblick über den Stand der Forschung in den einzelnen Themengebie-

ten gegeben.

2.1 Akustische Szenenanalyse

Die akustische Szenenanalyse ist auf Grund der unterschiedlichen Anwendungsgebiete ein

weit gefächertes Forschungsgebiet. Zunächst wurde es durch die DARPA im Rahmen der

„Rich Transcription Task“ gefördert. Das vorgegebene Ziel war hierbei, eine automatische

Zuordnung von Zeitabschnitten zu Sprechern (sog. Annotation) in Rundfunksendungen, Te-

lefongesprächen und Besprechungen durchzuführen [NIS08b, TR06].

Bedingt durch die Verfügbarkeit neuer Datenquellen, welche in Besprechungsräumen und

intelligenten Umgebungen zu finden sind, wandelten sich die Ansätze von unimodalen zu

multimodalen Signalverarbeitungssystemen (vgl. Abb. 2.1). Waren in Telefongesprächen

Mehrkanalige

Audiodaten

Mikrophone

Verteilte

...

RFID

Video

Mehrfach

Intelligente Umgebungen

Kamera

Schwenk− & zoombare

Rundfunk

Telefon

Einkanalige

Tonspur

Domkamera

Audio

Besprechungen

Sensoren

gruppen

Mikrophon−

Omnidirektionale

Kamera

Drucksensor

Teppich

Datenquellen

Abbildung 2.1: Datenquellen und Anwendungsgebiete der akustischen Szenenanalyse

und Rundfunksendungen nur einkanalige akustische Aufnahmen vorhanden, so bieten viele

Datenbasen von aufgezeichneten Besprechungen schon mehrkanalige Aufnahmen. Eine er-

neute Steigerung der Vielfalt der Sensoren ist in intelligenten Umgebungen zu verzeichnen.

Dabei kann die Ausstattung der Umgebungen stark variieren, wodurch eine Anpassung der

Systeme und Algorithmen zur Datenverarbeitung an die gegebene Sensorik notwendig ist.

Stand der Forschung

Am deutlichsten wird dies bei den visuellen Daten, wo neben Kameras mit festen Blickwin-

keln auch schwenk- und zoombare (engl. Pan Tilt Zoom,PTZ) Kameras oder omnidirek-

tionale Kameras eingesetzt werden. Somit findet eine Spezialisierung der Systeme auf die

vorhandene Sensorik und den Verwendungszweck statt.

Aktuelle Projekte, wie das IST Projekt CHIL (Computer in the Human Interaction Loop)

[CHI04] oder das Projekt AMI (Augmented Multi-Party Interaction) [AMI04], erforschen

professionelle Arbeitsumgebungen, wie zum Beispiel Seminar- oder Besprechungsräume.

Ziele sind unter anderem die Verbesserung der automatischen Spracherkennung, die akus-

tische und visuelle Lokalisation von Personen, sowie die Identifikation von Personen und

Ereignissen [OSBC06, TMZ+06, B+05b]. Des Weiteren wird im Projekt DIRAC (Detection

and Identification of Rare Audiovisual Cues) [DIR06] an der Detektion und Identifikation

seltener akustischer und visueller Ereignisse gearbeitet.

Anwendungsgebiete der akustischen Szenenanalyse mit multimodalen Daten sind bei-

spielsweise verbesserte Video-Konferenzsysteme, automatische Überwachungssysteme und

Systeme zur Unterstützung älterer oder behinderter Menschen [KTVL07]. Ein weiteres For-

schungsgebiet ist die automatische Annotation von Videomaterial aus Fernsehsendungen

[KMK07, MMF+06]. Im Folgenden wird ein Überblick über die grundlegenden Komponen-

ten eines Systems zur akustischen Szenenanalyse und deren Stand der Forschung gegeben.

Eine LokalisierungvonPersonen durch aufgenommene, akustischeSignale kann durch die

Schätzung der Signallaufzeitdifferenzen zwischen Mikrophonpaaren erfolgen. Hierzu wer-

den z. B. im „Generalized Cross Correlation“-Verfahren die Korrelationen zwischen den

Signalen berechnet und durch das Wissen über die Position der Mikrophone eine Positions-

schätzung durchgeführt [KC76]. Zusätzlich kann nach Bedarf eine modellbasierte Nachfilte-

rung durch Kalman- oder Partikelfilter erfolgen, um die Genauigkeit der Positionsschätzung

zu erhöhen [WPH04].

Eine Identifikation von Sprechern und Ereignissen basiert zumeist auf einer Modellie-

rung der Klassen durch Gauß’sche Mischungsverteilungen (engl. Gaussian Mixture Model,

GMM) [Cam97]. Diese können einzeln, also für jede Klasse unabhängig, trainiert oder aber

von einem gemeinsamen (universellen) Hintergrundmodell adaptiert werden [RQD00]. Die

Modellbildung durch ein universelles Hintergrundmodell (engl. Universal Background Mo-

del,UBM) bietet den Vorteil, dass weniger Daten für das Training benötigt werden und eine

rudimentäre Erkennung von unbekannten Klassen erfolgen kann. Das Training wird mit dem

„Expectation Maximization“-Algorithmus (EM-Algorithmus) oder der Bayes’schen Adapti-

on durchgeführt [DHS01].

Neuere Verfahren zur Parameterschätzung der Klassenmodelle mit dem Ziel der Reduk-

tion der Fehlerrate stammen aus dem Bereich diskriminativer Lernverfahren. Bekannte An-

sätze sind das „Minimum Classification Error“-Training (MCE-Training) und das „Maxi-

mum Mutual Information“-Training (MMI-Training). Sowohl das MCE- als auch das MMI-

Training finden erfolgreich Anwendung im Bereich der automatischen Spracherkennung

[LP96], derSprecheridentifikation [KYM+05] und Sprecherverifikation [MC03]. Dabei kön-

nen die diskriminativen Lernverfahren sehr langsam konvergieren oder im Extremfall auch

divergieren, falls keine geeigneten Gegenmaßnahmen getroffen werden [NCM91].

Bevor jedoch eine Identifikation von Sprechern erfolgen kann, muss zunächst eine Ein-

teilung der akustischen Daten in homogene Abschnitte, die sog. Segmentierung, erfolgen.

Ein homogener Abschnitt beinhaltet dabei nur Daten einer Klasse und kann folglich ein-

deutig klassifiziert werden. Die zur Segmentierung verwendeten Verfahren nutzen häufig

Stand der Forschung

das Bayes’sche Informationskriterium (engl. Bayesian Information Criterion,BIC), welches

auf einem Hypothesentest basiert [CG98, DW00]. Hierbei wird die Hypothese, dass an ei-

nem Punkt im beobachteten Zeitabschnitt ein Sprecherwechsel vorliegt und somit der erste

Teil des Zeitfensters aus einer Klasse und der zweite Teil des Zeitfensters aus einer ande-

ren Klasse stammt, der Hypothese gegenübergestellt, dass das gesamte Fenster aus einer

Klasse stammt. Verfahren, die auf BIC-Ansätzen basieren, nehmen dabei immer eine Ab-

wägung zwischen den Aspekten Genauigkeit, Verlässlichkeit und Latenz der Segmentierung

vor [LZ02, DY08].

Fasst man Sprecherwechseldetektion und Sprecheridentifikation als eine Aufgabe auf, so

wird dies als Sprecherprotokollierung (engl. speaker diarization) bezeichnet [PAW07]. Da-

bei wird versucht, durch eine automatische Annotation vorhandene Audio- oder Videodaten

so aufzubereiten, dass sie mit textbasierten Suchalgorithmen erfasst werden können [TR06].

Die Kombination einer Identifikation von Sprechern mit einer automatischen Spracherken-

nung und die Auswertung der Metadaten des Videomaterials liefern die Information „Wer

spricht Wann und Was?“. Hierbei können akustische Modelle für verschiedene Sprecher

vorab trainiert werden, um deren Anteile in den Audiodaten zu finden, wie es zum Bei-

spiel die Protokollierung von Besprechungsdaten erfordert. Alternativ kann auch die Aufga-

be gestellt sein, dass alle Anteile eines Sprechers durch eine eindeutige Kennung gekenn-

zeichnet werden sollen, ohne die Anzahl der Sprecher oder deren Identität vorab zu kennen

[SML+08, RT05].

In der Sprecherprotokollierung sind iterative Verfahren mit variierender Komplexität weit

verbreitet, die zwei unterschiedliche Ansätze verwenden. Die eine Möglichkeit(„top-down“)

ist, die gesamten Daten an den wahrscheinlichsten Sprecherwechselpunkten, z. B. durch

eine Detektion des Sprechergeschlechts, aufzuteilen und somit mehrere Teile zu erhalten.

Anschließend werden die Teile erneut auf Sprecherwechselpunkte untersucht und aufge-

teilt [MMF+06]. Die andere Möglichkeit („bottom-up“) ist, die sehr feine Vorsegmentierung

der Daten in kleinste, homogene Abschnitte und das anschließende Clustern der Segmente,

so dass zusammenhängende Abschnitte eines Sprechers wieder in einem Segment zusam-

mengefasst werden [STGW05]. In beiden Verfahren werden Schwellwerte oder Grenzen

festgelegt, die das iterative Verfahren stoppen, sobald die vermutlich optimale Segmentie-

rung gefunden ist. Verfahren zur Sprecherprotokollierung, die auf Datenströmen arbeiten,

verwenden beispielsweise Hidden Markov Models (HMM) zur Modellierung der Sprecher-

gruppe. In [MMF+06] wird ein Verfahren vorgestellt, in dem je ein Zustand eines HMM

einen Sprecher repräsentiert und das bei einem neu auftretenden Sprecher um einen weiteren

Zustand erweitert wird. Die Transitionswahrscheinlichkeiten des HMM werden in diesem

Fall aus Trainingsdaten geschätzt und sind für jeden Zustandsübergang fest vorgegeben. Die

Grundlage einer jeden Identifikation ist eine Menge von Sprechermodellen, welche entwe-

der vorab trainiert oder während des Betriebs geschätzt werden. Eine echtzeitfähige Bildung

von Sprechermodellen auf fortlaufenden Datenströmen wird in [LZ02] vorgestellt. Verfah-

ren, die auf Datenströmen arbeiten, haben jedoch im Vergleich zu iterativen Ansätzen immer

den Nachteil, dass keine Korrekturen vergangener Entscheidungen durch erneute Iterationen

oder Clusterungen möglich sind.

Eine Sprecherprotokollierung kann durch Nahbereichsmikrophone oder durch entfernte

Mikrophone erfolgen, die in Gruppen angeordnet oder auf einem Tisch verteilt sind. Da-

bei kann entweder eine Auswahl des besten Mikrophonsignals oder eine Signalverbesserung

durch strahlformende Algorithmen verwendet werden, um die Leistungsfähigkeit des Sys-

Stand der Forschung

tems zu steigern [AWH07].

Ein aktuelles Thema in der Forschung ist die multimodale Signalverarbeitung in „intel-

ligenten Umgebungen“, wo neben Mikrophonen und Kameras auch andere Sensoren ver-

fügbar sind. Ein Schwerpunkt dieses Forschungsthemas liegt bei der Positionsschätzung

von Personen durch akustische und/oder visuelle Daten [KFH+08]. Die Positionsinforma-

tionen von Sprechern können dann direkt für die Segmentierung von Audiodaten genutzt

werden [AFI+08] oder aber integriert in den akustischen Merkmalsvektor zu einer Verbes-

serung der Sprecherprotokollierung führen [PAW06, APW06]. Die Positionsinformationen

können wahlweise aus Laufzeitschätzungen zwischen Mikrophonen [PAW06], Kamerasys-

temen [SML+08] oder anderen Systemen, wie dem in [CSJ07] vorgeschlagenen „Radio

Frequency Identification“-System (RFID-System), stammen. Ansätze für die Sprecherpro-

tokollierung mit Audio- und Videodaten können in [NK07] und [FHY09] gefunden werden.

Entsprechend der verfügbaren Hardware in den Räumen unterscheiden sich die Systeme

und Verfahren deutlich. In [SML+08] wird z. B. ein System mit fest installierten Kameras

genutzt, bei dem das Gesicht eines Nutzers beim Betreten des Raumes mit einer Kamera

identifiziert und anschließend die Position des identifizierten Nutzers über andere Kame-

ras verfolgt wird. Der Ansatz in [BS07] verwendet im Kontrast dazu schwenkbare Kameras

und versucht kontinuierlich die im Raum befindlichen Personen zu identifizieren. Ein weite-

rer Aspekt der Sprecherprotokollierung in „intelligenten Umgebungen“ ist die Verfügbarkeit

multipler Datenquellen, die im Falle von Mikrophonen eine Auswahl oder Kombination von

Kanälen erfordert. Hierzu wurde in [GAW06] ein Ansatz mit einem Viterbi-Dekodierer vor-

geschlagen, der eine automatische Kanalauswahl durchführt. Alternativ gibt es eine Vielzahl

von Ansätzen zur Gewichtung, Normierung und Kombination multimodaler Informationen,

wovon einige in [EFJS07] untersucht wurden.

2.2 Middleware und ambiente Intelligenz

Die Entwicklung von Anwendungen und Diensten in der vernetzten Hausumgebung setzt

vermehrt auf dienstorientierte Architekturen. Diese sind in der Lage, in heterogenen Umge-

bungen Geräte und Dienste miteinander zu verbinden und so die Inkompatibilitätenzwischen

unterschiedlichen Herstellern zu überwinden [MKGI07, Car08].

Die Verwendung von Webservices wird hierbei als eine mögliche Schlüsselkomponente

gesehen, da die aus dem Bereich des World Wide Web (WWW) bekannt gewordenen Diens-

te offene und standardisierte Schnittstellen und Beschreibungen bieten [PTDL07]. Der Da-

tenaustausch zwischen den Softwarediensten erfolgt dabei durch das offene Simple Object

Access Protocol (SOAP) [G+07]. Des Weiteren können die Dienste und die zugehörigen

Schnittstellen durch die Web Services Description Language (WSDL) [C+07] beschrieben

werden. Damit Dienste einander in einem gemeinsamen Netz finden, ist ein zentraler An-

laufpunkt im System notwendig, der in Form eines Verzeichnisdienstes, wie z. B. dem Light-

weight Directory Access Protocol (LDAP) [Z+06], realisiert werden kann.

Im Bereich Middleware gibt es verschiedene Standards mit unterschiedlichen Verbrei-

tungsgraden, wobei Universal Plug and Play (UPnP) [UPn08] eine weit verbreitete Tech-

nologie ist. UPnP bietet Mechanismen zur Lokalisierung, Beschreibung, Steuerung und Er-

eignismeldung von Diensten und Geräten. Ein Anwendungsgebiet ist die Verteilung von

Medieninhalten und die Steuerung von Unterhaltungselektronik. Im Bereich Gebäudeauto-

Stand der Forschung

matisierung sind Bussysteme wie der European Installation Bus (EIB) [EIB09] verbreitet,

wobei der Einsatz aus Kostengründen meist auf professionelles Gebäudemanagement be-

schränkt ist. Beide Middleware-Technologien sind zwar führend in ihrer Domäne, jedoch

sind sie zueinander inkompatibel und nur durch spezielle Verfahren miteinander verknüpf-

bar [RBH03].

Insgesamt wird die Entwicklung von ambienter Intelligenz durch die Inkompatibilität zwi-

schen Diensten und Systemen unterschiedlicher Hersteller gehemmt [Ami06]. Dies ist einer

der Gründe für die Unterstützung des Projektes Amigo durch die Europäische Union. Die

Entwicklung von ambienter Intelligenz beinhaltet ein breites Spektrum an offenen Frage-

stellungen im Bereich der Software- und Hardwareentwicklung [FCP+05]. Aktuelle Syste-

me können zwar einzelne Aufgabenstellungen in vernetzten Umgebungen handhaben, je-

doch verwenden diese Ansätze zur Lösung der Problemstellungen feste von den Herstellern

vorgegebene Ansätze mit eingeschränkter Flexibilität [EK05]. Ein Beispiel hierfür ist der

EIB, welcher die Möglichkeit bietet, physikalische Informationen von Sensoren, wie z. B.

Lichtsensoren, zu sammeln und Komponenten mit aktorischen Fähigkeiten, wie z. B. Tür-

schließsysteme, anzusteuern [EIB09].

2.3 Ambiente Kommunikation

Die ambiente Telefonie, wie sie in [Här07] vorgestellt wurde, beschreibt eine neue Form der

Kommunikation, welche auf der Kombination von VoIP-Technologien und Freisprechtech-

nologien basiert. Die Verbreitung von Breitbandanschlüssen ermöglicht unbegrenzt Gesprä-

che über VoIP-Technologien zu führen, wobei die Kosten auf einen festen Betrag für den

Breitbandanschluss begrenzt sind1. Die damit verbundene Abkehr von Verbindungspreisen

hin zu festen Grundpreisen für die Versorgung mit Datenanschlüssen beeinflusst das Verhal-

ten der Benutzer derart, dass Verbindungen im Vergleich zur Festnetztelefonie länger, wenn

nicht sogar praktisch unbegrenzt, geführt werden [GDJ06]. Infolgedessen tritt das intensive

Gespräch zwischen zwei Menschen während der Kommunikation in den Hintergrund und

die Menge an ausgetauschten Informationen pro Zeit wird geringer. Der Charakter einer

Verbindung wandelt sich vom reinen Medium zum mündlichen Informationsaustausch zum

System, das zwei räumlich getrennte Orte verbindet [BFGP08].

Die hierzu benötigten Technologien verwenden häufig das Real-Time Transport Protocol

(RTP) [S+03] zur Datenübertragung und das Session Initialization Protocol (SIP) [R+02]

zum Sitzungsaufbau und zur Sitzungsverwaltung. Des Weiteren existieren eine Vielzahl

von Audiokompressionsverfahren, um die Datenrate für eine Verbindung zu senken. Viele

Verfahren, wie z. B. das durch die International Telecommunication Unit (ITU) standardi-

sierte Verfahren G.711, sind auf einen geringen Bandbreitebedarf optimiert und verwenden

daher eine Abtastrate von 8 kHz [Wik09b]. Dazu wird das Signal zunächst auf einen Fre-

quenzbereich zwischen 300 Hz bis 3400 Hz begrenzt, wodurch Teile der Sprache und tieffre-

quente Umgebungsgeräusche unterdrückt werden. Paketorientierte Übertragungsverfahren,

wie z. B. RTP-Datenströme, verwenden das verbindungslose Universal Datagram Protocol

(UDP), um Verbindungen mit niedrigen Latenzen zu realisieren. Die hiermit verbundenen

1Aktuell wird auf Grund des steigenden Kostendrucks ein Umbau der Telekommunikationsnetze zu einer pa-

ketvermittelnden Netzinfrastrukur betrieben (engl. Next Generation Networks), wodurch auch in der Fest-

netztelefonie Festpreise für Telefonate ermöglicht werden [NGN09].

Stand der Forschung

Paketverluste sind abhängig von der Netzqualität und werden von einigen Audiokompressi-

onsverfahren automatisch durch eine Fehlerverschleierung (engl. Packet Loss Concealment,

PLC) kompensiert [Spe09].

Einige neuere Kompressionsverfahren, wie z. B. das quelloffene Verfahren Speex [Spe08],

besitzen die Option breitbandige Signale, d. h. Signale mit einer Abtastrate von 16 kHz oder

sogar 32 kHz, zu komprimieren. Sie bieten somit ein besseres Klangbild als schmalbandige

Verfahren. Die höheren Datenraten (z. B. Speex 16 kHz:32 kBit/sDatenrate je Kanal) stel-

len keinen Nachteil dar, da aktuelle ADSL-Anschlüsse in privaten Wohnungen und Häusern

eine genügend hohe Bandbreite bieten [Wik09a]. Ein weiterer Vorteil dieser breitbandigen

Audiosignalübertragung ist die Möglichkeit, die neben dem Sprachsignal übertragenen an-

deren akustischen Ereignisse besser erkennen zu können. Der lokale Sprecher hört nicht nur

die Stimme des entfernten Sprechers, sondern auch die Umgebungsgeräusche, welche durch

die Aktivitäten des entfernten Sprechers entstehen, wodurch der Charakter der ambienten

Kommunikation zusätzlich unterstützt wird [SLH08].

Eine Freisprecheinrichtung erfordert zwingend die Verwendung von Echokompensations-

oder Echounterdrückungsverfahren sowie Ansätze zur optionalen Unterdrückung von statio-

nären Störquellen. Ansonsten entstehen störende Rückkopplungen oder Pfeifgeräusche, wel-

che die Qualität des Kommunikationssystemsstark beeinträchtigen [BH03]. Ein Ansatz hier-

für besteht aus einem vorgeschalteten adaptiven Filter zur Kompensation des ersten Anteils

der unbekannten Raumimpulsantwort und einem nachgeschalteten Nachfilter zur Restecho-

und Störgeräuschunterdrückung [LK07].

Die Adaptionssteuerung von Filtern zur Echokompensation benötigt neben der zu tref-

fenden Entscheidung ob das wiedergegebene Signal einen aktiven Sprecher enthält, auch

Informationen über die Aktivität des lokalen Sprechers [MH00]. Diese sog. Double-Talk-

Detektion kann durch die Berechnung der Kreuzkorrelation zwischen dem wiedergegebenen

Signal und dem aufgenommenen Signal, sowie dem Wissen über die geschätzte Raumim-

pulsantwort realisiert werden [BMC00]. Eine Sprecheraktivitätsdetektion für den entfernten

Sprecher kann durch die Berechnung von Kurzzeit- und Langzeitmittelwerten der Signal-

energie implementiert werden [RS04].

3 Wissenschaftliche Ziele

Ziel dieser Arbeit ist die Realisierung einer akustischen Szenenanalyse, deren Informationen

über eine Middleware an ein System zur ambienten Kommunikation weitergegeben werden.

Zunächst werden die Möglichkeiten der akustischen Szenenanalyse zur Informationsgewin-

nung innerhalb einer vernetzten Hausumgebung untersucht. Anschließend wird das Konzept

der Amigo Middleware erläutert, speziell die Aspekte des Datenaustausches und der Diens-

tinteraktion. In diesem Rahmen wird auch die Einbindung der akustischen Szenenanalyse

als Informationsquelle im Middleware-Konzept herausgestellt. Darauf aufbauend werden

die notwendigen Komponenten der ambienten Kommunikation diskutiert und der gesamte

Systemaufbau vorgestellt. Im Folgenden werden aufgeschlüsselt nach den Themengebieten

akustische Szenenanalyse, Middleware und ambiente Kommunikation die einzelnen Aufga-

benstellungen näher definiert.

3.1 Akustische Szenenanalyse

Die ambiente Intelligenz in einem Haus soll aktiv und gleichzeitig unauffällig die Bewohner

eines Hauses inihrem täglichen Leben unterstützenund somitden Komfortsteigern [AM04].

In dieser Arbeit dienen akustische Signale als Informationsquellen. Sie sollen fortlaufend

mit möglichst geringer Latenz ausgewertet werden, um Änderungen im Systemverhalten

aufgrund eines detektierten Ereignisses unmittelbar nach dessen Eintritt vornehmen zu kön-

nen. Der Prozessablauf, von der Signalaufnahme durch die Mikrophone, über die Entstörung

und die abschließende Klassifikation, muss zeitlich möglichst schnell erfolgen, so dass die

gewonnenen Informationen sofort über die Middleware an die ausführenden Applikationen

weitergegeben werden können. Eine zu große Verzögerung in der Verarbeitungskette würde

die Reaktionen des Systems mit einer Latenz versehen, welche die hilfreichen Intentionen

der Applikationen ins Negative verkehren könnte.

Als Beispiel für die negativen Folgen von zu großen Latenzen kann eine einfache Licht-

steuerung durch Sprachbefehle in Kombination mit der akustischen Positionsschätzung be-

trachtet werden. Angenommen werde ein großes Wohnzimmer mit Essecke und angeschlos-

senem Kochbereich, so dass sich mehrere Beleuchtungsszenarien ergeben. Ein Benutzer gibt

den Befehl zum Anschalten des Lichtes, während er im Kochbereich steht. Das System ent-

scheidet nun anhand der akustischen Positionsschätzung, dass sich der Benutzer im Kü-

chenbereich aufhält und schaltet das Licht dort ein. Reagiert das System langsamer als das

Betätigen eines Schalters dauert, so ist der Vorteil der schalterlosen Lichtsteuerung für den

Benutzer nicht mehr gegeben, da für ihn die Unannehmlichkeit des Wartens überwiegt.

Aktuelle Verfahren trennen die Aufgabe der Lokalisation von der Identifikation der Spre-

cher und führen abschließend die Ergebnisse zusammen. Im Rahmen dieser Arbeit wird ein

Wissenschaftliche Ziele

neuer Ansatz zur kombinierten Identifikation und Positionsschätzung entwickelt, der den zu-

vor genannten zeitlichen Anforderungen gerecht wird. Dabei wird die Positionsinformation

direkt mit in den Identifikationsprozess einbezogen, so dass eine Reduktion der Fehlerrate

erzielt wird.

Des Weiteren wird für die Lokalisation ein geeignetes Verfahren auf Basis von strahlfor-

menden Algorithmen ausgewählt, das sowohl eine Verbesserung der Signalqualität als auch

eine Positionsschätzung ermöglicht. Dieses wird im Kontext einer vernetzten Hausumge-

bung hinsichtlich der Genauigkeit mit einem aktuellen Verfahren verglichen.

Da die akustischen Signale sowohl zur Positionsschätzung als auch zur Identifikation von

Personen und Ereignissen verwendet werden, wird der Einfluss der akustischen Strahlfor-

mung auf den Klassifikationsprozess untersucht. Die hierzu benötigten Merkmale werden

sowohl für die Sprecheridentifikation als auch für die Ereignisdetektion verwendet, um der

Prämisse der Ressourcen schonenden Verfahren Rechnung zu tragen. Dabei wird untersucht,

ob die in der Sprach- und Sprechererkennung verbreiteten Merkmale für eine Identifikation

von akustischen Ereignissen verwendet werden können.

Diskriminative Lernverfahren zum Training von Modellen zur Sprecheridentifikation und

Spracherkennung erzielen signifikante Verbesserungen durch die Reduktion der Fehlerrate.

Dies ist möglich durch das Einbeziehen aller Klassen zum Training jeder einzelnen Klasse,

wodurch fehlerhafte Annahmen in der Modellierung und Näherungen kompensiert werden

können. Ein Vergleich zwischen diskriminativen Lernverfahren und ML-Trainingsverfahren

wird zeigen, inwieweit eine Verbesserung der Klassifikationsleistung durch diese erreicht

werden kann und wo die Grenzen der Verfahren liegen.

Zusammenfassend kann das Ziel der hier zu entwickelnden akustischen Szenenanalyse als

Beantwortung der Frage „Wer spricht Wann und Wo, während Was passiert?“ beschrieben

werden, während frühere Ansätze zur Sprecherprotokollierung lediglich die Beantwortung

der Frage „Wer spricht Wann?“ zum Ziel hatten.

Auf der einen Seite stellt die ambiente Kommunikation als Echtzeitanwendung hohe An-

forderungen an die Latenz der Informationsgewinnung durch die akustische Szenenanalyse.

Auf der anderen Seite bietet eine audio-visuelle Kommunikation über die aufgenommenen

Videodaten eine weitere Datenquelle zur Verbesserung der akustischen Szenenanalyse. Da-

her wird im Rahmen dieser Arbeit auch die multimodale Sprecherprotokollierung als Fusion

von akustischen und visuellen Daten betrachtet.

3.2 Middleware und ambiente Intelligenz

Eine Entscheidung in einem intelligenten System kann nur so gut sein, wie die Menge an

Informationen, auf deren Grundlage sie getroffen wurde. Folglich ist ein offenes System

zum Informationsaustausch eine wichtige Komponente für die ambiente Intelligenz. Grund-

gedanke bei der Entwicklung des Amigo Kontextmanagementsystemsist die Annahme, dass

in einer heterogenen Umgebung, wie dem vernetzten Haus, eine Vielzahl von zur Zeit un-

genutzten Informationsquellen vorhanden ist, durch deren Nutzung die Qualität der ambien-

ten Intelligenz signifikant verbessert werden kann. Dabei muss darauf geachtet werden, ein

dynamisches System zu entwickeln, welches dem zeitvarianten Charakter einer Hausumge-

bung gerecht wird. Kontextquellen können in Form von Geräten in das Haus gebracht oder

herausgenommen werden, und müssen folglich dynamisch verwaltet werden. Dies steht im

Wissenschaftliche Ziele

Kontrast zu anderen Middleware-Technologien, wie z. B. EIB, bei denen Sensoren und Akto-

ren fest in die Umgebung integriert sind und keine Dynamik aufweisen. Das in Kooperation

mit den Projektpartnern von Amigo entwickelte Kontextmanagementsystem basiert auf den

in der Amigo Middleware implementierten Methoden zur Nutzung von Diensten. Die Ein-

bindung von Informationsquellen in diesen losen Verbund von Quellen ermöglicht eine netz-

werkweite Nutzung der Informationen. In dieser Arbeit wird gezeigt, wie die Mechanismen

der Middleware für das Kontextmanagementsystem genutzt werden und wie die akustische

Szenenanalyse als Kontextquelle eingebunden wird.

Die Amigo Middleware bildet einen losen Verbund von Diensten, die dynamisch zusam-

mengestellt und verbunden werden. Dies bedeutet jedoch, dass eine aussagekräftige und

durch Maschinen verständliche Beschreibung der Dienste und Informationsquellen entwi-

ckelt werden muss, so dass eine automatische Komposition von Diensten auf semantischer

Ebene erfolgen kann. Die hierzu notwendigen Beschreibungen für die Kontextquelle der

akustischen Szenenanalyse werden im Rahmen dieser Arbeit vorgestellt.

3.3 Ambiente Kommunikation

Erste Formen von ambienter Kommunikation wurden durch Aki Härmä (PhilipsR

) und Mi-

chael Stanford (Intel R

) als eine Art der Kommunikation beschrieben, bei der eine VoIP-

Verbindung einfach angelassen wurde und somit Gesprächspartner dieser beitreten oder die-

se verlassen, indem sie in den entsprechenden Raum eintreten oder hinausgehen [Här07].

Eine solche Form der Kommunikation kann natürlich nur zwischen nahestehenden Perso-

nen durchgeführt werden, da beide Seiten einen unkontrollierten, zufälligen Einblick in die

Privatsphäre des Anderen erhalten. Betrachtet man dieses beschriebene Szenario genauer,

so sind nicht alle Aspekte der ambienten Intelligenz mit einbezogen worden. In der hier

vorliegenden Arbeit wird die Idee der ambienten Kommunikation unter dem Paradigma der

ambienten Intelligenz untersucht, wodurch den in der Einleitung bereits beschrieben Kern-

elementen, wie z. B. der Orientierung auf den Benutzer, Rechnung getragen wird. Dies be-

dingt eine Einbindung der ambienten Kommunikation in die ambiente Intelligenz durch die

Verwendung einer Middleware. Das physikalische Gerät zur Kommunikation, d. h. das Te-

lefon, wird dabei durch einen personalisierten Softwaredienst ersetzt. Es erfolgt somit eine

Ablösung der gerätezentrierten Kommunikation durch eine „überall“ verfügbare Möglich-

keit zur Kommunikation, in deren Verlauf die Kommunikation dem Nutzer durch das Haus

folgt und der Nutzer nicht mehr an einen Ort gebunden ist. Die ambiente Kommunikation

verwirklicht folglich die Kernelemente der ambienten Intelligenz:

•Integration: Die Hardwarekomponenten des Systems werden unauffällig in die Umge-

bung integriert. Der Nutzer muss nicht mehr ein bestimmtes Gerät aufsuchen, sondern

der Dienst der Kommunikation steht ihm überall zur Verfügung.

•Kontextbewusstsein: Informationen über die Umgebung, über anwesende Personen

und kontextrelevanteEreignisse tragen zur Verbesserung des Kommunikationssystems

bei und werden über eine entsprechende Schnittstelle verfügbar gemacht.

•Personalisierung: Die Kommunikation orientiert sich am Benutzer und wird an seine

Bedürfnisse und Wünsche angepasst.

Wissenschaftliche Ziele

•Adaptivität & Antizipation: Das System wird auf aktuelle Ereignisse kontextabhängig

reagieren und dem Nutzer so vorhersagbare oder absehbare Handlungen abnehmen.

Hierbei wird zudem ein Schutz der Privatsphäre berücksichtigt.

Die Auswahl und Implementierung von Ansätzen und Verfahren orientiert sich an deren

Effizienz, die gestellten Anforderungen im System zu erfüllen. Bevorzugt werden Lösungs-

ansätze, die parallel für mehrere Problemstellungen verwendet werden können, um die Leis-

tungsfähigkeit des Systems bei konstantem Ressourcenverbrauch zu steigern.

4 Akustische Szenenanalyse

Das Ziel der akustischen Szenenanalyse ist die Gewinnung von Informationen aus den Si-

gnalen von räumlich verteilten Mikrophonen. Die hierbei auftretenden Aufgaben können

in mehrere Verarbeitungsschritte aufgeteilt werden. Zuallererst wird eine Verarbeitung der

aufgenommenen Signale zum Zweck der Störgeräuschreduktion und der Berechnung von

Merkmalen durchgeführt. Hierauf basierend kann im nächsten Schritt eine Lokalisation von

Quellen durchgeführt werden. Anschließend kann eine Klassifikation der akustischen Ereig-

nisse anhand einer trainierten Wissensbasis erfolgen. Im letzten Verarbeitungsschritt werden

die gewonnenen Informationen zusammengeführt, bewertet und im System für Applikatio-

nen bereitgestellt.

4.1 Merkmalsextraktion

Die akustischen Signale im vernetzten Haus werden durch unterschiedliche stationäreund in-

stationäre Störquellen beeinflusst. Somit ist eine effektive Störunterdrückung für die spätere

Erkennung nötig. Grundsätzlich lassen sich hierbei zwei Ansätze verfolgen. Zum einen kann

das akustische Signal gefiltert werden, um eine Reduktion der Störung zu erreichen. Zum

anderen kann zunächst eine Merkmalsextraktion erfolgen und der Merkmalsvektor anschlie-

ßend entstört werden. Beide Ansätze werden erfolgreich unter anderem in der automatischen

Spracherkennung verwendet [ETS02, HS05].

Ein Leitgedanke bei der Entwicklung der akustischen Szenenanalyse ist die Effizienz von

Komponenten und deren Wiederverwendbarkeit. Die Entstörung des Zeitsignals anstelle der

Merkmale bietet in dieser Hinsicht den Vorteil, dass das entstörte Signal für eine Kommuni-

kation verwendbar ist.

4.1.1 Störgeräuschunterdrückung

Die hier verwendete Störgeräuschunterdrückung ist entwickelt worden aus der 2-stufigen

Wiener-Filterung des Advanced Front-end Feature Extraction (AFE) des ETSI [ETS02]. Die

Anforderung war, eine Filterung des Eingangssignals durchzuführen, die sowohl gute Er-

gebnisse für einen menschlichen Hörer (gute Sprachqualität) als auch für eine nachfolgende

Klassifikationsaufgabe (z. B. Sprechererkennung) erzielt.

Das AFE ist eine aus der Spracherkennung stammende Signalverarbeitungskomponen-

te, die bei geringer Rechenkomplexität einen hohen Gewinn im Signal-zu-Rauschabstand

(engl. Signal to Noise Ratio,SNR) bietet. Nachteilig für die Verwendung im Bereich Kom-

munikation ist die leicht reduzierte Sprachqualität bei niedrigen SNR-Werten. Zudem ist das

Akustische Szenenanalyse

2-stufige Wiener-Filter des AFE nur für eine Abtastrate von 8 kHz spezifiziert. Eine Anpas-

sung auf eine Abtastrate von 16 kHz ist durch eine Verdoppelung der Blockgrößen und der

Anpassung einiger Systemparameter möglich. Die Reduktion des SNR-Gewinns bei niedri-

gen SNR-Werten der Eingangssignale verbessert die subjektive Qualität des Sprachsignals

zu Lasten eines höheren Rauschanteils.

bildung

Block−

Sprachaktivitäts−

detektion

Faltung

(Hann)

Fensterung FFT

schätzung

Rausch−

Glättung

IDCTFensterung

bildung

Block− (Hann)

Fensterung FFT

Glättung

schätzung

Rausch−

Dämpfungs−

Wiener Filter

anpassung

IDCTFensterungFaltung

Audio−

signal

Schätzung

Filter

Filterbank

Schätzung

Filter

Filterbank

bildung

Block−

Wiener−

Mel−

Wiener−

Abbildung 4.1: Blockdiagramm des 2-stufigen Wiener-Filters zur Störgeräuschreduktion

Das Blockschaltbild in Abb. 4.1 zeigt die Komponenten des 2-stufigen Wiener-Filters.

Basierend auf einer Sprachaktivitätsdetektion wird auf dem Eingangssignal eine Schätzung

des Störgeräuschspektrums durchgeführt. Anschließend wird ein Wiener-Filter zur Redukti-

on der Störgeräusche geschätzt und mit Hilfe eine Mel-Frequenz-Filterbank gehörorientiert

geglättet. Die Filterung selbst wird im Zeitbereich durch den Block Faltung realisiert, da dies

dem Entstehen von Störungen (sog. musical tones) entgegenwirkt.

Die zweite Stufe des Wiener-Filters führt auf dem Ausgangssignal der ersten Stufe eine

erneute Schätzung des verbliebenen Störspektrums durch. Das hieraus berechnete Wiener-

Filter wird durch eine Mel-Frequenz Filterbank geglättet und in der Dämpfungsanpassung

mit dem Wiener-Filter der ersten Stufe kombiniert. Die Filterung wird erneut im Zeitbereich

realisiert.

4.1.2 Mel-Frequency Cepstral Coefficients

Die Mel-Frequency Cepstral Coefficients (MFCC) werden aus dem entstörten Ausgangssi-

gnal der 2-stufigen Wiener-Filterung berechnet. Zunächst werden durch eine Hochpassfilte-

rung Gleichanteile im Audiosignal sowie tieffrequente Störungen gedämpft. In einem weite-

ren Schritt wird in der Vorverstärkung eine Anhebung der Höhen vorgenommen. Das Signal

wird dann gefenstert, anschließend in den Frequenzbereich transformiert und mit einer Mel-

Frequenz Filterbank geglättet. Die Berechnung der diskreten Cosinus Transformation (DCT)

liefert die cepstralen Merkmale, welche in der Nachverarbeitung mit Hilfe der logarithmier-

ten Energie des Audiosignals normalisiert werden. Zuletzt werden näherungsweise die erste

Akustische Szenenanalyse

(Delta-Merkmale) und zweitezeitliche Ableitung(Delta-Delta-Merkmale) der Merkmalebe-

rechnet und im Multiplexer zu einem Merkmalsvektor zusammengefasst. In Abb. 4.2 ist das

Blockschaltbild zur Bestimmung der MFCC angegeben.

Gleichanteils−

filterung bildung

Block− Fensterung (Höhenanhebung)

Vorverstärkung Fensterung FFT

LogDCT

Nachverarbeitung

Multiplexer

signal

Audio−

Merkmalsvektor

Merkmale

Delta−

Delta−Delta−

FilterbankEnergie

Log− Mel−

Abbildung 4.2: Blockdiagramm zur Berechnung der Mel-Frequency Cepstral Coefficients

4.1.3 Maximum Autocorrelation Value

Ein häufig in der Sprechererkennung verwendetes Merkmal ist die Stimmbandgrundfre-

quenz. Dieses Merkmal besitzt zum einen den Nachteil, dass es nur für stimmhafte Abschnit-

te der Sprache existiert. Zum anderen kann es für die Erkennung von akustischen Ereignis-

sen, die nicht durch den menschlichen Sprachtrakt hervorgerufen werden, nicht verwendet

werden.

In [WP00] wird ein alternatives Merkmal, der Maximum Autocorrelation Value (MACV),

vorgeschlagen, welcher ein Maß für die Periodizität des Signals in einem betrachteten Fens-

ter ist. Vorteil hierbei ist, dass das Merkmal auch für stimmlose Laute existiert und wie in der

Literatur [WP00] gezeigt wird, dem Merkmal Stimmbandgrundfrequenz in der Erkennungs-

leistung überlegen ist. Dieses Merkmal kann außerdem für die akustische Ereignisdetektion

verwendetwerden, da es nur eine Bewertung der Periodizität des Signals vornimmt, die nicht

an das Vorhandensein einer Stimmbandgrundfrequenz gebunden ist.

Zunächst wird für den MACV die Autokorrelationsfunktion des gefensterten Eingangssi-

gnals ˜x(n)der Länge Nmit

R(k) = 1

N−1−k

n=0

˜x(n)˜x(n+k)k= 0,...,N −1(4.1)

berechnet. Anschließend wird die Autokorrelationsfunktion mit dem Koeffizienten R(0) nor-

miert:

r(k) = R(k)

R(0).(4.2)

Die Autokorrelationssequenz kann entweder in Qgleich große Blöcke unterteilt werden, so

dass für jeden Block das Maximum bestimmt wird und so ein MACV-Merkmalsvektor der

Akustische Szenenanalyse

Dimension Qentsteht, oder es wird nur ein MACV-Wert für den Bereich der Stimmband-

grundfrequenz (t∈[2,5 ms,12,5 ms] b=k∈[40,200] bei einer Abtastfrequenz von 16 kHz)

berechnet.

MACV(q) = max

(q−1)N

Q<k<q N

Q{r(k)}q= 0,...,Q−1(4.3)

MACV = max

40<k<200{r(k)}(4.4)

In [ZSN05] wird eine Variation des MACV vorgeschlagen, bei der Anstelle von Gl. 4.1 die

erwartungstreue Schätzung der Autokorrelationsfunktion

R(k) = 1

N−k

N−1−k

n=0

˜x(n)˜x(n+k)k= 0,...,N −1(4.5)

verwendet wird.

4.2 Akustische Positionsschätzung

Die Lokalisation von Personen oder Ereignissen anhand von akustischen Signalen setzt das

Vorhandensein mehrerer räumlich getrennter Mikrophone bzw. Mikrophongruppen voraus.

Hierbei werden die Unterschiede in der Signallaufzeit und das Wissen über die Position der

Mikrophone verwendet, um Positionsschätzungen durchzuführen. Das am häufigsten in der

Literatur beschriebene Verfahren der Generalized Cross Correlation with Phase Transfor-

mation (GCC-PHAT) nutzt die normalisierte Kreuzkorrelation zwischen zwei Mikrophonsi-

gnalen, um die Laufzeitdifferenz zu berechnen. Als Alternative hierzu wird in dieser Arbeit

die Positionsbestimmung mittels adaptiver Strahlformung diskutiert.

4.2.1 Generalized Cross Correlation with Phase Transformation

Das in [KC76] vorgestellt GCC-PHAT-Verfahren berechnet mit Hilfe des normierten Kreuz-

leistungsdichtespektrums die Laufzeitdifferenz der Signale zwischen zwei Mikrophonen. Es

wird im Weiteren angenommen, dass insgesamt l= 1,...,L Mikrophongruppen mit je-

weils MlMikrophonen in einem Raum vorhanden sind. Die Laufzeitdifferenz zwischen den

abgetasteten Mikrophonsignalen xi,l(n)und xj,l(n)(i-tes und j-tes Mikrophon der l-ten Mi-

krophongruppe) wird geschätzt als das Maximum der Fourier-Rücktransformierten der Ko-

härenzfunktion. Die Fourier-Rücktransformierte ist mit

φ(GCC)

ij,l (λ) = IDFTDFT{xi,l(n)}·DFT∗{xj,l(n)}

|DFT{xi,l(n)}·DFT∗{xj,l(n)}|(4.6)

gegeben. Zusätzlich ist es möglich die Fourier-Rücktransformierte zu interpolieren, um eine

höhere zeitliche Auflösung zu erzielen:

φ(GCC)

ij,l (λ)Interpolation

−→ C(GCC)

ij,l (τ) = X

φ(GCC)

ij,l (λ) si πτ−λT

T.(4.7)

Akustische Szenenanalyse

An dieser Stelle sei darauf hingewiesen, dass C(GCC)

ij,l (τ)in der Implementierung ein zeitlich

diskretes Signal darstellt, da die Interpolation in einem Digitalrechner durchgeführt wird.

Für die Schätzung der Laufzeitdifferenz folgt somit:

τ(GCC)

ij,l = argmax

τn|C(GCC)

ij,l (τ)|o.(4.8)

4.2.2 Akustische Strahlformung

Der Zweck der akustischen Strahlformung ist die Ausrichtung der Empfindlichkeit einer

Mikrophongruppe auf eine akustische Quelle im Raum. Die Verstärkung der Quelle führt im

Ausgangssignal zu einer Verbesserung des SNR und somit zu einer Unterdrückung möglicher

Störquellen aus anderen Raumrichtungen. Im Folgenden wird das in [WH05] beschriebene

Verfahren zur Strahlformung vorgestellt. Es ist ein blindes Verfahren, welches sich auf die

stärkste im Raum befindliche Quelle ausrichtet. Um eine Fehlausrichtung der Strahlformung

in Sprachpausen zu unterbinden, wird eine Sprachaktivitätsdetektion zur Steuerung der Ad-

aption benötigt.

Gegeben sei eine Mikrophongruppe mit i= 1,...,MlMikrophonen. Jedes Mikrophon

liefert ein Signal

xi(n) = hi(n)∗s(n) + ni(n)(4.9)

bestehend aus einem Störsignal ni(n)und dem gewünschten Sprachsignal s(n), welches mit

der unbekannten Raumimpulsantwort hi(n)gefaltet wird. Die Signale xi(n), i = 1,...,Ml

sollen nun durch ein Filter fi(n)so gefiltert und anschließend summiert werden, dass eine

konstruktive Überlagerung des Sprachsignals s(n)erzielt wird:

y(n) =

i=1

fi(−n)∗xi(n).(4.10)

Die Filter fi(n)seien dabei Filter mit endlicher Filterimpulsantwort (engl. Finite Impulse

Response,FIR). Eine Implementierung der Filterung im Frequenzbereich führt zu einer Re-

duktion des Rechenaufwandes und ist der zeitlichen Filterung vorzuziehen. Es folgt für Gl.

4.10, dass

Y(k) =

i=1

F∗

i(k)·Xi(k)k= 0,...,K−1(4.11)

ist, mit kals dem k-ten Frequenzbin der Klangen diskreten Fourier Transformation (DFT).

Durch die Einführung der Vektornotation

F(k) = [F1(k),...,FMl(k)]T(4.12)

X(k) = [X1(k),...,XMl(k)]T(4.13)

kann Gl. 4.11 mit

Y(k) = FH(k)X(k)k= 0,...,K−1(4.14)

Akustische Szenenanalyse

dargestellt werden. Die Adaption der Filter erfolgt entsprechend [WH07] durch ein determi-

nistisches Gradientenverfahren und liefert die Adaptionsregel

Fm+1(k) = Fm(k) + µΦxx(k)Fm(k)−FH

m(k)Φxx(k)Fm(k)Fm(k)(4.15)

mit mals Iterationsindex, µals Schrittweite, Φxx als spektrale Kreuzleistungsdichtematrix

der Mikrophonsignale und der Nebenbedingung FH(m)F(m) = 1. Dabei liefert die Glei-

chung Gl. 4.15 den Eigenvektor zum größten Eigenwert der spektralen Kreuzleistungsdich-

tematrix Φxx [WH07]. Diese Verfahren der akustischen Strahlformung wird als Filter Sum

Beamformer (FSB) bezeichnet [WH05].

Die Verwendung von FIR-Filtern im FSB bietet gegenüber einem Delay Sum Beamformer

(DSB) den Vorteil, dass neben den direkten Schallkomponenten auch frühe Reflexionen mit

berücksichtigt werden und somit die Klarheit der Sprache verbessert wird [WH05].

Ein positiver Nebeneffekt der FSB-Adaption ist die Möglichkeit, eine Schätzung des Ein-

fallswinkels der akustischen Signale relativ zur Ausrichtung der Mikrophongruppe anhand

der Filterimpulsantworten durchzuführen [SH06]. Hierfür wird die Kreuzkorrelation zwi-

schen dem i-ten und j-ten Mikrophon der l-ten Mikrophongruppe mit

φ(F SB)

ij,l (λ) = fi(−λ)∗fj(λ)(4.16)

berechnet, wobei λ=m·Teinem Vielfachen der Abtastperiode entspricht. Da die FIR-Filter

nicht ganzzahlige Verzögerungen modellieren können, ist eine Interpolation der Kreuzkorre-

lation zur Steigerung der Auflösung möglich.

φ(F SB)

ij,l (λ)Interpolation

−→ C(F SB)

ij,l (τ)(4.17)

Die Verzögerung zwischen den Signalen an den Mikrophonen kann mit

τ(F SB)

ij,l = argmax

τ|C(F SB)

ij,l (τ)|(4.18)

bestimmt werden. Analog zur Latenzschätzung des GCC-PHAT kann die Kreuzkorrelation

der FIR-Filter als Fourier-Rücktransformierte der Kohärenzfunktion der Mikrophonsignale

angesehen werden.

4.2.3 Lokalisation mittels verteilter Mikrophongruppen

Der Einfallswinkelkann grundsätzlich als Information über eine Position im vernetzten Haus

verwendet werden, jedoch steigert die Kombination verteilter Mikrophongruppen zur Schät-

zung einer Position in kartesischen Koordinaten den Informationsgehalt beträchtlich. Hierzu

ist es notwendig, die Position und Anordnung der Mikrophongruppen im Raum zu ken-

nen. Im Folgenden wird das aus der Literatur bekannte Verfahren der Kohärenzfeldanalyse

[OSBC06] einer Schnittpunktanalyse gegenübergestellt und hinsichtlich Genauigkeit und

Rechenaufwand verglichen.

Kohärenzfeldanalyse

Das verbreitetste Verfahren zur akustischen Positionsbestimmung ist die Kohärenzfeldana-

lyse (engl. Global Coherence Field analysis) [OSBC06], welche äquivalent zum „Steered

Akustische Szenenanalyse

Response Power“-Verfahren ist [DBA07] und mit dem Begriff „GCF-Analyse“ abgekürzt

wird. Hierbei wird die Positionsbestimmung im Raum zumeist in zwei Dimensionen durch-

geführt, so dass die möglichen Positionen in einer Fläche liegen. Über diese Fläche wird ein

Gitter Ggelegt, welches durch die diskreten Gitterpunkte [x, y]∈Gdefiniert ist. Zu jedem

Zeitschritt wird die globale Kohärenzfunktion für alle Gitterpunkte [x, y]des Raumes mit

GCF(x, y) = 1

l=1

l−Ml

Ml−1

i=1

j=i+1

Cij,l (τij,l(x, y)) (4.19)

berechnet. Hierbei werden die interpoliertenFourier-Rücktransformierten der Kohärenzfunk-

tionen Cij,l(τ)der l= 1,...,L Mikrophongruppen verwendet, welche entweder mit dem

GCC-PHAT-Verfahren oder der akustischen Strahlformung geschätzt wurden. Die Laufzeit-

differenz τij,l(x, y)wird berechnet aus der relativen Position und Orientierung der l-ten Mi-

krophongruppe zum Aufpunkt [x, y]im Raum. Da der Aufwand der Aufpunktsberechnung

sich quadratisch zur Quantisierung des Raumes verhält, muss eine Abwägung zwischen

dem geduldeten Quantisierungsfehler und der vertretbaren Rechenkomplexität vorgenom-

men werden.

01234

−0,05

0,05

0,1

0,15

0,2

0,25

0,3

x [m]

y [m]

GCF(x,y)

Abbildung 4.3: Beispiel eine GCF-Analyse für vier Mikrophongruppen zur akustischen Positions-

schätzung durch verteilte Mikrophongruppen

Die Abb. 4.3 zeigt ein Beispiel für eine GCF-Analyse für einen Raum der Größe 4 m×4 m,

in dem vier Mikrophongruppen (rl= [0,2]; [4,2]; [2,0]; [2,4]) jeweils mittig an den Wänden

angebracht sind. Das Maximum der globalen Kohärenzfunktion wird als Hypothese für die

Sprecherposition verwendet.

Schnittpunktanalyse

Die Schnittpunktanalyse ist ein vereinfachtes Verfahren zur Berechnung einer Sprecherposi-

tion, basierend auf den interpolierten Fourier-Rücktransformierten der Kohärenzfunktionen

Akustische Szenenanalyse

und dem Wissen über die Position und Anordnung der Mikrophongruppen. Es wird dabei

angenommen, dass jede der LMikrophongruppen eine lineare Anordnung besitzt, so dass

die Einfallswinkel αij,l der akustischen Signale durch

αij,l = arcsin c·T·τij,l

sij,l (4.20)

berechnet werden können. Dabei ist cdie Schallgeschwindigkeit in der Luft, Tdie Abtast-

periode und sij,l der Abstand zwischen dem i-ten und j-ten Mikrophon der l-ten Mikrophon-

gruppe. Stehen mehr als zwei Mikrophone in einer Gruppe (Ml>2) zur Verfügung, kann

eine Mittelung über alle Kombinationen der Mikrophone mit

αl=2

l−Ml

Ml−1

i=1

j=i+1

αij,l (4.21)

erfolgen, falls die räumliche Ausdehnung der Mikrophongruppe nicht zu einer Verletzung

der Fernfeldnäherung führt. Die Fernfeldnäherung ist die Annahme, dass das akustische Si-

gnal in einer ebenen Wellenfront auf die Mikrophone trifft. Die Laufzeitdifferenz τij,l zwi-

schen den Mikrophonsignalen kann sowohl durch das GCC-PHAT-Verfahren (τ(GCC)

ij,l ) als

auch durch den FSB-Ansatz (τ(FSB)

ij,l ) bestimmt werden.

Jede Winkelschätzung αleiner Mikrophongruppe mit der Position rl= [xl, yl]Twird als

Geradengleichung

gl(ν) = rl+ν·al(αl, βl)(4.22)

dargestellt. Der Richtungsvektor alist dabei abhängig von dem geschätzten Einfallswinkel

αlund der Orientierung der Mikrophongruppe im gewählten Koordinatensystem βl(Winkel

zur Ordinate).

In Abb. 4.4 ist ein Beispiel für die Positionsbestimmung durch die Schnittpunktanalyse

gegeben. Die Kombination der Geradengleichungen der i-ten und j-ten Mikrophongruppe

liefert im Idealfall einen Schnittpunkt χij im Raum, der als Grundlage für die Positions-

schätzung verwendet werden kann. Sollte ein Schnittpunkt durch Fehler bei der Schätzung

der Winkel außerhalb des Raumes liegen, so wird diese Schätzung verworfen. Die Position

P= [xp, yp]Tder akustischen Quelle wird als Schwerpunkt aller Schnittpunkte χij mit

P=2

L2−L

L−1

i=1

j=i+1

χij (4.23)

berechnet.

In Laborversuchen wurde beobachtet, dass die Gewichtung der Schnittpunkte mit einem

aus der Kreuzkorrelation berechneten Konfidenzwert die Schätzung positiv beeinflusst. Dies

ist auch in den Simulationen in Abb. 4.6 (a) erkennbar. Der Gewichtsfaktor berechnet sich

mit

γij,l =max {|φij,l(λ)|}

λ′|φij,l(λ′)|,(4.24)

Akustische Szenenanalyse

α1

α2

α3

χ12

χ13

χ23

x2x3

FSB1(β1=−π

FSB2(β2= 0)

FSB3(β3=π

Abbildung 4.4: Beispiel einer akustischen Positionsschätzung mit drei Mikrophongruppen durch die

Schnittpunktanalyse

und ist ein Maß für die Impulsförmigkeit der Kreuzkorrelationsfunktion.

Ein Überblick über Verfahren zur Positionsschätzung kann in [WM09] gefunden werden.

Unter anderem wird dort auf den Linear Intersection Estimator eingegangen, der im dreidi-

mensionalen Raum den minimalen Abstand zwischen zwei Geraden als Positionsschätzung

verwendet und als verallgemeinerte Form der Schnittpunktanalyse für drei Dimensionen an-

gesehen werden kann.

Interpolation

Der Abstand der Mikrophone innerhalb einer Mikrophongruppe hat zum einen Einfluss auf

die maximal ohne Aliasingfehler auflösbaren Frequenzen und zum anderen einen Einfluss

auf die Anzahl der unterscheidbaren Laufzeitdifferenzen. Je kleiner der Abstand zwischen

den Mikrophonen gewählt wird, desto weniger räumliche Aliasingfehler treten auf und desto

geringer ist die Anzahl der ohne Interpolation unterscheidbaren Laufzeitdifferenzen.

Die Anzahl der Laufzeitdifferenzen wird bestimmt durch die Abtastperiode der Fourier-

Rücktransformierten der Kohärenzfunktion und die gewählte Interpolation (vgl. Gl. 4.7).

Ohne Interpolation sind nur ganzzahlige Vielfache der Abtastperiode als Laufzeitdifferenz

messbar. Mit Interpolation vervielfacht sich die Anzahl der unterscheidbaren Laufzeitdif-

ferenzen um den Interpolationsfaktor. In beiden Fällen kann nur eine begrenzte Menge an

Laufzeitdifferenzen unterschieden werden.

In Abb. 4.5 (a) sind die resultierenden Winkel aus den Latenzschätzungen in rot einge-

zeichnet. Bei einer angenommenen Abtastrate von 1/T = 16 kHz und einem Mikrophonab-

stand von sij,l = 0,05 m ergibt sich nach Gl. 4.20 eine maximal messbare Latenz zwischen

den Signalen für einen Winkel αij,l =±π/2von

λ(max)

ij,l =sij,l

c·T=16 000 1

s·0,05 m

343 m

=⌈2,33⌉= 3 (4.25)

Akustische Szenenanalyse

0 1 2 3 4

0,5

1,5

2,5

3,5

x [m]

y [m]

Ohne Interpolation

Mit Interpolation

(a) Auswirkung der Interpolation auf die Winkelauflö-

sung

01234

0,5

1,5

2,5

3,5

x [m]

y [m]

(b) Räumliche Verteilung der Schnittpunkte bei vier

Mikrophongruppenund Interpolation

Abbildung 4.5: Positionsschätzung durch Interpolation von Winkelschätzungen

Abtastwerten. Die maximale ohne Aliasingfehler auflösbare Frequenz kann mit

fmax =c

sij,l

=343 m

0,05 m = 6860 Hz (4.26)

berechnet werden. Da ohne Interpolation nur ganzzahlige Verzögerungen messbar sind, kön-

nen nur 7Winkel pro Mikrophongruppe unterschieden werden (vgl. Abb. 4.5 (a), rote Li-

nien). Erst die Interpolation erreicht eine verwertbare Winkelauflösung des Raumes (vgl.

Abb. 4.5 (a), rote und blaue Linien). Die Abb. 4.5 (b) zeigt die entstehenden Schnittpunkte

für einen Aufbau mit vier Mikrophongruppen und Interpolation. Es ist erkennbar, dass gera-

de die Ecken gegenüber der Mitte des Raumes eine schlechtere Auflösung besitzen, da dort

weniger Schnittpunkte liegen. Auf Grund dieser Beobachtung ist es erforderlich, Systeme

zur akustischen Lokalisation so aufzubauen, dass der Bereich mit den meisten Schnittpunk-

ten im vorgesehenen Interaktionsbereich mit den Benutzern liegt.

Experimente

Die folgenden Experimente untersuchen und vergleichen das GCC-PHAT-Verfahren mit

dem FSB-Ansatz zur Positionsschätzung hinsichtlich der Vor- und Nachteile für die Ver-

wendung in der akustischen Szenenanalyse.

In Abb. 4.6 sind die experimentellen Ergebnisse zum Vergleich der Positionsschätzung

zwischen GCC-PHAT und FSB angegeben. Hierzu wurde ein Raum der Größe 4 m ×4 m,

mit einer Deckenhöhe von 3 m und unterschiedlichen Raumnachhallzeiten mit der Spiegel-

methode nach [AB79] simuliert. Bei einer Abtastrate von 16 kHz wurde für jede Nachhallzeit

eine 90 s lange Audiodatei für einen sich zufällig bewegenden Sprecher künstlich verhallt.

Insgesamt 8Mikrophone waren paarweise mittigan den Wänden und im Abstand von 0,05 m

zueinander angebracht. Die FFT-Länge des GCC-PHAT-Verfahrens betrug 2048 Abtastwer-

te, mit einer anschließenden Interpolation zur Verbesserung der Positionsschätzung. Der FSB

wurde mit einer Filterlänge von 128 Werten implementiert und das Ergebnis der Filterkorre-

lation ebenfalls interpoliert.

Abbildung 4.6 (a) zeigt die Wurzel des mittleren quadratischen Fehlers (engl. Root Mean

Square,RMS) für die Positionsschätzung durch den GCC-PHAT („GCC-PHAT Schnitt-

Akustische Szenenanalyse

100 200 300 400 500

0,3

0,4

0,5

0,6

0,7

0,8

0,9

T60−Zeit [ms]

RMS [m]

GCC−PHAT Schnittpunkt

GCC−PHAT GCF

FSB Schnittpunkt

FSB Konfidenz

FSB GCF

(a) Vergleich des RMS bezogen auf die Nachhall-

zeit des Raumes

0 0,5 1 1,5 2 2,5

0,2

0,4

0,6

0,8

1,2

Distanz zu Raummittelpunkt [m]

RMS [m]

GCC−PHAT Schnittpunkt

GCC−PHAT GCF

FSB Schnittpunkt

FSB Konfidenz

FSB GCF

(b) Vergleich des RMS bezogen auf die Distanz

der Sprecherposition zum Raummittelpunkt

Abbildung 4.6: Experimente zur Positionsschätzung mit dem FSB- und dem GCC-PHAT-Verfahren

punkt“), den FSB ohne Gewichtung der Schnittpunkte („FSB Schnittpunkt“) und den FSB

mit Gewichtung der Schnittpunkte proportional zum Konfidenzwert der Schätzungen („FSB

Konfidenz“) für ansteigende Nachhallzeiten des Raumes. Des Weiteren sind die RMS-Werte

für die Positionsschätzung bei Verwendung der Kohärenzfeldanalyse für das GCC-PHAT-

Verfahren („GCC-PHAT GCF“) und den FSB-Ansatz („FSB GCF“) angegeben.

Die experimentellen Ergebnisse zeigen, dass der FSB eine bessere Positionsschätzung er-

möglicht als das GCC-PHAT-Verfahren. Des Weiteren besitzen die Ausgangssignale des

FSB ein besseres SNR und könnten somit für weitere Verarbeitungsschritte besser geeignet

sein als ein einzelnes Mikrophonsignal. Vergleicht man die Ergebnisse der Positionsschät-

zung des GCC-PHAT-Verfahrens mit GCF-Analyse („GCC-PHAT GCF“) mit denen der

einfacheren Schnittpunktanalyse („GCC-PHAT Schnittpunkt“), so kann festgestellt werden,

dass das GCC-PHAT-Verfahren deutlich von der GCF-Analyse profitiert. Speziell für länge-

re Raumnachhallzeiten ist die Verwendung der GCF-Analyse vorteilhaft, um den Fehler der

Positionsschätzung gering zu halten. Im Falle der Positionsschätzung durch den FSB ist der

Vorteil der GCF-Analyse („FSB GCF“) gegenüber der Schnittpunktanalyse („FSB Schnitt-

punkt“) weniger ausgeprägt und es kann zu Gunsten einer reduzierten Rechenanforderung

darauf verzichtet werden.

Abbildung 4.6 (b) zeigt die Untersuchungen zur Verteilung der Fehler bezogen auf den

Abstand der Sprecherposition zum Mittelpunkt des Raumes. Der Fehler steigt mit zuneh-

mender Distanz zum Mittelpunkt des Raumes an und ist am größten in den Ecken, wie es

bereits in experimentellen Versuchen im Labor beobachtet wurde. Dies zeigt, dass die Plat-

zierung der Mikrophone die erreichbare Schätzgenauigkeit beeinflusst. Mikrophongruppen

sollten immer so angebracht werden, dass sie den Interaktionsbereich des Nutzers gut abde-

cken und die Gebiete mit großen Fehlern abseits der Nutzungsflächen liegen.

In [WPH04] wird gezeigt, dass die akustische Positionsschätzung durch eine modellba-

sierte Nachfilterung, wie z. B. Kalman- oder Partikelfilter, verbessert werden kann. Auf ei-

ne modellbasierte Nachfilterung wird im Rahmen dieser Arbeit bewusst verzichtet, da die

experimentell erreichten Genauigkeiten in realen Umgebungen den Anforderungen genü-

gen und somit eine rechenintensive Filterung unnötig ist. Eine erzielte Genauigkeit von ca.

Akustische Szenenanalyse

0,2 m −0,5 m kann als hinreichend für die häusliche Umgebung mit geringem Nachhall

(niedrige T60-Zeiten) betrachtet werden.

Der Vergleich der benötigten Rechenzeit in Tab. 4.1 zeigt deutlich den Vorteil der Verwen-

dung des FSB gegenüber dem GCC-PHAT-Verfahren.1Die Positionsbestimmung des FSB

Modul Zeit (µs)

FSB-Strahlformung(2 Mikrophone) 273

FSB-Winkelschätzung (2 Mikrophone) 16

GCC-PHAT (2 Mikrophone) 653

Schnittpunktanalyse (4 Gruppen je 2 Mikrophone) 5

GCF-Analyse (4 Gruppen je 2 Mikrophone, 0,1 m Rasterung ) 1457

GCF-Analyse (4 Gruppen je 2 Mikrophone, 0,05 m Rasterung) 5624

FSB mit Schnittpunktanalyse (4 Gruppen je 2 Mikrophone) 1161

FSB mit GCF-Analyse (4 Gruppen je 2 Mikrophone, 0,1 m Raster) 2613

FSB mit GCF-Analyse (4 Gruppen je 2 Mikrophone, 0,05 m Raster) 6780

GCC-PHAT mit Schnittpunktanalyse (4 Gruppen je 2 Mikrophone) 2617

GCC-PHAT mit GCF-Analyse (4 Gruppen je 2 Mikrophone, 0,1 m Raster) 4069

GCC-PHAT mit GCF-Analyse (4 Gruppen je 2 Mikrophone, 0,05 m Raster) 8236

Tabelle 4.1: Vergleich der Rechenzeit unterschiedlicher Module zur Positionsschätzung

mittels Schnittpunktanalyse benötigt im Vergleich zur Positionsschätzung des GCC-PHAT

mit Schnittpunktanalyse nur 44,1 % der Rechenleistung. Noch größer wird der Unterschied,

falls die GCF-Analyse angewendet wird, da die Schnittpunktberechnung um einen Faktor

1125 schneller ist. Die Experimente zeigen, dass im Falle des FSB die Schnittpunktanalyse

der GCF-Analyse im Bereich Ressourcenbedarf überlegen ist, jedoch die Genauigkeit nur

geringfügig niedriger liegt. In der Literatur gibt es Ansätze, den Bedarf an Rechenzeit durch

die GCF-Analyse zu reduzieren [DBA07], welche hier jedoch nicht weiter betrachtet wer-

den.

4.3 Segmentierung und Sprecheridentifikation

Bei der sequentiellen Vorgehensweise zur Sprecheridentifikation wird zunächst eine Ein-

teilung des Datenstroms in homogene Abschnitte durchgeführt. Diese Abschnitte werden

dann durch eine Sprecheridentifikation einem bekannten Sprecher aus der Datenbasis zu-

geordnet. Demgegenüber steht eine gemeinsame Segmentierung und Sprecheridentifikation,

die in dieser Arbeit vorgeschlagen wird. Eine zeitnahe gemeinsame Identifikation von Spre-

chern in fortlaufenden Datenströmen erfordert Algorithmen, welche eine Segmentierung der

Daten in homogene Abschnitte eines Sprechers und eine Klassifikation dieser Segmente mit

möglichst geringer Latenz vornehmen.

Zunächst wird die Segmentierung von Daten durch die Anwendung des Bayes’schen In-

formationskriteriums erläutert und mögliche Ansätze zur Verwendung der Positionsinfor-

mationen zur Segmentierung diskutiert. Anschließend werden die Sprecheridentifikation für

homogene Sprachsegmente und das Modelltraining vorgestellt. Abschließend werden in Ex-

perimenten die Teilkomponenten der Segmentierung und Sprecheridentifikation, sowie das

Gesamtsystem getestet.

1Simulationsumgebung: Intel T2400@1,83 GHz, 2 GB RAM

Akustische Szenenanalyse

4.3.1 Sequentielle Sprecherwechseldetektion und Identifikation

Segmentierung durch Sprecherwechseldetektion

Das Ziel der Segmentierung ist die Einteilung der Daten in homogene Abschnitte, inner-

halb derer nur ein Sprecher aktiv ist. Diese Aufgabenstellung wird in der Literatur häufig als

Modellselektionsproblem formuliert [DW00, WH06]. Basierend auf den NwMerkmalsvek-

toren X1:Nw= [x(1),...,x(Nw)] in einem betrachteten Fenster werden die folgenden zwei

Hypothesen verglichen:

•H0: Alle Merkmalsvektoren sind eine unabhängige und identisch verteilte Stichprobe

der multivariaten Normalverteilung N(x;µ0,Σ0), welche den Sprecher beschreibt.

•H1: Die ersten Nw/2Merkmalsvektoren sind eine unabhängige und identisch verteilte

Stichprobe der multivariaten Normalverteilung N(x;µ1,Σ1)des Sprechers A und

die übrigen eine Stichprobe der multivariaten Normalverteilung N(x;µ2,Σ2)des

Sprechers B.

Die Modellparameter Θi= (µi,Σi),i= 1,2, der Normalverteilungen bestehen aus den

Mittelwertvektorenµiund den KovarianzmatrizenΣiund sind zunächst unbekannt. Sie wer-

den durch einen „Maximum Likelihood“-Schätzer aus den Merkmalsvektoren innerhalb des

Fensters bestimmt. Die Bewertung der zwei Hypothesen entsprechend der Definition für BIC

aus [DW00, NK05] liefert

BIC(Hi) = log p(X1:Nw|Hi)−ξmi

2log Nw(4.27)

k=1

log p(x(k)|Hi)−ξmi

2log Nw,(4.28)

mit p(X1:Nw|Hi)als Likelihood 2der D-dimensionalen Merkmalsvektoren X1:Nwfür das

parametrische Modell der Hypothese Hi,mials Anzahl der Parameter im Modell und Nw

als Anzahl der Merkmalsvektoren. Unter der Annahme multivariater Normalverteilungen

gilt

p(x(k)|H0) = N(x(k); µ0,Σ0)(4.29)

für die Dichtefunktion der Hypothese H0und

p(x(k)|H1) = N(x(k); µ1,Σ1)für k≤Nw/2

N(x(k); µ2,Σ2)k > Nw/2(4.30)

2An dieser Stelle wird bewusst der englische Begriff „Likelihood“ verwendet, um zu verdeutlichen, dass

die Auswertung der Dichtefunktion für die beobachteten Merkmalsvektoren und somit ein Zahlenwert und

nicht die Dichtefunktionbetrachtet wird. Einemögliche Übersetzungmit „Mutmaßlichkeit“,wie in [Hän01]

vorgeschlagen, wird zu Gunsten des häufig auch in deutschen Veröffentlichungen verwendeten Begriffs

„Likelihood“ verworfen.

Akustische Szenenanalyse

für die Dichtefunktion der Hypothese H1. Die Likelihood der Hypothese H0ist unter der An-

nahme, dass X1:Nweine unabhängige und identisch verteilte Stichprobe ist, gegeben durch

p(X1:Nw|H0) =

k=1

(2π)D

2|Σ0|1

e(−1

2(x(k)−µ0)TΣ−1

0(x(k)−µ0))(4.31)

= (2π)−NwD

2|Σ0|−Nw

2e −1

k=1

(x(k)−µ0)TΣ−1

0(x(k)−µ0)!(4.32)

mit den ML-Schätzwerten der Parameter Θ0= (µ0,Σ0):

µ0=1

k=1

x(k)(4.33)

Σ0=1

k=1

(x(k)−µ0) (x(k)−µ0)T.(4.34)

Durch Logarithmieren der Dichtefunktion und Verwendung von Gl. 4.33 und Gl. 4.34 folgt

entsprechend [WH06] (vgl. Kap. A.1) für die Likelihood der Hypothese H0

log (p(X1:Nw|H0)) = −Nw

2log (|Σ0|)−NwD

2(1 + log (2π)) (4.35)

bzw. für die Likelihood der Hypothese H1

log (p(X1:Nw|H1)) = −Nw

4log (|Σ1||Σ2|)−NwD

2(1 + log (2π)) .(4.36)

Die Differenz ∆BIC der BIC-Werte der Hypothesen wird als Kriterium für Segmentierungs-

punkt verwendet und kann entsprechend [CW03] als Generalized Likelihood Ratio der Hy-

pothesen interpretiert werden.

∆BIC =BIC(H1)−BIC(H0)(4.37)

=Nw

2log(|Σ0|)−Nw

4log(|Σ1||Σ2|)−ξm0

4log Nw.(4.38)

Ein ∆BIC-Wert größer Null zeigt hierbei einen Segmentierungspunkt an, wobei die Emp-

findlichkeit durch die Konstante ξeingestellt wird.

ImFolgendenwird der∆BIC-Wert der Gl. 4.37 um einen Zeitindexkerweitert (∆BIC(k)),

welcher die Mitte des betrachteten Fensters der Länge Nwangibt. Dieses Fenster wird über

den Datenstrom der Merkmalsvektoren geschoben, so dass der Wert ∆BIC(k)zu den Merk-

malsvektoren x(k−Nw/2+1),...,x(k+Nw/2) gehört. Daraus resultiert eine Verzögerung

der Information über einen Sprecherwechsel aus den ∆BIC-Werten von einer halben Fens-

terlänge (Nw/2).

Experimente unter variierenden Bedingungen, wie z. B. Hintergrundgeräuschen, zeigten

die Notwendigkeit, den Parameter ξaus Gl. 4.38 an die akustischen Umgebungsbedingun-

gen anzupassen. Dieser Nachteil ist in der Literatur bekannt und kann durch eine metrische

Entscheidungsregel abgemildert werden. Die Grundidee der metrischen Entscheidungsregel

beruht auf der Beobachtung, dass ein Segmentierungspunkt im Zeitverlauf der ∆BIC-Werte

Akustische Szenenanalyse

0,25 0,5 0,75 1,0 1,25 1,5 1,75 2,0 2,25 2,5 2,75

−30

−20

−10

∆BIC(k)

Zeit [s]

∆BIC(kmax)

∆BIC(kminL)

∆BIC(kminR)

|∆BIC(kmax)−∆BIC(kminR)|> λσ

|∆BIC(kmax)−∆BIC(kminL)|> λσ

Abbildung 4.7: Metrische Entscheidungsregel zur Segmentierung durch ∆BIC-Werte

durch ein lokales Maximum gekennzeichnet ist (vgl. Abb. 4.7). Ein Segmentierungspunkt

wird immer dann angenommen, falls die Differenz zwischen lokalem Minimum und Maxi-

mum ein λ-faches der Standardabweichung σdes ∆BIC-Wertes beträgt [DW00, DY08]. Die

metrische Entscheidungsregel zeigt folglich einen Segmentierungspunkt an, falls mindestens

eine der Bedingungen erfüllt ist:

|∆BIC(kmax)−∆BIC(kminR)|> λσ (4.39)

|∆BIC(kmax)−∆BIC(kminL)|> λσ. (4.40)

Dabei sei kmax ein Zeitpunkt, an dem ein lokales Maximum im Zeitverlauf der ∆BIC-Werte

vorliegt,und kminRbzw.kminLdiezugehörigenZeitpunkteder lokalenMinima,welche rechts

bzw. links vom Maximum liegen (vgl. Abb. 4.7).

Segmentierung mittels Positionsinformationen

Ein Sprecherwechsel geht immer mit einem Wechseln in der geschätzten Sprecherposition

einher. Umgekehrt ist eine Veränderung der Sprecherposition jedoch kein sicherer Indikator

für einen Sprecherwechsel, da der Sprecher auch nur seine Position geändert haben kann.

In Abb. 4.8 sind die Winkelschätzungen während eines Gesprächs zwischen zwei Perso-

nen und die zugehörigen Segmentierungspunkte, d. h. die Zeitpunkte der Sprecherwechsel,

dargestellt. Theoretisch kann ein solches Gespräch einzig durch die Positionsinformationen

segmentiert werden, weil die Sprecher räumlich gut getrennt und jeweils an einer festen Po-

sition sind. Eine solche Voraussetzung ist in einer Hausumgebung nicht gegeben, da sich

die Sprecher frei bewegen können. Folglich müssen andere Ansätze zur Verwendung der

geschätzten Sprecherposition betrachtet werden.

Ein möglicher Ansatz ist, dass die Position eines Sprechers für die Dauer einer Äußerung

als näherungsweise konstant und die Gesprächspartner als räumlich unterscheidbar ange-

nommen werden. Obwohl diese Annahmen in einem Gespräch üblicherweise gegeben sind,

Akustische Szenenanalyse

35 40 45 50 55 60 65 70 75 80 85

−20

−10

Winkel

Zeit [s]

Winkel [◦]

Segm.-Punkt

Abbildung 4.8: Vergleich zwischen Positionsinformationen und bekannten Segmentierungspunkten

stellen sie eine Einschränkung der Verwendbarkeit des Systems dar. Zunächst werden Hy-

pothesen für Segmentierungspunkte durch das in Kap. 4.3.1 vorgestellte ∆BIC-Verfahren

ermittelt und anschließend anhand der Positionsinformation nachgefiltert. Falls die Position

innerhalb eines Zeitfensters konstant ist, so werden Hypothesen für einen Sprecherwech-

sel innerhalb dieses Zeitfensters verworfen. Hierdurch kann eine erhebliche Reduktion der

Fehler erzielt werden, wie die Experimente in Kap. 4.3.3 zeigen.

In Kap. 4.3.2 wird ein alternativer Ansatz ohne die einschränkenden Annahmen vorge-

stellt, welcher eine kombinierte Segmentierung und Identifikation mit Hilfe der Positionsin-

formationen durchführt. Da dieser Ansatz Informationen aus dem Modul zur Sprecheriden-

tifikation benötigt, wird im folgenden Kapitel zunächst die Sprecheridentifikation erläutert.

Sprecheridentifikation

Die Problemstellung der Sprecheridentifikation wird allgemein als ein Mustererkennungs-

problem formuliert, bei dem eine beobachtete Menge von Merkmalsvektoren einem Spre-

chermodell zugeordnet werden soll [Cam97]. Dabei wird für jeden der INutzer ein sto-

chastisches Modell aus Trainingsdaten geschätzt. Für den Klassifikationsschritt werden die

Likelihoods der Merkmalsvektoren für die Dichtefunktionen der Sprechermodelle berechnet

und anhand eines Hypothesentests verglichen. Im Folgenden werden die zum Aufbau ei-

ner Sprecheridentifikation benötigten Ansätze und Gleichungen entsprechend den Ideen aus

[Cam97] und [RQD00] eingeführt, um deren Zusammenhang zur Sprecherprotokollierung

herzustellen.

Die Likelihood der Merkmalsvektorfolge X1:N= [x(1),...,x(N)], gegeben das i-te

Sprechermodell (Ω = i), ist unter der Annahme unabhängiger und identisch verteilter Merk-

malsvektoren durch

p(X1:N|Ω = i) =

k=1

p(x(k)|Ω = i)(4.41)

gegeben. Diese Likelihood wird auf die Likelihood p(X1:N|Ω6=i)normiert, dass die Merk-

malsvektoren nicht von dem Sprecher stammen (sog. Gegenhypothese). Somit wird für die

Akustische Szenenanalyse

Entscheidung, welcher Sprecher aktiv ist, anstelle der Likelihood p(X1:N|Ω = i)das Ver-

hältnis der Likelihoods mit

Λ(X1:N|Ω = i) =

k=1

p(x(k)|Ω = i)

p(x(k)|Ω6=i)(4.42)

betrachtet. Die Hypothese b

Ωfür das wahrscheinlichste Sprechermodell ist dann durch das

Sprechermodell gegeben, das die Summe der logarithmierten Likelihood-Verhältnisse maxi-

miert:

Ω = argmax

i(N

k=1

log p(x(k)|Ω = i)

p(x(k)|Ω6=i)).(4.43)

Die Bildung des Logarithmus wird zur Verbesserung der numerischen Stabilität verwendet

und hat dabei keinen Einfluss auf die argmax-Operation.

Das Modell für die Gegenhypothese, auch universelles Hintergrundmodell (engl. Univer-

sal Background Model,UBM) genannt, kann entweder aus den Aufnahmen eines unabhängi-

gen Satzes von Sprechern oder aus der Datenmenge aller zu trainierenden Sprecher geschätzt

werden [RQD00]. In dieser Arbeit wird der zweite Ansatz gewählt, da hierbei auch mit klei-

neren Datenmengen Sprechermodelle gut trainiert werden können.

Das universelle Hintergrundmodell (Ω = ΩUBM) setzt sich aus der Kombination der ge-

schlechtsspezifischen Hintergrundmodelle für Männer (Ω = ΩM

UBM) und Frauen (Ω = ΩF

UBM)

zusammen. Da kein a priori Wissen über das Geschlecht der anwesenden Sprecher vorhan-

den ist, wird eine Gleichgewichtung der geschlechtsspezifischen Hintergrundmodelle mit

p(x(k)|Ω6=i) = p(x(k)|Ω = ΩUBM)i= 1,...,I(4.44)

2p(x(k)|Ω = ΩM

UBM) + 1

2p(x(k)|Ω = ΩF

UBM)(4.45)

vorgenommen. Die Modellparameter werden jeweils aus den gesamten Daten der weibli-

chen bzw. männlichen Sprecher mittels ML-Parameterschätzung bestimmt [DHS01]. Dabei

kann die Verwendung von Trainingsdaten aus unterschiedlichen Aufnahmesituationen und

Mikrophonarten, wie z. B. Nahbereichs- und Fernfeldmikrophonen, die Robustheit der Spre-

cheridentifikation gegenüber Veränderungen der Aufnahmesituation verbessern.

Jede Dichtefunktion wird durch eine Gauß’sche Mischungsverteilung (GMM) beschrie-

ben, deren Gewichte cj,m, Mittelwertvektoren µj,m und Kovarianzmatrizen Σj,m aus Trai-

ningsdaten bestimmtwerden. DasGMM des j-ten Modells (Sprechermodell oder geschlechts-

spezifisches Hintergrundmodell) ist folglich als gewichtete Summe von Mmultivariaten

Normalverteilungen mit

p(x(k)|Ω = j) =

m=1

cj,m ·N (x(k); µj,m,Σj,m)j= 1,...,I,ΩF

UBM,ΩM

UBM (4.46)

definiert. Dabei ist das Gewicht cj,m die a priori Wahrscheinlichkeit der m-ten Mischungs-

verteilung der j-ten Klasse mit cj,m =P(Z=m|Ω = j). Die Zufallsvariable Z∈

{1,...,M}stehe für die Zugehörigkeit zu einer Mischungsverteilung und die Zufallsva-

riable Ω∈ {1,...,I,ΩF

UBM,ΩM

UBM}für die Zugehörigkeit zu einer Klasse. Jedes Sprecher-

modell und jedes geschlechtsspezisches Hintergrundmodell besitzt somit einen eigenen Satz

von Modellparametern Θj={cj,1,...,cj,M ,µj,1,...,µj,M,Σj,1,...,Σj,M}.

Akustische Szenenanalyse

Die Modellierung eines Sprechers durch ein Hidden Markov Model (HMM) bietet nach

[RQD00] keinen signifikanten Vorteil gegenüber einer GMM-Modellierung, sofern keine

Informationen über die gesprochenen Wörter vorliegen.

Die individuellen Sprechermodelle werden mittels Bayes’scher Adaption [RQD00] aus

den geschlechtsspezifischen Modellen trainiert. Vorteil dieser Methode ist, dass auch Mo-

delle für Sprecher mit geringen Datenmengen trainiert werden können, da nur die Teile der

Modelle angepasst werden, die auch beobachtet worden sind. Liegen für einen Sprecher nur

wenige Beobachtungen vor, so entspricht sein Modell zu einem großen Teil dem geschlechts-

spezifischen Hintergrundmodell. Dies bedeutet aber auch, dass die Hintergrundmodelle eine

hohe Ähnlichkeit mit den zu trainierenden Sprechern haben müssen. Weibliche Sprecher

werden folglich ausgehend von einem weiblichen Hintergrundmodell trainiert und männli-

che Sprecher mit dem männlichen Hintergrundmodell. Die Schätzung der Modellparameter

der Sprechermodelle erfolgt durch eine Bayes’sche Adaption der geschlechtsspezifischen

Hintergrundmodelle.

Die Bayes’sche Adaption berechnet auf Basis des Hintergrundmodells zunächst die Wahr-

scheinlichkeit, dass der Merkmalsvektor x(k)zur m-ten Mischungsverteilung gehört:

p(Z=m|x(k),Ω = Ω∗

UBM) = p(x(k)|Z=m, Ω = Ω∗

UBM)cΩ∗

UBM,m

j=1

p(x(k)|Z=j, Ω = Ω∗

UBM)cΩ∗

UBM,j

.(4.47)

Dabei sei Zdie Zufallsvariable der Zugehörigkeit zu einer Mischungsverteilung und Ω∗

UBM

das geschlechtsspezifische Hintergrundmodell, welches entsprechend dem Sprecher zu ΩM

UBM

oder ΩF

UBM gewählt wird. Anschließend werden die sprecherspezifische Modellparameter e

Θi

mit

eci,m =1

k=1

p(Z=m|x(k),Ω = Ω∗

UBM)(4.48)

µi,m =1

Neci,m

k=1

p(Z=m|x(k),Ω = Ω∗

UBM)·x(k)(4.49)

Σi,m =1

Neci,m

k=1

p(Z=m|x(k),Ω = Ω∗

UBM)(x(k)−µi)(x(k)−µi)T(4.50)

geschätzt, welche in Kombination mit den Modellparametern des gewählten Hintergrund-

modells ΘΩ∗

UBM das neue Sprechermodell Θibilden:

ci,m =ǫi·eci,m + (1 −ǫi)·cΩ∗

UBM,m (4.51)

µi,m =ǫi·e

µi,m + (1 −ǫi)·µΩ∗

UBM,m (4.52)

Σi,m =ǫi·e

Σi,m + (1 −ǫi)·ΣΩ∗

UBM,m.(4.53)

Der Adaptionskoeffizient ǫi, der die Gewichtung der sprecherspezifischen Modellparameter

Θigegenüber den Parametern der Hintergrundmodelle ΘΩ∗

UBM einstellt, wird mit

ǫi=N·eci,m

N·eci,m +r(4.54)

Akustische Szenenanalyse

berechnet. Der Relevanzfaktor raus Gl. 4.54 steuert hierbei den Einfluss des Hintergrund-

modells, wobei für den Fall r= 0 die Relevanz des Hintergrundmodells zu Null gesetzt wird

und die Bayes’sche Adaption in die ML-Parameterschätzung des EM-Algorithmus übergeht.

Theoretisch ist es möglich, unterschiedliche Relevanzfaktoren für die Adaption von Mo-

dellparametern (ci,m,µi,m,Σi,m) zu nutzen. Jedoch haben experimentelle Untersuchungen

keine signifikanten Vorteile gezeigt, und daher werden die nachfolgenden Experimente je-

weils mit einem für alle Parameter gültigen Relevanzfaktor durchgeführt.

Da der Einsatz in der vernetzten Hausumgebung den Zweck hat, den Benutzer nahezu in

Echtzeit zu erkennen, um ihm bei seinen täglichen Arbeiten zu unterstützen, muss bei dem

Verfahren zur Sprecheridentifikation der Aspekt der echtzeitfähigen Verarbeitung von Da-

tenströmen betrachtet werden. Die Sprecheridentifikation als Systemkomponente trägt nicht

zur Latenz des Systems bei, da lediglich für jeden Merkmalsvektor die Likelihood der Spre-

cher nach Gl. 4.43 berechnet werden muss. Dies führt nicht zu einer Verzögerung, jedoch zu

einer hohen Rechenlast, falls eine große Personengruppe trainiert ist. Eine Option zur Verrin-

gerung der Rechenlast ist die Reduktion der Anzahl der berechneten Exponentialfunktionen,

indem nur die Verteilungen der Gauß’schen Mischungsverteilung der Sprecher berechnet

werden, bei denen die Likelihood des Hintergrundmodells einen minimalen Wert überschrei-

tet.

An dieser Stelle wird nicht auf die Detektion von Personen eingegangen, die nicht in der

Gruppe der bekannten Sprecher enthalten sind. Da das System im vernetzten Haus zur Un-

terstützung der Hausbewohner verwendet werden soll, ist die Annahme gerechtfertigt, dass

alle Personen im Haushalt bekannt sind und dass deren Anzahl nicht sonderlich groß ist. Ein

Ansatzpunkt für eine solche Detektion ist die Einführung eines Grenzwertes für die Summe

der Likelihood-Verhältnisse in Gl. 4.43. Überschreitet keine der Sprecherhypothesen einen

festgesetzten Schwellwert, so wird angenommen, dass der Sprecher nicht aus der Gruppe

der bekannten Sprecher stammt. Dieser Ansatz ermöglicht die Erkennung von unbekannten

Sprechern und reduziert die Anzahl der falsch klassifizierten Personen, jedoch zu Lasten

einer neuen Fehlerart, der fälschlich zurückgewiesenen Sprecher.

4.3.2 Gemeinsame Sprecherwechseldetektion und Identifikation

In den vorherigen Kapiteln wurde beschrieben, wie zunächst eine Sprecherwechseldetektion

und anschließend eine Sprecheridentifikation durchgeführt werden kann. Dieses sequentielle

Vorgehen hat den Nachteil, dass die zunächst in der Segmentierung getroffenen „frühen“ Ent-

scheidungen nur auf einem Teil der vorhandenen Informationen beruhen. Denn die Sprecher-

identität ist zum Zeitpunkt der Sprecherwechseldetektion noch nicht bekannt. Daher wurde

die Idee entwickelt, die Identifikation und die Segmentierung parallel durchzuführen. Somit

kann das Treffen von vorläufigen Entscheidungen vermieden und eine endgültige Entschei-

dung unter Verwendung aller Wissensquellen getroffen werden, so dass alle vorhandenen

Informationen mit in die finale Entscheidung einfließen. Für die detaillierte Beschreibung

des Ansatzes wird die Defintion des Hidden Markov Models benötigt, welche entsprechend

[Rab89] im Folgenden gegeben wird.

Akustische Szenenanalyse

Hidden Markov Model

Ein Hidden Markov Model ist ein stochastisches Modell für ein System, welches durch eine

diskrete Markov-Kette erster Ordnung beschreibbar ist. Das Modell besteht aus einer Menge

von IZuständen, von denen einer der aktuelle Zustand ist, in dem sich das System befindet.

In gleichmäßigen Zeitabständen wechselt das System von einem Zustand in einen anderen,

wobei der Folgezustand auch der vorherige Zustand sein kann (vgl. Abb. 4.9). Diese Zu-

standsübergänge werden probabilistisch durch die Transitionswahrscheinlichkeiten

aij =P(Ω(k) = j|Ω(k−1) = i) 1 ≤i, j ≤ I (4.55)

beschrieben, wobei Ω(k)der aktuelle Zustand des Systems zum Zeitpunkt kund Ω(k−1)

der vorherige Zustand des System sein soll. Die Wahrscheinlichkeit, dass sich das System

zum Startzeitpunkt im Zustand ibefindet, ist mit

πi=P(Ω(0) = i) 1 ≤i≤ I (4.56)

gegeben. Der aktuelle Zustand des Systems ist nicht direkt beobachtbar (engl. hidden), je-

doch emittiert das System zu regelmäßigen Zeitpunkten kdie beobachtbaren Merkmalsvek-

toren x(k). Des Weiteren werden die Verteilungsdichtefunktionen, welche die Emissions-

wahrscheinlichkeiten der Zustände beschreiben, als bekannt vorausgesetzt. Somit sind die

Emissionswahrscheinlichkeiten der Zustände mit

bi(x(k)) = p(x(k)|Ω = i) 1 ≤i≤ I (4.57)

bekannt. Das System ist vollständig durch die Wahrscheinlichkeiten aus Gl. 4.55, Gl. 4.56

und Gl. 4.57 beschrieben, wobei diese Wahrscheinlichkeiten häufig in vektorieller Schreib-

weise zusammengefasst werden. Die Transitionswahrscheinlichkeitenbilden dabei die Tran-

sistionsmatrix

A= (aij) 1 ≤i, j ≤ I.(4.58)

Ferner werden die Verteilungsdichtefunktionender Emissionswahrscheinlichkeitenin Bund

die Anfangswahrscheinlichkeiten der Zustände in dem Vektor πzusammengefasst. Das Mo-

dell des HMM kann folglich kurz mit (A,B,π)angegeben werden.

Sprecherprotokollierung mittels eines Hidden Markov Models

Kern der Sprecherprotokollierung ist ein Hidden Markov Model zur Modellierung der Spre-

cher, deren Zustandsübergänge abhängig von Informationen über Sprecherwechsel und da-

mit zeitvariant sind. Um der Anforderung nach einer geringen Latenz nachzukommen, wird

ein Viterbi-Dekodierer mit vorzeitiger Ausgabe der Erkennungsergebnisse (ein sog. Partial

Traceback) verwendet, der die optimale Abfolge der Zustände im HMM, gegeben die Beob-

achtungen, bestimmt.

Jeder der ISprecher wird durch einen Zustand in diesem Hidden Markov Model reprä-

sentiert. Zusätzlich wird ein Zustand I+ 1 für Stille eingefügt, um Sprachpausen zu model-

lieren. Abbildung 4.9 zeigt ein Beispiel für I= 3 Sprecher. Die Emissionswahrscheinlich-

keiten der Zustände sind durch die Likelihoods der Sprecheridentifikation gegeben. Informa-

tionen über mögliche Sprecherwechsel fließen in die Transitionswahrscheinlichkeiten des

Akustische Szenenanalyse

1 2

1 := Nutzer A

2 := Nutzer B

3 := Nutzer C

4 := Stille

Abbildung 4.9: Hidden Markov Model zur Modellierung einer Sprechergruppe

HMM ein. Zustandsübergänge, die einen Sprecherwechsel anzeigen, erhalten eine erhöhte

Wahrscheinlichkeit, falls Informationen über einen möglichen Sprecherwechsel vorliegen.

Gleichzeitig werden die Wahrscheinlichkeiten der Zustandsübergänge reduziert, die wieder

in den aktuellen Zustand führen. Ist ein Sprecherwechsel eher unwahrscheinlich, so erhalten

die Zustandsübergänge, die einen Sprecherwechsel anzeigen, niedrigere Wahrscheinlichkei-

ten und die restlichen Zustandsübergänge höhere Wahrscheinlichkeiten. Somit entsteht eine

zeitveränderliche Transitionsmatrix,welche den aktuellen Wissensstand über Sprecherwech-

sel repräsentiert.

Informationsquellen

Die Schätzung der Transitionswahrscheinlichkeiten soll auf Informationen über Sprecher-

wechselhypothesen basieren. Hierzu können die akustische Positionsschätzung und die be-

rechneten ∆BIC-Werte verwendet werden. In Abb. 4.10 ist eine Übersicht der Systemkom-

Sprachaktivitätsdetektion

Adaptive

Strahlformung

VAD

Merkmals−

extraktion

schätzung

Winkel−

Sprecherbewertung

Positionsschätzung

Mikrophone / JACK

Bayes’sches

Informationskriterium

Sprecherprotokollierung

Viterbi−Dekodierer

Abbildung 4.10: Systemkomponenten der Sprecherprotokollierung

ponenten für die Sprecherprotokollierung gegeben. Das Modul der Sprecherprotokollierung

implementiert einen Viterbi-Dekodierer, der die berechneten Werte des Bayes’schen Infor-

mationskriteriums (∆BIC-Werte) und die Werte der Positionsschätzung verwendet, um die

Transitionsmatrix des HMM zu schätzen. Für die Emissionswahrscheinlichkeiten des HMM

werden im Viterbi-Dekodierer die Werte der Sprachaktivitätsdetektion und die Likelihoods

der Sprecheridentifikation kombiniert, welche im Modul „Sprecherbewertung“ berechnet

werden. Hierzu wird jede Informationsquelle, soweit noch nicht geschehen, probabilistisch

modelliert.

Akustische Szenenanalyse

Das in Kap. 4.3.1 vorgestellte Verfahren zur Detektion von Sprecherwechseln berech-

net fortlaufend ∆BIC-Werte aus den eingehenden Merkmalsvektoren. Die Berechung der

metrischen Entscheidungsregel zur Sprecherwechseldetektion ist mit einer zusätzlichen zeit-

lichen Latenz behaftet, da signifikante lokale Maxima detektiert werden müssen. Folglich

wird zur probabilistischen Modellierung von Informationen über Sprecherwechsel, statt der

metrischen Entscheidungsregel, die Varianz der ∆BIC-Werte verwendet. Diese mit xbic(k)

bezeichnete Größe kann mit

µbic(k) = α·µbic(k−1) + (1 −α)·∆BIC(k)(4.59)

xbic(k) = β·xbic(k−1) + (1 −β)·∆BIC(k)−µbic(k)2(4.60)

geschätzt werden. Vorteilhaft bei diesem Ansatz ist die Vermeidung von Latenzen durch

die rekursive Schätzung der Varianz. Für die Modellierung werden die Parameter der Nor-

malverteilungen p(xbic(k)|c(k) = 0) und p(xbic(k)|c(k) = 1) aus Trainingsdaten geschätzt.

Hierbei ist c(k)eine binäre Zufallsvariable, welche angibt, ob ein Sprecherwechsel vorliegt

(c(k) = 1) oder nicht (c(k) = 0).

Der FSB, als adaptiver Strahlformer, adaptiert blind auf den stärksten Sprecher und er-

möglicht durch die Korrelation der Filterimpulsantworten die Schätzung des Einfallswinkels

des Sprachsignals (vgl. Kap. 4.2.2). Für den Fall, dass mehr als eine Mikrophongruppe zur

Verfügung steht, können die Winkelschätzungen zu einer Position P(k)in kartesischen Ko-

ordinaten kombiniert werden (vgl. Kap. 4.2.3). Als Indiz für mögliche Sprecherwechsel wird

die Varianz xpos(k)der Position berechnet, welche entweder auf Winkelschätzungen oder

zweidimensionalen Positonsschätzungen beruht. Erneut wird zur Vermeidung von Latenzen

eine rekursive Schätzung verwendet:

µpos(k) = α·µpos(k−1) + (1 −α)· k P(k)−P(k−1) k2(4.61)

xpos(k) = β·xpos(k−1) + (1 −β)·[P(k)−µpos(k)]2.(4.62)

Entsprechend des Ansatzes zur Modellierung der ∆BIC-Werte wurden aus Trainingsdaten

die Parameter der Normalverteilungen p(xpos(k)|c(k) = 0) und p(xpos(k)|c(k) = 1) ge-

schätzt.

Informationen über die mögliche Identität des Sprechers werden durch die Sprecherbe-

wertung ermittelt. Für jeden akustischen Merkmalsvektor xsid(k)wird das Likelihood-Ver-

hältnis der einzelnen Sprechermodelle nach Gl. 4.42 als Emissionswahrscheinlichkeit der zu

den Sprechern gehörenden HMM-Zustände berechnet.

Eine weitere Informationsquelle ist die Sprachaktivitätsdetektion.Hierzu wird das Verfah-

ren aus dem Extended Advanced Front-end Feature Extraction (XAFE) des ETSI [ETS02]

verwendet. Die Steuerung der Adaption des Strahlformers erfolgt jedoch mit einer ener-

giebasierten Sprachaktivitätsdetektionen (engl. Voice Activity Detection,VAD) nach [RS04].

Beide Sprachaktivitätsdetektionen liefern einen Indikator P(S|xsid)für Sprache, dessen Wert

zwischen 0(Keine Sprache) und 1(Sprache) liegt.

Emissionswahrscheinlichkeiten

Die Emissionswahrscheinlichkeiten jedes Sprechers sind gegeben durch die Likelihood-Ver-

hältnisse aus Gl. 4.42, deren zugrunde liegende Dichtefunktionen auf Sprachdaten ohne

Akustische Szenenanalyse

Sprachpausen für die Sprecheridentifikation trainiert werden. Jedoch treten in dem Daten-

strom der Sprecherprotokollierung Zeitabschnitte ohne Sprache auf, so dass das Likelihood-

Verhältnis mit der Wahrscheinlichkeit, dass der vorliegende Block Sprache enthält, multipli-

ziert werden muss. Somit folgt für die Emissionswahrscheinlichkeit des Sprecherzustandes

Ω(k) = jzum Zeitpunkt k:

bj(xsid(k)) = p′(xsid(k)|Ω = j)

=Λ(xsid(k)|Ω = j)·P(S|xsid(k)) für j= 1,...,I

Λ(xsid(k)|Ω = j)·(1 −P(S|xsid)(k)) j=I+ 1 .(4.63)

Für die Emissionswahrscheinlichkeit des Zustandes Stille wird der Mittelwert der Likeli-

hood-Verhältnisse verwendet:

Λ(xsid(k)|Ω = I+ 1) = 1

j=1

Λ(xsid(k)|Ω = j).(4.64)

Transitionswahrscheinlichkeiten

Die Grundidee des Verfahrens ist es, die Wahrscheinlichkeit eines Zustandsübergangs ab-

hängig von den Informationen über die Positionsänderung eines Sprechers und der Varianz

der ∆BIC-Werte zu machen. Unter Verwendung der binären Zufallsvariablec(k)und den zu-

vor vorgestellten probabilistischen Modellierungen der Sprecherwechselinformationen folgt

für die Transitionswahrscheinlichkeiten,dass sie proportional zu P(c(k)|xbic(k), xpos(k)) ge-

wählt werden. Es wird ferner die Annahme getroffen, dass xbic(k)und xpos(k)statistisch

unabhängig sind, so dass gilt:

P(c(k)|xpos(k), xbic(k)) = p(xpos(k), xbic(k)|c(k))P(c(k))

p(xpos(k), xbic(k)) (4.65)

=p(xpos(k)|c(k))P(c(k))

p(xpos(k))

p(xbic(k)|c(k))P(c(k))

p(xbic(k))

P(c(k)).(4.66)

Unter der Annahme einer gleichförmigen Verteilung von P(c(k)) folgt:

P(c(k)|xpos(k), xbic(k)) = p(xpos(k)|c(k))

c′

p(xpos(k)|c(k) = c′)

p(xbic(k)|c(k))

c′

p(xbic(k)|c(k) = c′)

P(c(k)).(4.67)

Die zeitveränderlichen Übergangswahrscheinlichkeitenzwischen den HMM-Zuständen wer-

den definiert zu:

aij(k) := P(Ω(k) = j|Ω(k−1) = i)(4.68)

=˜aij(k)

˜aij(k)(4.69)

mit

˜aij(k) = 









P(c(k) = 0|xpos(k), xbic(k))

für

i=j, j 6=I+ 1

P(c(k) = 1|xpos(k), xbic(k)) i6=j, j 6=I+ 1

P(c(k) = 0|xbic(k)) i=j=I+ 1

P(c(k) = 1|xbic(k)) i6=j, j =I+ 1

.(4.70)

Akustische Szenenanalyse

Der Zustand Stille benötigt, wie aus Gl. 4.70 ersichtlich ist, eine spezielle Anpassung, da

für den Fall von Stille offensichtlich keine Positionsschätzung vorliegen kann. Jedoch wird

der Übergang von einem Sprecher zu einer Sprachpause und umgekehrt als Sprecherwechsel

durch den ∆BIC-Wert angezeigt.

Die Sprecheridentifikation aus Kap. 4.3.1 bietet die Möglichkeit, eine Bestimmung des

Geschlechts des aktuellen Sprechers durchzuführen, indem die Likelihoods der geschlechts-

spezifischenHintergrundmodelleermittelt werden.DieBestimmungdesSprechergeschlechts

erwies sich in Experimenten als sehr zuverlässig, jedoch führt die Verwendung dieser Infor-

mation zur Berechnung der Transitionswahrscheinlichkeitennur zu geringfügig besseren Er-

gebnissen. Ein Grund dürfte in der Tatsache liegen, dass Verwechselungen zwischen männ-

lichen und weiblichen Sprechermodellen nur selten auftreten.

Viterbi-Dekodierer

Entfaltet man das Zustandsmodell aus Abb. 4.9 über die Zeit, so entsteht ein Trellisdiagramm

(vgl. Abb. 4.11). Ein Viterbi-Dekodierer bestimmt dann den bestbewertesten Pfad durch das

Trellis, d. h. die Zustandssequenz b

Ω1:N= [b

Ω(1),...,b

Ω(N)] mit

Ω1:N= argmax

Ω1:NnN

k=1hlog p′(xsid(k)|Ω) + κlog P(Ω(k)|Ω(k−1))io.(4.71)

Aus der Literatur ist bekannt, dass Bedingungen hinsichtlich der minimal erlaubten Zeit

zwischen Sprecherwechseln und heuristische Ansätze zur Glättung benötigt werden, um das

exzessive Wechseln von Zuständen zu vermeiden [TR06]. Dies kann gerechtfertigt werden

durch die Annahme, dass selbst eine kurze Sprachäußerung aus mehreren Merkmalsvektoren

besteht, die im Abstand von 10 ms aus dem Sprachsignal berechnet werden. In dem hier vor-

gestellten Ansatz werden durch den Faktor κin Gl. 4.71 die Emissionswahrscheinlichkeiten

gegenüber den Transitionswahrscheinlichkeiten stärker gewichtet, was zu einer Verminde-

rung der Zustandswechsel führt.

Sprecher 1

Sprecher 2

Sprecher 3

Stille

Detektion Sprecher 3Sprecher 3 StilleStille

k= 0k= 0 k= 1 k= 20 k= 22k= 21...

Traceback

Abbildung 4.11: Beispiel eines Trellisdiagramms und der Ausgabe des Viterbi-Dekodierers

Akustische Szenenanalyse

Um den zeitlichen Anforderungen des Systems gerecht zu werden, wird zu jedem Zeit-

punkt ein Partial Traceback gestartet. Hierbei wird ausgehend von jedem Zustand der Pfad

zurückverfolgt, der in dem Zustand endete. Der Teil der Pfade, welcher für alle Zustände

gleich ist, bestimmt den eindeutigen Zustandsverlauf in der Vergangenheit. In Abb. 4.11 ist

ein Beispiel für das Partial Traceback gegeben. Zum Zeitpunkt k= 22 wird für die vier

Zustände der jeweilige Pfad über die vorangegangenen Zustände bestimmt. Beginnend mit

dem Zeitpunkt k= 21 ergibt sich für alle Zustände ein eindeutiger Pfad (vgl. Abb. 4.11,

roter Pfad). Folglich kann der rot markierte Pfad ausgegeben werden.

Die Anzahl der Zeitschritte, die man in die Vergangenheit gehen muss, bis der Pfad ein-

deutig ist, ist zufällig. Daher wird eine maximale Latenz τmax eingeführt, ab der eine Ausgabe

des Pfades erzwungen wird. Sollte kein eindeutiger Pfad existieren und gleichzeitig die ma-

ximale noch tolerierbare Latenz τmax überschritten werden, so wird der am besten bewertete

Pfad gewählt. Experimentelle Untersuchungen zeigen, dass in einem Großteil der Fälle der

eindeutige Pfad frühzeitig vorliegt (vgl. Kap. 4.4.6).

Zunächst wurde die Information über Sprecherpositionen nur verwendet, um Sprecher-

wechsel zu detektieren. Man beachte, dass mit dem Ergebnis der Viterbi-Dekodierung eine

Zuordnung der Positionsschätzungen zu den Sprechermodellen erfolgen kann. Dies ermög-

licht für jeden Sprecher eine individuelle Nachfilterung der Positionsschätzungen, welche

durch die Verwendung von Kalman- oder Partikelfiltern realisiert werden kann [WPH04].

4.3.3 Experimentelle Ergebnisse

Ein System zur Sprecherprotokollierung setzt sich aus verschiedenen Komponenten zusam-

men, die sich gegenseitig in ihrer Leistungsfähigkeit beeinflussen. Eine fehlerhafte Segmen-

tierung des Datenstroms wird zwangsläufig auch zu Fehlern in der Sprecheridentifikation

führen. Daher werden zunächst die Komponenten einzeln in Experimenten untersucht und

anschließend der Gesamtaufbau betrachtet. Die hierfür benötigten Fehlermaße und Datenba-

sen werden zu Beginn erläutert.

Fehlermaße

Eine objektive Beurteilung der Segmentierung von Daten erfordert zunächst ein Fehlermaß,

welches unabhängig von der Leistungsfähigkeitder nachgeschalteten Klassifikation ist. Hier-

für geeignet sind die in [DW00] eingeführten Fehlermaße der False Alarm Rate (FAR) mit

FAR =Anzahl fehlerhafter Alarme

Anzahl Segmentierungspunkte +Anzahl fehlerhafter Alarme%(4.72)

und der Missed Detection Rate (MDR) mit

MDR =Anzahl verpasster Detektionen

Anzahl Segmentierungspunkte %.(4.73)

Die Abb. 4.12 zeigt beispielhaft die Fehlerarten bei der Segmentierung. Zu den Zeitpunk-

ten 2 s,7 s und 10 s findet ein Sprecherwechsel in den Aufnahmen statt. Angezeigt werden

Sprecherwechsel durch die ∆BIC-Werte zu den Zeitpunkten 2,2 s,4 s,5,5 s und 9,8 s. Grüne

und rote Flächen um die Zeitpunkte der Sprecherwechsel zeigen die erlaubten Toleranzbe-

reiche für die Detektion der Segmentierungspunkte an. Ein Segmentierungspunkt wird als

Akustische Szenenanalyse

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Sprecherwechsel

Zeit [s]

Sprecherwechsel

Korrekte Detektion

Fehlerhafter Alarm

Verpasste Detektion

in Audiodatei

nach ∆ BIC

Abbildung 4.12: Fehlerarten bei der Segmentierung von Audiodaten

verpasst eingestuft, falls in einem Bereich von ±0,4 s um den Segmentierungspunkt kein

Sprecherwechsel durch das System angezeigt wird (vgl. Abb. 4.12, Zeitpunkt: 7 s). Fehler-

hafte Alarme sind alle vom System gemeldeten Sprecherwechsel in deren zeitlicher Um-

gebung (±0,4 s) keine Sprecherwechsel (vgl. Abb. 4.12, Zeitpunkte: 4 s,5,5 s) vorliegen.

Der Vergleich zwischen zwei Verfahren zur Segmentierung anhand einer Receiver Opera-

ting Characteristic (ROC) kann durch die Equal Error Rate (EER) erfolgen, welche durch

den Punkt auf der ROC, an der die FAR und die MDR übereinstimmen, definiert ist.

Ein Fehlermaß für die Beurteilung der Klassifikationsleistung durch eine der Segmentie-

rung nachgeschalteten Sprecheridentifikation ist die Diarization Error Rate (DER) mit

DER =Anzahl der einem Sprecher fehlerhaft zugeordneten Merkmalsvektoren

Anzahl Merkmalsvektoren %,(4.74)

welche durch NIST [NIS08a] definiert wurde. Sie ist ein Maß für die Leistungsfähigkeit des

Segmentierungs- und Identifikationsprozesses, der zusammengefasst als Sprecherprotokol-

lierung bezeichnet wird.

Datenbasis Sprecherprotokollierung

Das zuvor beschriebene Verfahren zur gemeinsamen Sprecherwechseldetektion und Spre-

cheridentifikation stellt höhere Anforderungen an eine Datenbasis als einige klassische An-

sätze zur Sprecherprotokollierung. Die Datenbasis des DARPA EARS Rich Transcription

Evaluation Projects [NIS08b] kann zum Beispiel nicht verwendet werden, da bei den Auf-

nahmen keine Mikrophongruppen verwendet wurden, welche eine Positionsschätzung des

Sprechers erlauben würden. Die Datenbasis des CHIL Projektes bietet theoretisch mit den

verwendeten Mikrophongruppen die Möglichkeit eine Positionsschätzung durchzuführen

[OSBC06]. Jedoch sind die Aufnahmen aus den Seminaren ungeeignet, da zu einem großen

Teil nur ein Sprecher aktiv ist und insgesamt nur eine geringe Anzahl von Sprecherwechseln

vorhanden ist. Daher wurde für die experimentellen Untersuchungen eine eigene Datenbasis

erstellt, um gezielt die Komponente des Systems zu untersuchen.

In Abb. 4.13 ist der Aufbau zur Erstellung einer Datenbasis skizziert. Sie umfasst insge-

samt 1,5Stunden gelesene Texte von 5Frauen und 5Männern. Dabei wurden die Sprecher

sowohl durch eine Mikrophongruppe in 2,8 m Abstand als auch durch Nahbereichsmikro-

phone aufgenommen. Zwischen den Sprechern befand sich eine schalldämpfende Wand,

so dass die Nahbereichsmikrophone nur einen geringen Anteil der Sprache des entfernten

Sprechers aufnehmen konnten. In einem Nachbearbeitungsschritt wurden die Nahbereichs-

aufnahmen einer adaptiven Filterung unterzogen, um den entfernten Sprecher zusätzlich zu

Akustische Szenenanalyse

Sprecher B

Sprecher A

0000000000

1111111111

Mikrophon B

Mikrophon A

2,8m

3,0m

3,5m

0,5m

Mikrophongruppe

Wand

Abbildung 4.13: Versuchsaufbau zur Erstellung einer Datenbasis zur Sprecherwechseldetektion

unterdrücken. Basierend auf den bearbeiteten Nahbereichsaufnahmen war eine zuverlässi-

ge automatische Detektion des aktiven Sprechers und somit eine Annotation der Datenbasis

möglich.

Die Texte wurden durch Sprecher abwechselnd abschnittsweise gelesen, wobei die Län-

ge der Passagen vorgegeben wurde. Anschließend wurde die Datenbasis in drei Gruppen

entsprechend der mittleren Passagenlängen eingeteilt. Dies waren schnelle Sprecherwechsel

(<2 s), mittlere Sprecherwechsel (3−4 s) und langsame Sprecherwechsel (>4 s), die ohne

längere Sprechpausen durchgeführt wurden.

Datenbasis Sprecheridentifikation

Die „CHIL Campaign 2004 - Speaker Identification and Verification“ des CHIL Projektes

stellt eine Datenbasis für die Evaluierung von Systemen zur Sprecheridentifikation bereit

[SSM05]. Sie besteht aus annotierten Seminaraufnahmen von 11 Sprechern, die parallel

jeweils mit einem entfernten (engl. Distant Talking Microphone,DTM) und einem nahen

Mikrophon (engl. Close Talking Microphone,CTM) aufgenommen wurden. Der Vergleich

mit den veröffentlichten Ergebnisse der Evaluierung in [Mos05] und [ZLB+05] ermöglichen

einen Einordnung des in dieser Arbeit beschriebenen Systems zur Sprecheridentifikation.

Die Daten der Datenbasis sind mit 16 Bit pro Abtastwert bei einer Abtastrate von 16 kHz

gespeichert. In den Aufnahmen sind Hintergrundgeräusche aus den Seminaren, wie z. B. der

Lüfter eines Projektors, vorhanden. Eine Segmentierung der Daten in homogene Abschnitte

definierter Länge

•Training (33 min): 30 s,60 s

•Test (11 h): 1 s,3 s,5 s,10 s,30 s,60 s

und eine Sortierung nach Fern- und Nahbereichsaufnahmen wurde durch ELDA [ELD08]

vorgenommen.

Experimente zur Segmentierung

Die Ergebnisse in diesem Unterkapitel fassen die Experimente im Bereich der Segmentie-

rung von Sprachdaten durch ∆BIC-Werte zusammen. Zunächst wird ein Vergleich der Seg-

Akustische Szenenanalyse

mentierungsleistung für verschiedene Merkmalsvektoren und Fenstergrößen durchgeführt.

Aus Abb. 4.14 (a) ist ersichtlich, dass die Mel-Frequency Cepstral Coefficients (MFCC) und

die Linear Prediction Cepstral Coefficients (LPCC) vergleichbare Ergebnisse für die Seg-

mentierung liefern. Die Kombination der beiden Merkmalsvektoren verbessert die Ergebnis-

se leicht, jedoch führt dieser Ansatz zu einer erheblichen Erhöhung der Systemlast und wird

daher nicht weiter verfolgt. Der Vergleich unterschiedlicher Fenstergrößen in Abb. 4.14 (b)

10 20 30 40 50

FAR [%]

MDR [%]

MFCC Nw=80

LPCC Nw=80

MFCC+LPCC Nw=80

(a) Vergleich der Merkmalsvektoren

10 20 30 40 50

FAR [%]

MDR [%]

MFCC+LPCC Nw=40

MFCC+LPCC Nw=80

MFCC+LPCC Nw=100

MFCC+LPCC Nw=160

(b) Variation der Fenstergröße

Abbildung 4.14: Experimente mit Nahbereichsmikrophonen zur Merkmalsvektorwahl und Fenster-

größe

zeigt eine optimale Fenstergröße im Sinne der kleinsten EER von ca. 80 Merkmalsvektoren

für die verwendete Datenbasis. Dies entspricht einer Latenz durch die Segmentierung von 40

Merkmalsvektoren (320 ms).

In Abb. 4.15 ist der Vergleich der Segmentierungsergebnisse zwischen Fernfeldmikropho-

nen (DTM) und Nahbereichsmikrophonen (CTM) dargestellt. Der experimentelle Aufbau ist

in Abb. 4.13 (S. 41) dargestellt und bestand aus einer linear angeordneten Mikrophongruppe

aus 6Fernfeldmikrophonen im Abstand von 0,05 m mit einer Distanz von ca. 2,8 m zu den

Sprechern.

Die aus der Distanz zwischen Sprechern und Mikrophonen resultierende Verschlechterung

der Signalqualität durch Echos und Rauschen führt zu einer Erhöhung der EER um ca. 7,0

Prozentpunkte gegenüber den Ergebnissen der Nahbereichsmikrophone (vgl. „CTM, Wie-

ner“ und „DTM 1 Kanal“). Die Verwendung eines Wiener-Filters („DTM 1 Kanal, Wiener“)

oder einer akustischen Strahlformung („DTM 6 Kanal, FSB“) verbessert die EER gegenüber

den einkanaligen Ergebnissen und erreicht fast die Ergebnisse mit Nahbereichsmikrophonen.

Jedoch erst die Einbeziehung von Positionsdaten (vgl. Kap. 4.3.1) ermöglicht eine signifi-

kante Reduktion der EER auf ca. 13,8 % („DTM 6 Kanal, Winkel“). Dieser Ansatz führt eine

Nachfilterung der angezeigten Sprecherwechsel anhand der Positionsschätzungen durch und

übertrifft auf diese Weise deutlich die Ergebnisse der Nahbereichsmikrophone.

Experimente zur Sprecheridentifikation

Die Tabellen 4.2 und 4.3 fassen die Ergebnisse der vorgestellten Sprecheridentifikation für

die CHIL Datenbasis zusammen. Sie ermöglichen den Vergleich der Klassifikationsraten für

Akustische Szenenanalyse

0 10 20 30 40 50 60

FAR [%]

MDR [%]

CTM, Wiener

DTM 1 Kanal

DTM 1 Kanal, Wiener

DTM 6 Kanal, FSB

DTM 6 Kanal, Winkel

EER

Abbildung 4.15: Vergleich der Segmentierungsergebnisse von Fernfeldmikrophonen (DTM) und

Nahbereichsmikrophonen (CTM)

Nahbereichsaufnahmen und Aufnahmen aus größeren Distanzen für unterschiedliche Trai-

ningsdatensätze und Datenmengen. Angemerkt sei dabei, dass die entfernten Aufnahmen

nicht einer akustischen Strahlformung unterzogen werden können, da es sich um einkanali-

ge Aufnahmen handelt.

XXXXXXXXX

Training Test Klassifikationsrate (CTM) [%]

1 s 5 s 10 s 30 s 60 s

CTM 30 s 67,88 93,27 96,92 100,00 100,00

CTM 60 s 69,43 93,36 97,48 100,00 100,00

DTM 30 s 62,42 88,45 94,27 98,27 98,18

DTM 60 s 61,06 86,91 92,59 96,10 98,18

CTM 90 s &DTM 90 s 66,35 91,76 97,37 100,00 100,00

Tabelle 4.2: CHIL Datenbasis: Identifikation von Sprechern mit Nahbereichsmikrophonen (CTM)

In Tab. 4.2 sind die Klassifikationsraten für Nahbereichsaufnahmen für ein Training mit

wahlweise entfernten oder lokalen Mikrophondaten aufgeführt. Zum Vergleich sind in Tab.

4.3 die Klassifikationsratenfür entfernte Mikrophondaten angegeben. DieseAufnahmen sind

für die beabsichtigte Anwendung aussagekräftiger als die Nahbereichsaufnahmen, da im

Rahmen dieser Arbeit innerhalb der akustischen Szenenanalyse nur mit entfernten Mikro-

phongruppen gearbeitet wird.

Die Steigerung der Trainingsdatenmenge von 30 s auf 60 s reduziert die mittlere Fehlerra-

te bei gleichen Trainings- und Testbedingungen. Bei unterschiedlichen Trainings- und Test-

bedingungen sind die Ergebnisse nicht einheitlich. Eine Vergrößerung der Trainingsmenge

(DTM) für die Klassifikation der Nahbereichsaufnahmen (CTM) verschlechtert die Ergeb-

nisse geringfügig. Im Gegensatz dazu führt eine Vergrößerung der Trainingsmenge (CTM)

zu einer signifikanten Verbesserung der Klassifikationsraten von entfernten Mikrophonsi-

gnalen (DTM). Die jeweils letzte Zeile der Tabellen 4.2 und 4.3 zeigt die Ergebnisse für ein

Multi-Condition-Training,bei dem die gesamten Nah- und Fernbereichsdaten zu einem Trai-

Akustische Szenenanalyse

XXXXXXXXX

Training Test Klassifikationsrate (DTM) [%]

1 s 5 s 10 s 30 s 60 s

CTM 30 s 48,09 81,09 87,65 91,82 90,91

CTM 60 s 49,00 87,54 96,47 100,00 100,00

DTM 30 s 46,73 86,36 95,29 100,00 100,00

DTM 60 s 47,45 88,12 95,29 99,09 100,00

CTM 90 s &DTM 90 s 50,18 87,34 96,6 100,00 100,00

Tabelle 4.3: CHIL Datenbasis: Identifikation von Sprechern mit Fernfeldmikrophonen (DTM)

ningsdatensatz zusammengefasst werden. Diese Kombination ermöglicht gute Erkennungs-

ergebnisse für beide Testdatensätze, da sie sowohl die Charakteristiken der Nahbereichsmi-

krophone als auch der Fernfeldmikrophone trainiert.

Nachdem die Systemkomponenten der Segmentierung und der Sprecheridentifikation ein-

zeln validiert wurden, wird als nächstes die Fusion von Merkmalen zur Sprecheridentifika-

tion in einigen Experimenten untersucht, bevor die Sprecherprotokollierung näher betrachtet

wird.

Experimente zur Gewichtung von Merkmalen

Die Fusion von Merkmalsvektoren oder deren Likelihoods ermöglicht eine Reduktion der

Fehlerrate bei der Sprecheridentifikation, wie in [KHF04] gezeigt wurde. Hierzu wird der

Merkmalsvektor xsid in die drei Komponenten

1. xsid

M(k):MFCC-Merkmalsvektor und MACV-Wert

2. xsid

∆M(k): 1. Ableitung der MFCC- und MACV-Werte

3. xsid

∆∆M(k): 2. Ableitung der MFCC- und MACV-Werte

aufgeteilt. Diese Aufteilung ist möglich, da diagonale Kovarianzmatrizen im Verlauf des

Trainings geschätzt werden. Experimentell soll eine Gewichtung der drei Likelihood-Werte

(engl. score level fusion) untereinander mit

log ˜

Λxsid(k)|Ω = i=1 ·log Λ xsid

M(k)|Ω = i+γdelta ·log Λ xsid

∆M(k)|Ω = i

+γacc ·log Λ xsid

∆∆M(k)|Ω = i(4.75)

vorgenommen werden. Je größer die Werte γdelta und γacc werden, desto weniger werden die

Likelihood-Werte der MFCC berücksichtigt. Umgekehrt bedeuten die Extremwerte γdelta =

γacc = 0, dass die Ableitungen vernachlässigt werden.

In Abb. 4.16 sind die experimentellen Ergebnisse für die Sprecherwechselraten (schnell,

mittel, langsam) und dem Mittelwert über alle Sprecherwechselraten angegeben. Deutlich

erkennbar ist der Anstiegder Fehlerraten für alle Sprecherwechselraten bei Vernachlässigung

der Ableitungen. Dieser ist umso ausgeprägter, je kleiner die durchschnittlicheSegmentdauer

ist. Der Mittelwert aller Segmentdauern zeigt ein schwach ausgeprägtes Minimum für die

Gewichtung γdelta ≈2und γacc ≈2. Somit kann experimentell gezeigt werden, dass die

zeitlichen Ableitungen der Merkmalsvektoren einen entscheidenden Beitrag zur Reduktion

der Fehlerrate leisten.

Akustische Szenenanalyse

0246810

γdelta

Schnell

γacc

DER [%]

(a) Sprecherwechsel <2 s

0246810

γdelta

Mittel

γacc

DER [%]

(b) Sprecherwechsel 3−4 s

0246810

2,5

3,5

4,5

5,5

6,5

γdelta

Langsam

γacc

DER [%]

0246810

γdelta

Mittelwert

γacc

DER [%]

(d) Mittelwert

Abbildung 4.16: Vergleich der Fehlerraten für unterschiedliche Gewichtungen der Merkmalsvektor-

komponenten

Sprecherprotokollierung

Der in Kap. 4.3.2 vorgestellte Ansatz zur Sprecherprotokollierung führt eine gleichzeitige

Segmentierung und Identifikation von Sprechern in einem Datenstrom durch. Um die Leis-

tungsfähigkeit des Ansatzes zu zeigen, werden zunächst Versuche mit zwei Standardverfah-

ren („Gleitendes Fenster“ und „Segmentierung mit ∆BIC“) durchgeführt.

In Abb. 4.17 (a) sind die Ergebnisse für die Verwendung eines über den Datenstrom glei-

tenden Fensters konstanter Länge (engl. sliding window) gegeben. Hierbei wird ein Fenster

von Merkmalsvektoren aus dem Datenstrom betrachtet und der wahrscheinlichste Sprecher

ermittelt. Obwohl keine Informationen über Sprecherwechsel oder Sprecherpositionen ver-

wendet werden, können mit diesem Verfahren brauchbare Ergebnisse erzielt werden. Deut-

lich zu erkennen ist, dass bei steigender Fenstergröße zunächst die Fehlerrate sinkt und je-

weils abhängig von der Sprecherwechselrate anschließend wieder steigt. Es existiert kein ge-

meinsames Minimum für die unterschiedlichen Sprecherwechselraten, da ein größeres Fens-

ter zwar eine sicherere Entscheidung des Sprechers ermöglicht, jedoch bei einer schnellen

Abfolge der Sprecherwechsel mehrere Sprecher in einem Fenster vorhanden sein können und

dadurch mehr Fehlentscheidungen entstehen. Aus diesem Grund werden im Folgenden im-

mer die Mittelwerte der Fehlerraten (DER) für alle Sprachsegmentdauern als Vergleichskri-

Akustische Szenenanalyse

0,2 0,4 0,6 0,8 1 1,2 1,4 1,6

Fenstergröße [s]

DER [%]

Mittelwert

Schnell (<2s)

Mittel (3−4s)

Langsam (>4s)

(a) Gleitendes Fenster

5 10 15 20 25

Schwellwert λ

DER [%]

Mittelwert

Schnell (<2s)

Mittel (3−4s)

Langsam (>4s)

(b) ∆BIC-Segmentierung

Abbildung 4.17: Ergebnisse der Sprecherprotokollierung durch ein gleitendes Fenster und eine

∆BIC-Segmentierung

terium verwendet. Die optimalen Parameter ergeben sich durch das Minimum der mittleren

Fehlerrate.

Im zweiten Verfahren werden die Informationen der Sprecherwechseldetektion aus der

Berechnung der ∆BIC-Werte verwendet, um eine Segmentierung des Datenstroms durch-

zuführen. Anschließend werden die Segmente durch die Sprecheridentifikation einem Spre-

chermodell zugeordnet. Der ∆BIC-Schwellwert λbeeinflusst maßgeblich die Anzahl der

gefundenen Segmentierungspunkte (vgl. Abb. 4.7, S. 29). Ein niedriger Wert von λführt

zu einer hohen Anzahl von Fehlalarmen und somit zu einer Zerstückelung von homogenen

Sprachsegmenten. Diese falschen Segmentierungspunkte können durch die Sprecheridentifi-

kation kompensiert werden, falls die Segmentgrößen nicht zu klein sind. Es ist in Abb. 4.17

(b) zu erkennen, dass mit steigendem Schwellwert λdie Fehlerrate ansteigt, da eine Vielzahl

von Segmentierungspunkten nicht mehr erkannt werden.

Das vorgestellte Verfahren zur Sprecherprotokollierung verwendet einen Viterbi-Dekodie-

rer mit einem Partial Traceback. Entsprechend der Gl. 4.71 (S. 38) des Viterbi-Dekodierers

wird das Verfahren durch den Parameter κzur Gewichtung der Emissionswahrscheinlichkei-

ten gegenüber den Transitionswahrscheinlichkeiten beeinflusst. Zusätzlich führt die Begren-

zung der maximalen Latenz τmax zu einem Anstieg der Fehlerrate.

In Abb. 4.18 (a) ist der Einfluss der zeitlichen Begrenzung des Partial Traceback auf eine

maximale Latenz von τmax Sekunden bezogen auf die Konstante κdargestellt. Es ist er-

kennbar, dass der Gewichtungsfaktor κund die maximale Latenz τmax beide signifikant die

Ergebnisse der Klassifikation beeinflussen und dabei voneinander abhängig sind. Aus der

Abb. 4.18 (b) kann der Einfluss des Parameters κauf die Sprecherprotokollierung abgelesen

werden. Ein großer Wert des Parameters ist vorteilhaft für mittlere und lange Sprachsegment-

dauern, da ein Verharren in einem Zustand unterstützt wird. Für schnelle Sprecherwechsel

jedoch ist eine zu starke Gewichtung nachteilig und führt zu einer Erhöhung der Fehlerrate

durch unterdrückte Sprecherwechsel. Da innerhalb der Datenbasis insgesamt mehr Daten für

langsame und mittlere Sprecherwechsel als für schnelle Sprecherwechsel vorliegen, wird für

den minimalen mittleren Fehler ein κim Bereich des Optimums für mittlere Sprachsegment-

dauern gewählt. Dies dürfte dem normalen Verlauf eines Gesprächs nahekommen und somit

dem beabsichtigten Anwendungsbereich Rechnung tragen.

Akustische Szenenanalyse

2 3 4 5 6 7

Mittelwert DER [%]

τmax=0,3s

τmax=0,5s

τmax=0,7s

τmax=1s

τmax=2s

τmax=3s

τmax=5s

(a) Einfluss des Parameters κund der zeitlichen Be-

grenzung τmax auf die mittlere Fehlerrate der Spre-

cherprotokollierung

1 2 3 4 5 6 7 8 9 10

DER [%]

Mittelwert

Schnell (<2s)

Mittel (3−4s)

Langsam (>4s)

(b) Einfluss des Parameters κauf die Fehlerrate der

Sprecherprotokollierungbezogen auf die Segment-

dauern

Abbildung 4.18: Sprecherprotokollierung mittels Viterbi-Dekodierer unter Verwendung von Positi-

onsdaten und ∆BIC-Werten

hhhhhhhhhhhhhh

Verfahren Segmentdauer DER [%]

<2s3−4s > 4sMittelwert

Gleitendes Fenster 29,00 15,14 9,10 14,21

∆BIC-Segmentierung 28,76 13,91 7,94 12,98

Viterbi (Position, ∆BIC,κ= 1)22,62 11,52 6,83 10,69

Viterbi (Statisch, κ= 5)25,53 10,05 5,72 9,66

Viterbi (Position, κ= 7)21,66 9,32 5,69 8,95

Viterbi (∆BIC,κ= 7)24,03 9,48 5,35 9,08

Viterbi (Position, ∆BIC,κ= 7)22,80 6,80 4,27 7,05

Perfekte Sprecherwechseldetektion 11,09 4,05 2,46 4,00

Tabelle 4.4: Vergleich der Verfahren zur Sprecherprotokollierung anhand der DER

In Tab. 4.4 sind die Ergebnisse der Sprecherprotokollierung für unterschiedliche Verfahren

gegenübergestellt. Die schlechtesten Ergebnisse erzielt das Verfahren des gleitenden Fens-

ters, da es keine Informationen über Sprecherwechsel in die Klassifikation oder Segmentie-

rung mit einbezieht. Die Ausnutzung von Segmentierungspunkten aus der ∆BIC-Segmen-

tierung verbessert demgegenüber die Ergebnisse. Ein Viterbi-Dekodierer mit einer geschätz-

ten Transitionsmatrix aus Positionsdaten und ∆BIC-Werten übertrifft die reine ∆BIC-Seg-

mentierung, jedoch führt die fehlende Glättung (κ= 1) zu Oszillationen zwischen den Zu-

ständen, was die Ergebnisse negativ beeinflusst. Zum Vergleich ist ein Viterbi-Dekodierer

mit einer statischen Transitionsmatrix und einem optimalen Gewichtungsfaktor κuntersucht

worden. Dieser Ansatz liefert eine mittlere Fehlerrate von 9,66 %, wobei jedoch die Verwen-

dung von Positionsdaten (DER 8,95 %) oder Sprecherwechselinformationen (DER 9,08 %)

zur Schätzung der Transitionsmatrix geringere Fehlerraten erzielen. Kombiniert man alle In-

formationen (Position, ∆BIC,κ= 7), so kann eine mittlere Fehlerrate von 7,05 % erreicht

werden. Als unterste Grenze ist die Fehlerrate für eine perfekte Segmentierung angegeben,

welche die Leistungsfähigkeit der Sprecheridentifikation zeigt.

Akustische Szenenanalyse

4.4 Audio-visuelle Sprecherprotokollierung

Das bisher vorgestellte Verfahren zur Sprecherprotokollierung verwendet ausschließlich In-

formationen, welche aus akustischen Aufnahmen gewonnen wurden. Da die Sprecherpro-

tokollierung in einem System zur ambienten Kommunikation verwendet werden soll, kann

eine neue Informationsquelle in Form derVideodaten erschlossen werden. Im Folgenden soll

zunächst ein Überblick über das Verfahren zur Gesichtsdetektion und Identifikation gegeben

werden, bevor die Integration in den Prozess der Sprecherprotokollierung diskutiert wird.

4.4.1 System zur Gesichtsidentifikation

Aus der Literatur sind eine Reihe von Ansätzen zur Detektion und Identifikation von Ge-

sichtern bekannt [YKA02]. Je nach Anwendungsgebiet und damit Anforderungen an die Er-

kennungsgenauigkeit werden unterschiedlich aufwändige Verfahren eingesetzt. Gerade die

Detektion und Identifikation von Gesichtern bei schlechter Beleuchtung oder ungünstigen

Aufnahmewinkeln erfordert komplexe Ansätze. Da man im Falle einer Kommunikation je-

doch von einem kooperativen Benutzer ausgehen kann, soll an dieser Stelle der Standardan-

satz nach [VJ01] zum Auffinden von aufrechten Gesichtern in Bildern verwendet werden.

Benutzer werden in diesem Zusammenhang als „kooperativ“ bezeichnet, da sie im Falle

einer Kommunikation meistens den Augenkontakt zum Gesprächspartner suchen und so-

mit in Richtung der Kamera schauen, die oberhalb des Displays angebracht ist. Die Be-

leuchtungssituation kann als unproblematisch angenommen werden, da ansonsten bei einer

schlechten Beleuchtung das Gesicht für den entfernten Gesprächspartner nicht erkennbar

wäre. Die Identifikation der detektierten Gesichter erfolgt durch die Fisher-Faces-Methode

aus [BHK97].

4.4.2 Gesichtsdetektion

Die Anbindung der Kamera erfolgt entweder über einen USB-Anschluss, oder im Falle der in

den Versuchen verwendeten Kamera über eine Ethernet-Schnittstelle. Abbildung 4.19 zeigt

Bildpyramide

WinScale

Konvertierung

BMPJPG Konvertierung

RGB HSV

Webcam Mittelwert

19x19

Mittelwert

3x3

Gesichts−

identifikation

Display

Hautfarben−

segmentierung

RGBJPG

HSV

RGB Cluster−

verfahren

transformation

Lokale Struktur−

Gesichtsdetektion

Abbildung 4.19: Blockschaltbild zur Gesichtsdetektion und Gesichtsidentifikation

die notwendigen Module zur Detektion von Gesichtern und anschließender Identifikation.

Die von der Kamera gesendeten Bilder werden zunächst vom JPG-Format in das BMP-

Format konvertiert. Im nächsten Schritt wird das Bild in den HSV-Farbraum konvertiert, da

in diesem eine Hautfarbensegmentierung mit geringem Aufwand durchgeführt werden kann.

Akustische Szenenanalyse

Die Hautfarbensegmentierung dient der Begrenzung des Bildausschnittes, der für die Suche

nach Gesichtern im Gesichtsdetektor herangezogen wird. Parallel dazu wird das Bild in meh-

reren Stufen zu einer Bildpyramide skaliert und deren Teilbilder durch eine Strukturtransfor-

mation umgewandelt. Die einzelnen Module und ihre Aufgaben werden im Folgenden näher

betrachtet.

Hautfarbensegmentierung

DieHautfarbensegmentierungverwendetein HistogrammszurBestimmungderWahrschein-

lichkeit für Hautfarbe in einem Bildpunkt.Das entstehende zweidimensionale Bild (vgl. Abb.

(a) Kamerabild (b) Hautfarbenwahrscheinlichkeitnach Histogramm

Abbildung 4.20: Beispiel einer Hautfarbensegmentierung mit Schwellwertentscheidung

4.20 (b)) enthält zunächst durch Bildrauschen und den Schattenwurf im Gesicht nur wenige

zusammenhängende Flächen, die als Haut erkannt wurden. Durch die Mittelwertbildung auf

19×19 Bildpunkten (vgl. Abb. 4.20 (c)) großen Flächen und einer Schwellwertentscheidung

(vgl. Abb. 4.20 (d)) werden diese Gebiete vergrößert. Die entstehenden Gebiete definieren

den Suchbereich für die Detektion von Gesichtern. Durch die Hautfarbensegmentierung ist

es möglich, die Anforderungen an die Rechenleistung zu senken und gleichzeitig die Rate

von Fehldetektionen zu reduzieren, da Strukturen im Hintergrund ohne Hautfarbe nicht mehr

fälschlicherweise als Gesicht detektiert werden können.

Akustische Szenenanalyse

Skalierung und Suche

Das Auffinden von Gesichtern unterschiedlicher Größe in Bildern kann auf zwei Arten erfol-

gen. Zum einen kann ein Detektor auf eine bestimmte Gesichtsgröße trainiert und das Bild in

verschiedene Stufen skaliert werden, oder aber der Detektor selbst wird skaliert und das Bild

beibehalten. In diesem System wird das Bild in 15 Stufen skaliert, und es wird in jeder Stufe

nach Gesichtern der Größe 19 ×19 Bildpunkte gesucht. Ein Gesicht, welches in keiner der

Skalierungsstufen des Bildes annähernd die Größe 19 ×19 Bildpunkte erreicht, kann nicht

erkannt werden.

Abbildung 4.21: Beispiel einer Bildpyramide mit 8Skalierungsstufen

Abbildung 4.21 zeigt die ersten 8Bilder der Bildpyramide, die durch die Skalierung des

Graustufenbildes (V-Komponente des Originalbildes) entstehen. Die Skalierung des Bildes

erfolgt durch den in [KSLK03] vorgestellten WinScale-Algorithmus, der am Ausgang des

Moduls die komplette Bildpyramide aller Skalierungsstufen liefert.

Für jedes skalierte Bild in der Pyramide wird eine lokale Strukturtransformation (LST)

nach [FK04] durchgeführt. Die Transformation verwendet binäre 3×3Kernel zur Kodie-

rung der lokalen Strukturinformation. Zunächst wird der mittlere Helligkeitswert der 3×3

Umgebung eines Pixels berechnet und jedes Pixel mit diesem verglichen. Falls der Hellig-

keitswert des Pixels über dem Mittelwert liegt, so wird eine 1im Kernel gesetzt ansonsten

eine 0. Somit entstehen insgesamt 29−1 = 511 unterschiedliche Kernel, deren binäre Ko-

dierungen als Zahlen interpretiert werden.

In Abb. 4.22 (a) ist das Graustufenbild und in Abb. 4.22 (b) das zugehörige Bild der

lokalen Strukturtransformation zu sehen. Deutlich erkennbar ist, dass die Transformation

die Strukturen im Bild, wie z. B. Kanten und Konturen, hervorhebt und gleichzeitig die

Helligkeitsunterschiede vernachlässigt.

Der Gesichtsdetektor besteht, wie in [VJ01] vorgeschlagen, aus einer 4-stufigen Kaskade

von Entscheidern mit zunehmender Komplexität. Dabei wird ein Analysefenster der Größe

19 ×19 Pixel über das Bild geschoben. Innerhalb dieses Fensters liegen 172= 289 LST

Merkmale, von denen in jeder Stufe eine größer werdende Anzahl überprüft wird. Der Fo-

kus der Detektoren liegt hierbei auf dem Verwerfen von „Nicht-Gesichtern“, so dass in den

ersten Stufen der Großteil der Analysefenster verworfen werden kann und nur Fenster mit

möglichen Gesichtern an die nächste, aufwändigere Stufe weitergereicht werden. Die De-

tektoren der Kaskade werden in Anlehnung an [KE06] mittels eines AdaBoost-Algorithmus

[DHS01] trainiert, jedoch werden im Gegensatz zum dortigen Vorschlag nicht nur die ersten

Akustische Szenenanalyse

(a) Graustufenbild (b) Ergebnis der lokalen Strukturtransformation

Abbildung 4.22: Merkmalsextraktion mittels lokaler Strukturtransformation des Graustufenbildes

drei Stufen, sondern alle vier Stufen mit dem AdaBoost-Algorithmus trainiert.

(a) Mehrfachdetektion eines Gesichtes (b) Detektion nach Clusterung

Abbildung 4.23: Beispiel einer Mehrfachdetektion eines Gesichtes und Ergebnis der Clusterung

Ein Gesicht wird zumeist nicht nur in einer Skalierungsstufe eines Bildes, sondern auch

in der nächst höheren oder niedrigeren Skalierungsstufe gefunden. Zudem werden auch De-

tektionen, die nur um einige wenige Pixel verschoben sind, von der Kaskade als gefundene

Gesichter ausgegeben. In Abb. 4.23 (a) wurden die detektierten Gesichter mit grünen Käs-

ten umrandet und deren Zentren mit grünen Kreuzen markiert. In dem Beispielbild wird das

Gesicht insgesamt 16 mal gefunden, und erst eine Clusterung der Detektionen liefert eine

Aussage über die tatsächliche Anzahl der Gesichter im Bild. Die Clusterung wurde als Mit-

telwert über die Detektionen berechnet, und das Ergebnis der Clusterung ist in Abb. 4.23 (b)

gegeben. Dabei werden für die Mittelung nur übereinander liegende Detektionen verwendet,

so dass auch die Detektion von mehreren Gesichtern in einem Bild möglich ist. Die Informa-

tion über detektierte Gesichter wird anschließend dem Modul zur Identifikation übergeben,

so dass eine Zuordnung zu den bekannten Gesichtern erfolgen kann.

4.4.3 Gesichtsidentifikation

Die Gesichtsidentifikation verwendet die Detektionen aus dem vorherigen Modul, um die zu

untersuchenden Bereiche des Bildes zu extrahieren und unter Verwendung der Fisher-Faces-

Akustische Szenenanalyse

Methode aus [BHK97] zu identifizieren. Die Detektion eines Gesichtes kann zuverlässig auf

einer Größe von 19 ×19 Pixeln erfolgen, jedoch ist dies für eine Identifikation der Person

nicht ausreichend. Experimente haben gezeigt, dass für eine Identifikation das Gesicht eine

Mindestgröße von 60 ×60 Pixeln haben sollte. Da die Gesichtsdetektion einen sehr knap-

pen Ausschnitt des Gesichtes markiert, der oben mit den Augen und unten mit dem Mund

abschließt, ist für eine Identifikation eine Erweiterung der ermittelten Gesichtsgrenzen not-

wendig. Dabei werden die zuvor in grün markierten Bereiche (vgl. Abb. 4.23 (b)) in jede

Richtung um ca. 20 % gestreckt und der entstehende Ausschnitt so interpoliert, dass eine

Auflösung von 60 ×60 Pixeln erzielt wird. Sollte für eine Identifikation eines Gesichtes

nicht die erforderliche Menge an Pixeln zur Verfügung stehen, weil zum Beispiel die De-

tektion in einer der kleinsten Stufen der Bildpyramide erfolgt ist, so wird die Detektion als

unbekannte Person vermerkt.

Es wird im Folgenden angenommen, dass ein Gesicht im Bild detektiert wird, das aus

der Gruppe der Ibekannten Benutzer stammt. Die Identifikation des 60 ×60 Pixel großen

Gesichtes erfolgt in zwei Schritten. Im ersten Schritt wird der durch die Detektion definier-

te Bereich zeilenweise aus dem Graustufenbild ausgelesen und als Vektor Γ(k)mit 3600

Dimensionen interpretiert. Auf diesem wird mit Hilfe einer Transformationsmatrix P, die

auf Trainingsdaten mit einer Hauptachsentransformation (engl. Principal Component Analy-

sis,PCA) geschätzt wurde, eine Dimensionsreduktion durchgeführt. Dies kann interpretiert

werden als Reduktion der vorhandenen Bildinformationen auf die für ein Gesicht relevan-

ten Informationen. Im zweiten Schritt wird eine Transformationsmatrix Langewendet, die

durch eine lineare Diskriminanzanalyse (LDA) auf den annotierten Gesichtern der Benutzer

geschätzt wurde. Diese reduziert die Dimension des Vektors auf I − 1Dimensionen, also

auf die Anzahl der bekannten Benutzer minus Eins. Der dimensionsreduzierte Vektor der

Detektion ergibt sich folglich zu:

xvid(k) = LT·(PT·(Γ(k)−mPCA)−mLDA)(4.76)

Hierbei bezeichnen mPCA undmLDA die Mittelwertvektorender Trainingsdatenvorder PCA

bzw. der LDA.

Das Problem der Sprecherprotokollierung wird, wie zuvor beschrieben, durch einen sto-

chastischen Ansatz gelöst, wobei die Sequenz der Merkmalsvektoren als Realisierung eines

Zufallsprozesses interpretiert wird. Dies wird entsprechend für die visuellen Merkmalsvekto-

ren umgesetzt, indem die Dichtefunktionen p(xvid(k)|Ω = i),i= 1,...,I, bestehend aus je-

weils einer Normalverteilung, aus Trainingsdaten geschätzt werden. Die Klassifikationsrate

des Systems kann durch die Verknüpfung von aufeinander folgenden Beobachtungen, welche

aus dem gleichen Kamerawinkel stammen, verbessert werden. Hierfür werden die a posterio-

ri Wahrscheinlichkeiten eines Gesichtes des letzten Zeitschritts als a priori Wahrscheinlich-

keiten des aktuellen Zeitschritts verwendet. Dabei bezeichnet xvid

ν:k= [xvid(ν),...,xvid(k)]

die Merkmalsvektoren von Zeitschritt (k−ν+ 1) bis zum Zeitschritt k. Unter der Annahme

von unabhängigen und identisch verteilten Beobachtungen folgt für die a posteriori Wahr-

scheinlichkeiten:

P(Ω = i|xvid

ν:k) = p(xvid(k)|Ω = i)P(Ω = i|xvid

ν:k−1)

p(xvid(k)|Ω = j)P(Ω = j|xvid

ν:k−1).(4.77)

Die Rekursion startet zum Zeitpunkt ν, an dem zum ersten Mal ein Gesicht an einer be-

stimmten Position detektiert wird. Startwerte für die Rekursion sind die a priori Wahrschein-

Akustische Szenenanalyse

lichkeiten P(Ω = i), die auf 1/Igesetzt werden. Nach einer erfolgten Identifikation werden

die a posteriori Wahrscheinlichkeiten als a priori Wahrscheinlichkeiten für die Identifikati-

on von Gesichtern im nächsten Bild verwendet. Dafür wird das Bild in Kacheln eingeteilt

und es werden für jede Kachel, die vom Gesicht überdeckt wird, die Werte der a posteriori

Wahrscheinlichkeiten der Klassen abgespeichert. Somit profitiert die Gesichtsidentifikation

von den vorherigen Beobachtungen. Sollte innerhalb einer Kachel keine Detektion vorliegen,

so werden die gespeicherten Wahrscheinlichkeiten schrittweise auf die Initialisierungswerte

zurückgeführt.

Die Zusammenführung der akustischen und visuellen Beobachtungen bedingt, dass die

Beobachtungen von einem Benutzer stammen und nicht durch unterschiedliche Benutzer

hervorgerufen werden. Sollte die Kamera einen Benutzer fokussieren und die Gesichtsiden-

tifikation ihn identifizieren, so wäre es für die Sprecherprotokollierung von Nachteil, wenn

dieser Benutzer nicht der aktuelle Sprecher ist. Dieses Problem kann durch den Einsatz einer

schwenkbaren Kamera gelöst werden, in dem die Kamera immer auf den aktuellen Sprecher

fokussiert wird.

4.4.4 Kamerasteuerung und Systemintegration

Die Steuerung der Kamera erfolgt unter Berücksichtigung der Positionsschätzungen der

akustischen Szenenanalyse und den detektierten Gesichtern des zuvor vorgestellten Systems

zur Gesichtsidentifikation. In Abb. 4.24 ist das Blockschaltbild zur Kamerasteuerung und

audio-visuellen Sprecherprotokollierung gegeben. Das Videosystem, welches im oberen Teil

dargestellt ist, beinhaltet neben dem System zur Detektion und Identifikation von Gesich-

tern zwei weitere Module. Das Modul SHM verwaltet einen gemeinsamen Speicherbereich

(engl. Shared Memory,SHM) und ist verantwortlich für den Datenaustausch mit dem Audio-

system. Das Modul PTZ Control steuert die Kamera über eine TCP/IP-Schnittstelle und ist

somit verantwortlich für die Ausrichtung der Kamera. Hierzu fordert das Modul regelmäßig

die Informationen über die Fokussierung der Kamera an und berechnet die Differenz zu den

durch die akustische Positionsschätzung vorgegebenen Werten. Ist die Differenz zwischen

der akustischen Positionsschätzung und dem aktuellen Kamerablickwinkel so groß, dass der

Sprecher außerhalb des Bildes liegt, so wird die Fokussierung der Kamera auf den Sprecher

durchgeführt. Zusätzlich verwendet das Modul die Positions- und Größeninformationen von

detektierten Gesichtern im Bild, um die Fokussierung auf die Personen zu optimieren. Der

untere Teil der Abb. 4.24 zeigt das Audiosystem zur Sprecherprotokollierung und Sprecher-

lokalisation, wie es für den in Abb. 4.25 gezeigten experimentellen Aufbau verwendet wird.

Das Audiosystem verwendet drei der vier Winkelschätzungen der adaptiven Strahlfor-

mung zur Positionsschätzung mittels Schnittpunktanalyse. Der vierte Winkel ist ein Nei-

gungswinkel, welcher ausschließlich für die Ausrichtung der Kamera verwendet wird. Das

Modul „Koordinatentransformation“ berechnet, basierend auf den Positionsdaten der Kame-

ra und der geschätzten Sprecherposition, die Schwenk- und Neigewinkel sowie den Zoom-

faktor der Kamera zur Fokussierung des aktuellen Sprechers. Diese Daten werden über das

Modul „SHM“ an die Kamerasteuerung weitergeleitet. Des Weiteren wird die Positionsschät-

zung im Rahmen der Sprecherprotokollierung entsprechend Kap. 4.3.2 zur Schätzung der

Transitionsmatrix verwendet. Neben den Informationen der Sprecherbewertung, der Sprach-

aktivitätsdetektion und des Bayes’schen Informationskriteriums werden nun auch die Infor-

mationen der Gesichtsidentifikation in der Sprecherprotokollierung berücksichtigt.

Akustische Szenenanalyse

Bildpyramide

WinScale

Konvertierung

BMPJPG Konvertierung

RGB HSV

Webcam Hautfarben−

segmentierung Mittelwert

19x19

Transformation

Lokale Struktur

Mittelwert

3x3

Gesichtsdetektion

Gesichts−

identifikation Cluster

Verfahren

Display

PTZ Control

VAD

schätzung

Winkel−

schätzung

Winkel−

schätzung

Winkel−

schätzung

Winkel−

Positions−

schätzung Sprachaktivitätsdetektion

Merkmals−

extraktion

Adaptive

Strahlformung

Adaptive

Strahlformung

Adaptive

Strahlformung

Adaptive

Strahlformung

RGBJPG

HSV

RGB

SHM

Videosystem

Audiosystem

TCP/IP

Sprecherbewertung

Koordinaten−

transformation

Mikrophone / JACK

Informationskriterium

Bayes’sches

Sprecherprotokollierung

Viterbi−Dekodierer

Abbildung 4.24: Blockschaltbild der Kombination von Kamerasteuerung und audio-visueller Spre-

cherprotokollierung

Synchronisation und Datenaustausch

Das Audiosystem arbeitet bei einer Abtastrate von 16 kHz und einer Blockgröße von 128

Abtastwerten mit einer konstanten Rate von 8 ms pro Block. Im Gegensatz dazu liefert die

Kamera einen nicht kontinuierlichen Datenstrom von maximal 15 Bildern pro Sekunde, des-

sen Rate durch die Qualität des Netzwerks beeinflusst wird. Zusätzlich kann bedingt durch

die nicht konstante Rechenlast der Gesichtsidentifikation ein sporadisches Verwerfen von

Bildern durchgeführt werden, um die Belastung zu verringern. Da sowohl das Audio- als

auch das Videosystem mit unterschiedlichen Datenraten arbeiten, muss eine Synchronisati-

on erfolgen. Der hier verwendete Ansatz verzichtet auf die Annotation von Daten mit Zeit-

stempeln, um eine Synchronisation mittels Verzögerungen zu realisieren, zu Gunsten des

Ansatzes, dass jeweils die aktuellen Daten in einem gemeinsamen Speicherbereich abgelegt

werden. Diese Daten werden von dem jeweils anderen System so lange genutzt, bis sie durch

aktuellere Daten überschrieben werden.

Experimenteller Aufbau

Der experimentelle Aufbau zur audio-visuellen Sprecherprotokollierung beinhaltet neben

den drei Mikrophongruppen zur Lokalisierung des Sprechers (Gruppe1-Gruppe3) auch ei-

ne schwenkbare Kamera und einen Monitor. Mit jeder der drei Mikrophongruppen wird ein

Akustische Szenenanalyse

Winkel αiin Richtung des Sprechers nach Gl. 4.21 geschätzt. Hieraus ergeben sich die drei

Schnittpunkte χ12,χ23 und χ13 deren Schwerpunkt als Positionsschätzung verwendet wird

(vgl. Gl. 4.23, S. 22). Die Mikrophongruppe unterhalb der Kamera besitzt einen T-förmigen

Aufbau, der die Schätzung eines Neigungswinkel βermöglicht. Da die Kamera in den drei

Koordinaten Drehwinkel, Neigungswinkel und Zoomstufe arbeitet, muss die Position des

Sprechers von den kartesischen Koordinaten in einen Drehwinkel und eine Zoomstufe um-

gerechnet werden. Dies wird in dem Modul zur Koordinatentransformation im Audiosystem

durchgeführt.

000

111

α1

α2

α3

Gruppe1

Gruppe2Gruppe3

Monitor

χ12

χ13

χ23

Kamera

Abbildung 4.25: Experimenteller Aufbau zur ambienten Kommunikation und audio-visueller Spre-

cherprotokollierung

4.4.5 Integration der visuellen Information

Der in Kap. 4.3.2 vorgestellte Ansatz zur Sprecherprotokollierung verwendet ein HMM,

dessen Emissionswahrscheinlichkeiten durch die Likelihoods der akustischen Merkmals-

vektoren gegeben sind. An dieser Stelle wird die Berechnung der Emissionswahrschein-

lichkeiten erweitert, so dass sowohl die Likelihoods der akustischen als auch der visuellen

Merkmalsvektoren berücksichtigt werden. Die Emissionswahrscheinlichkeiten der HMM-

Zustände sind nach Gl. 4.63 (S. 37) mit

bj(xsid(k)) = p′(xsid(k)|Ω = j)(4.78)

gegeben. Unter der Annahme, dass die akustischen Merkmalsvektoren xsid(k)und die visu-

ellen Merkmalsvektoren xvid

ν:kstatistisch unabhängig sind, werden die Emissionswahrschein-

lichkeiten neu definiert zu:

bj(xsid(k),xvid

ν:k) := p(xsid(k),xvid

ν:k)|Ω = j)(4.79)

=p′(xsid(k)|Ω = j)·p(xvid

ν:k|Ω = j)

=p′(xsid(k)|Ω = j)·P(Ω = j|xvid

ν:k)p(xvid

ν:k)

P(Ω = j).(4.80)

Die Transitionswahrscheinlichkeitendes HMM werden wie zuvor über die Sprecherwechsel-

informationen der Positionsschätzung und den ∆BIC-Werten nach Gl. 4.70 (S. 37) geschätzt.

Akustische Szenenanalyse

Die optimale Abfolge der Zustände gegeben die Beobachtungen wird durch einen Viterbi-

Dekodierer bestimmt. Somit ist es gelungen, die Informationen aus dem Videosystem in

das System der akustischen Sprecherprotokollierung zu integrieren, so dass ein System zur

audio-visuellen Sprecherprotokollierung entsteht.

4.4.6 Experimentelle Ergebnisse

Das System der audio-visuellen Sprecherprotokollierung beinhaltet imVergleich zu der akus-

tischen Sprecherprotokollierung die dynamische Komponente der Kamera. Ein Test auf einer

statischen Datenbasis ist somit nicht möglich, weil die aktuelle Schätzung der Position eines

Sprechers auf den akustischen und visuellen Daten beruht, welche mit der Kamera und den

Mikrophonen aufgenommen werden. Diese führen ihrerseits zu einer Anpassung des Kame-

rablickwinkels und folglich zu einer Änderung der Beobachtungen. Das System beeinflusst

sich also während der Laufzeit selbst und kann nur im laufenden Betrieb getestet werden.

Hierzu werden zwei typische Nutzungsszenarien ausgewählt und mit einer Gruppe von trai-

nierten Sprechern untersucht. Die ersten Tests werden mit Einzelnutzern durchgeführt, die

sich für den größten Teil der Aufnahmen an einem festen Ort des Raumes aufhalten. Vor-

teil dieses Szenarios ist es, dass die Kamera einen Großteil der Zeit eine gute Fokussierung

auf das Gesicht besitzt. Das zweite Szenario betrachtet eine Konferenzsituation, bei der sich

zwei Personen im Raum befinden und abwechselnd sprechen. Hierbei muss die Kamera die

Fokussierung zwischen den Sprechern wechseln, wodurch vermehrt Phasen ausbleibender

Gesichtsdetektionen entstehen.

Die so entstandene Menge von mehr als zwei Stunden Aufnahmen bietet zwar nicht die

Möglichkeit,nachträglich Einfluss auf die Position oder Ausrichtung der Kamera zunehmen,

jedoch können bestimmte Aspekte der Sprecherprotokollierung untersucht werden. Zunächst

wird der zeitliche Ablauf der Kamerasteuerung anhand eines Beispiels erläutert. Anschlie-

ßend werden die Verzögerung des Systems und der Einfluss der zeitlichen Begrenzung näher

betrachtet. Zum Abschluss der Experimente werden die Ergebnisse der audio-visuellen Spre-

cherprotokollierung diskutiert.

Kamerasteuerung

Zunächst soll ein Beispiel für das zeitliche Verhalten der Kamerasteuerung bei einem Spre-

cherwechsel gegeben werden. In Abb. 4.26 ist im unteren Teilbild die Positionsschätzung

der akustischen Szenenanalyse in kartesischen Koordinaten gegeben. Im oberen Teilbild sind

entsprechend Gl. 4.77 (S. 52) die a posteriori Wahrscheinlichkeiten der Nutzer auf Basis der

Gesichtsidentifikation dargestellt. Im Zeitraum 0 s bis 4 s liefert das System wechselnde Hy-

pothesen für die Identität des detektierten Gesichtes, sowie immerwieder Zeiträume in denen

alle Modelle gleich wahrscheinlich sind und somit keine Gesichtsdetektion vorliegt. Dieses

Verhalten kann verschiedene Gründe haben, wie z. B. Bewegungen des Sprechers, die Aus-

richtung des Kopfes oder nicht optimale Beleuchtungsverhältnisse. Ab dem Zeitpunkt 8,5 s

sind die Ergebnisse der Gesichtsidentifikation eindeutig, wie aus dem Verlauf der Kurven

ersichtlich ist.

Deutlich ist die mit dem Sprecherwechsel verbundene Änderung der Position zum Zeit-

punkt 3,9 s erkennbar. Zu diesem Zeitpunkt wird eine Sprecherposition außerhalb des Kame-

rablickwinkels detektiert und die Kamera beginnt mit dem Schwenk auf die neue Position

Akustische Szenenanalyse

0 2 4 6 8 10 12

0,2

0,4

0,6

0,8

Zeit [s]

p(Ω(k)=j|xvid

ν:k)

0 2 4 6 8 10 12

Zeit [s]

Position [m]

Nutzer

Abbildung 4.26: Vergleich zwischen den a posteriori Wahrscheinlichkeiten der Gesichtsidentifika-

tion und der Positionsschätzung durch die akustische Szenenanalyse

und der anschließenden Fokussierung auf den Sprecher. Ab dem Zeitpunkt 8,2 s ist das Ge-

sicht des Sprechers durch das System gefunden und identifiziert worden.

Der treppenförmige Verlauf der a posteriori Wahrscheinlichkeiten resultiert aus der im

Vergleich zum Audiosignal niedrigeren Verarbeitungsrate des Videosystems. Die Abb. 4.26

wurde aus den eingehenden Daten der Sprecherprotokollierung gewonnen und enthält somit

die im Takt des Audiosystems aufgezeichneten Signale. Da das Videosystem die aktuellen

Daten in einer geringeren Rate als der Taktrate des Audiosystems im SHM ablegt, kommt es

zu einer mehrfachen Nutzung der Daten durch das Audiosystem.

Systemverzögerung

Die zeitlichen Anforderungenvon kontextbewusstenDiensten,wie z. B.der ambienten Kom-

munikation, verlangen eine möglichst geringe Latenz zwischen dem Eintreten eines Ereig-

nisses und der Benachrichtigung der Applikation durch das System. Die Sprecherprotokol-

lierung als Kontextquelle im vernetzten Haus beinhaltet systembedingt einige Latenzen, die

im Prozess der Signalverarbeitung entstehen. Folgende Verzögerungen sind im System vor-

handen:

•Hardware/Software-Schnittstelle: Die Latenz beträgt bei einem echtzeitfähigen Be-

triebssystem bei einer Blockgröße von 128 Abtastwerten und einer Abtastfrequenz

von 16 kHz im Minimum 8 ms. Steht kein echtzeitfähiges Betriebssystem zur Verfü-

gung ist eine Latenz von ca. 3Blöcken und somit 24 ms realistisch.

•Positionsschätzung: Die Positionsschätzung ist frei von Latenzen, weil sie durch die

Akustische Szenenanalyse

Korrelation der FSB-Filter berechnet wird. Jedoch benötigt die Ausrichtung der akusti-

schen Strahlformung eine gewisse, deterministisch nicht bestimmbare Zeit, bis die kor-

rekte Position nach Eintreten eines konvergierten Zustandes der Filter angezeigt wird.

Da für die Sprecherprotokollierung weniger die korrekte Position, sondern vielmehr

die Tatsache des Positionswechsels interessant ist, kann diese Latenz vernachlässigt

werden.

•Sprecherwechseldetektion: Die Berechnung der ∆BIC-Werte erfordert die Betrach-

tung eines Zeitfensters der Größe Nw= 80 Merkmalsvektoren. Die Latenz beträgt

folglich Nw/2·8 ms = 320 ms.

•Viterbi-Dekodierer:Der Viterbi-Dekodiererbesitzt einevariableVerzögerung, die durch

die obere Grenze τmax zeitlich beschränkt ist.

Die variable Latenz des Viterbi-Dekodierers soll an dieser Stelle näher untersucht werden.

Zunächst wird die zeitliche Begrenzung τmax weggelassen (τmax =∞), um eine Messung

der tatsächlich vorliegenden Verzögerung durchführen zu können. In Abb. 4.27 sind die Er-

0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5

100

Viterbi−Dekodierer Latenz [s]

Eindeutiger Pfad gefunden [%]

Audio + Video

Audio

Abbildung 4.27: Experimente zur zeitlichen Verzögerung des Viterbi-Dekodierers

gebnisse des Experiments gegeben. Aufgetragen über die Latenz des Viterbi-Dekodierers

(Abszisse) wird auf der Ordinate der Prozentsatz der Fälle angegeben, in denen ein eindeu-

tiger Pfad innerhalb dieser Latenz gefunden wird. Hierbei kann festgestellt werden, dass in

90 % aller Fälle die Latenz geringer als 0,5 s ist. Die mittlere Latenz bis ein eindeutiger Pfad

gefunden wird kann zu 262 ms für die akustische Sprecherprotokollierung und 246 ms für

die audio-visuelle Sprecherprotokollierung bestimmt werden. Die Medianwerte liegen bei

136 ms (Audio) und 104 ms (Audio + Video). Die Verwendung der Videodaten reduziert in

einem geringen Maße die Latenz des Systems, weil die zusätzliche Information die Abfolge

von Zuständen eindeutiger macht.

Eine Zusammenfassung aller Verzögerungen im System der audio-visuellen Sprecherpro-

tokollierung ergibt eine mittlere Verzögerung zwischen dem Auftreten eines Sprechers und

der Registrierung dieses Sprechers durch das System von

τavg = 246 ms + 320 ms + 8 ms = 574 ms.(4.81)

Akustische Szenenanalyse

Eine Vernachlässigung der Sprecherwechselinformationen, welche aus den ∆BIC-Werten

berechnet werden, würde einen Großteil der Latenz zu Lasten einer etwas verschlechterten

Klassifikationsrate vermeiden (vgl. Tab. 4.4, S. 47).

Latenzbegrenzung des Viterbi-Dekodierers

In der Theorie kann die Latenz des Viterbi-Dekodierers beliebig groß sein, so dass eine Be-

grenzung der maximalen Latenz notwendig ist. Dieser Eingriff in den Prozess der Bestim-

mung der optimalen Abfolge der Zustände vergrößert die Klassifikationsfehlerrate und wird

in Experimenten näher untersucht. Die Abb. 4.28 zeigt den Verlauf der Klassifikationsfehler-

0 0,5 1 1,5 2 2,5 3 3,5 4 4,5 5

DER [%]

Maximale Latenz des Viterbi−Dekodierers [s]

Audio

Audio + Video

Abbildung 4.28: Abhängigkeit der Klassifikationsfehlerrate von der maximalen Latenz τmax des Vi-

terbi-Dekodierers

rate (DER) gegenüber der maximalen Latenz des Viterbi-Dekodierers. Je geringer die zeitli-

che Begrenzung des Dekodierers gewählt wird, desto größer ist der Fehler der Klassifikation.

Auf Grund der Experimente wird eine maximale Latenz von 2 s als vertretbarer Mittelweg

zwischen Latenz und Fehlerrate gewählt. Der Vergleich der Kurvenverläufe zwischen akusti-

scher („Audio“) und audio-visueller („Audio + Video“) Sprecherprotokollierung liefert zwei

Ergebnisse. Zum einen ist unabhängig von der gewählten zeitlichen Begrenzung die Feh-

lerrate der audio-visuellen Sprecherprotokollierung immer geringer als bei der akustischen

Sprecherprotokollierung. Zum anderen ist die Zunahme des Fehlers bei der audio-visuellen

Sprecherprotokollierung geringer als bei der akustischen Sprecherprotokollierung.

Experimente zum Anwendungsszenario

Das beabsichtigte Anwendungsszenario derambienten Kommunikationbeschreibt eine Kom-

munikation zwischen einem oder mehreren Personen mit akustischen und visuellen Daten.

Das System der Sprecherprotokollierung hat in dieser Umgebung im optimalen Fall zusätz-

liche Informationen über den aktuellen Sprecher, welche durch die Gesichtsidentifikation

bereitgestellt werden. Dieser Vorteil kann zu einem Nachteil werden, falls eine fehlerhafte

Gesichtsidentifikation vorliegt oder aber das identifizierte Gesicht nicht zum Sprecher ge-

hört. Steht keine Gesichtsidentifikation zur Verfügung, so verhält sich das System wie eine

rein akustische Sprecherprotokollierung.

Akustische Szenenanalyse

Gesichter [%] DER [%] Zeit

Fall Benutzer detektiert korrekt Audio Audio-Video [min:sec]

Beispiele

Einzelnutzer

A 83,55 83,99 5,13 2,96 3:07

B 72,51 83,97 6,22 4,67 7:43

C 94,18 74,60 16,54 11,65 3:18

D 94,27 100,00 24,88 1,13 2:57

E 93,70 19,51 6,58 14,41 2:47

F 56,16 90,30 7,91 1,38 6:27

Beispiele

Zwei Nutzer

A & D 75,99 82,76 24,56 7,81 3:14

A & B 88,56 82,84 33,79 5,22 3:36

C & D 89,03 86,48 15,45 8,23 7:38

D & E 75,65 74,17 14,79 12,67 6:09

A & F 52,90 89,84 34,25 9,78 3:31

B & D 60,49 41,68 23,50 15,07 5:47

Mittelwert Einzelnutzer 84,53 84,79 7,46 3,72 61:18

Mittelwert zwei Nutzer 76,66 74,08 23,11 11,81 59:24

Mittelwert beide Fälle 80,46 79,49 15,16 7,70 120:42

Tabelle 4.5: Experimente zur audio-visuellen Sprecherprotokollierung

In Tab. 4.5 sind die Ergebnisse verschiedener Testläufe der audio-visuellen Sprecherpro-

tokollierung dargestellt. Insgesamt wurden Aufnahmen von über 2 h Länge für die Expe-

rimente gemacht und ausgewertet. In der dritten Spalte ist der Prozentsatz der detektierten

Gesichter und in der vierten der Prozentsatz der korrekt identifizierten Gesichter angege-

ben. Die fünfte Spalte gibt die Klassifikationsfehlerrate für die akustische und die sechste

die Klassifikationsrate für die audio-visuelle Sprecherprotokollierung wieder. In der letzten

Spalte ist die Zeitdauer des Experiments angegeben. Die ersten Zeilen der Tabelle zeigen

eine Auswahl der Experimente mit Einzelnutzern und die darauf folgenden Zeilen die Expe-

rimente mit zwei Nutzern. Die Mittelwerte für die gesamten Aufnahmen beider Fälle sind in

den letzten Zeilen angegeben.

Im Falle eines einzelnen Nutzers beträgt die mittlere Fehlerrate des Systems 7,46 % im rein

akustischen Ansatz, und die Verwendung der visuellen Daten ermöglicht eine Reduktion der

DER auf3,72 %. Betrachtet mandieeinzelnen Experimentegenauer, sofallen dieNutzer „D“

im positivenund „E“ im negativen Sinne auf. Der Nutzer „D“ wird durch die Kamera in über

94,00 % der Zeit detektiert und dabei zu 100,00 % richtig identifiziert. Erwartungsgemäß

verbessert sich die Klassifikationsfehlerrate von zunächst unterdurchschnittlichen 24,88 %

auf einen sehr guten Wert von 1,13 %. Im Gegensatz dazu wird der Nutzer „E“ häufig durch

die Gesichtsidentifikation falsch klassifiziert. Obwohl sein Gesicht in 93,70 % der Fällen

detektiert wird, kann es nur in 19,51 % korrekt identifiziert werden. Dies hat einen negativen

Effekt auf die audio-visuelle Sprecherprotokollierung und führt zu einer Verschlechterung

der Klassifikationsrate um 7,83 %.

Die Beispiele für zwei Nutzer zeigen ein zu den Einzelnutzern vergleichbares Bild. Die

Fehlerrate der akustischen Sprecherprotokollierung ist durch die Dialogsituationetwas höher

als im Einzelnutzerfall. Die Verwendung der Videodaten führt im Mittel zu einer Verbesse-

rung der Klassifikationsraten von 23,11 % auf 11,81 %. Die Mittelung aller Daten zeigt an-

nähernd eine Halbierung der Klassifikationsrate durch die Verwendung des audio-visuellen

Ansatzes.

5 Akustische Ereignisdetektion

Die akustische Ereignisdetektion ist ein Teil der akustischen Szenenanalyse, welcher sich

speziell mit der Identifikation von akustischen Ereignissen in der häuslichen Umgebung be-

fasst. Da Mikrophone im Gegensatz zu Kameras dauerhaft den ganzen Raum erfassen kön-

nen und unabhängig von der Beleuchtung sind, bieten sie die Möglichkeit, eine alternative

Informationsquelle zu visuellen Verfahren zu erschließen. Die Auswahl von Ereignissen ist

zunächst durch das Vorhandensein verfügbarer Daten zum Training und Testen begrenzt und

orientiert sich an verfügbaren Datenbasen.

5.1 Datenbasis Ereignisdetektion

Die hier verwendete Datenbasis zur Erkennung akustischer Ereignisse wurde im Rahmen des

CHIL Projektes erstellt und besteht aus insgesamt 3Sitzungen [TMNS05]. Die Aufnahmen

wurden in einem Konferenzraum der Größe 5,2 m ×3,9 m mit weiblichen und männlichen

Personen erstellt (vgl. Abb. 5.1 (a)).

P1 P2

P7 P4Mik.−Gruppe E

Tisch

Mik.−Gruppe D

Mik.−Gruppe B

yMik.−Gruppe A

Tür

Mik.−Gruppe C

(a) Aufbau des CHIL Konferenzraumes und Platzierung der Mikrophongrup-

pen

0,2 m 0,2 m

0,3 m

(b) Aufbau der T-förmigen

Mikrophongruppe

Abbildung 5.1: Experimenteller Aufbau der Datenbasis zur akustischen Ereignisdetektion

Jeder Teilnehmer musste eine vorgegebene Menge an akustischen Ereignissen an den de-

finierten Plätzen P1bis P7erzeugen. Die Daten wurden dabei mit 3T-förmigen Mikrophon-

gruppen (Mik.-Gruppe A bis C) bestehend aus 4Mikrophonen, einer linearen Mikrophon-

gruppe mit 7Mikrophonen (Mik.-Gruppe D) und 7auf dem Tisch verteilten Mikrophonen

(Mik.-Gruppe E) aufgenommen. Der Abstand der Mikrophone innerhalb einer Gruppe wur-

de zu 0,2 m bzw. 0,3 m gewählt (vgl. Abb. 5.1 (b)). Die Abtastfrequenz der Aufnahmen

Akustische Ereignisdetektion

betrug 44,1 kHz und wurde für die Experimente auf 16 kHz reduziert. In der Datenbasis sind

die folgenden 14 verschiedenen akustischen Ereignisse enthalten, deren Häufigkeit in Klam-

mern angegeben ist:

•ap (60): Applaudieren (mehrere

Personen)

•cl (64): Rühren eines Löffels in ei-

ner Tasse

•cm (76): Verrücken eines Stuhls

•co (65): Husten oder Räuspern

•do (60): Öffnen einer Tür

•ds (61): Schließen einer Tür

•kj (65): Ablegen oder Aufnehmen

eines Schlüsselbundes

•kn (50): Klopfen an einer Tür oder

auf einem Tisch

•kt (66): Tippen auf einer Tastatur

•la (64): Lachen

•pr (116): Klingeln eines Mobiltele-

fons

•pw (84): Papierrascheln

•st (73): Schritte

•un (126): Unbekannt

5.2 Experimente zur Modellierung

Die Identifikation von akustischen Ereignissen ist im Vergleich zur Sprecheridentifikation

ein neueres Thema in der Forschung. Zunächst soll daher eine geeignete Modellierung der

Ereignisse auf Basis der in der akustischen Szenenanalyse verwendeten Merkmalsvektoren

gefunden werden. Dieser Ansatz bietet den Vorteil, dass sowohl für die Ereignisdetektion als

auch für die Sprecheridentifikation die gleichen Merkmale verwendet werden und in einem

gemeinsamen System die aufwendige Neuberechnung von alternativen Merkmalen entfällt.

Die Ergebnisse der CHIL Projektevaluation der Ereignisdetektion können in [TMZ+07] und

[BP08] nachgelesen werden.

Für die Experimente wird ein Drittel der Daten zum Training (Sitzung 1 auf DVD 1) und

zwei Drittel zum Testen (Sitzung 2 auf DVD 2 und Sitzung 3 auf DVD 3) verwendet. Als

Ausgangspunkt für die Modellbildung werden zwei Ansätze näher untersucht. Zum einen

werden Modelle bestehend aus Gauß’schen Mischungsverteilungen mit einer unterschiedli-

chen Anzahl von Verteilungen auf den Trainingsdaten geschätzt (GMM-Ansatz). Zum an-

deren wird eine Gruppierung der Ereignisse anhand der Konfusionsmatrix der Erkennungs-

ergebnisse in zwei Gruppen vorgenommen. Für diese Gruppen werden, entsprechend dem

Ansatz zur Sprecheridentifikation, Hintergrundmodelle geschätzt und auf jedes Ereignis ein-

zeln adaptiert (UBM-Ansatz). Beide Verfahren nutzen Gauß’sche Mischungsverteilungenzur

Modellierung der akustischen Ereignisse, jedoch wird im Folgenden zur leichteren Unter-

scheidung entweder vom GMM-Ansatz oder UBM-Ansatz gesprochen.

5.2.1 Modellierung mit Gauß’schen Mischungsverteilungen

Die Modellierung der Ereignisse durch Gauß’sche Mischungsverteilungenerfordert die Fest-

legung der Modellkomplexität durch die Wahl der Verteilungsanzahl. Mit steigender Vertei-

Akustische Ereignisdetektion

lungsanzahl können zwar die Ereignisse theoretisch besser modelliert werden, jedoch nimmt

die benötigte Rechenleistung zu. Zudem ist die Menge an Trainingsdaten begrenzt und eine

zu große Modellkomplexitätwird, wie aus der Spracherkennung bekannt, durch stagnierende

bzw. verringerte Klassifikationsergebnisse erkennbar sein. Zunächst soll dieser Aspekt der

Modellierung experimentell untersucht werden.

10 20 30 40 50 60 70 80 90 100

100

Trainingsschritt

Klassifikationsrate [%]

4 Verteilungen

8 Verteilungen

16 Verteilungen

32 Verteilungen

64 Verteilungen

128 Verteilungen

Training (DVD 1)

Test (DVD 2)

Test (DVD 3)

Abbildung 5.2: Vergleich der Klassifikationsraten des GMM-Ansatzes

In Abb. 5.2 sind die Klassifikationsraten über die Trainingsschritte angegeben. Hierbei

werden 42-dimensionale Merkmalsvektoren verwendet, welche aus den MFCC- und MACV-

Werten, deren ersten zeitlichen Ableitungen und deren zweiten zeitlichen Ableitungen be-

stehen. Zu den durch senkrechte blaue Linien gekennzeichneten Trainingsschritten wird eine

Aufspaltung der Verteilungen (engl. density splitting) durchgeführt, so dass eine Verdoppe-

lung der Verteilungsanzahl erzielt wird. Dabei werden, wie in der automatischen Spracher-

kennung üblich, die Verteilungen mit den größten Gewichten in zwei oder mehrere Vertei-

lungen aufgeteilt. Es ist erkennbar, dass jeweils nach der Aufspaltung der Verteilungen eine

Phase der Modellanpassung erfolgt, in welcher die Klassifikationsraten zunächst abnehmen

und anschließend steigen.

Ein Vergleich der Klassifikationsraten auf den Trainingsdaten (DVD 1) und den Testda-

ten (DVD 2, DVD 3) zeigt, dass bei der Erhöhung der Modellkomplexität von 64 auf 128

Verteilungen die Klassifikationsrate der Trainingsdaten verbessert wird. Jedoch stagniert die

Klassifikationsrate auf den Testdaten. Infolgedessen wird kein weiteres Aufspalten der Ver-

teilungen mehr vorgenommen, um eine Überanpassung (engl. overfitting [DHS01]) der Mo-

delle an die Trainingsdaten zu vermeiden. Im Vergleich zwischen Trainings- und Testdaten

ist erkennbar, dass die Ergebnisse der beiden Testdaten (DVD 2, DVD 3) nahe aneinander

liegen und gegenüber den Trainingsdaten ca. 5 % schlechter klassifiziert werden.

In Abb. 5.3 sind, aufgeschlüsselt nach den Ereignissen, die Klassifikationsraten auf den

Testdaten angegeben. Die Ereignisse Schritte („st“) und Papier („pw“) erzielen die schlech-

testen Ergebnisse, was auf die geringe Energie der akustischen Ereignisse im Vergleich zu

den anderen Ereignissen zurückzuführen ist. Das Modell Unbekannt („un“) bildet ein Sam-

melmodell für alle unbekannten akustischen Ereignisse in den Aufnahmen der Datenbasis.

Zusätzlich ist der Mittelwert („avg“) der Klassifikationsrate über alle Ereignisse angegeben.

Akustische Ereignisdetektion

ap cl cm co do ds kj kn kt la pr pw st un avg

100

Ereignis

Klassifikationsrate [%]

GMM 16

GMM 32

GMM 64

GMM 128

Abbildung 5.3: Vergleich der Klassifikationsraten des GMM-Ansatzes bezogen auf die einzelnen Er-

eignisse auf Testdaten (DVD 2, DVD 3)

5.2.2 Modellierung mit universellen Hintergrundmodellen

Die Modellierung der Ereignisse mit Hilfe von universellen Hintergrundmodellen ist ein

Ansatzpunkt, um die geringe Anzahl an Trainingsbeispielen in der Datenbasis zu kompen-

sieren. Bei der Modellierung durch universelle Hintergrundmodelle werden die zu trainie-

renden Klassen in Gruppen eingeteilt, so dass Ereignisse mit vergleichbaren akustischen

Eigenschaften in einer Gruppe sind. Diese bei der Sprecheridentifikation natürlich gegebe-

ne Einteilung in zwei Gruppen (männliche und weibliche Sprecher) ist bei der akustischen

Ereignisdetektion nicht gegeben.

Die Einteilung der Ereignisse in Gruppen erfolgt in zwei Schritten. Zunächst werden die

Ereignisse anhand des akustischen Eindrucks in die zwei Gruppen

•Gruppe 1: do, ds, kn, kt, st

•Gruppe 2: ap, cl, cm, co, kj, la, pr, pw, un

eingeteilt, wobei die erste Gruppe klopfende und schlagende Ereignisse umfasst und die

zweite Gruppe die übrigen Ereignisse modelliert. Grundgedanke dabei ist, die Anzahl der

Hintergrundmodelle gering zu halten, dabei jedoch Gruppen mit ähnlichen akustischen Ei-

genschaften zu erzeugen. Dies ist notwendig, da bei der Bayes’schen Adaption Teile der

Hintergrundmodelle mit in die neuen Modelle der Ereignisse eingehen. Eine große Abwei-

chung der Hintergrundmodelle von den zu erzeugenden Modellen wäre somit nachteilhaft

und ist vergleichbar mit der Adaption eines weiblichen Hintergrundmodells auf einen männ-

lichen Sprecher.

Erste experimentelle Versuche mit 64 Verteilungen zeigten, dass entgegen der Annahme,

dass die meisten Fehler durch Verwechselungen innerhalb einer Gruppe auftreten würden,

einige Ereignisse häufig Modellen der anderen Gruppe zugeordnet wurden. Folglich wurden

die Ereignisse mit Hilfe der Konfusionsmatrix neu geordnet, so dass die zwei Gruppen

•Gruppe 1: do, ds, kn, kt, la, pr, pw, st

•Gruppe 2: ap, cl, cm, co, kj, un

Akustische Ereignisdetektion

gebildet wurden.

32 64 84 128 160

Verteilungen je GMM

Klassifikationsrate in %

Training (DVD 1)

Test (DVD 2)

Test (DVD 3)

(a) Variation der GMM-Komplexität (r= 16)

0 10 16 20

Relevanzfaktor

Klassifikationsrate [%]

Training (DVD 1)

Test (DVD 2)

Test (DVD 3)

(b) Einfluss des Relevanzfaktors (128 Verteilungen)

Abbildung 5.4: Experimente zur Modellbildung durch den UBM-Ansatz

Die Abb. 5.4 (a) zeigt die Klassifikationsraten in Abhängigkeit von der Modellkomplexität

für die Modellierung durch universelle Hintergrundmodelle. Bis zu einer Anzahl von ca. 128

Verteilungen steigt die Klassifikationsrate mit zunehmender Modellkomplexität. Oberhalb

von 128 Verteilungen pro Ereignis kann keine signifikante Verbesserung durch die Verwen-

dung von mehr Verteilungen erzielt werden. In Abb. 5.4 (b) ist der Einfluss des Relevanz-

faktors, welcher bei der Adaption der Modelle vom Hintergrundmodell verwendet wird, auf

die Klassifikationsrate dargestellt. Ein geringer Relevanzfaktor bedeutet, dass dem Hinter-

grundmodell eine geringere Relevanz als den vorhandenen Trainingsdaten zugeordnet wird

(vgl. Gl. 4.47-Gl. 4.53, S. 32). Es ist zu erkennen, dass die Klassifikationsrate mit steigen-

dem Relevanzfaktor (r= 10,16,20) abnimmt und somit die Modellierung durch den Ansatz

der Hintergrundmodelle grundsätzlich in Frage gestellt werden muss. Um den Unterschied

zu verdeutlichen, sind die Werte für den GMM-Ansatz, welcher mit einem Relevanzfaktor 0

gleichzusetzen ist, ebenfalls eingetragen.

ap cl cm co do ds kj kn kt la pr pw st un avg

100

Ereignis

Klassifikationsrate [%]

UBM 64

UBM 84

UBM 128

UBM 160

Abbildung 5.5: Vergleich der Klassifikationsraten des UBM-Ansatzes mit Relevanzfaktor r= 16

bezogen auf die einzelnen Ereignisse auf Testdaten (DVD 2, DVD 3)

Akustische Ereignisdetektion

In Abb. 5.5 sind die Klassifikationsraten für den UBM-Ansatz dargestellt. Eine Beobach-

tung aus den Experimenten ist, dass für einen Teil der akustischen Ereignisse, wie z. B.

Schritte („st“), eine steigende Anzahl der Mischungsverteilungen eine bessere Erkennungs-

leistung ermöglicht, während bei anderen Ereignissen, wie z. B. Lachen („la“), eine größere

Anzahl der Mischungsverteilungen den entgegengesetzten Effekt hat. Der direkte Vergleich

der Modellierungsarten in Abb. 5.6 zeigt die unterschiedlichen Vorteile der Verfahren. Die

GMM-Modellierung erzielt mit einer mittleren Klassifikationsrate von 90,7 % bessere Er-

gebnisse als der UBM-Ansatz mit 86,3 %, auch wenn für einzelne akustische Ereignisse der

UBM-Ansatz besser ist.

ap cl cm co do ds kj kn kt la pr pw st un avg

100

Ereignis

Klassifikationsrate [%]

UBM 128

GMM 128

Abbildung 5.6: Vergleich der Klassifikationsraten des UBM- und des GMM-Ansatzes auf Testdaten

(DVD 2, DVD 3)

5.3 Diskriminative Lernverfahren

Statistische Klassifikationsverfahren sind in der Literatur weit verbreitet. Hierbei werden

Merkmale als Zufallsvariablen mit zugehörigen klassenbedingten Verteilungen beschrieben,

die häufig Gauß’sche Mischungsverteilungen verwenden. Zur Schätzung der Modellparame-

ter gibt es unterschiedliche Ansätze. Am weitesten verbreitet ist die „Maximum Likelihood“-

Parameterschätzung (ML-Parameterschätzung), bei dem die Modellparameter so bestimmt

werden, dass die Likelihoods der Trainingsdaten maximiert werden.

Wenn die vorgegebene Form der klassenbedingten Verteilungen korrekt und die Trai-

ningsdatenmenge sehr groß ist, dann können mit der ML-Parameterschätzung die den Da-

ten zugrundeliegenden Verteilungen korrekt geschätzt werden. Durch die Anwendung der

Bayes’schen Entscheidungsregel erzielt man in diesem Fall die minimale Fehlerrate. In der

Praxis sind diese Annahmen jedoch meist nicht erfüllt. Dann wird mit der ML-Parameter-

schätzung die eigentlich interessierende Größe, die Klassifikationsrate, nicht mehr unbedingt

optimiert [LYL07].

Diskriminative Lernverfahren greifen diesen Punkt auf und versuchen, durch das Einbe-

ziehen aller Klassen im Trainingsprozess eine minimale Fehlerrate zu erzielen. Dabei kön-

nen auch Näherungen und Einschränkungen in den Modellen, wie z. B. diagonale Kovari-

anzmatrizen, mit diskriminativen Ansätzen besser behandelt werden als bei der klassischen

Akustische Ereignisdetektion

ML-Parameterschätzung [NCM91]. In der akustischen Ereignisdetektion werden diagonale

Kovarianzmatrizen in den Modellen verwendet. Folglich könnten diskriminativeLernverfah-

ren zu einer Verbesserung der Klassifikationsraten führen.

−8 −6 −4 −2 0 2 4

−6

−4

−2

Klasse 1

Klasse 2

(a) Beispieldaten des 2-Klassenproblems

−8 −6 −4 −2 0 2 4

−6

−4

−2

Klasse 1 korrekt

Klasse 1 falsch

Klasse 2 korrekt

Klasse 2 falsch

Klassengrenzen

GMM Klasse 1

GMM Klasse 2

(b) Klassengrenzen Bayes’sche Entscheidungsregel

Abbildung 5.7: Beispieldaten eines 2-Klassenproblems und zugehörige Klassengrenzen nach der

Bayes’schen Entscheidungsregel (vollständig besetzte Kovarianzmatrizen)

Im Folgenden wird das diskriminative Lernverfahren der „Maximum Mutual Informati-

on“-Parameterschätzung vorgestellt. Anschließend werden die experimentellen Ergebnisse

auf der Datenbasis zur akustischen Ereignisdetektion diskutiert. Da die Darstellung von Da-

ten mit mehr als zwei Dimensionen in Graphen nicht möglich ist, wird zur Veranschauli-

chung ein 2-Klassenproblem in zwei Dimensionen (vgl. Abb. 5.7 (a)) betrachtet. Den Daten

liegen Gauß’sche Mischungsverteilungenzugrunde, die je Klasse aus drei multivariatenNor-

malverteilungen mit vollständig besetzten Kovarianzmatrizen bestehen. In Abb. 5.7 (b) sind

die idealen Klassengrenzen nach der Bayes’schen Entscheidungsregel eingezeichnet. Die

einzelnen Mischungsverteilungen werden hierbei durch Ellipsen angedeutet.

Zur Simulation von Modellierungsfehlern wird die Annahme getroffen, dass die zu schät-

zenden Kovarianzmatrizen eine diagonale Form haben. Folglich werden durch die Parame-

terschätzung Kovarianzmatrizen der Form

Σi,m =σ2

i,m,10

0σ2

i,m,2(5.1)

ermittelt. Im Anhang A.4 (S. 121) sind für dieses Beispiel die Modellparameter und die

Ergebnisse der Parameterschätzung für verschiedene Verfahren aufgeführt.

5.3.1 MMI-Parameterschätzung

Das Ziel der „Maximum Mutual Information“-Parameterschätzung (MMI-Parameterschät-

zung) ist die Maximierung der Transinformation zwischen den Merkmalsvektoren und den

zugehörigen Klassen, welche durch eine Maximierung der a posteriori Wahrscheinlichkeiten

der Klassen gegeben die Merkmalsvektoren erreicht werden kann [HD08]. Dies führt zu

einer Maximierung der Anzahl korrekt klassifizierter Merkmalsvektorenim Training [LP96].

Akustische Ereignisdetektion

Im Folgenden wird eine Menge von KKlassen betrachtet, deren Modellparameter ge-

schätzt werden sollen. Jede Klasse soll durch eine Gauß’sche Mischungsverteilung beschrie-

ben werden, die aus einer gewichteten Summe von Mmultivariaten Normalverteilungen be-

stehen soll. Der Vektor Θbeinhaltet die Parameter der Mischungsverteilungenaller Klassen,

bestehend aus den Gewichten ck,m, den Mittelwertvektoren µk,m und den Kovarianzmatrizen

Σk,m. Der erste Index steht hierbei für die Klasse und der zweite Index für die betrachtete

Mischungsverteilung.

Für die Parameterschätzung sind je Klasse NkMerkmalsvektoren der Dimension Dmit

Xk,1:Nk= [xk(1),...,xk(Nk)] vorhanden (k= 1,...,K). Des Weiteren wird die Zu-

fallsvariable der Klassenzugehörigkeit eines Merkmalsvektors xk(n)mit Ωbezeichnet. Sie

kann die diskreten Werte aus der Menge O={1,...,K}annehmen. Zusätzlich wird die

Zufallsvariable Zverwendet, um die Zugehörigkeit eines Merkmalsvektors zu einer Mi-

schungsverteilung anzuzeigen. Diese Zufallsvariable kann die diskreten Werte der Menge

Z={1,...,M}annehmen.

Ein Merkmalsvektor der Klasse iwird nach der Bayes’schen Entscheidungsregel korrekt

klassifiziert, falls

P(Ω = i|xi(n); Θ)> P(Ω = j|xi(n); Θ)für alle j6=i(5.2)

gilt, wobei Θdie Abhängigkeit der Entscheidungsregel von den GMM-Modellparametern

anzeigt. Soll die Anzahl korrekt klassifizierter Merkmalsvektoren maximiert werden, so

müssen folglich die a posteriori Wahrscheinlichkeiten der Klassen gegeben die Merkmals-

vektoren maximiert werden. Dabei ist die a posteriori Wahrscheinlichkeit der i-ten Klasse

für die Merkmalsvektoren Xi,1:Nimit

P(Ω = i|Xi,1:Ni;Θ) =

n=1

p(xi(n)|Ω = i;Θ)·P(Ω = i)

k=1

p(xi(n)|Ω = k;Θ)·P(Ω = k)

(5.3)

gegeben. Der Logartihmus der Gl. 5.3 wird im Folgenden als Zielfunktion bezeichnet, wel-

che durch die MMI-Parameterschätzung maximiert wird.

Eine ausführliche Herleitung der Adaptionsgleichungen der MMI-Parameterschätzung ist

im Anhang A.2 (S. 115) zu finden. Zunächst wird dabei der Gradient der Zielfunktion

Qi(Θ) =

n=1

log 





p(xi(n)|Ω = i;Θ)·P(Ω = i)

k=1

p(xi(n)|Ω = k;Θ)·P(Ω = k)





(5.4)

bezüglich des gesuchten Modellparameters bestimmt. Anschließend wird der Gradient der

Zielfunktion zu null gesetzt, so dass die Gleichungen für die Schätzwerte der Gewichte,

Mittelwerte und Kovarianzmatrizen bestimmt werden können.

Die Parameterschätzung mittels MMI wird in einem iterativen Verfahren durchgeführt,

welches einen EM-Algorithmus verwendet. Zur Initialisierung des Algorithmus werden die

Modellparameter der ML-Parameterschätzung genutzt. Im ersten Schritt, dem Erwartungs-

wertschritt (engl. Expectation), wird eine Schätzung von zwei versteckten Parametern vor-

genommen. Dies sind die Wahrscheinlichkeit einer Fehlklassifikation des Merkmalsvektors

Akustische Ereignisdetektion

und die Zugehörigkeit des Merkmalsvektors zu einer Mischungsverteilung. Die Erwartungs-

werte der versteckten Parameterwerden anhand der aktuellen Modellparametergeschätzt. Im

zweiten Schritt, dem Maximierungsschritt (engl. Maximization), werden die im vorherigen

Schritt berechneten versteckten Parameter verwendet, um eine neue Schätzung der Modell-

parameter durchzuführen. Anschließend wird zur Verbesserung des Konvergenzverhaltens

eine Glättung der Parameterschätzungen vorgenommen. Im Folgenden wird ein Überblick

über den Algorithmus gegeben.

EM-Algorithmus zur MMI-Parameterschätzung

1. Initialisierung: Setze den Iterationszähler ν= 0 und initialisiere die Parameter Θi(ν)

deri-ten Klasse mitdenModellparameternder ML-Parameterschätzung für dieseKlas-

se.

2. Erwartungswertschritt: Berechne für jeden Merkmalsvektor xi(n), n = 1,...,Ni

die Wahrscheinlichkeit der Fehlklassifikation durch die aktuellen Modelle mit

ψi(n) = 



1−p(xi(n)|Ω = i;Θi(ν)) ·P(Ω = i)

k=1

p(xi(n)|Ω = k;Θk(ν)) ·P(Ω = k)





(5.5)

und für jede Mischungsverteilung j= 1,...,M die Wahrscheinlichkeit, dass der

Merkmalsvektor zu dieser Mischungsverteilung gehört mit

γi,j(n) = 





p(xi(n)|Ω = i, Z =j;Θi(ν)) ·P(Z=j|Ω = i)

m=1

p(xi(n)|Ω = i, Z =m;Θi(ν)) ·P(Z=m|Ω = i)





.(5.6)

3. Maximierungsschritt: Schätzung der Modellparameter b

Θiunter Verwendung der im

vorherigen Schritt berechneten Erwartungswerte mit

•Gewichte

bci,j =

n=1

ψi(n)·γi,j(n)

n=1

ψi(n)

(5.7)

•Mittelwerte

µi,j =

n=1

[ψi(n)·γi,j(n)·xi(n)]

n=1

ψi(n)·γi,j(n)

(5.8)

Akustische Ereignisdetektion

•Kovarianzmatrizen

Σi,j =

n=1 hψi(n)·γi,j(n) (xi(n)−µi,j) (xi(n)−µi,j)Ti

n=1

ψi(n)·γi,j(n)

(5.9)

4. Glättung: Berechnung der neuen Modellparameter als Kombination aus den aktuellen

Modellparametern Θi(ν)und den neu geschätzten Modellparametern b

Θides Maxi-

mierungsschrittes mit

Θi(ν+ 1) = α·Θi(ν) + (1 −α)·b

Θifür α∈[0,1].(5.10)

Erhöhe Iterationsindexν=ν+1 und gehe zu „Schritt 2“ oder Abbruchnach erreichen

der gewünschten Iterationsanzahl.

Diskussion

Die Schätzungen der Mischungsparameter b

Θinach Gl. 5.7 (Mischungsgewichte), Gl. 5.8

(Mittelwertvektoren) und Gl. 5.9 (Kovarianzmatrizen) erfolgt iterativ, wobei für die Berech-

nung der neuen Schätzwerte b

Θidie vorherigen Schätzwerte Θi(ν)aus der letzten Iteration

verwendetwerden. Hierbei kann es zu einem schwingenden Verhalten der Schätzungen kom-

men, das durch den Glättungsschritt (vgl. EM-Algorithmus 4. Schritt) gedämpft wird. Alter-

nativ kann in die Optimierung eine Nebenbedingung eingeführt werden, welche die Distanz

zwischen neuen und alten Schätzwerten der Parameter begrenzt [LLJ+08].

Eine Gegenüberstellung der Gleichungen zur Schätzung der Mischungsparameter entspre-

chend der ML-Parameterschätzung (vgl. Gl. 4.47, S. 32) und dem MMI-Verfahren zeigt ei-

ne hohe Ähnlichkeit der Ansätze. Das MMI-Verfahren verwendet im Vergleich zum ML-

Verfahren den zusätzlichen Gewichtsfaktor

ψi(n) = 



1−p(xi(n)|Ω = i;Θi(ν))P(Ω = i)

k=1

p(xi(n)|Ω = k;Θk(ν))P(Ω = k)





(5.11)

für die Schätzung der neuen Modellparameter, wodurch eine Gewichtung der Merkmals-

vektoren anhand der Wahrscheinlichkeit der Fehlklassifikation vorgenommen wird. Falls ein

Merkmalsvektor xi(n)durch die aktuellen Modellparameter mit einer hohen Wahrschein-

lichkeit falsch klassifiziert wird, so wird p(Ω = i|xi(n); Θ(ν)) einen kleinen Wert anneh-

men und der Gewichtsfaktor ψi(n)strebt gegen den Wert Eins. Umgekehrt wird ein zuverläs-

sig richtig klassifizierter Trainingsvektor einen Gewichtsfaktor von annähernd Null besitzen

(ψi(n)→0). Folglich berücksichtigt das MMI-Verfahren während der Schätzung der neu-

en Modellparameter die vermutlich falsch klassifizierten Trainingsvektoren stärker als die

vermutlich richtig klassifizierten Vektoren.

Mit Hilfe des Gewichtsfaktors ψi(n)kann das zuvor erwähnte schwingende Verhalten der

Modellparameterschätzung während der Iterationen erklärt werden. Angenommen, die Men-

ge Avon Merkmalsvektoren wird zunächst zuverlässig korrekt klassifiziert und die gleich

Akustische Ereignisdetektion

große Menge Bderselben Klasse wird falsch klassifiziert, so wird für die Schätzung der

Mittelwertvektoren die Gruppe Bim Verhältnis zur Gruppe Astärker verwendet. Es kommt

zu einer Verschiebung der Mittelwerte in Richtung der Menge Bund folglich zu einer Än-

derung der Klassengrenzen, was im nächsten Iterationsschritt dazu führen kann, dass nun

die Vektoren der Menge Aanstatt der Menge Bfalsch klassifiziert werden. Es wird somit

im nächsten Schritt eine Gegenbewegung in Richtung der Menge Aentstehen, welche bei

fehlender Dämpfung zu einem schwingenden Verhalten führt.

−8 −6 −4 −2 0 2 4

−6

−4

−2

Klasse 1 korrekt

Klasse 1 falsch

Klasse 2 korrekt

Klasse 2 falsch

Klassengrenzen

GMM Klasse 1

GMM Klasse 2

(a) ML-Parameterschätzung

−8 −6 −4 −2 0 2 4

−6

−4

−2

MMI

Klasse 1 korrekt

Klasse 1 falsch

Klasse 2 korrekt

Klasse 2 falsch

Klassengrenzen

GMM Klasse 1

GMM Klasse 2

(b) MMI-Parameterschätzung

Abbildung 5.8: Vergleich der Klassengrenzen von Modellen nach einer ML- bzw. MMI-Parameter-

schätzung (diagonale Kovarianzmatrizen)

In Abb. 5.8 sind die Ergebnisse der Klassifikation der durch ML- bzw. MMI-Parameter-

schätzung gewonnenen Modelle dargestellt. Die ML-Parameterschätzung optimiert die Mo-

dellparameter der einzelnen Klassen so, dass die Likelihood der Trainingsdaten maximiert

wird. Die so entstehenden Klassengrenzen sind nicht optimal für die Separation der Trai-

ningsdaten, wie die in rot eingezeichneten Klassengrenzen in Abb. 5.8 (a) verdeutlichen.

Jede Klasse wird durch drei Mischungsverteilungen modelliert, welche als Ellipsen ange-

deutet sind. Die Hauptachsen der Ellipsen sind dabei proportional zur Standardabweichung

derVerteilungen inderjeweiligenRaumrichtung.DieMMI-Parameterschätzung hat das Ziel,

die Transinformation zu maximieren, wodurch die Modellierung der Klassen nebensächlich

wird. Dies ist deutlich aus Abb. 5.8 (b) zu entnehmen, da z. B. die Daten der Klasse 2bei

[x, y] = [3,−2] durch keine Mischungsverteilung mehr direkt modelliert werden. Vielmehr

werden diese Daten automatisch durch die gebildeten Klassengrenzen korrekt klassifiziert.

Die Fehlerrate bei der Klassifizierung sinkt von 10,6 % bei der ML-Parameterschätzung auf

5,4 % bei der MMI-Parameterschätzung.

5.3.2 Experimentelle Ergebnisse

In den Experimenten wird untersucht, ob die Klassifikationsrate durch das diskriminative

Lernverfahren bei einer gleichbleibenden Komplexität der Modelle verbessert werden kann.

Als Referenz wird das beste Modell aus der ML-Parameterschätzung verwendet. Die Beob-

achtung der Fehlerratenänderung bei der Klassifikation der Trainingsdaten während der Pa-

rameterschätzung mit MMI wird jeweils einen Hinweis auf die möglichen Verbesserungen

Akustische Ereignisdetektion

durch das diskriminative Lernverfahren liefern. Ein Test der Modelle auf den unabhängigen

Testdaten zeigt anschließend, ob die Reduktion der Fehlerrate durch eine verbesserte Model-

lierung der Ereignisse entstanden ist oder ob eine zu starke Anpassung an die Trainingsdaten

vorgenommen wurde.

MMI-Parameterschätzung

Die MMI-Parameterschätzung wird mit den Modellen der ML-Parameterschätzung initiali-

siert, welche aus 128 Gauß’schen Mischungsverteilungen je Klasse bestehen. Die experi-

mentellen Ergebnisse der MMI-Parameterschätzung sind in Abb. 5.9 dargestellt, wobei die

relative Fehlerratenreduktion sich jeweils auf die Klassifikationsergebnisse der mit ML ge-

schätzten Mischungsparameter bezieht. In Abb. 5.9 (a) ist die relative Fehlerratenreduktion

0 20 40 60 80 100 120 140

Iterationen

rel. Fehlerratenreduzierung [%]

MFCC

∆ MFCC

∆∆ MFCC

Fusion

(a) Trainingsdaten aufgeschlüsselt nach Merkmalen

0 20 40 60 80 100 120 140

Iterationen

rel. Fehlerratenreduzierung [%]

Fusion DVD1

Fusion DVD2

Fusion DVD3

(b) Vergleich von Trainingsdaten (DVD 1) und Testda-

ten (DVD 2, DVD 3)

Abbildung 5.9: Fehlerratenreduktion durch die MMI-Parameterschätzung von Modellen

auf den Trainingsdaten über die Iterationsschritte aufgetragen. Die höchste Reduktion der

Fehlerrate wird mit 73,52 % für die ∆MFCC-Merkmale erzielt. Danach folgen die Werte der

∆∆MFCC mit 38,08 % und der MFCC mit 31,35 %. In den ersten 25 Iterationen wird der

größte Teil der Verbesserungen erreicht, wie aus dem Verlauf der Kurve für die Fusion der

Merkmalsvektoren (vgl. Abb. 5.9 (a), „Fusion“) entnommen werden kann, jedoch steigen die

Kurven selbst für Iterationen oberhalb von 120 noch leicht an. Durch die MMI-Parameter-

schätzung ist es also möglich, die Fehlerrate auf den Trainingsdaten nochmals um die Hälfte

gegenüber der ML-Parameterschätzung zu senken.

Die auf den Trainingsdaten erreichten Fehlerratenreduktionen sind nicht im gleichen Um-

fang auf den Testdaten zu erwarten, da ein Teil der Verbesserungen durch eine Überanpas-

sung der Modelle auf die Trainingsdaten entsteht. Speziell die hohe Anzahl der Iterationen

lässt die Vermutung aufkommen, dass eine Überanpassung der Modelle vorliegen könnte.

In Abb. 5.9 (b) sind daher die Ergebnisse der fusionierten Merkmale (MFCC + ∆MFCC +

∆∆MFCC) für die Trainings- und Testdaten über die Iterationen dargestellt. Erwartungsge-

mäß fallen die Fehlerratenreduktionen auf den Testdaten der DVD 2 und DVD 3 geringer aus

als auf den Trainingsdaten der DVD 1. Jedoch sind für die Daten der zweiten Sitzung eine

Akustische Ereignisdetektion

ap cl cm co do ds kj kn kt la pr pw st un avg

100

Ereignis

Klassifikationsrate [%]

ML (DVD2)

MMI (DVD2)

ML (DVD3)

MMI (DVD3)

Abbildung 5.10: Vergleich der Klassifikationsraten für Modelle aus der ML- und MMI-Parameter-

schätzung auf Testdaten (DVD 2, DVD 3)

relative Fehlerratenreduktion von 18,86 % und für die Daten der dritten Sitzung von 8,12 %

zu verzeichnen.

In Abb. 5.10 sind die Klassifikationsraten der Testdaten der zweiten und dritten Sitzung

als Vergleich zwischen ML- und MMI-Parameterschätzung dargestellt. Es zeigt sich hierbei

ein nicht einheitliches Bild für die Klassen, da einige besser und einige schlechter erkannt

werden. Insgesamt jedoch verbessert sich die mittlere Klassifikationsrate („avg“) auf beiden

Testdatensätzen.

5.4 Quellenauswahl und Fusion

Die Lokalisation von Sprechern und akustischen Ereignissen erfordert eine gewisse Menge

an verteilten Mikrophonen in einem Raum. Dadurch ergibt sich die Möglichkeit, auch für die

Identifikation eine Auswahl oder Fusion der verfügbaren Mikrophonsignale vorzunehmen.

In dieser Arbeit wird die Fusion nach der Modellbewertung näher betrachtet. Abbildung 5.11

Modelle

Mikrophone / JACK

Modellbewertung

Bewertung

. . .

Merkmalsextraktion

. . .

Selektion

Fusion

Abbildung 5.11: Fusion und Selektion von Likelihood-Werten bei der Ereignisdetektion

zeigt diesen Ansatzpunkt, welcher eine Fusion oder Selektion auf Grundlage der Likelihood-

Werte im System der akustischen Ereignisdetektion vornimmt. Grundsätzlich wird zunächst

Akustische Ereignisdetektion

eine Entstörung und Merkmalsextraktion für alle verfügbaren Audiosignale der Mikrophone

vorgenommen. Anschließend werden die Likelihoods der Merkmalsvektoren mit den vorab

trainierten Modellen berechnet. Für die finale Entscheidung, welches Ereignis vorliegt, wird

eine Fusion oder eine Selektion der Likelihoods oder auch eine Kombination aus beidem

vorgenommen.

5.4.1 Ansätze zur Fusion von Modellbewertungen

Die Datenbasis zur Ereignisdetektion beinhaltet Aufnahmen von 22 unabhängigen Mikro-

phonen, welche in 5Gruppen angeordnet sind. Da die meisten Ereignisse nur eine geringe

zeitliche Dauer aufweisen (z. B. Klopfen) oder keine eindeutige Position im Raum besitzen

(z. B. Applaus), ist eine verlässliche Ausrichtung einer Strahlformung auf die Position ei-

nes Ereignisses schwierig oder unmöglich. Daher wird auf eine akustischen Strahlformung

verzichtet, wie sie bei der Sprecherprotokollierung verwendet wird.

Die Parameterschätzung der Modelle kann prinzipiell auf zwei Weisen erfolgen. Entweder

wird für jedes Mikrophon separat ein Satz von Parametern geschätzt, so dass mikrophonspe-

zifische Modelle entstehen, oder sämtliche Daten aller Mikrophone werden zur Schätzung

der Modellparameter verwendet. Letzterer Ansatz bedeutet, dass mehr Daten pro Modell zur

Parameterschätzung zur Verfügung stehen, da ein Ereignis in 22 leicht variierenden Aufnah-

men vorliegt. Experimente mit mikrophonspezifischen Modellen zeigten schlechtere Erken-

nungsergebnisse als die Verwendung eines mikrophonunabhängigen Modells. Daher wurden

die weiteren Experimente mit einem Modell für alle Mikrophone durchgeführt.

Im Anhang A.3 (S. 120) befinden sich die zwei Tabellen Tab. A.1 und Tab. A.2, welche

die Motivation für die folgenden Untersuchungen liefern. Beide Tabellen zeigen die Klas-

sifikationsraten der Testdaten aufgeteilt nach den 22 Mikrophonen, so dass die Spannbreite

der Klassifikationsraten zwischen den vorliegenden Mikrophonkanälen deutlich wird. Ein

Beispiel ist das Ereignis Lachen, welches im Datensatz der DVD 2 vom besten Mikrophon

zu 100,00 % (Mikrophon 20) und vom schlechtesten Mikrophon nur zu 80,95 % (Mikrophon

10) richtig klassifiziert wurde. Umgekehrt ist das Mikrophon 20 mit einer Klassifikationsrate

von 87,50 % eines der schlechtesten Mikrophone für die Identifikation des Ereignisses Klop-

fen und das Mikrophon 10 liefert mit einer Klassifikationsrate von 100,00 % eine perfekte

Leistung. Ein Mikrophon, welches ein Ereignis schlecht klassifiziert, kann folglich für ein

anderes Ereignis optimal sein.

Die Vermutung, dass bestimmteMikrophone durch ihre Lage vielleicht für einzelne Ereig-

nisse optimal sind, kann durch den Vergleich der Tabellen widerlegt werden. Beispielsweise

können die mit dem Mikrophon 10 aufgenommenenEreignisseKlopfen(„kn“) als Gegenbei-

spiel verwendet werden. Im Datensatz der DVD 2 wird dieses Ereignis in allen Aufnahmen

des Mikrophons 10 richtig erkannt. Jedoch werden die Aufnahmen von Klopfen im Daten-

satz der DVD 3 von diesem Mikrophon mit am schlechtesten klassifiziert. Da die Lage der

Mikrophone kein Kriterium für eine Selektion ist, werden während der Klassifikation alle

Mikrophonaufnahmen gleich behandelt.

Untersucht werden drei Ansätze zur Selektion und Fusion der vorliegenden Likelihoods.

Alle drei Verfahren sind durch die alleinige Betrachtung der Likelihood-Werte unabhängig

von der zugrunde liegendenMethode der Modellparameterschätzung und werden sowohl mit

den Modellen der ML- als auch der MMI-Parameterschätzung verwendet. Gegeben seien für

jedes Mikrophonsignal mder MMikrophonsignale eine Menge von NMerkmalsvektoren

Akustische Ereignisdetektion

X(m)

1:N, deren Klassenzugehörigkeit mit Ωbezeichnet wird.

Maximum-MAP-Entscheidungsregel

Die optimale Entscheidungsregel ist durch die „Maximum A Posteriori“-Entscheidungsregel

(MAP-Entscheidungsregel) gegeben. Da mehr als ein Mikrophon zur Verfügung steht, kann

zwar für jedes Mikrophon eine optimale Entscheidung durch die MAP-Entscheidungsregel

getroffen werden, jedoch ist dann noch eine Entscheidung auf den 22 Ergebnissen zu tref-

fen. Hierzu wurde die MAP-Entscheidungsregel um einen weiteren max-Operator erweitert

(Maximum-MAP), so dass das Maximum aller MAP-Werte über allen Mikrophonen ver-

wendet wird. Die Maximum-MAP-Entscheidungsregel lautet:

Ω = argmax

k,m nP(Ω = k|X(m)

1:N)o.(5.12)

Es wird also das Mikrophon ausgewählt, deren a posteriori Wahrscheinlichkeiten auf die

sicherste Entscheidung hindeuten.

Mehrheitsvotum

Die zweite Entscheidungsregel verwendet ein Mehrheitsvotum über alle Kanäle, um die Ent-

scheidung für eine Klasse zu treffen. Zunächst wird innerhalb eines jeden Kanals eine Hy-

pothese b

Ω(m)für das beobachtete Ereignis anhand der MAP-Entscheidungsregel aufgestellt.

Anschließend wird die Klasse ausgewählt, welche am häufigsten als Hypothese genannt wur-

de. Die Entscheidungsregel des Mehrheitsvotums lautet somit:

Ω(m)= argmax

knP(Ω = k|X(m)

1:N)o(5.13)

Ω(m)Mehrheit

−→ b

Ω.(5.14)

MAP-Produkt-Entscheidungsregel

Die Maximum-MAP-Entscheidungsregel trifft eine Auswahl aus allen Kanälen für die end-

gültige Entscheidung. Dabei kann ein stark gestörter Kanal mit sehr niedrigen Likelihood-

Werten zu einer Fehlentscheidung führen, weil durch die Normierung der MAP-Entschei-

dungsregel die absoluten Werte der Likelihoods vernachlässigt werden. Diese Unzulänglich-

keit wird im Mehrheitsvotum umgangen, indem die Mehrheit der Entscheidungen betrachtet

wird. Hierbei gehen jedoch nur die Werte der Likelihoods innerhalb eines Kanals in die Ent-

scheidung ein und nicht ein Vergleich der Werte zwischen den Kanälen. Die MAP-Produkt-

Entscheidungsregel versucht diesen Aspekt zu berücksichtigen und eine Fusion der Like-

lihood-Werte aller Kanäle durchzuführen. Unter der Annahme, dass die Merkmalsvektoren

der Mikrophone voneinander statistisch unabhängig sind, folgt

p(X(1)

1:N,...,X(M)

1:N|Ω = k) =

m=1 p(X(m)

1:N|Ω = k).(5.15)

Ferner sei das Auftreten aller Ereignisse gleich wahrscheinlich, so dass die MAP-Produkt-

Entscheidungsregel definiert werden kann durch:

Ω = argmax

knp(X(1)

1:N,...,X(M)

1:N|Ω = k)o.(5.16)

Akustische Ereignisdetektion

Die MAP-Produkt-Entscheidungsregelverwendet explizit die Annahme, dass die Merkmals-

vektoren an den Mikrophonen statistisch unabhängig voneinander sind. Diese Annahme

könnte für weit voneinander entfernte Mikrophone zutreffen, jedoch ist dies für Mikrophone

einer Mikrophongruppe womöglich nicht gegeben.

5.4.2 Experimentelle Ergebnisse

Die Experimente verwenden die Datenbasis der akustischen Ereignisidentifikation des Pro-

jektes CHIL. Die Abb. 5.12 zeigt einen Vergleich der Klassifikationsraten auf den Testdaten

ap cl cm co do ds kj kn kt la pr pw st un avg

100

Klassifikationsrate [%]

Ereignis

Einzelerkennung

Maximum−MAP

Mehrheitsvotum

MAP−Produkt

Abbildung 5.12: Vergleich von Auswahlverfahren und Kombinationsansätzen zur akustischen Ereig-

nisidentifikation (ML-Parameterschätzung, 128 GMM, DVD 2 und DVD 3)

(DVD 2 und DVD 3) zwischen den drei Entscheidungsregeln und einer Einzelerkennung,

jeweils aufgeteilt nach den Ereignissen. Dabei sei darauf hingewiesen, dass die Ergebnisse

der Einzelerkennung, wie sie aus den vorherigen Kapiteln bekannt sind, jeweils die Klas-

sifikation aller Aufnahmen eines Ereignisses beinhaltet. Die zugrunde liegenden Modelle

sind Gauß’sche Mischungsverteilungen mit 128 Verteilungen. Die mittlere Klassifikations-

rate („avg“) ist in den drei Ansätzen im Vergleich zu den Ergebnissen der Einzelerkennung

verbessert worden.

In Tab. 5.1 sind die Klassifikationsraten für verschiedene Ansätze der Modellparameter-

schätzung gegeben. Es werden die Ergebnisse der ML-Parameterschätzung denen des diskri-

minativen Lernverfahrens durch MMI gegenüber gestellt. Dabei wird deutlich, dass die Ver-

besserung der Modelle durch das diskriminative Training durch die Fusion der Likelihood-

Werte an Bedeutung verliert. Sowohl die ML- als auch die MMI-Parameterschätzung liefern

vergleichbare Resultate nach der Fusion, wobei die Wahl des Ansatzes, d. h. ob „Maximum-

MAP“, „Mehrheitsvotum“ oder „MAP-Produkt“, keinen signifikanten Unterschied macht.

Diskussion und Ausblick

Zuletzt soll das Potential zukünftiger Ansätze für die Verbesserung der Selektion und Fusi-

on von Likelihoods anhand eines Experiments untersucht werden. Hierzu werden die Like-

Akustische Ereignisdetektion

PPPPPPPP

Ansatz Daten DVD 2 DVD 3 DVD 2 + DVD 3 Modelle

Einzelerkennung 91,64 89,58 90,70

Maximum-MAP 94,29 92,58 93,45

Mehrheitsvotum 94,57 92,28 93,45

MAP-Produkt 94,00 91,99 93,01

Einzelerkennung 93,21 90,43 91,85

MMI

Maximum-MAP 94,57 92,58 93,59

Mehrheitsvotum 94,57 92,28 93,45

MAP-Produkt 94,57 91,99 93,30

Tabelle 5.1: Vergleich der Klassifikationsraten für unterschiedliche Trainingsverfahren

lihoods aller Mikrophone für ein Ereignis darauf untersucht, ob ein Mikrophonsignal exis-

tiert bei dem das Ereignis richtig identifiziert wird. Bei einer optimalen Wahl eines Kanals

würde in diesem Fall das Ereignis richtig erkannt werden. Die Abb. 5.13 zeigt den Vergleich

zwischen der Einzelerkennung, dem Mehrheitsvotum und der optimalen Wahl eines Mikro-

phons. Für einige Ereignisse ist bereits das Maximum der Klassifikationsraten erreicht, falls

nicht die zugrunde liegenden Modelle verbessert werden. Die Klassifikationsraten einiger

anderer Ereignisse, wie z. B. Papier („pw“), könnten jedoch beträchtlich gesteigert werden.

ap cl cm co do ds kj kn kt la pr pw st un avg

100

Klassifikationsrate [%]

Ereignis

Einzelerkennung

Mehrheitsvotum

Optimale Wahl

Abbildung 5.13: Vergleich der Klassifikationsraten zwischen Einzelerkennung, Mehrheitsvotum und

optimaler Mikrophonwahl auf Testdaten (DVD 2, DVD 3)

Akustische Ereignisdetektion

6Middleware und ambiente Intelligenz

Die Amigo Architektur orientiert sich an den durch die Vision der ambienten Intelligenz auf-

gestellten Anforderungen an eine intelligente Hausumgebung [Ami06]. Im vernetzten Haus

werden Applikationen und Dienste entsprechend den Bedürfnissen der Nutzer gestartet, kon-

figuriert, verwendet und beendet. Zusätzlich kann die Ausstattung mit Komponenten zeitlich

variieren, da diese in das Haus eingebracht oder aus dem Haus entfernt werden bzw. ihre

Position im Haus ändern. Somit ist die vernetzte Hausumgebung durch eine starke Dynamik

geprägt, welcher durch die gewählte Architektur Rechnung getragen wird [SBG+05].

Ein weiterer Aspekt ist die Interaktion mit vorhandener Middleware und Technologien zur

Vernetzung. Das Amigo System verwendet einen semantischen Ansatz, um eine größtmögli-

che Interoperabilität zu erzielen. Hierbei wird im Amigo System die Bedeutung einer Einheit

durch eine Referenz zu einem definierten Vokabular von Ausdrücken (Ontologie) gekapselt,

welche ein spezielles Gebiet von Wissen repräsentieren [GMB+05].

Im Folgenden wird gezeigt, wie die Ideen des semantischen Netzes für die vernetzte Haus-

umgebung genutzt werden können. Anschließend wird die Interaktion zwischen den Diens-

ten mittels Webservice-Schnittstellen erklärt und ein Überblick über die Amigo Architektur

gegeben. Zum Abschluss wird das Amigo Kontextmanagement anhand des Beispiels der

akustischen Szenenanalyse diskutiert.

6.1 Semantisches Netz

Das semantische Netz (engl. semantic web) ist als Weiterentwicklung des World Wide Web

(WWW) entworfen worden, um die derzeitigen Unzulänglichkeiten im Umgang mit Infor-

mationen zu beheben [B+01]. Seit Erfindung des Hypertext Transfer Protocols (HTTP) im

Jahre 1990 ist das WWW auf eine für den Menschen unüberschaubare Größe gewachsen

([ISC07]: Jul 2007, 489.774.269 Hosts im Domain Name System (DNS)). Dadurch ist der

Nutzen für den Einzelnen eher begrenzt, obwohl die verfügbare Menge an Informationen

gestiegen ist. Erst die Möglichkeit einer durch Maschinen gesteuerten Suche, Verarbeitung

und Auswertung wird dem Nutzer einen spürbaren Vorteil bringen [BHL01].

Die vernetzte Hausumgebung bildet wie das WWW oder zukünftig das semantische Netz

einen Wissensraum mit vielen heterogenen Informationsquellen. Dieses Wissen kann nur

durch eine automatische Verarbeitung für den Nutzer erschlossen werden, um „intelligente

Systeme“ zu realisieren. Somit ist es naheliegend, in der vernetzten Hausumgebung die Kon-

zepte und Ideen des semantischen Netzes einzusetzen. Im Zentrum des semantischen Netzes

stehen die Ontologien, die präsentiertes Wissen für Maschinen annotieren und damit erst für

Maschinen verständlich machen.

Middleware und ambiente Intelligenz

6.1.1 Ontologien

Eine Ontologie stellt entsprechend [Gru93] eine „explizite formale Spezifikation einer ge-

meinsamen Konzeptualisierung“ dar. Grundgedanke hierbei ist die Repräsentation einer ge-

meinsamen Wissensbasis durch die formale Festlegung von Begriffen und deren Relationen.

Eine Ontologie soll die für einen Menschen verständlichen Informationen und deren Zu-

sammenhänge Maschinen zugänglich machen, so dass eine maschinelle Verarbeitung und

Interpretation möglich wird.

In der Amigo Middleware wird die Web Ontology Language (OWL) [MH04] verwendet,

um Ontologien für die vernetzte Hausumgebung zu erstellen. Sie basiert auf dem Resource

Description Framework (RDF), welches eine Extensible Markup Language (XML) [B+08b]

nutzt.

Die Amigo Ontologiensind unter [R+08] verfügbar und frei zugänglich. Sie definieren un-

ter anderem das Vokabular zur Repräsentation von Sensoren, Geräten und Diensten. Die mit

diesem Vokabular darstellbaren Kontextinformationen umfassen beispielsweise Sensormess-

werte (Temperatur), vorhandene Geräte im Haus (Bildschirm, Kühlschrank), die Zustände

der Geräte (Ein, Aus, Standby) und die Fähigkeiten von Diensten (Helligkeitskontrolle, Be-

nachrichtigungsdienst), um an dieser Stelle nur eine Auswahl zu nennen.

Die Nutzung von Ontologien ist nicht begrenzt auf die von Amigo vorgegebenen Vokabu-

lare und kann durch eigene Ontologien ergänzt werden. Somit können auch neue Zusammen-

hänge, die nicht in den bestehenden Ontologien berücksichtigt wurden, durch das Erstellen

und Veröffentlichen einer Ontologie in das System integriert werden. Ist der Kontext einer

Information hinreichend durch Ontologien beschrieben, so kann die Information in Form

einer RDF-Beschreibung im System dargestellt werden.

6.1.2 Kontextinformation

Eine im System vorliegende Kontextinformation wird zum Zwecke der Veröffentlichung

den Ontologien entsprechend beschrieben und in ein RDF-Modell verpackt. Dabei unter-

scheidet das RDF-Modell allgemein die drei Informationstypen Ressource, Eigenschaft und

Objekt. Eine Kombination dieser drei Typen wird als RDF-Tripel bezeichnet und stellt ei-

ne Aussage über eine Ressource in einer definierten Domäne dar (engl. statement) [B+08a].

Ein RDF-Modell kann durch einen sprachunabhängigen RDF-Graphen repräsentiert werden.

Ressourcen werden durch Ellipsen, Eigenschaften durch beschriftete Pfeile und Objekte als

Rechtecke gekennzeichnet.

21,5 22.05.2006

13:15

room

Kitchen

identifier

isLocatedIn

timestamp

temperature

TemperatureSensor

Abbildung 6.1: Beispiel eines RDF-Graphen zur Beschreibung einer Temperaturinformation

Middleware und ambiente Intelligenz

 

1<?xml version ="1.0"? >

2<rdf :RDF

3xmlns : rdf =" http : / /www.w3. org /1999/02/22 −rdf−syntax−ns#"

4xmlns : amigo: < http : / / amigo . org / owl / AmigoICCS . owl#>

5xmlns : domotic:< http : / / amigo . org / owl / Domotics . owl#>

6xmlns : context :< http : / / amigo . org / owl / ContextTransport . owl#>

7<domotic : TemperatureSensor >

8<context : timestamp >

92006−05−22T13:15:15.452+0200

10 </ context : timestamp >

11 <context : isLocatedIn >

12 <context : room>

13 <context : i d e n t i f i e r >

14 Kitchen

15 <context : i d e n t i f i e r >

16 </ context : room>

17 </ context : isLocatedIn >

18 <amigo : temperature >

19 21.5

20 </amigo : temperature >

21 </ domotic : TemperatureSensor >

22 </ rdf :RDF>



 

Liste 6.1: RDF-Beschreibung einer Temperaturinformation

Die Liste 6.1 zeigt ein Beispiel für die RDF-Beschreibung einer Temperaturinformation in

XML-Notation für den RDF-Graphen aus Abb. 6.1. Die Aussage der Kontextinformationlau-

tet, dass ein Temperatursensor (TemperaturSensor), welcher sich in dem Raum (isLocatedIn)

mit dem Bezeichner (identifier)Kitchen befindet, zum angegeben Zeitpunkt (timestamp) die

Temperatur 21,5(temperature) gemessen hat. Die Zeilen 3-6 der Liste 6.1 beinhalten die Ab-

kürzungen und Verweise auf die verwendeten Ontologien. Der Temperatursensor ist als Ge-

rät in der Ontologie der Hausvernetzung Domotics.owl beschrieben. Die kontextbezogenen

Zusammenhänge stammen aus der Ontologie ContextTransport.owl, und die Beschreibung

des Temperaturwertes ist aus der Amigo Ontologie AmigoICCS.owl entnommen worden.

Nachdem die Grammatik und das Vokabular zur Darstellung der Informationen durch die

Ontologien festgelegt sind, werden nun gemeinsame Definitionen zur Abfrage der Informa-

tionen benötigt. Applikationen, die Informationen suchen, benötigen eine definierte Abfra-

gesprache, welche von den Kontextquellen verstanden und verarbeitet werden kann.

6.1.3 Abfragesprache für Kontextinformationen

Eine maschinelle Verarbeitung von Informationen benötigt neben der Repräsentation der

Daten mittels einer Ontologie auch eine definierte Abfragesprache. Die Amigo Middleware

verwendet die SPARQL Protocol and RDF Query Language (SPARQL) [PS08], um Informa-

tionen abzufragen. Als Beispiel soll nun eine SPARQL-Frage für die Kontextquelle aus Abb.

6.1 vorgestellt werden.

Eine SPARQL-Frage gliedert sich in zwei Teile. Zunächst werden über eine Menge von

Variablen die Namen der Rückgabevariablen der Objekte festgelegt (Liste 6.2: Zeile 5). An-

schließend wird über ein Muster von Tripeln der kontextuelle Zusammenhang der gesuchten

Informationen definiert, bei RDF sind dies die Ressourcen und Eigenschaften (Liste 6.2:

Middleware und ambiente Intelligenz

 

1PREFIX domotic : <http : / / amigo . gforge . i nr i a . fr / owl / Domotics . owl#>

2PREFIX amigo : <http : / / amigo . gforge . i n ri a . fr / owl / AmigoICCS . owl#>

3PREFIX context :< http : / / amigo . gforge . i nr ia . fr / owl / ContextTransport . owl#>

4PREFIX rdf : <http : / /www.w3. org /1999/02/22 −rdf−syntax−ns#>

5SELECT ?room ?temp ? time WHERE {

6? id rdf : type domotic : TemperatureSensor .

7? id context : isLocatedIn ? r .

8? r context : i d e n t if i e r ?room .

9? id amigo : temperature ?temp .

10 ? id context : timestamp ? time .}



 

Liste 6.2: Beispiel einer SPARQL-Frage nach Temperaturinformationen

Zeile 6-10). Somit kann sowohl gezielt nach Objekten in Informationen als auch nach dem

Kontext gefragt werden. Optional können Präfixe zur Verkürzung verwendet werden (Liste

6.2: Zeile 1-4). Die in Liste 6.2 gestellte Frage sucht explizit nach den Kontextinformationen

von Temperatursensoren (domotic:TemperatureSensor) und möchte neben der Temperatur-

information (?temp) auch die Position des Sensors (?room) und den Zeitpunkt der Messung

(?time) wissen.

21,5 22.05.2006

13:15

room

Kitchen

identifier

isLocatedIn

timestamp

temperature

TemperatureSensor

(a) Beispiel eines RDF-Graphen zur Be-

schreibung einer Temperaturinformation

identifier

isLocatedIn

timestamp

temperature

?time

?room

?temp

TemperatureSensor

(b) SPARQL-Beispielfrage nach Tempera-

turinformationen

Abbildung 6.2: Vergleich zwischen Kontextinformation und Kontextabfrage

Vergleicht man die Frage aus Liste 6.2 mit der Information aus Liste 6.1 so kann festgehal-

ten werden, dass die SPARQL-Frage eine Art von Sieb für Informationen definiert (vgl. Abb.

6.2). Zum einen werden definierte Ressourcen und Eigenschaften genannt, um die Men-

ge an Kontextquellen einzuschränken. Zum anderen werden durch Platzhalter mehrere In-

formationen gleichzeitig abgefragt. Durch die Einschränkung der gesuchten Ressource auf

Temperatursensoren aus der Heimvernetzung (domotic:TemperatureSensor) werden andere

Temperaturinformationen, wie zum Beispiel die von Kühlschränken, ausgeschlossen.

Nachdem die Grammatik, das Vokabular, die Beschreibung und die Abfrage von Kontext-

informationen beschrieben wurden, wird im Folgenden die Suche nach Kontextquellen und

die Interaktion mit ihnen beschrieben. Dienste, die Informationen anbieten, müssen durch ei-

ne geeignete Technik im Netz veröffentlicht werden, so dass eine Applikation, die Informa-

tionen sucht, diese finden und abfragen kann. Diese Aufgabe eines zentralen Anlaufpunktes

übernimmt ein Verzeichnisdienst.

6.1.4 Verzeichnisdienst

Die Aufgabe des Verzeichnisdienstes ist die Speicherung von Informationen über Dienste

und deren Referenzen im Amigo System. Dabei verwaltet der Verzeichnisdienst eine hierar-

Middleware und ambiente Intelligenz

chisch strukturierte Datenbank von Informationen. Dienste können nach dem Server-Client-

Prinzip auf diese Daten mittels eines festgelegten Protokolls zugreifen. Im Amigo System

wird das von der International Telecommunication Unit (ITU) standardisierte Lightweight

Directory Access Protocol (LDAP) [Z+06] der X.500 Architektur [ITU01] verwendet. Die

Amigo Middleware stellt geeignete Methoden zur Suche von Diensten basierend auf LDAP

zur Verfügung.

Hat eine Applikation einen geeigneten Dienst über den Verzeichnisdienst gefunden, so

ist der nächste Schritt die Interaktion mit dem Dienst. Dies kann zum einen die Abfrage

von Informationen sein (Beispiel: Temperatursensor) oder zum anderen das Auslösen von

Aktionen durch den Dienst (Beispiel: Anschalten einer Lampe). Im Amigo System werden

zur Interaktion Webservice-Schnittstellen verwendet.

6.2 Webservice

Die vom Amigo System im Netz bereitgestellten Dienste besitzen Webservice-Schnittstellen

[WWW02], um Methoden für Applikationen oder Dienste bereitzustellen. Die Beschrei-

bung der Schnittstellen kann semantisch mit der im Projekt Amigo entwickelten Sprache

Amigo-S oder rein syntaktisch mit der Web Services Description Language (WSDL) [C+07]

erfolgen. Amigo-S ist eine verallgemeinerte Form der Web Ontology Language for Web Ser-

vices (OWL-S) [DAM06], die gegenüber der OWL-S um Klassen und Eigenschaften für die

Unterstützung von Quality of Service (QoS) und das Kontextbewusstsein erweitert wurde

[MKGI07].

Jeder Amigo Dienst wird mit dem Uniform Resource Name (URN) „urn:amigo“ im Amigo

System gekennzeichnet. Eine URN [M+97] ist eine dauerhafte, ortsunabhängige Bezeich-

nung einer Ressource, die das Schema Uniform Resource Identifier (URI) vom Typ „urn“

[B+05a] verwendet.

Binde(IP,Methoden)

Zeitlicher Ablauf

Suche Methoden

RPC: T = GetTime()

T="11:55"

Aufruf GetTime()

Verzeichnisdienst Dienst

Exportiere Methoden

− Int Add(int m, int n)

− String GetTime()

Applikation

Dienstadresse (IP)

return("11:55")

Quittiere(Bindenummer)

Abbildung 6.3: Interaktion zwischen Applikation und Dienst mittels Webservices

In Abb. 6.3 ist die zeitliche Abfolge der Kommunikation bei der Verwendung eines ex-

portierten Webservices durch eine Applikation gezeigt. Zunächst exportiert der Dienst seine

zwei Methoden (GetTime und Add), indem er sie beim LDAP-Verzeichnisdienst registriert.

Eine Applikation kann diese Methoden über den Verzeichnisdienst suchen und die Adresse

des Dienstes ermitteln. Anschließend bindet die Applikation die Methoden an die Adresse

Middleware und ambiente Intelligenz

und erhält als Quittung die Bindenummer vom Dienst. Durch einen Remote Procedure Call

(RPC) kann nun die Applikation die Methoden des Dienstes verwenden.

6.3 Amigo Architektur

Grundsätzlich gliedert sich die Amigo Architektur in vier Schichten: Plattform, Middleware,

intelligenteDiensteund Applikationen(vgl. Abb.6.4) [J+05]. DieseSchichten werden inden

folgenden Kapiteln näher betrachtet, wobei deren Aufgaben, Funktionen und Schnittstellen

spezifiziert werden.

Plattform System Netzwerk

Dienst Interaktion QoS

Applikationen Amigo Applikationen

Middleware

Profiling

Dienst

Benutzer

Dienst

Intelligente

Dienste

Benutzer

Externe

Dienste

Komposition

Dienst

Amigo

SucheDienst

Kompatibilität

Dienst

Interoperabilität

Verteilung

Speicherung &

Medien/Inhalte

Privatsphäre

Sicherheit &

Faktuierung

Buchführung &

Kontext−

management

Benutzer−

modellierung &

Kontext−Bewusstseins

& Benachrichtigungs−

Mobilitäts−

management

Medien−/Inhalts−

Interoperabler Middleware−Kern

Dienst Suche

Schnittstellen−

Abbildung 6.4: Spezifikation der Amigo Architektur gemäß [J+05]

6.3.1 Plattform

Die vorhandenen Plattformen in einer vernetzten Hausumgebung stellen eine heterogene

Umgebung für die Verwendung von Software dar. Dabei variieren sie in den Bereichen Spei-

cher, Rechenleistung, Betriebssystem, Benutzer- und Netzwerkschnittstellen. Das Spektrum

der anvisierten Geräte, auf denen die Amigo Middleware eingesetzt werden soll, reicht von

Haushaltsgeräten über Smartphones, Notebooks bis hin zur Unterhaltungselektronik. Diese

Geräte nutzen neben den verbreiteten Betriebssystemen Windows, Linux, Windows Mobile

und Symbian OS auch zum Teil hardwarespezifische Softwareumgebungen.

Eine hoher Anteil an Hardwareplattformen wird im Projekt Amigo durch die Verwendung

der auf Java basierenden „Open Services Gateway Initiative“-Plattform (OSGI-Plattform)

[OSG08] abgedeckt. Entwicklerkönnen zudem optionalunter Windowsmit dem .net-Frame-

work Applikationen und Dienste erstellen. Die OSGI-Laufzeitumgebung eignet sich für die

plattformübergreifende Entwicklung von Software, da sie auf allen Geräten mit einer Java

Virtual Machine und ausreichenden Ressourcen ausgeführt werden kann [SS07].

Middleware und ambiente Intelligenz

Eine Applikation auf der OSGI-Plattform gliedert sich in Softwarepakete (engl. Bundles),

deren Lebenszyklen durch die Zustände „Installiert, Startend, Aktiv, Stoppend, Aufgelöst

und Entfernt“ festgelegt sind. Hierbei teilen sich die Applikationen auf einer OSGI-Plattform

die vorhandenen Ressourcen und können applikationsübergreifend aktive Bundles und deren

exportierte Klassen nutzen. Jedes Bundle verfügt über einen Lademechanismus für Klassen

(engl. Class Loader), welcher den Speicherbereich der Klassen (engl. Class Space) verwal-

tet. In diesem Speicherbereich sind drei Arten von Klassen vorhanden:

•Private Klassen: Exklusiv durch das Bundle genutzte und bereitgestellte Klassen.

•Importierte Klassen: Klassen, die von anderen Bundles bereitgestellt werden.

•Exportierte Klassen: Klassen, die für andere Bundles bereitgestellt werden.

Zusätzlich existieren Mechanismen zum Installieren, Starten, Stoppen, Aktualisieren und

Löschen der Bundles. Diese Verwaltungsmechanismen sind besonders im Bereich der Geräte

mit eingeschränkter Benutzerschnittstelle notwendig, um eine Fernwartung zu ermöglichen.

6.3.2 Amigo Middleware

Oberhalb der Plattformschicht ist die Amigo Middleware mit ihrem interoperablen Kern

angesiedelt. Eine der Schlüsseltechnologien des Amigo Systems ist die nahtlose Integration

von heterogenen Strukturen im Bereich etablierter Middleware (z. B. UPnP) und Geräten

in der vernetzten Hausumgebung. Diese Interoperabilität wird mit Hilfe des interoperablen

Middleware-Kerns realisiert.

Interoperabler Middleware-Kern

Eine Middleware muss zum einen Funktionen zur Bekanntmachung und zur Suche von

Diensten im Service Discovery Protocol (SDP) definieren. Zum anderen müssen Metho-

den zur Interaktion im Service Interaction Protocol festgelegt werden. Beide Protokolle sind

Middleware spezifisch und im Allgemeinen zwischen zwei Middleware-Technologien nicht

austauschbar.

Im Amigo System ist die Aufgabe des Middleware-Kerns, eine für die Dienste transpa-

rente Interoperabilität zu schaffen. Dabei vermittelt das „SDP-Detection and Interoperabili-

ty“-Protokoll (SDI-Protokoll) [BI05] die Suchanfragen und Antworten, und das „Service In-

teraction Interoperability“-Protokoll (SII-Protokoll) ermöglicht die Interaktion [SBG+05].

Interoperabilität bedeutet in diesem Zusammenhang, dass zwei unterschiedliche Middle-

ware-Technologien miteinander kommunizieren und interagieren, als ob beide die gleichen

Protokolle verwenden würden.

In Abb. 6.5 ist das Beispiel aus [SBG+05] gegeben, welches die Kommunikationzwischen

einem mobilen Gerät (Personal Digital Assistent,PDA) und einem Medienserver zeigt. Das

mobile Gerät verwendet das Service Location Protocol (SLP) und die Remote Method Invo-

cation (RMI), und der Medienserver nutzt Universal Plug and Play (UPnP) mit dem Simple

Service Discovery Protocol (SSDP) und das Simple Object Access Protocol (SOAP). Dieses

Beispiel wird hier vorgestellt, um die Realisierung der vielfach geforderten Interoperabili-

tät durch die Amigo Middleware zu erläutern. Zunächst initiiert der Benutzer über seinen

PDA durch eine SLP-Anfrage eine Suche nach Medienservern im Netz. Diese Anfrage wird

Middleware und ambiente Intelligenz

erzeugen

Kommunikations−Stub

Stub

Adresse Suche

Stub

RMI

SII

Stub registrieren

PDA

SDI

RMI auf UPnP

Stub

UPnP−Anfrage

Dienstbeschreibung

UPnP− / SOAP−

SLP−Antwort

SLP auf UPnP

UPnP auf SLP

Proxy Generator

RMI auf UPnP

UPnP

Medienserver

RMI Registrar

Proxy Provider

SLP−Anfrage

SLP−Einheit UPnP−Einheit

Abbildung 6.5: Amigo interoperabler Middleware-Kern

von der SLP-Einheit an die UPnP-Einheit weitergegeben und mittels der SDI-Einheit vom

SLP-Protokoll auf das SSDP-Protokoll für UPnP übersetzt. Die UPnP-Einheit erhält vom

Medienserver als Antwort eine Beschreibung der verfügbaren Dienste mittels des SOAP-

Protokolls. Anschließend veranlasst die UPnP-Einheit den Proxy Generator, einen RMI auf

UPnP Kommunikations-Stub zu erstellen und diesen sowohl beim Proxy Provider als auch

bei der SLP-Einheit zu publizieren. Der PDA wird von der SLP-Einheit über die Verfügbar-

keit des RMI-Proxy informiert. Die Adresse des Stubs wird vom Proxy Provider geliefert

und der PDA kann transparent über den Stub mit dem Medienserver kommunizieren, als ob

beide die gleichen Middleware-Technologien verwenden würden.

Middleware

Die Amigo Middleware ist verantwortlich für die Bereitstellung von Grundfunktionen zur

Dienstsuche, Komposition und Interoperabilität. Des Weiteren sind Medien- und Inhalts-

dienste für die Unterhaltungselektronik in der Middleware implementiert, wie z. B. die

Speicherung und Verteilung von Medien. Entsprechend der Nutzerstudien aus [M+05] sind

Dienste zum Schutz der Sicherheit und der Privatsphäre in der Middleware verankert. Ein

Dienst zum Mobilitätsmanagement unterstützt Nutzer bei der Verwendung mobiler Geräte.

6.3.3 Intelligente Dienste

Die intelligenten Benutzerdienste im Amigo System nutzen die Amigo Middleware, um

Grundfunktionen für die Entwicklung von Applikationen in der vernetzten Hausumgebung

bereitzustellen [J+05]. Eine der Kernaufgaben ist die Verwaltung und Verarbeitung von Kon-

textinformationen, um Diensten automatisierte und intelligente Entscheidungen zu ermögli-

chen. Zusätzlich wurden Dienste implementiert, die z. B. bei der Erstellung von Benutzer-

schnittstellen hilfreich sind. Im Folgenden werden die wichtigsten Dienste erläutert.

Informationen über Benutzer und ihre Gewohnheiten werden durch die Benutzermodel-

lierung bereitgestellt. Dieser Dienst erstellt eine Datenbank über Benutzer und macht diese

über eine Webservice-Schnittstelle anderen Diensten zugänglich. Jedes Benutzermodell star-

Middleware und ambiente Intelligenz

tet mit einem Stereotypenmodell, bei dem ein minimaler Satz von Standardeigenschaften

angewendet wird.

DerKontextbewusstseins-und Benachrichtigungsdienststellt Dienstefür die automatisier-

te Benachrichtigung bei Eintreten eines Ereignisses oder einer Kombination von Ereignissen

bereit [ECB06]. Applikationen können hierfür Regeln definieren und beim Dienst hinterle-

gen. Dieser überwacht die Kontextquellen im System und benachrichtigt die Applikation,

sobald eine hinterlegte Regel erfüllt ist.

6.4 Kontextmanagement

Der Amigo Kontextmanagementdienst (engl. Context Management Service,CMS) stellt eine

offene Infrastruktur für das Austauschen von Kontextinformationen bereit [RPS+07]. Hier-

bei werden sowohl Informationen über physikalische Sensoren, Benutzeraktivitäten oder

ausgeführte Applikationen als auch deren Zustände verarbeitet und bereitgestellt. Informa-

tionen, die aus der Kombination von unterschiedlichen Quellen oder deren Abstraktion ent-

stehen, werden dabei als Kontextinformationen bezeichnet. Eine Applikation kann diese

Kontextquellen über den Kontextmanagementdienst nutzen und somit zu einer kontextbe-

wussten Applikation werden.

Das System zum Kontextmanagement beinhaltet drei Arten von Komponenten: Kontext-

quellen, Kontextnutzer und Kontextbroker. Eine Quelle stellt dabei den Nutzern Kontext-

informationen zur Verfügung, wobei der Broker als zentrale Vermittlungsstelle zwischen

diesen fungiert.

6.4.1 Schnittstellendefinition und Kommunikation

Das Projekt Amigo hat durch die Entwicklung der Amigo Middleware eine offene Lösung

für die Vernetzung von Diensten in der häuslichen Umgebung geschaffen. Innerhalb dieser

Middleware nutzen Dienste definierte Verfahren zur Dienstsuche (vgl. Kap. 6.2) und standar-

disierte Schnittstellen für die Kommunikation. Eine von diesen Schnittstellen ist die ICon-

textSource-Schnittstelle, welche einen Satz von vier Webservice-Methoden für das Amigo

Kontextmanagementsystemdefiniert. Kontextquellenund Kontextnutzer müssen diesen Satz

von Methoden implementieren, um im Kontextmanagementsystem miteinander kommuni-

zieren zu können [J+05].

Für die synchrone Kommunikation (vgl. Abb. 6.6 (a)) ist auf der Seite der Kontextquelle

die query-Methode zu implementieren, welche als Übergabeparameter die SPARQL-Frage

nach der Kontextinformation erwartet und als Rückgabewert die Antwort auf die SPARQL-

Frage liefert. Die asynchrone Kommunikation (vgl. Abb. 6.6 (b)) erfordert drei Metho-

den. Dies sind auf der Seite der Kontextquelle die subscribe-Methode und die unsubscribe-

Methode und auf der Seite des Kontextnutzers die notify-Methode.

Die Kommunikation zwischen Kontextquelle und Kontextnutzer kann auf zwei Arten er-

folgen. In Abb. 6.6 (a) ist zunächst die synchrone Kommunikation dargestellt. Hierbei re-

gistriert sich die Kontextquelle mit einer Beschreibung ihrer Eigenschaften beim Kontext-

broker und hinterlegt die Adresse zum Aufruf ihrer Webservice-Methoden. Eine Applikation

kann zunächst den Kontextbroker durch ein Webservice-Lookup im Netzwerk finden und

anschließend eine Quellensuche durch die Spezifikation der Anforderungen an die Quelle

Middleware und ambiente Intelligenz

Applikation

Registrierung

(Eigenschaften) Quellensuche

(Anforderungen)

Liste Kontextquellen

Antwort

Registrierung löschen

Kontext− Kontext−

quelle broker

Kontextfrage (SPARQL)

(a) Synchrone Kommunikation

Applikation

Registrierung

(Eigenschaften) Quellensuche

(Anforderungen)

Liste Kontextquellen

Subskription (SPARQL)

falls Ereignis eintritt

Asynchrone Benachrichtigung

Registrierung löschen

Abmelden

Kontext− Kontext−

quelle broker

(b) Asynchrone Kommunikation

Abbildung 6.6: Kommunikation zwischen Kontextquelle und Applikation

eingrenzen. Die Applikation stellt dann eine auf SPARQL basierende Kontextfrage, worauf

die Kontextquelle direkt antwortet. Dieses Kommunikationsverfahren eignet sich zum direk-

ten Abfragen von Informationen. Es ist jedoch weniger geeignet, falls die Applikation auf

ein bestimmtes Ereignis reagieren soll. Ein kontinuierliches Abfragen von Kontextquellen

erzeugt entweder eine hohe Last durch häufige Anfragen oder hat eine hohe Latenz bis die

Änderungen bekannt werden, falls die Applikation nur selten Anfragen stellt.

Eine Beobachtung von Sensoren ohne zyklisches Abfragen der Kontextquelle kann durch

die asynchrone Kommunikation erfolgen (vgl. Abb. 6.6 (b)). Die Applikation fordert wie im

synchronen Fall die Liste der Kontextquellen an. Bei diesen führt sie eine Subskription mit

einer SPARQL-Frage durch und übergibt dabei die Adresse der Webservice-Methode (no-

tify-Methode), welche die Kontextquelle zur Benachrichtigung verwenden soll. Als Rückga-

bewert erhält die Applikation eine eindeutige Identifikationsnummer für die Registrierung,

welche in der unsubscribe-Methode verwendet wird, um die Subskription rückgängig zu

machen. Findet nun ein Ereignis statt, welches zur SPARQL-Frage der Applikation passt,

so wird diese über die neuen Kontextinformationen informiert. Hierzu nutzt die Kontext-

quelle die notify-Methode der Applikation, deren Funktionsparameter auf die Antwort der

SPARQL-Frage gesetzt wird.

6.4.2 Kontextbewusste Applikationen

Eine Applikation wird von einem Benutzer als „intelligent“ wahrgenommen, falls die von

der Applikation getroffenen Entscheidungen dem Nutzer sinnvoll erscheinen. Hierzu benö-

tigt diese Zugriff auf Kontextinformationen, so dass die Applikation den aktuellen Kontext

erfassen kann. Die verfügbaren Kontextinformationen werden in der Applikation mitein-

ander verknüpft und anhand von Entscheidungsregeln ausgewertet. Anschließend kann die

Applikationeine kontextbewussteEntscheidung treffen, welchevom Nutzer als „intelligent“,

im Sinne von kontextabhängig, wahrgenommen wird.

Die Idee des Amigo Systems ist, zunächst jede Art von Information durch eine Kontext-

quelle zu abstrahieren und diese anschließend miteinander zu verknüpfen. Dies kann durch

Dienste erfolgen, die Informationen eines Typs bündeln und sie als neue Kontextquelle wie-

der verfügbar machen. Als Beispiel kann hier der Location Management Service (LMS) ge-

Middleware und ambiente Intelligenz

nannt werden. Dieser Dienst kombiniert die unterschiedlichen Positionsinformationen aus

beispielsweise RFID-Systemen, akustischen Lokalisierungstechniken und anderen Quellen

in einer zentralen Datenbank und stellt anschließend diese Datenbank als Kontextquelle an-

deren Applikationen zur Verfügung.

Ein weiterer Ansatz zum Aufbau „intelligenter Applikationen“ ist die semantische Suche

nach Kontextquellen im vernetzten Haus mit Hilfe der Amigo Middleware und der Ver-

knüpfung der verfügbaren Informationen in der Applikation selbst. Eine Applikation wird

als kontextbewusste Applikation bezeichnet, falls ein Teil der Entscheidungen automatisiert

durchgeführt wird und dabei auf Kontextinformationen beruht und nicht nur auf Eingaben

eines Benutzers.

6.4.3 Akustische Szenenanalyse als Kontextquelle

Die akustische Szenenanalyse nutzt die Signale der im Haus verteilten Mikrophongruppen,

um gleichzeitig Positionsschätzungen und Identifikationen von Personen und Ereignissen

durchzuführen. Die hierbei generierten Kontextinformationen werden Diensten im Amigo

System zur Verfügung gestellt.

Room

RelativeLocation User

02.03.2009

18:00:01

AcousticPositionEstimate

estimatedPosition

isPositionOf

identifier

XYNutzer A

relativeToSpace

Raum X

identifier

timestamp

2,0m 1,5m

Abbildung 6.7: Beispiel einer Kontextinformation der akustischen Szenenanalyse

In Abb. 6.7 ist beispielhaft eine Kontextinformation der akustischen Szenenanalyse für

eine Personenlokalisation dargestellt. Zur Vereinfachung des Graphen wurden die Präfixe der

Ontologie weggelassen, welche in [R+08] definiert ist. Die enthaltene Kontextinformation

sagt aus, dass der Nutzer Asich zum angegebenen Zeitpunkt im Raum Xan der Stelle

X= 2,0 m und Y= 1,5 m befand.

Betrachtet man das gesamte Aufgabenspektrum der akustischen Signalverarbeitung, so

muss neben der akustischen Szenenanalyse auch der Aspekt der Kommunikation berück-

sichtigt werden. Da die akustische Szenenanalyse nicht nur die Signale analysiert, sondern

auch eine Störgeräuschunterdrückung durchführt, sollten folglich zur Rechenzeitersparnis

die entstörten Signale der akustischen Szenenanalyse für die Kommunikation genutzt wer-

den. Um Überlastungen des Systems und infolgedessen Aussetzer des Audiodatenstroms

während der Kommunikation vorzubeugen, wird die Bereitstellung von Kontextinformati-

onen aus der akustischen Szenenanalyse (ASA) durch das gesonderte OSGI-Bundle „OS-

GI:ASA“ auf einer OSGI-Plattform durchgeführt. Dieses Bundle wird durch eine Interpro-

zesskommunikation auf Basis eines UDP-Datenstroms mit dem Modul der Sprecherproto-

kollierung verbunden.

Middleware und ambiente Intelligenz

Nachdem nun die Architektur der Amigo Middleware und die verfügbaren Dienste vorge-

stellt wurden, wird im folgenden Kapitel die Realisierung der ambienten Kommunikationauf

Basis des Amigo Systems dargestellt. Diese Anwendung ist ein Beispiel für einen kontextbe-

wussten Dienst, der unabhängig von expliziten Benutzereingaben Entscheidungen trifft und

somit als ein Schritt in die Richtung von ambienter Intelligenz angesehen werden kann.

7 Ambiente Kommunikation

Das Konzept der ambienten Intelligenz beschreibt das Entfernen von Geräten aus dem Um-

feld der Benutzer bei gleichzeitiger Bereitstellung der zuvor durch die Geräte verfügbaren

Dienste [AM04]. Überträgt man dieses Konzept auf den Bereich der Kommunikation, be-

deutet dies ein Entfernen der klassischen Kommunikationsgeräte, wie z. B. des Telefons,

und den Übergang von der geräteorientierten Kommunikation zur Freisprechfunktionalität.

Der Benutzer muss nun nicht mehr ein Telefon zur Kommunikation aufsuchen und mit sich

tragen, sondern kann jederzeit auch ohne Gerät kommunizieren [SLH08].

Ein wichtiger Aspekt der ambienten Kommunikation, welcher aus der Forderung nach ei-

ner freien Kommunikation folgt, ist die Realisierung von sog. Follow-Me-Fähigkeiten. Unter

dem Begriff „Follow-Me“ wird im Rahmen dieser Arbeit die Fähigkeit des Systems beschrie-

ben, eine Kommunikation dem Benutzer automatisch und somit kontextabhängig folgen zu

lassen. Ein Benutzer kann eine Kommunikation in einem Raum starten und sich anschlie-

ßend frei in seiner Wohnumgebung bewegen, während das System dafür sorgt, dass das Ge-

spräch automatisch dem Benutzer folgt. Hierdurch treten die technischen Randbedingungen

der Kommunikation in den Hintergrund, während der Benutzer seinen täglichen Arbeiten

nachgeht.

Im Folgenden werden das Seamless Audio Interface (SAInt) und seine Komponenten vor-

gestellt, welches zur Realisierung einer ambienten Kommunikation verwendet werden kann.

Nach der Vorstellung der Systemarchitektur und der Integration in die Middleware werden

die grundlegenden Module zur Signalverarbeitung erläutert. Zum Abschluss wird die Erwei-

terung des Systems um Komponenten zur audio-visuellen Kommunikation diskutiert. Um

eine klare Trennung zwischen dem Middleware-Dienst und der signalverarbeitenden Kom-

ponente vorzunehmen werden folgende Begriffe verwendet: Der „SAInt-Dienst“ wird für

das OSGI-Bundle von SAInt verwendet, welches für die Kommunikation mit der Middle-

ware verantwortlich ist. Das „SAInt-Modul“ bezeichnet das Spark-Modul1, welches als Teil

der Signalverarbeitung für das Routing der Audiodaten und die Echtzeitkommunikation ver-

antwortlich ist.

7.1 Systemarchitektur und Middleware-Integration

Die Systemarchitektur der ambienten Kommunikation, dargestellt in Abb. 7.1, teilt sich auf

in die vier Bereiche Hardware, Signalverarbeitung, Echtzeitkommunikation und kontext-

abhängige Steuerung. Der Begriff Hardware umfasst die verteilten Mikrophone und Laut-

1Das Speech processing and recognition toolkit (Spark) ist eine modulare Software des Fachgebietes Nach-

richtentechnik zur digitalen Signalverarbeitung auf Computern.

Ambiente Kommunikation

RTP(A)

RTP(B)

RTP(C)

AEC

Strahlformung

adaptive

AEC

Signalverarbeitung

Nutzer A

Nutzer B

Nutzer C

Raum Y

Raum X

Raum Z

Haus

Hardware

Echtzeitkommunikation

kontextabhängige

Steuerung

IPC

Nachfilter

Spark:SAInt

OSGI:SAInt

Mikrophone & Lautsprecher JACK

Abbildung 7.1: Blockschaltbild der Systemkomponenten der ambienten Kommunikation

sprecher im Haus, die entweder in Wänden oder Geräten integriert sind, sowie die zu de-

ren Betrieb notwendigen Verstärker und Analog-Digital/Digital-Analog-Wandler (AD/DA-

Wandler). Die Schnittstelle zwischen der Hardware und der Software wird mittels dem Jack

Audio Connection Kit (JACK) [JAC08] realisiert, um eine geringe Latenz an der Schnittstelle

zwischen Hardware und Software (HW/SW) zu erzielen.

Die Signale aus den Mikrophonen werden in der Signalverarbeitung einer Echounterdrü-

ckung und einer Störgeräuschfilterung sowie gegebenenfalls einer adaptiven Strahlformung

unterzogen. Die Echounterdrückung teilt sich hierbei in die adaptive Echounterdrückung

(engl. Adaptive Echo Canceler,AEC) und in ein Nachfilter zur Reduktion der verbliebe-

nen Restechos auf. Innerhalb des Nachfilters wird neben der Unterdrückung der Restechos

auch die Unterdrückung der Störgeräusche durchgeführt. Falls mehrkanalige Aufnahmen aus

Mikrophongruppen verwendet werden, so muss vor der adaptiven Strahlformung die Unter-

drückung der Echos erfolgen.

Bei der echtzeitfähigen Kommunikation können zwei Fälle unterschieden werden. Dies

ist zum einen die interne Kommunikation, bei der eine Verbindung zwischen zwei Personen

im selben Haus aufgebaut wird. Zum anderen ist es die externe Kommunikation zwischen

einer lokalen Person und einer entfernten Person. Das SAInt-Modul muss im ersten Fall die

Daten wie ein Router zwischen den Räumen austauschen. Für den zweiten Fall, dass ein

Kommunikationspartner nicht im Haus ist, verbindet das SAInt-Modul die Nutzer über eine

„Internet Protocol“-Verbindung (IP-Verbindung) mittels des Real-Time Transport Protocols

(RTP). In Abb. 7.1 sind beispielhaft eine lokale Verbindung zwischen den Nutzern A und B

sowie eine externe Verbindung des Benutzers C aus dem Raum Z dargestellt. Die Signalver-

arbeitung des SAInt ist in der Lage, mehrere Verbindungen gleichzeitig zu unterstützen. Es

ist als fortlaufend aktives System konzipiert, um mögliche Verzögerungen durch Startzeiten

auszuschließen. Da es zudem dauerhaft die Signalverarbeitung für alle Räume durchführt,

ist die Systemauslastung konstant und nicht durch Lastspitzen geprägt.

Integration in die Amigo Middleware

Die für die Steuerung der Kommunikation benötigten Kontextinformationen werden aus

der Amigo Middleware bezogen. Der SAInt-Dienst registriert sich hierzu bei den benötig-

Ambiente Kommunikation

ten Kontextquellen mit Hilfe des Kontextbrokers und baut eine Interprozesskommunikation

(engl. Inter Process Communication,IPC) zum SAInt-Modul auf. Zusätzlich werden über

diese IPC-Schnittstelle in der umgekehrten Richtung die gewonnenen Kontextinformationen

anderen Applikationen und Diensten im Amigo System zur Verfügung gestellt.

SAInt GUI

Szenenanalyse

Akustische

Position

Bluetooth

RFID

ACS

Signalverarbeitung

Lautsprecher

Mikrophone &

Signalverarbeitung

Lautsprecher

Mikrophone &

IPC

Haus A Applikation

LMS

IPC

RFID

IPC

OSGI:ASA

Signalverarbeitung Middleware

LMS

Internet

Legende

Haus B

Applikation

Audiodaten

UDP

HW/SW JACK HW/SW JACK

Webservice

RTP−Daten

OSGI:SAIntOSGI:SAInt

Spark:SAInt Spark:SAInt

Abbildung 7.2: Blockschaltbild zur Integration von SAInt in die Amigo Middleware

In Abb. 7.2 sind die Abhängigkeiten der verschiedenen Komponenten und die Datenströ-

me für eine Kommunikation zwischen zwei Häusern dargestellt. Wie bereits in Abb. 7.1

detaillierter gezeigt wurde, verbindet JACK die Hardware mit der Signalverarbeitung. An

dieser Stelle werden auch die Audiodaten für die akustische Szenenanalyse entnommen,

deren Kontextinformationen über die Kontextquelle OSGI:ASA der Middleware zur Verfü-

gung gestellt werden. Der untere Teil der Abb. 7.2 zeigt die Signalverarbeitung, die durch

IPC-Schnittstellen mit den Diensten der Middleware verbunden ist. Der Datenaustausch in-

nerhalb der Middleware wird durch Webservice-Aufrufe realisiert und basiert im Falle von

Kontextquellen auf der IContextSource-Schnittstelle (vgl. Kap. 6.4.1).

Im Haus A sind als Lokalisierungstechniken die akustische Szenenanalyse und ein RFID-

System vorhanden. Die Daten der beiden Kontextquellen werden im LMS zu einer neuen

Kontextquelle zusammengefasst. Diese wird durch den SAInt-Dienst („OSGI:SAInt“) zur

Lokalisierung von Benutzern verwendet. Gleichzeitig interagieren eine Applikation und die

graphische Schnittstelle von SAInt („SAInt GUI“) mit dem SAInt-Dienst. Im Haus B befindet

sich neben einem RFID-System auch eine Positionsbestimmung auf Basis von BluetoothR

-

Signalen.

Die Kommunikation zwischen den Häusern verwendet die entstörten Signale aus der Si-

gnalverarbeitung. Diese werden durch das SAInt-Modul entweder direkt im Haus oder über

eine RTP-Verbindung weitergeleitet. Hierbei wird ein Kommunikationsdienst(engl. Ambient

Communication Service,ACS) auf einem entfernten Server verwendet, welcher für den Sit-

zungsaufbau und die Behandlung der Übersetzung von Netzwerkadressen (engl. Network

Address Translation,NAT) zuständig ist.

Ambiente Kommunikation

7.2 Signalverarbeitung

Die Aufgabe der Signalverarbeitung ist eine adaptive Filterung der Mikrophonsignale vor

der Übertragung durch das Kommunikationssystem.Hierbei wird sowohl eine Echounterdrü-

ckung als auch eine Störgeräuschreduktion durchgeführt. Eine Echounterdrückung ist nötig,

da die empfangenen Signale des entfernten Sprechers über die Lautsprecher wiedergege-

ben werden und über die Mikrophone im selben Raum aufgenommen werden. Falls keine

Filterung der Signale durchgeführt wird, so kann der entfernte Sprecher sein eigenes Echo

hören. Wird auf beiden Seiten eine Freisprecheinrichtung verwendet, so kann es zu einer

Rückkopplung der Signale und einem Aufschwingen des Systems kommen. Die Echounter-

drückung ist somit nicht nur für den subjektiven Höreindruck der Nutzer wichtig, sondern

auch für die Stabilität des Übertragungssystems notwendig. Die Nachfilterung der Mikro-

phonsignale hinsichtlich möglicher stationärer Störungen ist optional, da es im Rahmen der

ambienten Kommunikation durchaus erwünscht sein könnte, dass Hintergrundgeräusche zur

Einordnung der aktuellen Aktivitäten mit übertragen werden.

Steuerlogik

Verzögerung

Begrenzer

VAD

Lautsprecher

JACK

Mikrophon

JACK

Nachfilter

Adaptive

Echounterdrückung

nahe Sprecher

Detektor für

Spark:SAInt

Abbildung 7.3: Blockschaltbild zur Echounterdrückung und Störgeräuschfilterung des SAInt

Die Abb. 7.3 zeigt das Blockschaltbild der Signalverarbeitung zur Echounterdrückung und

Störgeräuschfilterung, wie es im Amigo System zur ambienten Kommunikation verwendet

wird. Die Signalverarbeitung in Spark arbeitet nach dem Prinzip eines diskreten Ereignis-

systems und ist modular aufgebaut. Jedes Modul wird einmal ausgeführt, sobald an jedem

Eingang des Moduls ein Datenpaket anliegt. Somit sind rekursive Strukturen, bei denen Ein-

gänge von Modulen von deren Ausgängen abhängig sind, nicht mit Spark realisierbar. Die

in Abb. 7.3 eingezeichnete Rückkopplung der wiedergegebenen Signale des entfernten Spre-

chers, welche in der Echounterdrückung benötigt wird, erfolgt über JACK [JAC08]. Hierzu

wird ein virtueller Lautsprecher in JACK erzeugt und intern mit einem virtuellen Mikro-

phon verknüpft (gestrichelte Linie). Sollte es bei JACK durch eine zu hohe Rechenlast zu

Paketverlusten kommen, so verliert die wiedergegebene Tonspur im virtuellen Mikrophon

die gleiche Anzahl an Paketen wie die Tonspuren der aufgenommen Mikrophonsignale. Es

besteht somit nicht die Gefahr, dass die beiden Tonspuren zeitlich auseinanderlaufen. Im Fol-

genden werden die signalverarbeitenden Module und ihre zugrunde liegenden Algorithmen

erläutert.

Ambiente Kommunikation

7.2.1 Begrenzer

Der Begrenzer ist eine notwendige Komponente, um die Stabilität des Systems im Falle von

lauten Störungen zu gewährleisten. Bei akustischen Ereignissen mit hohen Energien, wie

z. B. einer laut rufenden Person in der Nähe eines Mikrophons oder einer zuschlagenden

Tür, kann die begrenzte Dämpfung der Echounterdrückung auf der entfernten Seite kurzzei-

tig nicht ausreichen und es kommt zu einer aufschwingenden akustischen Rückkopplung in

Form eines Pfeifens. Der Begrenzer nach [Zöl97] dämpft die Eingangssignale, deren Ener-

gie oberhalb einer festgelegten Schwelle liegt, auf den Schwellwert und beeinflusst Signale

unterhalb der Schwelle nicht.

Zunächst wird der geglättete Spitzenwert xp(n)der Energie |x(n)|eines Blocks über den

zeitlichen Verlauf der Signalblöcke x(n)mit

xp(n) = (1 −τA−τR)xp(n−1) + τA|x(n)|für |x(n)|> xp(n−1)

(1 −τR)xp(n−1) |x(n)| ≤ xp(n−1) (7.1)

bestimmt. Die Parameter τAfür die Anstiegszeit und τRfür die Abfallzeit beeinflussen die

Stärke der Glättung und sind in informellen Experimenten im Akustiklabor zu τA= 0,9und

τR= 0,005 bestimmt worden. Anschließend wird der Gewichtsfaktor Γ(n)entsprechend des

Schwellwertes γTdurch

Γ(n) = β·Γ(n−1) für log {xp(n)}> γT

β·Γ(n−1) + (1 −β) log {xp(n)} ≤ γT(7.2)

berechnet. Die Glättungskonstante wurde experimentell zu β= 0,9bestimmt. Das Aus-

gangssignal des Begrenzers ergibt sich aus der Multiplikation des Eingangssignalblocks

x(n)mit der Dämpfung Γ(n).

Für den Fall, dass die Bedingung log {xp(n)}> γTerfüllt ist, wird der logische Ausgang

des Moduls für mehrere Blöcke auf „Wahr“ gesetzt. Dies signalisiert dem nachfolgenden

adaptiven Filter die künstliche Begrenzung der Eingangssignale und verhindert so eine mög-

liche fehlerhafte Adaption.

7.2.2 Sprachaktivitätsdetektion

Die Sprachaktivitätsdetektion (engl. Voice Activity Detection,VAD) ist eine der entscheiden-

den Komponenten im System, da basierend auf der Sprachaktivitätsdetektion Entscheidun-

gen in der Strahlformung, der Echounterdrückung, der Positionsschätzung und der Sprecher-

identifikation vorgenommen werden. Jedes dieser Teilaufgabengebiete hat spezielle Anfor-

derungen an eine Sprachaktivitätsdetektion, die eine VAD alleine nicht erfüllen kann. Eine

VAD kann entweder Sprache von Hintergrundgeräuschen sicher unterscheiden, was dazu

führt, dass Teile der Sprache mit wenig Energie als Geräusche klassifiziert werden, oder ei-

ne VAD kann so eingestellt werden, dass auch Sprachanteile mit geringer Energie gefunden

werden, was dazu führt, dass Störgeräusche häufiger als Sprache klassifiziert werden.

Die akustische Strahlformung soll die Richtcharakteristik der Mikrophongruppe auf einen

Benutzer immer dann anpassen, sobald dieser spricht. Störgeräusche, wie z. B. Türen oder

Lüfter, sollen hingegen ignoriert werden. Ein effizienter Ansatz hierzu wurde in [RS04] vor-

gestellt. Hierbei werden im Zeitbereich Mittelwerte der Energie berechnet und miteinander

Ambiente Kommunikation

verglichen. Übersteigt der über ein kurzes Fenster gemittelte Wert der Energie den langfris-

tig gemittelten Wert für die Hintergrundstörung, so wird eine Entscheidung für Sprachakti-

vität getroffen. Dieser Ansatz liefert in Umgebungen mit geringen Störungen sowohl für die

Steuerung der akustischen Strahlformung als auch für Entscheidungen für die Adaption der

Filter in der Echounterdrückung gute Ergebnisse. Die Leistungsfähigkeit sinkt jedoch mit

ansteigendem Pegel der Störungen, so dass in stark gestörten Umgebungen aufwändigere

Ansätze, wie z. B. in [WSH07] vorgeschlagen, verwendet werden müssen.

Die Sprecherprotokollierung besitzt andere Anforderungen an die Sprachaktivitätsdetek-

tion als die akustische Strahlformung. Entsprechend der in der Spracherkennung verwen-

deten Verfahren, soll eine VAD zur Sprecherprotokollierung möglichst zusammenhängende

Segmente von Sprache erkennen und diese auch zusammenhängend kennzeichnen. Selbst

Sprachanteile mit geringer Energie sollen als Sprache gekennzeichnet werden. Somit wird

es nötig, einen Sicherheitsbereich um einen Bereich erkannter Sprache zu definieren, wel-

cher auch der Sprache zugeordnet wird. Dies führt zwangsläufig zu einer Vergrößerung der

Latenz der Sprachaktivitätsentscheidung in der Größenordnung des Sicherheitsbereichs vor

der erkannten Sprache. Da zur Merkmalsextraktion und zur Entstörung bereits das Advanced

Frontend ETSI nach [ETS02] verwendet wird, kann auch die dort beschriebene Erweiterung

zur Sprachaktivitätsdetektion verwendet werden. Diese ist zur Verwendung mit einem Spra-

cherkenner optimiert und erfüllt die zuvor beschriebenen Anforderungen.

7.2.3 Echounterdrückung

Die Module der Echounterdrückung benötigen zur Neuschätzung der adaptiven Filter In-

formationen über die Sprachaktivität der Kommunikationsteilnehmer. Hierbei kann die Ent-

scheidung bezüglich des entfernten Sprechers durch die Verwendung einer VAD auf den

empfangenen Signalen getroffen werden. Ein lokaler Sprecher kann ebenfalls durch eine

VAD detektiert werden, falls der entfernte Sprecher nicht aktiv ist. Da jedoch die Möglich-

keit besteht, dass auf beiden Seiten die Sprecher aktiv sind, muss eine Detektion des na-

hen Sprechers durchgeführt werden. Dies erfolgt im Detektor für nahe Sprecher (engl. Near

Speaker Detector,NSD), welcher seine Entscheidung auf Grund der Mikrophonsignale, der

wiedergegeben Signale und der geschätzten Raumimpulsantwort trifft.

Die Echounterdrückung schätzt durch die Adaption des AEC-Filters die unbekannte Über-

tragungsfunktion zwischen Mikrophon und Lautsprecher. Da diese Übertragungsfunktion

nichtnurdurchdie AnordnungderMikrophoneundLautsprecher, sondernmaßgeblichdurch

den Raum bestimmt ist, wird die Fourier-Rücktransformierte dieser Übertragungsfunktion

abkürzend als Raumimpulsantwort bezeichnet. Im AEC wird ein Filter mit endlicher Filte-

rimpulsantwort (engl. Finite Impulse Response,FIR) zur Schätzung der Raumimpulsantwort

verwendet, so dass im Allgemeinen Restechos im Ausgangssignal des AEC verbleiben. Die-

se werden durch ein Nachfilter soweit reduziert, dass sie durch den entfernten Sprecher nicht

mehr wahrgenommen werden können.

Dieser zuvor beschriebene Ansatz zur Echounterdrückung hat den Nachteil, dass für eine

verlässliche Entscheidung der NSD zunächst eine gute Schätzung der Raumimpulsantwort

vorliegen muss. Die Raumimpulsantwort kann aber nur korrekt geschätzt werden, falls wäh-

rend der Adaption kein lokaler Sprecher aktiv ist. Somit bedingt die Schätzung der NSD auch

die Adaption des AEC und umgekehrt. Geht man davon aus, dass das System zur ambienten

Kommunikation fest im Haus installiert ist, kann eine Vorschätzung der Raumimpulsantwort

Ambiente Kommunikation

während der Installation vorgenommen werden. Diese wird als Startwert für die adaptiven

Filter des AEC verwendet und der NSD kann von Beginn an gute Schätzungen für das Vor-

handensein eines lokalen Sprechers vornehmen.

Detektion eines nahen Sprechers

Die Detektion eines nahen Sprechers erfolgt entsprechend [BMC00] durch die Kreuzkor-

relation zwischen dem wiedergegeben Signal und dem aufgenommenen Signal. Dabei sei

die Raumimpulsantwort mit h= [h1,...,hN]Tgegeben. Dies führt auf die NSD-Entschei-

dungsvariable

ξ=phTφxxh

phTφxxh+σ2

(7.3)

mit σ2

sals der Varianz des lokalen Sprechersignals und φxx der Matrix der Autokorrelations-

terme des wiedergegebenen Signals. Ist der lokale Sprecher inaktiv, so gilt ξ= 1, und für

einen aktiven lokalen Sprecher ist ξ < 1.

Da die Filterung eines Signals effizienter im Frequenzbereich als im Zeitbereich durchge-

führt werden kann, wird für die ambiente Kommunikationdie in [GB01] vorgestellte Berech-

nung der Entscheidungsvariablen ξim Frequenzbereich genutzt. Hierbei werden blockweise

die Auto- und Kreuzkorrelation der Signale im Frequenzbereich geschätzt und anschließend

zeitlich geglättet. Der Zähler der Entscheidungsvariablen in Gl. 7.3 wird durch eine Multi-

plikation der geschätzten Raumimpulsantwort mit der Kreuzkorrelation zwischen wiederge-

gebenem und aufgenommenem Signal näherungsweise bestimmt. Der Nenner ist durch die

Autokorrelation des Mikrophonsignals gegeben.

Adaptive Filterung

Die Echounterdrückung ist eine Systemidentifikationsaufgabe, bei der das unbekannte Über-

tragungssystem zwischen Mikrophon und Lautsprecher durch ein adaptives Filter geschätzt

werden soll [Hay02]. Dabei wird ein FIR-Filter zur Nachbildung der unbekannten Raum-

impulsantwort blockweise durch Anwendung eines „Normalized Least Mean Square“-Algo-

rithmus (NLMS-Algorithmus) adaptiert [BH03]. In Abb. 7.4 ist der prinzipielle Aufbau der

Raum

Sprecher

Störung

Nachfilterungadaptives Filter

r(n)

s(n)

w(n)

h(n)

x(n)

e(n)

y(n)

AEC

Nachfilter

Abbildung 7.4: Blockschaltbild der adaptiven Filterung zur Echounterdrückung

Echounterdrückung dargestellt. Das aufgenommene Mikrophonsignal y(n)setzt sich aus der

lokalen Störung r(n), dem lokalen Sprecher s(n)und dem mit der Raumimpulsantwort h(n)

gefalteten Signal des entfernten Sprechers x(n)zusammen.

Ambiente Kommunikation

Die Adaptionsgleichung des Filters wist mit

w(n+ 1) = w(n) + µ(n)·x(n)·e(n)

|x(n)|2(7.4)

gegeben, mit µ(n)als Schrittweite und e(n)als Fehlersignal.

Die Vorteile des NLMS-Algorithmus liegen in der niedrigen Komplexität des Algorith-

mus (Filterlänge N,ONLMS ∼2N, [Hay02]) und seiner Robustheit gegenüber Störungen

und falschen Entscheidungen zur Adaption. Nachteilig ist die langsame Konvergenz bei

zeitlichen Änderungen des zu identifizierenden Systems, wobei dies in der Anwendung der

ambienten Kommunikation eine geringere Rolle spielt. Aufgrund des festen Aufbaus stellt

die Anordnung der Mikrophone und Lautsprecher ein zeitlich näherungsweise konstantes

System dar, das nur geringe Anpassungen der geschätzten Filter bedarf. Folglich kann eine

kleine Schrittweite µ(n)gewählt werden, wodurch der Einfluss fehlerhafter Entscheidungen

durch den NSD minimiert wird.

Die Implementierungdes AEC erfolgt, wiezuvor beimNSD, im Frequenzbereich mit Hilfe

eines Overlap-Save-Verfahrens. Zusätzlich wird die Filterung partitioniert durchgeführt, um

eine unabhängig von der verwendeten Filterlänge konstant niedrige Latenz des AEC-Moduls

zu erzielen (vgl. [DES99]).

Das Ausgangssignal des AEC enthält neben lokalen Störungen r(n)auch Restechos b(n),

weil das endliche Filter des AEC auf Grund seiner Länge nur einen Teil der Raumimpuls-

antwort nachbilden kann. Jedoch werden in einem nachgeschalteten Filter diese Restechos

zusammen mit den lokalen Störgeräuschen soweit reduziert, dass sie für den Benutzer nicht

mehr wahrnehmbar sind.

Nachfilter

Die Nachfilterung des AEC-Ausgangssignals wurde entsprechend dem Vorschlag in [LK07]

implementiert. Das Ausgangssignal des AEC ergibt sich zu

e(n) = h(n)∗x(n) + s(n) + r(n)−w(n)∗x(n)(7.5)

= (h(n)−w(n)) ∗x(n)

|{z }

b(n)

+s(n) + r(n)(7.6)

mit b(n)als dem verbleibenden Restecho des entfernten Sprechers. Unter der Annahme, dass

das Signal des lokalen Sprechers, die lokale Störung und das Restecho statistisch unabhängig

sind gilt

E(m, ω) = B(m, ω) + S(m, ω) + R(m, ω)(7.7)

mit E(m, ω), S(m, ω), R(m, ω)und B(m, ω)als den Frequenzspektren der Signale e(n),

s(n),r(n)und b(n)im betrachteten Signalblock m. Grundidee in [LK07] ist die Einführung

von vier Hypothesen über die Signalanteile im momentanen Mikrophonsignal:

•H0: Störgeräusche E(m, ω) = R(m, ω).

•H1: Störgeräusche und lokaler Sprecher E(m, ω) = R(m, ω) + S(m, ω).

•H2: Störgeräusche und entfernter Sprecher E(m, ω) = R(m, ω) + B(m, ω).

Ambiente Kommunikation

•H3: Störgeräusche, entfernter Sprecher und lokaler Sprecher

E(m, ω) = R(m, ω) + B(m, ω) + S(m, ω).

Die Unterscheidung zwischen den beiden Hypothesengruppen H0, H1und H2, H3kann

zuverlässig durch eine Sprachaktivitätsdetektion auf dem Signal des entfernten Sprechers

durchgeführt werden. Der Test zwischen den Hypothesen innerhalb der Gruppen entspricht

dem Problem der zuvor vorgestellten Detektion eines nahen Sprechers.

Die Übertragungsfunktion des Nachfilters ergibt sich nach [LK07] zu

F(m, ω) = ξ(m, ω)·ζ(m, ω)

ξ(m, ω)·ζ(m, ω) + ξ(m, ω) + ζ(m, ω)(7.8)

mit dem a priori SNR

ξ(m, ω) = αξσ |E(m, ω)|2

Rn(m, ω)−1!+ (1 −αξ)|F(m−1, ω)E(m−1, ω)|2

Rn(m, ω)(7.9)

und dem a priori Signal-zu-Echoverhältnis (engl. Signal to Echo Ratio,SER)

ζ(m, ω) = αζσ |E(m, ω)|2

Rb(m, ω)−1!+ (1 −αζ)|F(m−1, ω)E(m−1, ω)|2

Rb(m, ω).(7.10)

Dabei sei b

Rn(m, ω)die Schätzung des Leistungsdichtespektrums des lokalen Rauschens,

Rb(m, ω)die Schätzung des Leistungsdichtespektrums des Restechos und σ() die Einheits-

sprungfunktion. Die Parameter werden zu αξ= 0,99 und αζ= 0,95 gewählt.

Da die ambiente Kommunikation auch die Übertragung von Geräuschen aus der Umge-

bung der Kommunikationspartner optional mit einschließen soll, ist eine Modifikation des

Filters aus Gl. 7.8 notwendig. Entsprechend der Idee aus [GJKV99] ergibt sich die neue

Filterfunktion zu

F(m, ω) = ξ(m, ω)·ζ(m, ω) + βξξ(m, ω) + βζζ(m, ω)

ξ(m, ω)·ζ(m, ω) + ξ(m, ω) + ζ(m, ω)(7.11)

mit dem Parameter βξzur Steuerung der Unterdrückung lokaler Störungen und βζzur Be-

einflussung der Restechounterdrückung. Dieser Ansatz bietet zudem den Vorteil, dass Stö-

rungen, wie z. B. Musical Tones, durch eine gute Wahl der Parameter vermieden werden

können, indem eine Reststörung in den Signalen toleriert wird.

7.3 Echtzeitkommunikation

Das SAInt-Modul unterscheidet bei der Echtzeitkommunikation zwei Arten von Verbindun-

gen. Zum einen sind dies lokale Verbindungen zwischen Personen im Haus und zum anderen

externe Verbindungen zwischen lokalen und entfernten Personen. Im ersten Fall müssen die

Personen im Haus lokalisiert und anschließend eine Audioverbindung über die entsprechen-

den Mikrophone und Lautsprecher aufgebaut werden. Der zweite Fall erfordert eine Positi-

onsbestimmung des lokalen Teilnehmers und den Aufbau eines echtzeitfähigen Datenstroms

über ein IP-basiertes Netzwerk. Eine Lokalisation von Nutzern erfolgt lokal immer über den

SAInt-Dienst, der als Kontextnutzer in der Amigo Middleware agiert.

100

Ambiente Kommunikation

7.3.1 Lokalisation von Nutzern

Die Positionsdaten von Benutzern werden im Amigo System durch verschiedene Kontext-

quellen bereitgestellt. Dabei unterscheiden sich die Daten bezüglich der räumlichen und

der zeitlichen Auflösung. Um eine kontinuierliche Suche nach Kontextquellen und der an-

schließenden Registrierung bei allen geeigneten Kontextquellen zu vermeiden, verwendet

der SAInt-Dienst den Amigo Location Management Service (LMS). Der LMS übernimmt die

Suche nach Kontextquellenund führt die unterschiedlichen Informationen in einer gemeinsa-

men Datenbank zusammen. Diese Datenbank wird als Kontextquelle anderen Diensten über

die IContextSource-Schnittstelle zur Verfügung gestellt und kann über die Anfrage in Liste

7.1 über den Kontextbroker gesucht werden.

 

1<?xml version =\"1.0\"? >

2<rdf :RDF

3xmlns : rdf =" http : / /www.w3. org /1999/02/22 −rdf−syntax−ns #"

4xmlns : j .1=" http : / / amigo . gforge . i n ri a . fr / owl / ContextTransport . owl#">

5<j . 1 : ContextSourceRegistration >

6< j . 1 : contextType >

7CombinedUserLocation

8</ j . 1 : contextType >

9< j . 1 : timeliness >

10 current

11 </ j . 1: timeliness >

12 </ j . 1 : ContextSourceRegistration >

13 </ rdf :RDF>



 

Liste 7.1: Anfrage des SAInt-Dienstes an den Kontextbroker zur Suche des LMS

Der SAInt-Dienst auf der OSGI-Plattform, welcher über eine IPC-Schnittstelle mit dem

SAInt-Modul verbunden ist, sucht über den Kontextbroker nach laufenden LMS-Diensten

und registriert sich dort. Während der Registrierung hinterlegt der SAInt-Dienst beim LMS

die SPARQL-Frage in Liste 7.2, so dass im Falle einer Positionsänderung diese dem SAInt-

Dienst unverzüglich mitgeteilt wird. Fortlaufend werden die Positionsinformationen über

Nutzer von dem SAInt-Dienst an das SAInt-Modul weitergeleitet, so dass das SAInt-Modul

eine automatische Sitzungsverwaltung durchführen kann.

Die SPARQL-Frage ist an der Position von Personen mit der Genauigkeit auf Raumebene

interessiert und besitzt einen optionalen Teil, um präzisere Informationen abzufragen. Not-

wendig für die Funktion des Dienstes ist die Information über den Raum, in dem sich der

Benutzer befindet. Die optionale Information, an welcher relativen Position im Raum die

Person aktuell ist, ermöglicht im Falle verteilter Mikrophone und Lautsprecher die Auswahl

der nächstgelegenen Hardware.

7.3.2 Sitzungsverwaltung

Die Sitzungsverwaltungdient dem Aufbau von externen Verbindungen und automatisiert den

hierfür notwendigen Registrierungsprozess. Sobald eine Person vom System in einen Raum

mitausreichenderHardwareausstattung(Mikrophonund Lautsprecher)lokalisiertwird, führt

das SAInt-Moduleine Registrierung dieser Person beim Kommunikationsdienst(ACS) durch.

Andere SAInt-Module, welche mit dem gleichen Kommunikationsdienst verbunden sind, er-

halten hierdurch die Nachricht, dass diese Person für eine Kommunikation zur Verfügung

Ambiente Kommunikation

101

 

1PREFIX context :< http : / / amigo . gforge . i n ri a . fr / owl / ContextTransport . owl#>

2PREFIX rdf : <http : / /www.w3. org /1999/02/22 −rdf−syntax−ns#>

3SELECT ? user ?room ? time ? prob ?x ?y WHERE {

4? ul rdf : type context : UserLocation .

5? ul context : timestamp ? time .

6? ul context : pr obab i li t y ?prob .

7? ul context : isLocatedIn ? r .

8? r context : i d e n t i f i e r ?room .

9? ul context : isLocationOf ?u .

10 ?u context : i d e n t i f i er ? user .

11 optional {? ul context : estimate dPosit ion ?ep .

12 ?ep context :X ?x .

13 ?ep context :Y ?y .

14 ? ul context : relative2Space ? r .

15 ? r context : i d e n t i f i e r ?room .}

16 };



 

Liste 7.2: SPARQL-Frage des SAInt-Dienstes an den LMS

steht. Verlässt diese Person den Raum und geht in einen Bereich ohne Hardware, so wird die

Registrierung beim Kommunikationsdienst durch das SAInt-Modul zurückgezogen.

Die Echtzeitkommunikation besitzt eine benutzerorientierte Architektur, so dass Verbin-

dungen an Personen und nicht an Geräte oder Räume gebunden sind. Eine Verbindung wird

zwischen zwei Personen initiiert, indem entweder eine der Personen eine direkte Verbin-

dungsanfrage zu einer anderen Person stellt oder indem eine Applikation versucht, zwei

Personen zu verbinden. In beiden Fällen wird die Webservice-Methode „Connect(Person A,

Person B)“ des SAInt-Dienstes verwendet, um eine Verbindung zu initialisieren.

Jede Verbindungsanfrage wird über die IPC-Schnittstelle an das SAInt-Modul weiterge-

leitet, welches die Position der Teilnehmer vom SAInt-Dienst abfragt. Falls beide Personen

sich im Haus befinden und eine Möglichkeit zur Kommunikation durch Mikrophone und

Lautsprecher besteht, so wird eine direkte Verbindung zwischen den Räumen hergestellt.

Konnte nur ein Teilnehmer im Haus lokalisiert werden, so wird versucht, mittels eines Sit-

zungsprotokolls eine externe Verbindung zur anderen Person über den Kommunikations-

dienst herzustellen. Hierzu sendet das lokale SAInt-Modul eine Verbindungseinladung über

den Kommunikationsdienst an das SAInt-Modul des entfernten Teilnehmers. Akzeptiert die-

ser die Einladung zur Kommunikation, so teilt anschließend der Kommunikationsdienst den

beiden SAInt-Modulen die IP-Adressen der Teilnehmer mit, so dass diese eine direkte Ver-

bindung untereinander aufbauen können.

7.3.3 Datenaustausch

Der Datenaustausch zwischen entfernten Kommunikationsteilnehmern erfolgt verbindungs-

los über UDP-Verbindungen. Vorteil dieses Ansatzes ist die niedrige Latenz bei der Über-

tragung der Audiodaten, der jedoch durch mögliche Paketverluste oder die Vertauschung

von Datenpaketen beim Empfang durch unterschiedliche Paketlaufzeiten (engl. jitter) er-

kauft wird. Die Audiodaten werden zunächst komprimiert, um die Datenrate zu reduzieren,

und anschließend mit dem Real-Time Transport Protocol (RTP) [S+03] in die UDP-Pakete

verpackt.

Das im RFC3489 durch die Internet Engineering Task Force vorgestellte „Simple Traver-

102

Ambiente Kommunikation

sal of User Datagram Protocol Through Network Address Translators“-Protokoll (STUN-

Protokoll) [R+03] beschreibt die Detektion und Überwindung von Verfahren zur Überset-

zung von Netzwerkadressen (NAT). Die Abb. 7.5 zeigt an einem Beispiel die Problemstel-

lung beim Datenaustausch, hervorgerufen durch die Umsetzung von internen Adressen auf

externe Adressen, und die Lösung des Problems durch die Verwendung des ACS.

Host B1

IP 192.168.1.9

Host A1

IP 192.168.1.5 Host A2

IP 192.168.1.6

ACS

IP 150.1.2.3

Extern 141.11.22.33 Extern 137.24.25.26

Lokales Netz Haus B

Intern 192.168.1.1

NAT Router B

Lokales Netz Haus A

Intern 192.168.1.1

NAT Router A

RTP-Daten

Internet

Abbildung 7.5: Beispiel für die NAT-Problematik der ambienten Kommunikation

Angenommen es soll eine Datenverbindung zwischen dem Host A1 und dem Host B1

aufgebaut werden. Beide Hosts kennen zwar ihre lokale Adresse, jedoch nicht die externe

Adresse ihres Routers. Als gemeinsamer Anlaufpunkt zum Aufbau einer Kommunikations-

sitzung wird der ACS verwendet, der von beiden erreichbar ist. Sendet einer der Hosts ein

Paket an den ACS, so ersetzt der jeweilige Router im Rahmen der NAT die Adresse im Pa-

ket durch seine eigene externe Adresse, bevor das Paket an den ACS weitergeleitet wird.

Antwortet der ACS auf dieses Paket, so leitet der Router das Antwortpaket weiter an den

entsprechenden Host, welcher zuvor eine Anfrage an den ACS gesendet hat.

Der Host A1 kann kein Paket direkt an den Host B1 senden, da er die externe Adres-

se des Routers B nicht kennt. Da beide Hosts auf dem ACS registriert sind, kennt dieser

die externen Adressen der Router aus den empfangenen Paketen und kann diese bei einer

Verbindungsanfrage an beide Kommunikationsteilnehmer übermitteln. Sobald die Hosts die

externe Adresse des jeweiligen anderen Teilnehmers kennen, beginnen sie Pakete an diese

Adresse zu senden. Empfängt der Router B nun ein Paket von Router A, so nimmt er an,

dass es die Antwort auf das von Host B1 an Host A1 gesendete Paket ist und leitet es an

den Host B1 weiter. Das gleiche führt entsprechend der Router A mit den von ihm empfan-

genen Paketen durch. Mit diesem Verfahren ist es möglich, die NAT-Verfahren Full Cone,

Restricted Cone und Port Restricted Cone zu überwinden, falls für die Kommunikation mit

dem ACS derselbe Port genutzt wird wie für den Datenaustausch zwischen den Hosts. Der

ACS übernimmt somit neben der im STUN-Protokoll beschriebenen Überwindung der NAT

auch die Sitzungsinitialisierung vergleichbar zu SIP [R+02].

Die Audiosignale selbst werden mit dem Speex-Codec (16 kHz Breitband) [PS08] kom-

primiert, um die benötigte Bandbreite zu reduzieren. Dabei übernimmt der Speex-Codec

im Rahmen der Paketverlustverschleierung die Kompensation verlorengegangener Pakete.

Mögliche Paketverluste durch Schwankungen in der Paketlaufzeit (sog. Jitter) werden im

SAInt-Modul durch einen Paketpuffer reduziert.

Ambiente Kommunikation

103

7.4 Kontextbasierte Steuerung

Der Kern des Systems zur ambienten Kommunikation ist die kontextbasierte Steuerung, wel-

che die Amigo Middleware verwendet, um relevante Kontextinformationen zu sammeln und

auszuwerten. Hierbei sind Kontextquellen mit Positionsinformationen über Personen bzw.

zentralisierte Dienste wie der LMS notwendig, um automatisierte Entscheidungen treffen zu

können. Der SAInt-Dienst führt beim Start zunächst eine synchrone Abfrage aller Kontext-

quellen auf Informationen durch und registriert sich anschließend bei diesen für asynchrone

Benachrichtigungen (vgl. Kap. 6.4.1). Ein erster Teil der kontextbasierten Steuerung ist die

bereits vorgestellte automatische Sitzungsverwaltung aus Kap. 7.3.2. Diese führt, ausgehend

von den Kontextinformationenüber die Position der Nutzer, eine automatische Registrierung

der Nutzer bei einem Kommunikationsdienst durch.

7.4.1 Follow-Me-Fähigkeiten

Die Idee in Follow-Me-Szenarien ist es, eine Kommunikation einem Sprecher folgen zu las-

sen, ohne dass dieser direkten Einfluss auf eine Anwendung nehmen oder Anweisungen

geben muss. Hierzu muss das System den aktuellen Ort des Kommunikationsteilnehmers

kennen und im Falle einer Positionsänderung eine Anpassung vornehmen. Da eine konti-

nuierliche, zyklische Abfrage von Positionsdaten zu einer hohen Belastung der Middleware

führt, wird der Mechanismus des asynchronen Datenaustausches verwendet, um auf Ände-

rungen des Kontextes zu reagieren.

Bewegt sich eine Person von einem Raum in einen anderen, so sollte dies durch eine

der Kontextquellen registriert und an den LMS weitergemeldet werden. Da der SAInt-Dienst

beim LMS eine SPARQL-Frage nach der Position aller Personen bei der Registrierung hin-

terlegt hat, wird die Änderung der Position zu einer Kontextinformation als Antwort auf die

SPARQL-Frage führen. Folglich ruft der LMS die Webservice-Methode notify des registrier-

ten SAInt-Dienstes mit der SPARQL Antwort als Übergabeparameter auf. Der SAInt-Dienst

selbst signalisiert dem SAInt-Modul über die IPC-Schnittstelle, dass neue Kontextinforma-

tionen vorliegen, und übermittelt diese. Dies führt zu einer Überprüfung der Auswirkungen

der neuen Kontextinformationen auf die laufenden Verbindungen und gegebenenfalls einer

Anpassung dieser. Zudem werden die Registrierungen der Personen beim ACS entsprechend

der neuen Daten vorgenommen.

Die Positionsänderung einer Person kann die folgenden Reaktionen hervorrufen. Tritt die

Person in den von SAInt kontrollierten Bereich ein, so wird sie beim ACS registriert und

in den Kontextinformationen als verfügbar für eine Kommunikation aufgeführt. Betritt eine

Person einen Raum ohne Mikrophone und Lautsprecher, oder verlässt das Haus, so löscht

das SAInt-Modul automatisch die Registrierung beim Kommunikationsdienst.

Sollte die Person eine laufende Verbindung während des Raumwechsels haben, so ergeben

sich mehrere Möglichkeiten, wie das System reagiert. Wird ein Raum mit Mikrophonen und

Lautsprechern betreten, so lenkt das SAInt-Modul das Gespräch ohne Unterbrechung des

Datenstroms in den Raum um. Dieses übergangslose (engl. seamless) Umstellen der Ver-

bindung erfolgt für das menschliche Gehör nicht wahrnehmbar, da es ohne Neuaufbau einer

RTP-Verbindung auskommt und verzögerungsfrei umschaltet. Falls die Person einen Raum

ohne Hardware betritt, so stoppt die Verbindung zum entfernten Sprecher und wird gehalten,

bis eine konfigurierbare Zeitspanne erreicht ist oder die Person einen Raum mit Hardware

104

Ambiente Kommunikation

wieder betritt. Das Verhalten kann für jede Verbindung individuell eingestellt werden.

Besitzt ein Gerät im Raum einen alternativen SAInt-Dienst, z. B. ein Notebook mit Head-

set, und einen Anmeldungsmanagerder die Anmeldedaten als Positionsinformationenan den

LMS weitermeldet, so kann eine Übergabe der Verbindung (engl. handover) an den zweiten

SAInt-Dienst durchgeführt werden. Der Nutzer könnte sich zum Beispiel auf dem Notebook

anmelden und der SAInt-Dienst stellt daraufhin eine Verbindung her. Dies kann jedoch nicht

übergangslos erfolgen, da die alte RTP-Verbindung beendet und eine neue aufgebaut werden

muss. Daher vernehmen beide Nutzer währenddessen einen kurzen Aussetzer der Verbin-

dung, bis die RTP-Verbindung wieder aufgebaut ist.

7.4.2 SAInt als Kontextquelle

Die ambiente Kommunikation verwendet nicht nur Kontextinformationen, um eine intelli-

gente Steuerung zu realisieren, sondern sie ist gleichzeitig eine Kontextquelle für andere

Applikationen und Dienste. Die Liste 7.3 zeigt die Registrierung des SAInt-Dienstes beim

Kontextbroker als Kontextquelle.

 

1<?xml version ="1.0"? >

2<rdf :RDF

3xmlns=" http : / / amigo . gforge . in r ia . fr / owl / ContextTransport . owl#"

4xmlns : rdf =" http : / /www.w3. org /1999/02/22 −rdf−syntax−ns #"

5xmlns : rdfs =" http : / /www.w3. org /2000/01/ rdf−schema#"

6xml : base =" http : / / amigo . gforge . i n r i a . f r / owl / ContextTransport . owl#">

7<ContextSourceRegistration >

8<timeliness >

9current

10 </ timeliness >

11 <contextType >

12 SeamlessAudioInterface

13 </ contextType >

14 </ ContextSourceRegistration >

15 </ rdf :RDF>



 

Liste 7.3: Registrierung des SAInt-Dienstes beim Kontextbroker

Die Kontextinformationen eines SAInt umfassen die drei Bereiche Hardware, registrier-

te Benutzer und laufende Verbindungen, wie es in Abb. 7.6 beispielhaft dargestellt ist. Der

Bereich Hardware informiert über die Räume, welche durch das SAInt-Modul mit einer Au-

dioschnittstelle abgedeckt sind. Diese Information ist zeitlich konstant, da sie abhängig von

der Hardware ist und sich somit nicht ohne Neustart des OSGI-Bundles ändert. Applika-

tionen können also im vernetzten Haus zunächst nach laufenden SAInt-Diensten über den

Kontextbroker suchen und sich bei diesen als Kontextnutzer registrieren. Dadurch sind sie in

der Lage, die Abdeckung mit Audioschnittstellen im gesamten Netzwerk zu ermitteln.

Die Informationen über registrierte Benutzer und laufende Verbindungen zeigen den ak-

tuellen Status der SAInt-Dienste. Hieraus erfahren Applikationen, welche Personen gerade

über einen SAInt-Dienst erreichbar oder aber gerade durch eine laufende Kommunikation

gebunden sind. Benutzer, die aktuell eine Kommunikation führen, werden in der Liste der

registrierten Nutzer nicht aufgeführt, da jeder Nutzer nur eine Kommunikation führen kann

und somit für neue Verbindungen nicht zur Verfügung steht.

Ambiente Kommunikation

105

SAInt AudioConnection

public

PrivacyLevel

TimeOut

0000

1234 Gain

ConnectionID

INetAddresslocalhost

Room

identifier

Room

identifier

RoomRaum X

Raum Y

Raum Z

UserLocation

User

Nutzer C

Raum Z

Registrierte Benutzer

UserLocation

Room

User

Raum X

Nutzer A

isLocatedIn identifier

isLocationOf identifier

INetAddresslocalhost

Room

User

Raum Y

Nutzer B

controlsConnection

IPAdress

hasIPAdress

connectedClient

hasAudioInterface

identifier

registered

isLocatedIn

isLocationOf

identifier

Hardware Verbindungen

connectedClient isLocatedIn identifier

isLocationOf identifier

IPAdress

Abbildung 7.6: Beispiel für die Kontextinformationen des SAInt-Dienstes

Jede Verbindung zwischen zwei Personen besitzt einen eindeutigen Schlüssel („Connec-

tionID“), eine Charakterisierung der Privatsphäre („PrivacyLevel“), einen Schwellwert für

das Halten unterbrochener Verbindungen („Timeout“ [s]) und einen Verstärkungsfaktor für

die Wiedergabe der empfangenen Signale („Gain“ [dB]). Diese Parameter können mit Hilfe

von Webservice-Methoden im Verlauf der Kommunikation durch Applikationen oder die

Nutzer angepasst werden, um z. B. auf aktuelle Ereignisse zu reagieren. Die Informationen

über die Kommunikationsteilnehmer („connectedClient“) zeigen die aktuellen Positionen

der Personen oder aber die IP-Adressen der entfernten Teilnehmer. Handelt es sich um eine

lokale Verbindung, so zeigen die IP-Adressen jeweils den Wert „localhost“ und die Räume

stammen aus der Mengeder mit Hardware ausgestatteten Räume. Bei externen Verbindungen

ist der Raum des entfernten Teilnehmers auf „unknown“ gesetzt, und die IP-Adresse ist die

Zieladresse des RTP-Datenstroms.

7.4.3 Schutz der Privatsphäre

Der Schutz der Privatsphäre ist entsprechend der Ergebnisse der Amigo Benutzerstudien

[M+05] bei der kontextabhängigen Steuerung mit berücksichtigt worden. Jede Verbindung

besitzt eine Eigenschaft „PrivacyLevel“, die entweder öffentlich oder privat gesetzt werden

kann. Betritt eine Person einen Raum mit einer laufenden, als privat gekennzeichneten Kom-

munikation so wird die Verbindung unterbrochen, bis die Person den Raum wieder verlässt.

Das gleiche geschieht, falls ein Kommunikationspartner einen Raum betritt, in dem sich be-

reits eine Person befindet.

Jederzeit kann der „PrivacyLevel“ einer Verbindungmittelsder Webservice-Methode„con-

figureCommunication(ID, String)“ des SAInt-Dienstes konfiguriert werden. Startet eine Ver-

bindung in einem Raum mit mehr als einer Person, so wird sie standardmäßig als öffentlich

vermerkt, ansonsten werden zunächst die Standardwerte der Nutzer verwendet.

Der Sonderfall, dass eine Person mit einer laufenden Kommunikationauf eine weitere Per-

son mit ebenfalls einer laufenden Kommunikation trifft, stellt kein Problem für den Schutz

der Privatsphäre dar. Sind beide Kommunikationen öffentlich, so hören zwar die entfernten

Teilnehmer jeweils das lokale Gespräch der beiden Personen, jedoch können die entfernten

Personen sich gegenseitig nicht hören, da die Echounterdrückung die entsprechenden Si-

gnalanteile herausfiltert. Es ist somit entfernten Gesprächsteilnehmern nicht möglich, Rück-

schlüsse auf die Kommunikationspartner anderer Personen zu ziehen.

106

Ambiente Kommunikation

7.5 Visuelle Kommunikation

Im Folgenden wird ein System zur Kommunikation vorgestellt, welches aufbauend auf der

Architektur von SAInt eine audio-visuelle Kommunikation realisiert. Ziel ist es hierbei, die

durch SAInt ermöglichte Bewegungsfreiheit des Nutzers auch bei einer Übertragung von

Videodaten beizubehalten.

7.5.1 Systemintegration

Das SAInt-Modul realisiert bereits die Follow-Me-Fähigkeiten für die Audiosignale der am-

bienten Kommunikation mit Hilfe des SAInt-Dienstes und der Middleware. Folglich liegt es

nahe, die visuelle Kommunikation an die akustische Kommunikation zu binden und somit

die gleichen Mechanismen zu nutzen. Die visuelle Kommunikation wird als optionale Kom-

ponente im System integriert. Sie wird genutzt, falls auf beiden Seiten der Kommunikation

geeignete Hardware vorhanden ist.

Ein Unterschied bei der Aufnahme und Wiedergabe von Audio- und Videosignalen ist,

dass die Soundkarte eines Computers mehrere Kanäle aufnehmen und wiedergeben, die

Grafikkarte jedoch meist nur einen Monitor ansteuern kann. Ein Computer kann somit nur

für einen Videodatenstrom genutzt werden. Daher wird zur visuellen Kommunikation das

„Seamless Audio and Video Interface“-Modul (SAVInt-Modul) implementiert, welches die

Videodaten einer Kamera aufnimmt und diese über RTP versenden kann. Empfangene Daten

werden von diesem Modul über einen Ausgang am Bildschirm dargestellt. Zu jeder Kombi-

nation von Kamera und Bildschirm gehört folglich ein laufendes SAVInt-Modul. Die Vide-

odaten der ambienten Kommunikation können sowohl von einer Netzwerkkamera als auch

einer lokal an den Computer angeschlossenen Kamera (z. B. USB-Webcam) stammen. Sie

werden mit dem Theora-Codec [The08] komprimiert und mittels RTP übertragen.

Display

Signalverarbeitung

ACS

Display Display

Lautsprecher

Mikrophone &

IPC

Raum ZRaum X Raum Y

Nutzer A Nutzer B

IPCIPC

RTP Audio

Internet

RTP Video

Haus A Haus B

IPC

Lautsprecher

Mikrophone &

HW/SW JACK HW/SW JACK

IPC

Signalverarbeitung

Spark:SAInt

OSGI:SAInt

Spark:SAVInt Spark:SAVInt

Spark:SAInt

OSGI:SAInt

Spark:SAVInt

Abbildung 7.7: Blockschaltbild der Integration von SAVInt-Modulen in die SAInt-Architektur

In Abb. 7.7 ist ein Beispiel für die Kommunikation mit SAVInt-Modulen gegeben. Jedes

SAVInt-Modul registriert sich bei einem laufenden SAInt-Modul über eine IPC-Schnittstel-

le mit der Information, welcher Raum durch die Kamera einsehbar ist. Ein SAInt-Modul

kann mehrere SAVInt-Module steuern, wodurch im besten Fall alle Räume, welche durch die

Ambiente Kommunikation

107

angeschlossenen Mikrophone erreichbar, auch durch Kameras und Monitore versorgt sind.

In Abb. 7.7 ist beispielhaft eine Anordnung für zwei Räume im Haus A und ein Raum in

Haus B skizziert worden. Die Komponenten der Middleware-Schicht (LMS, Kontextquellen,

etc.) bis auf den SAInt-Dienst wurden in dieser Skizze zur Vereinfachung weggelassen (vgl.

Abb. 7.2).

Ein wesentlicher Vorteil der ambienten Kommunikation ist die Bewegungsfreiheit des Be-

nutzers, so dass dieser sich frei im Raum und zwischen den Räumen bewegen kann. Diese

Freiheit sollte bei der Integration von Videodaten mit berücksichtigt werden. Jedoch bein-

haltet eine Kommunikation mit Videodaten zunächst den Nachteil, dass der überwiegende

Teil von Kameratypen fest im Raum installiert wird und einen festen Blickwinkel hat. Be-

nutzer, die sich frei bewegen, können somit aus dem Bild herauslaufen. Dies kann durch

eine passende Wahl der Kameraposition und einer Weitwinkelaufnahme umgangen werden,

jedoch führt dies zu einem Bild, in dem der Kommunikationspartner in vielen Positionen

im Raum nur sehr klein dargestellt werden kann. Alternativ kann das in Kap. 4.4.4 (vgl.

Abb. 4.24, S. 54) vorgestellte System zur Steuerung einer schwenk- und zoombaren Kamera

genutzt werden. Hierzu wird im Videosystem ein SAVInt-Modul zur Übertragung und zum

Empfang von Videodaten integriert, dessen Ausgang auf dem Bildschirm dargestellt wird.

Das Audiosystem wird entsprechend der Abb. 7.3 (S. 94) um die Signalverarbeitung zur

Echounterdrückung und Störgeräuschfilterung und um ein SAInt-Modul erweitert. Da die

empfangenen Audiodaten des SAInt-Moduls über die Lautsprecher wiedergegeben werden,

muss die Adaption der akustischen Strahlformung durch eine neue Logik gesteuert werden.

Diese Logik sorgt dafür, dass, falls der entfernte Sprecher aktiv ist, die Adaption der Filter

unterbrochen wird, um eine Ausrichtung der Kamera auf die Lautsprecher zu verhindern.

Der Ablauf einer Kommunikation wird im Folgenden anhand eines Beispiels erläutert.

7.5.2 Kommunikationsbeispiel

Das Kommunikationsbeispiel nimmt an, dass der SAInt-Dienst im Haus A eine Kommuni-

kation zwischen den Nutzern A und B mit Hilfe des SAInt-Moduls initiiert (vgl. Abb. 7.7).

Das SAInt-Modul im Haus A sendet eine Verbindungsanfrage über den ACS an das SAInt-

Modul im Haus B. Nachdem Nutzer B der Kommunikation zugestimmt hat, beginnen beide

SAInt-Module die Audiodaten (vgl. Abb. 7.7, „RTP Audio“) zu den vom ACS übermittelten

IP-Adressen zu senden.

Zeitgleich mit dem Start der Audioverbindung geben die SAInt-Module an die jeweiligen

SAVInt-Module der Räume, in denen sich die Nutzer aufhalten, die Anweisung, eine Video-

verbindung aufzubauen. Zu diesem Zweck registrieren sich die SAVInt-Module auf dem ACS

und handeln eine Videoverbindungaus. Die Videodaten werden direkt mit einer RTP-Verbin-

dung (vgl. Abb. 7.7, „RTP Video“) zwischen den SAVInt-Modulen ausgetauscht, so dass die

Audiodaten und Videodaten getrennt übertragen werden. Eine getrennte Übertragung kann

ohne Synchronisierung der Datenströme erfolgen, falls die Laufzeitdifferenz zwischen den

beiden Datenströmen niedrig ist.

Die Videokommunikation des SAVInt-Moduls wird über die IPC-Schnittstelle des SAInt-

Moduls kontrolliert. Sollte das SAInt-Modul durch den SAInt-Dienst die Beendigung der

Verbindung signalisiert bekommen, so wird mit der Beendigung der akustischen Kommuni-

kation auch die visuelle Kommunikation gestoppt.

108

Ambiente Kommunikation

7.5.3 Follow-Me-Fähigkeiten

Die Follow-Me-Fähigkeiten des Systems werden benötigt, sobald ein Benutzer den Raum

wechselt. Entsprechend des obigen Beispiels nehmen wir an, dass der Nutzer A von Raum

Y in den Raum X geht. In diesem Fall benachrichtigt der SAInt-Dienst das SAInt-Modul

über den Positionswechsel des Nutzers. Das SAInt-Modul leitet den Audiodatenstrom in den

Raum X um und stoppt über die IPC-Schnittstelle die Videoübertragung des SAVInt-Moduls

aus Raum Y. Da in Raum X auch ein SAVInt-Modul verfügbar ist, initiiert das SAInt-Modul

über die IPC-Schnittstelle eine Videoverbindung. Nach dem Aushandeln der Videoverbin-

dung über den ACS startet diese mit einer leichten Verzögerung gegenüber der Audiover-

bindung. Im Gegensatz zur Audioverbindung, welche nahtlos die Räume wechseln kann,

erzwingt die Videoverbindung bei jedem Raumwechsel einen Neuaufbau der RTP-Verbin-

dung.

7.6 Demonstration

Im Rahmen des Amigo Openday im Februar 2008 wurde die ambiente Kommunikation zwi-

schen Standorten in Deutschland, Frankreich und den Niederlanden demonstriert. Trotz der

unterschiedlichen Ausstattung mit Hardware konnten die Komponenten der ambienten Kom-

munikation an allen Standorten verwendet werden. Dies wurde durch den modularen Aufbau

der Software ermöglicht, welcher den Anforderungen eines Standortes entsprechend ange-

passt werden konnte. Zudem zeigte es die Flexibilität der Amigo Middleware in Bezug auf

die Integration anderer Applikationen und Dienste. Ein Beispiel hierfür war die Nutzung des

SAInt-Dienstes zur Kommunikation durch andere Applikationen. Hierbei nutzten die Appli-

kationen die vom SAInt-Dienst exportierten Webservice-Schnittstellen zur Steuerung einer

audio-visuellen Kommunikation.Der Standort in Deutschland verwendete die audio-visuelle

Kamerasteuerung, um die Vorteile einer akustischen Kamerasteuerung zu demonstrieren.

8 Zusammenfassung

Im Rahmen dieser Arbeit wurde ein System zur akustischen Szenenanalyse entwickelt, wel-

ches fortlaufend die Identität und Position des aktuellen Sprechers ermittelt. Die Verwen-

dung des Systems in einem Kommunikationsszenario führte zur Entwicklung einer audio-

visuellen Sprecherprotokollierung, deren Fehlerrate durch eine Gesichtserkennung signifi-

kant reduziert wurde. Des Weiteren wurden die Amigo Middleware und das System zur

Verarbeitung von Kontextinformationen vorgestellt. Hierbei wurde die Einbindung der akus-

tischen Szenenanalyse als Quelle von Kontextinformationen gezeigt. Anschließend wurde

mit Hilfe der Middleware und den Amigo Diensten ein System zur ambienten Kommuni-

kation realisiert. Dabei ermöglichte die Verfügbarkeit unterschiedlicher Kontextquellen eine

kontextabhängige Steuerung.

Die zeitlichen Anforderungen des vernetzten Hauses an Informationsquellen wurde in die-

ser Arbeit als hoch eingestuft, da die Akzeptanz eines Systems durch seine Benutzer in Folge

hoher Latenzen gefährdet ist. Die drei Schlüsselelemente der akustischen Signalverarbeitung

in „intelligenten Umgebungen“ werden durch die automatische Spracherkennung, die akus-

tische Szenenanalyse und die ambiente Kommunikation gebildet. Innerhalb dieser Arbeit

wurden die Aspekte der akustischen Szenenanalyse und der ambienten Kommunikation nä-

her untersucht.

Ausgehend von den zuvor identifizierten Forschungszielen wurde zunächst die Sprecher-

protokollierung als Teil der akustischen Szenenanalyse betrachtet. Diese gliederte sich in

die Aufgaben der Segmentierung der Daten in homogene Abschnitte und die anschließende

Klassifikation dieser Segmente. Hierbei zeigte sich, dass die auf dem Bayes’schen Informa-

tionskriterium basierende Segmentierungstechnik sowohl von der Signalverarbeitung durch

die akustische Strahlformung als auch von den Positionsdaten der Sprecher profitierte.

Die sequentielle Segmentierung und Identifikation von Sprechern in Datenströmen besaß

den inhärenten Nachteil, dass frühzeitig getroffene Entscheidungen in der Segmentierung

nicht rückgängig gemacht werden konnten. Dieser Nachteil resultierte aus den zeitlichen An-

forderungen an die akustische Szenenanalyse, welche dem System Informationen mit einer

möglichst geringen Latenz zur Verfügung stellen sollte. Da hierdurch weder iterative noch

mehrstufige Verfahren verwendet werden können, wurde ein neuer Ansatz zur gleichzeiti-

gen Segmentierung, Lokalisation und Sprecheridentifikation entwickelt. Grundidee dieses

Ansatzes war die Verwendung eines Hidden Markov Models mit zeitveränderlichen Tran-

sitionswahrscheinlichkeiten, dessen Zustände die trainierten Sprecher repräsentierten. Die

Berechnung der Transitionswahrscheinlichkeiten wurde realisiert über die Sprecherwechsel-

informationen, welche durch die akustische Positionsschätzung und das Bayes’sche Infor-

mationskriterium bereitgestellt wurden. Die Implementierung einer vorzeitigen Zurückver-

folgung der Entscheidungen ermöglichte die Verwendung des Ansatzes auf kontinuierlichen

Datenströmen mit geringer Latenz. Experimentell konnte gezeigt werden, dass der Median

109

110

Zusammenfassung

der Entscheidungen für den aktuellen Sprecher bei weniger als einer halben Sekunde lag.

Dabei führte die Begrenzung der maximalen Latenz auf zwei Sekunden nur zu einer gerin-

gen Erhöhung der Fehlerrate. Des Weiteren zeigten die Experimente, dass der neue Ansatz

der gemeinsamen Segmentierung und Klassifikation höhere Klassifikationsraten erzielte als

ein vergleichbares sequentielles Verfahren.

Die in dieser Arbeit betrachtete Umgebung war mit Mikrophonen und Kameras ausge-

stattet. Dies bot die Möglichkeit, die Sprecherprotokollierung in Kommunikationsszenarien

durch Informationen aus der Bildverarbeitung zu verbessern. Das hierzu integrierte Video-

system ermöglichte die Detektion und Identifikation von Gesichtern. Ein Datenaustausch

zwischen der akustischen Signalverarbeitung und der visuellen Datenverarbeitung führte zu

einer Verbesserung beider Systeme. Die Kamera konnte durch die Kopplung der Systeme so-

wohl akustisch als auch anhand erkannter Gesichter automatisch gesteuert werden. Folglich

war es möglich, die Kamera immer auf den aktuellen Sprecher auszurichten, selbst wenn

dieser nicht in die Kamera schaute oder außerhalb des Kamerablickwinkels war. Detektierte

und identifizierte das Videosystem das Gesicht eines Sprechers, so wurde diese Informati-

on an das System zur Sprecherprotokollierung weitergegeben. Die Integration der visuellen

Informationen des Videosystems in den Prozess der akustischen Sprecherprotokollierung

führte zu einer Erweiterung des zuvor vorgestellten Ansatzes. Die Emissionswahrschein-

lichkeiten der HMM-Zustände wurden nun sowohl durch die akustischen Sprechermodelle

als auch durch die visuellen Modelle der Nutzer bestimmt. Experimente zeigten, dass durch

die Berücksichtigung der visuellen Informationen die Klassifikationsfehlerrate im Vergleich

zu einem rein akustischen System um die Hälfte gesenkt werden konnte.

Ein weiteres Forschungsgebiet der akustischen Szenenanalyse ist die Identifikation akus-

tischer Ereignisse, welche die aus der Sprecherprotokollierung bekannte Fragestellung „Wer

spricht Wann und Wo?“ noch um die Komponente „Während Was passiert?“ erweitert. Im

Rahmen dieser Arbeit wurden verschiedene Verfahren zur Modellierung der Ereignisse un-

tersucht und die Verwendbarkeit der Merkmale aus der Sprecheridentifikation getestet. Zu-

nächst wurden die Modellparameter zur Beschreibung der akustischen Ereignisse mittels

eines „Maximum Likelihood“-Verfahrens geschätzt. Anschließend wurden Modelle mit dem

diskriminativen Lernverfahren „Maximum Mutual Information“ trainiert. In Experimenten

wurde gezeigt, dass die Modelle aus dem diskriminativen Lernverfahren eine niedrigere

Klassifikationsfehlerrate ermöglichen als die Modelle aus der „Maximum Likelihood“-Pa-

rameterschätzung.

Die Datenbasis zur akustischen Ereignisdetektion stammte aus dem Bereich der professio-

nell genutzten Arbeitsumgebungen und wurde im Projekt CHIL erstellt. Da die Datenbasis

aus mehrkanaligen Aufnahmen bestand, konnte eine Verbesserung der Klassifikationsrate

durch die Auswahl und Kombination von Kanälen erzielt werden. Die mittlere Klassifikati-

onsrate lag im Fall der Einzelerkennung bei über 90 % und bei der Kombination mehrerer

Kanäle sogar über 93 %.

Die Gewinnung von Kontextinformationen war der erste Schritt zum Aufbau einer durch

den Benutzer als „intelligent“ wahrgenommenen Umgebung. Erst die Integration von Kon-

textquellen,wie z. B. der akustischen Szenenanalyse, in einenVerbund von DienstenundAp-

plikationen erlaubte das Treffen von kontextabhängigen und somit „intelligenten Entschei-

dungen“. Im Rahmen dieser Arbeit wurde die Integration der akustischen Szenenanalyse in

die Amigo Middleware vorgestellt, wobei ein Schwerpunkt auf das Kontextmanagement ge-

legt wurde. Das Amigo System zum Kontextmanagement verwendete einen Kontextbroker

Zusammenfassung

111

als zentralen Anlaufpunkt für Kontextquellen und Kontextnutzer. Die Interaktion der Diens-

te untereinander wurde über standardisierte Webservice-Schnittstellen realisiert, so dass eine

offene, dienstorientierte Softwarearchitektur gebildet wurde.

Aufbauend auf der Amigo Middleware und den vorhandenen Kontextquellen wurde im

letzten Teil der Arbeit ein System zur ambienten Kommunikation vorgestellt, welches als

Beispiel einer kontextbewussten Anwendung angesehen werden kann. Hierbei wurden die

Komponenten zur akustischen Signalverarbeitung vorgestellt, welche zur Unterdrückung

von Echos und Störgeräuschen notwendig sind. Diese aus der Literatur entnommenen Ver-

fahren wurden in ein echtzeitfähiges System integriert und um Komponenten zur Audio- und

Videodatenkompression sowie zum Datenaustausch ergänzt. Hierdurch war es möglich, eine

echtzeitfähige Kommunikation zwischen zwei beliebigen Standorten über ein gemeinsames

IP-Netzwerk aufzubauen und gleichzeitig eine Datenverteilung im lokalen System vorzu-

nehmen.

Die Steuerung der Datenströme innerhalb der ambienten Kommunikation erfolgte kon-

textbasiert durch die in der Middleware vorhandenen Daten über die Nutzerpositionen. Da-

bei stellte die audio-visuelle Sprecherprotokollierung, als Teil der akustischen Szenenanaly-

se, eine mögliche Kontextquelle neben anderen Verfahren zur Positionsbestimmung dar. Im

Vergleich mit anderen Systemen, wie z. B. RFID-basierter Positionsschätzung, bot die akus-

tische Szenenanalyse den Vorteil, dass keine zusätzlichen Geräte durch den Benutzer mit-

geführt werden mussten. Das System der ambienten Kommunikation nutzte unter anderem

die vorhandenen Kontextinformationen, um automatisiert die Sitzungsverwaltung für Benut-

zer durchzuführen. Des Weiteren standen dem Nutzer während der Kommunikation Follow-

Me-Fähigkeiten zur Verfügung, d. h. der Nutzer konnte sich frei im Raum und zwischen

den Räumen bewegen, während die kontextbewusste Steuerung die Audio- und Videodaten

der Kommunikation dem Nutzer automatisch folgen ließ. Die Verwendung einer schwenk-

und zoombaren Kamera, welche mit den kombinierten Ergebnissen der akustischen Posi-

tionsschätzung und der Gesichtsdetektion gesteuert wurde, ermöglichte eine automatische

Ausrichtung der Kamera auf den aktuellen Sprecher.

Ausblick

Die hier vorgestellten Systeme zur akustischen Szenenanalyse und zur ambienten Kommuni-

kation verwendeten vorab trainierte Modelle, die aus einer initialen Trainingsphase stamm-

ten. Der Aufwand eines solchen Trainings steht im Gegensatz zu den Ideen der ambienten

Intelligenz, da dort die automatische Anpassung des Systems an den Benutzer gefordert wird.

Daher ist der nächste Entwicklungsschritt des Systems, dass ein automatisches Training der

Benutzer und der Hardwareausstattung durchgeführt wird. Anstatt Modelle für jeden Nut-

zer vorab zu trainieren, wird das System eigenständig neue Benutzer erkennen und für diese

neue Modelle trainieren. Somit wird das System sukzessiv alle Nutzer beobachten und deren

Modelle mit zunehmender Datenmenge immer besser trainieren. Im Bezug auf die Hardwa-

re wird das System um selbstkonfigurierende und selbstlernende Komponenten erweitert, so

dass es z. B. eigenständig die Geometrie und Position von Mikrophongruppen bestimmen

kann.

112

Zusammenfassung

A Anhang

A.1 Herleitung ∆BIC

Die Likelihood der Hypothese H0ist gegeben mit:

p(X1:Nw|H0) =

k=1

(2π)D

2|Σ0|1

exp −1

2(x(k)−µ0)TΣ−1

0(x(k)−µ0)(A.1)

=(2π)D|Σ0|−Nw

2exp −1

k=1 (x(k)−µ0)TΣ−1

0(x(k)−µ0)!(A.2)

Logarithmieren der Dichtefunktion ergibt die Log-Likelihood:

log (p(X1:Nw|H0))

=−DNw

2log(2π)−Nw

2log(|Σ0|)−1

k=1

(x(k)−µ0)TΣ−1

0(x(k)−µ0)(A.3)

Für die weiteren Umformungen werden einige Eigenschaften von Matrizen verwendet, die

im Folgenden angegeben werden. Wenn die Matrix Abestehend aus den Elementen Aij

durch das Produkt zweier Vektoren aund bmit

A= (Aij) = a·bT= (ai·bj)(A.4)

dargestellt werden kann, so gilt für die Spur von A:

spur(A) =

i=1

Aii =

i=1

aibi=aTb.(A.5)

Somit kann die Summe aus Gl. A.3 umgeformt werden zu:

k=1

(x(k)−µ0)TΣ−1

|{z }

(x(k)−µ0)

|{z }

k=1

spur



Σ−1

0(x(k)−µ0)

|{z }

(x(k)−µ0)T

|{z }





(A.6)

=spur Nw

k=1

Σ−1

0(x(k)−µ0)(x(k)−µ0)T!

=spur Σ−1

k=1

(x(k)−µ0)(x(k)−µ0)T!.(A.7)

113

114

Anhang

Da Σ0mit

Σ0=1

k=1

(x(k)−µ0)(x(k)−µ0)T(A.8)

aus den Merkmalsvektoren X1:Nwgeschätzt wird, folgt für Gl. A.7:

k=1

(x(k)−µ0)TΣ−1

0(x(k)−µ0) = spurΣ−1

0·Nw·Σ0(A.9)

=Nw·D. (A.10)

Somit folgt für Gl. A.3:

log (p(X1:Nw|H0)) = −DNw

2log(2π)−Nw

2log(|Σ0|)−1

2Nw·D(A.11)

=−Nw

2log(|Σ0|)−DNw

2(1 + log(2π)).(A.12)

Des Weiteren ist die Likelihood der Hypothese H1gegeben durch:

p(X1:Nw|H1) =

Nw/2

k=1

(2π)D

2|Σ1|1

2·exp −1

2(x(k)−µ1)TΣ−1

1(x(k)−µ1)

k=Nw/2+1

(2π)D

2|Σ2|1

exp −1

2(x(k)−µ2)TΣ−1

2(x(k)−µ2)(A.13)

=(2π)D|Σ1|−Nw

4exp 

−1

Nw/2

k=1 (x(k)−µ1)TΣ−1

1(x(k)−µ1)



(2π)D|Σ2|−Nw

4exp 

−1

k=Nw/2+1 (x(k)−µ2)TΣ−1

2(x(k)−µ2)

.

(A.14)

Das Logarithmieren der Dichtefunktion der Hypothese H1und die Verwendung von Gl. A.4

und Gl. A.5 führt auf:

log (p(X1:Nw|H1)) = −DNw

2log(2π)−Nw

4log(|Σ1||Σ2|)−21

DNw

2.(A.15)

Entsprechend der Definition für ∆BIC [DW00] berechnet sich dessen Wert aus der Diffe-

renz der Gleichungen Gl. A.12 und Gl. A.15 und deren zugehörigen Gewichtsterme für die

Modellkomplexität zu:

∆BIC =BIC(H1)−BIC(H0)(A.16)

=−Nw

4log(|Σ1||Σ2|)−DNw

2(1 + log(2π)) −ξm1

2log Nw

+Nw

2log(|Σ0|) + DNw

2(1 + log(2π)) + ξm0

2log Nw(A.17)

=Nw

2log(|Σ0|)−Nw

4log(|Σ1||Σ2|)−ξm0

4log Nw.(A.18)

Im letzten Schritt wurde die Vereinfachung verwendet, dass die Hypothese H1doppelt so

viele Modellparameter besitzt, wie die Hypothese H0(m1= 2m0).

Anhang

115

A.2 Herleitung MMI-Parameterschätzung

Gegeben seien jeweils NkMerkmalsvektoren Xk,1:Nk= [xk(1),...,xk(Nk)] für jede der

k= 1,...,K Klassen, welche zur Parameterschätzung der Modelle verwendet werden sol-

len. Jede Klasse soll durch ein GMM mit MMischungsverteilungen beschrieben werden.

Die Zufallsvariabel der Klassenzugehörigkeit eines Merkmalsvektors xk(n)werde mit Ω

und die Zufallsvariabel der Zugehörigkeit zu einer Mischungsverteilung mit Zbezeichnet.

Das Ziel der MMI-Parameterschätzung ist die Maximierung der Anzahl der korrekt klas-

sifizierten Trainingsmerkmale [LP96]. Folglich muss für die Parameterschätzung der i-ten

Klasse

P(Ω = i|Xi,1:Ni;Θ) =

n=1

p(xi(n)|Ω = i;Θi)·P(Ω = i)

p(xi(n)) (A.19)

n=1

p(xi(n)|Ω = i;Θi)·P(Ω = i)

k=1

p(xi(n)|Ω = k;Θk)·P(Ω = k)

.(A.20)

maximiert werden. Die Parameterschätzung soll anhand des logarithmierten Ausdrucks aus

Gl. A.20 erfolgen.

Qi(Θ) = log (P(Ω = i|Xi,1:N;Θ)) (A.21)

= log 





n=1

p(xi(n)|Ω = i;Θi)·P(Ω = i)

k=1

p(xi(n)|Ω = k;Θk)·P(Ω = k)







n=1

log 





p(xi(n)|Ω = i;Θi)·P(Ω = i)

k=1

p(xi(n)|Ω = k;Θk)·P(Ω = k)







n=1"log (p(xi(n)|Ω = i;Θi)·P(Ω = i))

−log K

k=1

p(xi(n)|Ω = k;Θk)·P(Ω = k)!# (A.22)

116

Anhang

Zunächst erfolgt die Berechnung des Gradienten zur Bestimmung der Parameterwerte Θi

durch:

∇ΘiQi(Θ)

n=1





∇Θi[p(xi(n)|Ω = i;Θi)]

p(xi(n)|Ω = i;Θi)−∇ΘiK

k=1

p(xi(n)|Ω = k;Θk)P(Ω = k)

k=1

p(xi(n)|Ω = k;Θk)P(Ω = k)





(A.23)

n=1





∇Θi[p(xi(n)|Ω = i;Θi)]

p(xi(n)|Ω = i;Θi)−∇Θi[p(xi(n)|Ω = i;Θi)P(Ω = i)]

k=1

p(xi(n)|Ω = k;Θk)P(Ω = k)







n=1











1−p(xi(n)|Ω = i;Θi)P(Ω = i)

k=1

p(xi(n)|Ω = k;Θk)P(Ω = k)







|{z }

ψi(n)

∇Θi[log (p(xi(n)|Ω = i;Θi))]







n=1

[ψi(n)∇Θi[log (p(xi(n)|Ω = i;Θi))]] .(A.24)

Im Folgenden wird der Ausdruck

ψi(n) = 



1−p(xi(n)|Ω = i;Θi)P(Ω = i)

k=1

p(xi(n)|Ω = k;Θk)P(Ω = k)





(A.25)

zur Abkürzung der Schreibweise verwendet. Er kann interpretiert werden als die Wahr-

scheinlichkeit, dass ein Merkmalsvektor xi(n)mit den aktuellen Modellparametern aller

Klassen falsch klassifiziert wird. Die den Likelihoods p(xi(n)|Ω = i;Θi)zugrundeliegen-

den Verteilungsdichtefunktionen sind Gauß’sche Mischungsverteilungen. Sie bestehen aus

jeweils MEinzelverteilungen p(xi(n)|Ω = i, Z =m;Θi), welche mit

ci,m =P(Z=m|Ω = i)m= 1,...,M (A.26)

gewichtet sind. Folglich sind die Likelihoods der Verteilungsdichtefunktionen mit

p(xi(n)|Ω = i;Θi) =

m=1

ci,m ·p(xi(n)|Ω = i, Z =m;Θi)(A.27)

Anhang

117

gegeben. Für die Berechnung des Mittelwertvektors oder der Kovarianzmatrix der j-ten Ein-

zelverteilung folgt

∇Θi,j [log (p(xi(n)|Ω = i;Θi))]

=∇Θi,j "log M

m=1

ci,m ·p(xi(n)|Ω = i, Z =m;Θi)!# (A.28)

=∇Θi,j [ci,j ·p(xi(n)|Ω = i, Z =j;Θi)]

p(xi(n)|Ω = i;Θi)(A.29)

=ci,j

p(xi(n)|Ω = i;Θi)∇Θi,j [p(xi(n)|Ω = i, Z =j;Θi)] ,(A.30)

wobei die Umformung von Gl. A.29 auf Gl. A.30 berücksichtigt, dass der Gradient nicht für

die Mischungsgewichtebetrachtet wird. Die Anwendung der Bayes’schen Regel für bedingte

Wahrscheinlichkeiten auf Gl. A.30 in der Form

P(Z=j|Ω = i)

p(xi(n)|Ω = i;Θi)=P(Z=j|xi(n),Ω = i;Θi)

p(xi(n)|Ω = i, Z =j;Θi)(A.31)

⇔ci,j

p(xi(n)|Ω = i;Θi)=γi,j(n)

p(xi(n)|Ω = i, Z =j;Θi)(A.32)

mit

γi,j(n) = P(Z=j|xi(n),Ω = i;Θi)(A.33)

führt auf:

∇Θi,j [log (p(xi(n)|Ω = i;Θi))]

=γi,j(n)

p(xi(n)|Ω = i, Z =j;Θi)∇Θi,j [p(xi(n)|Ω = i, Z =j;Θi)] (A.34)

=γi,j(n)∇Θi,j [log (p(xi(n)|Ω = i, Z =j;Θi))] .(A.35)

Die Bestimmung der Mittelwertvektoren µi,j der j-ten Einzelverteilung kann unter Verwen-

dung von [BSMM01] mit

∇µi,j log (p(xi(n)|Ω = i;Θi)) = ∇µi,j log exp(−1

2(xi(n)−µi,j )TΣ−1

i,j (xi(n)−µi,j ))

√(2π)D|Σi,j|(A.36)

=Σ−1

i,j (xi(n)−µi,j)(A.37)

erfolgen. Das Einsetzen der Teilergebnisse aus Gl. A.35 und Gl. A.37 in die Gradientenglei-

chung aus Gl. A.24 liefert die Bestimmungsgleichungfür die geschätzten Mittelwertvektoren

µi,j mit:

∇µi,j Qi(Θ)µi,j =b

µi,j

= 0 (A.38)

⇔0 =

n=1 ψi(n)·γi,j(n)·Σ−1

i,j (xi(n)−b

µi,j)

⇔b

µi,j =

n=1

[ψi(n)·γi,j(n)·xi(n)]

n=1

ψi(n)·γi,j(n)

.(A.39)

118

Anhang

Entsprechend der Herleitung für die Mittelwertvektoren b

µi,j wird für die Schätzung der Ko-

varianzmatrizen b

Σi,j zunächst der Gradient aus Gl. A.35 mit Hilfe von [Fuk90] bestimmt:

∇Σi,j log (p(xi(n)|Ω = i;Θi))

=∇Σi,j log 

exp −1

2(xi(n)−µi,j)TΣ−1

i,j (xi(n)−µi,j)

q(2π)D|Σi,j|

(A.40)

=−1

2∇Σi,j hlog (|Σi,j|) + (xi(n)−µi,j)TΣ−1

i,j (xi(n)−µi,j)i

=−1

2Σ−1

i,j −Σ−1

i,j (xi(n)−µi,j) (xi(n)−µi,j)TΣ−1

i,j .(A.41)

Setzt man die Teilergebnisse aus Gl. A.41 und Gl. A.35 in die Gradientengleichung aus Gl.

A.24 ein, so folgt:

∇Σi,j Qi(Θ)Σi,j =b

Σi,j

= 0 (A.42)

⇔0 =

n=1 hψi(n)·γi,j(n)b

Σ−1

i,j −b

Σ−1

i,j (xi(n)−µi,j) (xi(n)−µi,j)Tb

Σ−1

i,j i

⇔b

Σi,j =

n=1 hψi(n)·γi,j(n) (xi(n)−µi,j) (xi(n)−µi,j)Ti

n=1

ψi(n)·γi,j(n)

.(A.43)

Die Schätzung der Mischungsgewichte bci,j erfolgt mit Hilfe des Lagrange-Multiplikators,

der in die Optimierung aus Gl. A.22 mit einbezogen wird:

Q′

i(Θ, λ) =

n=1

log 





p(xi(n)|Ω = i;Θi)P(Ω = i)

k=1

p(xi(n)|Ω = k;Θk)P(Ω = k)





+λ M

m=1

ci,m −1!(A.44)

Die Berechnung des Gradienten für den Ausdruck in Gl. A.44 liefert die Bestimmungsglei-

chung für ci,j mit:

∇ci,j Q′

i(Θ, λ)ci,j=bci,j

= 0 (A.45)

⇔

n=1"p(xi(n)|Ω = i, Z =j;Θi)P(Ω = i)

p(xi(n)|Ω = i;Θi)P(Ω = i)

−p(xi(n)|Ω = i, Z =j;Θi)P(Ω = i)

k=1

p(xi(n)|Ω = k;Θk)P(Ω = k)#+λ= 0

⇔

n=1 ψi(n)p(xi(n)|Ω = i, Z =j;Θi)

p(xi(n)|Ω = i;Θi)+λ= 0.(A.46)

Anhang

119

Unter Verwendung von Gl. A.32 folgt:

n=1 ψi(n)γi,j(n)

bci,j +λ= 0 (A.47)

⇔bci,j =−1

n=1

ψi(n)·γi,j(n).(A.48)

Die Summation der M-Gleichungen aus Gl. A.48 führt mit

m=1

ci,m = 1 (A.49)

zur Bestimmung des Lagrange-Multiplikators:

−λ=

n=1





1−p(xi(n)|Ω = i;Θi)P(Ω = i)

k=1

p(xi(n)|Ω = k;Θk)P(Ω = k)





.(A.50)

Somit folgt für die Mischungsgewichte bci,j:

bci,j =

n=1

ψi(n)·γi,j(n)

n=1

ψi(n)·

.(A.51)

Die MMI-Parameterschätzung ist ein EM-Algorithmus. Im ersten Schritt (Expectation) wer-

den die Erwartungswerte der Wahrscheinlichkeit einer Fehlklassifikation (vgl. Gl. A.25) und

die Zugehörigkeit zu einer Mischungsverteilung (vgl. Gl. A.33) mit Hilfe der aktuellen Mo-

dellparameter geschätzt. Im zweiten Schritt (Maximization) werden die im vorherigen Schritt

berechneten Werte verwendet, um eine neue Schätzung der Modellparameter (vgl. Gl. A.51,

Gl. A.39, Gl. A.43) durchzuführen und somit die Zielfunktion (Gl. A.20) zu maximieren.

120

Anhang

A.3 Experimentelle Ergebnisse der Ereignisdetektion

Die folgenden zwei Tabellen enthalten die Klassifikationsraten der Ereignisidentifikation

für jedes einzelne Mikrophon im Raum. Tab. A.1 gibt die Ergebnisse für die Testdaten auf

DVD 2 und Tab. A.2 die Ergebnisse für DVD 3 wieder. Die beiden letzten Zeilen geben die

beste und die schlechteste Klassifikationsrate für jedes Ereignis wieder, um die Spannbreite

der Klassifikationsraten zwischen den 22 Mikrophonen aufzuzeigen.

ap cl cm co do ds kj kn kt la pr pw st un

Mik. 1 100,00 100,00 85,71 90,91 100,00 95,24 95,24 100,00 96,00 95,24 86,11 82,76 91,67 76,09

Mik. 2 100,00 100,00 89,29 90,91 100,00 95,24 95,24 100,00 96,00 95,24 88,89 82,76 87,50 80,43

Mik. 3 100,00 100,00 89,29 95,45 100,00 95,24 95,24 100,00 92,00 90,48 86,11 86,21 91,67 82,61

Mik. 4 100,00 100,00 89,29 90,91 85,00 85,71 100,00 100,00 100,00 90,48 91,67 96,55 83,33 80,43

Mik. 5 100,00 100,00 92,86 90,91 100,00 95,24 95,24 100,00 92,00 85,71 88,89 79,31 91,67 82,61

Mik. 6 100,00 100,00 96,43 90,91 80,00 85,71 95,24 100,00 92,00 90,48 94,44 89,66 87,50 82,61

Mik. 7 100,00 100,00 92,86 90,91 100,00 95,24 95,24 100,00 96,00 95,24 88,89 86,21 91,67 86,96

Mik. 8 100,00 100,00 89,29 95,45 100,00 95,24 95,24 100,00 96,00 90,48 86,11 82,76 91,67 82,61

Mik. 9 100,00 100,00 82,14 100,00 100,00 90,48 100,00 100,00 92,00 95,24 91,67 79,31 91,67 86,96

Mik. 10 100,00 100,00 85,71 100,00 100,00 95,24 100,00 100,00 92,00 80,95 91,67 82,76 91,67 86,96

Mik. 11 100,00 100,00 85,71 100,00 100,00 95,24 95,24 100,00 92,00 85,71 86,11 75,86 87,50 84,78

Mik. 12 100,00 100,00 85,71 100,00 100,00 95,24 100,00 100,00 92,00 85,71 97,22 72,41 91,67 86,96

Mik. 13 100,00 100,00 82,14 86,36 100,00 95,24 100,00 100,00 96,00 95,24 80,56 86,21 87,50 89,13

Mik. 14 100,00 100,00 85,71 86,36 100,00 95,24 90,48 100,00 92,00 90,48 77,78 89,66 91,67 89,13

Mik. 15 100,00 100,00 85,71 77,27 100,00 95,24 80,95 100,00 92,00 95,24 80,56 89,66 91,67 86,96

Mik. 16 100,00 100,00 89,29 86,36 100,00 85,71 95,24 93,75 92,00 95,24 88,89 93,10 75,00 76,09

Mik. 17 100,00 100,00 89,29 90,91 100,00 85,71 95,24 93,75 92,00 90,48 83,33 93,10 75,00 71,74

Mik. 18 100,00 100,00 89,29 86,36 100,00 85,71 100,00 93,75 92,00 90,48 88,89 96,55 83,33 78,26

Mik. 19 100,00 100,00 89,29 90,91 95,00 85,71 100,00 87,50 92,00 95,24 91,67 96,55 83,33 76,09

Mik. 20 100,00 100,00 89,29 90,91 100,00 85,71 100,00 87,50 88,00 100,00 88,89 93,10 83,33 76,09

Mik. 21 100,00 100,00 92,86 90,91 100,00 85,71 100,00 87,50 96,00 95,24 94,44 93,10 83,33 73,91

Mik. 22 100,00 100,00 89,29 90,91 100,00 85,71 95,24 93,75 88,00 90,48 91,67 96,55 83,33 76,09

Minimum 100,00 100,00 82,14 77,27 80,00 85,71 80,95 87,50 88,00 80,95 77,78 72,41 75,00 71,74

Maximum 100,00 100,00 96,43 100,00 100,00 95,24 100,00 100,00 100,00 100,00 97,22 96,55 91,67 89,13

Tabelle A.1: Klassifikationsraten der Ereignisse je Kanal für die Testdaten (DVD 2)

ap cl cm co do ds kj kn kt la pr pw st un

Mik. 1 100,00 100,00 96,00 90,48 100,00 95,00 86,96 88,24 100,00 90,48 72,09 87,50 90,48 80,95

Mik. 2 100,00 100,00 92,00 90,48 100,00 95,00 86,96 88,24 100,00 90,48 67,44 91,67 85,71 80,95

Mik. 3 100,00 100,00 96,00 90,48 100,00 95,00 91,30 100,00 100,00 90,48 72,09 87,50 85,71 83,33

Mik. 4 100,00 100,00 96,00 95,24 95,00 95,00 95,65 88,24 100,00 90,48 74,42 95,83 90,48 78,57

Mik. 5 100,00 100,00 92,00 95,24 100,00 95,00 95,65 94,12 100,00 90,48 58,14 87,50 90,48 83,33

Mik. 6 100,00 100,00 92,00 90,48 90,00 95,00 91,30 100,00 100,00 95,24 76,74 95,83 95,24 85,71

Mik. 7 100,00 100,00 92,00 90,48 100,00 95,00 95,65 94,12 100,00 90,48 74,42 87,50 90,48 83,33

Mik. 8 100,00 100,00 92,00 90,48 100,00 95,00 95,65 94,12 100,00 85,71 60,47 87,50 90,48 83,33

Mik. 9 100,00 100,00 92,00 95,24 100,00 95,00 95,65 94,12 100,00 95,24 72,09 91,67 85,71 83,33

Mik. 10 100,00 100,00 92,00 85,71 100,00 95,00 91,30 88,24 100,00 90,48 74,42 87,50 85,71 83,33

Mik. 11 100,00 100,00 96,00 90,48 100,00 95,00 91,30 88,24 100,00 85,71 69,77 87,50 85,71 83,33

Mik. 12 100,00 100,00 92,00 95,24 100,00 95,00 91,30 88,24 100,00 85,71 69,77 87,50 90,48 83,33

Mik. 13 95,00 100,00 96,00 90,48 100,00 95,00 100,00 94,12 100,00 100,00 62,79 83,33 90,48 80,95

Mik. 14 90,00 100,00 96,00 80,95 100,00 95,00 91,30 88,24 100,00 95,24 60,47 87,50 95,24 83,33

Mik. 15 90,00 100,00 84,00 80,95 100,00 95,00 86,96 100,00 100,00 90,48 67,44 87,50 95,24 78,57

Mik. 16 100,00 100,00 96,00 95,24 100,00 95,00 91,30 94,12 95,00 95,24 79,07 91,67 90,48 78,57

Mik. 17 100,00 100,00 96,00 95,24 100,00 95,00 86,96 88,24 100,00 90,48 76,74 95,83 80,95 83,33

Mik. 18 100,00 100,00 96,00 95,24 100,00 95,00 91,30 94,12 100,00 85,71 76,74 100,00 90,48 80,95

Mik. 19 100,00 100,00 96,00 95,24 100,00 95,00 95,65 88,24 100,00 85,71 81,40 95,83 90,48 78,57

Mik. 20 100,00 100,00 96,00 90,48 100,00 95,00 91,30 94,12 95,00 90,48 76,74 91,67 90,48 80,95

Mik. 21 100,00 100,00 96,00 95,24 100,00 95,00 91,30 94,12 100,00 90,48 76,74 95,83 90,48 80,95

Mik. 22 100,00 100,00 96,00 95,24 100,00 95,00 86,96 94,12 100,00 95,24 76,74 91,67 95,24 80,95

Minimum 90,00 100,00 84,00 80,95 90,00 95,00 86,96 88,24 95,00 85,71 58,14 83,33 80,95 78,57

Maximum 100,00 100,00 96,00 95,24 100,00 95,00 100,00 100,00 100,00 100,00 81,40 100,00 95,24 85,71

Tabelle A.2: Klassifikationsraten der Ereignisse je Kanal für die Testdaten (DVD 3)

Anhang

121

A.4 ML- und MMI-Parameterschätzung

Die Likelihood eines Merkmalsvektors xfür die i-te Klasse (Ω = i) ist mit

p(x|Ω = i) =

m=1

ci,m ·N(x;µi,m,Σi,m)i= 1,2(A.52)

gegeben. Die Modellparameter der Klasse 1(Ω = 1) sind mit

c1,1=3

14;c1,2=7

14;c1,3=4

14;(A.53)

µ1,1=−6

−3;µ1,2=−1

0;µ1,3=4

4;(A.54)

Σ1,1=1,0 0,0

0,0 1,0;Σ1,2=1,8 1,6

1,6 1,8;Σ1,3=1,6 0,0

0,0 1,6(A.55)

und die der Klasse 2(Ω = 2) mit

c2,1=4

14;c2,2=6

14;c2,3=4

14;(A.56)

µ2,1=3

−2;µ2,2=1

0;µ2,3=−4

4;(A.57)

Σ2,1=0,1 0,0

0,0 1,0;Σ2,2=1,8 1,6

1,6 1,8;Σ2,3=1,8 1,6

1,6 1,8(A.58)

gegeben. Für die Parameter der GMM lieferten die Schätzverfahren die folgenden Werte:

•ML-Parameterschätzung (volle Kovarianzmatrizen)

c1,1= 0,21; c1,2= 0,50; c1,3= 0,28; (A.59)

µ1,1=−6,00

−3,00;µ1,2=−0,98

0,01 ;µ1,3=4,01

4,01;(A.60)

Σ1,1=0,98 −0,02

−0,02 0,97 ;Σ1,2=1,86 1,66

1,66 1,85;Σ1,3=1,62 0,02

0,02 1,62;(A.61)

c2,1= 0,43; c2,2= 0,29; c2,3= 0,29; (A.62)

µ2,1=1,01

0,00;µ2,2=3,01

−1,97;µ2,3=−3,96

4,03 ;(A.63)

Σ2,1=1,77 1,58

1,58 1,79;Σ2,2=0,10 0,01

0,01 1,00;Σ2,3=1,86 1,67

1,67 1,86(A.64)

•ML-Parameterschätzung (diagonale Kovarianzmatrizen)

c1,1= 0,27; c1,2= 0,42; c1,3= 0,32; (A.65)

µ1,1=−5,50

−2,81;µ1,2=−0,96

0,04 ;µ1,3=3,72

3,84;(A.66)

Σ1,1=2,08 0,00

0,00 0,99;Σ1,2=0,99 0,00

0,00 1,00;Σ1,3=2,08 0,00

0,00 1,72(A.67)

122

Anhang

c2,1= 0,48; c2,2= 0,24; c2,3= 0,29; (A.68)

µ2,1=1,21

−0,10;µ2,2=3,01

−2,19;µ2,3=−3,98

4,02 ;(A.69)

Σ2,1=1,94 0,00

0,00 1,81;Σ2,2=0,08 0,00

0,00 0,87;Σ2,3=1,77 0,00

0,00 1,79(A.70)

•MMI-Parameterschätzung (diagonale Kovarianzmatrizen)

c1,1= 0,15; c1,2= 0,55; c1,3= 0,30; (A.71)

µ1,1=−4,55

−2,46;µ1,2=−0,76

0,07 ;µ1,3=2,86

2,76;(A.72)

Σ1,1=3,64 0,00

0,00 1,57;Σ1,2=0,93 0,00

0,00 0,90;Σ1,3=2,04 0,00

0,00 1,60(A.73)

c2,1= 0,66; c2,2= 0,25; c2,3= 0,09; (A.74)

µ2,1=0,41

−0,58;µ2,2=2,85

1,84;µ2,3=−2,07

−0,29;(A.75)

Σ2,1=1,35 0,00

0,00 1,01;Σ2,2=0,83 0,00

0,00 0,84;Σ2,3=9,32 0,00

0,00 9,24(A.76)

Abkürzungsverzeichnis

ACS ................ Ambient Communication Service

AD/DA ............. Analog-Digital/Digital-Analog

ADSL ............... Asymmetric Digital Subscriber Line

AEC ................ Adaptive Echo Canceler

AFE ................ Advanced Front-end Feature Extraction

AI .................. Ambiente Intelligenz

AMI ................ Augmented Multi-Party Interaction

ASA................ Akustische Szenenanalyse

BIC ................ Bayesian Information Criterion

CHIL ............... Computer in the Human Interaction Loop

CMS ................ Context Management Service

CTM ............... Close Talking Microphone

DARPA ............. Defense Advanced Research Projects Agency

DCT................ Diskrete Cosinus Transformation

DER ................ Diarization Error Rate

DFT ................ Diskrete Fourier Transformation

DIRAC ............. Detection and Identification of Rare Audiovisual Cues

DNS ................ Domain Name System

DSB ................ Delay Sum Beamformer

DTM ............... Distant Talking Microphone

EARS ............... Effective, Affordable, Reusable Speech-to-Text

EER ................ Equal Error Rate

EIB ................. European Installation Bus

ELDA ............... Evaluations and Language resources Distribution Agency

EM ................. Expectation Maximization

ETSI ............... European Telecommunications Standards Institute

FAR ................ False Alarm Rate

FFT ................ Fast Fourier Transformation

FIR ................. Finite Impulse Response

FSB ................ Filter Sum Beamformer

GCC ............... Generalized Cross Correlation

GCC-PHAT ......... Generalized Cross Correlation with Phase Transformation

GCF ................ Global Coherence Field

GMM ............... Gaussian Mixture Model

GUI ................ Graphical User Interface

HMM ............... Hidden Markov Model

HTTP ............... Hypertext Transfer Protocol

123

124

Abkürzungsverzeichnis

HW/SW ............. Hardware/Software-Schnittstelle

IDCT ............... Inverse Diskrete Cosinus Transformation

IDFT ............... Inverse Diskrete Fourier Transformation

IP .................. Internet Protocol

IPC ................ Inter Process Communication

IST ................. Information Society Technologies

ITU ................ International Telecommunication Unit

JACK ............... Jack Audio Connection Kit

LDA................ Lineare Diskriminanzanalyse

LDAP ............... Lightweight Directory Access Protocol

LMS ................ Location Management Service

LPCC .............. Linear Prediction Cepstral Coefficients

LST ................ Lokale Strukturtransformation

MACV .............. Maximum Autocorrelation Value

MAP ............... Maximum A Posteriori

MCE ............... Minimum Classification Error

MDR ............... Missed Detection Rate

MFCC .............. Mel-Frequency Cepstral Coefficients

ML ................. Maximum Likelihood

MMI ............... Maximum Mutual Information

NAT ................ Network Address Translation

NIST ............... National Institute of Standards and Technologies

NLMS .............. Normalized Least Mean Square

NSD ................ Near Speaker Detector

OSGI ............... Open Services Gateway Initiative

OWL ............... Web Ontology Language

OWL-S .............. Web Ontology Language for Web Services

PCA ................ Principle Component Analysis

PDA ................ Personal Digital Assistent

PLC ................ Packet Loss Concealment

PTZ ................ Pan Tilt Zoom

QoS ................ Quality ofService

RDF ................ Resource Description Framework

RFC ................ Requests For Comments

RFID ............... Radio Frequency Identification

RMI ................ Remote Method Invocation

RMS ................ Root Mean Square

ROC ................ Receiver Operating Characteristic

RPC ................ Remote Procedure Call

RTP ................ Real-Time Transport Protocol

SAInt ............... Seamless Audio Interface

SAVInt .............. Seamless Audio and Video Interface

SDI ................. Service Discovery Protocol - Detection and Interoperability

SDP ................ Service Discovery Protocol

SER ................ Signal to Echo Ratio

SHM ............... Shared Memory

Abkürzungsverzeichnis

125

SII ................. Service Interaction Interoperability

SIP ................. Session Initialization Protocol

SLP ................ Service Location Protocol

SNR ................ Signal to Noise Ratio

SOAP ............... Simple Object Access Protocol

Spark ............... Speech processing and recognition toolkit

SPARQL ............ SPARQL Protocol and RDF Query Language

SSDP ............... Simple Service Discovery Protocol

STUN .............. Simple Traversal of User Datagram Protocol Through Network Ad-

dress Translators

TCP ................ Transmission Control Protocol

UBM ............... Universal Background Model

UDP ............... Universal Datagram Protocol

UPnP ............... Universal Plug andPlay

URI ................ Uniform Resource Identifier

URN ............... Uniform Resource Name

VAD ................ Voice Activity Detection

VoIP ................ Voice over Internet Protocol

WSDL .............. Web Services Description Language

WWW .............. World Wide Web

XAFE ............... Extended Advanced Front-end Feature Extraction

XML ................ Extensible Markup Language

126

Abkürzungsverzeichnis

Formelzeichen

Akustische Szenenanalyse - Merkmalsextraktion

MACV(q)........... q-ter Wert des MACV-Merkmalsvektors

r(k).... . .. .. .. .... . Normierte Autokorrelationsfunktion

R(k).... . .. .... ... . Autokorrelationsfunktion

˜x(n)............... n-ter Abtastwert des gefensterten Mikrophonsignals

Akustische Szenenanalyse - Positionsschätzung

al(αl, βl)... .... .. . . Richtungsvektor aus Winkelschätzung und Mikrophongruppenori-

entierung

c.... . .. .. .. .... . .. . Schallgeschwindigkeit in der Luft

C(GCC)

ij,l (τ), C(FSB)

ij,l (τ). Interpolierte Fourier-Rücktransformierte der Kohärenzfunktion

zwischen den Mikrophonen iund jder l-ten Mikrophongruppe,

Schätzung durch GCC bzw. FSB

fi(n)............... n-ter FSB-Filterwert des i-ten Filters

fmax .. . .... .. . ... . . Maximale ohne Aliasingfehler auflösbare Frequenz

Fi(k)............... k-tes FSB-Filterbin des i-ten Filters

F(k).. .. . .. .. .. .... Vektor der FSB-Filterbins

gl.. .. ... .... .. .. ... Richtungsvektor der l-ten Mikrophongruppe

G.... . .. .... ... .. .. Gitter der globalen Kohärenzfeldanalyse

GCF(x, y). .. .. .... . Globale Kohärenzfunktion am Ort [x, y]

hi(n)............... n-ter Abtastwert der Raumimpulsantwort zum i-ten Mikrophon

L.... . .. .... ... .. .. Anzahl der Mikrophongruppen

Ml.. .. ... .... .. .. .. Anzahl der Mikrophone der l-ten Mikrophongruppe

ni(n)............... n-ter Abtastwert der Störung am i-ten Mikrophon

P= [xp, yp]T.... ... Positionsschätzung in kartesischen Koordinaten

rl.... . .. .... ... .. .. Positionsvektor der l-ten Mikrophongruppe

s(n)................ n-ter Abtastwert des Sprachsignals

sij,l .. . .. .... . .. .. .. Abstand zwischen den Mikrophonen iund jder l-ten Mikrophon-

gruppe

T... .. .. .... ... .. .. Abtastperiode

[x, y]... .. . ... . .. ... Gitterpunkt der globalen Kohärenzfeldanalyse

xi(n)............... n-ter Abtastwert des i-ten Mikrophonsignals

xi,l(n).............. n-ter Abtastwert des i-ten Mikrophons der l-ten Mikrophongruppe

Xi(k).............. k-ter Frequenzbin des i-ten Mikrophonsignals

X(k)... .. .. ... .... Vektor der Frequenzbins der Mikrophonsignale

y(n)............... n-ter Abtastwert des FSB-Ausgangssignals

Y(k)............... k-tes Frequenzbin des FSB-Ausgangssignals

127

128

Formelzeichen

αij,l . .. . .... .. . .... . Schätzung des Einfallswinkels basierend auf den Mikrophonen i

und jder l-ten Mikrophongruppe

αl.... . .. .... ... .. .. Gemittelte Schätzung des Einfallswinkels für die l-te Mikrophon-

gruppe

βl... .. .. .. .. ... .. .. Orientierung der l-ten Mikrophongruppe

γij,l . .. .. .... . .. .... Gewichtsfaktor zur Positionsschätzung

λ(max)

ij,l . .... ... .. .. .. Maximale Laufzeitdifferenz zwischen Mikrophon iund jder l-ten

Mikrophongruppe

µ.... . .. .... ... .. .. Schrittweite des FSB

τ(GCC)

ij,l , τ(FSB)

ij,l . .. .. .. . Laufzeitdifferenz der Signale zwischen Mikrophon iund jder l-ten

Mikrophongruppe, Schätzung durch GCC bzw. FSB

φ(GCC)

ij,l (τ), φ(FSB)

ij,l (τ). . Fourier-Rücktransformierte der Kohärenzfunktion zwischen den

Mikrophonen iund jder l-ten Mikrophongruppe, Schätzung durch

GCC bzw. FSB

Φxx .. ... .. .. .. . .... Spektrale Kreuzleistungsdichtematrix der Mikrophonsignale

χij ... .. . ... . .. .. .. . Schnittpunkt zwischen der i-ten und j-ten Geraden

Akustische Szenenanalyse - Sprecherprotokollierung

aij() . .. .. .. .. ... .. . Transitionswahrscheinlichkeit von Zustand iauf Zustand j

˜aij() . .. .. .. .. ... .. . Nicht normierte Transitionswahrscheinlichkeit von Zustand iauf j

A.... . .. .... ... .. .. Transitionsmatrix des HMM

B... .. .. .... ... .. .. Menge der Verteilungsdichtefunktionen der HMM-Zustände

bj() .. .. .. .. .. ... .. . Emissionswahrscheinlichkeit des j-ten Zustandes

c(k)... .. .. ... .... .. Binäre Zufallsvariable, die einen Sprecherwechsel anzeigt

ci,m,˜ci,m ............ i-tes Gewicht der m-ten Gauß’schen Mischungsverteilung

D... .. .. ... .... .. . . Dimension der Merkmalsvektoren

H0, H1............. BIC-Hypothesen

L... .. .. ... .... .. .. Transformationsmatrix der linearen Diskriminanzanalyse

mi.. . .... .. . ... . .. . Anzahl der Modellparameter im i-ten Modell

mLDA . .. .. ... .... .. Mittelwertvektor der linearen Diskriminanzanalyse

mPCA . .. .. .. ... .. .. Mittelwertvektor der Hauptachsentransformation

N.... . .. .. .. ... .. .. Anzahl der Merkmalsvektoren des Segmentes

Nw.... ... .. .. ... .. . Anzahl der Merkmalsvektoren im Fenster

p() .... . .. .... . .. .. . Verteilungsdichtefunktion einer kontinuierlichen Zufallsvariablen

P() .. .. . .... .. . ... . Verteilungsdichtefunktion einer diskreten Zufallsvariablen

P(S|xsid)... .. .. ... . Wahrscheinlichkeit für Sprache

P.. .. . ... . .. .... . .. Transformationsmatrix der Hauptachsentransformation

P(k)... .. .. ... .... . Positionsschätzung in kartesischen Koordinaten zum Zeitpunkt k

r.... . .. .... ... .. .. . Relevanzfaktor der Bayes’schen Adaption

xbic(k).. .. . .... .. . . Varianz der ∆BIC-Werte zum Zeitpunkt k

xpos(k). . .... .. . .... Varianz der Position zum Zeitpunkt k

x(k)... .. .. .... ... . Merkmalsvektor

xsid(k). .... .. .. ... . Akustischer Merkmalsvektor zum Zeitpunkt kbestehend aus

MFCC und MACV, sowie erster und zweiter Ableitung

xsid

M(k)............. MFCC-Merkmalsvektor und MACV-Wert

Formelzeichen

129

xsid

∆M(k).... . .. .... . 1. Ableitung der MFCC- und MACV-Werte

xsid

∆∆M(k). .. .... . .. . 2. Ableitung der MFCC- und MACV-Werte

xvid(k). .. .. .... . .. . Visueller Merkmalsvektor zum Zeitpunkt k

xvid

ν:k.... .. .. ... .. .. . Folge der visuellen Merkmalsvektoren vom Zeitpunkt k−ν+1 bis

zum Zeitpunkt k

X1:Nw.. . .... .. .. ... Menge von NwMerkmalsvektoren

Z.. .. . ... . .. .... . .. Zufallsvariable der Mischungsverteilungszugehörigkeit

α, β . .... .. . ... . .. .. Glättungsparameter

γacc, γdelta .. .. ... .. . Gewichtungsfaktoren der Score Level Fusion

Γ(k).. . .... .. .. .. . . Zeilenweise ausgelesenens Teilbild

∆BIC(k)........... ∆BIC-Wert eines um den Zeitpunkt kzentrierten Fensters

kmax .. .. . ... . .. .... Zeitpunkt eines lokalen Maximums der ∆BIC-Werte

kminL, kminR... . .. .. . Linkes bzw. rechtes lokales Minimum der ∆BIC-Werte

ǫi.. . .. .. .. .... . .. .. Adaptionskoeffizient

κ.... . .. .. .. .... . .. Heuristischer Gewichtungsfaktor

λ... .. .. .... ... .. .. Schwellwert der ∆BIC-Segmentierung

λUBM . .... .. . .... .. . Universelles Hintergrundmodell

λF

UBM, λM

UBM . .... .. .. Universelles Hintergrundmodell für Frauen, Männer

Λ(),b

Λ() ............ Likelihood-Verhältnis

µi,m,µi,˜

µi,m .. ... .. Mittelwertvektoren

µbic(k). ... .... .. .. . Mittelwert der ∆BIC-Werte zum Zeitpunkt k

µpos(k). .. .. .... . .. . Mittelwert der Position zum Zeitpunkt k

πi.. . .. .. .. . ... . .. .. A priori Wahrscheinlichkeit des i-ten HMM-Zustandes

σ... .. .. ... .... .. .. Standardabweichung der ∆BIC-Werte

Σi,m,˜

Σi,Σi... .. .. . Kovarianzmatrizen

Θi,˜

Θi.. . .. .. .. . ... Modellparameter der i-ten Gauß’schen Mischungsverteilung

τavg ... . .. .. .. ... .. . Mittlere Verzögerung der Sprecherprotokollierung

τmax .. . .. .. .. .... . .. Maximale Verzögerung des Viterbi-Dekodierers

ξ................... Konstante

Ω.... . .. .... ... .. .. Zufallsvariable der Klassenzugehörigkeit

Ω.... . .. .... ... .. .. Sprecherhypothese

Ω1:N. ... . .. .... . .. . Zustandssequenz über NZustände im Trellisdiagramm

I... .. .. ... .... .. . . Anzahl trainierter Benutzer

N(x;µ,Σ)... .. .. .. Normalverteilung mit Mittelwertvektor µund Kovarianzmatrix Σ

Akustische Ereignisdetektion

ck,m,bck,m .. .. . .... .. Gewicht der m-ten Mischungsverteilung der k-ten Klasse

D.. .. . ... . .. .... . .. Dimension der Merkmalsvektoren

K.... . .. .. .. .... . .. Anzahl der Klassen

M.... . .. .... ... .. . Anzahl der Mischungsverteilungen je Klasse

Nk.... ... .. .. ... .. . Anzahl der Merkmalsvektoren in der k-ten Klasse

Q(Θ) .... ... .. .. ... Zielfunktion

r... .. .. .... ... .. .. . Relevanzfaktor

xk(n).............. n-ter Merkmalsvektor der k-ten Klasse

1:N.. .. . .. .. .. . ... Menge von NMerkmalsvektoren vom m-ten Mikrophon

130

Formelzeichen

Z.. .. . ... . .. .... . .. Zufallsvariable der Zugehörigkeit zu einer Mischungsverteilung

γk,m(n). .. .. ... .... . Wahrscheinlichkeit der m-ten Mischungsverteilung der k-ten Klas-

se gegeben den n-ten Merkmalsvektor

λ... .. .. .... ... .. .. Lagrange-Operator

µk,m,b

µk,m . . .... .. .. Mittelwertvektor der m-ten Mischungsverteilung der k-ten Klasse

ψm,k(n). .. .. .. ... .. Gewichtsfaktor der m-ten Mischungsverteilung der k-ten Klasse

gegeben den n-ten Merkmalsvektor

Σk,m,b

Σk,m . . .. .. .. . Kovarianzmatrix der m-ten Mischungsverteilung der k-ten Klasse

Θk.. . .. .. .. . .... .. . Modellparameter der k-ten Klasse

Ω.... . .. .. .. .... . .. Zufallsvariable der Klassenzugehörigkeit

Ω.... . .. .. .. .... . .. Schätzwert für das akustische Ereignis

Ambiente Kommunikation

b(n), B(m, ω).. . .. .. Zeitsignal und Frequenzspektrum des Restechos

e(n), E(m, ω). .. .. . . Zeitsignal und Frequenzspektrum des Fehlersignals

F(m, ω),e

F(m, ω). .. Filterfunktion

h(n),h.. . .. .. .. .... Raumimpulsantwort

H0, H1, H2, H3.. . .. . Hypothesen über vorliegende Signale

N.... . .. .. .. ... .. .. Filterlänge

r(n), R(m, ω).. .. .. . Zeitsignal und Frequenzspektrum der lokalen Störungen

Rn(m, ω). .. . .... .. . Schätzung des Leistungsdichtespektrums des lokalen Rauschens

Rb(m, ω). .. .. .. .... Schätzungen des Leistungsdichtespektrums des Restechos

s(n), S(m, ω).. .. .. . Zeitsignal und Frequenzspektrum des lokalen Sprechers

x(n)............... n-ter Block des Eingangssignals

w(n).. .. .... . .. .... Adaptives Filter des AEC

xp(n).... .. . ... . .. . Geglättete Spitzenwert der Energie eines Blocks

y(n).. .. ... .. .. ... . Mikrophonsignal

αξ, αζ, β . .. .. ... .. .. Glättungsparameter

βξ, βζ.. .. . .. .... ... Parameter zur Steuerung der Störungs- und Restechounterdrückung

Γ(n).... ... .. .. ... . Gewichtsfaktor für den n-ten Block des Eingangssignals

γT... .. .. ... .... .. . Schwellwert des Begrenzers

ζ(m, ω). .. .. . ... . .. A priori SER

µ(n).. .. ... .. .. .... Schrittweite des adaptiven Filters

ξ(m, ω)............ AprioriSNR

ξ... .. .. ... .... .. . .. Entscheidungsvariable NSD

σ2

s.... . .. .. .. .... . . Varianz des lokalen Sprechersignals

σ() .... . .. .... . .. .. . Einheitssprungfunktion

τA, τR.... .. . ... . .. . Anstiegszeit, Abfallzeit der NSD

φxx . .... .. .. .. . .... Autokorrelationsmatrix des Eingangssignals

Abbildungsverzeichnis

2.1 Datenquellen und Anwendungsgebiete der akustischen Szenenanalyse . . . 5

4.1 Blockdiagramm des 2-stufigen Wiener-Filters zur Störgeräuschreduktion . . 16

4.2 Blockdiagramm zur Berechnung der Mel-Frequency Cepstral Coefficients . 17

4.3 Beispiel eine GCF-Analyse für vier Mikrophongruppen zur akustischen Po-

sitionsschätzung durch verteilte Mikrophongruppen . . . . . . . . . . . . . 21

4.4 Beispiel einer akustischen Positionsschätzung mit drei Mikrophongruppen

durch die Schnittpunktanalyse . . . . . . . . . . . . . . . . . . . . . . . . 23

4.5 Positionsschätzung durch Interpolation von Winkelschätzungen . . . . . . . 24

4.6 Experimente zur Positionsschätzung mit dem FSB- und dem GCC-PHAT-

Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.7 Metrische Entscheidungsregel zur Segmentierung durch ∆BIC-Werte . . . 29

4.8 Vergleich zwischen Positionsinformationen und bekannten Segmentierungs-

punkten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.9 Hidden Markov Model zur Modellierung einer Sprechergruppe . . . . . . . 35

4.10 Systemkomponenten der Sprecherprotokollierung . . . . . . . . . . . . . . 35

4.11 Beispiel eines Trellisdiagramms und der Ausgabe des Viterbi-Dekodierers . 38

4.12 Fehlerarten bei der Segmentierung von Audiodaten . . . . . . . . . . . . . 40

4.13 Versuchsaufbau zur Erstellung einer Datenbasis zur Sprecherwechseldetektion 41

4.14 Experimentemit Nahbereichsmikrophonenzur Merkmalsvektorwahlund Fens-

tergröße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.15 Vergleich der Segmentierungsergebnisse von Fernfeldmikrophonen (DTM)

und Nahbereichsmikrophonen (CTM) . . . . . . . . . . . . . . . . . . . . 43

4.16 Vergleich der Fehlerraten für unterschiedliche Gewichtungen der Merkmals-

vektorkomponenten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.17 Ergebnisse der Sprecherprotokollierung durch ein gleitendes Fenster und ei-

ne ∆BIC-Segmentierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.18 Sprecherprotokollierung mittels Viterbi-Dekodierer unter Verwendung von

Positionsdaten und ∆BIC-Werten . . . . . . . . . . . . . . . . . . . . . . 47

4.19 Blockschaltbild zur Gesichtsdetektion und Gesichtsidentifikation . . . . . . 48

4.20 Beispiel einer Hautfarbensegmentierung mit Schwellwertentscheidung . . . 49

4.21 Beispiel einer Bildpyramide mit 8Skalierungsstufen . . . . . . . . . . . . 50

4.22 Merkmalsextraktion mittels lokaler Strukturtransformation des Graustufen-

bildes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.23 Beispiel einer Mehrfachdetektion eines Gesichtes und Ergebnis der Clusterung 51

4.24 Blockschaltbild der Kombination von Kamerasteuerung und audio-visueller

Sprecherprotokollierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

131

132

Tabellenverzeichnis

4.25 Experimenteller Aufbau zur ambienten Kommunikation und audio-visueller

Sprecherprotokollierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4.26 Vergleich zwischen den a posteriori Wahrscheinlichkeiten der Gesichtsiden-

tifikation und der Positionsschätzung durch die akustische Szenenanalyse . 57

4.27 Experimente zur zeitlichen Verzögerung des Viterbi-Dekodierers . . . . . . 58

4.28 Abhängigkeit der Klassifikationsfehlerrate von der maximalen Latenz τmax

des Viterbi-Dekodierers . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5.1 Experimenteller Aufbau der Datenbasis zur akustischen Ereignisdetektion . 61

5.2 Vergleich der Klassifikationsraten des GMM-Ansatzes . . . . . . . . . . . 63

5.3 Vergleich der Klassifikationsraten des GMM-Ansatzes bezogen auf die ein-

zelnen Ereignisse auf Testdaten (DVD 2, DVD 3) . . . . . . . . . . . . . . 64

5.4 Experimente zur Modellbildung durch den UBM-Ansatz . . . . . . . . . . 65

5.5 Vergleich der Klassifikationsraten des UBM-Ansatzes mit Relevanzfaktor

r= 16 bezogen auf die einzelnen Ereignisse auf Testdaten (DVD 2, DVD 3) 65

5.6 Vergleich der Klassifikationsraten des UBM- und des GMM-Ansatzes auf

Testdaten (DVD 2, DVD 3) . . . . . . . . . . . . . . . . . . . . . . . . . . 66

5.7 Beispieldaten eines 2-Klassenproblemsund zugehörige Klassengrenzen nach

der Bayes’schen Entscheidungsregel (vollständig besetzte Kovarianzmatrizen) 67

5.8 Vergleich der Klassengrenzen von Modellen nach einer ML- bzw. MMI-Pa-

rameterschätzung (diagonale Kovarianzmatrizen) . . . . . . . . . . . . . . 71

5.9 Fehlerratenreduktion durch die MMI-Parameterschätzung von Modellen . . 72

5.10 Vergleich der Klassifikationsraten für Modelle aus der ML- und MMI-Para-

meterschätzung auf Testdaten (DVD 2, DVD 3) . . . . . . . . . . . . . . . 73

5.11 Fusion und Selektion von Likelihood-Werten bei der Ereignisdetektion . . . 73

5.12 Vergleich von Auswahlverfahren und Kombinationsansätzenzur akustischen

Ereignisidentifikation(ML-Parameterschätzung, 128 GMM, DVD2 undDVD3) 76

5.13 Vergleich der Klassifikationsraten zwischen Einzelerkennung, Mehrheitsvo-

tum und optimaler Mikrophonwahl auf Testdaten (DVD 2, DVD 3) . . . . . 77

6.1 Beispiel eines RDF-Graphen zur Beschreibung einer Temperaturinformation 80

6.2 Vergleich zwischen Kontextinformation und Kontextabfrage . . . . . . . . 82

6.3 Interaktion zwischen Applikation und Dienst mittels Webservices . . . . . . 83

6.4 Spezifikation der Amigo Architektur gemäß [J+05] . . . . . . . . . . . . . 84

6.5 Amigo interoperabler Middleware-Kern . . . . . . . . . . . . . . . . . . . 86

6.6 Kommunikation zwischen Kontextquelle und Applikation . . . . . . . . . . 88

6.7 Beispiel einer Kontextinformation der akustischen Szenenanalyse . . . . . 89

7.1 Blockschaltbild der Systemkomponenten der ambienten Kommunikation . . 92

7.2 Blockschaltbild zur Integration von SAInt in die Amigo Middleware . . . . 93

7.3 Blockschaltbild zur Echounterdrückung und Störgeräuschfilterung des SAInt 94

7.4 Blockschaltbild der adaptiven Filterung zur Echounterdrückung . . . . . . 97

7.5 Beispiel für die NAT-Problematik der ambienten Kommunikation . . . . . . 102

7.6 Beispiel für die Kontextinformationen des SAInt-Dienstes . . . . . . . . . . 105

7.7 Blockschaltbild der Integration von SAVInt-Modulen in die SAInt-Architektur 106

Tabellenverzeichnis

4.1 Vergleich der Rechenzeit unterschiedlicher Module zur Positionsschätzung 26

4.2 CHIL Datenbasis: Identifikation von Sprechern mit Nahbereichsmikropho-

nen (CTM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.3 CHIL Datenbasis: Identifikation von Sprechern mit Fernfeldmikrophonen

(DTM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.4 Vergleich der Verfahren zur Sprecherprotokollierung anhand der DER . . . 47

4.5 Experimente zur audio-visuellen Sprecherprotokollierung . . . . . . . . . . 60

5.1 Vergleich der Klassifikationsraten für unterschiedliche Trainingsverfahren . 77

A.1 Klassifikationsraten der Ereignisse je Kanal für die Testdaten (DVD 2) . . . 120

A.2 Klassifikationsraten der Ereignisse je Kanal für die Testdaten (DVD 3) . . . 120

133

134

Tabellenverzeichnis

Literaturverzeichnis

[Aar09] E. Aarts: „Ambient Intelligence: A new user experience“, 2009, [URL] http:

//www.research.philips.com/technologies/projects/ami/vision.html.

[AB79] J. B. Allen und D. A. Berkley: „Image method for efficiently simulating small-

room acoustics“, Journal of the Acoustic Society of America, Band 65(4), S.

943–950, Apr. 1979.

[AFI+08] S. Araki, M. Fujimoto, K. Ishizuka, H. Sawada und S. Makino: „A DOA Based

Speaker Diarization System for Real Meetings“, Proc. Conference on Hands-

Free Speech Communication and Microphone Arrays (HSCMA’08), S. 29–32,

Trient, Italien, Mai 2008.

[AM04] E. Aarts und S. Marzano: The New Everyday: Views on Ambient Intelligence,

010 Uitgeverij, Rotterdam, Niederlande, 2004.

[AMI04] AMI: „Augmented Multi-Party Interaction“, Jan. 2004, [URL] http://www.

amiproject.org/.

[Ami06] Amigo: „Ambient intelligence for the networked home environment“, 2006,

[URL] http://www.hitech-projects.com/euprojects/amigo.

[APW06] X. Anguerra, J. Pardo und C. Wooters: „Speaker Diarization for Multiple Dis-

tant Microphone Meetings: Mixing Acoustic Features and Inter-Channel Time

Differences“, Proc. Conference of the International Speech Communication As-

sociation (Interspeech’06), S. 2194–2197, Pittsburgh PA, USA, Sep. 2006.

[AWH07] X. Anguera, C. Wooters und J. Hernando: „Acoustic Beamforming for Speaker

Diarization of Meetings“, IEEE Transactions on Audio, Speech and Language

Processing, Band 15(7), S. 2011–2022, Sep. 2007.

[B+01] D. Brickley et al.: „Semantic Web“, 2001, [URL] http://www.w3.org/2001/sw/.

[B+05a] T. Berners-Lee et al.: „Uniform Resource Identifier“, Jan. 2005, [URL] http:

//tools.ietf.org/html/rfc3986.

[B+05b] C. Busso et al.: „Smart Room: Participant and Speaker Localization and Identi-

fication“, Proc. IEEE International Conference on Acoustics, Speech, and Sig-

nal Processing (ICASSP’05), S. 1117–1120, Philadelphia PA, USA, Mär. 2005.

[B+08a] D. Beckett et al.: „Resource Description Framework“, Jan. 2008, [URL] http:

//www.w3.org/RDF/.

135

136

Literaturverzeichnis

[B+08b] T. Bray et al.: „Extensible Markup Language“, Nov. 2008, [URL] http://www.

w3.org/XML/.

[BFGP08] S. Borkowski, T. Flury, A. Gerodolle und G. Privat: „Ambient Communication

and Context-Aware Presence Management“, Communications in Computer and

Information Science, Band 11, S. 391–396, 2008.

[BH03] J. Benesty und S. Huang: Adaptive Signal Processing: Applications to Real-

World Problems, Springer Verlag, Heidelberg, Deutschland, 2003.

[BHK97] P. Belhumeur, J. Hespanha und D. Kriegman: „Eigenfaces vs. Fisherfaces:

Recognition Using Class Specific Linear Projection“, IEEE Transactions on

Pattern Analysis and Machine Intelligence, Band 19(7), S. 711–720, Jul. 1997.

[BHL01] T. Berners-Lee, J. Hendler und O. Lassila: „The Semantic Web“, Scientific

American Magazine, S. 1–4, Mai 2001.

[BI05] Y. Bromberg und V. Issarny: „INDISS: Interoperable Discovery System for Net-

worked Services“, Lecture Notes in Computer Science, Band 3790, S. 164–183,

Dez. 2005.

[BMC00] J. Benesty, R. Morgen und J. Cho: „A New Class of Doubletalk Detectors Based

on Cross-Correlation“, IEEE Transactions on Speech and Audio Processing,

Band 8(2), S. 168–172, Mär. 2000.

[BP08] C. Boukis und L. C. Polymenakos: „The Acoustic Event Detector of AIT“,

Lecture Notes in Computer Science: Multimodal Technologies for Perception of

Humans, Band 4625, S. 328–337, 2008.

[BS07] K. Bernardin und R. Stiefelhagen: „Audio-visual multi-person tracking and

identification for smart environments“, International Conference on Multime-

dia (MM’07), S. 661–670, Augsburg, Deutschland, Sep. 2007.

[BSMM01] I. Bronstein, K. Semendjajew, G. Musiol und H. Mühlig: Taschenbuch der

Mathematik, Verlag Harri Deutsch, Frankfurt am Main, Deutschland, 2001.

[C+07] R. Chinnici et al.: „Web Services Description Language“, Jun. 2007, [URL]

http://www.w3.org/TR/wsdl20/.

[Cam97] J. Campbell: „Speaker Recognition: A Tutorial“, Proceedings of the IEEE,

Band 85(9), S. 1437–1462, Sep. 1997.

[Car08] M. J. Carey: „SOA What?“, IEEE Computer, Band 41(3), S. 92–94, Mär. 2008.

[CG98] S. S. Chen und P. S. Gopalakrishnan: „Speaker, Environment and Channel

Change Detection and Clustering via the Bayesian Information Criterion“, Proc.

of the DARPA Broadcast News Transcription and Understanding Workshop,

Lansdowne, Virginia, USA, Feb. 1998.

[CHI04] CHIL: „Computers in the Human Interaction Loop“, Jan. 2004, [URL] http:

//chil.server.de/.

Literaturverzeichnis

137

[CSJ07] X. Chen, Y. Shi und W. Jiang: „Speaker Tracking and Identifying based on

Indoor Localization Systems and Microphone Array“, International Conference

on Advanced Information Networking and Applications (AINA’07), S. 347–352,

Niagarafälle, Kanada, Mai 2007.

[CW03] S. Cheng und H. Wang: „A Sequential Metric-based Audio Segmentation

Method via the Bayesian Information Criterion“, Proc.Eurospeech,S. 945–948,

Genf, Schweiz, Sep. 2003.

[DAM06] DAML: „Web Ontology Language for Web Services“, 2006, [URL] http://www.

daml.org/services/owl-s/.

[DBA07] J. Dmochowski, J. Benesty und S. Affes: „A Generalized Steered Response

Power Method for Computationally Viable Source Localization“, IEEE Trans-

actions on Speech and Audio Processing, Band 15(8), S. 2510–2526, Nov. 2007.

[DES99] R. Derkx, G. Egelmeers und P. Sommen: „New Constraining Method for Par-

tioned Block Frequency-Domain Adaptive Filters“, IEEE Transactions on Sig-

nal Processing, Band 50(9), S. 2177–2186, Sep. 1999.

[DHS01] R. Duda, P. Hart und D. Stork: Pattern Classification - Second Edition, John

Wiley & Sons, Kanada, 2001.

[DIR06] DIRAC: „Detection and Identification of Rare Audiovisual Cues“, Jan. 2006,

[URL] http://www.diracproject.org/.

[DW00] P. Delacourt und C. J. Wellekens: „DISTBIC: A speaker-based segmentation for

audio data indexing“, Speech Communications, Band 32(1-2), S. 111–126, Sep.

2000.

[DY08] N. Dhananjaya und B. Yegnanarayana: „Speaker change detection in ca-

sual conversations using excitation source features“, Speech Communications,

Band 50(2), S. 153–161, Feb. 2008.

[ECB06] E. Etter, P. D. Costa und T. Broens: „A Rule-Based Approach Towards Context-

Aware User Notification Services“, Proc. IEEE International Conference on

Pervasive Services (ICPS’06), S. 281–284, Lyon, Frankreich, Jun. 2006.

[EFJS07] H. K. Ekenel, M. Fischer, Q. Jin und R. Stiefelhagen: „Multi-modal Person

Identification in a Smart Environment“, Proc. IEEE Conference on Computer

Vision and Pattern Recognition (CVPR’07), S. 1–8, Minneapolis MN, USA,

Jun. 2007.

[EIB09] EIB: „European Installation Bus“, 2009, [URL] http://www.knx.org/.

[EK05] J. L. Encarnacao und T. Kirste: „Ambient Intelligence: Towards Smart Appli-

ance Ensembles“, Lecture Notes in Computer Science: From Human Computer

Interaction to Human Artifact Interaction, Band 3379, S. 261–270, Jan. 2005.

[ELD08] ELDA: Jan. 2008, [URL] http://www.elda.org/.

138

Literaturverzeichnis

[ETS02] ETSI: „ES 202 212 V1.1.1: Speech Processing, Transmission and Quality

aspects (STQ); Distributed Speech Recognition; Advanced front-end feature

extraction algorithm; Compression algorithms“, 2002, [URL] http://www.etsi.

org/.

[FCP+05] M. Friedewald, O. Costa, Y. Punie, P. Alahuhta und S. Heinonen: „Perspectives

of ambient intelligence in the home environment“, Telematics and Informatics,

Band 22(3), S. 221 – 238, 2005.

[FHY09] G. Friedland, H. Hung und C. Yeo: „Multi-modal speaker diarization of real-

world meetings using compressed-domain video features“, Proc. IEEE Interna-

tional Conference on Acoustics, Speech, and Signal Processing (ICASSP’09),

Taipei, Taiwan, Apr. 2009.

[FK04] B. Fröba und C. Küblbeck: „Face tracking by Means of Continous Detection“,

Proc. IEEE Conference on Computer Vision and Pattern Recognition Workshop

(CVPRW’04), S. 65–71, Washington D.C., USA, Mär. 2004.

[Fuk90] K. Fukunaga: Statistical Pattern Recognition - Second Edition, Academic Press,

San Diego CA, USA, 1990.

[G+07] M. Gudgin et al.: „W3C Recommendation: SOAP - Simple Object Access Pro-

tocol“, Apr. 2007, [URL] http://www.w3.org/TR/soap/.

[GAW06] A. Gallardo-Antolin, X. Anguerra und C. Wooters: „Multi-Stream Speaker Di-

arization Systems for the Meetings Domain“, Proc. Conference of the Inter-

national Speech Communication Association (Interspeech’06), S. 2186–2189,

Pittsburgh PA, USA, Sep. 2006.

[GB01] B. Gänsler und J. Benesty: „A frequency-domain double-talk detector based

on a normalized cross-correlation vector“, Signal Processing, Band 81(8), S.

1783–1787, Aug. 2001.

[GDJ06] S. Guha, N. Daswani und R. Jain: „An Experimental Study of the Skype Peer-

to-Peer VoIP System“, Proc. IEEE International Workshop on Peer-to-Peer Sys-

tems (IPTPS’06), Santa Barbara CA, USA, Feb. 2006.

[GJKV99] S. Gustafsson, P. Jax, A. Kamphausen und P. Vary: „A postfilter for echo and

noise reduction avoiding the problem of musical tones“, Proc. IEEE Interna-

tional Conference on Acoustics, Speech, and Signal Processing (ICASSP’99),

S. 873–876, Phoenix AZ, USA, Mär. 1999.

[GMB+05] N. Georgantas, S. B. Mokhtar, Y. Bromberg, V. Issarny, J. Kalaoja, J. Kan-

tarovich, A. Gerodolle und R. Mevissen: „The Amigo Service Architecture for

the Open Networked Home Environment“, Proc. Working IEEE/ IFIP Confer-

ence on Software Architecture (WICSA’05), Pittsburgh PA, USA, Nov. 2005.

[Gru93] T. R. Gruber: „A Translation Approach to Portable Ontology Specifications“,

Knowledge Acquisition, Band 5(2), S. 199–220, Jun. 1993.

Literaturverzeichnis

139

[Hän01] E. Hänsler: Statistische Signale - 3.Auflage, Springer Verlag, Berlin, Deutsch-

land, 2001.

[Här07] A. Härmä: „Ambient Telephony: scenarios and research challenges“, Proc.

Conference of the International Speech Communication Association (Inter-

speech’07), Antwerpen, Belgien, Aug. 2007.

[Hay02] S. Haykin: Adaptive Filter Theory - Fourth Edition, Prentice Hall, Upper Saddle

River NJ, USA, 2002.

[HD08] X. He und L. Deng: Discriminative Learning for Speech Recognition: Theory

and Prcatice, Morgan and Claypool, San Rafael CA, USA, 2008.

[HS05] R. Haeb-Umbach und J. Schmalenstroeer: „A Comparison of Particle Filtering

Variants for Speech Feature Enhancement“, Proc. Conference of the Interna-

tional SpeechCommunicationAssociation(Interspeech’05), Lissabon,Portugal,

Sep. 2005.

[ISC07] ISC: „Internet Systems Consortium“, Jan. 2007, [URL] http://www.isc.org/.

[ITU01] ITU: „ITU X.500 Specification“, Jan. 2001, [URL] http://www.itu.int/rec/

T-REC-X.500/.

[J+05] M. Janse et al.: „Amigo Public Deliverable D4.1: Report on Specification

and Description of Interfaces and Services“, Nov. 2005, [URL] http://www.

hitech-projects.com/euprojects/amigo/deliverables/.

[JAC08] JACK: „Jack Audio Connection Kit“, Jan. 2008, [URL] http://jackaudio.org/.

[KC76] C. Knapp und G. Carter: „The generalized correlation method for estimation of

time delay“, IEEE Transactions on Acoustics, Speech, and Signal Processing,

Band 24(4), S. 320–327, Aug. 1976.

[KE06] C. Küblbeck und A. Ernst: „Face Detection and Tracking in Video Se-

quences Using the Modified Census Transform“, Image and Video Computing,

Band 24(6), S. 564–572, Jun. 2006.

[KFH+08] V. Khalidov, F. Forbes, M. Hansard, E. Arnaud und R. P. Horaud: „Audio-Visual

Clustering for Multiple Speaker Localization“, Lecture Notes in Computer Sci-

ence: Machine Learning for Multimodal Interaction, S. 86–97, Sep. 2008.

[KHF04] T. Kinnunen, V. Hautamäki und P. Fränti: „Fusion of Spectral Feature Sets for

Accurate Speaker Identification“, Proc. Conference on Speech and Computer

(SPECOM’2004), St. Petersburg, Russland, Sep. 2004.

[KMK07] M. Kotti, V. Moschou und C. Kotropoulos: „Speaker segmentation and cluster-

ing“, Signal Processing, Band 88(5), S. 1091–1124, Mai 2007.

[KSLK03] C. Kim, S. Seong, J. Lee und L. Kim: „WinScale: An Image-Scaling Algorithm

Using an Area Pixel Model“, IEEE Transactions on Circuits and Systems for

Video Technology, Band 13(6), S. 549–553, Jun. 2003.

140

Literaturverzeichnis

[KTVL07] T. Kühnapfel, T. Tan, S. Venkatesh und E. Lehmann: „Calibration of Audio-

Video Sensors for Multi-ModalEvent Indexing“, Proc. IEEE InternationalCon-

ference on Acoustics, Speech, and Signal Processing (ICASSP’07), S. 741–744,

Honolulu, Hawaii, USA, Apr. 2007.

[KYM+05] Y. Kida, H. Yamamoto, C. Miyajima, K. Tokuda und T. Kitamura: „Mini-

mum classification error interactive training for speaker identification“, Proc.

IEEE International Conference on Acoustics, Speech, and Signal Processing

(ICASSP’05), Philadelphia PA, USA, Mär. 2005.

[LK07] S. Lee und N. Kim: „A Statistical Model-Based Residual Echo Suppression“,

IEEE Signal Processing Letters, Band 14(10), S. 758–761, Okt. 2007.

[LLJ+08] P. Liu, C. Liu, H. Jiang, F. Soong und R. Wang: „A Constrained Line Search

Optimization Method for Discriminative Training of HMMs“, IEEE Transac-

tions on Audio, Speech and Language Processing, Band 16(5), S. 900–909, Jul.

2008.

[LP96] C. Lee und K. Paliwal: Automatic Speech and Speaker Recognition: Advanced

Topics, Kluwer Academic Publishers, London, England, 1996.

[LYL07] J. Li, M. Yuan und C. Lee: „Approximate Test Risk Bound Minimization

Through Soft Margin Estimation“, IEEE Transactions on Audio, Speech and

Language Processing, Band 15(8), S. 2393–2404, Nov. 2007.

[LZ02] L. Lu und H. Zhang: „Real-Time Unsupervised Speaker Change Detection“,

Proc. International Conference on Pattern Recognition (ICPR’02), Quebec

Stadt, Kanada, Aug. 2002.

[M+97] R. Moats et al.: „Uniform Resource Name Syntax“, Mai 1997, [URL] http:

//tools.ietf.org/html/rfc2141/.

[M+05] C. Margerkurth et al.: „Amigo Public Deliverable D1.2: Report on User

Requirements“, Feb. 2005, [URL] http://www.hitech-projects.com/euprojects/

amigo/deliverables/.

[MC03] C. Ma und E. Chang: „Comparison of Discriminant Training Methods for

Speaker Verification“, Proc. IEEE International Conference on Acoustics,

Speech, and Signal Processing (ICASSP’03), Orlando FL, USA, Apr. 2003.

[MH00] G. Moschytz und M. Hofbauer: Adaptive Filter, Springer Verlag, Heidelberg,

Deutschland, 2000.

[MH04] D. L. McGuinness und F. Harmelen: „Web Ontologie Language“, Feb. 2004,

[URL] http://www.w3.org/TR/owl-features/.

[MKGI07] S. Mokhtar, A. Kaul, N. Georgantas und V. Issarny: „Efficient Semantic Service

Discovery in Pervasive Computing Environments“, Lecture Notes in Computer

Science, Band 4290, S. 240–259, 2007.

Literaturverzeichnis

141

[MMF+06] S. Meignier, D. Moraru, C. Fredouille, J. Bonastre und L. Besacier: „Step-

by-Step and Integrated Approaches in Broadcast News Speaker Diarization“,

Computer Speech & Languagee, Band 20(2-3), S. 303–330, Jul. 2006.

[Mos05] D. Mostefa: „CHIL Speaker ID evaluation“, Jan. 2005, [URL] http://chil.server.

de/.

[NCM91] Y. Normandin, R. Cardin und R. Mori: „High-Performance Connected

Digit Recognition Using Maximum Mutual Information Estimation“, Proc.

IEEE International Conference on Acoustics, Speech, and Signal Processing

(ICASSP’03), S. 533–536, Toronto Ontario, Kanada, Apr. 1991.

[NGN09] NGN: „Next Generation Network“, 2009, [URL] http://de.wikipedia.org/wiki/

Next_Generation_Network/.

[NIS08a] NIST: Jan. 2008, [URL] http://www.nist.gov/.

[NIS08b] NIST: „DARPA EARS Rich Transcription Evaluation Project“, Jan. 2008,

[URL] http://www.nist.gov/speech/tests/rt/.

[NK05] M. Nishida und T. Kawahara: „Speaker Model Selection Based on the Bayesian

Information Criterion Applied to Unsupervised Speaker Indexing“, IEEE Trans-

actions on Speech and Audio Processing, Band 13(4), S. 583–592, Jul. 2005.

[NK07] A. Noulas und B. J. A. Krose: „On-line multi-modal speaker diarization“, In-

ternational Conference on Multimodal Interfaces (ICMI’07), S. 350–357, New

York, USA, Apr. 2007.

[OSBC06] M. Omologo, P. Svaizer, A. Brutti und L. Cristoforetti: „Speaker Localization

in CHIL Lectures: Evaluation Criteria and Results“, Lecture Notes in Computer

Science: Machine Learning for Multimodal Interaction, Band 3869, S. 476–

487, 2006.

[OSG08] OSGI: Jan. 2008, [URL] http://www.osgi.org/.

[PAW06] J. Pardo, X. Anguerra und C. Wooters: „Speaker Diarization for Multi-

microphone Meetings Using Only Between-Channel Differences“, Lecture

Notes in Computer Science: Machine Learning for Multimodal Interaction,

Band 4299, S. 257–264, 2006.

[PAW07] J. Pardo, X. Anguera und C. Wooters: „Speaker Diarization For Multiple-

Distant-Microphone Meetings Using Several Sources of Information“, IEEE

Transactions on Computers, Band 9(56), S. 1212–1224, Sep. 2007.

[PS08] E. Prud’hommeaux und A. Seaborne: „SPARQL Protocol and RDF Query Lan-

guage“, Jan. 2008, [URL] http://www.w3.org/TR/rdf-sparql-query/.

[PTDL07] M. Papazoglou, P. Traverso, S. Dustdar und F. Leymann: „Efficient Seman-

tic Service Discovery in Pervasive Computing Environments“, IEEE Computer,

Band 40(11), S. 38–45, 2007.

142

Literaturverzeichnis

[R+02] J. Rosenberg et al.: „SIP: Session Initiation Protocol“, Jun. 2002, [URL] http:

//tools.ietf.org/html/rfc3261/.

[R+03] J. Rosenberg et al.: „STUN - Simple Traversal of User Datagram Protocol

(UDP) Through Network Address Translators (NATs)“, Mär. 2003, [URL]

http://www.ietf.org/rfc/rfc3489.txt.

[R+08] F. Ramparany et al.: „Amigo Software Repository: Ontology“, Jan. 2008,

[URL] http://amigo.gforge.inria.fr/owl/.

[Rab89] L. R. Rabiner: „A Tutorial on Hidden Markov Models and Selected Applica-

tions in Speech Recognition“, Proceedings of the IEEE, Band 77(2), S. 257–

286, Feb. 1989.

[RBH03] P. Rigole, Y. Berbers und T. Holvoet: „A UPnP Software Gateway Towards EIB

Home Automation“, Proc. Conference on Computer Science and Technology

(CST’03), Cancun, Mexiko, Mai 2003.

[RO98] D. Rosenthal und H. Okuno: Computational Auditory Scene Analysis, Lawrence

Erlbaum Associates, Inc., Mahwah NJ, USA, 1998.

[RPS+07] F. Ramparany, R. Poortinga, M. Stikic, J. Schmalenstroeer und T. Prante: „An

open Context Information Management Infrastructure“, Proc. IET International

Conference on Intelligent Environments (IE’07), Ulm, Deutschland, Sep. 2007.

[RQD00] D. Reynolds, T. Quatieri und R. Dunn: „Speaker Verification Using Adapted

Gaussian Mixture Models“, Digital Signal Processing, Band 10(1-3), S. 19–41,

Jan. 2000.

[RS04] J. Ramirez und J. Segura: „Efficient Voice Activity Detection Algorithms Us-

ing Long-Term Speech Information“, Speech Communication, Band 42(3-4), S.

271–287, Apr. 2004.

[RT05] D. Reynolds und P. Torres-Carrasquillo: „Approaches and Applications of Au-

dio Diarization“, Proc. IEEE International Conference on Acoustics, Speech,

and Signal Processing (ICASSP’05), S. 953–956, Philadelphia PA, USA, Mär.

2005.

[S+03] H. Schulzrinne et al.: „RTP: A Transport Protocol for Real-Time Applications“,

Jul. 2003, [URL] http://tools.ietf.org/html/rfc3550/.

[SBG+05] D. Sacchetti, Y. Bromberg, N. Georgantas, V. Issarny, J. Parra und R. Poortinga:

„The Amigo Interoperable Middleware for the Networked Home Environment“,

Proc. Middleware, Grenoble, Frankreich, Dez. 2005.

[SH06] J. Schmalenstroeer und R. Haeb-Umbach: „Online Speaker Change Detection

by Combining BIC with Microphone Array Beamforming“, Proc. Conference

of the International Speech Communication Association (Interspeech’06), Pitts-

burgh PA, USA, Sep. 2006.

Literaturverzeichnis

143

[SLH08] J. Schmalenstroeer, V. Leutnant und R. Haeb-Umbach: „Amigo Context Man-

agement Service with Applications in Ambient Communication Scenarios“,

Communications in Computer and Information Science: Constructing Ambient

Intelligence, Band 11(7), S. 397–402, 2008.

[SML+08] A. Salah, R. Morros, J. Luque, C. Segura, J. Hernando, O. Ambekar,

B. Schouten und E. Pauwels: „Multimodal identification and localization

of users in a smart environment“, Journal on Multimodal User Interfaces,

Band 2(2), S. 75–91, Sep. 2008.

[Spe08] Speex: „Audio codec“, 2008, [URL] http://www.speex.org.

[Spe09] Speex: „Comparison of speech codecs“, 2009, [URL] http://www.speex.org/

comparison/.

[SS07] A. Schill und T. Springer: Verteilte Systeme, Springer Verlag, Heidelberg,

Deutschland, 2007.

[SSM05] S. Surcin, R. Stiefelhagen und J. McDonough: „Deliverable D7.4 Evaluation

Packages for the First CHIL Evaluation Campaign“, Mär. 2005, [URL] http:

//chil.server.de/.

[STGW05] R. Sinha, E. Tranter, M. Gales und P. Woodland: „The Cambridge University

March 2005 Speaker Diarization System“, Proc. Conference of the International

Speech Communication Association (Interspeech’05), Lissabon, Portugal, Sep.

2005.

[The08] Theora: „Theora codec“, 2008, [URL] http://www.theora.org/.

[TMNS05] A. Temko, D. Macho, C. Nadeu und C. Segura: „CHIL - Acoustic Event De-

tection; UPC-TALP database of isolated meeeting-room acoustic events“, 2005,

[URL] http://chil.server.de/.

[TMZ+06] A. Temko, R. Malkin, C. Ziegler, D. Macho, C. Nadeu und M. Omologo:

„Acoustic Event Detection and Classification in Smart-Room Environments:

Evaluation of CHIL Project Systems“, Jornadas en Tecnologia del Habla,

Band 4, S. 1–6, Nov. 2006.

[TMZ+07] A. Temko, R. Malkin, C. Zieger, D. Macho, C. Nadeu und M. Omologo:

„CLEAR Evaluation of Acoustic Event Detection and Classification Systems“,

Lecture Notes in Computer Science: Multimodal Technologies for Perception of

Humans, Band 4122, S. 311–322, 2007.

[TR06] S. Tranter und D. Reynolds: „An Overview of Automatic Speaker Diariza-

tion Systems“, IEEE Transactions on Audio, Speech and Language Processing,

Band 14(5), S. 1557–1565, Sep. 2006.

[UPn08] UPnP: „Universal Plug-and-Play“, 2008, [URL] http://www.upnp.org/.

144

Literaturverzeichnis

[VJ01] P. Viola und M. Jones: „Rapid Object Detection using a Boosted Cascade of

Simple Features“, Proc. IEEE Conference on Computer Vision and Pattern

Recognition (CVPR’01), S. 511–518, Kauai, Hawaii, USA, Dez. 2001.

[Wei99] M. Weiser: „The computer for the 21st century“, ACM SIGMOBILE Mobile

Computing and Communications Review archive, Band 3(3), S. 3–11, Jul. 1999.

[WH05] E. Warsitz und R. Haeb-Umbach: „Acoustic Filter-and-Sum Beamforming By

Adaptive Principal Component Analysis“, Proc. IEEE International Confer-

ence on Acoustics, Speech, and Signal Processing (ICASSP’05), S. 797–800,

Philadelphia PA, USA, Mär. 2005.

[WH06] C. Wu und C. Hsieh: „Multiple Change-Point Audio Segmentation and Classi-

fication Using an MDL-Based Gaussian Model“, IEEE Transactions on Audio,

Speech and Language Processing, Band 14(2), S. 647– 657, Mär. 2006.

[WH07] E. Warsitz und R. Haeb-Umbach: „Blind Acoustic Beamforming Based on Gen-

eralized Eigenvalue Decomposition“, IEEE Transactions on Audio, Speech and

Language Processing, Band 15(5), S. 1529–1539, Jul. 2007.

[Wik09a] Wikipedia: „Digital Subscriber Line“, 2009, [URL] http://de.wikipedia.org/

wiki/DSL.

[Wik09b] Wikipedia: „List of audio codecs“, 2009, [URL] http://en.wikipedia.org/wiki/

List_of_codecs.

[WM09] M. Wölfel und J. McDonough: Distant Speech Recognition, Wiley, Chichester,

England, 2009.

[WP00] B. Wildermoth und K. Paliwal: „Use of voicing and pitch information for

speaker recognition“, Proc. IEEE Conference on Speech Science and Technol-

ogy (SST’00), S. 324–328, Canberra, Australien, Dez. 2000.

[WPH04] E. Warsitz, S. Peschke und R. Haeb-Umbach: „Adaptive Beamforming Com-

bined with Particle Filtering for Acoustic Source Localization“, Proc. IEEE In-

ternational Conference on Spoken Language Processing (ICSLP’04), S. 367–

370, Jeju, Korea, Okt. 2004.

[WSH07] E. Warsitz, J. Schmalenstroeer und R. Haeb-Umbach: „Zweistufige

Sprache / Pause-Detektion in stark gestörter Umgebung“, Proc. German Annual

Conference on Acoustics (DAGA’07), Stuttgart, Deutschland, Mär. 2007.

[WWW02] WWW: „Web Services“, 2002, [URL] http://www.w3.org/2002/ws/.

[YKA02] M. Yang, D. Kriegman und N. Ahuja: „Detecting Faces in Images: A Survey“,

IEEE Transactions on Pattern Analysis and Machine Intelligence, Band 24(1),

S. 34– 58, Jan. 2002.

[Z+06] K. Zeilenga et al.: „Lightweight Directory Access Protocol (LDAP) - Technical

Specification Road Map“, Jun. 2006, [URL] http://tools.ietf.org/html/rfc4510/.

Literaturverzeichnis

145

[ZLB+05] X. Zhu, C. Leung, C. Barras, L. Lamel und J.-L. Gauvain: „Speech activity

detection and speaker identification for CHIL“, Jan. 2005, [URL] ftp://tlp.limsi.

fr/public/mlmi05-limsidsad.pdf.

[Zöl97] U. Zölzer: Digitale Audiosignalverarbeitung, B.G. Teubner, Stuttgart, Deutsch-

land, 1997.

[ZSN05] A. Zolnay, R. Schlüter und H. Ney: „Acoustic Feature Combination For Ro-

bust Speech Recognition“, Proc. IEEE International Conference on Acoustics,

Speech, and Signal Processing (ICASSP’05), S. 457–460, Philadelphia PA,

USA, Mär. 2005.

146

Literaturverzeichnis

Eigene Publikationen

[HKS05] R. Haeb-Umbach, B. Kladis und J. Schmalenstroeer: „Speech Processing in the

Networked Home Environment - A View on the Amigo Project“, Proc. Confer-

ence of the International Speech Communication Association (Interspeech’05),

Lissabon, Portugal, Sep. 2005.

[HPF+09] M. Hennecke, T. Plötz, G. A. Fink, J. Schmalenstroeer und R. Haeb-Umbach: „A

Hierarchical Approach to Unsupervised Shape Calibration of Microphone Ar-

ray Networks“, Proc. IEEE Workshop on Statistical Signal Processing (SSP’09),

Cardiff, England, Aug. 2009.

[HS05] R. Haeb-Umbach und J. Schmalenstroeer: „A Comparison of Particle Filtering

Variants for Speech Feature Enhancement“, Proc. Conference of the Interna-

tional Speech Communication Association (Interspeech’05), Lissabon, Portugal,

Sep. 2005.

[RPS+07] F. Ramparany, R. Poortinga, M. Stikic, J. Schmalenstroeer und T. Prante: „An

open Context Information Management Infrastructure“, Proc. IET International

Conference on Intelligent Environments (IE’07), Ulm, Deutschland, Sep. 2007.

[SH06] J. Schmalenstroeer und R. Haeb-Umbach: „Online Speaker Change Detection

by Combining BIC with Microphone Array Beamforming“, Proc. Conference

of the International Speech Communication Association (Interspeech’06), Pitts-

burgh PA, USA, Sep. 2006.

[SH07] J. Schmalenstroeer und R. Haeb-Umbach: „Joint Speaker Segmentation, Local-

ization and Identification for Streaming Audio“, Proc. Conference of the Inter-

national Speech Communication Association (Interspeech’07), Antwerpen, Bel-

gien, Aug. 2007.

[SLH08] J. Schmalenstroeer, V. Leutnant und R. Haeb-Umbach: „Amigo Context Man-

agement Service with Applications in Ambient Communication Scenarios“,

Communications in Computer and Information Science: Constructing Ambient

Intelligence, Band 11(7), S. 397–402, 2008.

[SLH09a] J. Schmalenstroeer, V. Leutnant und R. Haeb-Umbach: „Audio-visual Data Pro-

cessing for Ambient Communication“, Proc. Conference on Artificial Intelli-

gence (KI’2009), Paderborn, Deutschland, Sep. 2009.

147

148

Eigene Publikationen

[SLH09b] J. Schmalenstroeer, V. Leutnant und R. Haeb-Umbach: „Fusing Audio and Video

Information for Online Speaker Diarization“, Proc. Conference of the Interna-

tional Speech Communication Association (Interspeech’09), Brighton, England,

Aug. 2009.

[SWH07] J. Schmalenstroeer, E. Warsitz und R. Haeb-Umbach: „Projekt Amigo -

Sprachsignalverarbeitung im vernetzten Haus“, Proc. German Annual Confer-

ence on Acoustics (DAGA’07), Stuttgart, Deutschland, Mär. 2007.

[WSH07] E. Warsitz, J. Schmalenstroeer und R. Haeb-Umbach: „Zweistufige Sprach /

Pause-Detektion in stark gestörter Umgebung“, Proc. German Annual Confer-

ence on Acoustics (DAGA’07), Stuttgart, Deutschland, Mär. 2007.