Document [original]

Dreidimensionale Vermessung kreisförmiger

Objekte mittels Luminanz und Tiefendaten

Zur Erlangung des akademischen Grades

Doktor-Ingenieur (Dr.-Ing.)

der Fakultät für Elektrotechnik, Informatik und Mathematik

der Universität Paderborn

genehmigte Dissertation

von

M. Eng. Nan-shan Chen

aus Taiwan

Referent: Prof. Dr. rer. nat. G. Hartmann

Korreferent: Prof. Dr.-Ing. K. Meerkötter

Tag der Mündlichen Prüfung: 17. Juli 2003

D 14-190

Paderborn, 2003

Nomenklatur

Allgemeine:

•Eine lineare Abbildung und ihre Matrix teilen dasselbe Symbol, da es ein Isomor-

phismus zwischen den Vektorräumen besteht. Sie werden in der Regel in Fett-Druck

geschrieben, z. B. die Matrizen bzw. Abbildungen A,B,C,etc.; die Vektoren a,b,

c,u,v,w,x,y,n,µ,σ, ..., und die Skalaren a,b,c,µ,σ,m,n,etc.. In kalligra-

phischer Schrift, wie A, wird in der Regel ein Raum dargestellt. Die häufig benutzten

Buchstaben für Räume sind E,U,V,W,R,N. Die Zahlen-Mengen sehen wie N,Z,

Q,R,Caus.

•Im euklidischen bzw. unitären Raum ist angenommen, wann immer die Begriffe Or-

thogonalität, Längen- bzw. Winkel-Messung im Kontext essentiell ist. Das kanoni-

sche Skalarprodukt ist impliziert, wenn nicht ausdrücklich specifiert wird. Mit x∗y

bezeichnen wir also das hermitesche Skalarprodukt für x,yim unitären Raum Un.

Cf. Fußnote 77 auf S. 47.

(u,v)Skalarprodukt der Vektoren uund v

x∼y x und yin derselben Equivalenzkalsse

V+WSumme von Teilräumen V,W

V ⊕W direkte Summe von Teilräumen V,W

V ⊥ W Teilräume V,Wstehen senkrecht aufeinander

V⊥das orthogonale Komplement zum Raum V

V ⊕⊥Wdirekte Summe der orthogonalen Räume V,W

kAk2Spektralnorm der Matrix A(vektornorm-induzierte Matrixnorm) 1

kAk2=supx6=0kAxk2/kxk2= supkxk2=1 kAxk2=σ1

kAkFFrobeniusnorm oder Hilbert-Schmidt-Norm der Matrix A

kAk2

F= tr A∗A= tr AA∗=Pr

i=1 σ2

i=PPa2

kAkUunitärinvariante Norm mit kU∗AVkU=kAkU,Uund Vunitär

kvk2euklidische Vektornorm, 2-Norm, `2-Norm des Vektors v

kvkp`p-Norm, p-Norm, Hölder-Norm (P|vi|p)1/p, p ≥1

1mm-dimensionaler DC-Vektor. Cf. Gl. (2.4.1) auf S. 31.

Arnächste Rang-rApproximation der Matrix A

A∗=A−1unitäre Matrix Aüber C

AT=A−1orthogonale Matrix Aüber R

A∗=Aselbstadjungierte (hermitesche) Matrix Aüber C

AT=Asymmetrische Matrix Aüber R

1[Horn und Johnson, 1985, pp. 290-320, §5.6]

NOMENKLATUR

A>0positive Matrix (mit allen Elementen aij >0)

A≥0nichtnegative Matrix (mit allen Elementen aij ≥0)

A<0negative Matrix (mit allen Elementen aij <0)

Aspalten-zentrierte Matrix ZA (Cf. Def. 2.4.3 auf S. 32)

Abb. Abkürzung von „Abbildung“

A−1Inverse der quadratischen Matrix A

A−generalisierte Inverse A(1) mit AXA =A

A(1,3) generalisierte {1,3}-Inverse der Matrix A.Cf. Gl. (2.19) auf S. 15.

A(1,2,5) {1,2,5}-Inverse, Gruppen-Inverse der quadratischen Matrix A.

A{1,2,5}Matrizen Xmit AXA =A,XAX =X,AX =XA.

A(1k,2,5) Drazin-Inverse AkADA=Ak,ADAAD=AD,AAD=ADA.

ADDrazin- (kommunierende) Inverse der quadratischen Matrix A

A#Gruppen-Inverse der quadratischen Matrix A

A#AA#A=A,A#AA#=A#,AA#=A#A

A#Existenz ⇐⇒ R(A)⊕N(A) = Cn⇐⇒ Ind(A) = 1 2

A#{1,2,5}-Inverse der quadratischen Matrix A

A†Moore-Penrose-Inverse der rektangulären Matrix A

Akomplex Konjugierte der Matrix A= (aij),A= (aij)

ATTransponierte von A: (Au,v) = (u,ATv),∀u,v

A∗Adjungierte von A: (Au,v) = (u,A∗v),∀u,v

A∗Adjungierte der Matrix Adurch A∗=AT=AT

A∗(A∗)∗=A,(AB)∗=B∗A∗,(αA+βB)∗=αA∗+βB∗

Am×nAndeutung der Dimension m×nvon Matrix A

aiZeilenvektor der Matrix A.Cf. Gl. (2.40) auf S. 28

CKörper der komplexen Zahlen

Ctheoretische Kovarianzmatrix eines Zufallsvektors

CAKovarianzmatrix der Matrix Ain Gl. (2.52) auf S. 36

DOA Direction of Arrival

det AProdukt aller Eigenwerte des Operators A[Axler, 1995]

dM(x)Mahalanobis-Distanz von xzum Mittelwertvektor

dM(x,y)Mahalanobis-Distanz zwischen xund y(Cf. Gl. (2.72) auf S. 44)

dM(x,y)regularisierte Mahalanobis-Distanz (Cf. Gl. (2.77) auf S. 46)

dim VDimension des Raumes V

dim N(A)Rangabfall, Nullität (Dimension des Nullraums) der Matrix A

e1Standard-Basisvektor [1 0 ···0]T

EP quadratische Matrix Amit A†A=AA†

E[X]Erwartungswert der Zufallsvariablen X

Eendlichdimensionaler, reeller, linearer Raum mit symmetrisher,

positiv definiter Bilinearform

Enn-dimensionaler euklidischer Raum (cf. Fußnote 76 auf S. 47)

F[·]Fourier Transformation eines 1- oder 2-dimensionalen Skalarfeldes

HHesse-Matrix eines Skalarfeldes Rn7→ R(cf. Fußnote 99 auf S. 69)

ISkalarfeld der Bildintensität R27→ Roder Rn7→ R(cf. Fußnote 88)

IbSkalarfeld der binären Bildintensität R27→ {0,1}(cf. § 3.1 ab S. 59)

IRing der ganzen Zahlen

ı√−1

=(c)Imaginärteil einer komplexen Zahl c

2[Ben-Israel und Greville, 1974, p. 162]

iii

IIdentitätsmatrix mit geeigneter Dimension

InIdentitätsmatrix der Dimension n×n

Ind AIndex einer quadratischen Matrix A

Ind Ader kleinste nichtnegative ganze Zahl mit rank Ak= rank Ak+1

i. i. d independent identically distributed

Kbeliebiger Körper ohne Einschränkung

K1+16=0 beliebiger Körper mit Charakteristik 6= 2

Kn−2Menge aller (n−2)-dimenionalen Hyperkreise (Def. 2.4.17 auf S. 49)

κp(A)Konditionsnummber (Inversion) der Matrix A≡ kAkp·kA−1kp

Ker AKern oder Nullraum der Matrix A

λider i-te Eigenwert einer Matrix

µAMittelwertvektor der Matrix A

µASchätzmittelwertvektor der Matrix AGl. (2.41) auf S. 31

µXErwartungswert der Zufallsvariablen X

N(A)Nullraum oder Kern der Matrix A

N(A∗)linker Nullraum der Matrix A

N⊥(A)das orthogonale Komplement zu N(A)

N(µ, σ2)Gaußverteilung mit Mittelwert µund Varianz σ2

N(µ, σ2)Gaußverteilung mit Dichtefunktion 1

σ√2πe−(x−µ)2/2σ2

N(µ,C)Gaußverteilung mit Mittelwertvektor µund Kovarianzmatrix C

N(µ,C)Dichte (det C−1/(2π)n)1/2exp −(1/2)(x−µ)∗C−1(x−µ)

PV,WProjektor(s) auf Ventlang (parallel zu) Wmit P2

V,W=PV,W

PV,WProjektor(s) mit R(PV,W) = Vund N(PV,W) = W

PVOrthoprojektor(s) auf Teilraum Vmit P2

V=PV=P∗

PR(A)Orthoprojektor(s) auf den Bildraum R(A)von A

PR(A),N(A)(Matrix des) Projektor(s) auf R(A)entlang (parallel zu) N(A)

QKörper der rationalen Zahlen

RPN Range Perpendicular to Nullspace: R(A)⊥ N(A)

Rad BRadikal einer Bilinearform bzw. eines Raumes mit Skalarprodukt

RV,WReflektor(s) in Ventlang (parallel zu) Wmit R2

V,W=I6=RV,W

RVOrthoreflektor(s) in Teilraum V, mit R−1

V=RV=R∗

V6=I

R(A)Bildraum (Spaltenraum) der Matrix A

R(A∗)Zeilenraum der Matrix A

R⊥(A)das orthogonale Komplement zu R(A)

rank ARang der Matrix A

RKörper der reellen Zahlen

<(c)Realteil einer komplexen Zahl c

ρ(A)Eigenwertspektrum der Matrix A

S. Abkürzung von „Seite“

SVD Singulärwertzerlegung (Singular Value Decomposition)

σStandardabweichung (cf. Fußnote 64 auf S. 41)

σXStandardabweichung der Zufallsvariablen X

σ2

XVarianz der Zufallsvariablen X

σ(A)Singulärwertspektrum der Matrix A:{σ1, σ2,...,σmin(m,n)}

σ1der größte Singulärwert der Matrix A

σ2

1Betrag des größten Eigenwerts der Matrix A∗Aoder AA∗

σrder kleinste nichtverschwindende Singulärwert der Matrix A

Sn−1in Eneingebettete Hypersphäre

span{...}Aufspannung bzw. Erzeugung eines linearen Raumes

NOMENKLATUR

span{A}Erzeugung durch Spaltenvektoren der Matrix A

TFnDiskrete Fouriertransformationsmatrix für nPunkte

tr ASpur (trace) der Matrix A

tuiZeilenvektor tui= [u1iu2i···uti]der Matrix Ueiner SVD

t˜uiZeilenvektor t˜ui= [˜u1i˜u2i··· ˜uti]der Matrix ˜

Ueiner SVD

Unn-dimensionaler Unitärraum (cf. Fußnote 77 auf S. 47)

Ulinke Singulärmatrix einer spalten-zentrierten Matrix

Vrechte Singulärmatrix einer spalten-zentrierten Matrix

Var[X]Varianz der Zufallsvariablen X

x(ζ, t)stochastischer Prozeß [Lathi, 1968, Chap. 3]

x(ζ, t)Musterfunktion des stochastischen Prozesses x(t, ζ)

Zmzentrierender Orthoprojektor. Cf. Gl. (2.43) auf S. 32.

Inhaltsverzeichnis

Nomenklatur i

Inhaltsverzeichnis v

1 Einleitung 1

1.1 Problemstellung und Zielsetzung . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Das System und Verweise auf die Abschnitte . . . . . . . . . . . . . . . . 3

1.3 Portierbare Implmentation und Open-Source . . . . . . . . . . . . . . . . . 3

2 Grundlagen 5

2.1 Projektoren und Reflektoren . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.1.1 Projektor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.2 Orthoprojektor . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.3 Reflektor ............................... 9

2.1.4 Orthoreflektor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.5 Konstruktion der Projektoren . . . . . . . . . . . . . . . . . . . . . 10

2.1.6 Komplexe Householder-Transformation . . . . . . . . . . . . . . . 11

2.2 Generalisierte Inversen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3 Singulärwertzerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.3.1 Berechung der Singulärwertzerlegung . . . . . . . . . . . . . . . . 19

2.3.2 Vier fundamentale Teilräume . . . . . . . . . . . . . . . . . . . . . 22

2.3.3 Eigenschaften der Singulärwertzerlegung . . . . . . . . . . . . . . 25

2.4 Meßdaten und Singulärwertzerlegung . . . . . . . . . . . . . . . . . . . . 28

2.4.1 Der Kondensator ist ein Projektor . . . . . . . . . . . . . . . . . . 29

2.4.2 Kovarianzmatrix via SVD . . . . . . . . . . . . . . . . . . . . . . 36

2.4.3 Mahalanobis-Distanz via SVD . . . . . . . . . . . . . . . . . . . . 38

2.4.4 Kovarianz, Mahalanobis-Metrik und Gaußverteilung . . . . . . . . 41

2.4.5 Regularisierte Mahalanobis-Distanz via SVD . . . . . . . . . . . . 44

2.4.6 Hyperkreis und Regularisierte Mahalanobis-Distanz . . . . . . . . 49

3 Ellipsen 59

3.1 Konturenextraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

3.1.1 Canny-Detektor und Gabor-Filterung . . . . . . . . . . . . . . . . 62

3.1.2 Kammdetektor unter Abwesenheit der Orientierungskarte . . . . . 66

3.2 Ellipsenextraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4 Hyperkreis 77

4.1 Geometrische Filterung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

4.2 Hyperebene via SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

INHALTSVERZEICHNIS

4.3 Hyperkreis via SVD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.4 Affinitätstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5 Ausblick 93

Literaturverzeichnis 97

Index 125

Autorenverzeichnis 135

Abbildungsverzeichnis 139

Kapitel 1

Einleitung

Die kreisförmige Kontur ist eines der wichtigsten geometrischen Merkmale vieler Objekte

im industriellen Alltag. Dreidimensionale Vermessung solcher Objekte stellt kritische In-

formation für verschiedene Aufgaben des künstlichen Sehens zur Verfügung. Präsentiert

werden Verfahren für parametrische Bestimmung eines Kreises im dreidimensionalen eu-

klidischen Raum, mit Generalisierungsmöglichkeit auf endlichdimensionale Räume.

Auf einem Skalarfeld (Intensitätsdaten) mit einem korrespondierenden Vektorfeld (Tie-

fendaten) eines künstlichen Blickes basierend wird untersucht, signifikante Kreise in der

Szene, mit Priorität von Robustheit und geringem Zeitaufwand, parametrisch zu bestim-

men.

Lösungsansätze werden vorgestellt, die die Präzisionsanforderungen am Beispiel einer

robotischen Manipulation der Autoräder erfüllen. Eigenständige, portierbare Implementie-

rungen in ANSI C sind entsprechend präsentiert, die für weitere Untersuchungen der rele-

vanten Teilprobleme sehr wertvoll sind.

Die parametrische Lagebestimmung eines in der Szene vorhandenen Kreises basiert auf

einer Fusion eines Skalarfeldes (Intensitätsbilddaten einer Szene) und eines Vektorfeldes

(durch geeichte Stereokameras geschätzte 3D-Koordinaten derselben Szene). Die Fusion

der beiden Datenquellen ergibt eine Menge der dreidimensionalen Koordinaten, die eine

verrauschte Abtastung des gesuchten Kreises im Raum darstellt. Ein eindimensionaler Kreis

im dreidimensionalen euklidischen Raum wird als „Hyperkreis“ aus dieser Datenmenge pa-

rametrisch bestimmt. Der neue geometrische Begriff „Hyperkreis“ wird eingführt, um die

Problematik und unseren Ansatz auf endlichdimensionale Räume zu generalisieren. Die Im-

plementation ist hyperkreis-basiert und nimmt eine Datenmenge der beliebigen Dimension

auf, was jedoch praktisch nicht immer realisierbar ist.

1.1 Problemstellung und Zielsetzung

Gegeben sind die Bilddaten aus einem geeichten Stereokamerakopf (SONY EVI-310/311)

[Trapp, 1998] im Labor des Fachgebiets GET, Universität Paderborn. Die Daten bestehen

aus zwei Grauwertbildern und einer Tiefenkarte, in der die geschätzten kartesischen Koor-

dinaten in der Kameraszene bezüglich des Kamerakopfes (Abb. 4.6–(b) auf S. 87) einge-

KAPITEL 1. EINLEITUNG

tragen sind. Diese Tiefenkarte korrespondiert pixelweise mit einem der beiden Intensitäts-

bilder [Trapp, 1998] 3. Aus diesen Daten soll ein in der Szene visuell vorhandener Kreis

parametrisch in demselben Koordinatensystem bestimmt werden. Da dieses Ergebnis für

den Roboterarm (Manutec r2) (Abb. 4.6–(a) auf S. 87) zur Manipulation des Objektes ver-

wendet werden soll, muß die Lage des Zielobjektes hinreichend präzis angegeben werden,

um das Werkzeug relativ zum Objekt ausrichten zu können. Die erforderliche Genauigkeit

am Beispiel der Demontage eines Autorades und entsprechender Werkzeuge sei ca. 1mm

hinsichtlich der „Verschiebung“ und ca. 1Grad in der Orientierung.

(a) (b) (c)

Abbildung 1.1: Intensitätsbild und Tiefenkarte. Bild (a) ist eines der beiden von dem Stereokamera-

kopf aufgenommenen Intensitätsbilder. In Bild (b) werden die Z-Koordinaten, die pixelweise dem Bild

(a) korrespondieren, bezüglich des Kamerakopfes normalisiert und affin auf falsche Farben abgebil-

det. Die undefinierten Vektoren in der Tiefenkarte werden schwarz dargestellt. Das Bild (c) visualisert

das Ergebnis der regularisierten Mahalanobis-Filterung der Z-Koordinaten. Die eigentlichen Werte in

der Tiefenkarte werden nicht geändert, sondern nur die Ausreißer werden ausgeschlossen, indem sie

als die Undefinierten identifiziert werden. Die erst im Kapitel 3 (S. 59) bestimmte Ellipse wird hier

im voraus auf den Bildern gezeichnet.

Wegen inhärenter Ambiguität der Stereopsis und der Gegebenheit der passiven Stereo-

korrespondenzverfahren sind in der Tiefenkarte viele undefinierte Vektoren. Solche sind

in Abb. 1.1-(b) und -(c) schwarz gezeichnet. Unsichere Korrespondenzbestimmungen, die

nicht durch dasselbe Verfahren ausgeschlossen worden sind, werden in der Regel als ex-

trem ausreißende Werte in der resultierenden Tiefenkarte erscheinen, wie z. B. die roten

und orangen Flecken in Abb. 1.1-(b). Solche Art von Rauschen läßt sich nicht effektiv durch

lineare Filterungen entfernen. In Bild Abb. 1.1-(c) werden die „roten oder orangen Ausrei-

ßer“ im Bild-(b) durch eine nicht-lineare Filtering erfolgreich entfernt [Chen et al., 2000].

Dies ergibt sich aus der in § 2.4.5 ab S. 44 definierten regularisierten Mahalanobisdistanz

4. Im Bild-(c) wurde eine Distanzschwelle von 3(pnmfilt) verwendet 5. Dieses Verfah-

ren wird jedoch nicht zur Entfernung der „Ausreißer“ in der Tiefenkarte eingesetzt, denn

wir können in einem späteren Stadium nach der Datenreduktion im Kapitel 3 noch niedri-

geren Rechenaufwand erzielen, während in diesem Verfahren die Berechnung der Moore-

3Ob die linke oder die rechte Kamera des Kopfes ist hier uninteressant. Sie ist arbiträr in [Trapp, 1998] ausge-

wählt worden.

4Es sei darauf geachtet, daß die übliche Definition der Mahalanobisdistanz [Mahalanobis, 1930, 1936] [Everitt,

1998] [Duran und Odell, 1974] in der Praxis problematisch ist und eine Berechnung in jedem Moment zum Absturz

führen kann, denn es handelt sich um die Invertierung einer eventuell singulären Matrix. In diesem Fall ist die

Mahalanobisdistanz nicht definiert. Dies heißt nicht, daß wir mit der Distanzberechnung aufhören müssen, sondern

es existiert eine plausible Regularisierung durch die Moore-Penrose-Inverse, die im Kapitel 2 (S. 5) vorgeschlagen

und diskutiert wird. Ich habe mich gewundert, daß dieses Problem trotz des Recherchierens nirgendwo diskutiert

ist, obwohl die Definition überall zitiert und in der Praxis eingesetzt wird. Wahrscheinlich gehen die Autoren davon

aus, daß eine Kovarianzmatrix aus vollrangigen Daten positiv definit sein müsse. Dies ist in der Praxis leider nicht

der Fall. Oft wird die Kovarianz semidefinit oder sogar indefinit.

5Die „Einheit“ der Distanz wird auf S. 41 und S. 41 im Kapitel 2 diskutiert.

1.2. DAS SYSTEM UND VERWEISE AUF DIE ABSCHNITTE

Penrose-Inversen der Kovarianz aller relevanten und irrelevanten Z-Koordinaten involviert

ist. Cf. Abb. 4.11 auf S. 91.

Andererseits stört uns noch immer die Unvollständigkeit der Tiefenkarte, die wir nun als

das diskrete, unvollständige Vektorfeld bezeichnen. Die Anzahl der undefinierten Vektoren

in Abb. 1.1-(b) beträgt ca. 20 % (kdf2pnm) von dem vollen 108 ×118 Vektorfeld. Diese

Ratevariiert vomBild zu Bild je nach der Experimentierumgebungaus nicht vorhersagbaren

Gründen.

Wir fassen die Gegebenheiten zusammen:

1. ein diskretes, vollständiges Skalarfeld mit Intensitätsinformation der Szene, das die

gesuchte Ellispe möglicherweise nur teilweise in der Szene erfasst hat.

2. ein diskretes, unvollständiges Vektorfeld mit Kamerakoordinaten, das mit dem Ska-

larfeld pixelweise korrespondiert und eine unbekannte Rauschstruktur besitzt.

Die beiden sollen als verschiedene sensorische Quellen betrachtet werden, um gesuchte

Information daraus zu gewinnen.

1.2 Das System und Verweise auf die Abschnitte

In Kapitel 2 (S. 5) werden die mathematischen Grundlagen sowie die der Arbeit spezifi-

schen Definitionen und Korollare zusammengefaßt. Es läßt sich als eine selbständige Ein-

heit lesen. Für einen schnellen Durchblick der Arbeit empfiehlt sich jedoch, dieses Kapitel

zu überspringen und nur an der Stelle der Verweise nachzuschlagen. Nichtsdestoweniger ist

das Kapitel ein wesentlicher Bestandteil und der Geist der Arbeit.

1.3 Portierbare Implmentation und Open-Source

Alle Programme, die in dieser Arbeit relevant sind, sind in ANSI/ISO-C geschrieben, um

maximale Portierbarkeit und minimale Resourcen-Forderung zu erzielen. Sie sind mit ver-

schiedenen Compilern und auf veschiedenen Maschinen 6entwickelt und getestet worden.

Ein großer Vorteil der Wahl ist, daß alle Ergebnisse der Arbeit auf verschiedensten

Machinen und Projekten, betriebsystem-unabhängig, sofort compilierbar und einsatzbereit

sind. Keinerlei zusätzliche Software außer einem ANSI/ISO C-Compiler ist erforderlich,

welcher auf praktisch allen Platformen vorhanden ist. Es wurde ein großes Projekt mit vie-

len Hilfsprogrammen und eigenem BLAS. Ein eigenes BLAS zu entwickeln bedeutet auch

die Anpassungsnotwendigkeit jeder einzelnen Routine, falls sie aus fremden Quellen (z. B.

EISPACK, LINPACK, LAPACK) übernommen werden soll. Für die Korrektheit werden die

Ergebnisse stets mit denen von Matlab oder SciLab verglichen bzw. kontrolliert. Sie sind

jedoch im Projekt nicht involviert, sonst verliert die ganze Implementierung die Beweglich-

keit und Wiedereinsetzbarkeit, auf die sehr großen Wert gelegt wird.

6Sun Sparc-Stations mit SunOS/Solaris/Gnu C; Hewlett Packard 200LX Palmtop PC mit MSDOS/Borland

Turbo C; und Compaq LTE ELITE 50 Laptop mit Linux(Debian)/Gnu C; Acer TravelMate 312T mit Li-

nux(Deian)/Gnu C.

KAPITEL 1. EINLEITUNG

In der Entwicklung ist ein Floating-Point-Format zum Austausch der Bilder zwischen

den einzelnen Modulen kaum vermeidbar. Zu diesem Zweck wurde das PNM-Format 7auf

PFM (Portable Float Map) erweitert, das die hohe Portierbarkeit von PNM ererbt. Das PFM-

Format schreibt das IEEE-754 Single Preision Format in Big-Endian vor 8. Die Manipula-

tionen und Konvertierungen zwischen PNM, PFM, und Khoros VIFF bzw. KDF Formaten

werden unterstützt, da die Bilddaten aus den Stereokameras in Khoros-Format geliefert wer-

den.

Die Quellcodes sind nicht ad hoc gemacht, sondern für allgemeine Forschungsprojekte

und Wiedereinsetzbarkeit gedacht und produziert worden. Sie werden demnächst im Netz

zur Vefügung gestellt. Projekt-spezifische Aufgaben sind durch die Shell-Skripte auszufüh-

ren, die die einzelnen C-Programme der Teilprojekte aufrufen.

7Gesamtbezeichnung von Portable Bit Map (PBM), Portable Gray Map (PGM) und Portable Pix Map (PPM)

aus dem Packet netpbm.

8Das Magic „P7“ ist für Bilder mit einem Float-Band verwendet; „P8“ für die Zweibändigen, usw. Siehe

PFM(5). Da jedes Pixel vier Bytes belegt, muß ein Endian-System im Format vorgeschrieben werden. Infolgedes-

sen ist eine Routine zur Endian-Detektion und -Konvertierung für die Portierbarkeit auf verschiedene Maschinen

unentbehrlich (z. B. PC in Little-Endian und Sun-Sparc in Big-Endian).

Kapitel 2

Grundlagen

In diesem Kapitel werden die mathematischen Grundlagen zusammengefasst und die No-

menklaturen sowie Notationen vereinbart. In einem etwas ungewöhlichen Stil werden nur

die dieser Arbeit spezifischen bzw. neu eingeführten Definitionen und Korollare durchnu-

meriert. Die wohl etablierten werden wir so nahe wie möglich neben einander stehen lassen.

Infolgedessen sind besonders die Abbildungen Abb. 2.1 auf S. 7 und Abb. 2.2 auf S. 20 nicht

nur anschaulich sondern auch sehr nützlich.

In § 2.1 vereinbaren wir die Begriffe komplementärer, dualer und assoziierter Projektor

und Reflektor. Die meisten Autoren erklären nur die Selbst-Adjungierten als Projektoren

und Reflektoren. Dennoch, mit dieser Einschränkung ignorieren wir die enge Zusammen-

hänge zwischen den Idempotenten und den Involutorischen, die wir verallgemeinernd je-

weils als Projektoren bzw. Reflektoren bezeichnen. Die behauptete Parallelität der Projek-

toren und Reflektoren werden geometrisch und algebraisch in Abb. 2.1 auf S. 7 veranschau-

licht. Die komplexe Householder-Transformation wird diskutiert, die wir u. a. zum Beweis

von Lemma 2.4.27 auf S. 54 in § 2.4.6 verwenden werden.

In § 2.2 werden die Definitionen und Fakten der generalisierten Inversen zusammenge-

fasst. Viele davon werden in Abb. 2.2 auf S. 20 zusammen mit SVD anschaulich relativiert.

Dieser Abschnitt besteht zwar hauptsächlich aus einer kompakten Wiedergabe der existie-

renden Fakten aus unterschiedlicher Literatur, ist die Übersicht für uns in Erörterungen über

die regularisierte Mahalanobis-Distanz in § 2.4.5 ab S. 44 wichtig. Es ist in diesem Kom-

plex ungeeignet, auf die etablierten Fakten einzeln zu verweisen.

In § 2.3 werden die Besonderheiten unserer Implementierung und Anwendung der Sin-

gulärwertzerlegung (SVD) erörtert. Viele Zusammenhänge und Sätze werden anschaulich

in Abb. 2.2 auf S. 20 dargestellt. Es stellt sich heraus, daß diese Abbildung zur Erinnerung

vieler Zusammenhänge höchst praktisch und zum allgemeinen Zweck sehr zu empfehlen

ist.

In § 2.4.1 wird die Handhabung der Meßdaten und die Konvention ihrer Umsetzung in

die Datenmatrizen definiert. Wir legen hier das Wesen der Daten-Zentrierung aus algebrai-

schem und numerischem Aspekt aus. Das affine Wesen der Daten-Zentrierung ist oft in den

mathematischen Formulierungen hinderlich und wird hier linear in einem anderen Raum

als Orthoprojektor auf den AC-Teilraum aufgefasst. Das heißt, die (nicht-lineare) Daten-

Zentrierung wird bei uns als eine (lineare) orthogonale Projektion behandelt. Somit ergibt

KAPITEL 2. GRUNDLAGEN

sich oft eine kompaktere Darstellungen, wie wir im Beweis vom Lemma 2.4.23 auf S. 52

demonstrativ ausnutzen werden.

In § 2.4.2, § 2.4.3 und § 2.4.4 bringen wir die Begriffe Kovarianzmatrix,Mahalanobis-

Distanz,Gaußsche Dichte und die Singulärwertzerlegung zusammen und sehen, daß alle

Begriffe in der Singulärwertzerlegung enthalten sind. Die Auslegung der Singulärwertzer-

legung wird im Falle einer Datenmatrix anstatt einer linearen Abbildung diskutiert.

In § 2.4.5 generalisieren wir den Begriff Mahalanobis-Distanz, so daß sie auch für ei-

ne Datenmenge erklärt wird, die auf einem affinen Teilraum9mit Dimension kleiner als n

liegt. Dies erfolgt, indem wir im euklidischen Raum Fußnote 76 auf S. 47 eine ausgeartete

Bilinearform einführen. Die Geltung der resultierenden Metrik Fußnote 67 auf S. 44 je-

doch schränkt sich auf das orthogonale Komplement des Radikals [Kaplansky, 1974, p. 7].

(Cf. Abb. 2.2 auf S. 20 die Einschränkungen des Urbildes der Abbildung (A†)∗,Aauf den

Zeilenraum R(A∗)und A∗,A†auf den Spaltenraum R(A).) Der Gewinn der Generalisie-

rung bzw. Regularisierung ist, daß sich alle Datenmengen unter dierser Metrik theoretisch

und numerisch wohl verhalten werden, insbesondere für die Hyperkreise Cf. Def. 2.4.17 auf

S. 49.

In § 2.4.6 stellen wir einige praktische Korollare über die Hyperkreise, Kovarianzmatrix

und Mahalanobis-Distanz vor.

2.1 Projektoren und Reflektoren

Projektoren (die Idempotenten) und Reflektoren (die Involutorischen) sind prächtige Begrif-

fe, die in linearer Algebra von fundamentaler Bedeutung sind. Orthogonale10 Projektoren

bzw. Orthoprojektor sind zur Darstellung eines Teilraums praktisch, da sich jeder von ih-

nen eindeutig mit einem Teilraum identifiziert vide[Szökefalvi-Nagy, 1967] [Rao und Mi-

tra, 1971] [Boullion und Odell, 1971] [Golub und Van Loan, 1983, 1989, 1996]. Sie sind

essentiell in moderner Konzeption der Lösungen kleinster Quadrate eines linearen Glei-

chungssystems, die wir in § 2.2 gebrauchen werden. Schiefe Projektoren sind ebenfalls zur

Darstellung zweier komplementärer Teilräume besonders kompakt und natürlich.

Nennenswerte Monographien sind [Ficken, 1967, pp. 148–151], [Fekete, 1985, pp. 137–

143] und [Kahan, 1998]. welche die Projektoren und die Reflektoren seltenerweise parallel

behandeln. Denn in der Tat sind die beiden algebraisch und geometrisch untrennbar verkop-

pelt. Vergleiche unsere Abb. 2.1 auf S. 7 mit denen in [Fekete, 1985, p. 141] und [Ficken,

1967, p. 148].

9Ein affiner Teilraum bzw. affiner Unterraum wird auch lineare Varietät (linear variety) genannt. Anschaulich

läßt sich der Begriff affiner Unterraum so konstruieren, indem man den ganzen Vektorraum nach einem bestimmen

Unterraum in nicht-leere, disjunkte Teilmenge so aufteilt (zerlegt), daß jede einzelne Teilmenge zu dem Unterraum

„parallel“ ist. Eine Teilmenge heißt zu einem Unterraum „parallel“, wenn die Differenz zweier beliebigen Vekto-

ren aus der Teilmenge im Unterraum liegt. (NB. Zur Kompaktheit der Erklärung haben wir hier die Bedingung der

„Parallelität“ provisorisch verstärkt.) Zur formaler Konstruktion werden in der Regel die algebraischen Begriffe

Äquivalenzrelation (Reflexivität, Symmetrie und Transitivität), Äquivalenzklasse und Nebenklasse als Grundbau-

steine verwendet. Infolgedessen ist jeder affine Teilraum durch einen eindeutigen Unterraum zu identifizieren und

zu generieren. Die geometrischen Begriffe “Gerade” und “Ebene” beispielsweise werden demnach algebraisch

formalisiert.

10Mit „orthogonal“ ist in diesem Zusammenhang keine lineare Isometrie gemeint, sondern das „senkrechte“

geometrische Verhältnis zwischen der Projektionsrichtung und dem Zielunterraum eines Projektors. Um Misver-

ständnisse zu vermeiden, werden wir anstatt dessen das Wort Orthoprojektor verwenden.

2.1. PROJEKTOREN UND REFLEKTOREN

sin(θmin) = 1/kPk2

cos(π/2−θmin) = kP†k2

P=PV,W= [V 0] [V W]−1= (PW⊥PV)†=I−Q= (I+R)/2 = (I−S)/2

Q=PW,V= [W 0] [W V]−1= (PV⊥PW)†=I−P= (I+S)/2 = (I−R)/2

R=RV,W= 2P−I=P−Q=−S,R2=I

S=RW,V=I−2P=Q−P=−R,S2=I

In=P+Q,Cn=V ⊕W,x=y+z

In=P∗+Q∗,Cn=V⊥⊕W⊥,x=y0+z0







V=R(P) = N(I−P)

=N(Q) = R(I−Q)

=R(I+R) = N(I−R)

=N(I+S) = R(I−S)

W=R(Q) = N(I−Q)

=N(P) = R(I−P)

=R(I+S) = N(I−S)

=N(I+R) = R(I−R)

(32,18)

r(-32,-18)

−Ix



(9,18)

y=Px

(-14,18)

Rx = (2P−I)x

= (I−2Q)x

= (P−Q)x

=−Sx

r(-9,-18)

−Px

(23,0)

z=Qx = (I−P)x

(14,-18)

Sx = (2Q−I)x

= (I−2P)x

= (Q−P)x

=−Rx

r(-23,0)

−Qx = (P−I)x

(0,34) y0=PW⊥,V⊥x=P∗x

s(-32,50)

R∗x= (2P∗−I)x

= (P∗−Q∗)x

(32,-16) z0=PV⊥,W⊥x=Q∗x

(32,-50) S∗x= (2Q∗−I)x

= (Q∗−P∗)x

(0,-34)

−P∗x

(-32,16)

−Q∗x

W⊥=R(P∗) = N(I−P∗)

=N(Q∗) = R(I−Q∗)

HHHHHHHHHHHHHHHHHHH

V⊥=R(I−P∗) = N(P∗)

=N(I−Q∗) = R(Q∗)



H

Abbildung 2.1: Komplementäre und duale Projektoren sowie ihre assoziierten Reflektoren.

Durch die komplementären Teilräume V,Wund den Vektor xin Cnwerden diese Zusam-

menhänge induziert. Diese Abbildung ist mittels L

TEX-picture in mm berechnet und ge-

zeichnet worden, wobei V= span{V}= span{[1 2]T},W= span{W}= span{[1 0]T},

P=PV,W= [V 0][V W]−1= [0 0.5; 0 1],P†= [0 0; 0.4 0.8],θmin ≈63.4◦und

der Beispielvektor x= [32 18]T. Diese Abbildung wird zwar in R2gezeichnet, deren Gel-

tung (bis auf die klein beschrifteten Koordinaten der Vektoren) ist jedoch generell für Cn

gedacht. Für höhere dimensionale Räume sei darauf geachtet, daß Vund Wkomplementäre

Teilräume seien.

KAPITEL 2. GRUNDLAGEN

2.1.1 Projektor

Idempotenz ist eine fruchtbare Abstraktion aller scheinbar trivialen Phänomene, bei der die

wiederholte Anwendung einer Operation das Ergebnis der ersten Anwendung nicht mehr

verändert. In linearer Algebra erkennen wir die Projektionen, ob senkrecht oder schief, als

idempotente Abbildungen. In anderen Worten, alle idempotenten Abbildungen bezeichnen

wir hier als Projektoren.

Alle idempotenten Abbildungen bezeichnen wir hier als Projektoren [Halmos, 1958,

pp. 73–78]. Ein Endomorphismus P:Cn7→ Cnheißt Projektor, wenn er idempotent ist.

Bild und Kern des Projektors sind komplementär und seine Spur ist gleich dem Rang, das

heißt

P2=P=⇒Cn=R(P)⊕N(P)

tr P= rank P= dim R(P).(2.1)

Wegen der Idempotenz sind die Eigenwerte eines Projektors entweder 1oder 0(λ2=λ).

Umgekehrt, besitzt eine quadratischen Matrix nur Eigenwerte 1und 0, dann stellt die Matrix

einen Projektor dar. Die algebraische Vielfachheit des Eigenwertes 1ist gleich dem Rang,

der Spur, und der Dimension des Bildraumes des Projektors. Der Bildraum eines Projek-

tors ist also nicht nur ein invarianter Teilraum, sonder jeder Vektor in ihm wird unter der

Projektion festgelassen. Die Projektion findet statt entlang oder parallel zu [Stewart, 1963,

p.108] [Griffel, 1989a, pp. 109–112] einem Teilraum, den wir als Richtungsteilraum be-

zeichnen Der Richtungsteilraum der Projektion ist der Kern des Projektors. Die Dimension

des Kerns ist die algebraische Vielfachheit des Eigenwertes 0. Die Summe der Dimensio-

nen des Bildraumes und des Richtungsteilraums eines Projektors in Cnist n. Sie sind also

komplementäre Teilräume. Dies ist die Anatomie eines Projektors. Siehe Abb. 2.1 auf S. 7.

Ist die Matrix Pein Projektor, dann sind auch die Matrizen

I−P,P∗,I−P∗

Projektoren, wobei I−Pder komplementäre und P∗der duale Projektor von Pgenannt

werden sollen (Abb. 2.1 auf S. 7). Bei einem Projektor Psprechen wir von einer Projek-

tion aller Vektoren im Raum auf den Teilraum R(P)entlang (parallel zum) des Teilraums

N(P). Mit PV,Wbezeichnen wir einen Projektor mit dem Bild Vund Kern Wwie in

Abb. 2.1 auf S. 7 dargestellt ist. Die durch einen Projektor Phervorgerufenen bzw. defi-

nierten komplementären Teilräume R(P) = N(I−P)und N(P) = R(I−P)haben ein

geometrisches Verhältnis, das zum Teil durch einen Minimalwinkel [Ipsen und Meyer, 1995,

Fig. 1]

θ= sin−11

kPk2

,kPk2≥1(2.2)

zu charakterisieren ist. V. et. Abb. 2.1 auf S. 7. Wir sehen in Gl. (2.1) auf S. 8, daß jeder

Projektor auf zwei komplementäre Teilräume aufgebaut und vollständig durch sie zu cha-

rakterisieren ist. Umgekehrt, für jedes Paar zweier komplementärer Teilräume gib es genau

zwei komplementäre Projektoren, die die zwei Teilräume als Bild und Kern enthalten.

2.1.2 Orthoprojektor

Ist ein Projektor Pselbstadjungiert, so heißt er Orthoprojektor (orthogonaler Projektor),

denn der Bildraum ist orthogonal zum Nullraum. Die Darstellungsmatrix eines Orthopro-

jektorsisteinSonderfallder sogenannten EP-Matrizen und besitzt immer eine Spektralnorm

2.1. PROJEKTOREN UND REFLEKTOREN

von 1. Die EP-Matrizen besitzen viele wichtigen Eigenschaften, die in § 2.2 aufgelistet wer-

den. Wir schreiben hier allerdings vorweg, daß u. a.,

P2=P=P∗=⇒





Cn=R(P)⊕⊥N(P)

Cn=R(P∗)⊕⊥N(P∗)

P2=P=P∗=P†

.(2.3)

2.1.3 Reflektor

Wie bei der Idempotenz der Fall, ist auch die Involution eine fruchtbare Abstraktion aller

Phänomene, bei der die zweite Anwendung einer Operation die erste Anwendung annuliert.

Für die Vektoren aus einem linearen Raum erkennen wir die Spiegelung, ob senkrecht oder

schief, als eine involutorische Abbildung. Alle involutorischen Abbildungen werden wir hier

als Reflektoren bezeichnen11, obgleich nur sehr wenig Autoren es tun.

Alle involutorischen Abbildungen werden wir hier als Reflektoren bezeichen12, obgleich

nur sehr wenig Autoren es tun. Ein Endomorphismus R:Cn7→ Cnheißt Reflektor, wenn

er involutorisch ist, das heißt, wenn

R2=I6=Roder I6=R=R−1.(2.4)

Ein Operator Ris genau dann ein Reflektor, wenn er die Differenz zweier komplementären

Projektoren ist [Fekete, 1985, p. 141]. Die Eigenwerte eines Reflektors sind entweder 1oder

−1. Umgekehrt, besitzt eine quadratische Matrix nur Eigenwerte 1und −1, dann ist sie ein

Reflektor. Ist Rein Reflektor, so ist gewiss auch −Rein Reflektor, der der komplementäre

Reflektor von Rheißen soll. Anders als ein Projektor, der im allgemeinen einen nicht-tri-

vialen Kern besitzt, ist ein Reflektor hingegen ein Automorphismus (bijektive Abbildung).

Es besteht eine Bijektion [Fekete, 1985, pp. 140–141] zwischen den Reflektoren und den

Projektoren durch die Beziehung

R= 2P−I,oder P= (I+R)/2.(2.5)

Die Anatomie eines Reflektors ist also mit seinem assoziierten Projektor untrennbar gekop-

pelt. Ein Reflektor läßt sich nämlich durch das Bild und den Kern des assoziierten Projektors

vollständig charakterisieren. Der Spiegel eines Reflektors ist genau der Bildraum des asso-

ziierten Projektors. In anderen Worten, die assoziierten Projektor und Reflektor teilen einen

Teilraum gemeinsam als jeweils der Bildraum und der Spiegel. Die Dimension des Spiegels

ist die Vielfachheit des Eigenwertes 1. Der Spiegel ist nicht nur ein dem Reflektor invarianter

Unterraum, sondern jeder Vektor im Spiegel wird in sich selber abgebildet. Die Spiegelung

bzw. Reflektion findet statt entlang (parallel zu) [Ficken, 1967, p. 149] des Eigenraumes mit

dem Eigenwert −1. Dieser invariante Raum des Reflektors nennen wir Richtungsteilraum

des Reflektors.

Ein Reflektor Rin Cnzerlegt somit den Raum, durch die Bijektion (2.5) mit einem

Projektor, auf zwei komplementäre Teilräume R(P) = R(I+R)und N(P) = N(I+R),

11Dies wird normalerweise als Involution bezeichnet wie z. B. in [Fekete, 1985, p. 140]. Viele Autoren nennen

einen Operator erst dann „Reflektor“, wenn er selbstadjungiert (bzw. symmetrisch) ist. Wir folgen hier [Kahan,

1998] und nennen alle involutorischen Operatoren mit (2.4) Reflektoren oder Schief-Reflektoren. Die selbstadjun-

gierten Reflektoren nennen wir Orthoreflektoren (orthogonale bzw. senkrechte Reflektoren). Der Grund, warum wir

hier alle Involutionen Reflektoren nennen, wird in Abb. 2.1 auf S. 7 deutlich. Die Resultate hier gelten für lineare

Räume über allgemeine Körper K1+16=0 [Ficken, 1967, p. 149].

KAPITEL 2. GRUNDLAGEN

d. h. (Vgl. (2.1)),

R2=I6=R=⇒Cn=R(I+R)⊕N(I+R).(2.6)

Ein Operator ist genau dann ein Reflektor, wenn er die Differenz zweier Projektoren ist.

V. et. Abb. 2.1 auf S. 7.

2.1.4 Orthoreflektor

Ein selbstadjungierter Reflektor Rheißt Orthoreflektor (orthogonaler Reflektor), denn die

mit ihm assoziierten Teilräume R(I+R)und N(I+R)(2.6), (2.1) stehen senkrecht

aufeinander.

R2=I6=R=R∗=⇒Cn=R(I+R)⊕⊥N(I+R).(2.7)

Die Householder-Spiegelung [Witt, 1937, 1998] [Kaplansky, 1974, p. 17] [Householder,

1975] [Laurie, 1997a,b] ist ein Beispiel der Anwendung von der orthogonalen Spiegelung.

Siehe auch Bemerkung 2.4.29 auf S. 56.

2.1.5 Konstruktion der Projektoren

Sei V ⊂ Cn,V 6={0}ein Teilraum. Seien die Spalten der Matrix Vminimal erzeugend für

V. Dann ist der Orthoprojektor auf V

PV=V(V∗V)−1V∗.(2.8)

Infolgedessen sind alle Orthoprojektoren auf die vier fundamentalen Teilräume einer linea-

ren Abbildung in Abb. 2.2 auf S. 20 durch die SVD bereits gegebenen.

Seien V,W ⊂ Cnkomplementäre Teilräume. Seien Spalten der Matrizen Vund W

jeweils minimal erzeugend für Teilräume Vund W. Dann ist der Projektor PV,Wauf V

entlang W[Meyer, 2000, p. 386]

PV,W= [ V|0] [ V|W]−1= [ V|W]I 0

0 0 [V|W]−1.(2.9)

Seien Vund Wkomplementäre Teilräume in Cn. Seien PVund PW⊥Orthoprojektoren

auf Vund W⊥. Dann ist der Projektor PV,Wauf Ventlang Wgegeben durch 13

PV,W=PV(PV+PW⊥−I)−2PW⊥.(2.10)

Seien V,W ⊆ Cnzwei komplementäre Teilräume und x∈Cnein beliebiger Vek-

tor, dann ist dadurch ein Verhältnis von Spiegelungen und Projektionen entstanden, wie in

Abb. 2.1 auf S. 7 dargestellt wird. Umgekehrt, bei jedem Projektor P∈Cn×nsind zwei

Teilräume charakteristisch: R(P)und N(P), wobei der Kern N(P)die Richtung der Pro-

jektion bestimmt. R(P)und N(P)sind die invarianten Teilräume jeweils zum Eigenwert

13Dank sei Prof. Zdislav V. Kovarik, McMaster University, Hamilton, Ontario, Canada, für den Hinweis der

Formel Gl. (2.10) auf S. 10 aus seinem Aufsatz [Kovarik, 1977].

2.1. PROJEKTOREN UND REFLEKTOREN

1und 0. Bei einem Reflektor R∈Cn×nsind jedoch R(R)und N(R)trivial, denn ein

Reflektor ist ein Automorphismus. Für einen Reflektor Rsind der „Spiegel“ und die „Rich-

tung der Spiegelung“ charakteristisch. Solche sind aber genau die beiden charakteristischen

Teilräume, R(P)und N(P), des assoziierten Projektors P= (I+R)/2. Der Spiegel

und die Richtung der Spiegelung sind also R(I+R)und N(I+R). In anderen Worten

ist der Spiegel des Reflektors genau der Eigenraum zum Eigenwert 1und der Richtungs-

teilraum der Spiegelung der Eigenraum zum Eigenwert −1. Die Bijektion R= 2P−I

bzw. P= (I+R)/2verbindet die Idempotenten und die Involutorischen und macht die

Projektoren und die Reflektoren untrennbar. (Siehe Abb. 2.1 auf S. 7.) Daher haben wir

alle Idempotenten die Projektoren gennant, und alle Involutorischen die Reflektoren. Die

Selbstadjungierten haben wir alsoOrthoprojektorenundOrthoreflektoren genannt. Es beste-

he kein Grund, die Nicht-Hermiteschen auszusondern, wie es die meisten Autoren pflegen.

Die „Schiefen“ haben genau so hohen Anspruch auf die Namen Projektor und Reflektor wie

die „Senkrechten“ bzw. Selbstadjungierten. Ein „schiefer Spiegel“ mit dem optischen Nor-

mal ungleich dem Oberflächen-Normal mag ungewöhnlich sein. In der Tat werden solche

industriell hergestellt, obgleich die Auflösung solcher optischen Instrumente eingeschränkt

ist. Mit noch groberer Körnigkeit sehen wir schiefe akustische Spiegel in den Konzerthal-

len (u. a. in der Paderhalle). Auch für solche sei die Bezeichnung Reflektor geeignet. Den

Umweg, zunächst den Begriff Reflektion auf die hermiteschen Involutionen einzuschrän-

ken, dann wiederum die Involutorischen mit „skew reflection“ [Fekete, 1985, p. 142] oder

„reflection of Xin Yalong Z“[Ficken, 1967, p. 149] anzureden, halten wir für unnötig.

2.1.6 Komplexe Householder-Transformation

Bei der Householder-Transformation handelt es sich um eine Isometrie, die einen gegebe-

nen Vektor xauf einen anderen vorgegebenen Vektor yabbildet [Householder, 1972, 1975].

Diese Technik wird oft in numerischen Verfahren verwendet, um Nullen in eine Matrix unter

Similarität einzuführen. Zu diesem Zweck konstruierte A. S. Householder „elementary re-

flectors“ oder „elementary Hermitians“, die symmetrisch und involutorisch sind. Die Grun-

didee ist zwischen den Vektoren xund yeine Spiegelung Hzu bilden, so daß der Vektor

xin die Richtung des Vektors yabgebildet wird. Da in den meinsten Texten das Verfahren

nur im reellen Fall vorgestellt und diskutiert wird, gehen viele davon aus, daß eine komplexe

Version des Verfahrens mittels Ersetzens des Transponierens durch das Adjungieren (hermi-

tesches Transponieren) aus dem reellen Fall erfolgt. Überraschenderweise funktioniert das

Verfahren bei den komplexen Vektoren nicht, sondern es wird x∗y=y∗xvorausgesetzt.

Diese Bedingung ist zwar original in [Householder, 1972, 1975] erwähnt worden, sie wird

jedoch selten zur Kenntnis genommen und vorgestellt. Eine direkte Übertragung der reel-

len Householder-Spiegelung auf komplexe Fälle mittels Ersetzens der Transponierten durch

hermitesche Transponierte versagt, so daß nicht einmal der Teilraum span {y} ∈ Cner-

reicht werden kann. Weiterhin wird in der Anwendung oft ein reeller Vielfacher vom Vek-

tor ybenötigt. Dieser Umstand bleibt meines erachtens nur in einem kleineren Fachgebiet

bekannt 14 [Laurie, 1997a,b] [Householder, 1972, 1975] [Lehoucq, 1996] [Sun, 1995] [Wil-

kinson, 1965a] [Dubrulle, 1996]. Es stellt sich heraus, daß das Verfahren modifiziert werden

muß, um den zweiten Vektor yerreichen zu können, mit dem Preis, daß die Matrix nicht

mehr selbst-adjungiert und involutorisch sein wird. Der erste Vektor xwird nach wie vor

als ∓x∗/kxk2in der ersten Zeile der resultierenden Matrix beibehalten, falls y=e1,nicht

14zitiert in der Reihenfolge des Heraussuchens der Literatur.

KAPITEL 2. GRUNDLAGEN

aber in der ersten Spalte 15.

Das Versagen der Householder-Transformation bei komplexen Vektoren läßt sich wie

folgt zeigen. Sei Hx =βy, wobei x,y∈Cn,H∗=H=H−1∈Cn×n, wie es bei

der reellen Householder-Transformation der Fall ist. Dann muß x∗Hx =βx∗ygelten. Ein

Widerspruch entsteht jedoch dadurch, daß die linke Seite x∗Hx stets reell ist, während der

Imaginärteil der rechten Seite βx∗ynicht immer verschwindet.

Seien x,y∈Cn,x,y6=0. Gesucht wird eine Matrix U∈Cn×n, so daß Ux =

βy, β ∈R. Eine unitäre Lösung Uist

U=I−(1 + eıθ)P=⇒Ux =∓kxk2

kyk2

y,(2.11)

wobei der Orthoprojektor P, der Householder-Vektor vund ein Winkel θgegeben sind

durch

P=v v∗

v∗v,v=x

kxk2±y

kyk2

, θ = 2∠(x∗v).(2.12)

Die Matrix Ukann in einer möglichst ähnlichen Form wie im reellen Fall (cf. Abb. 2.1 auf

S. 7) umgeschrieben werden als

U=I−2αP, α =1 + eıθ

2,(2.13)

oder, wie es Prof. Dirk Laurie in [Laurie, 1997a,b] formuliert hat als

U=I−P−ωP, ω =v∗x

v∗x=eıθ.(2.14)

Die Matrix Uis nun im allgemeinen nicht Hermitesch und nicht involutorisch aber stets

unitär, denn aus P2=P=P∗folgt U∗U=UU∗=I. Wenn y=ei(i= 1,...,n), dann

gilt

Ux =∓kxk2

kyk2

y=∓kxk2ei.

Daraus ergibt sich

∓x∗/kxk2=e∗

iU=die i-te Zeile der Matrix U. (2.15)

Dieses Nebenprodukt der Transformation wird sehr oft als Hauptzweck zur Basisvervoll-

ständigung oder Berechnung des orthogonalen Komplements bzw. des Kernes von einem

einzeiligen System eingesetzt.

Ist (x∗y)∈R, d. h., x∗y=y∗x, so ist

x∗v=x∗x

kxk2±y

kyk2=x∗x

kxk2±x∗y

kyk2

=x∗x

kxk2±y∗x

kyk2=x∗

kxk2±y∗

kyk2x=v∗x.

15Die Erscheinung des Vektors xin der Matrix ist eine direkte Konsequenz der unitären Abbildung. Meines

erachtens sprechen zu viele Menschen von „der ersten Spalte“ der Householder-Matrix. Dies ist nicht allgemein

gültig und sollte nicht den Nachkommenden gelehrt werden.

2.1. PROJEKTOREN UND REFLEKTOREN

Ist v∗x=x∗v, da y=±kyk2(v−x/kxk2), so gilt

x∗y=±x∗kyk2v−x

kxk2=±kyk2x∗v−x∗x

kxk2

=±kyk2v∗x−x∗x

kxk2=±kyk2v−x

kxk2∗x=y∗x.

Daraus folgt

x∗y=y∗x⇐⇒ x∗v=v∗x(2.16)

und

θ= 0 oder ω= 1 ⇐⇒ (x∗y)ist reell.(2.17)

Im Falle (x∗y)∈Rreduzieren sich Gl. (2.11) auf S. 12, Gl. (2.13) auf S. 12 auf den

Hermiteschen und involutorischen Elementar-Reflektor.

Wir haben die komplexe Version der Householder-Transformation deswegen in der

Form von Gl. (2.13) auf S. 12 bzgl. θund Ppräsentiert, weil

•der Winkel θkein Beliebiger ist, sondern essentiell bei der Einführung

des hermiteschen Skalarproduktes über Centstanden ist. Die stellt die

Besonderheit aus, daß das hermitesche Skalarprodukt in unitären Räumen

nicht reellwertig und nicht kommutativ ist Fußnote 77 auf S. 47. Dadurch

entsteht ein Phasen-Winkel, der in unitären Räumen von fundamentaler

Bedeutung sein soll. Allerdings wird dieser Winkel, meines erachtens,

nicht in der Literatur mit einem Namen angesprochen, obwohl er einen

verdiene.

•die Form I−2Pbeibehalten werden kann. Diese Form deutet darauf hin,

daß die o. a. unitäre Abbildung immerhin mit dem komplementären Re-

flektor des assoziierten Projektors (I−P) auf den (n−1)-dimensionalen

Halbierungsteilraum zusammenhängt. Cf. Gl. (2.5) auf S. 9 und Abb. 2.1

auf S. 7.

Mit der „luxuriösen“ Ausstattung eines Skalarproduktes werden die geometrischen Be-

griffe Länge eines Vektors und Winkel zwischen zwei Vektoren in einen linearen Raum

eingeführt. Infolgedessen ist der lineare Raum zugleich mit einer induzierten Norm und

einer induzierten Metrik versehen. Das Wesentliche von einem Skalarprodukt ist, „das geo-

metrische Verhältnis“ zweier Vektoren x,ydurch eine Bilinearform bzw. eine hermitesche

Form (x,y)zu bestimmen. Dies dürfe gedacht werden als eine Art gewichtete oder nicht

gewichtete „Kreuz-Korrelation“. Im Falle einer Bilinearform über Rist das „Verhältnis“

(x,y) = cos ψp(x,x)(y,y)∈R

durch den Winkel ψund die quadratischen Längen (x,x)und (y,y)beschrieben. In an-

deren Worten gehören die Länge und der Winkel dem „Inhalt“ dieses „geometrischen Ver-

hältnisses“ zweier Vektoren. Im Falle einer hermiteschen Form über Cist das „Verhältnis“

zwischen zwei Vektoren x,y∈C

(x,y) = (a+bı)p(x,x)(y,y)∈C, a, b ∈R.

Da (x,y)nun komplex ist, haben wir außer den beiden Längen noch zwei reelle Werte, die

„das Verhältnis“ beschreiben. Ergo ist der Winkel φ=∠(x,y)von fundamentaler Bedeu-

tung außer dem Betrag |(x,y)|16. Das heißt, die Beschreibung des „Verhältnisses“ zweier

16Der Betrag des komplexen Skalarproduktes definiert einen Winkel mit |(x,y)|= cos ψp(x,x)(y,y)der

dem Minimalwinkel [Ipsen und Meyer, 1995] entspricht. (matstat -wv) Fußnote 17 auf S. 14

KAPITEL 2. GRUNDLAGEN

komplexer Vektoren durch die Längen und einen einzigen reellen Wert alleine kann nicht

vollständig sein17. Die Entstehung dieses Winkels muß Konsequenzen haben, was im reel-

len Fall nicht vorhanden ist. Daß in Gl. (2.11) auf S. 12 und Gl. (2.12) auf S. 12 der Winkel

θ= 2φbenötigt wird, hätte uns nicht überraschen sollen. Dieser Winkel φdes Skalar-

produktes erscheint auch beim komplexen Gram-Schmidt-Schritt [Gram, 1883] [Schmidt,

1907a, p. 442] falls die Reihenfolge des Skalarprodukts vertauscht ist. In diesem Fall ver-

sagt das Verfahren und der resultierende Vektor ist nicht orthogonal zum gewünschten Vek-

tor, sondern das Skalarprodukt wird von dem „Winkel des Skalarproduktes“ φ=∠(x∗y)

abhängen. Deshalb ist empfehlenswert, bereits im reellen Fall das Skalarprodukt im Ortho-

gonalisierungs-Schritt in der „richtigen“ Reihenfolge zu schreiben.

In der Tat war A. S. Householder (1904–1993) nicht der erste, der sich mit solch einem

Problem beschäftigt hat. Ernst Witt (1911–1991) hat 1937 [Witt, 1937, 1998] die Existenz

einer orthogonalen Transformation zwischen Vektoren mit gleicher Länge auf beliebigen

Körpern K1+16=0 bewiesen. Bela von Szökefalvi-Nagy [Szökefalvi-Nagy, 1967] hat im Hil-

bertraum über die unitären Abbildungen diskutiert, die einen Teilraum zum anderen abbil-

den. Seine Ergebnisse sind uns genau so hilfreich wie die Householder-Transformation für

den Beweis vom Lemma 2.4.27 auf S. 54. Allerdings muß dies wieder modifiziert werden,

wenn ein reeller Vielfacher des Ziel-Vektors erwünscht ist. Die Abwandlung erfolgt wieder

durch Einführung vom Winkel φdes Skalarproduktes. (Siehe nagy.m.)

2.2 Generalisierte Inversen

In der Computer-Vision sind viele Inversionsprobleme zu lösen. Die Grundlage zur Lö-

sungen solcher Probleme stellt vor allem die theoretische Entwicklung der generalisierten

Inversen dar, welche u. a. auch durch die Singulärwertzerlegung numerisch zuverlässig zu

berechnen sind (siehe matstat.c -i,ginv.c und pinv.c).

Die für den Autor hilfreichsten Monographien zum Thema sind [Rao und Mitra, 1971]

[Boullion und Odell, 1971] [Albert, 1972] [Ben-Israel und Greville, 1974] [Kuhnert, 1976]

[Cline, 1979] [Campbell und Meyer, 1979]. Für Testmatrizen siehe [Gregory und Karney,

1969][Opitz,1995][Higham,1995][Chen,1998 pinv*.*, ginv*.*, drazin*.*].

1. (Geometrische) Moore-Bedingungen [Bjerhammer, 1951a,b] [Moore, 1920] [Moore,

1935]:

AX =PR(A),

XA =PR(X).(2.18)

17 Für weitere Diskussionen über das Verhältnis und die kanonischen Winkel bzw. Hauptwinkel (principal

angles) zwischen den Teilräumen sei die folgende Sammlung der Literaturen aufgelistet (in chronologischer Rei-

henfolge): [Jordan, 1875] [Afriat, 1957] [Davis, 1958] [Zassenhaus, 1964] [Kato, 1966] [Davis und Kahan, 1970]

[Shilov, 1971, pp. 244–245, p. 373] [Hohn, 1973, p. 373] [Stewart, 1973a] [Björck und Golub, 1973] [Afriat

et al., 1975] [Stewart, 1977] [Wedin, 1982] [Golub und Van Loan, 1983, pp. 20–24] [Golub und Van Loan, 1983,

pp. 425–431] [Vandewalle und De Moor, 1988, p. 56] [Stewart und Sun, 1990] [Ritov, 1992] [Ipsen und Meyer,

1995] [Stewart, 1998, pp. 74–76] [Stewart, 1999, pp. 7–8] [Meyer, 2000, pp. 450–459]. V. et. Usenet-Post von

Prof. Pertti Lounesto in angle03 und Notiz [Chen, 2001].

2.2. GENERALISIERTE INVERSEN

2. (Algebraische) Erweiterte Penrose-Bedingungen [Penrose, 1955, 1956]:

(1) AXA =A

(1k)AkXA =Ak

(2) XAX =X

(3) AX = (AX)∗

(4) XA = (XA)∗

(5) AX =XA.(2.19)

3. Die (eindeutige) Lösung Xder Gleichungen (1),(2),(3) und (4) in Gl. (2.19) auf S. 15

stimmt mit der in Gl. (2.18) auf S. 14 überein. Solche wird daher die Moore-Penrose-

Inverse (oder einfach Pseudoinverse) der Matrix Agenannt und oft mit A†bezeich-

net. Die Moore-Penrose-Inverse wird bei manchen Autoren auch mit {1,2,3,4}-In-

verse bezeichnet. Es ist üblich, die Numerierung in Gl. (2.19) auf S. 15 zur Bezeich-

nung allermeinerer Lösungen zu benutzen, die eine Untermenge der Bedingungen in

Gl. (2.19) auf S. 15 erfüllen.

4. Mit ADbezeichnen wir die (eindeutige) Drazin-Inverse der Matrix A. Sie wird auch

{1k,2,5}-Inverse genannt, da sie die (1k), (2) und (5) in Gl. (2.19) auf S. 15 erfüllt

[Drazin, 1958] [Meyer, 2000, p. 399].

5. Eine kleinste-quadrate-lösende Inverse A(1,3) ist eine Matrix aus den {1,3}-Inversen.

6. Für die Orthoprojektoren gilt A2=A=A∗=⇒A†=A.

7. Sei A∈Cn×n. Die folgenden Aussagen äquivalent: 18

(a) Die Gruppeninverse der quadratischen Matrix Aexistiert.

(b) Ahat Index 1.

(d) Der Bildraum der Matrix A„schrumpft“ nicht mit dem Potenzieren.

(e) Der Kern der Matrix A„wächst“ nicht mit dem Potenzieren.

(f) R(A)und N(A)sind komplementäre Teilräume.

(g) Cn×n=R(A)⊕N(A).

8. Sei A∈Cn×n. Die folgenden Aussagen sind äquivalent: 19

(a) Die Matrix Ahat Index k.

(b) rank Ak= rank Ak+1.

(d) Das Bild von Ahört mit dem Schrumpfen auf am Ak.

9. Besitzt eine Matrix A∈Cn×nIndex 1, so ist die Drazin-Inverse ADgliech der

Gruppeninverse A#.20

10. Sei A∈Cn×nund Ind A=k, dann 21

(a) Die Kette der Nullräume hört auf zu wachsen am N(Ak).

18[Ben-Israel und Greville, 1974, pp. 162–163] [Ben-Israel und Greville, 1974, p. 162, Theorem 1, p. 165, Ex. 6]

19[Meyer, 2000, p. 395]

20[Campbell und Meyer, 1975]

21[Meyer, 2000, pp. 394–397] [Meyer, 2000, p. 395, Property 3, 4] [Ficken, 1967, p. 280]

KAPITEL 2. GRUNDLAGEN

(b) Die Kette der Bildräume hört auf zu schrumpfen am R(Ak).

(d) R(Ak)∩N(Ak) = 0.

(e) R(Ak) + N(Ak) = Cn.

(f) R(Ak)⊕N(Ak) = Cn.

(g) R(Ak)und N(Ak)sind invariant unter A.

11. Sei Aeine EP-Matrix, dann hat Aden Index 1. [Ben-Israel und Greville, 1974, p. 162,

Ex. 7].

12. Sei A∈Cn×n. Die folgenden Aussagen sind äquivalent: 22

(a) Aist mit A†vertauschbar.

(b) A†A=AA†.

(d) N(A) = N(A∗).

(e) Cn=R(A)⊕⊥N(A).

(f) Ax =λx⇐⇒ A†x=λ†x.

(g) Aist EP oder RPN (range perpendicular to nullspace).

(h) Aist bild-hermitesch (bild-symmetrisch).

(i) Es existiert eine Matrix Ymit A∗=YA

(j) A#=A†=AD.

13. Weitere Anmerkungen 23:

(a) Die EP-Matrizen (mit A†A=AA†) konstruieren eine größere Kategorie als

die der normalen Matrizen und haben eine „gute“ Spektraleigenschaft.

(b) AA†ist der Orthoprojektor in den Raum R(A).

R(AA†) = R(A) = R(AA∗),(2.20)

R(A†A) = R(A∗) = R(A∗A) = R(A†).(2.21)

(d) AADist ein Schiefprojektor in den Raum R(Ak)entlang des Raumes N(Ak).

I−AADist der komplementäre Projektor in den Raum N(Ak)entlang R(Ak).

2.3 Singulärwertzerlegung

Der Schwerpunkt dieses Kapitels liegt in der Singulärwertzerlegung (SVD) und ihrer zahl-

reiche Anwendungen in dieser Arbeit. Fast alle linearen Verfahren haben wir mit diesem

„Algebraischen Schweizer Messer“ in ANSI-C Programmiersprache realisieren und im Pro-

jekt einsetzen können, obgleich hier und da Alternativen zur Verfügung stünden [Chen et al.,

2000]. Eine Wiederholung ist nicht beabsichtigt, sondern die Aufgabenspezifischen und die

Unentbehrlichen oder selten Angesprochenen werden diskutiert.

22[Katz, 1965] [Ben-Israel und Greville, 1974, pp. 163–166] [Campbell und Meyer, 1979, p. 74, Theorem 4.3.1].

[Campbell und Meyer, 1979, p. 129, Theorem 7.3.4], [Koliha, 1999]. [Meyer, 2000, p. 408]

23[Campbell und Meyer, 1979, p. 74] [Griffel, 1989b, p. 152] (ginv.tex ca. p. 46.) [Campbell und Meyer, 1979,

p. 12, Theorem 1.2.2] [Meyer, 2000, p 400]

2.3. SINGULÄRWERTZERLEGUNG

Alle Matrizen sind diagonal, reell und positiv semidefinit (cum grano salis). Dies ist

eine weitere kanonische Form aller Matrizen in Cm×nunter der Singulärwertzerlegung.

Durch die Auswahl einer geeigneten Basis führt die Ähnlichkeitstransformation aller qua-

dratischen Matrizen zu Jordanscher Normalform. Durch Auswahl zweier geeigneten Basen,

sowohl in Domäne als auch in Kodomäne, werden alle Matrizen zu einer diagonalen Form,

die stets reell und positiv semidefinit ist. Die diagonalen Elemente werden Singulärwerte

genannt. Die Basisvektoren heißen die linken und die rechten Singulärvektoren.

Die SVD wird langsam in der Gesellschaft der Mustererkennung bekannt und ange-

wandt obwohl sich die Existenz der SVD (nicht in endgültiger Form) auf die Jahre 1873

[Beltrami, 1873] und 1874 [Jordan, 1874a,b] zurückführen läßt. Meines Erachtens lassen

sich die Ingenieure nämlich meistens nur überzeugen, wenn ein Verfahren effizient und zu-

verlässig zu realisieren ist. Dies geschah in ALGOL60 am Anfang der 70’er Jahre [Golub

und Kahan, 1965] [Golub und Reinsch, 1970a] [Golub und Reinsch, 1970b] [Wilkinson und

Reinsch, 1971]. Der sogenannte Golub-Kahan-Reinsch-Algorithmus wurde in Fortran 77

übersetzt [Forsythe et al., 1977]. Bis 1986 erschienen noch Kommentare wie der folgende:

„...this approach is not ...the most convenient (a library routine for computing

the singular value decomposition might not be available, on a microcomputer,

for example.)“ [Higham, 1986]

Es war sogar noch im Jahre 1998 schwierig, eine zuverlässige Implementierung in ANSI-

C zu finden 24, denn die meisten Numeriker bleiben nach wie vor bei Fortran. Fortran is

zwar die effiziente und aktuelle Mainstream-Sprache für die Numerischen Aufgaben, jedoch

haben wir uns wegen industrieller Einsetzbarkeit und Portierbarkeit für C entschieden. Es

sei darauf hingewiesen, daß noch bis heute eine C-Routine für SVD nicht ohne weiteres

einzusetzen ist! Sondern, sie muß sorgfältig und weitgehend getestet werden, bevor man

sich überhaupt auf das Ergebnis und die Stabilität der Routine verlassen kann.

Obwohl die Berechnung der SVD oft relativ teurer ist als die von Fall zu Fall an spezi-

elle Matrizenstruktur angepaßten Algorithmen, hat es uns hinsichtlich der Rechenzeit nicht

viel ausgemacht, denn in der vorhandenen Arbeit handelt sich noch meistens um kleinere

Matrizen (d. i., mit Anzahl der Elemente kleiner als 512 ×512). Hinzu kommt, daß die

Rechenleistung der Maschinen noch stark am Steigen ist 25. Dies ist überhaupt ein Grund

dafür, warum wir uns mit einem in den siebziger Jahren veröffentlichten Algorithmus noch

heute auseinandersetzen müssen.

Ein nennenswerter Vorteil der SVD ist die Beidhändigkeit in der Theorie und in der

Praxis (im Vergleich zu anderen Formen wie die Jordansche). Daher kann auch in der Pra-

xis theoretische Gedanken parallel geführt werden und umgekehrt Cf. Abb. 2.2 auf S. 20.

Jedoch ist eine „ForTran“ (Formula Translation) in der Numerik ein Tabu hinsichtlich der

24Der Golub-Kahan-Reinsch-Algorithmus wurde in LINPACK, EISPACK und LAPACK (in Fortran 77) in-

tegriert und aus LAPACK wurde auch CLAPACK für C abgeleitet. Auch in der beliebten, etwas umstrittenen

Monographie [Press et al., 1992] wurde die o. g. Algorithmus in C übersetzt. Es sei bemerkt, daß die SVD-Rou-

tine svdcmp.c in [Press et al., 1992] nicht ohne weiteres für kritische Zwecke einzusetzen ist! Denn es gibt ein

Beendigungsproblem in der QR-Iteration. Die Terminierung der Iteration verläßt sich nämlich auf einen Unterlauf

der Fließkomma-Zahlen (x+a== a, x a). Dank Prof. Peter Spellucci in TU Darmstadt wurde mir dieses

Problem schnell erhoben. (videsvdcmp.crp.) Die Fortran-Quellcodes werden meistens maschinell (z. B. f2c)

und nicht in die einheimische Konvention der C-Sprache übersetzt, z. B. mit Array-Indexierung ab 1, was ich im-

mer zu vermeiden versuche. Denn eine Grenzenprüfung wäre bei vielen „bounds-checkers“ nicht möglich. Ein C-

Programm, das noch nie durch Grenzenprüfung intensiv getestet worden ist, sei, meiner Erfahrung nach, niemals

zuverlässig.

25Zur Arbeit benutzt der Autor einen 233 MHz SISD CISC-Prozessor mit einem ungebremsten Betriebssystem.

KAPITEL 2. GRUNDLAGEN

Effizienz, Genauigkeit und Stabilität. Die Numeriker haben dennoch Konsens, daß numeri-

sche Operationen durch orthogonale Transformationen wie bei der SVD stabil bleiben im

Gegensatz zu denen via z. B. Jordanform, von der in der Praxis nur abzuraten ist, trotz

der theoretischen Eleganz. Für eine historische Übersicht der Entwicklung der SVD sei

[Stewart, 1992b] ein hilfreicher Aufsatz, in dem auch die Rechenbarkeit 26 und zahlreiche

Anwendungen wie z. B. in der PCA (Principal Component Analysis) 27, oder im Procru-

stesproblem 28angesprochen werden. Obwohl die Lösung des Procrustesproblems und deren

Generalisierungen 29viele Anwendungen in Computer-Vision findet, werden die originalen

Beiträger oft nicht genannt 30. Auch deswegen ist [Stewart, 1992b] sehr zu empfehlen.

SVD ist u. a. deswegen in der Mustererkennung ein wichtiges Werkzeug da zahlreiche

Probleme in diesem Gebiet wesentlich schlecht-gestellt (ill-posed) [Hadamard, 1923] (oder

„nichtkorrekt“ [Kuhnert, 1976, p. 59]) sind. Die SVD dient nämlich weitgehend als robustes

Mittel zur Regularisierung eines schlecht-gestellten Problems [Hansen, 1987, 1989, 1990,

1998]. Die Gewinnung der Moore-Penrose-Inversen ist ein Beispiel dafür, denn die Moore-

Penrose-Inverse ist keine stetige Funktion der Elemente der eigentlichen Matrix [Stewart,

1969] [Campbell und Meyer, 1975] [Noble, 1976, p. 251] [Campbell und Meyer, 1979§10]

und eine beliebig kleine Störung an einer rang-defizienten Matrix Akann eine beliebig

große Abweichung der Pseudoinversen A†erregen [Campbell und Meyer, 1979, p. 247,

Unpleasant fact] [Noble, 1976]. Dieses „nichtkorrekte“ Problem der Berechnung der Moo-

re-Penrose-Inversen A†der Matrix Akann durch SVD regularisiert werden [Campbell und

Meyer, 1979, p. 247]. Allerdings ist dies nicht blind in der Praxis anzuwenden [Press et al.,

1992, pp. 61–64]. Die Variation der Singulärwerte unter Störung der zu zerlegenden Ma-

trix ist beschränkt durch die Spektralnorm der Störungsmatrix. [Lawson und Hanson, 1974,

p. 23], [Horn und Johnson, 1985, p. 419, Corollary]. [Stewart und Sun, 1990, pp. 259–269]

[Gill et al., 1991, p. 196, §5.8.4] [Stewart, 1991] [Stewart, 1992c] [van der Veen et al., 1993]

[Hansen, 1998, p. 20] [Stewart, 1992b] [Golub und Van Loan, 1996, p. 449, Corollary 8.6.2]

[Higham, 1996]

Mit der Zeit dehnen sich schnell die Anwendungen der SVD auf zahlreiche Gebiete aus

31, darunter findet man inzwischen auch Patenten 32. Dies liegt nach meiner Sicht daran,

daß SVD die meisten, wenn nicht alle, Eigenschaften a priori linearer Entitäten auf einmal

verdeutlicht — sowohl theoretisch, als auch technisch.

26[Golub und Kahan, 1965] [Golub und Reinsch, 1970a] [Golub und Reinsch, 1970b]

27[Hotelling, 1933] [Hotelling, 1933] [Karhunen, 1946] [Loève, 1955]

28[Green, 1952] [Fan und Hoffman, 1955] [Hurley und Cattell, 1962] [Schöneman, 1966] [Higham, 1986] [Rao,

1980] [Stewart, 1992b] [Golub und Van Loan, 1996, p. 601]

29[Green, 1952] [Fan und Hoffman, 1955] [Schöneman, 1966] [Hurley und Cattell, 1962] [Higham, 1986] [Rao,

1980] [Stewart, 1992b] [Golub und Van Loan, 1996, p. 601]

30wie z. B. der oft zitierte [Arun et al., 1987] und seine Zitierenden. Siehe [Stewart, 1992b] für die originalen

Breiträger und eine gute Übersicht der Singulärwertzerlegung.

31[Furnas et al., 1988] [De Moor et al., 1988] [Deprettere, 1988] [Scharf, 1991] [Vaccaro, 1991] [Berry et al.,

1994a] [Moonen und De Moor, 1995] [Landauer und Dumais, 1997]

32Patents: „Computer information retrieval using latent semantic structure“. U. S. Patent No. 4,839,853, Jun 13,

1989. Patent: „Computerized cross-language document retrieval using latent semantic indexing“. U. S. Patent No.

5,301,109, Apr 5, 1994.

2.3. SINGULÄRWERTZERLEGUNG

2.3.1 Berechung der Singulärwertzerlegung

Alle Matrizen A∈Cm×nlassen sich auf Faktoren U∈Cm×m,Σ∈Rm×nund V∈

Cn×nzerlegen, das heißt 33

|{z}

m×n

|{z}

m×m

|{z}

m×n

V∗

|{z}

n×n

,(2.22)

mit

U∗=U−1,V∗=V−1,Σ≥0,

wobei Uund Vunitär sind, und die quadratische Partition oben links der Σ,Cf. Gl. (2.26)

auf S. 22, diagonal und positiv semidefinit ist. Wir bezeichnen mit V∗die Hermitesch Trans-

ponierte der Matrix V. In dieser Arbeit werden unitäre Matrizen auch orthogonal genannt,

wenn als Grundkörper Rangenommen ist, was meistens der Fall ist in der vorliegenden

Arbeit. 34 Die Abb. 2.2 auf S. 20 dient von nun an zur Übersicht, die auf einmal viele kom-

plexen Zusammenhänge umfaßt, die durch eine SVD auf jeder Matrix hervorgerufen wird.

Die Formulierung Gl. (2.22) auf S. 19 wird meistens in Beweisführungen benutzt und

ist relativ ungünstig in unserer Realisierung. Ohne Verlust der Äquivalenz schreiben wir

|{z}

m×n

|{z}

m×n

|{z}

n×n

V∗

|{z}

n×n

,(2.23)

wobei A,U∈Cm×n,Σ∈Rn×nund V∈Cn×n. Die Variation von Gl. (2.22) auf S. 19

zu Gl. (2.23) auf S. 19 hat in unserer Realisierung folgende Vorteile:

1. Die rechnerische Komplexität der in dieser Arbeit benutzten Routinen für die SVD

[Golub und Reinsch, 1970a] [Golub und Reinsch, 1970b] auf SISD-Architektur ist

etwa O(mn2)geschätzt [Golub et al., 1980] [Golub und Van Loan, 1996, pp. 253–

254] [Pan und Hamdi, 1996]. Somit ergibt sich ein niedrigerer Rechenaufwand wenn

n < m.

2. Eine SVD-Routine kann die Matrix Uin situ der Eingabematrix Azurückliefern,

was in den Implementierungen üblich ist.

3. Im Falle einer „schlanken“ Matrix A(m > n), fordert die Matrix Uin Gl. (2.23) auf

S. 19 viel weniger Speicher als in Gl. (2.22) auf S. 19, was bei uns meintens der Fall

ist.

4. Inunseren Matrizen-Eingaberoutinen 35 insogenannter „Zeilendominanter“Program-

miersprache C ist es günstiger, eine „schlanke“ ASCII Matrix mit m > n einzulesen

als eine „Fette“ mit m < n. Ebenfalls läßt sich eine „schlanke“ Matrix im Speicher

einfacher aktualisieren.

Es lohnt sich an dieser Stelle, Gl. (2.22) auf S. 19 und Gl. (2.23) auf S. 19 zu vergleichen

und die Unterschiede aufzulisten, denn wir benutzen hier Gl. (2.23) auf S. 19 während in

33Eugenio Beltrami (1835–1899) [Beltrami, 1873], Camille Jordan (1838–1921), James Joseph Sylvester (1814–

1897), Erhard Schmidt (1876–1959) [Schmidt, 1907a,b] und Hermann Weyl (1885–1955) [Stewart, 1992b].

34[Forsythe et al., 1977] [Dewilde und Deprettere, 1988] [Golub und Van Loan, 1996, pp. 69–74]

35matsrc0/matio.c und matsrc1/matio1.c

KAPITEL 2. GRUNDLAGEN

Cm= span{U}

. &

Cm=R(A)⊕⊥N(A∗)

Im=U1U∗

1+U2U∗

[U1] [U2]

(AA∗–invariante Unterräume)

PR(Ak),N(Ak)=AAD=ADA

PR(A)=U1U∗

1=AA†PN(A∗)=U2U∗

2=I−AA†

=AA(1,3) =I−AA(1,3)

⇓Projektion (r)⇓ ⇓Projektion (m−r)⇓

R(A) = R(AA†) = R(AA∗) = N(A∗) = N(A†) = N(AA†) =

R((A†)∗) = A(Cn) = A(R(A∗)) = N(AA∗) = R(I−AA†) = R⊥(A)

R(AA−) = R(UΣU∗) = R(UV∗)

Cm⊇Spaltenraum >linker Nullraum ⊆Cm

z }| {

R(A) = span{u1,...,ur}z}| {

span{ur+1, . . . , um}=N(A∗)

0U.

(A†)∗,A/R(A∗)↑↓A∗,A†

/R(A)ldim R(A) = dim R(A∗) = r

dim R(A) + dim N(A) = n

0V-

R(A∗) = span{v1,...,vr}

|{z }

span{vr+1,...,vn}=N(A)

| {z }

Cn⊇Zeilenraum ⊥Nullraum ⊆Cn

R(A∗) = R(A†) = R(A†A) = N(A) = N(A†A) = N(A∗A) =

R(A∗A) = A†(Cm) = A†(R(A)) = N((A†)∗) = R(I−A†A) = R⊥(A∗) =

R((A−A)∗)N(A−A) = N(VΣV∗) = N(UV∗)

⇑Projektion (r)⇑ ⇑Projektion (n−r)⇑

PR(A∗)=V1V∗

1=A†A PN(A)=V2V∗

2=I−A†A

PN(Ak),R(Ak)=I−AAD=I−ADA

(A∗A–invariante Unterräume)

[V1] [V2]

In=V1V∗

1+V2V∗

Cn=R(A∗)⊕⊥N(A)

- %

Cn= span{V}

Abbildung 2.2: Singulärwertzerlegung und fundamentale Räume. Die Singulärwertzerlegung A=

UΣV∗, der Fundamentalsatz der linearen Algebra und die generalisierten Inversen. Es sei darauf

geachtet, daß diese Abbildung nach Gl. (2.22) auf S. 19 anstatt Gl. (2.23) auf S. 19 bis auf den Polar-

Faktor UV∗in Gl. (2.38) auf S. 27 und Gl. (2.39) auf S. 27 zu interpretieren ist.

2.3. SINGULÄRWERTZERLEGUNG

den meisten Literaturen und theoretischen Erörterungen Gl. (2.22) auf S. 19 impliziert wird

ohne diese Situation in der Praxis anzusprechen. Nota bena: Abb. 2.2 auf S. 20 entspricht

Gl. (2.22) auf S. 19 bis auf den Polar-Faktor UV∗, der nur für Gl. (2.23) auf S. 19 gilt

wegen unpassender Dimension.

Da Σ„diagonal“ und Vstets n×nist, liegt die Diskrepanz allein in der Anzahl der

Spaltenvektoren in Cmder Matrix Uin Gl. (2.23) auf S. 19. (Siehe Abb. 2.2 auf S. 20.) Die

Matrix Uin Gl. (2.23) auf S. 19 besitzt die gleiche Dimension m×nwie Aund ist generell

nicht-quadratisch. Sie kann also keine unitäre Matrix sein mit

U∗=U−1,(2.24)

sondern eine subunitäre Matrix oder eine partielle Isometrie36mit

U∗=U†,(2.25)

wobei U†die Moore-Penrose-Pseudoinverse der Matrix Uist.

m > n:Ist die Matrix A„groß und schlank“, so erhalten wir „zu wenig“ linke Singulär-

vektoren in Cmin der Matrix Ufür die Erzeugung des ganzen Raumes Cmund linken

Nullraumes N(A∗). Dies ist glücklicherweise ohne weiteres zu umgehen. Bei bedarf

des linken Nullraums N(A∗)einer Matrix A, können wir einfach anstatt A, die Ad-

jungierte A∗zerlegen, denn A∗=VΣU∗. Wir erhalten also den linken Nullraum

der eigentlichen Matrix Aan der Stelle vom „rechten“ Nullraum der Matrix A∗. Dies

gilt gewiss auch für den Raum Cm, falls eine orthonormale erzeugende Menge benö-

tigt wird. Die Aufspannung vom Cmund N(A∗), die im Falle m > n in Gl. (2.23)

auf S. 19 betroffen wird, stellt also kein Problem dar und findet wichtige Anwen-

dungen in dieser Arbeit37. In diesem Fall gilt U∗U=I, denn Ubesitzt immerhin

orthonormale Spalten.

m < n:Ist die Matrix A„klein und dick“, so erhalten wir „zu viele“ linke Singulärvekto-

ren. Wir haben in Σn×nstets mindestens n−mverschwundene Singulärwerte. Die

rechten n−mSpaltenvektoren in Usind redundant fürs die Erzeugung von Cmund

müssen linear abhängig sein von den restlichen mSpalten der Matrix U. In diesem

Fall setzen wir 0an den Stellen von den rechten n−mSpalten für die Orthogona-

lität aller Spaltenvektoren in der Matrix U. Sie müssen also nicht berechnet werden,

denn sie entsprechen den n−mgleicherweise stets verschwundenen Singulärwerten

in Σ.Nota bena: Ukann nun nur als partielle Isometrie oder subunitäre Matrix (mit

Gl. (2.25) auf S. 21) bezeichnet werden, denn sie besitzt einen nicht-trivialen Kern

der Dimension n−m.

36 Eine partielle Isometrie U∈Cm×nis eine Isometrie Cn7→ Cmmit Einschränkung (restriction) vom

Urbild auf den Teilraum R(U∗) = N(U)⊥, d. h., eine Isometrie in Cnmit dem Nullraum ausgeschlossen. Sie

bildet alle Vektoren aus R(U∗), dem orthogonalen Komplement zu N(U),isometrisch in den Raum R(U)ab.

Eine partielle Isometrie darf nicht-quadratisch und sogar rang-diffizient sein. Sie ist eine Verallgemeinerung der

Isometrie. Darüber hinaus ermöglicht die partielle Isometrie, die Polarform der quadratischen Matrizen für nicht-

quadratische Matrizen zu generalisieren. Eine partielle Isometrie besitzt nur die Singulärwerte 1oder 0. [Halmos,

1958, pp. 150–170 ] [Boullion und Odell, 1971, pp. 33–38, Theorem 3] [Ben-Israel und Greville, 1974, pp. 252–

254, Theorem 3]. [Campbell und Meyer, 1979, pp. 71–72, Theorem 4.2.1] [Higham, 1986] [Golub und Van Loan,

1996, pp. 149–151]

37 Die Aufgabe der Erzeugung vom ganzen Raum ist nicht mittels Gram-Schmidt-Orthonormalisierung [Gram,

1883] [Schmidt, 1907a, p. 442] zu erfüllen. Das Gram-Schmidt-Verfahren ist ein Verfahren zur Orthonormalisie-

rung einer vorhandenen Menge der linear unabhängigen Vektoren. Es vervollständigt die „fehlenden“ Basisvekto-

ren nicht. Mit Hilfe der SVD wird jedoch aus einem einzigen Vektor ein vollständiges Erzeugendensystem für den

ganzen Raum erhalten. Sei x∈Cn. Sei UΣV∗=x∗. Dann ist das orthogonale Komplement von span {x}

durch die rechten n−1Spalten der Matrix Vausgespannt. Der Vektor xist als ein komplexes Vielfach in der

ersten Spalte der Matrix Venthalten. Abb. 2.2 auf S. 20 verdeutlicht diese Anwendung.

KAPITEL 2. GRUNDLAGEN

Da SVD eine rang-auflösende Zerlegung [Stewart, 1992a] ist, schreiben wir auch für

eine rang-rMatrix Ain partitionierter Form

Am×n="U1

|{z}

m×r

|{z}

m×(n−r)#Σr×r0

0 0 V∗

1}n×r

V∗

2}n×(n−r)

=U1U2Σr×r0

0 0 V∗

V∗

2(2.26)

oder ausgeschrieben

A= [u1u2...ur|ur+1 ...un]





σ1...

σr













v∗

r+1

v∗







,(2.27)

wobei σidie Singulärwerte, uidie linken Singulärvektoren und vidie rechten Singulär-

vektoren der Matrix Agenannt werden. Ohne Verlust der Generalität werden die von Null

verschiedenen Singulärwerte nach

σ1≥σ2≥ ··· ≥ σr>0(2.28)

sortiert 38. Diese Konvention is bei vielen wichtigen Aussagen über die SVD sowie in ihren

Anwendungen vorteilhaft. Bei Bedarf müssten sie nach dem Aufruf der eigentlichen SVD-

Routine explizit sortiert werden, denn eine Sortierung ist in dem Algorithmus nicht impli-

ziert. Eine geometrische Anschauung der Singulärvektoren uiund vials Basisvektoren,

wenn die Matrix Aals lineare Transformation zu betrachten ist, ist in Abb. 2.3 auf S. 23 aus

[Tomasi, 1999] dargestellt. Mit der Existenz der Zerlegung Gl. (2.22) auf S. 19 sind also

alle generellen Matrizen in Cm×n(m=noder m6=n)„diagonalisierbar“ im Gegensatz

zur Spektralzerlegung, wobei eine Klasse von Defektiven Matrizen vorkommt, die sich nicht

diagonalisieren lassen.

2.3.2 Vier fundamentale Teilräume

Mit fundamentalen Teilräumen [Strang, 1993] einer linearen Abbildung meinen wir

R(A) = span {u1,...,ur} ⊥ span {ur+1,...,un}=N(A∗),(2.29)

R(A∗) = span {v1,...,vr} ⊥ span {vr+1,...,vn}=N(A),(2.30)

die explizit durch die Singulärvektoren der SVD einer Matrix Aorthonormal aufgespannt

werden. Wir nennen R(A)den Bildraum oder Spaltenraum der Matrix A;N(A∗)den lin-

ken Nullraum der Matrix A, welcher orthogonal und komplementär zu R(A)in Cmsteht;

N(A)den Nullraum der Matrix A; und R(A∗)den Zeilenraum der Matrix A, welcher

orthogonal und komplementär zu N(A)in Cnsteht. In Abb. 2.2 auf S. 20 ist eine Anschau-

ung bildlich dargestellt über die wichtigsten Zusammenhänge zwischen den fundamentalen

38Wir sortieren die Singulärwerte zusammen mit den Singulärvektoren in der Praxis nur bei Bedarf mit einem

modifizierten Quick-Sort in svdsort.c.

2.3. SINGULÄRWERTZERLEGUNG

2 2

v’

2 2

1 1

2 2

u’ σ

1 1

u’

ξ1

η1

Abbildung 2.3: Geometrische Anschauung der Singulärwertzerlegung. SVD ist eine Auswahl zweier

Basen einer linearen Abbildung von sowohl {v1,...,vn}in der Domäne, als auch {u1,...,um}in

der Kodomäne, so daß sich die Abbildung zur bloßen nicht-negativen, reellen Skalierung reduziert.

Die Skalierung wird durch das Singulärspektrum {σ1,...,σn}alleine beschrieben. Das Singulär-

spektrum charakterisiert vollständig die Gestalt der Abbildung. Zwei verschiedene lineare Abbildun-

gen unterscheiden sich nur durch das Singulärspektrum (cum grano salis). (Nutzung der Zeichnung

mit freundlicher Genehmigung von Herrn Carlo Tomasi, Robotics Laboratory, Department of Com-

puter Science, Stanford University, 6. März 2000) [Tomasi, 1999]

KAPITEL 2. GRUNDLAGEN

Teilräumen [Strang, 1993], Projektoren,Moore-Penrose-Inversen 39 und den orthogonalen

Raumzerlegungen, die bei jeder Matrix Abzw. linearer Abbildung apriorisch zu Stande

kommt und durch eine Singulärwertzerlegung dargeboten sind. Worin liegt die „Fundamen-

talität“? Dies hat G. Strang in [Strang, 1993] nicht erklärt. Die Fundamentalität liege in der

Apriorität 40 vierer Teilräume. Nach I. Kant sei der Wissenschaftliche Prozeß die Synthese

neuer Erkenntnisse a priori, d. h., Wiederentdeckung oder Schöpfung der erfahrungsunab-

hängigen Existenz. Und diese Apriorität ist dieselbe Apriorität der Singulärwertdarstellung

einer linearen Abbildung, denn in den Faktoren ist nichts anderes als explizite Aufspannung

aller vier Räume. Die Singulärwerte erzählen bloß etwas über die Ausdehnung der Teilräu-

me und die Gestalt der linearen Abbildung Cf. Abb. 2.3 auf S. 23. Die Existenz der SVD

identifiziert sich also mit der vierer fundamentaler Teilräume einer linearen Abbildung.

Schränken wir uns auf den Grundkörper einer linearen Abbildung auf Cein, so identifi-

ziert sich die SVD mit jeder linearen Abbildung. Dies sei die Fundamentalität der SVD 41.

Zum Argument hilft uns ggf. die Eindeutigkeit der SVD einer linearen Abbildung. In der

Literatur herrscht ausschließlich

Die Singulärwertzerlegung ist eindeutig, wenn ...

Wir sagen aber

Die Singulärwertzerlegung ist eindeutig.

Selbstverständlich ist dies in einer anderen Pragmatik ausgesagt. Wir sprechen nämlich

nicht von den einzelnen Singulärvektoren, sondern den Singulärräumen.

Definition 2.3.1 (Singulärraum). Ein Raum heißt linker bzw. rechter Singulärraum, wenn

er durch alle linken bzw. rechten Singulärvektoren zu demselben Singulärwerte aufgespannt

ist.

Die Eindeutigkeit der SVD ist also eine unmittelbare Folgerung, wenn die Granularität

der Pragmatik von Singulärvektoren auf Singulärräume untergesetzt ist. Die übliche Erklä-

rung mit der Vorzeichenänderungsfreiheit der Singulärvektoren und Drehung einer Basis

würde die wichtige Eindeutigkeit der SVD verdecken. Unsere Definition eines Singulär-

raumesist eigentlich nichts Neues, sondern steht in Parallelität zu der von einem Eigenraum.

Cf. Abb. 2.2 auf S. 20. Bei einem Eigenwertproblem suchen wir nicht die einzelnen Eigen-

vektoren, sondern die Eigenräume. Und dies hat eine direkte Konsequenz in numerischer

Stabilität der meisten Algorithmen 42. Die Dimension des Singulärraums ist die Vielfachheit

des assoziierten Singulärwertes. Unter dem Aufspannen der Räume Cmund Cndurch alle

linken und rechten Singulärvektoren verstehen wir jetzt die direkte Summe der Singulärräu-

me. Das Aufspannen durch Singulärvektoren ist nicht eindeutig, aber die direkte Summation

von den Singulärräumen ist eindeutig.

Der obere Block von Abb. 2.2 auf S. 20 ist die linke Matrix U∈Cm×m, der untere

Block die rechte Matrix V∈Cn×nder SVD einer Matrix A∈Cm×nnach Gl. (2.22)

39[Lawson und Hanson, 1974, pp. 237–239] [Kuhnert, 1976, pp. 18–21][Campbell und Meyer, 1979, p. 12,

Theorem 1.2.2] [Ipsen und Meyer, 1995] [Meyer, 2000, pp. 424–428]

40im Kantschen Sinne [Kant, 1781]

41Dies ist bei der Spektralzerlegung nicht der Fall, denn sie ist wegen der defektiven bzw. nicht-diagonalisier-

baren Matrizen in diesem Kontext „unvollständig“.

42Die Studierenden würden sich sonst überraschen, wenn sie eines Tages in der Numerik zusehen müssen, wie

ein Eigenvektor zu tanzen anfängt, während sich zwei Eigenwerte zusammen treffen.

2.3. SINGULÄRWERTZERLEGUNG

auf S. 19. Die Spaltenvektoren der Matrizen Uund Vspannen jeweils den Raum Cmund

Cnorthonormal auf. Die Räume Cmund Cnwerden jeweils bei Existenz jeder Matrix

Aapriorisch in zwei orthogonal komplementäre Teilräume durch direkte Summe zerlegt.

Parallel zu solcher werden die beiden Identitäten, Imund In, jeweils in zwei komplementäre

Orthoprojektoren durch die Matrizenaddition zerlegt.

Die beiden Zerlegungen führen insgesamt zu vier fundamentalen Teilräumen und ent-

sprechenden Orthoprojektoren. Es sei eine vertikale Linie in der Mitte der Abb. 2.2 auf

S. 20 vorgestellt, die sowohl konkret die Matrizen Uund Vpartitioniert als auch abstrakt

die Räume Cmund Cnzerlegt. Die Position der vertikalen Linie wird durch den numeri-

schen Rang der Matrix Abestimmt, wobei der numerische Rang der Matrix Abereits nach

Berechnung der SVD aus der Matrix Σ, d. i., den Singulärwerten σi, abzulesen ist [Rust,

1998]. Ist die Matrix Avollrangig, so verschwindet die rechte Seite des Diagramms, das

heißt, schrumpfen die Nullräume N(A∗)und N(A)in die Null-Vektoren 0mund 0n. Ist

die Matrix Agleich 0, so verschwindet die linke Seite des Diagrams, oder schrumpfen die

Bildräume zu Nullen.

Wir haben also nach der SVD Gl. (2.22) auf S. 19 vier rechteckige Matrizen, U1,U2,

V1und V2, die keine unitäre Matrizen mehr sind, sondern Isometrien 43 oder partielle

Isometrien bzw. subunitäre Matrizen 44. Diese spannen wiederum orthonormal die jeweils

vier fundamentale Räume R(A),N(A∗),R(A∗)und N(A)auf, die stets mit jeder Matrix

Akoexistieren und sie charakterisieren.

2.3.3 Eigenschaften der Singulärwertzerlegung

Zu Abb. 2.2 auf S. 20 und Abb. 2.1 auf S. 7 fassen wir kompakt einige wichtige Eigen-

schaften der Singulärwertzerlegung und ihre Zusammenhänge mit Projektoren und Moore-

Penrose-Inverse zussamen.

•Schmidt-Eckart-Young-MirskyApproximationssatz 45:SeienSingulärvektorenui,vi

und Singulärwerte σ1≥ ··· ≥ σmin(m,n)von A∈Cm×n. Sei Ar=Pr

i=1 σiuiv∗

so gilt

kAr−AkU= inf

rank B≤rkB−AkU(2.31)

43[Campbell und Meyer, 1979, p. 71, Proposition 4.2.1]

44[Ben-Israel und Greville, 1974, p. 254] [Campbell und Meyer, 1979, p. 72, Theorem 4.2.1]

45[Schmidt, 1907a,b] [Eckart und Young, 1936] [Mirsky, 1960] Seien die Singulärwerte sotiert nach σ1≥σ2≥

···σr>0, dann definiert

ν2

k(A) =

i=1

σ2

eine unitär invariante Norm für jede k= 1,...,r [Meyer, 2000, p. 425]. Spezielle Fälle der νk(A)sind die

vektornorm-induzierte Matrixnorm, die Spektralnorm [Horn und Johnson, 1985, pp. 290-320, §5.6] gleich dem

größten Singulärwert

kAk2= sup

x6=0

kAxk2

kxk2

= sup

kxk2=1

kAxk2=σ1,

und die Frobeniusnorm oder Hilbert-Schmidt-Norm

kAkF= (tr A∗A)1/2= (tr AA∗)1/2= (σ2

1+···+σ2

2)1/2.

Für Definition und ausführliche Diskussion über verschiedene Matrixnormen ist [Horn und Johnson, 1985§5.6,

pp. 290-320] sehr zu empfehlen. Siehe auch [Ipsen und Meyer, 1995].

KAPITEL 2. GRUNDLAGEN

Singulärspektrum chefs.pgm:378 ×279

Spektral-Residuum: σ100+1

Residuenenergie:

min(m,n)

i=r+1

σ2

279

i=101

σ2

org. 001 002 003 004

005 006 007 008 009

010 011 012 013 014

020 030 040 060 100

Abbildung 2.4: Singulärspektrum und Teilraummodellierung: Beispiel Rathaus. Dies ist eine Veran-

schaulichung des Approximationssatzes Gl. (2.31) auf S. 25. Oben links ist die originale Szene, eine

279×378 vollrangige Matrix. Die Singulärwerte, σi∈[36010.715,1.7005×10−12], i = 1,...,279,

sind sortiert und logarithmisch gezeichnet (matstat.c -t0). Die Gesamtenergie der Szene ist

P279

1σ2

i= 1.60974 ×109. Die Approximationen bis Rang 100 sind nach Gl. (2.31) auf S. 25 in

der zunehmenden Reihenfolge dargestellt (matstat.c -t). Die Residuenenergie am Rang 100 ist

P279

101 σ2

i= 3×106(0.1865%) nach Gl. (2.32) auf S. 27. Das Spektral-Residuum ist σ101 = 257.318

nach Gl. (2.33) auf S. 27. Nach der Überlegung über die Vollrang-Faktorisierung enthält das Bild

unten rechts am Rang 100 nur ca. 9.5% soviel unabhängige Werte wie im originalen Bild.

2.3. SINGULÄRWERTZERLEGUNG

Am Beispiel einer Kamera-Szene wird der Approximationssatz in Abb. 2.4 auf S. 26

veranschaulicht.

•Das Hilbert-Schmidt bzw. Frobenius Residuum:

kAr−Ak2

min(m,n)

i=r+1

σ2

i.(2.32)

Das Spektralresiduum (von induzierter 2-Norm):

kAr−Ak2

2=σ2

r+1.(2.33)

•Für A∈Cm×ngilt (A†)∗= (A∗)†und für Orthoprojektor PR(A)gilt

P†

R(A)=PR(A)(2.34)

•Sei m=nund ∠(R(A),N(A)), [Ipsen und Meyer, 1995, (2.7)]

cos θ=kPR(A)PN(A)k2=kPN(A)PR(A)k2(2.35)

•Im generellen, besitzt ein Projektor P∈Cneine Bild-Kern-Zerlegung [Koecher,

1997, p. 51] [Meyer, 2000, p. 394] mit Index 1

R(P)⊕N(P) = Cn.(2.36)

Der minimale Winkel θzwischen dem Bild und dem Kern des Projektors Pist gege-

ben durch [Ipsen und Meyer, 1995, (2.7)]

sin θ= 1/kPk2.(2.37)

•Falls m=n,R(A)und N(A)sind genau dann komplementäre Teilräume, wenn

Ind(A) = 1,d.h.,wenndasPotenzierenderMatrixAdie Dimensionen vomBildraum

oder Kern nicht ändert. Dies heißt wiederum wenn das Bild nicht schrumpft und der

Kern nicht wächst, denn mit dem Potenzieren einer Matrix Akann der Bildraum nur

schumpfen und der Kern nur wachsen. Der Bildraum und der Kern der Matrix Asind

sogar einander orthogonal wenn Aweiterhin eine EP-Matrix ist.

•Polar-Zerlegung oder Polarform ist die Faktorisierung einer biliebigen Matrix (auch

m6=n) auf eine partielle Isometrie und eine selbstadjungierte positiv semidefinite

Matrix. Die folgenden Polarform via SVD sind jeweils eindeutig. Sei A=UΣV∗

die SVD nach Gl. (2.23) auf S. 19, dann

A=UΣV∗=UInΣV∗= (UV∗)

|{z }

m×n

(VΣV∗)

|{z }

n×n

=QH1,(2.38)

A=UΣV∗=UΣInV∗= (UΣU∗)

|{z }

m×m

(UV∗)

|{z }

m×n

=H2Q,(2.39)

wobei selbstadjungierte, positiv semidefinite H1und H2jeweils eindeutig sind. Ist

Avollrangig, so ist Uauch eindeutig und H1,H2positive definite. [Ben-Israel und

Greville, 1974, p. 255, Theorem 5] [Campbell und Meyer, 1979, p.73, Theorem 4.2.2]

[Higham, 1986] [Shoemake und Duff, 1992] [Golub und Van Loan, 1996]

KAPITEL 2. GRUNDLAGEN

2.4 Meßdaten und Singulärwertzerlegung

Die Singulärwertzerlegung einer Matrix A∈Cm×nist meistens betrachtet als Zerlegung

einer linearen Transformation Cn7→ Cmauf

1. eine Isometrie 46 (bzw. Basiswechsel durch die rechten Singulärvektoren

in V) im Quellraum Cn,

2. eine reine Skalierung durch die Singulärwerte in Σ,

3. und eine weitere Isometrie (bzw. Basiswechsel durch die linken Singulär-

vektoren in U) im Zielraum Cm,

wie in Abb. 2.3 auf S. 23 geometrisch veranschaulicht wird. Wir sehen somit die Abbildung

A:Cn7→ Cmals Produkt dreier verketetteter Teilabbildungen V∗,Σund Uan. Awird

also im Zusammenhang der Gleichung Ax =b,x∈Cn,b∈Cmgedacht.

Diese Interpretation der Faktorisierung ist jedoch unpassend, falls eine Matrix AMeß-

daten erfasst. Wir stellen uns daher die Frage, 47

Wie sind U,Σund Vzu interpretieren, wenn die zu zerlegende Matrix A

Meßdaten enthält?

An dieser Stelle müssen wir noch einmal die Strukturierung der Meßdaten in eine Matrix

Afestlegen und solche charakterisieren. Bei jeder multivariaten Messung mit nVariablen

erhalten wir einen n-Vektor. Dieser n-Vektor werde als eine Zeile in die Datenmatrix A

hingeschrieben. Mit mwiederholten Messungen ergibt sich also eine m×nDatenmatrix 48







a11 a12 ··· a1n

a21 a22 ··· a2n

a31 a32 ··· a3n

a41 a42 ··· a4n

a51 a52 ··· a5n

a61 a62 ··· a6n

am1am2··· amn





m×n













.(2.40)

Unsere Datenmatrix Ain Cm×n„wächst“ also mit zunehmender Anzahl der Messungen

nach unten. Die auf diese Weise zusammengefaßten Daten in der Matrix Alassen sich

verschieden interpretieren:

1. Mehrkanalmessungen mit nals Anzahl der Meßkanäle (Sensoren) und mals Anzahl

der Messungen. Jede Spalte kann als eine diskrete Zeitreihe gedacht werden. Der

46Zur Isometrie gehören z. B. Drehungen und Spiegelungen. Verschiebungen und weitere topologische Opera-

tionen werden hier nicht berücksichtigt, da wir uns nur auf lineare Abbildungen konzentrieren.

47Siehe Seite 40 für eine Rekapitulation unserer Antwort.

48In der Statistik werden oft die Symbole pund nfür jeweils Anzahl der Variablen und Messungen benutzt,

wobei die Matrix Ap×nmit zunehmender Anzahl der Messungen nach rechts zu wachsen ist. Diese Konvention

ist jedoch unpraktisch in unserer Implementierungen in C, welche ein Array von „oben“ nach „unten“ zeilenweise

speichert (auch zeilendominant genannt), während Fortran von „links“ nach „rechts“ spaltenweise speichert (auch

spaltendominant genannt). Weitere Möglichkeit der Konfiguration der Datenmatrix für die SVD der periodischen

Signale ist u. a. in [Bhattacharya und Kanjilal, 1999] untersucht.

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

Index iist also der Zeitpunkt und jder Index eines bestimmten Sensors. Jede Zeile

kann als ein Merkmalsvektor gedacht werden.

2. Messungen der geometrischen Koordinaten mit Dimension des Raumes nund der

Anzahl der gemessenen Punkte m. Jede Zeile stellt einen Punkt im n-Raum dar. Der

Index iidentifiziert also jeden einzelnen Punkt a1,...,amund jist der Koeffizient

bezüglich des j-ten Basisvektors. aij ist die j-te Koordinate des i-ten Punktes im

Bezug auf die im Kontext definierte Basis.

3. DieZeilenvektorenai(i= 1,...,m)seien Ereignisse desZufallsvektors [p1p2. . . pn]

aus den Zufallsvariablen 49 p1,...,pn. Jede Spalte der Matrix Aist somit eine Reali-

sierung einer bestimmten Zufallsvariablen pj(j= 1,...,n)von mBeobachtungen.

Ein stochastischer Prozeß läßt sich in dieser Konfiguration in Matrixform untersu-

chen. 50

4. Ein stochastisches Signal x(t)läßt sich in der Form der Gl. (2.40) auf S. 28 darstellen,

sobald eine Basis {φ1(t),...,φn(t)}für das Signal festgelegt ist. In diesem Falle, ist

ndie Dimension des Signalraumes 51,mdie Anzahl der wiederholten Beobachtungen

des stochastischen Signals. Der Zufallsprozeß x(t)kann also als ein Zufallspunkt in

einem n-dimensionalen Raum gedacht werden. [Lathi, 1968, Chap. 3, pp. 212–214]

2.4.1 Der Kondensator ist ein Projektor

Sei Datenmatrix A∈Cm×naus Gl. (2.40) auf S. 28. Es ist häufig erforderlich, die Mit-

telwerte ˆµj= 1/m Piaij jeder Spalte jder Matrix Abzw. den Schwerpunkt b

µA=

[ˆµ1,...,ˆµn]52 aus der Matrix Azu subtrahieren, d. h., den Schwerpunkt b

µAder Daten-

wolke herunter auf 0zu versetzen. Diese affine Verschiebung der Daten bezeichnen wir als

das Zentrieren der Datenmenge.

Definition 2.4.1 (Zentrierung). Ein Vektor x= [ x1x2···xm]∈Cmheißt zentriert,

wenn Pxi= 0. Eine Datenmatrix A∈Cm×nin der Form von Gl. (2.40) auf S. 28 heißt

spalten-zentriert, wenn

m

i=1

ai1

i=1

ai2···

i=1

ain =01×n.

49Abbildung des Musterraumes auf Zahlen in Roder C.

50Für die Definition eines stochastischen Prozesses x(ζ, t)siehe [Lathi, 1968, Chap 3, pp. 158–230]. Eine an-

schauliche Abbildung befindet sich in [Lathi, 1968, Fig. 3-1, p. 160]. Ergodizität des Prozesses wird angenommen,

d. h., die Scharstatistik (Ensamble-Statistik) sei gleich der Zeit-Statistik. Das heißt wiederum, daß jede Musterfunk-

tion (sample function) oder Realisierung des Prozesses repräsentativ sei für das ganze Ensemble des Zufallspro-

zesses und daher die vollständige Charakterisierung eines Prozesses. Eine Spalte der Matrix Ain Gl. (2.40) auf

S. 28 kann also einen Prozeß darstellen. Die Datenmatrix Akann somit zugleich nProzesse x1(t),...,xn(t)

abtasten. Die Ergodizität eines Prozesses impliziert die Stationarität, d. h., Die Statistiken aller Ordnungen sind

invariant gegenüber Zeitverschiebung [Lathi, 1968, p. 176].

51Wir berücksichtigen hier nur Signale endlicher Dimension.

52Dies ist ein unverzerrter oder erwartungstreuer (unbiased) und konsistenter Schätzmittelwert. Ein Schätzer

θfür die Zufallsvariable θheißt erwartungstreu (unbiased), wenn E[ˆ

θ] = θ, sonst heißt er verzerrt oder nicht

erwartungstreu (baised). Die Schätung heißt konsistent, wenn limm→∞ Var[ˆ

θ] = 0, sonst heißt sie inkonsistent.

Siehe z. B. [Schwartz und Shaw, 1975, pp. 91–94]. Der Zufallsvektor b

µAder Schätzmittelwerte ˆµjhat Erwar-

tungswerte E[b

µA] = µAmit limm→∞ Var[b

µA] = limm→∞ σ2

µA/m =0. Der Schätzer ist normalverteilt

mit N(µA,σ2

µA/m).

KAPITEL 2. GRUNDLAGEN

und zeilen-zentriert, wenn

n

j=1

a1j

j=1

a2j···

j=1

amj T

=0m×1.

Da wir die Datenmatrix spaltenweise manipulieren, meinen wir spalten-zentriert, wenn nur

zentriert gesagt wird. (Cf. matstat.c -pz.)

Beobachtung 2.4.2 (Warum Zentrieren?). Die Zentrierung der Daten ist oft der erste Schritt

zur Datenverarbeitung. Warum? Da eine plausible Erklärung meines erachtens in der Litera-

tur nicht gegeben wird, wollen wir hier argumentieren, daß es sich um eine „Kurzsichtigkeit

am Nullvektor“ handelt, aus jeweils algebraischem und numerischem Aspekt.

•In einem linearen Raum sind alle Vektoren gleichberechtigt bis auf den Nullvektor.

Er zeichnet sich von allen anderen Vektoren dadurch aus, daß ihn alle linearen Abbil-

dungen fest lassen müssen. Die Auszeichnung des Nullvektors ist eine direkte Kon-

sequenz aus den Axiomen eines Vektorraumes und des zugrunde liegenden Körpers

53 seit Hermann Günther Grassmann (1809–1877) [Graßmann, 1894, 1896] [Gray,

1980, 1994] und Giuseppe Peano (1858–1932) 54. In einem linearen Raum mit nicht-

ausgeartetem Skalarprodukt ist der Nullvektor der einzige isotropische Vektor (das

Radikal) [Kaplansky, 1974, p. 7], der zu allen anderen Vektoren orthogonal ist. Wir

versetzen den Schwerpunkt einer Datenwolke zum Nullvektor, weil wir die Daten

dort am besten „anschauen“ können. Das Verhalten aller linearen Abbildungen ist am

Nullvektor am schärfsten aufgelöst, denn alle linearen Abbildungen drehen sich ohne

Ausnahme nur um ihn herum. In anderen Worten, unsere Augen sind dort am Null-

vektor befestigt, während wir zur Datenanalyse linear-algebraische Werkzeuge ver-

wenden. Eine de facto 2-dimensionale Dynamik mitten unter den Daten sehen wir, aus

großer Entfernung, mittels linear-algebraischen Begriffs als eine rang-3Matrix. Ver-

setzen wir den Schwerpunkt zum Nullvektor, so wird das Wesen der 2-dimensionalen

Dynamik in der Form einer rang-2Datenmatrix zum Vorschein gebracht. (v. et. Bei-

spiel 2.4.16 auf Seite 48.) Dasselbe kommt bei einer Eigenanalyse und weiteren linea-

ren Methoden der Datenanalyse vor. Dies war eine Erklärung aus dem algebraischen

Aspekt.

•Auch in der Numerik spielt das Zentrieren der zu verarbeitenden Daten eine nicht

zu ignorierende Rolle. Rechnerisch werden die reellen Zahlen durch das Fließkom-

ma-Format [Goldberg, 1991] dargestellt. Dennoch besteht zwischen den Reellen und

ihrer maschienellen Approximierung immenser Unterschied:

1. Die Menge aller darstellbaren Zahlen eines bestimmten Fließkomma-

Formates ist endlich,abzählbar und besitzt keine Dichtheit, während

die der Reellen unendlich,überzählbar und dicht ist.

2. Die endlich verfügbaren Fließkomma-Zahlen bestimmter Länge sind

inhomogen verteilt, so daß der eine Bereich der Reellen am Null fei-

ner und der andere grober aufgelöst wird, während die gesamte Dyna-

mik aller darstellbaren Zahlen hinreichend groß beibehalten werden

kann.

53Der Begriff Körper war zu der Zeit noch nicht etabliert.

54Giuseppe Peano, Calcolo geometrico secondo l’Ausdehnungslehre di H. Grassmann preceduto dalle opera-

zioni della logica deduttiva, 1888.

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

Die Eigenschaften der Fließkomma-Darstellung haben in der Praxis negative Kon-

sequenzen, die meines erachtens oft übersehen seien. Zum Beispiel, die Menge der

Zahlen

M={1,2,3,4,5}

wäre überhaupt nicht darstellbar, wenn die Menge Maffin durch einen großen Wert

verschoben wird. Verschieben wir experimentell die Werte um 1×1020 unter IEEE-

754 Double-Precision [IEEE, 1985], so erhalten wir genau die Menge

M0={1 + 1020,2 + 1020,3 + 1020,4 + 1020,5 + 1020}

={1×1020,1×1020,1×1020,1×1020,1×1020}.

Die eigentliche Schar-Dynamik der Daten ist gänzlich verschwunden bzw. nicht auf-

gelöst 55. Durch die Brille des Fließkomma-Formates sehen wir die o. g. Menge der

verschiedenen Zahlen als eine einzige Zahl aus einer großen Entfernung. In anderen

Worten, auch rechnerisch „sind unsere Augen fest mit dem Nullvektor gebunden“,

das heißt, nur dort können wir die Zahlen in Fließkomma-Darstellung am schärfsten

„sehen“. 

Durch das Zentrieren der Datenmatrix A∈Cm×nergeben sich mittelwertfreie Zeitreihe

(zero-mean time series) aller Realisierungen 56 (Spalten der Datenmatrix) in einer zentrier-

ten Matrix ˜

A∈Cm×n. Das Zentrieren ist in Cnkeine lineare Abbildung sondern eine

Affine. Dennoch werden wir zeigen, daß sich diese affine Abbildung in Cmals ein linearer

Operator darstellen läßt.

Sei m×1Vektor











m×1

dann ist der Schwerpunktvektor der Matrix A

µA=1

mm

i=1

ai1

i=1

ai2···

i=1

ain 1×n

m1∗A.(2.41)

55Bei den Fließkomma-Zahlen, gilt

x+ 1 = x

auch für eine überraschend kleine Zahl wie x= 17000000 in IEEE-754-Single-Precision [IEEE, 1985]. Dies läßt

sich durch das einfache Programm float.c verifizieren. Solches Verhalten der Fließkomma-Zahlen ist „legal“

und ist generell nicht als Exception [Goldberg, 1991] aufgeworfen. Das bedeutet, die dadurch verursachten Feh-

ler sind extrem schwierig zu lokalisieren, zu erheben, oder überhaupt merken zu können. (Siehe auch [Edelman,

1994].) Die o. a. Eigenschaften der Fließkomma-Zahlen fordern zusätzliche Aufmerksamkeit in den numerischen

Verfahren, auch wenn die Daten bereits zentriert worden sind. Bei einer unbekannten Schar-Dynamik der Einga-

bedaten ist daher eine lineare Skalierung unentbehrlich vorzuprogrammieren, besonders wenn eine Zentrierung

der Daten wegen Verlust der Linearität nicht erlaubt ist. Diese Anforderung für die Korrektheit hat disher zu we-

nig Aufmerksamkeit gewonnen. Die Datei basis33.c zur Vervollständigung orthonormaler Basis demonstriert

übrigens deutlich, wozu eine indifferente Mentalität diesbezüglich führen kann.

56Instanzen aus einem Ensembel eines Stochastischen Prozesses.

KAPITEL 2. GRUNDLAGEN

Die zentrierte Matrix ist

A=A−1b

µA=A−1

m1 1∗A=Im−1

m1 1∗A=ZmA,(2.42)

wobei 1b

µAvon Rang 1und die zentrierte Matrix ˜

Aeine Rang-1-Abwandlung der Daten-

matrix Aist. Diese Rang-1-Abwandlung ist zwar nicht-linear in Cn, läßt sich jedoch durch

einen linearen Operator in Cmdarstallen.

Definition 2.4.3 (Zentrierender Operator). Die lineare Abbildung Zm∈Cm×m

Zm=I−1

m11∗=1

m





m−1−1··· −1

−1m−1··· −1

.....

−1−1−1m−1





m×m

(2.43)

heißt zentrierender Operator bzw. zentrierende Matrix für einen Vektor x∈Cmoder ei-

ne Matrix in A∈Cm×n. Die Matrix ˜

A=ZmAist also spalten-zentriert. Eine zeilen-

zentrierte Matrix ist ˜

A0=AZn. Wir bezeichnen ihn einfach mit Z, wenn die Dimension

aus dem Kontext im klaren sein soll. Mit ˜

Abezeichnen wir eine spalten-zentrierte m×n

Datenmatrix Amit ˜

A=ZmA.

Beispiel 2.4.4. Die zentrierende Matrix Z10 in C10 ist

Z10 =1

10 





9−1··· −1

−19··· −1

.....

−1−1−1 9





.

Da das Zentrieren die Idempotenz-Forderung erfüllen muß, wie bei der Entfernung vom

DC-Anteil in einem elektrischen Signal durch die idealen Kondensatoren der Fall ist, eva-

luieren wir Z2

mdes zentrierenden Operators Zm.

m= (Im−1

m1 1∗)(Im−1

m1 1∗)

=Im−2

m1 1∗+1

m2(1 1∗)2

=Im−2

m1 1∗+1

m2(m1 1∗)

=Im−1

m1 1∗

=Im−uu∗(u=1/√m, kuk2= 1)

=Zm.(2.44)

Zmist also in der Tat idempotent und gewiss symmetrisch, ergo ein Orthoprojektor. Da

Zmein Projektor ist, muß I−Zm= (1/m)1 1∗der komplementäre Projektor sein. Da

das Tensor-Produkt [1 1∗]vom Rang 1ist, muß rank(Zm) = m−1.Zmist also ein

Orthoprojektor auf den (m−1)-dimensionalen Eigenraum mit dem Eigenwert 1:

R(Zm) = N(I−Zm) = N(1

m1 1∗) = span {1}⊥,(2.45)

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

entlang des 1-dimensionalen Kernes bzw. Eigenraumes vom Eigenwert 0:

N(Zm) = R(I−Zm) = span {1}.(2.46)

Der 1-dimensionale Teilraum span {1m}von Cndarf als der DC-Teilraum bzw. Teilraum

desGleichstromsinterpretiertwerden,undder(m−1)-dimensionaleTeilraum span {1m}⊥

der AC-Teilraum bzw. Teilraum des Wechselstroms. Da Zmsymmetrisch und positiv se-

midefinit ist und die Eigenwerte λi(Zm)∈ {0,1}, sind die Mengen der Eigenwerte und

Singulärwerte identisch.

Wir fassen die Eigenschaften eines zentrierenden Operators Zmim folgenden Korollar

zusammen.

Korollar 2.4.5 (Zentrierender Projektor). Sei Zmein zentrierender Operator in Cm,

dann

1. Z2

m=Zm=Z†

m=Z∗

mist positive semidefinit,

2. rank Zm= tr Zm=m−1,

3. N(Zm) = R(Im−Zm) = span {1m},

4. Eigenwerte von Zm:{1,1,1,...,1,0},

5. Singulärwerte von Zm:{1,1,1,...,1,0},

6. Spektralnorm kZmk2= 1.

Andererseits ist der komplementäre Projektor I−Zm= (1/m)1 1∗als eine Projektion

auf den 1-dimensionalen „DC-Teilraum“ anzusehen. Desweiteren, wenn Anur Zeilenvek-

toren enthält, die auf einem affinen Teilraum von Cnmit Dimension kleiner als nliegen,

wird das Zentrieren der Matrix Aden Rang um 1reduzieren, d. h.,

rank ˜

A= rank A−1.(2.47)

Dies impliziert, daß eine vollrangige Datenmatrix Aeine reguläre Kovarianzmatrix CA

(§ 2.4.2) nicht gewährleistet.

Da der zentrierende Orthoprojektor Zmeine einfache Form Gl. (2.43) auf S. 32 besitzt,

kann er die Singulärwertzerlegung in einer geschlossenen Form annehmen. Der Orthopro-

jektor Zmbesitzt m−1-fach den Singuärwert von 1und einfach den Singulärwert von

0. Die beiden Singulärräume sind nichts anderes als bloß der (m−1)-dimensionale AC-

Teilraum, R(Zm) = span{1m}⊥, und der 1-dimensionale DC-Teilraum bzw. der Kern

Ker Zm= span{1m}.

Bei der Auswahl einer Basis für das orthogonale Komplement vom DC-Teilraum span{1m}

haben wir zwar eine große Freiheit, sie kann aber durch eine Householder-Spiegelung vom

Vektor 1mauf eine Vielfachheit des Vektors e1bestimmt werden. Diese Basis ergibt zu-

sammen mit dem Vektor 1m/√meine orthogonale und zugleich symmetrische Matrix für

die linke und die rechte Singulärmatrizen Uund V. Das ist, Uund Vkann als dersel-

be Orthoreflektor ausgewählt werden, der den Vektor 1/√m1 1 ··· 1zu e1=

1 0 ··· 0spiegelt. Der zentrierende Projektor Zmkann also in die folgenden Or-

thoreflektoren in geschlossener Form zerlegt werden. Cf. § 2.1 ab S. 6, § 2.1.6 ab S. 11 und

gmat.c -Z.

KAPITEL 2. GRUNDLAGEN

Bemerkung 2.4.6 (SVD eines zentrierenden Projektors). Sei Zmein zentrierender Operator

in Cm,m > 1, dann ist (Cf. gmat.c -Z und -o)

U=V=R=1

√m







11 1··· 1

11−m−√m

1+√m

1+√m··· 1

1+√m

1−m−√m

1+√m··· 1

1+√m

.....

1+√m

1+√m··· 1−m−√m

1+√m







und

Σ=





0 0 ··· 0

0 1 ··· 0

.....

0 0 ··· 1





(2.48)

eine Singulärwertzerlegung Zm=UΣV∗=RΣR∗. Diese geschlossene Form ist zu-

gleich die Spektralzerlegung von Zm.

Bemerkung 2.4.7 (SVD eines zentrierenden Projektors). Die im Korollar 2.4.6 ausgewählte

Form der SVD eines zentrierenden Projektors erweist nicht nur den Vorteil der Symmetrie

und einer geschlossenen Form, die die numerische Genauigkeit erhöht und den Rechenauf-

wand stark reduziert, sondern ermöglicht auch eine anschauliche Interpretation vom zen-

trierenden Projektor Zm. Die diagonale Matrix Σ=Pspan{e1}⊥ist in der Tat ein Or-

thoprojektor, der die eigentliche Aufgabe der „DC-Filterung“ ausführt — allerdings auf

die kanonische Form aller Projektoren gleicher Art versetzt, d. i., entlang der Richtung

e1=10··· 0auf das orthogonale Komplement span{e1}⊥. Der rechte Ortho-

reflektor R∗=Rist dafür zuständig, die DC-Anteile des Signals im DC-Teilraum auf den

Teilraum span{e1}hin zu spiegeln, wo gerade der Kern des Projektors Σ=Pspan{e1}⊥

ist. Da sich alle DC-Anteile nun im Kern des Projektors befinden, werden sie durch die Pro-

jektion nulliert. Übrig bleiben nun bloß die AC-Antile des Signals. Sie werden durch eine

nochmalige Anwendung des Orthoreflektors Ran der linken Seite zurück gespiegelt. Das

Gesamt-Produkt Zm=RΣR kann als ein orthogonaler Raum-Zerleger mit

Cm=DC-Teilraum ⊕⊥AC-Teilraum

=R(Im−Zm)⊕⊥R(Zm)(2.49)

= span{1m}⊕⊥span{1m}⊥

angesehen werden. Cf. Abb. 2.2 auf S. 20. 

Bemerkung 2.4.8 (Zentrierender Projektor auf der Fourier-Basis). Der zentrierenden Pro-

jektor Znläßt sich bezüglich der unitären Fourier-Basis wie folgt darstellen.

Zn=TFΣTF−1,(2.50)

wobei Σaus Gl. (2.48) auf S. 34, TF∈Cn×ndie unitäre Fourier-Matrix57mit TF=

1/√nzij, i, j ∈ {1,2,3,...,n−1}und z∈Cdie primitive n-te Einheitswurzel mit

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

z= exp [2πi/n], n > 0sind, d. i.

TF=1

√n







1 1 1 ··· 1

1z z2··· zn−1

1z2z4··· z2(n−1)

.··· .

1zn−1z2(n−1) ··· z(n−1)(n−1)







.(2.51)

Hier treffen sich die „elektrotechnische“ und die linear algebraische Interpretationen des

Begriffs „Spektrum“ problemlos in endlich dimensionalen Räumen. 

Lemma 2.4.9 (Zentriertes Produkt der Matrizen). Sei A∈Cm×nspalten-zentriert,

dann ist das Produkt AB für all Matrizen B∈Cn×pspalten-zentriert. Ist Azeilen-zen-

triert, so ist das Produkt BA für alle Matrizen B∈Cp×mzeilen-zentriert.

Beweis. Sei C=AB,C= [cij]m×p,A= [aij ]m×n,B= [bij]n×pund Aspalten-

zentriert. Betrachten wir die j-te Spalte cjvon C,j= 1,...,p, so haben wir aus dem

Product AB das Element

cij =

k=1

aikbkj,

welches nur mit der i-ten Zeile der Matrix Aund der j-ten Spalten der Matrix Bzu tun hat.

Die Summe aller Elemente der j-ten Spalte von der Matrix Cist

i=1

cij =

i=1

k=1

aikbkj =

k=1

i=1

aikbkj =

k=1

bkj

i=1

aik = 0,

wobei Pm

i=1 aik = 0 per Definition der Spalten-Zentriertheit der Matrix Ain Def. 2.4.1 auf

S. 29. Das Gleiche gilt für eine zeilen-zentrierte Aund eine linke Multiplikation durch eine

beliebige Matrix Bmit geeigneter Dimension.

Bemerkung 2.4.10 (Zentriertes Produkt der Matrizen). Lemma 2.4.9 gilt im allgemeinen

nur für eine Multiplikation von der „richtigen“ Seite

Aspalten-zentriert =⇒AB spalten-zentriert;

Azeilen-zentriert =⇒BA zeilen-zentriert.

Die Zentriertheit von Aist nur hinreichend, aber nicht notwendig für die Zentriertheit von

AB bzw. BA. Dennoch, ist Matrix Bdiagonale und vollrangig, so gilt

AB spalten-zentriert =⇒Aspalten-zentriert;

BA zeilen-zentriert =⇒Azeilen-zentriert,

denn cij =Pn

k=1 aikbkj =aijbjj, und Pm

i=1 cij =Pm

i=1 aijbjj =bjj Pm

i=1 aij. Also, ist

C=AB spalten-zentriert und Qn

j=1 bjj 6= 0, so ist Aspalten-zentriert, bzw., ist die j-te

Spalte von C=AB zentriert und bjj 6= 0 von der diagonalen Matrix B, dann ist die j-te

Spalte von Azentriert. Wir sehen, daß der zentrierende Orthoprojektor Zmin Gl. (2.43) auf

57Die Fourier-Matrix ist auch eine skalierte Vandermonde-Matrix des Vektors [z0z1··· zn−1].

KAPITEL 2. GRUNDLAGEN

S. 32 sowohl spalten-zentriert als auch zeilen-zentriert ist. Unser Lemma stimmt mit der Er-

wartung überein, daß eine zentrierte Matrix via Matrix-Produkt weitere zentrierte Matrizen

zu Stande bringt. Kann also irgendeine zentrierte Matrix die Rolle unseres zentrierenden

Operators Zmübernehmen? Die Antwort ist gewiss nein, denn er muß auch noch die Be-

dingung der Idempotenz erfüllen. 

Korollar 2.4.11 (SVD einer zentrierten Matrix). Seien A∈Cm×nund die Singulär-

wertzerlegung A=UΣV∗nach Gl. (2.23) auf S. 19, wobei Usubunitär, Σdiagonal und

Vunitär sind:

(a) Ist Uspalten-zentrierten, ZmU=U, dann ist Aspalten-zentrierten,

ZmA=A.

(b) Ist Avollrangig und spalten-zentriert mit m > n, dann ist Uspalten-

zentriert.

Beweis. (a). Die Zentriertheit von Afolgt unmittelbar aus Lemma 2.4.9. (b). Da AV =

UΣ, ist UΣ spalten-zentriert nach Lemma 2.4.9. Weil Qn

i=1 σi6= 0 und Σdiagonal ist, ist

Unach Bemerkung 2.4.10 spalten-zentriert, d. i., ZmU=U.

Bemerkung 2.4.12 (SVD einer zentrierten Matrix). Korollar 2.4.11 wurde nicht in der Form

von Gl. (2.22) auf S. 19 ausgeführt, weil die Zentrierung einer unitären Matrix notwendi-

gerweise den Rang genau um 1fallen läßt. Wir können deswegen nicht von einer unitären

und zentrierten Matrix sprechen. In anderen Worten, eine unitäre Matrix kann nicht zen-

triert sein, denn Pn

i=1 uij = 0,∀j= 1,...,nführt direkt zum Widerspruch der linearen

Abhängigkeit der Zeilen bzw. Spalten in der unitären Matrix U= [uij]mit U−1=U∗.

Dies ist um so deutlicher mit Hilfe unseres zentrierenden Operators, daß das Zentrieren

einer quadratischen Matrix der Größe mist ein Produkt von der Matrix mit Zm, welcher

einen Rang von m−1besitzt, und das Produkt kann den Rang nicht größer als m−1haben.

Die Bedingung m > n ist deswegen in Korollar 2.4.11-(b) gestellt, weil eine quadratische

Matrix nicht zugleich vollrangig und zentriert sein kann. Falls eine vollrangige und qua-

dratische Matrix zentriert wird, muß ihr Rang um 1abfallen. Infolgedessen haben wir einen

verschwundenen Singulärwert. Die Zentriertheit des entsprechenden linken Singulärvektors

ist also wegen des verschwundenen Singulärwertes nicht garantiert. Cf. Bemerkung 2.4.10

auf S. 35.



2.4.2 Kovarianzmatrix via SVD

Die Kovarianzmatrix CAder Matrix A58 ist eine hermitesche, positiv semidefinite Matrix

in Cn×nmit

CA=1

m−1˜

A∗˜

A=1

m−1

i=1

˜a∗

i˜ai, cij =1

m−1

k=1

˜a∗

ki˜akj,(2.52)

58auch Varianz-Kovarianz-Matrix (variance-covariance matrix) genannt. Sie wird bei manchen Autoren die

Gramsche Matrix der zentrierten Matrix (Gramian of the mean-centered data matrix) genannt. Siehe z. B. [Hohn,

1973, pp. 452–454].

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

wobei ˜aij ein Element die zentrierte Matrix ˜

A=ZmAin Gl. (2.40) auf S. 28 ist. Sie

kann einfach algebraisch wie in (2.52) gedacht oder mit ihrer stochastischen Herkunft mit

betrachtet werden.

Die Kovarianzmatrix CAbeinhaltet nämlich die Schätzwerte für die Varianzen und Ko-

varianzen der in der Datemmatrix Gl. (2.40) auf S. 28 als Spalten erschienenen Zeitreihen,

d. h. , Realisierungen des Zufallsvektors p=p1. . . pn

C=E(p−µp)∗(p−µp)







E[ (p1−µp1)∗(p1−µp1) ] ··· E[ (p1−µp1)∗(pn−µpn) ]

E[ (p2−µp2)∗(p1−µp1) ] ··· E[ (p2−µp2)∗(pn−µpn) ]

.....

E[ (pn−µpn)∗(p1−µp1) ] ··· E[ (pn−µpn)∗(pn−µpn) ]







.(2.53)

Die Kovarianzmatrix CAin Gl. (2.52) auf S. 36 gilt somit als unverzerrte (erwartungs-

treue) aber inkonsistente Schätzungen für die theoretische Kovarianzmatrix in Gl. (2.53) auf

S. 37. Ersetzten wir in Gl. (2.52) auf S. 36 den Nenner m−1durch m, so erhalten wir

eine nicht-erwartungstreue (verzerrte) aber konsistente ML-Schätzung der Varianzen und

Kovarianzen. Dies ist in unseren Implementierungen leicht umschaltbar gemacht 59 60.

Sei die SVD der zentrierten Datenmatrix in Cm×n

ZmA=˜

A=˜

U˜

Σ˜

V∗,(2.54)

und die Kovarianzmatrix in Cn×n

CA=1

m˜

A∗˜

A,61 (2.55)

dann

CA=1

m˜

A∗˜

A=1

m(˜

U˜

Σ˜

V∗)∗(˜

U˜

Σ˜

V∗)

m˜

V˜

Σ2˜

V∗(Spektralzerlegung)

m(˜

Σ˜

V∗)∗(˜

Σ˜

V∗) = 1

i=1

˜σ2˜vi˜v∗

i,(2.56)

wobei ˜vidie i-te Spalte der Matrix ˜

Vund die Spektralzerlegung der Matrix CAmitenthal-

ten ist mit Eigenwerten gleich der quadratischen Singulärwerte. Sei ˜

Avollranig. Die Inverse

der Kovarianzmatrix ist

CA−1=1

m˜

V˜

Σ2˜

V∗−1

=m(˜

V˜

Σ2˜

V∗)−1

=m˜

V˜

Σ−2˜

V∗(Spektralzerlegung)

=m(˜

Σ−1˜

V∗)∗(˜

Σ−1˜

V∗) = m

i=1

˜σ2˜vi˜v∗

i.(2.57)

59Siehe matstat.c -pB,m33.c -pB,hyper.c -pB, ...

60Der Nenner m−1anstatt mbei Varianzschätzung kann folgendermaßen ausgelegt werden: Da der im Schätzer

benutzte Schätzmittelwert aus den mEinträgen der Beobachtungen bereits eine Schätzung ist, bleiben uns nur noch

m−1Freiheitsgrade.

61Für kompakte Formulierung wird hier bei CAdie Division durch mverwendet. Dies nennen wir die ML-

Schätzung der Kovarianzmatrix. Ist mdurch m−1ersetzt, so ergibt sich erwartungstreue Version der Kovarianz-

schätzung.

KAPITEL 2. GRUNDLAGEN

Daher sind die Kovarianzmatrix CAund ihre Inverse CA−1aus der SVD der zentrierten

Matrix ˜

A=ZmAin den Singulärwerten und rechten Singulärvektoren bereits enthal-

ten. Desweiteren stellen die Singulärwerte in ˜

Σund die rechten Singulärvektoren in ˜

Vdie

Spektralzerlegung der Matrix ˜

A∗˜

Abereit zur Verfügung. Das heißt, die Matrix ˜

Venthält

als Spalten die Basen für die Eigenräume der Matrix ˜

A∗˜

A. Vgl. Abb. 2.2 auf S. 20. Da

CA∈Cn×nselbstadjungiert ist, ist sie normal, d.h., sie ist vertauschbar mit ihrer Adjun-

gierten. Da eine matrix in Cn×ngenau dann unitär diagonalisierbar ist, wenn sie normal

ist, können wir immer eine Orthonormalbasis für CAfinden, wo CAkanonisch eine dia-

gonale Form annimmt.

In (2.56) und (2.57) haben wir die Muster-Kovarianzmatrix anhand der Singulärwertzer-

legung der zentrierten Datenmatrix ˜

Aausgedrückt. Dies heißt praktisch, wenn die SVD der

zentrierten Datenmatrix bereits berechnet ist, ist die Kovarianzmatrix sofort verfügbar und

zwar nur von den Singulärwerten und die rechten Singulärvektoren abhängig. Oft haben wir

allerdings nur die Singulärwertzerlegung der nicht-zentrierten Datenmatrix zur Verfügung.

Ist es möglich, daß wir die Kovarianzmatrix CAanhand der SVD der nicht-

zentrierten Datenmarix ausdrücken?

Die Antwort lautet: Ja, und zwar mit Hilfe unseres zentrierenden Operators Zaus § 2.4.1

ab S. 29. Sei die SVD einer nicht-zentrierten Datenmatrix A=UΣV∗.

CA=1

m(ZA)∗(ZA) = 1

mA∗ZA (ZOrthoprojektor)

mVΣ(U∗ZU)ΣV∗=1

mVΣ(ZU)∗(ZU)ΣV∗

=VΣCUΣV∗,wobei CU=1

m(ZU)∗(ZU).(2.58)

Zur „Korrektur“ brauchen wir also die Muster-Kovarianzmatrix CUdes linken Singulär-

faktors Uim Vergleich mit Gl. (2.56) auf S. 37. In anderen Worten, die Unzentriertheit der

Datenmatrix macht die Kovarianz auch vom linken Singulärfaktor Uahbängig und die Zen-

trierung wird bei Unachträglich ausgeführt. Bei der Überlegung vom Rang der Kovarianz

sei darauf geachtet, daß CUnicht definitiv regulär ist, obgleich Usubunitär ist. Über den

möglichen Rangabfall von CUhaben wir in § 2.4.1 ab S. 29 diskutiert. Sei ˜

Avollranig, so

haben wir aus (2.58)

CA−1=m[(ZA)∗(ZA)]−1=V(ΣCUΣ)−1V∗.(2.59)

2.4.3 Mahalanobis-Distanz via SVD

Nicht nur ist die Kovarianzmatrix bereits in der SVD der zentrierten Matrix vorhanden,

sondern auch die Mahalanobis-Distanzen.

Beobachtung2.4.13 (Eigenbasis). Sei Datenmatrix A∈Cm×nund die SVDderzentrierten

Matrix ˜

A=ZA =˜

U˜

Σ˜

V∗. Seien ai,˜ai,˜uidie Zeilenvektoren von A,˜

Aund ˜

A=˜

U˜

Σ˜

V∗=˜

U(˜

Σ˜

V∗) = ( ˜

U˜

Σ)˜

V∗

U=˜

A(˜

Σ˜

V∗)−1,(˜

U˜

Σ) = ˜

A˜

˜ai=ai−b

µA=˜ui(˜

Σ˜

V∗)

˜ui=˜ai(˜

Σ˜

V∗)−1= (ai−b

µA)(˜

Σ˜

V∗)−1,(2.60)

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

sowie Gl. (2.56) auf S. 37 und Gl. (2.57) auf S. 37.

Wir bezeichnen mit dM(ai,b

µA)die Mahalanobis-Distanz zwischen dem Zeilenvek-

tor aiund dem Schwerpunkt b

µAbezüglich der Menge {a1,...,am}aus der Datenmatrix

Gl. (2.40) auf S. 28. Sei das Produkt ZA vollranig, so erhalten wir durch Generalisierung

des metrischen Tensors G=CA−1die quadratische Mahalanobis-Distanz

dM(ai,b

µA)2= (ai−b

µA)G(ai−b

µA)∗

= (ai−b

µA)CA−1(ai−b

µA)∗

=˜aiCA−1˜a∗

= (˜ui˜

Σ˜

V∗)CA−1(˜ui˜

Σ˜

V∗)∗

=m˜ui˜u∗

i.(2.61)

Bezeichnen wir mit dM(ai,aj)die Distanz zwischen dem Vektor aiund ajunter der Ma-

halanobis-Metrik 62 bezüglich der Menge {a1,...,am}, so haben wir die quadratische Ma-

halanobis-Distanz

dM(ai,aj)2= (ai−aj)G(ai−aj)∗

= (ai−aj)CA−1(ai−aj)∗

=m(˜ui−˜uj)(˜ui−˜uj)∗.(2.62)

Damit haben wir gesehen, wie die Mahalanobis-Distanzen der Zeilenvektoren aivon Ain

Gl. (2.40) auf S. 28 bereits in der Matrix ˜

Uvorhanden sind, falls die SVD der zentrierten

Matrix ˜

A=˜

U˜

Σ˜

V∗gegeben sei.

Bemerkung 2.4.14.Wir haben die Mahalanobis-Distanz zugunsten höherer Generalität in

Cndefinieren können, weil die quadratische Form mit einem komplexen Vektor reell ist.

„Eigentlich“ sind die Zeilenvektoren ˜ui(i= 1,...,m)in ˜

Unichts anderes als die

originalen Zeilenvektoren ˜ai(i= 1,...,m)in der Matrix ˜

Abezüglich der „guten“ Ba-

sis, die durch ˜

Σ˜

V∗(Regulärität angenommen) gegeben ist. Das ist, die Basisvektoren

σj˜vj(j= 1,...,n)konstruieren genau die Eigenbasis mit der durch entsprechenden Sin-

gulärwert gegebenen Skalierung. Die Singulärwerte sind die Längen der Semiachsen des

modellierenden Ellipsoids wie bereits in (2.60), Beobachtung. 2.4.13 (S. 38) dargestellt

worden ist.

Es sei darauf hingewiesen, daß die Distanzen davon unabhängig sind, ob die SVD sor-

tiert 63 ist oder nicht. Aber eine Sortierung vertauscht die originalen Koordinaten der Punkte

in Aund ˜

A, wenn wir die Zeilenvektoren aibzw. ˜aials Punkte im n-Raum betrachten. Die

meisten SVD-Routinen liefern eine unsortierte Version der Zerlegung zurück. Desweite-

ren merken wir uns, daß die Mahalanobis-Metrik abhängig ist von der Kovarianzmatrix in

Gl. (2.52) auf S. 36. Daher gibt es in der Praxis zwei Versionen der Mahalanobis-Metrik —

die eine mit erwartungstreuer aber inkonsistenter und die andere mit verzerrter aber kon-

sistenter Kovarianzschätzung. Solche Variation sind auch in unseren Implementierungen

leicht umschaltbar gemacht.

62Da der Kern bzw. das Radikal der Bilinearform im generellen nicht der Nullvektor ist, also kein linearer Teil-

raum, sprechen wir von der Mahalanobis-Metrik nur im Tangentialraum lokal zum Mittelwertvektor. Andererseits

können wir die Mahalanobis-Metrik als eine affine Struktur über einem linearen Raum betrachten.

63Mit Sortierung der SVD meinen wir eine Sortierung nach den Sigulärwerten (in R) in abnehmender Reihen-

folge, wobei sowohl die assoziierten linken als auch die rechten Singulärektoren mitsortiert werden.

KAPITEL 2. GRUNDLAGEN

Wir kehren an dieser Stelle zurück zur Frage auf Seite 28: „Wie sind U,Σund Vzu

interpretieren, wenn die zu zerlegende Matrix AMeßdaten enthält?“. Die Antwort lautet,

kurz gefasst:

Die Singulärwertzerlegung transformiert die Daten in den euklidischen Raum

mit Mahalanobis-Metrik und präsentiert als linke Singulärvektoren die trans-

formierten Daten, als Singulärwerte die Varianzen der entkoppelten Daten, und

als rechte Singulärvektoren die Basis.

Wir bringen nun wie folgt die Begriffe SVD, Kovarianz, Eigenanalyse, und Mahalanobis-

Metrik in Verbindung, während wir noch einmal der Beobachtung. 2.60 (S. 38) einen Blick

werfen.

−10

−8

−6

−4

−2

−15 −10 −5 0 5 10 15

SVD, Mahalanobis−Metrik und Gausssche Verbunddichte

dM=1

dM=2

dM=3

Abbildung 2.5: SVD, Mahalanobis-Metrik und Gaußsche Verbunddichte sind eng mit einander ver-

koppelt. Hier wird die Form des euklidischen Raumes durch die konzentrischen Ellipsoide angedeutet.

Die Skalaren sind 1-, 2- und 3-Mal die entkoppelten Standardabweichung und die Singulärwerte sind

genau √m-Mal die maximierten Standardabweichungen.

Gegeben sei die SVD der zentrierten Datenmatrix aus Gl. (2.54) auf S. 37 ˜

ZmA=˜

U˜

Σ˜

V∗.

1. Die SVD schätzt die Kovarianzmatrix und inverse Kovarianzmatrix je-

weils als (1/m)˜

V˜

Σ2˜

V∗und m˜

V˜

Σ−2˜

V∗in Gl. (2.56) auf S. 37 und

Gl. (2.57) auf S. 37.

2. Die SVD dekorreliert dann die nZufallsvariablen bzw. die nKanäle der

Meßdaten, indem sie die geschätzte Kovarianzmatrix diagonalisiert. Die-

se Dekorrelation erfolgt durch eine unitäre Transformation ˜

V. In anderen

Worten, die SVD weißt (whitens) die Daten in ˜

Aauf ˜

U˜

Σ, so daß die

Spalten in ˜

U˜

Σauseinander entkoppelt sind. Die Kovarianzen zwischen

den neuen Variablen sind verschwunden und die Singulärwerte haben nun

eine Interpretation von Standardabweichungen des unitär transformierten

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

Zufallsvektor bis auf einen Faktor √m:64

σi=√m×Standardabweichung(pi),

σ2

i=m×Varianz(pi),(2.63)

wobei pi(i= 1,...,n)die Zufallsvariablen aus Punkt 3 auf S. 29.

3. Dieobengenannten transformiertenDatensindalsZeilenvektorender Ma-

trix ˜

U˜

Σpräsentiert, d. h., die Zeilenvektoren

[σ1ui1, σ2ui2,...,σnuin] (i= 1,...,m).(2.64)

4. Die entkoppelten und standardisierten Daten sind als Zeilenvektoren der

Matrix ˜

Upräsentiert. Der Vektor ˜u sind also die in der Statistik soge-

nannten standardisierten Zufallsvektor, der eine Einheitsvarianz besitzt.

Die Koordinaten sind nun ˜

Σ˜

V∗und die Vektoren ˜uierhalten somit eine

Einheit bzw. Skala von einer Standardabweichung. Die Zufallsvektoren

˜uisind nun nämlich unter der Basis ˜

Σ˜

V∗hypersphärisch verteilt.

5. Die Mahalanobis-Distanzen sind explizit in ˜

Udurch die SVD präsen-

tiert. Sie sind nach Gl. (2.61) auf S. 39 und Gl. (2.62) auf S. 39 aus ˜

unmittelbar zu erhalten. Dies ermöglicht die viel bequemere Interpreta-

tion der Mahalanobis-Distanz wie folgt. Die quadratische Mahalanobis-

Distanz ist nichts anderes als die übliche Distanz der originalen Daten

˜aibzw. aizum Schwerpunkt b

µAunter der standardisierten Eigenbasis

(1/√m)˜

Σ˜

V∗.

2.4.4 Kovarianz, Mahalanobis-Metrik und Gaußverteilung

Wie bereits in Gl. (2.53) auf S. 37 definiert weist der Begriff Kovarianzmatrix einen stocha-

stischen Charakter auf. Wir untersuchen nun die Zusammenhänge unter Kovarianzmatrix,

Mahalanobis-Metrik, SVD, und die wichtigste Verteilung – Gaußverteilung. Wir verdeutli-

chen,

1. wie das Exponentialteil der Gaußverteilung, (x−µ)/σ in Gl. (2.67) auf S. 43 eigent-

lich als Mahalanobis-Distanz zu verstehen ist;

2. wie die Mahalanobis-Distanz die invariante „Einheit“ der Standardabweichung ge-

winnt;

3. wie die SVD als Schätzer für die n-dimensionale Gaußsche Verbunddichtefunktion

anzuwenden ist.

64 Wir haben deswegen das Symbol σsowohl statistisch für die Varianz als auch algebraisch für die Singulär-

werte einer SVD verwendet, weil die quadratischen Singulärwerte bis auf einen Faktor mgenau die Varianzen

sind von den transformierten Daten. Sei unsortierte SVD ˜

A= ( ˜

U˜

Σ)˜

V∗, dann die Kovarianzmatrix CA0der

transformierten Daten bezüglich der Basis ˜

Vist

CA0= (1/m)( ˜

U˜

Σ)∗(˜

U˜

Σ)

= (1/m)˜

Σ(˜

U∗˜

U)˜

Σ= (1/m)˜

Σ2

= diag(σ2

1/m, σ2

2/m, . . . , σ2

n/m).

KAPITEL 2. GRUNDLAGEN

Dieo.g.Punktewerdenaufeinmal deutlich, wenn wir die Dichtefunktion in n-dimensionalen

Raum anschauen. 65

Ein stochastischer Prozess x(t)heißt Gaußsch, wenn die Zufallsvariablen x(t1),x(t2),

..., x(tk)für jede k∈Nund alle Mengen {t1, t2,...,tk}verbund-Gaußsch verteilt ist

[Lathi, 1968, p. 205].

Wir wählen k=nfür eine Menge von nAbtastungen der Musterfunktion x(ζ, t)zu

den Zeitpunkten {t1, t2,...,tn}und wiederholen mMale das Experiment des Gaußschen

Prozesses. So, erhalten wir eine m×nDatemmatrix Ain Gl. (2.40) auf S. 28, wobei

jede Zeile x(ζi, tj), j = 1,...,n eine Musterfunktion von ζizu den Zeiten {t1,...,tn}

abtastet und jede Spalte x(ζi, tj), i = 1,...,mBeobachtungen zu dem festen Zeitpunkt tj

verschiedenen Musterfunktionen darstellen 66







x(ζ1, t1)x(ζ1, t2)··· x(ζ1, tn)

x(ζ2, t1)x(ζ2, t2)··· x(ζ2, tn)

x(ζ3, t1)x(ζ3, t2)··· x(ζ3, tn)

x(ζ4, t1)x(ζ4, t2)··· x(ζ4, tn)

x(ζ5, t1)x(ζ5, t2)··· x(ζ5, tn)

x(ζ6, t1)x(ζ6, t2)··· x(ζ6, tn)

x(ζm, t1)x(ζm, t2)··· x(ζm, tn)





m×n













.(2.65)

Sei Zufallsvektor x=aT

iaus Gl. (2.40) auf S. 28, mit Verbundgaußverteilung

x=





x(t1)

x(t2)

x(tn)





=









x∈Cn

dann läßt sich der Gaußsche Prozeß vollständig durch den Mittelvektor µxund die Kovari-

anzmatrix CAin Gl. (2.52) auf S. 36 und Gl. (2.53) auf S. 37 beschreiben, ob der Gaußsche

Prozeß stationär oder nicht [Lathi, 1968, p. 206]. Die multivariate Verbunddichte f(x)läßt

sich bezüglich des Zufallsvektors x, der theoretischen Kovarianzmatrix CGl. (2.53) auf

S. 37 und des Mittelwertvektors µxwie folgt schreiben:

f(x) = 1

(2π)n/2√det Cexp −1

2(x−µx)∗C−1(x−µx)

=det C−1

(2π)n1/2

exp −1

2(x−µx)∗C−1(x−µx)

=sdet C−1

(2π)nexp −1

2(x−µx)∗C−1(x−µx)

=sdet C−1

(2π)nexp −1

2d2

M(x,µx),(2.66)

mit ZZ···ZCn

f(x) = 1,

65[Lathi, 1968, p. 110, p. 147 (2-135), p. 151 (2-140), pp. 205–207 Gaussian Random Process]

66Ähnlich wie das Bild in [Lathi, 1968, Fig. 3-1, p. 160]

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

wobei µxder Mittelwertvektor und Cdie theoretische Kovarianzmatrix sind. Man merke,

daß die Form der quadratischen Mahalanobis Distanze erscheint im exponentialen Teil der

Dichtekunktion f(x)in Gl. (2.66) auf S. 42. Die beiden in Gl. (2.66) auf S. 42 (ind gleich,

da det−1CA= det CA−1, wenn CAregulär ist. Ersetzen wir CAdurch σ2,µxdurch µin

Gl. (2.66) auf S. 42 für 1-dimensionalen Fall, so erhalten wir die auf der 10-Mark-Banknote

sehr schön gedruckte Kurve von Carl Friederich Gauß (1777-1855)

f(x) = 1

σ√2πexp "−1

2x−µ

σ2#.(2.67)

Sei die SVD der zentrierten Matrix aus Gl. (2.54) auf S. 37

A=ZmA=˜

U˜

Σ˜

V∗,(2.54)

dann ist die Determinante der geschätzten Kovarianzmatrix

det CA= det 1

m−1˜

V˜

Σ2˜

V∗

=1

m−1n

det( ˜

V) det(˜

Σ2) det( ˜

V∗)

=1

m−1n

(det ˜

Σ)2,

und

det(CA−1) = (det CA)−1= (m−1)n(det ˜

Σ)−2.(2.68)

Somit wird die geschätzte Gaußsche Verbunddichte von Gl. (2.66) auf S. 42 bezüglich

der SVD Gl. (2.54) auf S. 37

f(x) = sdet CA−1

(2π)nexp −1

2d2

M(x,b

µx)

=s(m−1)n(det ˜

Σ)−2

(2π)nexp −1

2d2

M(x,b

µx)

det ˜

Σ2π

m−1−n/2

exp −1

2d2

M(x,b

µx)

det ˜

Σ2π

m−1−n/2

exp −m−1

2(x−b

µx)∗˜

V˜

Σ−2˜

V∗(x−b

µx).(2.69)

(2.69) ist eine allgemeine Form der geschätzten Gaußschen Verbunddichte bezüglich belie-

bigen Zufallsvektors x. Wir haben die geschätzte Dichte f(x)allerdings bereits an den m

Punkten aider Datenmatrix Aevaluiert, falls Gl. (2.54) auf S. 37 berechnet worden ist. Aus

Gl. (2.61) auf S. 39 ergibt

f(ai) = 1

det ˜

Σsm−1

2πn

exp −1

2d2

M(ai,b

µA)

det ˜

Σsm−1

2πn

exp −1

2(m−1) ˜ui˜u∗

i

det ˜

Σ2π

m−1−n/2

exp −1

2(m−1) ˜ui˜u∗

i.(2.70)

KAPITEL 2. GRUNDLAGEN

Seien s1,...,sndie Standardabweichungen der entkoppelten Zufallsvariablen, d. h., der

Spalten der Matrix ˜

U˜

Σ. Da σi=√m−1siaus Gl. (2.63) auf S. 41, wobei σiSingulär-

werte aus ˜

Σsind, dann läßt sich (2.70) wie folgt vereinfachen:

f(ai) = (2π)−n/2

i=1

s−1

iexp −1

2(m−1) ˜ui˜u∗

i

= n

i=1

si√2π!−1

exp −1

2(m−1) ˜ui˜u∗

i.(2.71)

2.4.5 Regularisierte Mahalanobis-Distanz via SVD

Die Mahalanobis-Distanz dM(x,y)zweier Vektoren x,y∈Cnist eine quadratische Form

Cn7→ R

(x−y,x−y)7→ (x−y)∗G(x−y),(2.72)

wobei der metrische Tensor Gder inversen Kovarianzmatrix CA−1entnommen ist, bezüg-

lich einer bestimmten Menge der Vektoren in Cn. Es läßt sich ohne weiteres zeigen, daß

solche den Axiomen einer Metrik 67 genügt. Wir sprechen von einer Mahalanobis-Metrik

68.

Diese Definition der Mahalanobis-Metrik setzt selbstverständlich die Invertierbarkeit

der Kovarianzmatrix CAvoraus. In der Praxis kann es oft passieren, daß die Kovarianzma-

trix CAin Gl. (2.52) auf S. 36 singulär wird, wenn die Datenmatrix Ain Gl. (2.40) auf S. 28

rang-deffizient ist. Selbst wenn die Datenmatrix Avollrangig ist, kann die Kovarianzma-

trix CAsogar nach Gl. (2.47) auf S. 33 in § 2.4.1 singulär sein, wenn alle Zeilenvektoren

aigenau auf einem affinen Teilraum der Dimension kleiner als nlägen. Desweiteren ist

nicht nur die Singularität der Kovarianzmatrix CAdas einzige Problem, sondern auch die

Kondition κp(CA)der zu invertierenden Kovarianzmatrix CAeine wichtige Rolle in der

numerischen Praxis spielt. Die Invertierung schlecht-konditionierter Matrizen führt oft zu

numerischer Instabilität. Im extremen Falle begegnet man z. B. einer Matrix wie die folgen-

67 Sei Meine Menge. Eine Metrik auf Mist eine Abbildung d:M×M7→ R+, so daß für alle x, y ∈M,

gilt

1. d(x, y)≥0und d(x, y) = 0 ⇐⇒ x=y(Positiv-Definitheit),

2. d(x, y) = d(y, x)(Symmetrie),

3. d(x, y)≤d(x, z) + d(z, y)(Cauchy-Schwarzsche Ungleichung).

Ein linearer Raum mit einer Metrik heißt metrischer Raum. Ein metrischer Raum heißt vollständig, wenn jede

Cauchy-Folge kovergent ist.

68 Ein linearer Raum Vmit einem Funktional kxkheißt normierter Raum, wenn für alle x,y∈ V und α∈C

gilt

1. kxk ≥ 0,kxk= 0 ⇐⇒ x=0,

2. kαxk=|α| · kxk,

3. kx+yk ≤ kxk+kyk.

Eine Überführung vom normierten Raum zum Raum mit Skalarprodukt (,)ist durch Polarisierung möglich. Sei

x,yim linearen Raum mit k · k über K, dann gilt

(x,y) = 1/4(kx+yk2− kx−yk2)falls K=R

1/4(kx+yk2− kx−yk2+ıkx+ıyk2−ıkx−ıyk2)falls K=C.(2.73)

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

de 8×8symmetrische, singuläre Rosser’sche Matrix vom Rang 7[Rosser et al., 1951]







611 196 −192 407 −8−52 −49 29

196 899 113 −192 −71 −43 −8−44

−192 117 900 196 61 49 8 52

407 −192 196 611 8 44 59 −23

−8−71 61 8 411 −599 208 208

−52 −43 49 44 −599 411 208 208

−49 −8 8 59 208 208 99 −911

29 −44 52 −23 208 208 −911 99







.(2.74)

Der Autor kennt keine einzige Routine (bis auf SVD) fürs Invertieren, die die Singularität

der Matrix detektiert (unter Standard-Gleitkommazahlen der üblichen Präzision „IEEE-754

double“ [IEEE, 1985]) 69.

Die Aufgabe, Mahalanobis-Distanz zu berechnen, wird in solchen Fällen inkorrekt bzw.

schlecht-gestellt [Hadamard, 1923]. Wir suchen also eine robustere Erweiterung der Maha-

lanobis-Distanz, die den Schwierigkeiten:

1. die Mahalanobis-Distanz ist nicht erklärt im Falle einer singulären Kova-

rianzmatrix, und

2. die Berechnung der Mahalanobis-Distanz kann bei schlecht-konditionier-

ten Kovarianzmatrizen numerisch instabil sein,

umgeht. Wie wir sehen werden, die Antwort beinhaltet die Singulärwertzerlegung als der

Schlüssel zur Lösung.

Die Gewinnung des metrischen Tensors Gin Gl. (2.61) auf S. 39 und Gl. (2.62) auf

S. 39 durch Invertierung der Kovarianzmatrix CAverläßt sich auf die Spektraleigenschaft

[Ben-Israel und Greville, 1974, pp. 166-169] [Campbell und Meyer, 1979, p. 74] der Ma-

trizeninversion. Das bedeutet: sei λ∈Cein Eigenwert und x∈Cnein Eigenvektor der

quadratischen Matrix A∈Cn×n, so gilt

Ax =λx⇐⇒ A−1x=λ−1x.(2.75)

Diese Eigenschaft garantiert im übrigen die Erhaltung der Positiv-Definitheit der Matrix A,

wenn sie so ist, was man für eine Metrik braucht.

Für singuläre quadratische Matrizen Asuchen wir nun eine eindeutige, generalisierte

Inverse, die diese Spektraleigenschaft Gl. (2.75) auf S. 45 besitzt. Sie sind als Spektralin-

versen bezeichnet [Rao und Mitra, 1971] [Boullion und Odell, 1971, p. 20] [Ben-Israel und

Greville, 1974, pp. 159–161] [Campbell und Meyer, 1979].

Die einem sofort einfallende, und eindeutige Moore-Penrose-Inverse A†jedoch erfüllt

im allgemeinen die Gl. (2.75) auf S. 45 nicht. Die Gruppeninverse A#70 erfüllt zwar diese

Bedingung, aber sie existiert nur wenn R(A)und N(A)komplementäre Teilräume sind.

69Dieses Beispiel ist hier angeführt, um die Nicht-Trivialität der numerischen Realisierungen zu betonen. Alle,

die dran zweifeln, sollten sich trotz des durchaus harmlosen Aussehens einmal die Inverse oder die Determinan-

te der Matrix berechnen lassen. Es sei darauf aufmerksam gemacht, daß lockere Implementierung und Kontrolle

sowie indifferente Mentalität diesgegenüber zu Katastrophen führen können. Der Absturz der europäischen Rake-

te, Ariane 5, am 4. Juni, 1996 fing mit einem Konvertierungsproblem von 64-Bit-Gleitkommazahlen auf 16-Bit-

Integer an und endete mit ratloser Zündung der Selbstvernichtung. [Lions, 1996] [Le Lann, 1997].

70[Ben-Israel und Greville, 1974, pp. 162–164, 166–169] [Campbell und Meyer, 1979, p. 129]

KAPITEL 2. GRUNDLAGEN

Uns bleibt nur noch die eindeutige Drazin-Inverse AD71, bzw. „vertauschbare Pseudoin-

verse“ (commuting inverse) 72, die bei allen Matrizen existiert und die Spektraleigenschaft

Gl. (2.75) auf S. 45 aufweist 73 . Glücklicherweise ist unsere Anwendung der Drazin-Inver-

se auf die selbstadjungierten Matrizen eingeschränkt. Die Matrizen dieser Kategorie fallen

in die Klasse von den sogenanten EP-Matrizen. Und bei dem EP-Matrizen fallen die Moo-

re-Penrose-Inverse, die Gruppeninversen und die Drazin-Inverse 74 zusammen. [Ben-Israel

und Greville, 1974, p. 164, Theorem 3] Wir können also in unserer Aufgabe die Moore-

Penrose-Inverse das Problem lösen, denn sei A∈Cn×n,Aist genau dann EP, wenn 75

(Ax =λx⇐⇒ A†x=λ†x).(2.76)

Hinzu kommt, daß sich die Moore-Penrose-Inverse durch die SVD berechnen läßt, wobei

eine Regularisierung der schlechten Kondition der Inversion äußerst günstig vorzunehmen

ist.

Definition 2.4.15 (Regularisierte Mahalanobis-Distanz). Wir defininieren die regulari-

sierte Mahalanobis-Distanz r

dM(x,y)∈Rzweier Vektoren x,y∈Cnbezüglich einer

bestimmten Menge der Vektoren in Cndurch

dM2(x,y) = (x−y)∗CA†(x−y) = mt˜uit˜u∗

j,(2.77)

wobei die Regularisierung operativ in der Berechnung der Moore-Penrose-Inversen enthal-

ten ist, wie bereits in § 2.4.2 diskutiert worden ist. (Cf. schur2.c -pm,matstat.c

-mpB und mahr.m)

Die Zeilenvektoren t˜uiund t˜ujin Gl. (2.77) auf S. 46 sind dieselben aus Gl. (2.62)

auf S. 39 in § 2.4.3 bis auf einen adjustierbaren numerischen Rang r, ab den die SVD

abgeschnitten wird und die entsprechenden Singulärvektoren (ergo Komponenten in t˜ui)

auf Null gesetzt werden. Für die regularisierte Mahalanobis-Distanz zwischen einem Vektor

aiund dem Schwerpunkt b

µAheißt das aus Gl. (2.61) auf S. 39

dM2(ai,b

µA) = mt˜uit˜u∗

i=m

j=1

˜u2

ij.(2.78)

Wir wollen nun die Plausibilität der regularisierten Mahalanobis-Distanz in Gl. (2.77)

auf S. 46 im pathologischen Falle inspezieren, wenn die Kovarianzmatrix CAsingulär wä-

re. Dies ist gerade bei uns interessant, denn ein Hyperkreis (Def. 2.4.17 auf S. 49) in Un

71[Ben-Israel und Greville, 1974, pp. 169–175] [Campbell und Meyer, 1975] [Cline, 1979, pp. 57–62] [Wilkin-

son, 1979] [Higham und Knight, 1993] [Meyer, 2000, p. 399]

72[Rao und Mitra, 1971, pp. 95–97] [Pringle und Rayner, 1971, pp. 19-22]

73Siehe ginv.c -D2 und -D1 via core-nilpotent-decomposition [Meyer, 2000, pp. 397–399] und SVD bzw.

RREF (reduced row echelon form bzw. reduzierte Zeilenstufenform). Für weitere Möglichkeit der Implementierung

solcher Inversen, siehe z. B. [Campbell und Meyer, 1979, pp. 125–127].

74Obwohl die Drazin-Inverse zum diesem Zweck im letzten nicht gebraucht werden muß, war eine praktische

Untersuchung ihrer Eigenschaften notwendig. Sie ist deswegen auch im Projekt implementiert worden. (Siehe

ginv.c -D1.)

75Für einen Beweis siehe [Campbell und Meyer, 1979, p. 75, Theorem 4.3.2].

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

76 77liegt immer auf einem affinen Teilraum von Dimension n−1. Jede Realisierung bzw.

Abtastung eines Hyperkreises (Def. 2.4.17 auf S. 49), wenn ungestört, ergibt nach Gl. (2.47)

auf S. 33 in § 2.4.1 eine singuläre Kovarianzmatrix. Da sich die Hyperkreise höherer Di-

mension nur schwierig visualisieren lassen, wenn nicht unmöglich, ist ein Funktional auf

den Grundkörper mit charakterisierenden Eigenschaften einer Punktmenge wie die Maha-

lanobis-Distanz zur Untersuchung äußerst hilfreich.

Mit Mahalanobis-Distanz drehen und skalieren wir die Koordinaten je nach der durch

ein Hyperellipsoid modellierten Streuung der Daten, so daß die Verteilung der Daten sphä-

risch wird im Bezug auf diesem (orthogonalen) Koordinatensystem. Dies macht die „Ein-

heit“ der Distanz gleich der Standardabweichung und unabhänigig von den originalen Ein-

heiten.

Bei verschwindender Variation der Daten in einer Richtung bricht das Hyperellipsoid

in dieser Dimension zusammen. Die dazu gehörige Skala werden „unendlich dicht“. Die

resultierenden Koordinaten werden numerisch instabil werden wegen begrenzter Darstel-

lungspräzision, selbst wenn sie nicht unendlich groß werden. Die Strategie ist nun eine

76 Ein n-dimensionaler euklidischer Raum Enist ein linearer Raum Vüber Rmit Skalarprodukt, das heißt,

ein Vektorraum mit zusätzlicher geometrischer Struktur, der Form des Raumes, mit der wir von einer Länge des

Vektors oder einem Winkel zwischen zwei Vektoren oder überhaupt vom Begriff Orthogonalität sprechen können.

Diese geometrische Struktur ist eine symmetrische, positiv-definite Bilinearform (u,v) : V × V 7→ R,mit den

Axiomen

1. (u,v) = (v,u)∈R,(Symmetrie)

2. (u,u)≥0,(u,u) = 0 ⇐⇒ u=0(positiv definite quadratische Form)

3. (u, αv+βw) = α(u,v) + β(u,w),(Bilinearform)

für alle u,v,w∈ V und α, β ∈R. Alle Bilinearformen, die die Axiome genügen, dürfen als das Skalarprodukt

auserkoren werden. Aus 1. folgt, daß 3. auch in der ersten Variablen linear ist. Nach Einführung einer Basis genügt

den Axiomen die Form uTAv mit einer symmetrischen, positiv definiten Matrix A∈Rn×n. [Shilov, 1971,

pp. 215–216] [Kaplansky, 1974, pp. 1–5] [Kostrikin und Manin, 1989, p. 117] Fußnote 77 auf S. 47

77 Ein n-dimensionaler unitärer Raum Unist ein linearer Raum Vüber Cmit Skalarprodukt (u,v), so daß

für alle u,v,w∈ V und α, β ∈C, gilt:

1. (u,v) = (v,u)∈C,(konjugiert symmetrisch, nicht kommutativ!)

2. (u,u)≥0,(u,u) = 0 ⇐⇒ u=0(positiv definite quadratische Form)

3. (u, αv+βw) = α(u,v) + β(u,w),(„Physiker-Sesquilinearform“)

Ein vollständiger unitärer Raum heißt Hilbertraum [Kantorowitsch und Akilow, 1978, p. 65]. Aus 1. folgt, daß die

quadratische Form in 2. reell ist. Diese geometrische Struktur heißt positiv definite hermitesche Sesquilinearform.

Dadurch wird eine Norm kuk=p(u,u)Fußnote 68 auf S. 44 induziert. Die Norm induziert wiederum eine

Metrik d(u,v) = k(u−v)kFußnote 67 auf S. 44. Damit ist der Raum zugleich mit einer Metrik ausgestat-

tet. Nach Einführung einer Basis genügt den Axiomen die Form u∗Av mit einer hermiteschen, positiv definiten

Matrix A∈Cn×n. Wir übernehmen die „Physiker-Konvention“ bzw. „Numeriker-Konvention“, daß die Sesqui-

lineareform in der zweiter Variablen linear und in der ersten konjugiert linear seien. Wir schreiben und berechnen

nämlich ein komplexes Skalarprodukt durch u∗v, indem wir die Vektoren als Spalten-Matrizen formulieren. NB.

Wir haben Erfolg bei Erweiterung des Begriffs Länge des Vektors auf komplexe Räume, denn die quadratische

Form in 2. ist stets reell. Dennoch begegnen wir Schwierigkeiten beim Begriff „Winkel“, weil das Skalarprodukt

in cos θ= (u,v)/p(u,u)(v,v)im generellen komplex ist. Bei Bedarf kann der Betrag am Zähler genommen

werden, denn |(u,v)| ≤ p(u,u)(v,v). Dennoch ist solcher keine plausibler Erweiterung des Winkels im eu-

klidischen Raum auf unitären Raum. Eine plausible Erweiterung des Begriffs Winkel auf unitären Raum zwischen

zwei komplexen Vektoren solle, meiner Ansicht nach, das geometrische Verhältnis zwischen zwei komplexen Vek-

toren vollständig beschreiben, wie es im euklidischen Raum der Fall ist. Dies könne Erfolg haben, indem man das

Verhältnis zwischen zwei 2-dimensionalen Teilräumen im euklidischen Raum betrachte. Der Begriff Orthogo-

nalität zweier komplexen Vektoren u,vist zwar durch (u,v) = 0 wohl-definiert, die Interpretation derer sei

plausibler mittels Verhältnisses zwischen zwei 2-dimensionalen Teilräumen im euklidischen Raum. [Davis, 1958]

(im Hilbert-Raum) [Davis und Kahan, 1970] (im Hilbert-Raum) [Shilov, 1971, pp. 244–245,p. 373] [Hohn, 1973,

p. 373] [Golub und Van Loan, 1983, pp. 20–24] [Golub und Van Loan, 1983, pp. 425–431] [Vandewalle und De

Moor, 1988, p. 56] [Ipsen und Meyer, 1995] [Suschowk, 1956 (1957] [Zassenhaus, 1964] [Wedin, 1982] [Ritov,

1992] [Golub und Van Loan, 1996, pp. 603–604] [Stewart, 1998, pp. 74–76] [Stewart, 1999, pp. 7–8] [Meyer,

2000, pp. 450–459]

[Chen, 2001] Fußnote 76 auf S. 47

KAPITEL 2. GRUNDLAGEN

regularisierte Metrik benutzen, die die Messung in dieser „defekten“ Dimension einfach

„ignorieren“. Mit „ignorieren“ meinen wir das Nullieren der Beiträge der Koordinaten in

dieser Richtung zur Distanz überhaupt. Dieser regularisierte metrische Tensor bekommen

wir als die Moore-Penrose-Pseudoinverse der rangdeffizienten Kovarianzmatrix.

Die (eindeutige) Moore-Penrose-Inverse einer beliebigen Matrix in Cm×nwird oft nu-

merisch durch die Singulärwertzerlegung berechnet werden. Ein begleitender Vorteil bei der

SVD ist, daß die Anwendung der SVD fast „idiotensicher“ ist hinsichtlicher der numeri-

schen Stabilität. Dies gilt auch in der Situation, wo das Hyperellipsoid in gewisser Richtung

ziemlich „flach“ wird.

Die Psdeudoinverse, andererseits, resultiert in eine gleichrangige Matrix mit invertierten

Eigenwerten (im Falle der reellen symmetrischen Kovarianz), wenn die zu Invertierenden

(numerisch) singulär wird. Die originalen Null-Eigenwerte bleiben unverändert. In diesem

Fall bleiben die Skalierung in den Richtungen der von Null verschiedenen Eigenwerte un-

verändert während die Skalierung in den Richtungen der verschwundenen Eigenwerte „un-

endlich grob“ gemacht wird, so daß der Anteil eines Punktes in diesen Richtungen trägt zur

regularisierten Mahalanobis-Distanz nichts bei. Das heiß, die Variation der Daten in diesen

Richtungen hat keinen Einfluß auf die regularisierte Mahalanobis-Distanz.

Beispiel 2.4.16. Seien 4×3Datenmatrix und ihre Zentrierte

A=





6 2 3

−4 2 3

1 7 3

1−3 3





,˜

A=Z4A=





5 0 0

−5 0 0

0 5 0

0−5 0





.

Dies ist eine gleichmäßige 4-punkt-Abtastung eines 1-Hyperkreises (Def. 2.4.17 auf S. 49)

mit Normalvektor n= [ 0 0 1 ], Zentrum z= [ 1 2 3 ] und Radius r= 5 (hyper.c -c).

Der 1-Hyperkreis entpricht einem üblichen Kreis in E3. Es sei beachtet, daß rank A= 3,

und die eigentliche Dimension der Daten-Dynamik, rank ˜

A= 2, wird erst durch das Zen-

trieren vom Projektor Z4auf den AC-Teilraum,span{n}⊥, zum Vorschein gebracht. Die

Punkte (Zeilenvektoren der Matrix A) liegen nämlich alle in einem 2-dimensionalen affi-

nen Teilraum. Die ML-Schätzung der Kovarianzmatrix ist eine 3×3rang-2symmetrische

Matrix

CA=1

4˜

A∗˜

A=



12.5 0 0

0 12.5 0

0 0 0

,

welche mit der theoretischen Kovarianzmatrix übereinstimmt mit

tr CA=r2= 52

und

kCAk2= tr CA/(n−1) = tr CA/(3 −1) = 12.5

Wir merken, daß CAist nur semidefinit (mit zweifachem 12.5und einem Null-Eigenwert).

Da CAnicht invertiertbar ist, ist die Mahalanobis-Distanz undefiniert. Unsere regulari-

sierte Mahalanobis-Distanz nimmt als „Metrik“ die rang-2symmetrische Moore-Penrose

Pseudoinverse

CA†=



0.08 0 0

0 0.08 0

0 0 0



2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

mit λ1=λ2= 0.8und λ3= 0 als Eigenwerte. Die regularisierte Mahalanobis-Distanz Mr

von einem Punkt zum Zentrum

dM(P1= (5 0 0)) = √2

dM(P2= (6 0 0)) = 1.697056 >√2

dM(P3= (5 0 1)) = √2

dM(P4= (6 0 1)) = 1.697056 >√2.

P1liegt im Hyperkreis (Def. 2.4.17 auf S. 49) und hat eine regularisierte Mahalanobis-

Distanz √n−1 = √2.

P2ist in die Richtung der Hyperebene leicht von dem Hyperkreis entfernt und hat eine

Mahalanobis-Distanz größer als die des P1.

P3is von P1aus in die Richtung des Null-Eigenwertes verschoben und hat eine regu-

larisierte Mahalanobis-Distanz gleich der der orthogonalen Projektion (P1) auf der Hyper-

ebene.

P4ist vom P1verschoben sowohl in die Richtung der Hyperebene als auch in die Rich-

tung des Nullraums der C. In diesem Fall hat der Anteil in der letzteren Richtung keinen

Beitrag zu der Distanzmessung.

Anschaulich gedacht, besteht unsere Regularisierung darin, die (linearen) Beiträge der

Mahalanobis-Distanz im Nullraum der Kovarianzmatrix zu ignorieren, da eine Messung

der Distanz in solchem nicht möglich ist. In anderen Worten, unsere regularisierte Distanz

macht keinen Unterschied der Messungen zwischen einem Hyperkreis und einem Hyperzy-

linder.

2.4.6 Hyperkreis und Regularisierte Mahalanobis-Distanz

Definition 2.4.17 (Hyperkreis). Ein Hyperkreis in Unist eine nicht ausgeartetete Schnitt-

menge einer Hyperebene und einer Hypersphäre. Das Normal bzw. der Richtungsteilraum

des Hyperkreises ist das Normal bzw. Richtungsteilraum der Hyperebene. Das Zentrum

bzw, der Radius des Hyperkreises das Zentrum bzw, der Radius der Hypersphäre. Da ein

Hyperkreis eine (n−2)-dimensionale Mannigfaltigkeit in Unist, bezeichnen wir mit Kn−2

die Menge aller (n−2)-Hyperkreise in Un.

Ein Hyperkreis ist also durch ein Zentrum z∈ Un, einen Radius r∈R, und einen

Richtungsteilraum P ⊂ Unbzw. ein Normal n∈ Unzu bestimmen.

Beispiel 2.4.18. In E3mit Standard-Skalarprodukt ist ein 1-Hyperkreis in K1ein gewöhn-

licher Kreis, der im Raum schwebt, Cf. Abb. 2.6 auf S. 51. Der Richtungsteilraum Pvon

einem 1-Hyperkreis in K1ist eine 2-dimensionale Ebene durch den „Ursprung“. Auf dem

Papier, bzw. in E2ist ein 0-Hyperkreis in K0bloß eine Menge von zwei Punkten mit null

Freiheitsgrad. Note bene! Ein Kreis auf dem Papier, E2, ist kein Hyperkreis, sondern eine 1-

Hypersphäre in S1⊂ E2. Die Bezeichnungen sind der topologischen Konvention konform.

Die Visualisierung eines Hyperkreises, einer (n−2)-Mannigfaltigkeit, in höherer Di-

KAPITEL 2. GRUNDLAGEN

mension ist schwierig, wenn nicht unmöglich 78. Um rechnerisch mit dem Begriff Hyper-

kreis auseinandersetzen zu können, brauchen wir konkrete Abtastungen der Hyperkreise.

Wir präsentieren wie folgt einen Erzeugungsalgorithmus mit statistisch gleichverteilten Ab-

tastpunkten auf einem (n−2)-Hyperkreis ⊂ En.

Algorithmus 2.4.19 (Erzeugung des Hyperkreises). Sei ein Hyperkreis K∈ Kn−2mit

Radius r∈R, Normal n∈Rn, Zentrum z∈Rn. Die folgenden Schritte generieren gleich

verteilte Zufallspunkte k∈K:

1. Erzeuge ai∈Rn, i = 1,...,n−1, so daß

span {a1,a2,...,an−1}= span {n}⊥,a∗

iaj=δij,(2.79)

2. Erzeuge neue Zahl gi∈R, i = 1,...,n−1, so daß

gi∼N(0,1),E[gi] = 0,E[gigj] = δij,(2.80)

3. Berechne neuen Vektor b∈span {n}⊥durch

n−1

j=1

gjaj,(2.81)

4. Berechne neuen Vektor k∈Kdurch

k=c+rb

√b∗b,(2.82)

5. Wiederhole (2) bis (4) für die gewünschte Anzahl der Punkte.

Bemerkung 2.4.20 (Erzeugung des Hyperkreises). G. W. Brown hat 1956 zuerst eine Me-

thode zur Erzeugung gleich verteilter Zufallspunkte auf einer Sphäre veröffentlicht [Brown,

1956] [Knuth, 1981, 1969, pp. 130–131]. Der Algorithmus 2.4.19 (S. 50) ist von Brown-

scher Methode abgeleitet und in ghyper -c implementiert worden. Siehe Abb. 2.6 auf

S. 51 für eine Visualisierung des Hyperkreises in K1und K2. Ein Hyperkreis in K0be-

steht nur aus zwei Punkten. Ein Kreis auf dem Papier, E2, ist kein Hyperkreis, sondern eine

1-Hypersphäre.

Da bei uns ein Hyperkreis höherer Dimension nur durch den Algorithmus 2.4.19 (S. 50)

per Zufallspunkte realisiert werden kann, beweisen wir in diesem Abschnitt einige hilfreiche

Korollare über ihre statistischen Eigenschaften und Mahalanobis-Distanzen.

Lemma 2.4.21 (Kovarianzmatrix der Hypersphäre). Sei gleich verteilter Zufallsvektor

x∈ Unauf einer (n−1)-sphäre ∈ Sn−1⊂ Unmit Radius r∈Rund beliebigem Zentrum

z∈ Un, dann ist die Kovarianzmatrix aus Gl. (2.53) auf S. 37

CSn−1=E[ (x−z)(x−z)∗] = r2

nI.(2.83)

78Die folgenden Monographien werden uns bei der mentalen sowie evtl. physikalischen Visualisierung der hö-

heren dimensionalen Gebilde sicherlich weiter helfen: [Abbott, 1952; Abbott und Buck, 1990] [Du Val, 1964]

[Weeks, 1985] [Coxeter, 1973] [Altmann, 1986] [Rucker, 1987] [Banchoff, 1990]

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

Verrauschter 1-Hyperkreis in E3und Projektionen Projektionen verrauschten 2-Hyperkreises in E4

verrauschter 1−Hyperkreis in E3 & Projektionen

Projektion auf x=0

Projektion auf y=0

Projektion auf z=0

0510 15 20

Projektionen des verrauschten 2−Hyperkr. in E4 auf E3 & E2

Projektion auf y=0

Projektion auf z=0

Projektion auf t=0

Projektion auf y−z

Projektion auf x−z

Projektion auf x−y

0510 15 20 25

(a)

(b)

Abbildung 2.6: Visualisierung des Hyperkreises durch Projektionen. (a) Projektionen eines 1-

Hyperkreises in E3auf E2mit Radius = 5, Anzahl = 128, Zentrum = [10 10 30], Normal

= [1 1 1], σ = 0.5. (b) Projektionen eines 2-Hyperkreises in E4auf E3und E2mit Radius = 5,

Anzahl = 1024, Zentrum = [10 20 30 40], Normal = [1 1 1 1], σ = 0.2(via ghyper.c-c und

gaussian.c).

Beweis. Sei Zufallsvektor x= [x1x2···xn]Tgleich verteilt auf einer (n−1)-Sphäre mit

Radius rund Zentrum z= [z1z2···zn]Tmit

(x1−z1)2+···+ (xn−zn)2=r2.(2.84)

Da xgegen das Zentrum isotropisch ist, ist der Erwatungswert einzelnen Komponenten

E[x1−z1] = ···=E[xn−zn] = 0.(2.85)

und

E(x1−z1)2=···=E(xn−zn)2.(2.86)

Da xkonstante Länge von rbesitzt, haben wir

E(x−z)T(x−z)=E(x1−z1)2+···+ (xn−zn)2=Er2=r2.(2.87)

Aus (2.86) und (2.87) ergibt sich die diagonale Elemente der Kovarianzmatrix Gl. (2.53)

auf S. 37

cii =E(xi−zi)2=r2/n, (i= 1,...,n).(2.88)

Die nicht-diagonale Elemente der Kovarianzmatrix

cij =E(xi−µxi)(xj−µxj)=E[xixj]−E[xi]E[xj] = 0,(2.89)

da xiund xj(i6=j)unkorreliert sind (E[xixj] = E[xi]E[xj]) laut unseres Algorith-

mus 2.4.19 (S. 50) der Hypersphäregenerierung.

Dies heißt, die Kovarianzmatrix gleich verteilter Punkte auf einer Sphäre ist diagonal

und nur abhängig von der Dimension des Raumes und dem Radius 79. Aus diesem Lemma

ergibt sich das folgende Korollar über die konstante Mahalanobis-Distanz gleich verteilter

Punkte auf einer Sphäre.

79Durch Ausführungen von (ghyper.c -sn4096 (param.) | matstat.c -Ppc -pB) verifizie-

ren wir, daß dies mit Berechnungen der Kovarianzmatrix CAaus Datenmatrix Aübereinstimmt.

KAPITEL 2. GRUNDLAGEN

Korollar 2.4.22 (Mahalanobis-Distanz der Hypersphäre). Sei gleich verteilter Zufalls-

vektor x∈ Unauf einer (n−1)-Sphäre Sn−1⊂ Un, dann ist der konstante Erwartungswert

der Mahalanobis-Distanz aller Punkte auf der Sphäre eine Konstante, die nur anhängig st

von der Dimension n:

EdM(x∈ Sn−1)=√n. (2.90)

Beweis. Sei z∈ Undas Zentrum der Sphäre und r∈Rder Radius.

Ed2

M(x∈ Sn−1)=E(x−z)TC−1

Sn−1(z−z).

Aus Lemma 2.4.21 auf S. 50, (2.83), die Kovarianzmatrix CSn−1= (r2/n)Iin der quadra-

tischen Form ist eine Konstante.

Ed2

M(x∈ Sn−1)=E"(x−z)Tr2

nI−1

(z−z)#

=Eh(x−z)Tn

r2I(z−z)i

r2E(x−z)T(z−z)

r2r2=n.

Lemma 2.4.23 (Lineare Abbildung und Kovarianzmatrix). Seien Zufallsvektoren

x,y∈Cnund Endomorphismus A∈Cn×n,rank A=n. Seien Cx,Cy∈Cn×ndie

Kovarianzmatrizen von xund y, dann

y=Ax =⇒Cy=ACxA∗.(2.91)

Beweis. Dies hätte stochastisch gezeigt werden sollen. Dennoch, um die Robustheit unserer

Darstelung von dem Zentrieren einer Datenmatrix als eine Projektion Zmin Gl. (2.42) auf

S. 32 und Gl. (2.43) auf S. 32 in § 2.4.1 zu demonstrieren, betrachten wir, wie die Muster-

kovarianzmatrizen zusammenhängen unter einer linearen Abbildung. Seien Datenmatrizen

X,Y∈Cm×n, die mRealiserungen der Zufallsvektoren, d. h., die Spalten-Zufallsvekto-

ren x,yals Zeilenvektoren in der Form der Gl. (2.40) auf S. 28 enthalten. Somit ist die

o. g. lineare Abbildung äquivalent zu

Ym×n=Xm×nA∗

n×n.

Die Musterkovarianzmatrix nach der Abbildung ist

CY=1

m(ZmY)∗(ZmY)

m(ZmXA∗)∗(ZmXA∗)

m(AX∗Z∗

m)(ZmXA∗)

mA(ZmX)∗(ZmX)A∗

=A1

m(ZmX)∗(ZmX)A∗

=ACXA∗.

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

Bemerkung 2.4.24.Ob der Nenner gliech moder m−1, hat keine Rolle gespielt. Hier waren

X,Ydie nicht-zentrierten Datenmatrizen. Die Anwendung des zentrierenden Projektors

aus Gl. (2.42) auf S. 32 und Gl. (2.43) auf S. 32 hat die Beweisführung kompakt gemacht.

Nota bene: Hier wurde keine weitere Eigenschaft des Endomorphismus Aangenommen.

Lemma 2.4.25 (Invarianz der Mahalanobis-Distanz). Die Mahalanobis-Distanz ist in-

variant unter Verschiebung und regulärer linearer Abbildung. Seien Zufallsvektoren x,y∈

Un, und dM(x0), dM(y0)∈Rdie Mahalanobis-Distanzen von x0,y0∈ Unjeweils zu µx

und µy. Sei Endomorphismus A∈Cn×n(rank A=n). Dann

y=Ax =⇒dM(y0) = dM(x0)∀x0,y0∈ Un.(2.92)

Beweis. Die Invarianz unter Verschiebung versteht sich, denn sie wird per Definition „aus-

genommen“. Die Mahalanobis-Distanz des transformierten Vektors y0

M(y0) = (y0−µy)∗C−1

y(y0−µy)

= (Ax0−Aµx)∗C−1

y(Ax0−Aµx)

= (Ax0−Aµx)∗(A∗−1C−1

xA−1)(Ax0−Aµx)

= (x0−µx)∗A∗(A∗−1C−1

xA−1)A(x0−µx)

= (x0−µx)∗C−1

x(x0−µx)

=d2

M(x0).

Lemma 2.4.26 (Invarianz der Regularisierten Mahalanobis-Distanz). Die regularisierte

Mahalanobis-Distanz ist invariant unter Verschiebung und unitärer Abbildung. Seien Zu-

fallsvektoren x,y∈ Un, und dM(x0), dM(y0)∈Rdie Mahalanobis-Distanzen zwischen

x0,y0∈ Unund µxund µy. Sei unitäre Matrix U∈Cn×n, Dann

y=Ux =⇒r

dM(y0) = r

dM(x0)∀x0,y0∈ Un.(2.93)

Beweis. Die Invarianz unter Verschiebung versteht sich, denn sie wird ebenfalls per Defini-

tion „ausgenommen“. Die regularisierte Mahalanobis-Distanz des transformierten Vektors

dM2(y0) = (y0−µy)∗C†

y(y0−µy)

= (Ux0−Uµx)∗C†

y(Ux0−Uµx)

= (x0−µx)∗U∗C†

yU(x0−µx)

= (x0−µx)∗U∗(UCxU∗)†U(x0−µx)

=80(x0−µx)∗U∗(U∗†C†

xU†)U(x0−µx)

= (x0−µx)∗U∗U∗−1C†

xU−1U(x0−µx)

= (x0−µx)∗C†

x(x0−µx)

dM2(x0).

KAPITEL 2. GRUNDLAGEN

Lemma 2.4.27 (Kanonische Kovarianzmatrix des Hyperkreises). Sei Zufallsvektor x∈

Ungleich verteilt auf einem Hyperkreis K∈ Kn−2⊂ Unmit Radius r∈R, dann gibt

es eine Abbildung B∈Cn×n, so daß die Kovarianzmatrix des Zufallsvektors y=Bx

diagonalisiert wird mit

CK=E(y−µy)(y−µy)∗=r2

n−1





1...





(2.94)

Beweis für reellen Fall. Für jeden Hyperkreis K∈ Kn−2⊂ Engibt es ein Normal n∈

En. Wir wählen nun als die Abbildung Aaus Lemma 2.4.23 auf S. 52 den Householder-

Reflektor H[Witt, 1937, 1998] [Kaplansky, 1974, p. 17] [Householder, 1972, 1975] [Laurie,

1997a,b], die das Normal n∈ Enin die Richtung des ersten kanonischen Basisvektors

e1= [ 1 0 0 ···0 ]Tabbildet, bzw. alle Koordinaten des Normals nbis auf die Erste

annihiliert. Sei Householder-Vektor

v=n±knk2e1,v∈ En,(2.95)

so daß die Householder-Transformation ergibt

Hn = (I−2P)n=I−2v vT

vTvn=∓knk2e1=∓knk2













,(2.96)

wobei Pist ein Orthoprojektor auf den 1-dimensionalen Raum vom Householder-Vektor

span {v}. Mit der Transformation y=Hx ist nun die erste Koordinate des Zufallsvektors

y∈H(Kn−2)eine Konstante. Infolgedessen verschwindet das Element c11 der Kovarianz-

matrix CKn−2. Mit gleicher Technik wie im Beweis vom Lemma 2.4.21 auf S. 50 erhalten

wir r2/(n−1) für die restlichen diagonalen Elemente und 0für die nicht-diagonalen Ele-

mente. Die reeller Householder-Reflektor Hbesitzt folgende Eigenschaften:

•Hist symmetrisch, HT=H,

•Hist involutorisch, H2=I,81

•Hist orthogonal, H2=I,

•Hhat eine konstante Determinante, det H=−1,

•Hbesitzt den Vektor nT/knk2als die erste Zeile bzw. die erste Spalte,

•Hbildet den Vektor nin die Richtung des Basisvektors e1ab.

80Im allgemeinen gilt (AB)†=B†A†nicht. Die Aussage (ACA∗)†=A∗†C†A†ist ebenfalls falsch,

selbst wenn Aregulär und Cselbstadjungiert, nicht-negativ definit ist. Hier handelt sich um unitäre Matrix U.

Wir haben (UAV)†=V∗A†U∗für unitäre Matrizen Uund V[Pringle und Rayner, 1971, pp. 30–32] [Rao

und Mitra, 1971, p. 67] [Ben-Israel und Greville, 1974, p. 25] [Campbell und Meyer, 1979, pp. 11–12, Theorem

1.2.1]. Daher konnten wir das Lemma 2.4.26 nicht auf diese Weise für beliebigen Endomorphismus beweisen.

Dieses Lemma soll für beliebige, reguläre Matrix erweiterbar sein. Es genügt allerdings, um den Korollar 2.4.32

(S. 58) beweisen zu können. (cf. mahr.m und matstat -mpB.)

81Eine involutorische Matrix heißt auch unipotente Matrix, die zu sich selbst invers ist.

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

Beweis für komplexen Fall. Für jeden Hyperkreis Kn−2⊂ Ungibt es ein Normal n∈ Un.

Wir wählen als die lineare Abbildung Aaus Lemma 2.4.23 auf S. 52 eine unitäre Matrix

U∈Cn×n, die das Normal n∈ Unin die Richtung des ersten kanonischen Basisvektors

e1= [ 1 0 0 ···0 ]Tabbildet, bzw. alle Koordinaten des abgebildeten Normals Un bis auf

die Erste annihiliert. Seien komplexe Skalaren α, eıθ ∈C, und der n-Vektor v∈ Unmit

v=n±knk2e1,v∈ Un(2.97)

und die gesuchte unitäre Matrix U∈Cn×n, so daß

Un = (I−2αP)n

=I−2<(v∗n)

(v∗n)

v v∗

v∗vn(2.98)

=I−P−eıθPn

=I−v v∗

v∗v−eıθ v v∗

v∗vn

= I−v v∗

v∗v−(v∗n)

(v∗n)

v v∗

v∗v!n(2.99)

=∓knk2e1=∓knk2







1 + 0ı







,(2.100)

wobei

P=v v∗

v∗v, α =<(v∗n)

(v∗n)eıθ =(v∗n)

(v∗n)und θ=−2∠(v,n).(2.101)

Mit der Transformation y=Ux ist nun die erste Koordinate des Zufallsvektors y∈

U(Kn−2)eine Konstante. Infolgedessen verschwindet das Element c11 der Kovarianzma-

trix CKn−2. Mit gleicher Technik wie im Beweis vom Lemma 2.4.21 auf S. 50 erhalten wir

r2/(n−1) für die restlichen diagonalen Elemente und 0für die nicht-diagonalen Elemente.

Die unitäre Matrix Uim komplexen Fall unterscheidet sich von der Householder-Matrix H

im reellen Falle dadurch, daß

•Ukeine selbstadjungierte Matrix mehr ist, U∗6=U,

•Ukeine involutorische Abbildung mehr ist, U26=I,

•Ueine unitäre Matrix bleibt, U∗=U−1,

•sich der Normalvektor nals n∗/knk2in der ersten Zeile der unitären

Matrix Ubefindet. Die unitäre Matrix Ubesitzt also eine Form

U=∓n∗/knk2

K∗,K∈Cn×(n−1).(2.102)

Ist n∗e1∈Rbzw. α=<(v∗n)/(v∗n) = 1 oder ω=v∗n/(v∗n) = 1, so reduziert sich

die unitäre Matrix Uauf die Householder-Spiegelungsmatrix Hvom reellen Fall.

KAPITEL 2. GRUNDLAGEN

Bemerkung 2.4.28 (Komplexe „Householder-Spiegelung“). Nota bene! Householder-Spie-

gelung oder Householder-Transformation 82 ist ein teures Beipiel, an dem der reelle Fall

nicht zum komplexen Fall überführt werden kann, indem man einfach die Transponierte

durch die Hermitesche (d. h. konjugiert Transponierte) ersetzt. 

Bemerkung 2.4.29 (Householder-Spiegelung). Die Householder-Spiegelung oder House-

holder-Transformation die im Beweis vom Lemma 2.4.27 auf S. 54 benutzt worden ist,

ist darüber hinaus sehr robustes Verfahren zur Orthogonalisierung. Sie wird oft in Nume-

rik dazu benutzt, um 0in eine Matrix unter Ähnlichkeitsbedingung einzuführen. Da die

Matrix Hstets eine normalisierte Version des Normalvektors n/knk2in der ersten Spalte

enthält, spannen also die restlichen n−1Spalten der Matrix Hdas orthogonale Komple-

ment span {n}⊥orthonormal auf. Dies ist eine orthonormale Basisvervollständigung, bei

der das Gram-Schmidtsche Orthogonalisierungsverfahren [Gram, 1883], [Schmidt, 1907a,

p. 442] nicht verwendet werden kann. Denn das Gram-Schmidtsche Verfahren ben¨

tigt alle

nlinear unabhängigen Vektoren, um starten zu können. Es ist implementiert als gmat.c

-o in matsrc0/gmat.c/house_orth2()83. denn es ist sehr häufig erforderlich, ei-

ne orthonormale basis aus einem vorgegebenen Vektor zu finden, wie wir es im Algorith-

mus 2.4.19 (S. 50) gebraucht haben. Dieses Verfahren besitzt folgende Vorteile:

1. Da die Matrix nicht nur unitär, sondern auch eine selbstadjungierte Invo-

lution ist, d. h. ,H−1=H∗=H, erspart man das Transponieren bei

Bedarf einer Inversion. Vgl. Gl. (2.7) auf S. 10.

2. Householder-Orthogonalisierung ist numerisch stabiler als z. B. die Gi-

vens-Drehung, und sie benötigt weniger Operationen als das modifizierte

Gram-Schmidt-Verfahren 84.

3. Dies dient auch für die Berechnung des Nullraums bzw. orthonormalen

Komplements, das das Gram-Schmidtsche Verfahren nicht anbieten kann.

(Siehe Abb. 2.2 auf S. 20.)

4. Dies ist anwendbar für arbiträre endliche Dimension im Vergleich zu an-

deren Verfahren, die nur für z. B. 3-dimensionalen Raum bestimmt sind.

(Siehe basis33.c.)

Für mehr Details über Householder-Spiegelung siehe Kommentare in Datei matsrc0:

gmat.c,hm.m,Monographienvom Urheber [Householder,1972]und[Householder, 1975]

[Laurie, 1997a,b] oder [Witt, 1937, 1998] [Stewart, 1973b, pp. 231–235] [Kaplansky, 1974,

p. 17] [Strang, 1980, pp. 392-397] [Gill et al., 1991, p. 121] [Golub und Van Loan, 1983,

pp. 38-39].

Korollar 2.4.30 (Kovarianzmatrix des Hyperkreises). Sei gleich verteilter Zufallsvektor

x∈Cnauf einem Hyperkreis K∈ Kn−2⊂ Unmit Normalvektor n∈ Unund radius

r∈R, dann ist die generelle Form der Kovarianzmatrix CKn−2durch den Orthoprojektor

82Alston Scott Householder (1904–1993) nannte solche Reflektoren „elementary Hermitian matrix“,„elemen-

tary reflections“ in [Householder, 1972, pp. 11-16, §2] [Householder, 1975, pp. 3–4 §1.1, pp 133–139] [Laurie,

1997a,b].

83Die numerische Stabilität ist wohl behandelt durch [Stewart, 1973b, pp. 231–235].

84[Gram, 1883], [Schmidt, 1907a, p. 442] [Golub und Van Loan, 1996, p. 263]

2.4. MESSDATEN UND SINGULÄRWERTZERLEGUNG

auf den Richtungsteilraum des Hyperkreises gegeben durch:

CKn−2=E[ (x−µx)(x−µx)∗]

=r2

n−1Pspan{n}⊥

=r2

n−1KK∗

K∗K,(2.103)

wobei die n×(n−1) Matrix Keine Basis für span {n}⊥als Spaltenvektoren enthält,

d. h. das n−1-dimensionale orthogonale Komplement des Raumes span {n}.

Beweis. Aus (2.94) vom Lemma 2.4.27 auf S. 54, und Lemma 2.4.23 auf S. 52 existiert

eine unitäre Abbildung y=Ux, so daß die Kovarianzmatrix des transformierten Vektors y

CKn−2(y) = U−1





r2/(n−1) ...

r2/(n−1)





U∗−1,

wobei U∈Cn×ndie unitäre Matrix aus Gl. (2.98) auf S. 55 ist mit

U=I−2αP=I−v v∗

v∗v−(v∗n)

(v∗n)

v v∗

v∗v,v=n±knk2e1.

Sei K∈Cn×(n−1)(K∗K=In−1)aus Gl. (2.102) auf S. 55. Da die unitäre Matrix

U−1=U∗den Vektor ∓n∗/knk2als die erste Zeile besitzt, die n−1Spalten in Kspan-

nen das orthonormale Komplement des Raumes span {n}, d. h., den Richtungsteilraum

des Hyperkreises Kauf.

CK=U∗





r2/(n−1) ...

r2/(n−1)





U

=r2

n−1[U∗]





1...





[U∗]∗

=r2

n−1∓n

knk2

K





1...





∓n

knk2

K∗

=r2

n−1KK∗=r2

n−1Pspan{n}⊥.

Die theoretische Kovarianzmatrix (2.103) im Korollar 2.4.30 (S. 56) ist zur Referenz

stets durch ghyper.c -c ausgegeben.

KAPITEL 2. GRUNDLAGEN

Korollar 2.4.31 (Spur der Kovarianzmatrix des Hyperkreises). Sei gleich verteilter Zu-

fallsvektor x∈Cnauf einem Hyperkreis K∈ Kn−2⊂Un mit radikus r, dann ist die Spur

der Kovarianzmatrix

tr CK= tr E[ (x−µx)(x−µx)∗] = r2.(2.104)

Beweis. Diese Folgerung ergibt sich trivial sowohl aus dem Lemma 2.4.27 auf S. 54 als

auch aus dem Korollar 2.4.30 (S. 56).

Wir wollen hier kurz zusammenfassen darüber, wohin wir hinaus wollen und was wir

bisher haben. Da die Kovarianzmatrix eines Zufallsvektors auf einem Hyperkreis stets sin-

gulär ist, können wir nur von unserer regularisierten Mahalanobis-Distanz sprechen. Um

nützliche Fakten über die regularisierte Mahalanobis-Distanz des Hyperkreises aussagen

zu können, brauchen wir eine möglichst einfache Form der Kovarianzmatrix. Ähnliches

geschah für die Hypersphäre ohne Umstand im Korollar 2.4.22 (S. 52), weil die Punkte iso-

tropisch um das Zentrum verteilt, ergo die Kovarianzen verschwunden sind. Im Falle des

Hyperkreises sind die Zufallspunkte nicht mehr isotropisch um das Zentrum verteilt, son-

dern vom Normalvektor abhängen. Infolgedessen besitzt die Kovarianzmatrix im generellen

nicht mehr immer eine diagonale Form. Um mit einer diagonalen Form der Kovarianzma-

trix arbeiten zu können, mußten wir wissen, ob sich der Zufallsvektor transformieren läßt,

während die regularisierte Mahalanobis-Distanzen unverändert bleiben. Zu diesem Zweck

besagt das Lemma 2.4.26 auf S. 53, daß auch die regularisierte Mahalanobis-Distanz inva-

riant ist unter unitären Abbildungen des Zufallsvektors. Eine spezifische unitäre Abbildung,

die die Kovarianzmatrix in eine diagonale Form umwandelt, haben wir im Lemma 2.4.27

auf S. 54 gegeben. Dies folgt daraus, indem wir das Normal des Hyperkreises in die Rich-

tung des ersten Vektors e1der Standard-Basis „spiegeln“ (cum grano salis), d. h., den Hy-

perkreis isometrisch senkrecht zum Vektor e1„drehen“. Am Rande haben wir im Korol-

lar 2.4.30 (S. 56) die allgemeine Form der Kovarianzmatrix und den Orthoprojektor des

Richtungsteilraumes in Verbindung gesetzt. Mit den o. a. Ergebnissen, sind wir nun aus-

zusagen bereit, daß auch der Erwatungswert der regularisierten Mahalanobis-Distanz aller

Punkte auf einem Hyperkreis eine Konstante ist, die nur von der Dimension abhängt.

Korollar 2.4.32 (Regularisierte Mahalanobis-Distanz des Hyperkreises). Sei Zufalls-

vektor x∈ Ungleich verteilt auf einem (n−2)-Hyperrkreis K∈ Kn−2⊂ Un, dann ist der

konstante Erwartungswert der regularisierten Mahalanobis-Distanz aller Punkte auf dem

Hyperkreis

Er

dM(x∈K)=√n−1.(2.105)

Beweis. Sei r∈Rder Radius des Hyperkreises. Laut Lemma 2.4.26 auf S. 53 ist das Pro-

blem äquivalent zu dem mit dem Zufallsvektor y=Bx, wobei Beine durch Lemma 2.4.27

auf S. 54 gegebene unitäre Abbildung ist. Der Erwartungswert der regularisierten, quadra-

tischen Mahalanobis-Distanz ist also

Er

dM2(y∈ Kn−2)=Eh(y−µy)∗C†

K(y−µy)i,

wobei die Kovarianzmatrix CKin der quadratischen Form ist eine Konstante laut Lem-

ma 2.4.27 auf S. 54. Ersetzten wir sie durch Gl. (2.94) auf S. 54, so erhalten wir

Er

dM2(y∈ Kn−2)=r2

n−1†E(y−µy)T(y−µy)=n−1.

Da r

dM≥0, haben wir E[r

dM(x) ] = √n−1.

Kapitel 3

Ellipsenlokalisierung

Ein Kreis im 3-dimensionalen Raum ist unter der perspektiven Projektion eine Ellipse auf

der 2-dimensionalen Ebene [Kanatani, 1993]. Unser Ansatz, den in der Szene präsentierten

Kreis im 3-dimensionalen Raum zu vermessen, basiert auf der parametrischen Bestimmung

der entsprechenden Ellispe im Intensiätsskalarfeld (Luminanz) und eine Fusion derer mit

dem Tiefenvektorfeld (3-dimensionale Koordinaten), wobei das Skalarfeld I:R×R7→

Rund das Vektorfeld T:R×R7→ R3mit Pixel-Pixel-Korrespondenz auf derselben

Domäne definiert sind. Die parametrische Bestimmung der Ellipse im Skalarfeld verläßt

sich auf die Konturenextraktion aus dem Intensitätsbild. Wir beschreiben in diesem Kapitel

die Experimente der Konturenextraktion und Ellipsenbestimmung.

Im § 3.1 ab S. 59 stellen wir unseren Einsatz energiebasierter sowie gradientenbasierter

Methode zur „Kantendetektion“ und die Nachverarbeitung zur Formung der Konturen in der

Form verketteter Pixel vor.

Im § 3.2 ab S. 69 werden wir die Begründung unseres Ansatzes zur Ellipsen-Lokalisie-

rung und die experimentellen Ergebnisse derer auf natürlichen Szenen präsentieren.

3.1 Konturenextraktion

Die Konturenextraktion bildet die Basis vieler Aufgaben im Gebiet des „künstlichen Se-

hens“. Sie ist zwar nicht als der Schwerpunkt der Arbeit zu sehen, für unseren Ansatz zur

Lösung der Problematik ist sie aber experimentell unentbehrlich. Saubere Segmentierung

und Repräsentation der Konturen einer optisch empfangenen Szene ermöglicht eine syn-

taktische 85 Analyse und „semantische“ Inferenzen der Bildstruktur. Die Operationen auf

den höheren Ebenen auf dem Wege zur realistischen, und bis heute unbegreifbaren Begriff-

Formung in uns profitieren vor allem von einer starker Verminderung der Datenmenge.

Anstatt des gewöhnlichen Sprachgebrauches der „Kantendetektion“ wird hier „Kontu-

renextraktion“ benutzt. Eine Kontur kann hier eine Linie, eine Kante oder eine Mischung

(Cf. Abb. 3.1 auf S. 60) aus den beiden heißen. Mit Konturenextraktion eines Intensi-

85Parallel zur Linguistik werden hier die Relationen zwischen den Bildelementen (Pixeln) gemeint, die den

„Symbolen“ entsprechen. Die Zuweisung der Bildelemente zu einem Aggregat ist eine syntakische Strukturierung

der Bildelemente. Dieses Aggregat werden wir Kontur nennen.

KAPITEL 3. ELLIPSEN

(a) (b)

Abbildung 3.1: Kanten oder Linien: Demonstration eines fließenden Übergangs. Die anschauliche De-

monstration via Phasen-Kongruenz ist aus [Kovesi, 1999, 2002, fig. 2] entnommen. Das Bild (a) illu-

striert einen fließenden Übergang von einem Step zu einer Linie (step2line.m (500,-1,256)),

während das Bild (b) zu einem Dach (step2line.m (500,-2,256)). Der gradienten-basierte

Canny-Detektor (pgmcanny.c) weist hier Schwierigkeiten auf (Multi-Antwort und Verschiebung),

während die energie-basierten Methoden via Quadratur-Filterung (gfilt.c -s), mit Verminde-

rung der radialen Bandbreite bei (b), oder Phasen-Kongruenz die Hybride holistisch als vertikale

Geraden auffassen können. Die originalen 256 ×256 Bilder sind für Drucker Gamma-korrigiert

(pfmgamma.c) und daher für Wiederverwerten nicht geeignet. Für weitere Diskussionen über Hy-

briden-Konturen siehe auch [Perona und Malik, 1990, 1991]. (Nutzung der Bilder mit freundlicher

Genehmigung von Herrn Peter Kovesi, School of Computer Science & Software Engineering, The

University of Western Australia, 25. November, 2002)

tätsbildes meinen wir, als Resultat, ein Bild bzw. eine Sammlung der Konturenlisten meh-

rerer verketteten Konturenpixels, die sich ununterbrochen „sinnvoll“ zu der gleichen Kontur

gruppieren lassen. Für Inferenzen, ob syntaktische oder semantische, auf den höheren Ebe-

nen verlangen wir, daß eine herausgezogene Kontur ein-pixel-breit sei. Eine Konturenliste

enthält Konturenpixels, die binäre Werte annehmen oder eine „Konturenstärke“ kodieren

können. Anschaulich ist unter Konturenextraktion hier eine Art Federzeichnung des Ein-

gangsintensitätsbildes vorzustellen. Cf. Abb. 3.2 auf S. 63 oder Abb. 4.6 auf S. 87.

Die Güte einer Konturenextraktion wird in der Arbeit vor allem visuell bewertet und

Kontrolliert. Der Grund dafür ist die Abwesenheit einer allgemeingültigen und weitgehend

akzeptierten Definition des Begriffes Kontur, denn in dem Begriff sind u. a. auch kognitive

und psychologische Faktoren involviert. Auf der anderen Seite, vertreten wir die Meinung,

daß trotz strenger theoretischen Entwicklung eine visuelle Inspektion der Ergebnisse stets

notwendig sei, Daher fordern wir auch hierbei auf, daß ein gemeinsames, leicht zugäng-

liches Referenzbild, z. B. das Lena-Bild in Abb. 3.2 auf S. 63 [Lena Sjööblom-Soderberg,

1972] [Munson, 1996], verwendet werde, damit zumindest die Ergebnisse visuell verglichen

werden könnten.

Ein Kriterium zur Güte der Konturenextraktion, das wir unter Umständen stellen könn-

ten, ist die „Idempotenz-Eigenschaft“ [Halmos, 1958, pp. 73–78] des Konturenextraktors

(cf. § 2.1.1 ab S. 8). Nach unserer ad hoc operativen Definition der Konturen (cf. Fußno-

te 85 auf S. 59) mit Konturenverkettung (cf. Abb. 3.2 auf S. 63, Abb. 4.6 auf S. 87), dürfen

wir erwarten, daß von einer nochmaligen Konturenextraktion sich dasgleiche, oder zumin-

dest ein „Ähnliches“ ergebe. Wir bedenken jedoch, daß ein idempotenter Operator linear

sein muß, während unser Konturenextraktor mit einem binären Ergebnis insgesamt nicht-

3.1. KONTURENEXTRAKTION

linear ist. Wie dem auch sei, sind wir im Stande, visuell die „Idempotenz-Eigenschaft“ der

Konturenextraktoren experimentell „mit Gewissheit“ festzustellen. Wir sprechen daher in

diesem Zusammenhang von einer Pseudo-Idempotenz.86

Wir werden hier die eingesetzten und entwickelten Verfahren mit Kommentaren zur Im-

plementierung minimal beschreiben. Wegen der Schlechtgestellheit [Hadamard, 1923] der

Problematik der Konturenextraktion spielt die Implementierung hier eine relativ signifikan-

tere Rolle, denn bei jeder Auflösung der Ambiguität in einem veröffentlichen Verfahren wird

sehr oft zu verschiedenen Ergebnissen geführt. Daher wäre eine Beschreibung unserer Ver-

fahren ohne Verweis auf die wirklich beitragenden C-Quellkoden unvollständig.

Unsere Wahl der Verfahren zur Konturenextraktion erster Phase ist zweierlei,

1. Gradienten-basierte Methode: Canny-Detektor (pgmcanny.c -g),

2. Energie-basierte Methode: Gabor-Filterung (gfilt.c -s),

wobei hauptsächlich die erste Methode zugunsten des Rechenaufwands verwendet wird

(pgmell.sh,pose.sh). Es sei dran erinnert, daß der Canny-Detektor nur für Kanten

(Step) gedacht und optimiert ist, und bei einem Signal wie in Abb. 3.1 auf S. 60 die Eindeu-

tigkeit87 der Antwort verlieren wird. Dennoch ist der Canny-Detektor ein hervorragendes

Verfahren und wird deutlich am meisten zitiert und verwendet. Er ist nach wie vor das de

factor Standardverfahren zur Kantendetektion seit 1983. Die Abb. 3.2 auf S. 63 illustriert

das endgültige Ergebnis unserer Konturenextraktion via gradienten-basierten Canny-Detek-

tor am Beispiel Lena und eine Szene unseres Laboratriums. Die zweite Methode via lokale

Energie [Morrone und Owens, 1987] [Venkatesh und Owens, 1989] wird benötigt, wenn

der Canny-Detektor überfordert wird, wie z. B. im Falle, wo die Lokalisierung der Linien-

Konturen in Abb. 3.2–(c) auf S. 63 und der Hybriden-Konturen in Abb. 3.1 auf S. 60 kri-

tisch ist, oder in Abb. 3.4 auf S. 66 und Abb. 3.5 auf S. 67, wo die „Konturen“ nur in der

Tiefenstruktur impliziert und physikalisch nicht vorhanden sind.

Das Resultat der Konturenextraktion erster Phase sind zwei „gradientenähnliche“ Ska-

larfelder 88. Zur zweiten Phase der Extraktion verwenden wir Canny’s Non-Maximum-

Suppression 89 [Canny, 1983, 1986], um die Pixel zu unterdrücken, derer Konturenstärken

86Die Rolle der Idempotenz in der Bildverarbeitung ist sehr wenig diskutiert worden [Frei und Chen, 1977]

[Gonzalez, 1987, pp. 340–347] [Owens et al., 1989]. [Frei und Chen, 1977] formulieren die Problematik in einer

hohen dimensionalen Raum Rm×n, in dem ein m×nBild als ein mn-Vektor im linearen Raum betrachtet wird,

während wir hier ein Bild als ein Skalarfeld I:R×R7→ Rbehandeln.

87Die Eindeutigkeit ist eines der Kriterien der Optimalität des Canny-Detektors. Die Kreterien der Optimalität

sind: 1. gute Detektion mit maximalem S/N, 2. gute Lokalisation der Kanten, und 3. einfache Antwort auf ei-

ne Kante. Der optimale Detektor demzufolge ist allerdings nicht die Gaußsche Ableitung (Gaussian derivative),

sondern ihr sehr ähnlich [Canny, 1986], während pgmcanny.c die Gaußsche Ableitung via iir.c [Deriche,

1993] zur Approximation des Detektors verwendet, wobei die Gaußsche Ableitung wiederum als regularisierte

Realisierung des Gradienten gedacht weden darf. Cf. Fußnote 88 auf S. 61.

88Der Gradient am Vektor x=x1,...,xnT∈Rneines Skalarfeldes, I(x) : Rn7→ R, ist ein Vektorfeld

Rn7→ Rn

∇I(x) = h∂I

∂x1· · · ∂I

∂xni(3.1)

Im 2-dimensionalen Fall, R27→ R2, läßst sich das Vektorfeld in zwei Skalarfeldern darstellen — das eine für den

Betrag und das andere für die durch einen Winkel kodierten Richtung des 2-Vektors. Im Skalarfeld für den Betrag

kodieren wir die lokalen Konturenstärken (Cf. Abb. 3.7 auf S. 69). Im Skalarfeld der Winkel tragen wir die lokalen

Richtungen der Konturenpixel ein und nennen wir es „Orientierungskarte“ (pgmcanny.c -g). Mit „gradienten-

ähnlich“ wird zwei Skalarfelder gemeint, die durch andere Mittel wie z. B. Quadratur-Filterung (Cf. gfilt.c

-s und Abb. 3.7 auf S. 69) oder Diagonalisierung der Matrix der ersten Fundamentalform bzw. des Riemannten-

sors (pfmgauge.c -1) [Hilbert und Cohn-Vossen, 1932, 1952] [Heckbert und Garland, 1999] gewonnen und als

Konturenstärke sowie Oritentierungskarte benutzt werden.

89Siehe auch [Sahoo et al., 1988] für eine Übersicht für die Technik der Unterdrückung unerwünschter Konturen.

KAPITEL 3. ELLIPSEN

keine lokale Maxima sind. Das Ergebnis wird durch Hysterese-Schwellenwert-Verfolgung

(pfmdir.c -H) oder „dynamische Schwellenwert-Verfolgung“ (pgmlink.c -D) [Ven-

katesh und Rosin, 1995] zu den endgültigen Konturen verkettet, wobei die isolierten Pixel,

die Statistik (lstfilt.c -s) der Konturen und ihre Gewichte je nach Bedarf behan-

delt werden. Obwohl das Ergebis der Konturenextraktion im Grunde ein binäres Skalarfeld

Ib:R27→ {0,1}ist, wobei die Domäne R2nun auf die Konturen stark eingeschränkt ist,

sind die Konturenstärken an diesen Stellen zur Verfügung in den Listen beibehalten. Trotz

weiterer Entwicklung sind unsere Implementierung dies bezüglich und das ASCII-Format

für die Konturen-Listen und Ellipsen-Listen den Veröffentlichungen und den entsprechen-

den Quellcoden von [Rosin, 1994] [Venkatesh und Rosin, 1995] [Rosin und West, 1995]

[Rosin, 1995] [Rosin und West, 1989] [Rosin und West, 1997] sehr zu verdanken.

3.1.1 Canny-Detektor und Gabor-Filterung

Canny-Detektor [Canny, 1983, 1986] (pgmcanny.c)90 wird vor allem zur Konturen-

detektion auf dem Skalarfeld I:R×R7→ Reiner Szene (bzw. dem Intensitätsbild) ver-

wendet. Solches liefert die „optimalen Kanten“, in denen die Kanten-Stärke kodiert sind.

Die dazugehörige Gaußsche Glättung und diskrete Ableitung des Eingangsbildes wird zu-

gunsten der Präzision und des Zeitaufwands statt einer festen Faltungsmaske durch einen

rekursiven Filter [Deriche, 1993] (iir.c ) im Ortsbereich oder durch DFT (dft.c -X -Y

) im Ortsfrequenzbereich durchgeführt 91.

Obwohldie GaußscheGlättung(pgmgauss.c)oderGaußsche Ableitung (pgmcanny.c

-g) am Eingang des Canny-Detektors kongenial einen stochastischen, nachrichtentechni-

schen Charakter [Canny, 1986] besitzt, läßt sich allerdings aus einer ganz anderen Sicht

als eine lineare, neutrale und regularisierende Apertur betrachten. Die Gaußsche Glättung

läßt sich als die lineare und neutrale Apertur der Beobachtung interpretieren, die nicht in

der physikalischen Realität zu umgehen ist. Für eine lineare sowie neutrale (uncommitted

[ter Haar Romeny, 1999]) Beobachtung ohne Vorzug aller Merkmale bis auf eine „Ska-

la“ (scale) ist wieder einmal die Gaußsche Apertur Gl. (2.66) auf S. 42 die einzige Lö-

sung [ter Haar Romeny, 1999]. Diese Skala (scale) entspricht der Standardabweichung σ

(pgmcanny.c -s) der Gaußschen Apertur. Auf der anderen Seite, da die partielle Ablei-

tung in Canny-Detektor pgmcanny.c schlech-gestellt ist, ist solche durch dieselbe Gauß-

sche Apertur zu regularisiren [Schwartz, 1951, 1966] [Florack et al., 1992] [ter Haar Ro-

meny, 1999]. Als Konsequenz ist die regularisierte Ableitung des diskretisierten Bildes eine

Faltung mit der Gaußschen Ableitung (Gaussian derivative), die in pgmcanny.c imple-

mentiert ist. Die Gaußsche Funktion und ihre Ableitungen sind Lösungen der linearen Dif-

fusionsgleichung, die den linearen Skala-Raum (scale-space) generiert (cf. Abb. 3.3 auf

S. 64).

Gabor-Filterung verwenden wir andererseits im Laboratrium GET, Universität Pader-

born, um biologisch plausibel die Bild-Konturen zu extraieren. Der Einsatz der Gabor-Fil-

90pgmcanny.c ist im Stande, Bilder in PBM-, PGM-, oder PFM-Format zu bearbeiten. Intern wird in IEEE-754

single [IEEE, 1985] berechnet. Das Programm benutzt die (unendlich ableitbare) Gaußsche Apertur und führt die

Ableitungen erster Ordnung entlang der beiden „praktischen Bildbasen“ unter Gaußscher Regularisierung aus, da

eine Ableitung schlectgestellt ist [Schwartz, 1951, 1966] [ter Haar Romeny, 1999].

91In vielen Implementierungen werden zur Gättung kleine oder große räumliche Faltungsmasken der Gaußschen

Approximation und zur Ableitung kleine Maske wie z. B. der Sobel-Operator verwendet [Sobel, 1990] [Daniels-

son, 1990].

3.1. KONTURENEXTRAKTION

(a) (b)

Abbildung 3.2: Canny-Detektor mit Hysterese-Schwellenwert-Kantenverfolgung- und -Verkettung am

Beispiel Lena und Rad [Canny, 1983, 1986]. Die Ergebnisse der Konturenextraktion (pgmcanny.c

-s1-gund gradedge.sh-H) aus den 512×512 Intensitätsbildern (a) [Lena Sjööblom-Soderberg,

1972] [Munson, 1996] und (c) sind jeweils in (b) und (d) in Postscript wiedergeben. Als Apertur wurde

der Wert σ= 1.2(pgmcanny.c -s1.2) zur Gaußschen Regularisierung der patiellen Ableitung

verwendet [ter Haar Romeny, 1999]. Die originalen 512 ×512 Bilder (a) und (c) sind für Drucker

Gamma-korrigiert (pfmgamma.c) und daher für Wiederverwerten nicht geeignet.

KAPITEL 3. ELLIPSEN

Abbildung 3.3: Die weitere, mit inbegriffene Dimension der Bild-Struktur. Die Beobachtung einer

Szene kann nur durch eine Apertur erfolgen. Die Variation des „Umfangs“ einer linearen, neutralen

Apertur generiert eine weitere Dimension der wahrgenommenen Bildstruktur. Ohne explizite Benen-

nung strukturiert Hartmann [Hartmann, 1982] hierarchisch die Bild-Merkmale in dieser Dimension.

Koenderink [Koenderink, 1984] hat die lineare Diffusionsgleichung ∂L/∂s =~

∇ · ~

∇L= ∆L=

Lxx +Lyy als die generierende Gleichung für den linearen Skala-Raum (scale-space) [Witkin, 1983]

identifiziert, daß die partielle Ableitung in Skala (scale) gleich dem Laplacian des Luminanzfeldes ist.

Die Gaußsche Funktion ist die Greensche Funktion der Diffusionsgleichung [ter Haar Romeny, 1999].

(Mit freundlicher Genehmigung von Herrn Bart M. ter Haar Romeny, Image Sciences Institute, Uni-

versity Medical Center, The Netherlands, 7. Februar, 2001, ist diese Abbildung aus [ter Haar Romeny,

1999] entnommen.)

terung 92 in der Bildverarbeitung wird oft durch die neurophysiologischen Fakten inspiriert,

wobei die Quadratur-Funktionen 93 das lineare Verhalten der orientierungsselektiven einfa-

chen Zellen 94 eingesetzt, da in der primären visuellen Rinde (V1, Schichten 4und 6) wegen

ihrer Phasenrelationens [Pollen und Ronner, 1981] paarweise modellieren sollen. Deswei-

teren scheinen die komplexen Zellen (in V1, Schichten 2,3und 5) auf die Stimuli im rezep-

tiven Feld nicht-linear zu reagieren, wobei die Ausgangssignale mehreren einfachen Zellen

weiter zu verknüpfen und keine Differenzierung der (Quadratur-)Phasenverschiebung der

92Siehe [Gábor, 1946] [Ville, 1948] [Marcelja, 1980] [Bastiaans, 1980] [Daugman, 1980, 1985] [Jones und

Palmer, 1987a,b].

93Eine reelle, „quasi Einseitenband“-Übertragungsfunktion auf der 2-dimensionalen Fourier-Halbebene ent-

spricht einer komplexen Funktion in der Ortsdomäne. Die Real- und Imaginär-Teile der komplexen Übertragungs-

funktion im Ortsbereich stehen in Qudratur-Phasenrelation und werden zur Modellierung [Marcelja, 1980] [Daug-

man, 1980, 1985, 1989] der einfachen Zellen [Hubel und Wiesel, 1962] [Bishop et al., 1973] [Goodwin et al., 1975]

eingesetzt, da die einfachen Zellen meist ebenso in Quadratur-Phasenrelationen paarweise zu finden sind [Pollen

und Ronner, 1981]. Jeder unserer Gabor-Kanäle ergo modelliert zwei in Quadratur-Phasenrelation stehenden ein-

fachen Zellen [Movshon et al., 1978b; Movshon und Tolhurst, 1975] [Andrews und Pollen, 1979] [Marcelja, 1980]

[Daugman, 1985, pp. 1164–1165]. Obwohl ein 1-dimensionales analytisches Signal [Gábor, 1946] [Ville, 1948]

und Hilbert-Transformation [Bracewell, 1987] wohl definiert sind, findet man bis heute keinen Konsens über eine

Definition multi-dimensionaler Hilbert-Transformation und multi-dimensionalen analytischen Signals. Die Riesz-

Transformation [Bülow et al., 2000], partielle Hilbert-Transformation [Hahn, 1992], analytisches Bild [Havlicek

et al., 1997] wurden u. a. vorgeschlagen. Siehe auch [Peyrin et al., 1968] [Zhu et al., 1990] [Havlicek et al., 2000]

und dft.c -H1.

94Die Organization der Zellen und ihrer rezeptiven Felder auf der Retina wurde zuerst in [Hubel und Wiesel,

1962, 1974, 1978], anschließend in [Bishop et al., 1973] [Goodwin et al., 1975] beschrieben, während die Linearität

der Zellen in [Movshon et al., 1978a,b; Movshon und Tolhurst, 1975] diskutiert wurde.

3.1. KONTURENEXTRAKTION

Stimuli aufzuweisen. Da die einfachen Zellen verschiedene Bereiche (Mittelfrequenzen 95

) auf der Fourier-Ebene verdecken, und unterschiedliche Orientierung des Mittelfrequenz-

vektors, radiale Bandbreite und Orientierungsbandbreite 96, werden oft Multi-Kanäle Fil-

terung mit der Gabor-Funktion vorgenommen.

In gfilt.c werden lineare Multi-Kanal-Gabor-Filterungen (MKGF), nicht-lineares

„Energie-Modell“ [Adelson und Bergen, 1985] und nicht-lineare Verknüpfung via „The-

winner-takes-it-all“ (WTIA) 97 am Ausgang der Kanäle implementiert. Im Gegensatz zu

unserer alten Implementierung in [Trapp, 1998] verfügt die Implementierung über die Fle-

xibilität, daß sich alle Parameter der Übertragungsfunktionen ändern und online generieren

lassen. Dies ist wichtig auch für weitere Untersuchungen, denn der Parameter-Raum einer

einzigen Übertragungsfunktion auf der Fourier-Ebene ist mindestens 4-dimensional 98. Mit

solcher Komplexität ist eine experimentelle Möglichkeit für die Verifizierung einer Konjek-

tur immer hilfreich, wenn nicht erforderlich. In Abb. 3.4 auf S. 66 wird die Extraktion einer

optisch nicht-vorhandener Konturen via gfilt.c demonstriet, was mittels existeriender

Implementierung unserer Gabor-Filterung nicht machbar ist. In dieser Abbildung wird der

optisch nicht-vorhandene Kreis von xclock aus dem X11 lokalisiert. Der kritische Punkt

in diesem Beispiel ist eine Drehung der (notwendigerweise) elliptischen Gabor-Funktion

um das Eigen-Zentrum um π/2, daß sich die Antworten im Ortsbereich zu verknüpfen an-

fangen. Desweiteren sind beispielsweise die Experimente in Abb. 3.5 auf S. 67 und Abb. 3.6

auf S. 68, wo die Elliptizität, radiale Bandbreite, Mittelfrequenz, und die Positionierung der

Kanäle auf der Fourier-Ebene variiert werden müssen, was nur durch die neue Implemen-

tierung gfilt.c möglich ist.

95Da die Ortsfrequenz in unserem Fall ein 2-Vektor (mit DC in der „Mitte“) der Fourier-Ebene ist, wird sie hier

polar via Betrag und Richtung angesprochen. Unsere Konvention der Richtung eines Ortsfrequenzvektors sei hori-

zontal von rechts im Uhrzeigersinn. Die Richtung eines Ortsfrequenzvektors entspricht also in der Ortsdomäne der

Propagierungsrichtung der „Welle“. Mit der Abkürzung Frequenz sei der Betrag eines Ortsfrequenzvektors ge-

meint, welcher eine gewöhnliche Einheit besitzt. Ein Fourier-Pixel (unserer Bezeichnung) auf der Fourier-Ebene

entspricht im Ortsbereich einem Zyklus/Bild bzw. cpi (cycle per image). Das heißt, eine Verschiebung um 1Pixel in

der radialen Richtung von DC auf der Fourier-Ebene entspricht im Ortsbereich einer Änderung von 1Zuklus/Bild

(cpi) der harmonischen Schwingung. Wir benutzen außerdem „Nyquist“ (gfilt.c -w) als eine „bildgrößenun-

abhängige“ Einheit für die Frequenz (im Bezug auf Pixel). Die Frequenz von 1„Nyquist“ (unserer Konvention) ist

also die höchstmögliche Abtastrate, welche einer Wellenlänge von 2Pixeln pro Zyklus (gfilt.c -l)unabhän-

gig von der Bildgröße entspricht. Sinnvolle Werte der Frequenz seien also in [0,1] Nyquist. Die voreingestellte

Mittelfrequenz in gfilt.c,-w0.5, heißt immer 4Pixel pro Zuklus (gfilt.c -l4). Nota bene: In dieser Kon-

vention wird allerdings ein größeres Bild mit „höherer Auflösung“ (im Bezug auf der Bildgröße) mit den gleichen

Parametern in unserem gfilt.c gefiltert.

96Die Bandbreite ist hier durch FWHM (full-width-half-maximum) der Übertragungsfunktion in der Fourierdo-

mäne gegeben, was für die Intensität der Objekte in der astronomishen Bildverarbeitung üblich ist. Die FWHM

entspricht 2σp2 ln(2) ≈2.35482σfür Gl. (2.67) auf S. 43. Wir adoptieren die Definitionen der radialen Band-

breite und Orientierungsbandbreite in [Bovik et al., 1990, Fig. 3]. Da wir die Übertragungsfunktion im Fourier-

bereich initialisieren, läßt sich der Filterentwurf von den vorgegebenen Parametern (Mittelfrequenz, Bandbreiten,

Orientierung, Exzentrizität) in gfilt.c unkompliziert online-ausführen.

97The-winner-takes-it-all ist ein Algorithmus der nicht-linearen Verknüpfung der lokalen Energie [Adelson und

Bergen, 1985] am Ausgang der NKanäle: F−1G(arg maxi|hi(x,y)|)(u, v)I(u, v),i∈ {0, . . . , N −1}, wo-

bei Gi(u, v) = F[hi(x, y)] der i-te Gaborkanal in Fourierdomäne, I(u, v)das zu bearbeitende Bild im Fourier-

Bereich sind. Siehe gfilt.c für Details.

98Die Mittelfrequenz ist ein 2-Vektor auf der Fourier-Ebene. Die Bandbreite (oder die Elliptizität bzw. aspect

ratio der 2-dimensionalen Gabor- bzw. Gaußschen Funktion) ist ein 2-Vektor (Orientierungsbandbreite und radia-

le Bandbreite). Diese Dimensionierung schließt bereits eine beliebige Drehung eines elliptischen Gaussians um

das eigene Zentrum und die Anordnung multikanäler Übertragungsfunktionen auf der Fourier-Ebene aus. Alterna-

tiv kann die Dimensionierung im Zusammenhang vom Gaborschen „logon“ [Gábor, 1946] interpretiert werden.

Ein logon im Falle einer 2-dimensionalen Gaborschen bzw. Gaußschen Funktion ist ein 4-dimensionaler Hyper-

würfel im Verbund-Orts-Fourier-Raum, in dem die Unbestimmtheitsrelation [Heisenberg, 1927] herrscht. Daß die

2-dimensionale Gabor-Funktion die Verbund-Ungenauigkeit minimiert, hat John G. Daugman in [Daugman, 1985]

bewiesen.

KAPITEL 3. ELLIPSEN

(a) (b) (c) (d)

Abbildung 3.4: Gabor-Gestaltung und illusive Kontur: Beispiel xclock. Der implizierte Kreis in

xclock (a) von X11 ist physikalisch nicht vorhanden. Dies ist eine sogenannte „illusive Kontur“.

Mit einer üblichen Übertragungsfunktion (b), wie es oft in der Literatur diskutiert sind, ist eine nicht-

vorhandene Kontur nicht herauszuziehen, während das Ergebnis (d) durch eine um π/2gedrehte Über-

tragungsfunktion (c) (gfilt.c -w0.5 -b0.5 -Q3.5) mit großer Toleranz der Parameter möglich

ist. Siehe auch Shell-Scripts gxclock.sh und pgmell.sh, in dem 12 Kanäle von (c) benutzt sind.

Ein weiterer Grund für eine neue Implementierung für die Multi-Kanal-Gabor-Filterung

(gfilt.c) ist der experimentelle Versuch, einen „Skala-Raum (scale-space)“, nicht im

Sinne von [Hartmann, 1982, 1983] [Witkin, 1983] [Koenderink, 1984], durch den Parame-

ter-Raum der Bandbreite und Mittelfrequenz der Gabor-Kanäle zu generieren. Cf. Abb. 3.3

auf S. 64.

3.1.2 Kammdetektor unter Abwesenheit der Orientierungskarte

Ein Dilemma bei Anwendung der Gabor-Filterung zur Konturenextraktion ist die Wahl der

Anzahl der Kanäle. Sind die Übertragungsfunktionen auf der Fourier-Ebene dicht neben

einander überlagert, wie bei den Orientierungssäulen im visuellen Kortex der Fall ist, so

erhöht sich drastisch der Rechenaufwand, denn mit jedem zusätzlichen Kanal ist eine DFT

mehr erforderlich, da die Antworten erst im Ortsbereich verknüft werden. Ist die Anzahl der

Kanäle verringert, so verliert man die Konnektivität der endgültigen Konturen. Unsere alte

„Standard“- bzw. festprogrammierte Übertragungsfunktionen sind eine Oktave von radia-

ler Bandbreite, 0.5Nyquist der Mittelfrequenz, und π/12 für die Orientierungsbandbreite.

Dies impliziert eine Elliptizität (aspect ratio) der Gabor-Funktion von 0.394957. Mittels

Herstellung einer Orientierungskarte (gradedge.sh) via diagonalisierung der Hesse-

Matrix99(gmagedge.sh) haben wir hier jedoch mit dengleichen Parametern wohl kon-

nektierte Konturen extraieren können, wie beispielsweise in Abb. 3.8 auf S. 70 und Abb. ??

auf S. ?? demonstriert ist. Die Lage der extraierten Konturen werden in Abb. 3.10 auf S. 72

und Abb. 3.11 auf S. 73 überprüft.

99Die Hesse-Matrix am Vektor x=x1· · · xnT∈Rneines zweimal partiell differenzierbaren Skalar-

feldes I:Rn7→ Rläßt sich durch die zweiten Ableitungen wie folgt bilden:

H(I(x)) = ∂2I(x)

∂x∂xT=







∂2I

∂x2

∂2I

∂x1∂x2· · · ∂2I

∂x1∂xn

∂2I

∂x2∂x1

∂2I

∂x2

· · · ∂2I

∂x2∂xn

.....

∂2I

∂xn∂x1

∂2I

∂xn∂x2· · · ∂2I

∂x2







.(3.2)

3.1. KONTURENEXTRAKTION

(a) (b) (c) (d)

(e) (f) (g) (h)

Abbildung 3.5: Gabor-Gestaltung und Wahrnehmung illusiver Konturen I. Das originale 175 ×169

Bild (a) wird mit MKGF von insgesamt 96 Gabor-Kanälen in (b) durch gfilt.c -pz0 -s -N8

-F0.9 -O0 gefiltert — jeweils 12 Kanäle an der Mittelfrequenz 0.5,0.45,0.405,0.3645,0.32805,

0.295245,0.2657205 und 0.23914845 = 0.5×0.97Nyquist mit radialer Bandbreite von 1Ok-

tave und Orientierungsbandbreite von 15◦. Das Bild (c) sdellt die lokale Energie der Ausgabe vom

gfilt.c nach dem nicht-linearen WTIA-Verknüpfung im Ortsbereich dar. Einfache Konturen (d)

sind aus (c) via gradedge.sh zu extraieren. (Siehe Abb. 3.8–(c) auf S. 70 für den Inhalt des

gradedge.sh.) Der Aufwand von 96 Kanälen (30 Sekunden auf einem 233 Mhz SISD CISC-Pro-

zessor) in (b), (c) und (d) ist für die Suche der geeigneten Skala gewidmet. Die geeignete Skala wird an

der Mittelfrequenz von 0.23914845 Nyquist gefunden, wobei die Kontur des Würfels als eine dicke

Linie anstatt zwei Kanten „wahrgenommen“ wird. In der Tat lassen sich die illusiven Konturen mit

großer Toleranz der Parameter und viel wenigerem Aufwand (4 Sekunden in derselben Umgebung)

ableiten. Mit 12 Kanälen an der Mittelfrequenz 0.24 Nyquist und elliptischem Verhältnis von 0.3(e)

sind die lokale Energie (f) durch gfilt -pz0 -s -A15 -Q0.3 -w0.24 und die abgeleiteten Kon-

turen (g) durch gradedge.sh zu gewinnen. Das Bild (h) überprüft die Lage der Konturen durch

eine Überlagerung mit dem originalen Bild (a). Es sei darauf hingewiesen, daß die Ergebnisse (c)

und (f) durch anschauliche WTIA-Verknüpfung der lokalen Energie zu gewinnen sind. Dies bedeutet,

daß eine Form der illusiven Konturen bereits bei den einfachen und komplexen Zellen durchaus reprä-

sentiert werden kann, da die hierzu benötigten Operationen für die biologischen Systeme realistisch

sind.

KAPITEL 3. ELLIPSEN

(a) (b) (c) (d)

(e) (f) (g) (h)

Abbildung 3.6: Gabor-Gestaltung und Wahrnehmung illusiver Konturen II. Als Fortsetzung zur

Abb. 3.5 auf S. 67 wird hier der redundante Aufwand zur Formung nicht-physikalischer Konturen

weiter reduziert. Wir haben in (b) nun 4Gabor-Kanäle, die den Haupt-Beitrag zur kritischen lokalen

Energie in (c) darstellen (gfilt.c -pz0 -s -w0.5 -Q0.2 -A45 -b0.5). Das Bild (d) wird nach

wie vor durch gradedge.sh gewonnen. Weiterhin wird in (e) – (h) auf nur 2Kanäle reduziert,

derer Orientierungen einander in 86◦stehen. Da die zwei vertikalen Kanten in (e) gekrümmt sind,

ist in (g) und (h) deutlich stärkere Antwort auf die Kanten oben links und unten rechts vom linken

Kanal in (e) zu erkennen. (gfilt.c -s -Q0.2 -a90 -A86 -w0.5 -b0.5). Die Verbindungskraft

einer optisch mit großer Entfernung unterbrochenen Kontur besteht sehr effizient in der Elliptizität

(gfilt.c -Q) einer 2-dimensionalen Gabor-Funktion bzw. des Rezeptivfeldes einer einfachen Zel-

le. Introspektiv gedacht könnte die Wahrnehmung der illusiven Kontur ausgelöst werden durch eine

geringe Anzahl der einfachen Zellen in der primitiven Stufe des visuellen Pfades in die Richtung bot-

tom-up. Auf der anderen Seite könnte attentiv in der Form einer „Schablone“ top-down die Zellen-

Aktivitäten „interpretiert“ werden. Unser Experiment und Auslegung verfügt über den Vorteil der An-

schaulichkeit und kein Verstoß gegen bekannte neurophysiologische Fakten. (Die Energie-Bilder (c)

und (g) sind durch pfmgamma.c -G0.35 Gamma-Korrigiert.)

3.2. ELLIPSENEXTRAKTION

(a) (b)

Abbildung 3.7: Lokale Energie via Gabor-Filterung: Beispiel Lena und Rad. MKGF und WTIA von

gfilt.c -s mit dengleichen Parametern wie in [Trapp, 1998]. Diese dienen als Eingabe für die in

Abb. 3.8 auf S. 70 und Abb. ?? auf S. ??.

3.2 Ellipsenextraktion

Für „Ellipsen-Detektion“ und -Fitting existieren äußerst zahlreiche Literaturen100, denn die

Ellipsen im 2-dimensionalen Raum sind perspektive Projektionen der Kreise im 3-dimen-

sionalen Raum. Solche geometrischen Primitive sind für besonders wichtig gehalten und

sind in weitreichenden Aufgaben in Computer-Vision involviert. Dennoch sind praktische

Ergebnisse auf natürlichen Szenen mit der Geschwindigkeit und Präzision, die unsere For-

derungen erfüllen, mit heutiger Rechenleistung sehr eingeschränkt.

Mit Ellipsenextraktion wird hier parametrische Lokalisierung einer Ellispe gemeint,

denn mit parametrischer Bestimmung der Lage einer Ellipse ist Sub-Pixel-Präzision in

Bildkoordinatenmöglich. Weil die Tiefendaten im rektangulären Pixel-Rastergeliefert wird,

müssen die Koordinaten allerdings bei der Fusion wieder einmal zu dem nächsten Nachbar

quantisiert werden. Die Bezeichnung „Erkennung“ möchten wir hier mit Absicht vermein-

den, denn sie ist für sehr verschiedene Aufgaben verwendet und daher mehrdeutig gewor-

den. Die Aufgabe besteht darin, die Frage

Wo ist die Ellispe in der Szene?

nicht aber

Die Hesse-Matrix bzw. Weingarten-Abbildung is der ersten und der zweiten Fundamentalform verbunden. Die

Diagonalisierung solcher eines 2-dimensionalen Skalarfeldes verrät die lokalen Hauptrichtungen v1(x),v2(x)

und Hauptkrümmungen κ1(x), κ2(x)∈σ(H)nahe x. Die invariante Gaußkrümmung is gleich det H=κ1κ2

und die invariante mittlere Krümmung tr H/2 = (κ1+κ2)/2, wobei κ1und κ2die Hauptkrümmungen sind.

[Hilbert und Cohn-Vossen, 1932, 1952] [ter Haar Romeny, 1999; ter Haar Romeny et al., 1994] [Heckbert und

Garland, 1999].

100unter anderen [Agin, 1981] [Yuen et al., 1989] [Rosin und West, 1989] [Porrill, 1990] [Ellis et al., 1992]

[Rosin, 1993a] [Rosin, 1993b] [Yoo und Sethi, 1993] [Gander et al., 1994b] [Gander et al., 1994a] [Karl et al.,

1994] [Ho und Chen, 1995] [Fitzgibbon et al., 1996] [Rosin, 1996b] [Rosin, 1996a] [Cabrera und Meer, 1996]

[Werghi et al., 1996] [Cui et al., 1996] [Aguado et al., 1996] [Hal´ır und Flusser, 1998] [McLaughlin, 1998]

KAPITEL 3. ELLIPSEN

(a) (b)

Abbildung 3.8: Konturenextraktion nach der Gabor-Filterung: Beispiel Lena. Nachverarbeitung nach

der Multikanal-Gabor-Filterung und WTIA mit dem Eingangsbild von Abb. 3.7–(a) auf S. 69. Die

Bilder (a) und (b) sind die jeweils vorhergehenden Ergebnisse durch den G- und M-Verdünnungsal-

gorithmus unterm Khoros. Das Bild (c) ist vom Algorithmus (gradedge.sh) durch die Kreierung

einer Orientierungskarte während der Multikanal-Gabor-Filterung (gfilt.c -t2), Non-Maximum-

Suppression,Hysterese-Schwellenwert-Verfolgung (pfmdir -H) [Canny, 1983, 1986], binäre Ver-

dünnung (pgmthin.c) [Zhang und Suen, 1984] [Lee und Chen, 1992] [Gonzalez, 1987, 398–402]

[Guy und Medioni, 1983, 1992, 1996] und Konturenverkettung (pgmlink.c) gewonnen worden.

Mit einem ähnlichen Verfahren (gmagedge.sh), bis auf den Verzicht auf die vorgegebene Orien-

tierungskarte, ist das Bild (d) konstruiert worden. Die für die Non-Maximum-Suppression notwendige

Orientierungskarte wird durch die Diagonalisierung der Hesse-Matrix (v. et. Fußnote 99 auf S. 69

und pfmgauge.c -g) des Eingangsbildes Abb. 3.7–(a) auf S. 69 nachgewonnen. Es sei darauf hin-

gewiesen, daß die Konturen in den früheren Ergebnissen (a) und (b) nicht ein-pixel-breit sind und viel

geringere Idempotenz-Eigenschaft als unsere in den Bildern (c) und (d) aufweisen. Cf. § 2.1.1 ab S. 8.

3.2. ELLIPSENEXTRAKTION

(a) (b)

Abbildung 3.9: Konturenextraktion nach der Gabor-Filterung: Beispiel Rad. Nachverarbeitung nach

der Multikanal-Gabor-Filterung und WTIA mit dem Eingangsbild von Abb. 3.7–(b) auf S. 69. Die