Document [original]

Generalisierte Lineare Mo delle mit zuf



alligen

Eekten und variierenden Ko eÆzienten

vorgelegt von

Diplom-Wirtschaftsmathematikerin

Claudia Beate Funck-H



usges

Von der Fakult



at IV - Elektrotechnik und Informatik

der Technischen Universit



at Berlin

zur Erlangung des akademischen Grades

Doktorin der Naturwissenschaften

- Dr.rer.nat. -

genehmigte Dissertation

Promotionsausschuss:

Vorsitzender: Prof. Dr.-Ing. Adam Wolisz

Berichter: Prof. Dr. Gerhard Tutz

Berichter: Prof. Dr. UlrichKockelkorn

Tag der wissenschaftlichen Aussprache: 03.12.2001

Berlin 2001

D83

Inhaltsverzeichnis

Einleitung 1

1 Das Generalisierte Lineare Mo dell 3

1.1 Grundlagen des Generalisierten Linearen Mo dells . . . . . . . 4

1.1.1 Mo delldenitionen . . . . . . . . . . . . . . . . . . . . 4

1.1.2 Sch



atzung der Parameter . . . . . . . . . . . . . . . . . 11

2 Mo dellerweiterungen im GLM 13

2.1 Mo dellans



atze mit zuf



alligen Eekten . . . . . . . . . . . . . . 16

2.1.1 EM-Algorithmus mit Gau-Hermite Integrationstechnik 19

2.1.2 EM-Typ e Algorithmus . . . . . . . . . . . . . . . . . . 25

2.1.3 Mo dellansatz der nichtparametrischen Maximum

Likeliho o d . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2 Mo dellans



atze mit (zeit-)variierenden Ko eÆzienten . . . . . . 33

2.2.1 Parametrische und semi-parametrische Ans



atze . . . . 34

2.2.2 Lokaler Likeliho o dansatz . . . . . . . . . . . . . . . . . 36

3Zuf



allige Eekte und variierende Ko eÆzienten 40

3.1 Mo dellans



atze und Parametersch



atzungen . . . . . . . . . . . 42

3.1.1 Volles Mo dell, parametrische und semi-

parametrische Ans



atze . . . . . . . . . . . . . . . . . . 42

3.1.2 Lokaler Likeliho o dansatz mit zuf



alligen Eekten . . . . 43

3.2 Varianz der Parametersch



atzungen . . . . . . . . . . . . . . . 48

3.2.1 Varianzsch



atzungen b ei Mo dellen mit zuf



alligen Eekten 48

4 Simulationsb eispiele 54

4.1 Sch



atzung der festen Parameter . . . . . . . . . . . . . . . . . 56

4.1.1 Das volle Mo dell mit zuf



alligen Eekten . . . . . . . . 56

4.1.2 Lokaler Likeliho o dansatz mit zuf



alligen Eekten und

Gau-Hermite Integrationstechnik . . . . . . . . . . . . 60

4.1.3 Lokaler Likeliho o dansatz mit zuf



alligen Eekten und

EM-Typ e Algorithmus . . . . . . . . . . . . . . . . . . 64

4.2 Bayes-Sch



atzung der zuf



alligen Eekte . . . . . . . . . . . . . 67

5 Anwendungsb eispiele 70

5.1 Poissonmo delle . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.1.1 Emesis Datensatz . . . . . . . . . . . . . . . . . . . . . 71

5.1.2 Epileptic Datensatz . . . . . . . . . . . . . . . . . . . . 77

5.2 Verweildauermo delle . . . . . . . . . . . . . . . . . . . . . . . 80

5.2.1 Dauer der Arb eitslosigkeit . . . . . . . . . . . . . . . . 80

5.2.2 Magenkrebsstudie . . . . . . . . . . . . . . . . . . . . . 82

6 Anhang 87

6.1 EM-Algorithmus mit direkter Gau-Hermite Integrationstechnik 87

6.1.1 Numerische Integration mit Gau-Hermite . . . . . . . 87

6.1.2 Sch



atzung der festen Parameter . . . . . . . . . . . . . 89

6.2 EM-Typ e Algorithmus . . . . . . . . . . . . . . . . . . . . . . 97

6.2.1 Blo ckdiagonalgestalt der Fishermatrix . . . . . . . . . 97

Zusammenfassung 99

Literaturverzeichnis 102

Einleitung

Generalisierte Lineare Mo delle (GLM) sind ein vielverwendetes Instrumenta-

rium f



ur die Durchf



uhrung von Zusammenhangsanalysen, die b eispielsweise

bei den Auswertungen von medizinischen o der sozial



okonomischen Studien

verwendet werden.

Ihre groe Verbreitung liegt zum einen daran, da in dieser Mo dellklasse

sowohl das Lineare Mo dell als auch Sp ezialf



alle f



ur z. B. diskrete, kategoriale

oder p oissonverteilte Daten enthalten sind und somit sehr unterschiedliche

Datenmo delle analysiert werden k



onnen.

Andererseits sind Generalisierte Lineare Mo delle in den verschiedensten Sta-

tistik-Software Programmen implementiert und sind dadurch sehr einfach

vom Anwender abrufbar.

Das grundlegende Generalisierte Lineare Mo dell gehtvon unabh



angigen Be-

obachtungseinheiten aus. Jedo ch liegen in vielen groangelegten Studien

Grupp enstrukturen vor, so da sp ezielle Mo dellerweiterungen angewendet

werden m



ussen. Diese zu ber



ucksichtigenden Grupp enstrukturen k



onnen

durch Mewiederholungen an den gleichen Beobachtungseinheiten o der auch

durch eine famili



are, regionale o der administrative Zugeh



origkeit der Beob-

achtungseinheiten gegeb en sein.

Zus



atzlich zu der Grupp enstruktur mu h



aug auchnocheinm



oglicher zeit-

licher Einu ber



ucksichtigt werden, da die Individuen oder Beobachtungs-

einheiten in diesen Studien meist



ub er einen l



angeren Zeitraum b eobachtet

werden.

Das Ziel dieser Arb eit ist es, die grupp en- und/o der individuensp ezische Da-

tenstruktur durch die Aufnahme von zuf



alligen Eekten und gleichzeitig den

zeitlichen Einusses durchBetrachtung von zeitvariierenden Ko eÆzienten zu

ber



ucksichtigen.

Nach der Einleitung in die Thematik dieser Arb eit wird im ersten Kapitel das

grundlegende Generalisierte Lineare Mo dell vorgestellt. Auf die Mo dellerwei-

terungen mit zeitvariierenden Ko eÆzienten und mit zuf



alligen Eekten wird

im zweiten Kapitel eingegangen. Diese b eiden Mo dellans



atze werden im drit-

ten Kapitel in gemeinsame Mo delle aufgenommen. Im vierten Kapitel wird

in den Simulationsb eispielen neb en der G



ute f



ur die Parametersch



atzungen

selbst auch die G



ute f



ur die Sch



atzung der Varianzen der Parameter be-

trachtet. Aus der Vielzahl der Anwendungsm



oglichkeiten werden im f



unften

Kapitel vier Anwendungsb eispiele herausgestellt. Das sechste Kapitel enth



alt

einige technische Details f



ur die im zweiten Kapitel b eschrieb enen Verfahren.

In der nachfolgenden Zusammenfassung erfolgt eine, diese Arb eit abschlie-

ende, Beurteilung der vorgestellten Verfahren.

Kapitel 1

Das Generalisierte Lineare

Mo dell

Das Generalisierte Lineare Mo dell (GLM), welches von Nelder & Wedderburn

(1972) vorgeschlagen wurde, ist eine Erweiterung des klassischen Regres-

sionsansatzes im Linearen Mo dell.

Die im folgenden vorgestellten Mo dellannahmen im Linearen Mo dell sind f



viele metrische Zielgr



oen gut motiviert, falls ein linearer Zusammenhang

zwischen der Resp onsevariablen und den erkl



arenden Variablen, die auch als

Regressoren bzw. Kovariablen b ezeichnet werden, b esteht.

Liegt die Zielvariable diskret, b eispielsweise in Form von binomialen o der

multinomialen Zielgr



oen o der als Z



ahldaten vor, so ist das klassische lineare

Mo dell meist nicht mehr passend und es sollte b esser die Erweiterung durch

das Generalisierte Lineare Mo delle angewendet werden.

1.1 Grundlagen des Generalisierten Linearen

Mo dells

Da das Generalisierte Lineare Mo dell eine Erweiterung des Linearen Mo dells

ist, werden wir zun



achst kurz auf diesen Regressionsansatz eingehen und im

Anschlu die Mo delldenition des Generalisierten Linearen Mo dells vorstel-

len.

1.1.1 Mo delldenitionen

Das Lineare Mo dell



ur den univariaten Fall der linearen Regression wird vorausgesetzt, da

Beobachtungen (

) mit

= 1

;:::;N

vorliegen. Bei dem Mo dellansatz

wird zwischen der eindimensionalen Resp onsevariablen

und dem Vektor

= (

;:::;x

)der erkl



arenden Variablen ein linearer Zusammenhang

der Form







;:::;N

angenommen.

Dab ei ist



= (



;:::;

) der Vektor des

-dimensionalen unbekannten

Parameter und

ein

-dimensionaler Designvektor, der durch eine geeig-

nete Funktion aus dem Kovariablenvektor

gebildet wird; b eispielsweise

durch

=(1

). Weiter ist



eine Fehler- bzw. St



orvariable mit dem Er-

wartungswert

(



) = 0. Es wird vorausgesetzt, da



normalverteilt mit



N

;

) ist und

b ei gegeb en

b edingt unabh



angig ist. Damit folgt

b ei gegeb enem

, da

N

(



;

)mit



(

) gilt.

Im linearen Mo dell ist







;:::;N

,das b edeutet, der bedingte

Erwartungswert ist gleich dem linearen Pr



adiktor



Das Generalisierte Lineare Mo dell

Im Generalisierten Linearen Mo dell wird im Gegensatz zum Linearen Mo-

dell die Verteilungsannahme f



ur die Zielgr



oe verallgemeinert indem voraus-

gesetzt wird, da die Dichte von

aus einer Exp onentialfamilie ist. Bei-

spiele f



ur die Exp onentialfamilie sind die Normal-, Binomial-, Multinomial-,

Poisson- und Gammaverteilung. Die Zielgr



oe

kann mehrdimensional sein,

d. h.

= (

;:::;y

). Der Zusammenhang zwischen dem Erwartungs-

wert

(



;:::;

)

und dem linearen Pr



adiktor



mit der

Designmatrix

und dem unbekannten Parametervektor



= (



;:::;

)

wird durch eine mehrdimensionale Resp onsefunktion

mit



(



) her-

gestellt.

Das Generalisierte Lineare Mo dell, das b eispielsweise in McCullagh & Nelder

(1989) und Fahrmeir & Tutz (1994) vorgestellt ist, wird durchdie Vertei-

lungsannahme, die Strukturannahme und dem Aufbau der Designmatrix der

Kovariablen deniert.

Bei der Verteilungsannahme wird vorausgesetzt, da die

, gegeb en

,be-

dingt unabh



angig sind und ihre Verteilung aus einer Exp onentialfamilie

(



;;w

)=exp



(





(



))





(

;;w

)

stammt.

Durch die Strukturannahme wird der Erwartungswert



;:::;

)

(

) mit dem linearen Pr



adiktor



= (



;:::;

)



durch eine

invertierbare, zweimal stetig dierenzierbare Funktion

mit



(



(



)

verbunden.

Die Designmatrix



wird durcheine geeignete Abbildung aus den

Kovariablen

;:::;x

)

gebildet. Ist die Auspr



agung der Kovariablen

kategorial, so wird eine Ko dierung der Variablen vorgenommen.

Bemerkungen zur Verteilungsannahme



Die Funktionen

(



) und

(



) b estimmen den genauen Typ der Exp o-

nentialfamilie, d. h. ob b eispielsweise die Normal-, Binomial-, Multi-

nomial-, Poisson- o der Gammaverteilung vorliegt.



Der nat



urliche Parameter



ist eine Funktion des Erwartungswertes



d. h.



(





Der Erwartungswert ist durch die Wahl der Exp onentialfamilie mit



(



)

@

und die Kovarianz mit

cov

(



)

@ @



b estimmt.



Der Disp ersionsparameter



ist von

unabh



angig und in der Regel

unbekannt. Im Linearen Mo dell gilt





. Soweit nichts anderes

angegeb en ist, b etrachten wir im folgenden



als fest und bekannt mit







Liegen die Daten in gruppierter Form vor und ist

die Anzahl der Be-

obachtungen in Grupp e

, so sind die Gewichte



;:::;N

falls die Zielvariable

den Grupp endurchschnitt b eschreibt, und es ist

, falls

die Summe der Auspr



agungen in den Beobachtungs-

grupp en ist. Sind die Daten nicht gruppiert, so gilt



Bemerkungen zur Strukturannahme



Der Vektor



= (



;:::;

)

ist der unbekannte zu sch



atzende Para-

metervektor.



Die Funktion

(



) = (

(



)

;:::;h

(



))

heit Resp onsefunktion.

Die zu

inverse Funktion



heit Linkfunktion mit

(



) =







Der Werteb ereich der Resp onsefunktion

wurde in der Denition all-

gemein mit

deniert. Durch die Wahl der Linkfunktion wird der

Werteb ereich ab er meist geeignet eingeschr



ankt, z. B. f



ur die Multino-

mialverteilung auf (0

;



;

1).



ahlt man bei der Verteilungsannahme die Normalverteilung und f



ur die

Linkfunktion die identische Abbildung, so erh



alt man das Lineare Mo dell als

Sp ezialfall eines Generalisierten Linearen Mo dells.

Sp ezielle Datenmo delle



ur jede Exp onentialfamilie gibt es eine nat



urliche Linkfunktion, mit

(



)





(



), d. h. es gilt





Z

oder in Worten ausgedr



uckt, der nat



urliche Pa-

rameter ist gleichdem linearen Pr



adiktor. In dieser Arb eit werden wir Mo-

dellans



atze mit der nat



urliche Linkfunktion verwenden, die wir im folgenden

kurz vorstellen werden.

Poissonmo dell

Im Log-linearen Poissonmo dell wird

 P

(



) angenom-

men und f



ur den unbekannten Parameter



wird die Mo dellannahme



(

) = exp(



) getroen, d. h. die Resp onsefunktion in diesem Mo dell

ist die Exp onentialfunktion. Der Designvektor

enth



alt den Regressoren-

vektor

und gegeb enenfalls auch die1f



ur den Interzept. Im Poissonmo dell

gilt f



ur die Varianz

var

(



Binomiales Logit-Mo dell

Ist die Resp onsevariable bin



ar ko diert und

Bernoulli verteilt, d. h.

 B

;

), so wird im Logit-Mo dell f



ur den Er-

wartungswert

(



als Resp onsefunktion die logistische

Verteilungsfunktion gew



ahlt. Somit folgt mit dem linearen Pr



adiktor





der Mo dellansatz



(



exp(



)

1+exp(



)

Im ungruppierten Fall liegen N Beobachtungen (

) f



;:::;N

vor.

Sind die Daten gruppiert, d. h. zu einem Kovariablenvektor liegen mehrere

unabh



angige Beobachtungen vor, so liegen die Daten in der Form (

)

vor. Dab ei ist

der Resp onse-,

der Kovariablenvektor und

die Anzahl

der Beobachtungen in Grupp e

. Insgesamt liegen in

Grupp en



Beobachtungen vor.

Damit der Mo dellansatz f



ur gruppierte und f



ur ungruppierte Daten mit der

gleichen Notation verwendet werden kann, setzen wir voraus, da die Re-

sp onsevariable

die relativeH



augkeit in Grupp e

b ezeichnet und denie-

ren

= 1 f



ur ungruppierte Daten und



ur gruppierte Daten. F



die Varianz gilt

var

(







)

, mit



(

Multikategoriales und kumulatives Logit-Mo dell

Diese Mo delle sind

multivariate Erweiterungen des ob en b eschrieb enen Binomialen Logit-Mo dells.

Wir gehen zun



achst von ungruppierten Daten aus, d. h. es ist

M

;

)

mit



;:::;

). Die Auspr



agungen der zugeh



origen Resp onsevariablen

;:::;y

) liegen in

+ 1 Kategorien vor und es gilt:

(

1 falls

0 sonst.



ur gruppierte Daten setzen wir voraus, da



ur die einzelnen Kategorien

die Grupp endurchschnitte enth



alt und denieren die Gewichte



ur jede

Beobachtungsgrupp e

analog zum Binomialen Mo dell.

Im multikategorialen Logit-Mo dell wird der linearen Pr



adiktor mit





0 0

 

0 0 1

  

0 1



und die Resp onsefunktion

;:::;h

)mit

(



;:::;

exp(



)

exp(



)



;:::;q

gew



ahlt.

Sind die Kategorien von

2 f

;:::;q

+1 =:

ordinal, so kann die Ord-

nung der Resp onsekategorien ausgenutzt werden.

Wir b eschr



anken uns auf die Denition f



ur das kumulative Logit-Mo dell.

Weitere Mo delle, welche die Ordnung der Resp onsekategorien ber



ucksichti-

gen, sind b ei Agresti (1990), McCullagh (1980) und Fahrmeir & Tutz (1994)

beschrieb en.

Motiviert wird das kumulative Logit-Mo dell, das auch als Schwellenwert-

mo dell b ezeichnet wird, durch die Existenz einer latenten stetigen Variablen







, so da mit den Schwellen

1



<



<











ur r=1,

:::

gilt.

Mit dem Mo dellansatz

(



) =

(





), wob ei

die logistische

Verteilungsfunktion, d. h.

(

exp(

)

1+exp(

)

ist, sowie dem linearen Pr



adiktor



Z

1 0

::: :::

0 1 0

:::

0 1 0

::: :::

0 1





folgt

(





)

(





)



(







) f



;:::;q :

Da f



ur die Schwellen



 



erf



ullt sein mu, wird f



ur die Sch



atzung

der Parameter meist eine Parametrisierung der Schwellen mit





und



:= ln(









) f



= 2

;:::;q

durchgef



uhrt. Das heit es wird der

Mo dellansatz



Z

mit

1 0

:::

0 1 0

und





;:::;

;

)

verwendet.

Die Reparametrisierung der Schwellen erfolgt mit





und





exp(



) f



;:::;q

In b eiden Mo dellen gilt f



ur die Kovarianz

cov

(

diag

(



)





), wo-

bei

und



analog zum binomialen Logit-Mo dell deniert sind.

1.1.2 Sch



atzung der Parameter

Der unbekannte Parameter



= (



;:::;

) wird aus dem Mo dellansatz

(



(



) mit





b estimmt. Die Sch



atzung des Parame-

ters kann durch Maximierung der Log-Likeliho o d

(



) durchgef



uhrt werden.

Dab ei wird die Nullstelle der Scorefunktion

(



) =

@

b erechnet, wob ei zu

beachten ist, da die b eobachtete Fishermatrix

obs

(





(



)

@ @

p ositiv de-

nit ist.

Da vorausgesetzt wurde, da die

unabh



angig, identischverteilt sind und die

Verteilung aus der Exp onentialfamilie stammt, gilt (bis auf einen konstanten

Term):

(



(



(



;;w





(



)



und f



ur die Scorefunktion folgt mit





(



@

(



(



)



(



)[





(



)]

mit

(



(



)

@

und 

(



cov

(

Die numerische Berechnung des Maximum Likeliho o d Sch



atzers kann unter

Verwendung des Fisher-Scoring Algorithmus b estimmt werden. Ist

(



) =

cov

(



)) =

(



)die Fisherinformationsmatrix, so gilt mit

(



) =

(

obs

(



)):

(



(



)



(



)

(



)

Nach der Initialisierung des Startwertes



wird die Iteration



















;

;:::

so lange durchgef



uhrt bis das Abbruchkriterium







<



ur ein vorgegeb enes



erf



ullt ist.

Kapitel 2

Mo dellerweiterungen im

Generalisierten Linearen

Mo dell

Im vorherigen Kapitel wurde das grundlegende Generalisierte Lineare Mo-

dell vorgestellt. Bei den Mo dellannahmen wurde von b edingt unabh



angigen

Beobachtungen ausgegangen.

Sind die zugrundeliegenden Daten in einer Studie erhob en worden, bei der

einzelne Individuen mehrfach untersucht wurden, so kann keinesfalls davon

ausgegangen werden, da die Daten (

) f



= 1

;:::;N

bedingt un-

abh



angig sind. Ab er auch wenn die einzelnen Untersuchungseinheiten zu

Grupp en zusammengefat sind, mu diese Grupp enstruktur durchdas Mo-

dell ber



ucksichtigt werden. Dies ist b eispielsweise dann der Fall, wenn sich

die Untersuchungseinheiten in gemeinsame Familien o der sonstige soziale, re-

gionale o der administrative Grupp en gliedern lassen.

Wir werden diese Grupp enstruktur durch die Mo dellierung von zuf



alligen

Eekten b er



ucksichtigen. Durch diesen Ansatz b er



ucksichtigen wir nichtnur

die Grupp enstruktur, sondern es k



onnen zus



atzlich die Ein



usse von nicht

erhob enen Kovariablen untersucht werden.

Diese grupp en- und/o der individuensp ezischen Eekte k



onnen auftreten,

wenn die Erhebung aller Daten aus technischen bzw. wirtschaftliche Gr



unden

nichtm



oglichwar o der wichtige Variablen aufgrund von fehlerhaften Versuchs-



anen



ub ersehen wurden.

Wurden die Daten einer Studie in einem Zeitverlauf gewonnen, so mu zu-



atzlich diese Zeitabh



angigkeit b er



ucksichtigt werden. Wir b etrachten hierzu

Mo delle, die eine Variation der Mo dellparameter



ub er die Zeit erm



oglichen.

In diesem Kapitel werden wir daher im folgenden Mo dellans



atze, die entweder

zeitvariierende Ko eÆzienten oder zuf



allige Eekte ber



ucksichtigen, vorstel-

len.

Die Mo dellans



atze f



ur variierende Ko eÆzienten werden in der Literatur in

sehr untschiedlichen Ans



atzen betrachtet. F



ur die Betrachtung der Variati-

on der Mo dellparametern im Generalisierten Linearen Mo dell als Gl



attungs-

funktion von anderen Variablen werden in Hastie & Tibshirani (1993) ver-

schiedene Mo delle vorgestellt. Aus dieser Mo dellklasse werden in Tutz &

Kauermann (1997) lokal gewichtete Sch



atzungen b etrachtet.

In Friedman (1991) und Stone, Hansen, Ko op erb erg & Truong (1997) werden

Sch



atzverfahren mit Gl



attung durch Splines vorgestellt, wob ei insb esondere

die Wahl der Knoten f



ur die Splines b er



ucksichtigt wird. Allgemeine Ans



atze

mit Spline-Funktionen werden in Eubank (1988) sowie in Eilers & Marx

(1996) f



ur B-splines untersucht.

In Silverman (1984) werden sowohl Gl



attungsverfahren mit Spline-Funktionen

als auch Kerngl



attungen mit exibler Bandbreite vorgestellt. Hastie & Loa-

der (1993) schlagen eine lokale Regression mit Kern-Gl



attung vor. Parame-

trische und semi-parametrische Gl



attungsans



atze in Verweildauermo dellen

werden in Efron (1988) b etrachtet. Die Zeitabh



angigkeit bei Mewieder-

holungen, die b eispielsweise bei der Analyse von klinischen Studien auftritt,

untersucht Davis (1991) durch semi-parametrische und nichtparametrische

Ans



atze.

Die in dieser Arb eit verwendeten Verfahren f



ur die Sch



atzung der Parameter

mit normalverteilten zuf



alligen Eekten werden in Fahrmeir & Tutz (1994),

Hennevogl (1991) und Tutz & Hennevogl (1996) vorgestellt.

Generalisierte Lineare Mischmo delle mit unterschiedlichen Sch



atzmetho den

werden in McCullo ch (2000) vorgestellt. In Geyer & Thompson (1992) wer-

den Approximierungstechniken b ehandelt, bei denen die Likeliho o dfunktion

direkt maximiert wird. In McCullo ch (1994), McCullo ch (1997) und Bo oth

&Hob ert (1999) werden Verfahren vorgestellt, die einen EM-Algorithmus

mit Gibbs-Sampling bzw. Metrop olis-Hastings Algorithmus verwenden. Ein

anderer Ansatz wird in Rupp ert, Reish & Carroll (1984) und Quintana, Lui

& Pino (1999) gew



ahlt, es wird ein sto chastischer Approximationsalgorith-

mus verwendet und die Likelho o d-Gleichung wird als Regressions Problem

betrachtet.

Da in Studien meist sowohl grupp ensp ezische Eekte als auch Ein



usse



ub er die Zeit b er



ucksichtigt werden m



ussen, werden wir im n



achsten Kapitel

b eide Mo dellans



atze in ein gemeinsames Mo dell aufnehmen. Dieser Ansatz

wird in der Literatur, bis auf Tutz (1999), nicht weiter b etrachtet.

2.1 Mo dellans



atze mit zuf



alligen Eekten

Liegen die Beobachtungen von verschiedenen Grupp en bzw. Kategorien, die

als Cluster b ezeichnet werden, vor, kann der Einfu zwischen dem Resp onse

und den erkl



arenden Variablen von Cluster zu Cluster variieren. Deshalb

mu die Grupp enstruktur der Daten im Mo dellansatz ber



ucksichtigt wer-

den. Insb esondere bei Mewiederholungen an mehreren Untersuchungsein-

heiten in einem Zeitverlauf, die im n



achsten Abschnitt b etrachtet werden, ist

mit dieser sogenannten \Extra Variation innerhalb der Daten", die auch als

unb eobachtete Populationsheterogenit



at b ezeichnet wird, zu rechnen.

Da die Beobachtungen nicht in unabh



angigen elementaren Beobachtungsein-

heiten vorliegen, ist die Mo dellannahme im Generalisierten Linearen Mo dell,

welche von gleicher Varianzstruktur f



ur alle Beobachtungen ausgeht, ver-

letzt, und es k



onnen Mo delle, die eine endliche Mischungsdichte zulassen,

angewendet werden. Diese Mo delle werden zum Beispiel in Everitt & Hand

(1981), Laird & Louis (1982), Little & Rubin (1987), McLachlan & Basford

(1988), Meng & van Dyk (1997b) und Titterington, Smith & Makov (1985)

vorgestellt.

Ist die Anzahl der Cluster sehr klein, so ist es m



oglich mit Hilfe von ANOVA

(analysis of variances) und ANCOVA (analysis of covariances) Mo dellen die

Variation zwischen den Clustern zu untersuchen. Man erh



alt Aussagen



ub er

die Variation in den konkret vorliegenden Clustern.

Wenn die Auswahl der b eobachteten Cluster als zuf



allig angesehen wird, ist

man prim



ar nicht an einer Aussage



ub er die konkret vorliegenden Cluster,

sondern



ub er die zugrunde liegende Population interessiert. Es k



onnen Mo-

delle mit zuf



alligen Eekten, die b eispielsweise in Fahrmeir & Tutz (1994),

Jansen (1993), Longford (1993), Meng & van Dyk (1997a), Meng (1997) und

Hennevogl (1991) vorgestellt werden, angewendet werden.

Im Mo dellansatz mit zuf



alligen Eekten wird davon ausgegangen, da die

Unterschiede, die in der Zusammenhangsanalyse in den Clustern auftreten,

durch Variablen erkl



art werden k



onnten, die jedo ch nicht b eobachtet wur-

den. Diese unb eobachteten Variablen k



onnen b eispielsweise auftreten, wenn

ihre Erhebung aus technischen bzw. wirtschaftlichen Gr



unden nichtm



oglich

war o der diese relevante Variablen aufgrund von fehlerhaften Versuchspl



anen



ub ersehen wurden.

Im Generalisierten Linearen Mo dell mit zuf



alligen Eekten werden die nicht

b eobachteten Variablen durchzus



atzliche Parameter im linearen Pr



adiktor

ber



ucksichtigt, die als Realisation einer Zufallsvariable aufgefat werden.

In der Denition f



ur Generalisierte Lineare Mo delle mit zuf



alligen Eekten

setzen wir voraus, da f



= 1

;:::;N

Beobachtungseinheiten jeweils

Mewiederholungen vorliegen. Somit liegen insgesamt



Beob-

achtungen vor, die sich jedo ch auf

= 1

;:::;N

Grupp en, bzw. allgemeiner

ausgedr



uckt auf Beobachtungseinheiten verteilen. Wir setzten damit die Da-

tenstruktur (

)mit

;:::;N

und

;:::;t

voraus.

Im anschlieenden Kapitel werden wir den Ansatz der zeitvariierenden Ko-

eÆzienten mit der Mo dellierung von zuf



alligen Eekten verbinden. Dort

werden wir voraussetzen, da die Beobachtungen (

)der

-ten Beobach-

tungseinheit zum Zeitpunkt

erhob en wurden.

Im folgenden b etrachten wir Mo delle b ei denen f



ur jede Beobachtungseinheit

ein zuf



alliger Eekt

in den linearen Pr



adiktor aufgenommen wird. Das

heit, statt dem linearen Pr



adiktor





wird der lineare Pr



adiktor





b etrachtet. Die Designmatrizen

und

werden durch

geeignete Abbildungen aus den Kovariablen gebildet.

Eine



ubliche Annahme f



ur die zuf



alligen Eekte

;:::;b

ist, da diese

unabh



angig normalverteilt sind. Beispiele f



ur diesen Mo dellansatz werden

wir in den Abschnitten 2.1.1 und 2.1.2 b etrachten. Bei dem in Abschnitt

2.1.3 vorgestellten Verfahren der nichtparametrischen Maximum Likeliho o d

wird keine parametrische Voraussetzung f



ur die zuf



alligen Eekte getroen.

Mo delldenition

Die Mo delldenition ist zweistug und teilt sich in das Beobachtungs- und

das Wahrscheinlichkeitsmo dell auf.

Das Beobachtungsmo dell setzt voraus, da die Resp onsewerte

;:::;y



;:::;N

b edingt unabh



angig sind, gegeb en

;:::;x

und

sowie die

Dichte der

zu der Exp onentialfamilie geh



ort. Der Erwartungswert



ist



ub er die Linkfunktion

mit dem linearen Pr



adiktor durch



(



)mit





verbunden.

Das Wahrscheinlichkeitsmo dell b estimmtdieVerteilung der zuf



alligen Eekte

;:::;b

.In den Abschnitten 2.1.1 und 2.1.2 setzten wir voraus, da diese



;:::;N

unabh



angig normalverteilt sind mit

iid

N

)

Die zu sch



atzenden Mo dellparameter in diesem Mo dellansatz sind der Pa-

rametervektor



,der den globalen Einu der Regressoren beschreibt, die

Kovarianzmatrix

und die zuf



alligen Eekte

, welche die clustersp ezi-

schen Abweichungen vom globalen Einu



beschreib en.



ur die Sch



atzung der Parameter mit normalverteilten zuf



alligen Eekten

geb en wir im folgenden zwei unterschiedliche Verfahren an. Das erste Ver-

fahren ist der EM-Algorithmus mit Gau-Hermite Integrationstechnik und

das zweite Verfahren der EM-Typ e. Beide Verfahren werden in Fahrmeir &

Tutz (1994), Hennevogl (1991) und Tutz & Hennevogl (1996) vorgestellt.

2.1.1 EM-Algorithmus mit Gau-Hermite Integrations-

technik

Die Sch



atzung der Parameter in diesem Algorithmus erfolgt in zwei Schritten.

Zuerst werden die festen Parameter



und

gesch



atzt und anschlieend die

zuf



alligen Eekte

Sch



atzung der festen Parameter

Um die Notation



ub ersichtlicher zu gestalten, b eschreib en wir kurz das ver-

wendete Verfahren f



ur einen eindimensionalen zuf



alligen Eekt. Im Anhang

im Abschnitt 6.1.2 gehen wir auf die Details des Verfahrens ein und b etrach-

ten dab ei den allgemeinen Fall b ei dem die zuf



alligen Eekte

mehrdimen-

sional sein k



onnen. Im folgenden eindimensionalen Fall schreib en wir statt

der Kovarianzmatrix

einfach



Der lineare Pr



adiktor im univariaten Generalisierten Linearen Mo dell mit

einem eindimensionalen zuf



alligen Eekt





mit

iid

N

;

)



at sich mit



umparametrisieren zu







mit

iid

N

;

Mit der



ublichen Voraussetzung der b edingten Unabh



angigkeit zwischen den

einzelnen Beobachtungseinheiten bzw. innerhalb der Mewiederholungen zu

einer Beobachtungseinheit gilt f



ur die Likeliho o d

(

; 

(

;

; 

)

(

)

mit

(

;

; 

(

;

; 

)

Wob ei

(



) die b edingte Dichte, die aus einer Exp onentialfamilie stammtund

(



) die Dichte der Standardnormalverteilung ist.

Diese Mischungsdichte kann nur f



ur einige Sp ezialf



alle analytischgel



ost wer-

den, so da f



ur die L



osung des Integrals numerische Verfahren angewendet

werden.

Bei der Gau-Hermite Integrationstechnik wird das Integral durch eine endli-

che Summe



ub er M Quadratur-St



utzstellen

;:::;M

)mitbekannten

Quadratur-Gewichten

;:::;M

approximiert, so da

(

; 

)



(

;

; 

)

folgt. Die Gewichte

und St



utzstellen



ur die Gau-Hermite Integration

liegen in Tab ellen (Abramowitz & Stegun, 1972) vor.

Das b edeutet, da die Likeliho o d durch eine endliche Mischung von Dichten

aus einer Exp onentialfamilie mit b ekannten Mischungsgewichten

und be-

kannten Mapunkten

approximiert wird. Ist

(

; 

)die Log-Likelihood,

d. h.

(

; 

mit

(

;

; 

)

so folgt (Hinde, 1982; Aitkin, 1996)

@

(



)

@

(



)

Dab ei ist

die p osteriori Wahrscheinlichkeit, da die Beobachtungseinheit

aus der Mischungskomp onente

stammt, mit

Die Komp onenten

(



)und

(



)sind die



-bzw.



-Komp onenten der

Scorefunktion f



ur die

-te Beobachtung in der

-ten Mischungskomp onente.

Da die St



utzstellen

in Tab ellen vorliegen, sind diese Gr



oen b ekannt. Die

Parameter



und



sind die zugeh



origen Regressionsko eÆzienten.

Beim Maximieren der Log-Likeliho o d wird die Scorefunktion gleich Null ge-

setzt, und man erh



alt die gleichen gewichteten Summen, die als Gleichun-

gen eines gew



ohnlichen Generalisierten Linearen Mo dells mit dem linearen



adiktor



itj





; d

]





mit

;:::;N

;:::;n

;:::;M

entstehen, wenn die Beobachtungen mit

gewichtet werden und f



ur den

zugeh



origen Resp onse

itj



gilt.

Das L



osen der Gleichungen f



ur gegeb ene Gewichte

und die Berechnung der

Gewichte mit der letzten Parametersch



atzung f







;



uhrt Fahrmeir

&Tutz (1994) zu folgendem EM-Algorithmus:



Die Anzahl

der St



utzstellen f



ur die Gau-Hermite Integration wird

schrittweise erh



oht.



Die Daten des Regressionsmo dells werden mit der Anzahl der St



utz-

stellen vervielfacht, indem jede Zeile



des Mo dellansatzes

durch



mit







ersetzt wird.



Der Startwert des Sch



atzers f



ur die Iteration ist ^



= (



;



)

wob ei



der Sch



atzer des Generalisierten Linearen Mo dells ohne

zuf



allige Eekte mit dem linearen Pr



adiktor





ist. F



ur ^



wird eine Konstante b eispielsweise ^



=2 gew



ahlt.



Jeder Iterationsschritt

;

;:::

b esteht aus den folgenden Schrit-

ten:

{

Berechnung der Gewichte mit:

(





(

;



)



(

;



)

{

Sch



atzung von ^



durch das mit

(



) gewichtete Regressi-

onsmo dell.



Ist das Abbruchkriterium:







<



ur ein vorgegeb enes



erf



ullt, so wird die Iteration b eendet.

Durch die Verwendung des EM-Algorithmus ist sichergestellt, da sich in

jedem Iterationsschritt der Wert der Likeliho o d erh



oht (Wu, 1983). Es ist

jedo ch nicht gew



ahrleistet, da das globale Maximum gefunden wird.

Der Startwert



= 0 sollte deshalb vermieden werden. Denn bei



(



;

0), d. h. b eim Mo dellansatz ohne Ber



ucksichtigung von zuf



alligen Eek-

ten, liegt meist ein lokales Maximum vor. In den durchgef



uhrten Simulatio-

nen hat sich gezeigt, da



=2 eine gute Wahl f



ur den Startwert ist.

Um die optimale Anzahl der gew



ahlten St



utzstellenanzahl

bei der Gau-

Hermite Integration zu nden, mu der Algorithmus f



= 2

;

;:::

solange durchgef



uhrt werden, bis sichder Wert der Likeliho o d nicht mehr

erh



oht.

Sch



atzung der zuf



alligen Eekte

Nachdem die festen Parameter



und



,bzw. allgemein die Kovarianzma-

trix

, gesch



atzt wurden, kann die Bayes-Sch



atzung der zuf



alligen Eekte

erfolgen.

Der unbekannte Parameter

wurde als Zufallsgr



oe mit

 N

) vor-

ausgesetzt, so da die Priori-Dichte mit

(



)

exp







als bekannt angenommen wird. Wir sch



atzen

durch Maximierung der

Posteriori Dichte

(

), d. h. wir maximieren

(

):=ln

(

)mit:

(

)=ln

(

)+ln

(

)

=ln

(

)



;

wob ei

(

) die Likeliho o dfunktion, abh



angig von

,bei gegeb enden Da-

ten

b ezeichnet und konstante Terme vernachl



at wurden.

Die Bestimmung von

kann durchAnwendung des Fisher-Scoring Algorith-

mus durchgef



uhrt werden.

Mit dem Startwert

= 0 wird die Integration



(

)

(

)



;

;:::

durchgef



uhrt bis ein Abbruchkriterium erf



ullt ist, wob ei

(



)

die Fishermatrix und

(



) die Scorefunktion b ezeichnen.

Als Anwendungsb eispiel b etrachten wir im folgenden das Bin



are Logit-Mo dell

b ei dem die nat



urliche Linkfunktion verwendet wird. Liegt ein eindimensio-

naler zuf



alliger Eekt vor und ist



1, d.h.

(

)=ln

(

)



so folgt f



ur Scorefunktion

(

[





(

)]



sowie f



ur die Fishermatrix

(



(

)(1





(

)) +



mit



(

) =

(



), wob ei f





und

die entsprechenden Sch



atzer

verwendet werden.

2.1.2 EM-Typ e Algorithmus

Beim EM-Typ e Algorithmus wird eine simultane Sch



atzung der Parame-

ter



und

= 1

;::: N

mit Hilfe des EM-Algorithmus durchgef



uhrt.

Das grundlegende Prinzip des EM-Typ e Algorithmus wird auchbeim EM-

Algorithmus mit Gau-Hermite Integrationstechnik verwendet und im An-

hang in Abschnitt 6.1.2 vorgestellt.

Kurz zusammengefat kann der EM-Typ e Algorithmus wie folgt b eschrieb en

werden. Die Parameter (



;:::;b

) =

werden als unbekannte Daten

betrachtet und

ist der zu sch



atzende Parameter.

Mit diesem Ansatz k



onnen im

-ten Iterationsschritt im M-Schritt die

Sch



atzer f





;:::;b

), gegeb en

b estimmtwerden. Im E-Schritt wird dann

mit dem Ansatz







(

Y; Æ;Q

)

Y; Q



gesch



atzt.

Auf die Einzelheiten des EM-Typ e Algorithmus wird, unterteilt in den E-

bzw. M-Schritt, im folgenden eingegangen.

M-Schritt

Mit gegeb enem

gilt f



ur die p osteriori Log-Likeliho o d

(

)

(

) =

(

;

)







(

;

)







;

so da f



ur die Scorefunktion

(

)

@





(





)

(

)





(





)







mit

(

; b

) =

(



)



, 



= 



(

; b

) = (

cov

(

; b

))



und



(

; b

(



) folgt. F



ur die Fishermatrix gilt

(



b



b



mit







b















b

Die Berechnung von

kann durchden Fisher-Scoring Algorithmus mit









durchgef



uhrt werden.

Im E-Schritt werden die Sch



atzer

sowie ihre p osteriori Kovarianzen



;:::;n

ben



otigt. Letztere ergeb en sich aus



(







n





n



mit





i



i

)



i



i



i

i





i



i



j



Im Anhang in Abschnitt 6.2.1 wird gezeigt, da die Blo ckdiagonalgestalt der

Fishermatrix ausgenutzt werden kann, so da f



ur die Berechnung von

nicht die gesammte Fishermatrix

(

)invertiert werden mu.

E-Schritt

Da f



ur die gemeinsame Dichte

(

Y; Æ;Q

(

Y; Æ

)

(

)

gilt und nur der letzte Faktor in der Dichte von

abh



angt, l



at sichder

E-Schritt im

-ten Iterationsschritt reduzieren zu:







(

Æ;Q

)

Y; Q



N

)vorausgesetzt wurde, erh



alt man bis auf konstante Terme







j



Y; Q



und damit kann

b estimmtwerden mit

cov

(

)

(

)

In Tutz & Hennevogl (1996) wird vorgeschlagen, wegen des groen nume-

rischen Aufwands bei der Berechnung der Erwartungswerte, den p osteriori

Erwartungswert von

durchden p osteriori Mo de

zu ersetzen und die

p osteriori Kovarianzen durch

. Damit folgt





2.1.3 Mo dellansatz der nichtparametrischen

Maximum Likeliho o d

Im vorherigen Abschnitt wurde vorausgesetzt, da die eindimensionalen zu-



alligen Eekte unabh



angig normalverteilt mit

iid

N

;

) sind. Das heit,

es wird eine parametrische Form vorausgesetzt. Da die Mischungsdichte nicht

bekannt ist und die Parametersch



atzungen empndlichvon der Sp ezizierung

der parametrischen Form abh



angen kann, bietet ein nichtparametrischer An-

satz, wie die nichtparametrische Maximum Likeliho o d-Sch



atzung Vorteile.

Bei diesem Verfahren, das vorgestellt wird in Aitkin (1995), Aitkin (1996),

Aitkin & Aitkin (1996), Aitkin & Francis (1995) und Aitkin & Wilson (1980),

wird die Mischverteilung zusammen mit den Mo dellparametern des Genera-

lisierten Linearen Mo dells gesch



atzt. Das prim



are Ziel ist jedo ch nicht die

Mischverteilung zu sch



atzen, sondern es sollen falsche Schlufolgerungen auf-

grund fehlerhafter Mo dellvoraussetzungen vermieden werden.

Bei der Parametersch



atzung mit der Gau-Hermite Integration sind die St



utz-

stellen

und die zugeh



origen Gewichte



ur eine gew



ahlte Anzahl von



utzstellen bei der gesamten Iteration konstant. Es wird ein gewichtetes

Generalisiertes Lineares Mo dell mit dem linearen Pr



adiktor



itj





betrachtet.

An Stelle von



werden b ei der nichtparametrischen Maximum Likeliho o d

Sch



atzung die St



utzstellen



;:::;

als Parameter in den linearen Pr



adiktor

mit



itj





aufgenommen, so da



der Parameter f



ur den Interzept der

-ten Komp o-

nente der Mischverteilung ist.

Die Parameter



;:::;



onnen gesch



atzt werden, indem Indikatoren mit

Stufen in das Mo dell aufgenommen werden. Da Identizierungsprob eme

mit dem Interzept von



und einer Komp onente



entstehen, wird





gesetzt. Alternativ ist es auch m



oglich den Interzept aus dem Mo dell zu

entfernen.

Die Gewichte zu den entsprechenden St



utzstellen

;:::;p

mit



ussen in jedem Iterationsschritt b estimmtwerden. Durch Dierenzieren der

Log-Likeliho o d

(

; 

;:::;

mit

(

; 

;:::;

)

nach

folgt









und mit

= 0 gilt:

Die Sch



atzung der Parameter kann dadurch mit folgendem EM-Algorithmus

durchgef



uhrt werden:



Die Anzahl

der St



utzstellen wird fest gew



ahlt und schrittweise erh



oht

bis das Maximum der Likeliho o d erreicht ist.



Die Daten des Regressionsmo dells werden mit der Anzahl der St



utz-

stellen vervielfacht, indem jede Zeile



des Mo dellansatzes

durch

1 0



:::

0 1

:::

0 0





ersetzt wird. Es werden jeweils

Zeilen, ab er nur



1neue Para-

meter in das Regressionsmo dell aufgenommen, so da





0 erf



ullt

ist und keine Identizierungsprobleme auftreten.



Startwert f



ur die Iteration ist die Berechnung der Gewichte

,wob ei



der Sch



atzer des Generalisierten Linearen Mo dells ohne zuf



allige

Eekte ist und die St



utzstellen und Gewichte aus den Verfahren mit

Gau-Hermite Integration



ub ernommen werden, so da

und



;:::;M

gilt, d. h. es ist:



(



)



(



)



Jeder Iterationsschritt

;

;:::

b esteht aus den folgenden Schrit-

ten:

{

Sch



atzung von ^



= (



;

;:::;



)

durch das mit

(



) gewichtete Regressionsmo dell

{

Up date der p osteriori Wahrscheinlichkeit durch

{

Berechnung der Gewichte f



ur Beobachtungseinheit

und St



utzstelle

mit

(





(



)



(



)



Die Iteration wird f



ur eine fest gew



ahlte Anzahl von St



utzstellen solan-

ge durchgef



uhrt, bis ein lokales Maximum f



ur die Likeliho o d erreicht

wurde. Dann wird die Anzahl der St



utzstellen erh



ohtbiskein gr



oerer

Wert f



ur das Maximum der Likeliho o d gefunden wird.

Damit die Designmatrix des Regressionsansatzes vollen Rang hat, wurde eine

Parametrisierung des Mo dellansatzes



itj





durch:



itM

1 0



:::

0 1

:::

0 0







mit ~





0gew



ahlt.

Unter der Neb enb edingung



=0 k



onnen die urspr



unglichen Parameter



;

:::;

)und



;:::;

) mit:









;:::;q













;:::;M

reparametrisiert werden.

2.2 Mo dellans



atze mit (zeit-)variierenden

Ko eÆzienten

Beim Mo dellansatz mit (zeit-)variierenden Ko eÆzienten b etrachten wir den

zeitabh



angigen Regressionsparameter



(

) und setzen voraus, da die Daten

in der Form (

) vorliegen. Das heit, da neb en dem Resp onse- und

Kovariablenvektor auch no ch der Beobachtungszeitpunkt



ur jede Beob-

achtung bekannt ist. Im allgemeinen gehen wir davon aus, da f



ur die

-te

Beobachtungseinheit mehrere Beobachtungszeitpunkte bzw. Mewiederho-

lungen zu verschiedenen Zeitpunkten vorliegen.

Weiter wird angenommen, da die Menge der beobachteten Zeitpunkte dis-

kret und endlich ist, so da

;:::;T

vorausgesetzt werden kann.

Wir verwenden die Daten (

) in der Notation (

)mit

;:::;N

und

;:::;T

,wob ei

die Anzahl der Beobachtungseinheiten ist.

Liegt ein binomiales o der multinomiales Mo dell mit gruppierten Daten vor, so

wird vorausgesetzt, da die Daten in der Form (

)mit

;:::;N

und

;:::;T

vorliegen. Dab ei b ezeichnet

die Anzahl der Grupp en,

die Anzahl der Beobachtungen,

den Kovariablenvektor und

den

Grupp endurchschnitt jeweils f



ur die Grupp e

zum Zeitpunkt

. Die Anzahl

der Beobachtungen ist



Im weiteren unterscheiden wir nicht zwischen gruppierten und ungruppierten

Daten. Wir setzen

= 1 f



ur ungruppierte Daten und sprechen allgemein

von der

-ten Beobachtungseinheit.

Es wurde nicht vorausgesetzt, da zu einer Beobachtungseinheit



ur alle

Zeitpunkte

;:::;T

Beobachtungen vorliegen. Trotzdem werden wir die

Summation

verwenden, indem wir die entsprechenden Summan-

den mit 0 denieren, wenn f



ur eine Beobachtungseinheit

zum Zeitpunkt

keine Beobachtung vorliegt.

Um Zeitabh



angigkeit zu mo dellieren, b etrachten wir den RegressionskoeÆ-

zienten



als eine Funktion der Zeit

,d. h.



(

)=(



(

)

;:::;

(

)).

Die in dieser Arb eit verwendeten Ans



atze f





(

) (

;:::;p

) werden

im folgenden kurz vorgestellt. Dab ei gehen wir immer davon aus, da Zeit-

abh



angigkeit vorliegt, auch wenn mit den Mo dellen allgemeinere Abh



angig-

keitsstrukturen mo delliert werden k



onnen.

2.2.1 Parametrische und semi-parametrische Ans



atze

Polynomiale Regression

Bei der Polynomialen Regression wird die Zeitabh



angigkeit des Regessions-

ko eÆzienten



(

) durch ein Polynom von

mit fest vorgegeb enem Grad



mo delliert:



(





Regressions Spline

Bei diesem Ansatz (Hastie & Tibshirani, 1990; Fahrmeir, Hamerle & Tutz,

1994) wird der obige Mo dellansatz ver



andert indem der Parameter



(

)



uckweise durch Polynome deniert wird. Der Spline ist an den Bruch-

stellen, den sogenannten Knoten stetig dierenzierbar.

Eine m



ogliche Anwendung ist der st



uckweise-kubische Spline Efron (1988).

Dab ei wird



(

) aus

+1 (

) kubischen Funktionen zusammengesetzt, so

da die Funktion auch an den Knoten



;:::;

,zweimal stetig dierenzierbar

ist:



(



(





)

;

mit (





)

max





Liegen die Beobachtungen teilweise sp



arlich vor, b eispielsweise ist dies in

Verweildauermo dellen gegen Ende des Beobachtungszeitraumes der Fall, so

wird h



aug ein kubisch-linearer Regressions Spline verwendet:



(



(





)





(





)



mit (





)



min







t<

hat die Funktion



(

) einen kubischen und f



t>

einen linea-

ren Verlauf. Die Funktion



(

)ist f



ur alle t, insb esondere f





stetig

dierenzierbar.

Neb en diesen Regressions Splines ist es auchm



oglich, mehrere kubische Funk-

tionen und eine lineare Funktion st



uckweise zu denieren, so da die Funktion



(

) f



t>



aus einer Geraden und f



t < 



aus einem st



uckweise-

kubischen Spline b esteht, es ist:



(



(







)





(







)





(





)



Mit den Knoten



<



<:::;

<



ist



(

) f









einmal und f



t<



zweimal stetig dierenzierbar.

Die in diesem Abschnitt vorgeschlagenen Mo delle sind sehr einfach zu im-

plementieren. Nach Anpassung der Designmatrix k



onnen Standardverfahren

zur Sch



atzung der Ko eÆzienten



verwendet werden um



(

)zu b estim-

men.

Um die Interpretation der variierenden Ko eÆzienten zu erleichtern und um

numerische Sch



atzprobleme zu vermeiden, mu darauf geachtet werden, da

der Grad des Polynoms bzw. die Anzahl der Knoten der vorhanden Daten-

struktur gerecht wird. Das heit die Anzahl der Spalten in der Designmatrix

sollte m



oglichst klein sein, um die Struktur der zeitlichen Abh



angigkeit zu

erkennen und um eine



Ub erparametrisierung zu vermeiden

2.2.2 Lokaler Likeliho o dansatz

Dieser Mo dellansatz, der auchin Kauermann & Tutz (1995), Kauermann

& Tutz (2000), Tutz & Kauermann (1995) und Tutz & Kauermann (1997)

b ehandelt wird, ist ein sp ezielles variierendes Ko eÆzientenmo dell, wie es in

Hastie & Tibshirani (1993) vorgestellt wird. Die Mo dellparameter variieren

in Abh



angigkeit einer erhob enen Variablen, dem sogenannten Eektmo di-

zierer. In unserem Ansatz entspricht der Eektmo dizierer der Zeit.

Zu jedem Zeitpunkt

;:::;T

wird



(

) = (



(

)

;:::;

(

))

durchein

separates Generalisiertes Lineares Mo dell gesch



atzt. Dab ei gehen die Beob-

achtungen (

)mit

2 f

;:::;T

gewichtet, in Abh



angigkeit zu dem

b eobachteten Zeitpunkt

, in die Sch



atzung ein. Die dab ei verwendete Ge-

wichtsfunktion



(

t; s

) ist unter Verwendung einer Kernfunktion

(

) in

Abh



angigkeit des Gl



attungsparameters



durch



(

t; s











deniert.

Als Kernfunktionen werden verschiedene unimo dale, symmetrische Funk-

tionen verwendet. Beispielsweise k



onnen der Epanechnikov-Kern

(



) f



j

0sonst

o der der Gau-Kern

(



exp







angewendet werden.

Mit der Wahl der Normierungskonstanten

(0)



gilt:



(

t; s

)=1 f



;:::;T



(

t; s

(

1 f



0 f



d. h. im Lokalen Likeliho o dansatz sind auchzwei Sp ezialf



alle enthalten. F





erhalten alle Beobachtungen unabh



angig von Beobachtungszeitpunkt

das Gewicht 1. Die Parametersch



atzung mit dem Lokalen Likeliho o dansatz

entspricht der Sch



atzung mit dem Mo dellansatz b ei dem keine Zeitabh



angig-

keit f





ber



ucksichtigt wird. F





0 gehen in die Parametersch



atzung

von



(

)nur die Beobachtungen zum Zeitpunkt

ein.

Durch die Wahl des Gl



attungsparameters k



onnen somit sehr exib el die un-

terschiedlichen Gewichte festgelegt werden. In Abbildung 2.1 werden die

Gewichte



(

t; s

) f



=10 und

= (1

;

;:::;

21) in Abh



angigkeit des



attungsparameters



unter Verwendung des Gau-Kerns dargestellt.

Liegt ein Verweildauermo dell vor, b ei dem gegen Ende des Beobachtungszeit-

raumes nur no ch wenige Beobachtungen vorliegen, so kann der Gl



attungs-

parameter



in Abh



angigkeit der Anzahl der vorliegenden Beobachtungen

b eispielsweise mit



gew



ahlt werden.

5 101520

0.0 0.2 0.4 0.6 0.8 1.0

gamma = 0.1

5101520

0.0 0.2 0.4 0.6 0.8 1.0

gamma = 0.5

5 101520

0.0 0.2 0.4 0.6 0.8 1.0

gamma = 1

5 101520

0.0 0.2 0.4 0.6 0.8 1.0

gamma = 2

5101520

0.0 0.2 0.4 0.6 0.8 1.0

gamma = 3

5 101520

0.0 0.2 0.4 0.6 0.8 1.0

gamma = 4

5 101520

0.0 0.2 0.4 0.6 0.8 1.0

gamma = 5

5101520

0.0 0.2 0.4 0.6 0.8 1.0

gamma = 10

5 101520

0.0 0.2 0.4 0.6 0.8 1.0

gamma = 100

Abbildung 2.1: Gewichte des Gau-Kerns in Abh



angigkeit des



attungsparameters

Die Wahl des Gl



attungsparameters



kann durch Kreuzvalidierung , die b ei-

spielsweise in Rice & Silverman (1991), Fan, Hall, Martin & Patil (1996) und

Tutz (1989)) b ehandelt wird, erfolgen. Dab ei wird der Wert von



gew



ahlt

b ei dem

(



) mit

(





(

;





(

i;t

)

minimal ist.

Dab ei ist ^





(

i;t

)

der gesch



atzte Resp onse, gegeb en

, der durch den Sch



atzer



(

)



(

i;t

)

b estimmt wird. Der Sch



atzer



(

)



(

i;t

)

ist derjenige Sch



atzer zum

Zeitpunkt

;:::;T

des Regressionsko eÆzienten, b ei dem alle Beobach-

tungen bis auf die Beobachtung (

)indas Mo dell eingehen.

Die Anzahl aller Beobachtungen ist



Weiter ist

(



) eine Verlustfunktion, b eispielsweise werden die folgenden Ver-

lustfunktionen verwendet:



Quadratische Verlustfunktion

(

;





(

i;t

)

)=(







(

i;t

)



Kullback-Leibler Verlustfunktion

(

;





(

i;t

)

(





(

i;t

)



Minimale Pearson-Residuen

(

;





(

i;t

)

(







(

i;t

)





(

i;t

)

;

wob ei





(

i;t

)

) die Varianzfunktion ist. Im bin



aren Mo dell gilt b ei-

spielsweise





(

i;t

)

)= ^





(

i;t

)







(

i;t

)

) und im Poissonmo dell





(

i;t

)





(

i;t

)

Da in der verwendeten Datenstruktur (

) korrelierte Daten vorliegen

und deshalb keine Unabh



angigkeit der Residuen angenommen werden kann,

sollte dies bei Kreuzvalidierung ber



ucksichtigt werden. Verfahren f



ur die

Bestimmung der Kreuzvalidierung b ei abh



angigen Beobachtungen werden in

van der Linde (1994) vorgestellt.

Kapitel 3

Zuf



allige Eekte und

variierende Ko eÆzienten im

Generalisierten Linearen

Mo dell

Im vorherigen Kapitel wurde die Mo dellierung mit variierenden Ko eÆzien-

ten bzw. mit zuf



alligen Eekten vorgestellt. Beide Ans



atze f



ur Mo dell-

erweiterungen im Generalisierten Linearen Mo dell werden in diesem Kapitel

miteinander kombiniert.

Die Ausgangssituation bei der Verwendung von zeitvariierenden Ko eÆzi-

entenmo dellen ist, da im Zeitverlauf meist die gleichen Beobachtungsein-

heiten o der -grupp en betrachtet werden. Auf Grund der Mewiederholun-

gen o der der vorhandenen Grupp enstruktur, welche b eispielsweise die fa-

mili



are, regionale o der administrative Zugeh



origkeit der einzelnen Beobach-

tungseinheit wiedergibt, ist die Voraussetzung der homogenen Varianzstruk-

tur nicht erf



ullt. Werden diesen Mo dellen zuf



allige Eekte hinzugef



ugt,

so wird nicht nur die Grupp enstruktur bzw. die Struktur der Mewieder-

holungen ber



ucksichtigt, sondern dieser Mo dellansatz erm



oglicht auch den

grupp en- bzw. individuensp ezischen Einu der einzelnen Beobachtungs-

einheit zu quantizieren.

Werden die Daten f



ur ein Generalisiertes Lineares Mo dell mit zuf



alligen Ef-

fekten in einem Zeitverlauf erhob en, so kann nichtvorausgesetzt werden, da

der Einu der Ko eÆzienten zeitunabh



angig ist. Um den zeitsp ezischen

Einu der Kovariablen zu ber



ucksichtigen, k



onnen zeitvariierende Ko eÆzi-

enten in das Mo dell aufgenommen werden.

Es ist somit nur nat



urlich, sowohl den Mo dellansatz mit zuf



alligen Eekten

durch die Aufnahme von zeitvariierenden Ko eÆzienten zu erweitern, als auch

b eim Mo dellansatz mit zeitvariierenden Ko eÆzienten zus



atzlichzuf



allige Ef-

fekte zu b etrachten.

3.1 Mo dellans



atze und Parametersch



atzungen

Bei der Betrachtung eines Generalisierten Linearen Mo dells, das sowohl zeit-

variierende Ko eÆzienten als auchzuf



allige Eekte b er



ucksichtigt, setzten wir

folgende Datenstruktur voraus.

Die Daten liegen in der Form (

), f



= 1

;:::;N

Beobachtungsein-

heiten bzw. -grupp en zu den entsprechenden Zeitpunkten

2 f

;:::;T

vor.

Bei der Mo dellierung wird im folgenden vorausgesetzt, da der Regressions-

ko eÆzient



= (



(1)

;:::;

(

)) den zeitvariierenden und die zuf



alligen Ef-

fekte

;:::;b

den individuen-, grupp en- o der auchumweltsp ezischen Ein-

u auf die Zielgr



oe b eschreib en.

3.1.1 Volles Mo dell, parametrische und semi-

parametrische Ans



atze

Ist die Anzahl der b etrachteten Zeitpunkte gering, so kann, wenn keine

zuf



alligen Eekte b er



ucksichtigt werden, separat f



ur jeden b etrachteten Zeit-

punkt ein Mo dell gesch



atzt werden. Dab ei werden immer die Beobachtun-

gen betrachtet, die zu dem zugeh



origen Zeitpunkt erhob en wurden. Unter

Ber



ucksichtigung von zuf



alligen Eekten kann mit diesem Ansatz das folgen-

de Mo dell b etrachtet werden.

Ist

die Matrix, deren Ko eÆzienten alle 0 sind, so lautet der lineare Pr



adiktor

im vollen Mo dell





mit

;:::;Z

;:::;

)und



(1)

;:::;

(

)) sowie

iid

N

Bei diesem Mo dellansatz kann die Sch



atzung der Parameter durch den vorge-

stellen EM-Algorithmus mit direkter Gau-Hermite Integration ohne weitere

Anpassungen durchgef



uhrt werden.

Die im vorherigen Kapitel vorgestellen parametrischen und semi-parametrischen

Mo delle lassen sich eb enso einfacherweitern. Der lineare Pr



adiktor





wird durch die Aufnahme der zuf



alligen Eekte durch





(

mit

iid

N

)

ersetzt. Wob ei f





(

)eine der in 2.2.1 vorgestellten Parametrisierung

gew



ahlt werden kann.

Mit zunehmender Anzahl der zu b etrachteten Zeitpunkte wird die Anzahl der

zu sch



atzenden Parameter meist so gro, da numerische Sch



atzprobleme b ei

der Bestimmung der Parametersch



atzungen auftreten. Deshalb k



onnen die

ob en vorgestellen Mo delle nur sehr eingeschr



ankt verwendet werden. Der

folgende Lokale Likeliho o dansatz unter Ber



ucksichtigung von zuf



alligen Ef-

fekten ist exibler, da durchdieVerwendung der Kernfunktion mit der Wahl

des Gl



attungsparameters eine b eliebige zeitliche Gl



attung erfolgen kann.

3.1.2 Lokaler Likeliho o dansatz mit zuf



alligen Eekten

Im folgenden stellen wir zwei Algorithmen vor, die sowohl zuf



allige Eekte als

auch zeitvariierende Ko eÆzienten, die mit einem Lokalem Likeliho o dansatz

gesch



atzt werden, ber



ucksichtigen. F



ur die Ber



ucksichtigung der zuf



alligen

Eekte wird zuerst der EM-Algorithmus mit Gau-Hermite Integrationstech-

nik verwendet und im zweiten vorgestellten Algorithmus der EM-Typ e ver-

wendet.

Der lineare Pr



adiktor des Mo dellansatzes lautet in beiden Varianten:



mit

iid

N

)und



(1)

;:::;

(

))



ur die zuf



alligen Eekte

;:::;b

,dieden individuen- o der grupp ensp ezi-

schen Einu b eschreib en, wird keine zeitliche Abh



angigkeit vorausgesetzt.

Das heit einerseits, da die zuf



alligen Eekte

;:::;b

unabh



angig vom b e-

trachteten Zeitpunkt

;:::T

sind. Anderseits mu b ei der Sch



atzung des

zeitvariierenden RegessionskoeÆzienten



= (



(1)

;:::;

(

))) der Einu

der zuf



alligen Eekte

;:::;b



ur jeden Zeitpunkt

;:::;T

gleichblei-

bend ber



ucksichtigt werden.

EM-Algorithmus mit Gau-Hermite Integrationstechnik

In dem zuerst vorgeschlagenen Algorithmus wird ein iteratives Verfahren ver-

wendet, das den zeitvariierenden Ko eÆzienten



sch



atzt, indem die zuf



alligen

Eekte konstant gehalten werden, d. h.

gehtals OFFSET in die Mo-

dellgleichung ein. Die Sch



atzung des Parametervektors



(1)

;:::;

(

)))

kann mit dem Lokalen Likeliho o dansatz erfolgen.

Anschlieend wird die Kovarianzmatrix

gesch



atzt, wob ei



konstant

gehalten wird. Der im vorherigen Kapitel vorgestellte EM-Algorithmus mit

Gau-Hermite Integration kann ohne weitere Anpassungen



ub ernommen wer-

den.

Da nun sowohl



als

bekanntsind,k



onnen die zuf



alligen Eekte

;:::;b

b estimmtwerden.

Dieses Verfahren mu iterativ angewendet werden und es ergibt sich folgender

Ablauf:



Um Startwerte f



ur die Iteration zu erhalten, wird das Mo dell mit zu-



alligen Eekten ohne variierenden Ko eÆzienten verwendet.

Der lineare Pr



adiktor diese Mo dells hat die Form





mit

iid

N

)

{

Zuerst werden



und

gesch



atzt.

{

Anschlieend erfolgt die Bayes-Sch



atzung der zuf



alligen Eekte

;:::;



Unter Verwendung der Startwerte



= 1

;:::;N

wird die

folgende Iteration f



;

;:::

durchgef



uhrt:

{

Die zeitvariierenden Ko eÆzienten



(

)

werden durch den Lo-

kalen Likeliho o dansatz gesch



atzt, bei dem die zuf



alligen Eekte

konstant gehalten werden. Das heit es gilt





(

)

OF F S E T





{

Die Aktualisierung der zuf



alligen Eekte



= 1

;:::;N

erfolgt in zwei Schritten:

Zuerst wird der Sch



atzer

durch ein Mo dell mit zuf



alligen

Eekten, b ei dem die zeitvariierenden Ko eÆzienten



(

)

Teil

des OFFSETS sind, b estimmt. Es wird das Mo dell



OF F S E T





(

)



mit

N

)b etrachtet und anschlieend erfolgt die Ak-

tualisierung der zuf



alligen Eekte



;:::;N



Die Iteration wird b eendet, falls



(

)





(

)



(

)

<

gilt.

EM-Typ e Algorithmus

Da beim EM-Typ e Algorithmus eine simultane Sch



atzung des Parameter-

vektors



= (



(1)

;:::;

(

)) und der zuf



alligen Eekte

= 1

;::: N

mit

iid

 N

) durchgef



uhrt wird, k



onnen zeitvariierenden Ko eÆzienten pro-

blemlos b er



ucksichtigt werden.

Ist

aus den vorherigen Iterationsschritt b ekannt, so gilt f



ur die Likeliho o d

mit



(1)

;:::;

(

)

;:::;b

(

) =

(

;

)









(

t; s

) ln

(

;

(

))







und f



ur die Scorefunktion folgt:

(

)

@

(

)



(

t; s

)

(



(

)

) 



(



(

)

) (





(



(

)

))

(

)

(



(

)

) 



(



(

)

) (





(



(

)

))







Damit hat die Fishermatrix die folgende partitionierte Darstellung:

(

)



 



 











mit:





(

t; s

)

(



(

)

) 



(



(

)

(



(

)





(

t; s

)

(



(

)

) 



(



(

)

(



(

)



(



(

)

) 



(



(

)

(



(

)

) +







Diese Blo ckgestalt der Fishermatrix kann, wie im Anhang in Abschnitt 6.1.2

gezeigt wird, f



ur eine Vereinfachung bei der Berechnung der Sch



atzer aus-

gen



utzt werden.

3.2 Varianz der Parametersch



atzungen

Um inhaltlich die gesch



atzten Parameterwerte interpretieren zu k



onnen, mu

neb en der Sch



atzung der Parameterwerte vor allem die Varianz dieser Sch



atz-

werte ber



ucksichtigt werden. Im folgenden betrachten wir die Sch



atzungen

der Varianzen der Parametersch



atzungen f



ur die ob en vorgeschlagenen Mo-

delle.

Im Generalisierten Linearen Mo dell ohne zuf



allige Eekte und ohne variie-

rende Ko eÆzienten gilt f



ur den gesch



atzten Parametervektor



N

(

; F



(



))

Das heit, die Sch



atzung der Kovarianz kann durch

cov

(



) =



(



) erfol-

gen, wob ei



(



) die inverse Fishermatrix bezeichnet. Bei diesem Mo del-

lansatz liegen Beobachtungen (

)mit

= 1

;:::N

vor und der lineare



adiktor lautet





,so da f



ur die Fishermatrix

(



(







;

mit

(



(



)

@

und 

=

(



cov

(



)gilt.

3.2.1 Varianzsch



atzungen bei Mo dellen mit zuf



alligen

Eekten

Im Generalisierten Linearen Mo dell mit zuf



alligen Eekten sind im linea-

ren Pr



adiktor neb en den gesch



atzten festen Parametern



und

auch die

zuf



alligen Eekte



;:::;N

enthalten.

EM-Algorithmus mit Gau-Hermite Integrationstechnik

Beim EM-Algorithmus mit Gau-Hermite Integrationstechnik kann wegen

der verwendeten Mischungsdichte f



ur die Varianzsch



atzung nicht die Fisher-

matrix aus dem letzten Iterationsschritt verwendet werden. In Fahrmeir &

Tutz (1994) und in Gourieroux & Montfort (1989) wird vorgeschlagen die

Fishermatrix mit Hilfe der Scorefunktion zu approximieren.

Im Anhang in Abschnitt 6.1.2 wird auf die Parametersch



atzung f



ur den Mo-

dellansatz mit dem linearen Pr



adiktor





mit

iid

N

)

eingegangen. Dieser Mo dellansatz wird mit

und



vec

(

)

sowie





;

) mit



(1)

;:::;

(

)) unter Verwendung des Kronecker

Pro duktes



und der Cholesky-Zerlegung von

mit

umpa-

rametrisiert zu



= [

; a



]



mit

iid

N

;

Ist

die Anzahl der St



utzstellen und

(



) die Gewichte der

-ten

Beobachtungseinheit f



ur St



utzstelle

der Gau-Hermite Integration, so die

Scorefunktion der

-ten Beobachtungseinheit mit

(



)



(

;

)

@

(

;

)

@

approximiert werden. Die Kovarianz des Parametervektors ^





;



)kann

somit durch

cov



)



cov



):=





)





mit



)





)

gesch



atzt werden.

Mit diesem Ansatz l



at sich die Scorefunktion unter Verwendung des linearen



adiktors



itj



; d







durch

(



) =

(



)



; d





itj





itj

(





itj

)

mit

itj

(



itj

)

@



itj

(



itj

)und 

itj

cov

(

;

)b erechnen.

Volles Mo dell



ur das volle Mo dell kann der Ansatz ohne Ver



anderungen



ub ernommen werden. Es wurde f



ur die die Sch



atzung von



= (



;

)

mit



= (



(1)

;:::;

(

)) ein Generalisiertes Lineares Mo dell mit zuf



alligen

Eekten und dem folgenden linearem Pr



adiktor



(



)mit

;:::;Z

;:::;

)

;

verwendet. Die Scorefunktion ist somit approximiert durch

(



)



(



(



)

(

;



)

@

(



)

; d



itj





itj

(





itj

)

und dab ei ist

itj

(



itj

)

@



itj

cov

(

;

)



itj

(



itj

)mit



itj

; d





(1)



(

)



Delta-Metho de

Die Delta-Metho de wird verwendet, um die Sch



atzung

der Varianzen der Parametersch



atzungen im Mo dellen mit parametrischen

und semi-parametrischen zeitvariierenden Ko eÆzienten zu b erechnen.

Wurde b eispielsweise



(

) parametrisiert als ein Polynom von

mit Grad



(vgl. Abschnitt 2.2.1), so gilt



(

) =





und f



ur die Kovarianz von

cov

(



(

)) folgt

cov

(



(

))) =

tcov

(



)

Zudem wird die Delta-Metho de auchverwendet, um die Kondenzb



ander f



die Sch



atzung der Varianz

var



)mit ^





(



) zu b estimmen. Mit

(





)



folgt

var



(



)

cov

(



)

(



)

Lokaler Likeliho o dansatz

Bei der Parametersch



atzung durch den Lo-

kalen Likeliho o dansatz bei dem die zuf



alligen Eekte durch Gau-Hermite

Integrationstechnik gesch



atzt werden, erfolgt die Sch



atzung von



(

)lokal



ur jeden b etrachteten Zeitpunkt

;:::T

. Dagegen wird die Sch



atzung

von



global, d. h. unabh



angig von

durchgef



uhrt.

Beim Verfahren f



ur die Berechnungen der Varianzen der Parametersch



atzungen

mu deshalb folgende Unterscheidung getroen werden:



Der Sch



atzung von



(

)liegt ein Generalisiertes Lineares Mo dell mit

zuf



alligen Eekten zugrunde. Das heit, die Approximation der lokalen

Scorefunktion erfolgt mit

(



(

)

;

)



(



(

)

;

)



(

s; t

)

(

;

(

)

;

)

@

(

)

(



(

)

;

)



(

s; t

)



; d





isj





isj

(





isj

)

;

wob ei



(

s; t

) die Gewichte der gew



ahlten Kernfunktion b ezeichnen

und

isj

(



isj

)

@



isj

cov

(

;

(

)

;

)



isj

(



isj

)mit



isj



; d







(

)



gilt.

Damit wird die Kovarianzmatrix gesch



atzt mit:

cov

(



(

)

;

) =

(



(

)

;

)

(



(

)

;

)





Die Sch



atzung von



erfolgt global, so da der folgende marginale An-

satz gew



ahlt werden kann. Mit



= (



(1)

;:::;

(

)

;

)und

(

;:::;Z

;:::;

) gilt f



ur die Scorefunktion

(



)



(



)

; d



itj





itj

(





itj

)

mit

itj

(



itj

)

@



itj

cov

(

;

(

)

;

)



itj

(



itj

)mit



itj

; d





(1)



(

)



und somit folgt f



ur die Kovarianzmatrix

cov

(



) =

(



)

(



)



Die Kovarianzen

cov

(



(

)) ergeb en sich dann aus den entsprechenden Teil-

matrizen von

cov

(



(

)

;

)und die Sch



atzung der Kovarianz von



aus der

entsprechenden Teilmatrix von

cov

(



cov

(



(1)

;



;

(

)

;

Kapitel 4

Simulationsb eispiele

Im vorherigen Kapitel 3 wurden verschiedene Mo dellerweiterungen des Gene-

ralisierten Linearen Mo dells vorgestellt, die gleichzeitig eine zeitliche Variati-

on der Parameter erm



oglichen und grupp en- bzw. individuensp ezische Eek-

te durch die Aufnahme von zuf



alligen Eekten im Mo dellansatz b er



ucksichtigen.

Es wurden verschiedene Sch



atzverfahren f



ur die Bestimmung der Parame-

tersch



atzungen und deren Varianzen angegeb en. Die G



ute der vorgestellten

Verfahren wird in diesem Kapitel durch Simulationsb eispiele veriziert.

Zun



achst werden die vorgestellten Mo dellans



atze f



ur die Sch



atzung der fe-

sten Parameter angewendet und anschlieend wird auf die Bayes-Sch



atzung

der zuf



alligen Eekte eingegangen.

Bei der Sch



atzung der festen Parameter werden der Lokale Likeliho o dansatz

und der Ansatz des vollen Mo dells miteinander verglichen. Dab ei zeigt sich,

da der Lokale Likeliho o dansatz, b ei dem f



ur die Sch



atzung der zuf



alligen Ef-

fekte die Gau-Hermite Integrationstechnik verwendet wird, sehr gute Resul-

tate liefert. Wird dagegen der EM-Typ e Algorithmus angewendet, so liefert

dieser nur zufriedenstellende Ergebnisse, wenn die Streuung der zuf



alligen Ef-

fekte sehr gering ist. Damit ist eine Aussage



ub er die Sch



atzung der zuf



alligen

Eekte b eim EM-Typ e Algorithmus nur b edingt aussagekr



aftig.

4.1 Sch



atzung der festen Parameter

In den folgenden Simulationstudien werden die Ergebnisse aus dem vollen

Mo dell mit denen des Lokalen Likeliho o dansatzes mit Gau-Hermit Integra-

tionstechnik bzw. mit EM-Typ e Algorithmus jeweils unter Ber



ucksichtigung

von zuf



alligen Eekten vorgestellt.

Aufbau der Simulationsstudie

In den Simulationsstudien wird das bin



are logistische Mo dell



(



exp(



)

1 + exp (



)

mit





(



(

)

und

N

) mit 100 Beobachtungseinhei-

ten f



ur 10 Zeitpunkte gew



ahlt.

Der Regressor

ist mit



= 1

;:::;

10 und

 N

;

1) f



;:::;

100 gew



ahlt worden. Die Parametervorgab en f





sind



= (



(1)

;

(2)

;:::;

(10))

=(1

;

;:::;



= (



(1)

;

(2)

;:::;

(10))

=(0

;

;:::;





wird b eim vollen Mo dell und b eim Lokalen Likeliho o dansatz mit Gau-

Hermite Integrationstechnik die Parametervorgab e mit



= 2, dagegen

b eim Lokalen Likeliho o dansatz unter Verwendung des EM-Typ e Algorithmus

mit



1) gew



ahlt.

4.1.1 Das volle Mo dell mit zuf



alligen Eekten

Das volle Mo dell unter Ber



ucksichtigung von zuf



alligen Eekten wurde im

Abschnitt 3.1.1 vorgestellt. Die Sch



atzung der Parameter



und



(1)

;



(1)

;:::;

(10)

;

(10)) erfolgt durch den Mo dellansatz eines Generalisier-

ten Linearen Mo dells mit zuf



alligen Eekten und dem linearem Pr



adiktor



(



)mit

;:::;Z

;:::;

)mit

=(1

)

Sch



atzung der Parametervarianzen

Die Sch



atzung der Varianz wird, wie in Abschnitt 3.2.1 vorgestellt, durchdie

Approximation der inversen Fishermatrix mit der Scorefunktion, d. h.

cov



)









mit



)



)

durchgef



uhrt. Ist

die Anzahl der St



utzstellen f



ur die numerische Integra-

tion so gilt:

(



)



(



(



)

(

;



)

@

(



)



; d



itj

(



itj

)



(



itj

) (





(



itj

))

mit 

itj



; d





In den folgenden Abbildungen werden die Ergebnisse der Simulationsstudie

graphisch dargestellt. Dab ei wird deutlich, da die empirischen Standardab-

weichungen

emp

(



(

)) :=







(

)







(

)



bzw.

emp

(



) :=















sehr gut mit den entsprechenden gesch



atzten Standardabweichungen

(



(

)) :=

var





(

)



bzw.

(



) :=

var









ub ereinstimmen. Mit





(

) =



(

) und





(

) =



(

) werden die

durchschnittlichen Parametersch



atzungen b ezeichnet.

Ergebnisse der Simulationsstudie

In den Abbildungen 4.1 und 4.2 werden f



ur die Parameter



und



zu jedem

betrachteten Zeitpunkt

= 1

;

;:::;

10 alle Parametersch



atzungen in Form

eines Box-Plots eingetragen. Zus



atzlich werden die Mo dellvorgab en sowie

die empirischen und gesch



atzten Standardabweichungen mit

Modellvorgabe

+− empirische Standardabweichung

+− geschätzte Standardabweichung

gekennzeichnet.

246810

-0.5 0.0 0.5 1.0 1.5 2.0

marginal model

beta 0

Anzahl der Simulationen

U= 160

Abbildung 4.1: Simulationsergebnisse f





(1)

;

(2)

;:::;

(10) im vollen

Mo dell

246810

-1 0 1 2

marginal model

beta 1

Anzahl der Simulationen

U= 160

Abbildung 4.2: Simulationsergebnisse f





(1)

;

(2)

;:::;

(10) im vollen

Mo dell



ur die zugeh



origen Parametersch



atzungen von



wurden die folgenden durch-

schnittlichen Parameter- bzw. Varianzwerte berechnet.







emp

(



)

(



)

2 2.024 0.227 0.214

4.1.2 Lokaler Likeliho o dansatz mit zuf



alligen Eekten

und Gau-Hermite Integrationstechnik

In diesem Abschnitt werden die Ergebnisse der Parametersch



atzungen beim

Lokalen Likeliho o dansatz unter Ber



ucksichtigung von zuf



alligen Eekten vor-

gestellt, wob ei die Gau-Hermite Integrationstechnik verwendet wird.

Die Sch



atzung von



:= (



;

)und



= (



(1)

;

(1)

;:::;

(10)

;

(10))

erfolgt somit durch ein Generalisiertes Lineares Mo dell mit zuf



alligen Ef-

fekten und (zeit-)variierenden Ko eÆzienten unter Verwendung des Lokalen

Likeliho o d Ansatzes mit dem linearen Pr



adiktor:



(



(

)mit

=(1



(

)=(



(

)

;

(

)) und

N

)

Es wird das in Abschnitt 3.1.2 vorgestellte Verfahren verwendet, wob ei f



die Kernfunktion der Gau-Kern mit



=1 und als Startwert



=2 sowie



ur das Abbruchkriterium der Iteration



05 gew



ahlt wurden.

Sch



atzung der Parametervarianzen

Bei der Parametersch



atzung wird der Ko eÆzienten



(

) mit Hilfe der lokalen

Likeliho o d und den Gewichten des Gaukerns berechnet, dagegen erfolgte

die Parametersch



atzung von



global, d. h. ohne lokale Gewichtung. Des-

halb mu b ei der Sch



atzung der Varianzen f



ur die Parametersch



atzungen f



var

(



(

)) und

var

(



)unterschiedliche Verfahren angewendet werden, die in

Abschnitt 3.2.1 vorgestellt wurden.



Die Lokale Sch



atzung von

var

(



(

)) erfolgt mit:

cov

(



(

)

;

) =

(



(

)

;

)

(



(

)

;

)



und

(



(

)

;

)



(



(

)

;

)



(

s; t

)

(

;

(

)

;

)

@

(

)

(



(

)

;

)



(

s; t

)



; d





isj





isj

(





isj

)





ur die globale Sch



atzung von



mit





(1)

;:::;

(

)

;

)und

(

;:::;Z

;:::;

) gilt:

cov

(



) =

(



)

(



)



mit

(



)



(



)

; d



itj





itj

(





itj

)



ur die Sch



atzung der Kovarianz von



(

) bzw.





ussen die entsprechenden

Teilmatrizen von

cov

(



) b etrachtet werden.

Ergebnisse der Simulationsstudie

Die Ergebnisse der Simulation werden f



ur jeden b etrachteten Zeitpunkt

;

;:::;

10 in Abbildung 4.3 und 4.4 in Form eines Box-Plots eingetragen.

Mit

Modellvorgabe

+− empirische Standardabweichung

+− geschätzte Standardabweichung

werden zus



atzlich die Mo dellvorgab en sowie die empirischen und gesch



atzten

Standardabweichungen gekennzeichnet.

246810

0.0 0.5 1.0

local Likelihood

beta 0

Anzahl der Simulationen

U= 100

Abbildung 4.3: Simulationsergebnisse f





(1)

;

(2)

;:::;

(10) b eim Loka-

len Likeliho o dansatz mit zuf



alligen Eekten und Gau-Hermite Integrations-

technik und



246810

−0.5 0.0 0.5 1.0 1.5

local Likelihood

beta 1

Anzahl der Simulationen

U= 100

Abbildung 4.4: Simulationsergebnisse f





(1)

;

(2)

;:::;

(10) b eim Loka-

len Likeliho o dansatz mit zuf



alligen Eekten und Gau-Hermite Integrations-

technik und



Die Ergebnisse der Parametersch



atzungen von



werden in der folgenden

Tab elle zusammengestellt:





















var







2 1.890 0.199 0.202

Die Struktur der zeitvariierenden Ko eÆzienten wird bei der Sch



atzung der

Parameterwerte exakt wiedergegb en. Da die Mo dellvorgab en im Mittel

nicht genau getroen werden, ist nicht verwunderlich, da beim verwendeten

Algorithmus alle Beobachtungen gewichtet in Abh



angigkeit der verwendeten

Kernfunktion eingehen. Insb esondere sind deshalb zu Beginn (d. h. f



= 1 und

= 2) und zum Ende (d. h. f



=9 und

= 10) die gesch



atzten

Parametervarianzen gr



oer als in der Mitte des Beobachtungszeitraumes f



=4,

=5 und

=6, bei denen die gesch



atzten und emirischen Varianzen

sehr gut



ub ereinstimmen.

4.1.3 Lokaler Likeliho o dansatz mit zuf



alligen Eekten

und EM-Typ e Algorithmus

Der Lokale Likeliho o dansatz unter Ber



ucksichtigung von zuf



alligen Eekten

mit Anwendung des EM-Typ e Algorithmus wurde in Abschnitt 2.1.2 vorge-

stellt. Bei den durchgef



uhrten Simulationsstudien hat sich gezeigt, da der

EM-Typ e Algorithmus ein sehr schnelles Verfahren ist, und recht gute Er-

gebnisse liefert, wenn die Standardabweichung der normalverteilten zuf



alligen

Eekte sehr klein ist (vgl. Hennevogl, 1991).

Es werden jedo ch keine guten Sch



atzresultate erzielt, wenn die Standard-

abweichung der zuf



alligen Eekte nicht sehr klein ist. Deshalb wurden die

Parametervorgab en f





und



mit



= (



(1)

;

(2)

;:::;

(10))

=(1

;

;:::;



= (



(1)

;

(2)

;:::;

(10))

=(0

;

;:::;

identisch zu den Vorgab en der letzten b eiden Simulationsstudien, jedo chdie

Standardabweichung der normalverteilten zuf



alligen Eekte mit



1, statt mit



= 2 gew



ahlt.

Die Sch



atzung von



:= (



;

)und



= (



(1)

;

(1)

;:::;

(10)

;

(10))

erfolgt durch ein Generalisiertes Lineares Mo dell mit zuf



alligen Eekten und

(zeit-)variierenden Ko eÆzienten unter Verwendung der lokalen Likeliho o d

und dem linearen Pr



adiktor:



(



(

)mit

=(1



(

)=(



(

)

;

(

)) und

N

)

Ergebnisse der Simulationsstudie

Die Sch



atzungen der Parameter



(1)

;

(2)

;:::;

(10) und



(1)

;

(2)

; :::;



(10) werden in den Abbildungen 4.5 und 4.6 mit Box-Plots dargestellt. So-

wie in Abbildung 4.7 sind die Sch



atzungen f





dargestellt. Die Sch



atzungen





sind nicht zufriedenstellend gesch



atzt worden. Ist die Varianz der

zuf



alligen Eekte gr



oer, so werden die Sch



atzungen f



ur den Mo dellpara-

meter



sehr ungenau. Deshalb werden wir dieses Verfahren nicht bei den

Anwendungsb eispielen im anschlieenden Kapitel 5 verwenden.

246810

-0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2

local Likelihood mit EM-Type

beta 0

gamma = 1

Anzahl der Simulationen

U= 50

Abbildung 4.5: Simulationsergebnisse f





(1)

;

(2)

;:::;

(10) b eim Loka-

len Likeliho o dansatz mit zuf



alligen Eekten und EM-Typ e Algorithmus

246810

0.0 0.2 0.4 0.6 0.8 1.0 1.2

local Likelihood mit EM-Type

beta 1

gamma = 1

Anzahl der Simulationen

U= 50

Abbildung 4.6: Simulationsergebnisse f





(1)

;

(2)

;:::;

(10) b eim Loka-

len Likeliho o dansatz mit zuf



alligen Eekten und EM-Typ e Algorithmus

0.0 0.5 1.0 1.5 2.0

0.30 0.35 0.40 0.45 0.50

Anzahl der Simulationen

U= 50

local Likelihood mit EM-Type

theta

gamma = 1

Startwert = 0.5

Abbildung 4.7: Simulationsergebnisse f





beim Lokalen Likeliho o dansatz

mit zuf



alligen Eekten und EM-Typ e Algorithmus

4.2 Bayes-Sch



atzung der zuf



alligen Eekte

Die Bayes-Sch



atzung der zuf



alligen Eekte kann mit dem in Abschnitt 2.1.1

vorgestellten Verfahren durchgef



uhrt werden.

In Abbildung 4.8 sind die Simulationsergebnisse f



ur die Bayes-Sch



atzung der

zuf



alligen Eekte

dargestellt. Dab ei ist ein bin



ares logistisches Mo dell mit

zuf



alligen Eekten und dem Mo dellansatz

(

exp

(



)

exp

(



)

und





(1)



(2)



gew



ahlt worden.

Bei der Simulation ist die Anzahl der Untersuchungseinheiten

= 100. Die

Anzahl der Mewiederholungen ist f



ur alle Untersuchungseinheiten konstant

mit

=4 festgelegt worden.

Der Regressor

(1)

ist bin



ar mit

(1)

2 f

;

und

(2)

ist metrisch durch

(2)

 N

;

10) gew



ahlt worden. F



ur alle Mewiederholungen

= 1

;:::;

sind diese Regressoren nicht ver



andert worden. Damit gilt

(1)

(2)

):=(1

(1)

(2)

)

Weiter gilt f



ur die zuf



alligen Eekte

N

)mit



=4.

Die Sch



atzungen dieser Eekte f



ur 50 Simulationsdurchl



aufe sind in der

obigen Abbildung 4.8 dargestellt. In vier F



allen konnte selbst nach 100

Iterationsschritten kein

gefunden werden, welches das Abbruchkriterium

(

neu

)



(

alt

)

(

neu

)



001 erf



ullt. In allen anderen F



allen wurde der Sch



atzwert

nach maximal 8 Iterationen gefunden.

Es ist auallend, da sehr groe bzw. sehr kleine Simulationsvorgab en von

nicht ausreichend gesch



atzt werden. Der QQ-Plot der Simulationsvorgab en



gegen die Quantile der Normalverteilung

;

4) in Abbildung 4.9

Personen 1 bis 50

0 1020304050

−4−2024

Simulationsvorgabe

Schätzung

keine Schätzung möglich

Schätzung der Randomeffekte

Personen 51 bis 100

0 1020304050

−4−2024

Abbildung 4.8: Simulationsergebnisse f





zeigt, da die Mo dellvoraussetzung

N

;

4) in der konkret vorliegenden

Stichprob e nicht exakt gegeb en ist.

Dies ist auch der Grund weshalb die Sch



atzung der festen Parameter nicht

exakt mit den Mo dellvorgab en



ub ereinstimmen. Dies wird in Abbildung

4.10 verdeutlicht, in dem die Kerndichtesch



atzungen f



ur die festen Parameter



und



sowie die aufsteigend sortierten Parametersch



atzungen f





dargestellt werden.

Quantile der Normalverteilung N(0,4)

Simulationsvorgabe der Randomeffekte

−50 5

−6−4−20 2 4 6

QQ−Plot

Abbildung 4.9: QQ-Plot der Simulationsvorgab en

Kerdichteschätzung

−2.0 −1.0 0.0

0.0 1.5 3.0

beta 0

Kerdichteschätzung

−1012

0.0 1.0 2.0

beta 1

Kerdichteschätzung

−0.6 −0.4 −0.2

0 5 10 20

beta 2

sort. Parameterschätzung

0 1020304050

1.5 1.7 1.9

················································

sigma

Abbildung 4.10: Sch



atzungen der festen Parameter

Kapitel 5

Anwendungsb eispiele

Es werden zun



achst zwei aus dem medizinischen Umfeld stammende Anwen-

dungssb eipiele f



ur Poissonmo delle vorgestellt. Anschlieend wird auf zwei

Beispiele f



ur Verweildauermo delle aus dem sozial-



okonomischen bzw. aus

dem medizinischen Bereich eingegangen.

In allen Studien werden die relevanten Merkmale der gleichen Personen zu

verschiedenen Zeitpunkten untersucht, so da es sich aus statistischer Sicht

um Mewiederholungen an den gleichen Beobachtungseinheiten im Zeitver-

lauf handelt. Durch die Verwendung von variierenden Ko eÆzienten kann

dieser zeitliche Einu untersucht werden, und durch die Aufnahme der

zuf



alligen Eekte wird sowohl die Datenstruktur der Mewiederholungen als

auch der individuensp ezische Einu b er



ucksichtigt.

5.1 Poissonmo delle

5.1.1 Emesis Datensatz

Datenbeschreibung



auge Neb enwirkungen der Chemotherapie sind



Ub elkeit und Erbrechen

(Emesis), die nachAngab en der Patienten sub jektiv als die am meisten be-

lastende Neb enwirkung empfunden wird.

Durch eine neue Art von Medikamenten sollen diese Neb enwirkungen verrin-

gert werden. Die 122 Patientinnen der vorliegenden Studie (Dietz & B



ohning,

1994) mit gyn



akologischen Tumoren wurden alle mit einer Chemotherapie in

Kombination mit einem anti-emetischen Wirksto b ehandelt. Es wurden

dab ei zwei unterschiedliche Wirstoe verwendet. Mit Medikament1(

Med 1

)

wurden 70 und mit Medikament2(

Med 2

) wurden 52 Patientinnen b ehandelt.

Das Empnden der



Ub elkeit einer Patientin ob jektiv zu messen ist sehr

schwierig. Einfacher ist, es die Anzahl der Erbrechungsanf



alle pro Tag zu



ahlen, wob ei wiederholtes Erbrechen in einer kurzen Zeitspanne als ein

Anfall gewertet wird. Der Zusammenhang zwischen der Anzahl der Erbre-

chungsanf



alle und dem sub jektiven Empnden der



Ub elkeit ist oensichtlich

gegeb en, so da in dem hier vorgeschlagenen Mo dell die Zielgr



oe die Anzahl

der Erbrechungsanf



alle pro Tag ist.

Es ist sinnvoll, die Patientinnen



ub er mehrere Tage zu b eobachten, um sicher-

zustellen, da ein neues Anti-Emetikum eventuell nichtnur zu einer zeitlichen

Verz



ogerung der Emesis f



uhrt. Die Patientinnen in dieser Studie wurden nach

der Anzahl der Erbrechungsanf



alle pro Tag am Therapietag selbst (

= 1)

und an den n



achsten f



unf folgenden Tagen (

;:::;t

= 6) b efragt.

Als weitere prognostische Faktoren wurde das Alter der Patientinnen (

age

)

und die Information, ob dies die erste Chemotherapie (

Zyk 1

=1) oder eine

weitere Chemotherapie (

Zyk 1

= 0) ist, b er



ucksichtigt.

Mo dellansatz

Die Zielgr



oe, d. h. die Anzahl der t



aglichen Erbrechungsanf



alle, wurde als

eine p oissonverteilte Zufallsvariable gew



ahlt. Es wurde der Mo dellansatz



Med 1

Med 2

age

Zyk 1



= exp



Med 1

Med 2

+ln(

age

Zyk 1



mit

iid

N

;

)verwendet. Der lineare Pr



adiktor des Mo dells enth



alt kei-

nen Interzept, damit der Einu der unterschiedlichen Medikamente, d. h.

die Parameterwerte von (

Med 1

), bzw. (

Med 2

) direkt interpretiert werden



onnen.

Das verwendete Mo dell ist ein Generalisiertes Lineares Mo dell mit zuf



alligen

Eekten und zeitvariierenden Ko eÆzienten. Als Mo dellansatz wird der zen-

trale Ansatz dieser Arb eit, der Lokale Likeliho o dansatz unter Ber



ucksichti-

gung von zuf



alligen Eekten verwendet, wob ei die Berechnung mit Hilfe der

Gau-Hermite Integrationstechnik durchgef



uhrt wird.

In diesem Anwendungsb eispiel werden wir auf die Wahl des Gl



attungspa-

rameters der Kernfunktion eingehen. Dab ei werden verschiedene Optima-

lit



atskriterien b ez



uglich der Wahl des Gl



attungsparameters angewendet und



ur unterschiedliche Gl



attungsparameters die Ergebnisse gegen



ub ergestellt.

Ergebnisse

Die Aufgab enstellung der Studie ist die Unterschiede der b eiden Medikamen-

te hinsichtlich der Emetogenit



at zu b eurteilen. Wie die folgende Darstellung

5.1 zeigt, ist die Anzahl der Erbrechungsanf



alle im gesammten Zeitverlauf

b ei der Einnahme von Medikament2 geringer als b ei Medikament 1.

Neb en dem Zeitverlauf der Parametersch



atzungen, werden auch die Kurven

der punktweisen Fehlerb



ander gezeigt. Letzter ergeb en sichaus der Addi-

tion, bzw. Subtraktion der Parametersch



atzwerte und den entsprechenden

Varianzen der Parametersch



atzungen.

Times

-2 0 2 4

t = 1 t = 2 t = 3 t = 4 t = 5 t = 6

Med 1

Med 2

gamma = 1

Abbildung 5.1: VergleichderParametersch



atzungen von

Med 1

und

Med 2

Es wurde der Gl



attungsparameter mit



=1, d. h. der optimale Gl



attungs-

parameter nach dem Kreuzvalidierungskriterium mit Kullback-Leibler Ver-

lustfunktion, gew



ahlt.

Bevor wir auf den Einu des Alters und des Therapiezyklusses eingehen,

stellen wir die Ergebnisse der Kreuzvalidierung f



ur die Wahl des Gl



attungs-

parameters vor.

Wahl und Einu des Gl



attungsparameters

Die Wahl des Gl



attungsparameters wurde mit Kreuzvalidierung, die in Ab-

schnitt 2.2.2 bei der Einf



uhrung des Lokalen Likeliho o dansatzes vorgestellt

wurde, durchgef



uhrt. Der optimale Gl



attungsparameter ist der Parameter,

der im Minimum der Verlustfunktion liegt. Wie in Abbildung 5.2 zu sehen

ist, wird der optimale Gl



attungsparameter durch Kreuzvalidierung bei Ver-

wendung der Quadratischen bzw. der Poisson-Verlustfunktion mit



= 1

dagegen bei der Kullback-Leibler Verlustfunktion mit



=1 b estimmt.

Regressoren:

Med 1, Med 2, Age, Zyk 1

Emesis Datensatz

•

••••••

•

gamma

CV(gamma)

12345

3.0 3.1 3.2 3.3

Quadratische Verlustfunktion

•

•••••••

•

gamma

CV(gamma)

12345

0.115 0.125 0.135 0.145

Kullback-Leibler Verlustfunktion

•

•••••••••

gamma

CV(gamma)

12345

1.2 1.6 2.0 2.4

Pearson Verlustfunktion

Abbildung 5.2: Wahl des Gl



attungsparameters durch Kreuzvalidierung

Durch die Bestimmung des optimalen Gl



attungsparameters mit Kreuzvali-

dierung durch eine der ob en genannten Verlustfunktionen wird sichergestellt,

da die Struktur der zeitabh



angigen Ko eÆzienten erkennbar ist. Es wird

jedo ch



ub er starke zeitliche Variation in den Daten gegl



attet, damit der zeit-

liche Trend optimal zu erkennen ist.

Wird ein Parameterwert f



ur den Gl



attungsparameter gew



ahlt, der deutlich



oer als der optimale Gl



attungsparameter ist, ist die relevante zeitabh



angige

Struktur nicht mehr erkennbar. W



ahlt man dagegen einen Parameterwert



ur den Gl



attungsparameter, der kleiner als der optimale Gl



attungsparameter

ist, l



at sich die den Daten zugrundeliegende Struktur genauer analysieren.

Aus diesem Grund werden im folgenden die Parametersch



atzungen mit dem



attungsparameter



= 0

5 und



= 1

5 in den Abbildung 5.3 und 5.4

dargestellt.

kein optimales gamma

gamma = 0.5

mit Konfidenzband

Emesis Datensatz

Times

-20246

t = 1 t = 2 t = 3 t = 4 t = 5 t = 6

Med

Med 1

Med 2

Times

-1.5 -1.0 -0.5 0.0 0.5

t = 1 t = 2 t = 3 t = 4 t = 5 t = 6

Age

Times

-0.4 -0.2 0.0 0.2

t = 1 t = 2 t = 3 t = 4 t = 5 t = 6

Zyk 1

Abbildung 5.3: Parametersch



atzungen mit



In dieser Studie hatten Patientinnen mit der ersten Chemotherapieb ehand-

lung weniger Erbrechungsanf



alle als Patientinnen mit zwei oder mehr Be-

handlungen.

Am zweiten Tag nach der Behandlung (

= 3) war die Anzahl der Anf



alle

jedo ch gleich. Da die ob ere Grenze des Kondenzbandes auch an den ande-

optimales gamma

mit Kreuzvalidierung:

gamma = 1.5

mit Konfidenzband

Emesis Datensatz

Times

-20246

t = 1 t = 2 t = 3 t = 4 t = 5 t = 6

Med

Med 1

Med 2

Times

-1.0 -0.5 0.0 0.5

t = 1 t = 2 t = 3 t = 4 t = 5 t = 6

Age

Times

-0.2 -0.1 0.0 0.1 0.2

t = 1 t = 2 t = 3 t = 4 t = 5 t = 6

Zyk 1

Abbildung 5.4: Parametersch



atzungen mit



ren Tagen ob erhalb der Null-Linie liegt, ist an allen Tagen der Einu des

Therapiezyklusses nicht signikantvon Null verschieden.

Bei j



ungeren Patientinnen waren die Erbrechungsanf



alle h



auger. Auch die-

ser Eekt ist nicht signikant, da bei dem optimalen Gamma, d. h.



die Null-Linie



ub erhalb des Kondenzbandes liegt.

Die punktweisen Kondenzintervalle f





5 sind zum Teil an den R



andern

untypisch schm



aler, als in der Mitte des Beobachtungszeitraumes.

Betrachtet man die Ergebnisse der Parametersch



atzungen mit



= 0

5, so

erkennt man, da



ub er eine groe \zackenartige" Variation der Parameter-

sch



atzungen gegl



attet wurde und deshalb die Kondenzintervalle sehr breit

sind.

5.1.2 Epileptic Datensatz

Datenbeschreibung

In Thall & Vail (1990) und Breslow&Clayton (1993) sowie in Diggle, Liang

& Zeger (1994) werden die Ergebnisse aus eine klinischen Studie vorgestellt,

bei der 59 Patienten, die an epileptischen Anf



allen leiden, zus



atzlich zur

Standardb ehandlung entweder ein neues Medikamentoder ein Placeb o ver-

abreichtwurde. Die Patienten hab en sich ab Beginn der Behandlung viermal,

jeweils nach zwei Wochen, in der Klinik vorgestellt.

Die Daten liegen in der Form (

)mit

= 1

;:::;

59 (Personen)

;:::;

4 (Mewiederholungen) vor. Dab ei ist

die Anzahl der epileptischen

Anf



alle der i-ten Person in einem zweiw



ochigen Intervall vor dem t-ten Arzt-

b esuch. F



ur den Regressorenvektor

= (1

Treat

B ase

Ag e

)der

i-ten Person gilt

T reat

=0, wenn keine zus



atzliche Behandlung (Placeb o)

bzw.

T reat

= 1, wenn die Behandlung mit dem neuen Medikament erfolgt

ist. Der BASELINE

B ase

stellt die patientensp ezische Anzahl der epilepti-

schen Anf



alle dar und ist die logarithmierte Anzahl der epileptischen Anf



alle

vor Beginn der neuen Behandlungsmetho de innerhalb eines Zeitraumes vom

8Wochen.

Mo dellans



atze

Im folgenden werden die Ergebnisse verschiedener Mo dellans



atze vorgestellt,

wob ei jeweils ein Poissonmo dell verwendet wurde. In den Tab ellen werden

neb en den Parametersch



atzungen auch die zugeh



origen Standardabweichun-

gen angegeb en.

Beim ersten Mo dellansatz werden keine variierenden Ko eÆzienten und keine

zuf



allige Eekte verwendet.



T reat



Base



Ag e

-3.85 (0.39) -0.04 (0.05) 1.22 (0.03) 0.52 (0.1)

Der obige Mo dellansatz kann durch Ber



ucksichtigung von zuf



alligen Eekten

erweitert werden und man erh



alt die folgenden Parametersch



atzungen.



Treat



Base



Ag e



-4.54 (0.39) -0.25 (0.04) 1.28 (0.03) 0.74 (0.09) 0.6735 (0.031)

Im n



achsten Schritt werden neb en der Aufnahme von zuf



alligen Eekten

auch zeitvariierende Ko eÆzienten b etrachtet. Dab ei werden drei verschie-

dene Ans



atze f



ur die zeitvariierenden Ko eÆzienten verwendet. Beim ersten

Ansatz wird der Marginale Likeliho o dansatz verwendet, beim zweiten die

Polynomiale Regression mit einem Polynom 3. Grades. Bei diesem Ansatz



onnen keine Standardabweichungen f



ur die Parametersch



atzungen angege-

ben werden, da die approximierte Fishermatrix aus numerischen Gr



unden

nicht invertiert werden kann. Beim zuletzt b etrachteten Mo dell wird der

Lokale Likeliho o dansatz mit



1verwendet.

Obwohl die drei Mo dellans



atze aufgrund der unterschiedlichen Ber



ucksich-

tigung des zeitlichen Einusses zu verschiedenen Parametersch



atzungen f



die zeitabh



angigen Ko eÆzienten f



uhren, lassen sichdie gleichen Tendenzen

erkennen. Damit ist die qualitative Aussage der Parametersch



atzungen in

allen drei Mo dellen gleich. Insb esondere wird der zeitunabh



angige individu-

ensp ezische Einu der zuf



alligen Eekte in allen Mo dellen gleichgesch



atzt.

Volles Mo dell



T reat



B ase



Ag e



t=1 -6.13 (0.66) -0.23 (0.1) 1.40 (0.05) 1.1 (0.16)

t=2 -2.79 (1.19) -0.19 (0.11) 1.13 (0.09) 0.38 (0.34) 0.67 (0.04)

t=3 -4.99 (0.63) -0.25 (0.09) 1.33 (0.10) 0.83 (0.15)

t=4 -4.03 (0.94) -0.36 (0.16) 1.25 (0.08) 0.61 (0.26)

Polynomiale Regression



T reat



B ase



Ag e



t=1 -6.13 -0.23 1.40 1.1

t=2 -2.79 -0.19 1.13 0.38 0.67

t=3 -4.99 -0.25 1.33 0.83

t=4 -4.03 -0.36 1.25 0.61

Lokaler Likeliho o dansatz



T reat



B ase



Ag e



t=1 -4.03 (0.55) -0.32 (0.06) 1.18 (0.04) 0.64 (0.14)

t=2 -0.79 (0.94) -0.25 (0.09) 0.91 (0.06) -0.05 (0.28) 0.61 (0.04)

t=3 -2.94 (0.55) -0.33 (0.05) 1.11 (0.06) 0.38 (0.13)

t=4 -2.04 (0.69) -0.43 (0.10) 1.03 (0.06) 0.17 (0.19)

5.2 Verweildauermo delle

5.2.1 Dauer der Arb eitslosigkeit

Datensatzb eschreibung

Bei diesem Anwendungsb eispiel werden Daten des SOEP (Sozio-



okonomisches

Panel (Hanefeld, 1987)) analysiert. Betrachtet werden insgesamt 1.188 Per-

sonen mit deutscher Staatsangeh



origkeit aus den alten Bundesl



andern, die

in den Jahren 1983-1992 arb eitslos gemeldet waren. Als Einugr



oen wird

das Alter der Person zu Beginn der Arb eitslosigkeit sowie das Geschlecht

aufgenommen.

Mo dellansatz

Die Dauer der Arb eitslosigkeit (in Monaten) wird durch ein Verweildauer-

mo dell mit der Hazardrate



(



;

exp(



)

1+exp(



)

und dem linearen Pr



adiktor





(

mo delliert. Der eindimensionale zuf



allige Eekt

mo delliert den p erso-

nensp ezischen Einu. Der Regressorenvektor

einh



alt neb en dem Inter-

zept als weitere Einugr



oen das Alter und das Geschlecht, d. h. es ist

= (1

SEX

AGE

). Das Geschlecht ist bin



ar kodiert mit

SEX

= 1 f



Frauen und

SEX

=0 f



ur M



anner. Die metrische Gr



oe des Alter zu Beginn

der Arb eitslosigkeit geht mit

AGE



35) in das Mo dell ein.

Wir verwenden den Mo dellansatz f



ur Regressionssplines mit kubisch-linearem

Verlauf. Durch den kubischen Verlauf kann die Variabilit



at am Anfang der

Arb eitslosigkeit sehr gut mo delliert werden. Da insb esondere f



20 nur

no chsehr wenige Beobachtungen vorliegen, k



onnen durch die Verwendung

des linearen Funktionsansatzes Sch



atzprobleme vermieden werden.

Ergebnisse

In der folgenden Abbildung 5.5 werden die Ergebnisse des kubisch-linearen

Regressionsansatzes mit der Knotenwahl



=18 dem Lokalen Likeliho o dan-

satzes gegen



ub ergestellt.

In b eiden Ans



atzen werden ungef



ahr die gleichen zeitabh



angigen Tendenzen

aufgezeigt, solange die Arb eitslosigkeit nicht mehr als 18 Monate andauert.

Da nach diesem Zeitpunkt die Datenbasis sehr d



unn ist, sollen die Parame-

tersch



atzung f



20 nicht interpretiert werden.

Es wird jedo chauch deutlich, welchen Vorteil der exible Ansatz der Lokalen

Likeliho o d im Gegensatz zur kubisch-linearen Regressions bietet. Zum Bei-

spiel kann der zeitabh



angige Verlauf des Ko eÆzienten

SEX

nicht ad



aquat

durch eine kubisch-lineare Funktion ausgedr



uckt werden.

Das Minimum des kubischen Verlaufes zum Zeitpunkt

= 6 mit dem Pa-

rametersch



atzwert



2, entspricht nicht dem zeitabh



angigen Verhalten des

Ko eÆzienten

SEX

. Denn b etrachtet man den Verlauf dieses Ko eÆzien-

ten b eim Lokalen Likeliho o d Ansatz, so werden hier zwei lokale Minima b ei

=6 und

=14 und vor allem ein globales Minimum f



=24 aufgezeigt.

Diese zeitabh



angige Struktur kann nicht durch einen kubisch-linearen Ver-

lauf dargestellt werden, so da das Minimum des Ko eÆzienten

SEX

beim

kubisch-linearen Regressionsansatz nicht durch die Datenstruktur, sondern

durch durch den parametrischen Mo dellansatz b edingt wird.

Months

5 101520

-5 -4 -3 -2

INTERCEPT

Months

5 101520

-2 -1 0 1

SEX

Months

5 101520

-0.15 -0.10 -0.05 0.0

AGE

Months

5 101520

-5 -4 -3 -2

INTERCEPT

Months

5 101520

-2 -1 0 1

SEX

Months

5 101520

-0.15 -0.10 -0.05 0.0

AGE

Abbildung 5.5: Parametersch



atzungen mit kubisch-linearem Regressionsan-

satz (links) und Lokalem Likeliho o dansatz (rechts)

5.2.2 Magenkrebsstudie

Datensatzb eschreibung

Der Datensatz eine Magenkrebsstudie (Fahrmeir, 1994) enth



alt die



Ub er-

leb enszeiten (in Monaten) von 90 Patienten einer Magenkrebsstudie. Die

Patienten wurden mit einer Chemotherapie bzw. mit einer kombinierten

Therapieform b ehandelt. Durch die Studie soll der Einu der Therapiefor-

men im Zeitverlauf untersucht werden.

Mo dellansatz

Wie b ereits im vorherigen Beispiel b etrachten wir ein Verweildauermo dell

mit der Hazardrate



(



;

exp(



)

1 + exp(



)

und dem linearen Pr



adiktor





(



TREATMENT

(

Der p ersonensp ezischen Einu wird durchden eindimensionale zuf



allige

Eekt

ber



ucksichtigt. Neb en der Therapieform werden keine weiteren

Einugr



oen b etrachtet. Der Einu der Therapie ist mit

= 0 f



ur die

Chemotherapie und mit

=1 f



ur die kombinierte Therapieform co diert.

Da in diesem Beispiel die



Ub erleb ensraten der Patienten untersucht werden,

liegen gegen Ende des Beobachtungszeitraumes nur no ch wenige Datens



atze

vor. Wir b etrachten im folgenden Mo delle, die diese Struktur b er



ucksichtigen.

Beim Lokalen Likeliho o d Ansatz verwenden wir den Gaukern und w



ahlen

den Gl



attungsparameter in Abh



angigkeit der Anzahl, der unter Risikoste-

henden Personen, mit



 :

Dadurch wird gegen Ende des Beobachtungszeitraumes, in dem nur no ch

wenige Beobachtungen vorhanden sind, eine gr



oere Fensterbreite gew



ahlt

als zu Beginn.

Wir vergleichen die Ergebnisse mit dem Mo dellansatz durch kubisch-lineare

Regression. Dab ei b etrachten wir sowohl eine kubische Funktion, die linear

fortgesetzt wird, als auchden Fall wenn zwei o der drei st



uckweise kubische

Funktionen linear fortgesetzt werden.

In den folgenden Abbildungen sind die Hazardraten mit den B



andern der

punktweisen Standardabweichungen f



ur die b eiden Behandlungsarten einge-

zeichnet. Die Hazardraten der Patienten, die mit der kombinierten Therapie-

form b ehandelt wurden (durchgezogene Linie), sind zun



achst h



oher, jedo ch

nach 2 Jahren ist ein gegenteiliger Eekt zu beobachten.

Beim Ansatz der Regressionssplines wurden ein, zwei und drei st



uckweise

kubische Funktionen mit einer linearen Funktion fortgesetzt. Die Stellen der

Knoten sind durch senkrechte Linien gekennzeichnet.

Time (months)

Hazard function

0 1020304050

0.0 0.05 0.10 0.15

gamma: 20

no randomeffect

Time (months)

Hazard function

0 1020304050

0.0 0.05 0.10 0.15

gamma: 30

no randomeffect

Time (months)

Hazard function

0 1020304050

0.0 0.05 0.10 0.15

gamma: 20

with randomeffect

Time (months)

Hazard function

0 1020304050

0.0 0.05 0.10 0.15

gamma: 30

with randomeffect

Abbildung 5.6: Hazardraten b eim Lokalen Likeliho o d Ansatz

piecewise-cubic linear regresion splines

no randomeffects

Time (months)

Hazaed function

0 1020304050

0.0 0.05 0.10 0.15

one node

Time (months)

Hazard function

0 1020304050

0.0 0.05 0.10 0.15

two nodes

Time (months)

Hazard function

0 1020304050

0.0 0.05 0.10 0.15

three nodes

Abbildung 5.7: Hazardraten b eim Regressionsspline ohne Ber



ucksichtigung

von zuf



alligen Eekten

piecewise-cubic linear regresion splines

with randomeffects

Time (months)

Hazaed function

0 1020304050

0.0 0.05 0.10 0.15

one node

Time (months)

Hazaed function

0 1020304050

0.0 0.05 0.10 0.15

two nodes

Time (months)

Hazaed function

0 1020304050

0.0 0.05 0.10 0.15

three nodes

Abbildung 5.8: Hazardraten b eim Regressionsspline mit Ber



ucksichtigung

von zuf



alligen Eekten

Kapitel 6

Anhang

6.1 EM-Algorithmus mit direkter

Gau-Hermite Integrationstechnik

In diesem Abschnitt geb en wir einige technische Details f



ur das verwendete

Verfahren des EM-Algorithmus mit direkter Gau-Hermite Integrationstech-

nik an.

6.1.1 Numerische Integration mit Gau-Hermite

Ist ein Integral der Form

(

)

dx;

mit

(

)



(

)

nicht analytischl



osbar, so kann es durchnumerische Integration (Crourch&

Spiegelman, 1990) approximiert werden. Wir b eschr



anken uns im folgenden

zun



achst auf die Darstellung eines eindimensionalen Integrales, um die No-

tation



ub ersichtlicher zu gestalten.

Bei der numerischen Integration wird das Integral durch eine gewichtete Sum-

me approximiert:

(

)

(

)



(

)



(

)



Dab ei bezeichnen

die Gewichte,

die St



utzstellen sowie

die Anzahl

der St



utzstellen f



ur die numerische Integration.

In unserem Fall entspricht

(

) der Standardnormalverteilung, d. h. die

betrachtete Funktion hat die Form



(

)





exp









ur die Anwendung der Gau-Hermite Integration (Abramowitz & Stegun,

1972), die Funktionen der Form

(

)



exp

f

b ehandelt, m



ussen die Gewichte und St



utzstellen transformiert werden. Des-

halb substituieren wir

bzw.

und erhalten



(

)

(

)



exp









exp

(



)

(

)



(

)

Die Gewichte

und die St



utzstellen

der Gau-Hermite Integration, welche

tab ellarisiert vorliegen, werden mit



und

transformiert,

so da das Integral mit



(

)



(

)

approximiert wird.

Die



Ub ertragung auf den mehrdimensionalen Fall erfolgt analog und wir er-

halten



(

)



(

) mit

;:::;x

)

Dab ei ist

2 f

;:::;j

ein Multiindex. Es wird insgesamt



ub er



:::





utzstellen approximiert. Die Gewichte

= (

;:::;v

)

und die zugeh



origen St



utzstellen

= (

;:::;d

)sind Elemente aus den

Kartesischen Pro dukten

  

bzw.



Dab ei ist

;:::;v

die Menge der transformierten Gewichte und

;:::;d

die Menge der transformierten St



utzstellen bei der Wahl

von



utzstellen f



;:::;q

Das b edeutet, da die Anzahl der St



utzstellen bei mehrdimensionalen Inte-

gralen sehr gro wird. Soll z. B. ein dreidimensionales Integral approximiert

werden, wob ei in jeder Dimension 10 St



utzstellen verwendet werden, so wer-

den insgesamt 10



10 = 1000 St



utzstellen verwendet.

6.1.2 Sch



atzung der festen Parameter

Die Sch



atzung der festen Parameter erfolgt durch den EM-Algorithmus unter

Verwendung der ob en b eschrieb enen Gau-Hermite Integrationstechnik.

Dichte

Die Beobachtungseinheiten

;:::;y

)sindf



;:::;N

,gegeben



und

;:::;b

, b edingt unabh



angig. Damit gilt f



ur die Dichte von

;:::;y

)

(

;:::;b

;



(

;



)mit

(

;



(

;



)

Die Sch



atzung der Parameter



und

kann durch Maximierung der Margi-

nalen Log-Likeliho o d

(

; Q

(

; Q

)mit

(

; Q

(

;



)

(

)

durchgef



uhrt werden. Dab ei b ezeichnet

(

) die Dichte von

,die als

normalverteilt vorausgesetzt wurde.

Das Integral



ub er diese Mischungsdichte kann nur f



ur einige Sp ezialf



alle ana-

lytisch gel



ost werden, so da f



ur die L



osung des Integrales numerische Ver-

fahren verwendet werden.

Bevor diese Verfahren angewendet werden k



onnen, wird der Mo dellansatz



ur den linearen Pr



adiktor





umparametrisiert.

Umparametrisierung des Linearen Pr



adiktors



ur die zuf



alligen Eekte

hatten wir vorausgesetzt, da

iid

N

) gilt.

eine Kovarianzmatrix ist, also p ositiv denit ist, l



at sich

durch

die Cholesky-Zerlegung in

zerlegen, wob ei

eine untere

Dreiecksmatrix ist und

die dazu transp onierte ob ere Dreiecksmatrix.

Die ob ere Dreiecksmatrix



at sich vektorisieren mit:



;:::;q

)

mit

::: q

:::

Der Vektor



vec

(

)enth



alt nur die Ko eÆzienten aus

, welche

nicht nach Konstruktion von

gleich 0 sind. Ist



bekannt, so ist auch

die Kovarianzmatrix

eindeutig b estimmt.

Mit der Umparametrisierung

und

iid

N

;

erhalten wir



]



unter Verwendung des Kroneckerpro duktes



Damit folgt f



ur den linearen Pr



adiktor



= [

; a



]



mit







und

iid

N

;

I).

Diesen Mo dellansatz f



ur den linearen Pr



adiktor werden wir im folgenden

verwenden, denn er hat zwei entscheidende Vorteile. Zum einen wurde der

lineare Pr



adiktor in die



ubliche Form eines linearen Mo dells



ub erf



uhrt. Durch

eine Sch



atzung von



erh



alt man Sch



atzer f



ur die b eiden festen Parameter



und

. Der zweite Vorteil ist, da in der Mischungsdichte von

die Dichte

(

), welche eine normalverteilte Dichte mit unbekannter Kovarianz ist,

durch eine standardnormalverteilte Dichte, d. h. durch

(

;

I) ersetzt wer-

den kann.

Sch



atzung von



und

Das Mo dell





mit

N

) liegt nach der Parametrisie-

rung in der Form:



; a



]



mit

iid

N

;

mit







und



vec

(

)mit

vor.

Falls die

bekannt sind, ist das Problem ein gew



ohnliches Generalisier-

tes Lineares Mo dell. Da dies ab er nicht der Fall ist, wenden wir den EM-

Algorithmus an.

Der EM-Algorithmus, der auch Grundlage des EM-Typ e Algorithmus ist,

derinAbschnitt 2.1.2 auf Seite 25 vorstellt wurde ist ein iteratives Verfahren

(Dempster, Laird & Rubin, 1977; Little & Rubin, 1987; McLachlan & Kris-

hnan, 1997; Sundb erg, 1974) f



ur die Bestimmung eines Maximum Likeliho o d

Sch



atzers in unvollst



andigen Datensituationen. Der Algorithmus b esteht in

jedem Iterationsschritt aus einem

Expectation-Schritt

(E-Schritt) und einem

Maximizing-Schritt

(M-Schritt).

E-Schritt:

(Berechnung des b edingten Erwartungswertes)

(





(

Y; A



)

Y; 



mit

und

Anschlieend wird diese Log-Likeliho o d im M-Schritt maximiert, um einen

neuen Sch



atzer







zu erhalten.

M-Schritt:

(Maximierung von

(

; 

))

(

; 

)

@

Im EM-Algorithmus wird im E-Schritt der b edingte Erwartungswert

(



) =



(

Y; A



)

Y; 



mit

und

b erechnet.

Da wir im M-Schritt diesen Erwartungswert bez



uglich



maximieren wollen,

sind f



ur uns konstante Terme o der Terme, die von



unabh



angig sind, ohne

Bedeutung.

Zun



achst ist

(



) =



(

Y; A



)

Y; 



(

Y; A



)

(

Y; 

)

dA :

Der erste Term des obigen Integrals lautet

(

Y; A



) = ln (

(

A; 

)

(

))

(

;

(

)

;

wob ei

(

) unabh



angig von



ist.



ur den zweiten Term ist

(

Y; 

) =

(

Y; A



)

(



)

(

A; 

)

(

)

(

A; 

)

(

)

(

;

)

(

)

(

;

)

(

)

Der Nenner, der von



abh



angt, ist eine Konstante, die f



ur die Maximierung

nicht ber



ucksichtigt werden mu.

Die zu maximierende Funktion l



at sich nun vereinfachen zu

(



) =

(

;

)

(

;

)

(

)

Durch Gau-Hermite Integration wird das Integral durch folgende Summe

approximiert

(

; 

)



(

; 

(

;

)

(

;

)

(

;

)

Die Gewichte

und die St



utzstellen

sind die transformierten Gewichte

bzw. St



utzstellen der Gau-Hermite Integration, wie sie im vorherigen Ab-

schnitt deniert wurden.

Wir denieren

(

;

)

(

;

)

und maximieren im M-Schritt

(



), durch Nullsetzen der Ableitung

(



), d. h.

(



)

@

(

;

)

@



; 

)

ist, folgt

(

;

)

@

(

;

)

@

(

;

)

@

und damit entspricht

(



)

@

der Scorefunktion dem mit

gewichtete GLM:



itj



; d









mit

(



itj

(

) f



;:::;M

Die Parameter



und



werden mit einem gewichteten GLM gesch



atzt, wo-

bei die Designmatrix



; d





neb en den Regressoren auch no chdie



utzstellen f



ur die Gau-Hermite Integration enth



alt.

Die Resp onsematrix wird mit

itj



= 1

;:::;M

entsprechend an-

gepat. Jede Beobachtung

itj

wird f



= 1

;:::;n

bei der Sch



atzung des

GLM's mit

(



(

;

)

(

;

)

gewichtet.

6.2 EM-Typ e Algorithmus

6.2.1 Blo ckdiagonalgestalt der Fishermatrix

Da b eim EM-Typ e Algorithmus die Fishermatrix in Blo ckdiagonalgestalt

vorliegt, kann diese Struktur f



ur die Parametersch



atzung mit dem Fisher-

Scoring Algorithmus ausgenutzt werden.

Mit





und

b



folgt:

(

)



b



b



Ist

;

so folgt b eim Fisher-Scoring Algorithmus:









;

da









gilt.

Da die Fishermatrix Blo ckdiagonalgestalt hat, gilt













b









Au



osen der 2. Gleichung nach



uhrt zu











und mit Einsetzen von

in die 1. Gleichung folgt













b











o







b







4





b







So da f





gilt:



(





b







)



(











b







)

Zusammenfassung

In vielen Studien werden die Beobachtungseinheiten



ub er einen l



angeren Zeit-

raum b etrachtet. Es liegt somit einerseits eine grupp en- und/o der individu-

ensp ezische Datenstruktur vor und andererseits mu auch ein m



oglicher

zeitlicher Einu b er



ucksichtigt werden. In dieser Arb eit wurden verschiede

Mo dellans



atze vorgestellt, die den grupp en- bzw. individuensp ezischen Ein-

u durch die Aufnahme von zuf



alligen Eekten b er



ucksichtigen und gleich-

zeitig einen zeitlichen Einu durch die Betrachtung von zeitvariierenden

Ko eÆzienten erm



oglichen.

In den Simulationsstudien und Anwendungsb eispielen hat sich gezeigt, da

der Lokale Likeliho o dansatz, der durch die Aufnahme von zuf



alligen Eekten

erweitert wurde, von allen vorgestellten Mo dellans



atzen am besten geeignet

ist.

Bei diesem Ansatz werden durch eine Kernfunktion die einzelnen Beobach-

tungen in Abh



angigkeit des b etrachteten Beobachtungszeitpunktes unter-

schiedlich gewichtet, so da durch die Wahl des Gl



attungsparameters der

Kernfunktion ein sehr exibler Gl



attungsansatz m



oglich ist. Der optima-

le Gl



attungsparameter kann durch Kreuzvalidierung, die jedo ch mit groem

Rechenaufwand verbunden ist, b estimmtwerden.

Selbstverst



andlichm



ussen die Varianzen der Parametersch



atzungen f



ur deren

Interpretation immer ber



ucksichtigt werden. Jedo ch k



onnen durch die Be-

trachtung der punktweisen Kondenzintervalle alle Parametersch



atzungen,

die in Abh



angigkeit des Gl



attungsparameters erzielt wurden, inhaltlich in-

terpretiert werden, so da auch Parametersch



atzungen interpretiert werden



onnen, die nicht mit dem optimalen Gl



attungsparameter b estimmt wur-

den. Damit ist es durch den Lokalen Likeliho o dansatz m



oglich, einerseits

durch eine geringe Gl



attung die einzelnen betrachteten Zeitpunkte separat

zu analysieren und andererseits durcheine starke Gl



attung einen globalen

Trend



ub erblick



ub er den gesamten Zeitraum zu erhalten.

Beispiele f



ur die Auswirkungen unterschiedlicher Gl



attungsparameter wur-

den im Emesis Datensatz in Abschnitt 5.1.1 gezeigt.

Beim Lokalen Likeliho o dansatz mit zuf



alligen Eekten wurde im Abschnitt

3.1.2 zwei Verfahren, der EM-Algorithmus mit Gau-Hermite Integrations-

technik und der EM-Typ e Algorithmus, f



ur die Bestimmung der Parame-

tersch



atzwerte angegeb en. Der EM-Algorithmus mit Gau-Hermite Inte-

grationstechnik sollte trotz seines groen Rechenaufwands aufgrund der be-

trachteten Integrationsst



utzstellen, bevorzugt angewendet werden, da bei

diesem Verfahren auchbei einer deutlichen Auspr



agung der Varianz der

grupp en- bzw. individuensp ezischen Ein



usse die Parametersch



atzungen

durchgef



uhrt werden k



onnen. Im Simulationsb eispiel 4.1.3 wurde gezeigt,

da der EM-Typ e Algorithmus in diesem Fall nicht geeignet ist, da die

Sch



atzungen der zuf



alligen Eekte unzureichend sind.



ur den EM-Algorithmus mit Gau-Hermite Integrationstechnik, konnte im

Simulationsb eispiel 4.1.2 als auch in den Anwendungsb eispielen in Kapi-

tel 5 gezeigt werden, da dieses Verfahren gut geeignet ist, die Parame-

tersch



atzungen selbst und die Bestimmung ihrer Varianzen durchzuf



uhren.



ur den in Abschnitt 2.1.3 vorgestellten Mo dellansatz der Nicht Parame-

trischen Maximum Likeliho o d konnte keine zufriedenstellende Erweiterung

100

durch die Ber



ucksichtigung von zeitvariierenden Ko eÆzienten entwickelt wer-

den.

Ein weiterer sehr einfacher Ansatz f



ur die Ber



ucksichtigung von zeitvariieren-

den Ko eÆzienten und zuf



alligen Eekten ist der Marginale Likeliho o dansatz.

Bei diesem Ansatz kann durchden mo dellb edingten Aufbau der Designma-

trix nur einen geringe Anzahl von b etrachteten Zeitpunkten ber



ucksichtigt

werden, da sonst in der Regel numerische Probleme b ei der Bestimmung der

Parametersch



atzungen entstehen. Deshalb kann dieser Mo dellansatz in der

Praxis nur sehr b eschr



ankt eingesetzt werden.

Der Vorteil des exiblen Lokalen Likeliho o dansatzes gegen



ub er der parame-

trischen und semi-parametrischen Ans



atze wurde in den Anwendungsb ei-

spielen f



ur die Dauer der Arb eitslosigkeit in Abschnitt 5.2.1 und der Ma-

genkrebsstudie in Abschnitt 5.2.2 dargestellt werden. Wird keine dem Mo-

dell entsprechende parametriche Form gew



ahlt,sok



onnen sehr leicht falsche



uckschl



usse getroen werden.

Zus



atzlich wurde in Abschnitt 5.1.2 am Beispiel der epileptischen Anf



alle

deutlich, da die Bestimmung der Varianzen der Parametersch



atzungen mit

der Delta-Metho de b ei der Polynomialen Regression aus numerischen Gr



unden

nicht immer m



oglich ist.

101

Literatur

Abramowitz, M. und Stegun, I. (1972).

Handbook of Mathematical Func-

tions

.New York: Dover.

Agresti, A. (1990).

Categorical Data Analysis

.NewYork: Wiley.

Aitkin, M. (1995). NPML estimation of the mixing distribution in general

statistical mo dels with unobserved random eects. (

working-paper

Aitkin, M. (1996). A general maximum likeliho o d analysis of overdisp ersi-

on in generalized linear mo dels.

Statistics and Computing 6

, 251{262.

Aitkin, M. und Aitkin, I. (1996). A hybrid EM/Gauss-Newton algorithm

for maximum likeliho o d in mixture distributions. (

working-paper

Aitkin, M. und Francis, B. (1995). Fitting overdisp ersed generalized linear

mo dels by nonparametric maximum likeliho o d.

GLIM Newsletters 25

37{45.

Aitkin, M. und Wilson, G. (1980). Mixture mo dels, outliers, and the EM

algorithm.

Technometrics 22

(3), 325{331.

Bo oth, J. und Hob ert, J. (1999). Maximizing generalized linear mixed

mo dels with an automated monte carlo em alorithm.

Journal of the

Royal Statistical Society Ser. B 61

, 265{285.

Breslow, N. und Clayton, D. (1993). Approximate inference in generalized

linear mixed mo dels.

Journal of the American Statistical Associati-

102

on 88

(421), 9{25.

Crourch, E. und Spiegelman, D. (1990). The evaluation of integrals of

the form

1

(

)

exp

(



)

: Application to logistic-normal mo dels.

Journal of the American Statistical Association 85

(410), 464{469.

Davis, C. (1991). Semi-parametric and non-parametric metho ds for the

analysis of rep eated measurements with applications to clinical trials.

Statistics in Medicine 10

, 1959{1980.

Dempster, A., Laird, N., und Rubin, D. (1977). Maximum likeliho o d from

incomplete data via the EM-algorithm.

Journal of the Royal Statistical

Society B 39

,1{38.

Dietz, E. und B



ohning, D. (1994). Analysis of longitudinal data using nite

mixture mo dels.

Statistische Hefte 35

, 203{210.

Diggle, P., Liang, K., und Zeger, S. (1994).

Analysis of Longitudinal Data

Oxfort University Press.

Efron, B. (1988). Logistic regression, survival analysis, and the Kaplan-

Meier-curve.

Journal of the American Statistical Association 83

,414{

425.

Eilers, P. und Marx, B. (1996). Flexible smo othing with B-splines an p en-

alties.

Statistical Science 11

(2), 89{121.

Eubank, R. (1988).

Spline Smoothing and Nonparametric Regression

.New

York: Marcel Dekker.

Everitt, B. und Hand, D. (1981).

Finite Mixture Distributions

. London:

Chapman and Hall.

Fahrmeir, L. (1994). Dynamic mo delling and p enalized likeliho o d estima-

tion for discrete time survival data.

Biometrika 81

(2).

Fahrmeir, L., Hamerle, A., und Tutz, G. (1994).

Multivariate statistische

Verfahren

. Berlin: de Gruyer.

103

Fahrmeir, L. und Tutz, G. (1994).

Multivariate Statistical Model ling Based

on Generalized Linear Models

. New York: Springer Verlag.

Fan, J., Hall, P., Martin, M., und Patil, P. (1996). On lo cal smo othing

of nonparametric curve estimators.

Journal of the American Statistical

Association 91

(433).

Friedman, J. (1991). Multivariate adaptive regression splines.

The Annals

of Statistics 19

, 1{141.

Geyer, C. und Thompson, E. (1992). Constrained monte carlo maximum

likeliho o d for dep end data.

Journal of the Royal Statistical Society Ser.

B 54

, 657{683.

Gourieroux, C. und Montfort, A. (1989). Simulation based infereerce in

mo dels with heterogeneity.

Document de Trvail INSEE/ENSAE No.

8902

Hanefeld, U. (1987).

Das sozio-



okonomische Panel

.Frankfurt: Campus.

Hastie, T. und Loader, C. (1993). Lo cal regression: Automatic kernel car-

pentry.

Statistical Science 8

(2), 120{143.

Hastie, T. und Tibshirani, R. (1990).

GeneralizedAdditive Models

. London:

Chapman and Hall.

Hastie, T. und Tibshirani, R. (1993). Varying-co eÆcient mo dels.

Journal

of the Royal Statistical Society B 55

(4), 757{796.

Hennevogl, W. (1991).

Sch



atzung generalisierter Regressions- und Zeitrei-

henmodel le mit varriierenden Parametern

. Dissertation, Universit



Regensburg.

Hinde, J. (1982). Comp ound p oisson regression mo dels. In R. Gilchrist

(Hrsg.),

GLIM'82 Internat. Conf. Generalized Linear Models

,New

York, S. 109{121. Springer.

104

Jansen, R. (1993). Maximum likeliho o d in a generalized linear nite mix-

ture mo del by using th EM algorithm.

Biometrics 49

, 227{231.

Kauermann, G. und Tutz, G. (1995). Lo cal likeliho o d estimation and bias

reduction in varying co eÆcient mo dels. Forschungsb ericht, Technische

Universit



at Berlin. 95-9.

Kauermann, G. und Tutz, G. (2000). Lo cal likeliho o d estimation in

varying-co eÆcient mo dels including additive bias correction.

Journal

of Nonparametric Statistics 12

, 343{371.

Laird, N. M. und Louis, T. A. (1982). Approximate p osterior distributions

for incomplete data problems.

Journal of the Royal Statistical Society B

(2), 190{200.

Little, R. und Rubin, D. (1987).

Statistical Analysis with Missing Data

New York: John Wily & Sons.

Longford, N. (1993).

Random CoeÆcient Models

. Oxford: Clarendon

Press.

McCullagh, P. (1980). Regression mo del for ordinal data (with discussion).

Journal of the Royal Statistical Society B 42

, 109{127.

McCullagh, P. und Nelder, J. (1989).

Generalized Linear Models

(2 Au.).

London, New York: Chapman and Hall.

McCullo ch, C. (1994). Maximum likeliho o d variance comp onents estima-

tion for binary data.

Journal of the American Statistical Associati-

on 89

(425), 330{335.

McCullo ch, C. (1997). Maximum likeliho o d algorithms for generalized li-

near mixed mo dels.

Journal of the American Statistical Association 92

162{170.

McCullo ch, C. (2000). An intro duction to generalized linear mixed mo dels.

(

working-paper

105

McLachlan, G. und Basford, K. (1988).

Mixture Models. Inference and

Applications to Clusterung

.New York: Marcel Dekker.

McLachlan, G. und Krishnan, T. (1997).

The EM Algorithm and Extensi-

ons

.New York: Wiley.

Meng, X.-L. (1997). The EM alogithm and medical studies: a historical

link.

Statistical Methods in Medical Research 6

,3{23.

Meng, X.-L. und van Dyk, D. (1997a). The EM algorithm - an old folk-song

sung to a fast new time.

B 59

(3), 511{567.

Meng, X.-L. und van Dyk, D. (1997b). Fast EM-typ e implementations for

mixed-eects mo dels.

Journal of the Royal Statistical Society

. (Submit-

ted).

Nelder, J. A. und Wedderburn, R. W. M. (1972). Generalized linear mo-

dels.

Journal of the Royal Statistical Society A 135

, 370{384.

Quintana, R., Lui, J., und Pino, G. (1999). Monte carlo em with imp ort-

ance reweighting and it application in random eects mo dels.

Compu-

tational Statistics and Data Analysis 29

, 429{444.

Rice, J. und Silverman, B. (1991). Estimating the mean and covariance

structure nonparametrically when the data are curves.

Journal of the

Royal Statistical Society B 53

(1), 233{243.

Rupp ert, D., Reish, R., und Carroll, R. (1984). Optimization using sto-

chastic approximation and monte carlo simulation (with application to

harvesting of atlantic menhaden.

Biometrics 40

, 535{545.

Silverman, B. (1984). Spline smo othing: The equivalent variable kernel

metho d.

The Annals of Statistics 12

(3), 898{916.

Stone, C., Hansen, M., Ko op erb erg, C., und Truong, Y. (1997). Polynomial

splines and their tensor pro ducts in extended linear mo dels.

The Annals

of Statistics 25

, 1371{1470.

106

Sundb erg, R. (1974). Maximum likeliho o d theory for incomplete data from

an exp onential family.

Scand. J. Statist. 1

, 49{58.

Thall, P. und Vail, S. (1990). Some covariance mo dels for longitudinal

count data with overdisp ersion.

Biometrics 46

, 657{671.

Titterington, D., Smith, A., und Makov, U. (1985).

Statistical Analysis of

Finite Mixture Distributions

.New York: Wiley.

Tutz, G. (1989). On cross-validation for discrete kernel estimates in dis-

crimination.

Communications in Statistics, Theory and Methods 11

4145{4162.

Tutz, G. (1999). Varying co eÆcients in generalized linear random ef-

fects mo dels: A lo cal likeliho o d approach.

Discussion Paper, Ludwig-

Maximilian-Universit



at M



unchen,Sonderforschungsbereich 386 171

Tutz, G. und Hennevogl, W. (1996). Random eects in ordinal regression

mo dels.

Computational Statistics and Data Analysis 22

, 537{557.

Tutz, G. und Kauermann, G. (1995). Varying co eÆcients in multivariate

generalized linear mo dels: a lo cal likeliho o d approach.

Forschungsbe-

reichte des Fachbereiches Informatik, TU-Berlin

Tutz, G. und Kauermann, G. (1997). Lo cal estimators in multivariate ge-

neralized linear mo dels with varying co eÆcients.

Computational Stati-

stics 12

, 193{208.

van der Linde, A. (1994). On cross-validation for smo othing splines in the

case of dep endent obsersartions.

(1), 67{73.

Wu, C. (1983). On the convergence prop erties of the EM algorithm.

The

Annals of Statistics 11

, 95{103.

107