scieee Science in your language
[en] (orig) [de]

Erhebungs-Identifikationen für

die

anhaltende

Schlussfolgerung

with

exp

onen

tial-family dels

Dominik

Endres,

Kathrin

abst,

Anna-Lena

ert,

Raphael

Eine [E-Mail

geschützt]

Septem

Abstract

collection

Identifikationen,

die

für

die

anhaltende Schlussfolgerung

nützlich sind

with

exp

onen

tial

family

distributions/densities. Alle Abweichungen wurden von den Autoren vorgenommen, sofern nicht anders angegeben. Dies bedeutet nicht, daß die hier gesammelten Ergebnisse die Literatur nicht vorher erworben haben. Diese Sammlung und ihr Fortschritt. Es ist sicherlich unvollständig und wahrscheinlich fehlerhaft, dass Bug-rep-Orts und -Kontributionen am häufigsten sind, mailen Sie bitte an [email protected] Exp onen tial Familienverteilungen Verteilung sagte, dass entlang der exp onen tial Familie kann das Formular geschrieben werden [1]: exp( (1) wo die zufälligen Ariaten diskret kontinuous sind, die ausreichenden Statistiken sind Funktionen die nicht unbedingt die gleichen dimensionalit er, die Notwendigkeit linear unabhängig endend.

The

are

the

natur

am-

eters

one

for

eac

sufficien

Die Funktion der Normalisierung ist konstant (ersetzen Sie den Tegral durch Summe für diskrete exp( (2) 1.1 Momente am Gradien w.r.t. andere Seiten Gleichung finden: exp( exp( (3) und die Exektion ist: log( (4) Berechnen der Ableitung aktiv die i-te Komponente der L.h.s.

Eqn. w.r.t. Erträge (aufzuweisen, dass log x,y x,y x,y x,y exp( log( i−h log( (5) Bezeichnen die Hessische die Arianzmatrix gibt − log( (6) Höhere Reihenfolge Momente können durch höhere Reihenfolge abzuleiten es. 1.2 Maxim Lik eliho maxim um-like eliho approximations, benötigen die Gradien log( w.r.t.

log(

log

(7)

other

ords,

maximizing

the

lik

eliho

(d.h. nach dem Gradien steigt der Ausgang höher wie bei den Parameter) um die ausgegebenen Bereiche der ausreichenden Statistik ähnlicher zu machen als die tatsächlich beobachteten ausreichenden Statistiken.

datap

oints

Die

Parameterschätzung

erlangte

Lösung

log(

(8)

1.3 Die (differen tial) trop giv definiert log (()) (9) beachten Sie, dass dies nicht die bedingte trop giv mit der Definition der exp one tial Familie Verteilung (gleiche wie dies kann geschrieben werden log (() log und log (()) log (10) der Grad der trop w.r.t.

need

log(

(11)

Using

eqn. Finden Sie (12) auch log(log exp(log(log exp(log log(log log(log (13) und log(log log( (14) Der Grad der trop w.r.t. the log( −∇h log( i−∇ (15) log( i−h log (16) 1.4 Kullbac k-Leibler Divergenz Die KL-divergenzverteilung mit Parameterverteilung mit Parameter ist: log [log log )) log (17)

10:

log(

log(

(19)

Its

gradien

In diesem Fall ist es notwendig, die Konzeption und das Lernen von hierarchischen und hierarchischen Dingen zu verknüpfen, wobei die Konzeption und das Lernen von hierarchischen Dingen sehr nützlich sind, da die Konzeption und das Lernen mit i.i.d.

observ

ations

translates

parameter

dates

(rather

than

complicated

Die Konjugate Prior Exponential Family Distribution (e.g. gegeben Exponential) (22) wobei die Parameter der p (oste) Prior, die gleiche Funktion und die willkürliche ositive Funktion (verschieden von) sind.

and

22)

exp(

exp(

exp(

exp(

exp

exp

)))

exp

exp

)))

(23)

Beachten

Sie,

dass

dieser Ausdruck

dep

endet

die

Daten

nur

durch

und

Sie

werden als

ausreichende Statistiken

bezeichnet.

Sie

enthält alle Informationen.

die

von

den

Daten

ermittelten

Bedürfnisse

the

parameter

Ähnliches Ergebnis gilt auch für das maximale Um-Like-Learning, siehe [1]. Durch die Einführung der österieren Ämter (24) (25) werden außerdem die Normalisierung des österieren Konstants identifiziert, d. h. exp und schließlich diese Identifikationen verknüpft.

data

and

conjugate

Vor,

erhalten

Sie hinter

nur

die Ersetzung

der

prior

parameters

according

Ferner ist zu beachten, daß die Zahl der Beobachtungsdaten nach Gleichung 24 verfolgt wird. Da sie auch vorhergehende Informationen über den genannten Pseudo-ount enthält, so sind die östere Einheit und die log-p östere z.B. die Breite der maximale monotonisch abnimmt (Man kann auch die Hessische log-p östere berechnen).

Hence,

also

der

Onc

Entration

Ameter

genannt

wird.

Der

Osterior ist

nur

acht.

die

vorherigen

und

und

die

Beobachtungen

data. Diese späteren Daten können sich wiederholen, d. h. die Akkumulation der ausreichenden Statistiken kann sich wiederholen. 2.1 Maximum um-a-p osteriori (MAP) Parameter Schätzungen

26),

sometimes

enough

use

the

Parameter,

die

die

Osterior

maximieren,

Bei der Einstellung des Ableiters aktiv auf das Log der Umererator Null finden Sie log(log eqn. log( (27) d.h. die höchste Höchstmenge aufgeteilt, wo die ausgegebenen Parameter die natürlichen Parameter gleich dem Quotient der höchsten Parameter (e.g.

24,25)

plus

term

dep

ending

The

latter

often

zero,

since

)=1

für Menschenverteilungen

(siehe

Abschnitt

Tabellen)

2.2 Ausführungen Berechnungsparameterausführungen (d. h. und deren Funktionen) können ähnlich wie die Ausführungen aus der familiären Verteilung erfolgen.

find,

noting

that

log(

log(

log

(31)

the

second momen

ts,

tak

the

deriv

ativ

(see

qn. 29): exp exp exp exp log (( (32) i−h (33) und log (( (34) Lik equise, die Berechnung der abgeleiteten aktiven Gleichung. andere Seiten ergeben log(log ))) (35) wo log(log log log log(log log log(log log log(ar(log))) v(log log (36) log(i−h log v(log(v(log(ar( (37) und uns, wobei festgestellt wird, dass ar(ar(ar(log log)) (38) (38) Eine weitere Auslegung, die aus der Normalisierung berechnet werden kann, ist exp (39) die Integral zu zusichern, und es gibt neue Parameter, die suc (40) (41) mit diesen Parameter, die tegral exp one tial Familie normal Form, und (42) (43) ar( (44) 2.3 Vorhersageverteilung, trop und log-like eliho Die Vorhersageverteilung und damit verbundene Quanten können aus der tegralen exp exp exp exp (45) abgeleitet werden, wo die letzte Linie aus der Normalisierungsgleichung 28 folgt.

the

tegral

the

l.h.s. Die Exportation unter dem vorherigen: (46) Differenzierung mit den entsprechenden Erträgen: log log , wo die Derivate aktiviert werden und die exportierte log-ähnliche Eliho mit eqn erhält. 30: log( log log (47) erhalten Ausführungen das Formular log(, die die für die Berechnung erforderlichen Begriffe sind die erwartete Entrope (48) (49) log( log( (50) 2.4 Ausreichende Statistiken Die ausreichenden Statistiken für feste natürliche Parameter sind nicht ausreichend.

log(

(51)

aus

conjugate

prior, dem

exp

Entfernung unter

der

vorherigen

Entfernung

the

r.h.s. −h log( (52) berechnen diese Exektion, kann man das Divergenz-Theorem aus der ökonomischen Berechnung (Ostrogradsky-Gauss) verwenden. differenzierbares Ectorfeld dieses Theorems besagt, dass (53) wo die Oberfläche, die den ökonomischen Fall umschließt, das Feld mit konstantem Ector und leicht differenzierbarer skalarer Funktion betrachten.

Then,

using

find

(54)

und

da

dies

für

follo

gilt

that

(55)

This

iden

tit

can

Gebraucht

wird, um

die

Ausbreitung

zu berechnen.

r.h.s. Gleichung des Gradiens ex log(log (56) wo die Oberfläche den Bereich umschließt Daher ist die Exektion: log( (57) mit weiteren Beschränkungen ts, dann hat die Oberfläche der Bereich seit normalisierbar ist. Daher ist die Oberflächenintegral ust null. Dies z.B.

the

case

for

the

Multinomial

distribution

and

the

oisson

In diesen Fällen wird der Ausdruck vereinfacht (58) Die Ausgabe für das letzte Gaussian-Ariate ist ebenfalls berechenbar, siehe Anhang.

and

log(

log

(59)

log

log

(log(

log

(60)

Similar the

gradien

the

Aufgrund

der Familienabschnitte

Gradien und

Wards

des

tatsächlichen

Gebiets

and

from

the

exp

Die Differen tial trop (nicht die bedingte trop giv und exp(log log log(log log (61) wo die expektionen w.r.t. die p(oste) rior equation sind.

and

30):

log(

log(

log

log

log(

i−

log

log

v(log

log(

log

(64)

log

(65)

2.7

Kullbac

k-Leibler div

ergence

The

KL-div

Ergenzverteilung

mit

Parameterverteilung

mit

parameters giv

log(

log(

log(

(66)

The

second

term

the

r.h.s. GIV (Exp Ectations w.r.t log(log log(log (67) und uns, unter Verwendung von eqn. und finden log log (68) Die abgeleiteten Aktiv sind: log(log(log(log(log( (69) (70) wo Matrix mit Versuchen i,j Lik equise, (71) 3.1 Argumentative Ableitung mit konjugierter Spannung = Argumentative Ableitung, ersetzen Sie die unüberwindbare Verteilung (oder die Dichte (d. h.

one

wenn

die Marginalen

und

die Konditionalitäten hart

sind

Das

Problem

ist,

daß die

observ

data. Das ist eine sehr schwierige Angelegenheit, aber man kann diese Bedingung nicht schreiben, da es nur ungefähr so ist. Die Annäherung verknüpft die richtige Verteilung über die Ariation und auch die Evidenz (ELBO): log log log log log log log (72) wo die zweite Linie folgt von Jensens Ungleichheit für Kon-Funktionen und der Definition der Kullbac k-Leibler-Divergenz.

ound

the

log-marginal-lik

eliho

which

try

maximize

w.r.t. Die daraus resultierende Annäherung an das richtige Oster, das, wenn die Klassenverteilungen eingehalten werden, die diesen Fall (und nur diesen Fall) bearbeiten können, das Ound den Folgeflügel verschärfen wird, die späteren Datumregeln für den Fall conjugate und andere sind die exp one tial Familie auch davon ausgehen, dass die Konjugate die gleiche ist, dass das Oster datiert Parameter-Daten reduzieren, gleich Abschnitt Letztendlich davon ausgehen, dass die Daten bestehen aus i.i.d.

observ

ations,

Das ELBO, das einen anderen Temperaturparameter hat, kann also Abweichungen von der optimalen Schlussfolgerung verwenden, für Sto-Hast-Dating-Minibatc, etc. Bezeichnen Sie die vorherigen Parameter mit und die osterieren Parameter mit dem expektierten log-ähnlichen Eliho unter dem osterieren log für Daten kann dann von eqn berechnet werden.

(47):

log(

log(

log(

(74)

where

giv

eqn. (30) and the KL-div ergence eqn. (68). maximieren Sie die EQN. (73) w.r.t. Die österen Parameter werden die Ellb-Differenz und einen Teil umschreiben, der nicht auf die österen Parameter beruht, und die KL-Divergenz zwischen dem österen Parameter und die Verteilung derselben Exponentialfamilie auf die österen Parameter, die auf die österen Parameter beruhen.

(26)

all

data-related

Verteilung

der

Qualitäten

Sammeln

von Bedingungen

the

ELBO

Gleichung (75) und Verknüpfung dieser Definitionen, finden Sie log(log log (78) Vergleichen Sie die letzten Zeilen der Ausdruck für die Divergenz-Equation. (68), finden Sie, dass die Log-Term und Faktor diese Zeilen sind KL-divergenz.

Exact

sum-pro

duct

can

not

run

this

graph. Richtig korrespondierende Faktor-Grafik. Die Übermittlung von Berichten (z.B. benötigt die Empfangsberichte von allen Mitgliedern, deren Marken blank et sind, die sich auf die vernetzten Nebenfaktoren beziehen können (für alle anderen Destinationen). durch die Verbindungsfaktoren. log log log log (79) (80) wobei maximal nur und nur geschieht und somit das maximale ELBO nach dem nachfolgenden Datum gegeben ist.

(79),

die

für

die

Parameter

angegeben sind

Gleichung (76). Ausdruck für die ausgedehnte log-ähnliche Gleichung (74), die nur auf die ersten Parameter abschließt. Dies ist möglich, weil diese Parameter aus ausreichenden Statistiken berechnet werden (die Definition ausreichend ist, um die gleiche Gleichung zu bestimmen).

Rewrite

the

osterior

parameters

and

and substitute

these

expressions the

log-

Lich

eliho

dann

log(log(log(

(81)

3.2 ariational

message

passing

Denote

Die

gesetzten

Indizes

lassen

die

festgelegten

Indizes

von beobachteten

Aariablen mit

und

der

Satz

alle

Indizes suc,

die

und

eine vollständig

faktorisierte

Annäherung in

Betracht

ziehen,

d.h. eine, in der die Dichte der latenten Aariablen pro Duct einzelne Aariablen verteilt. Die Notation in der Mitte ist korrekt, weil es eine Dichte gibt. Überlassen Sie den zusätzlichen Index und nehmen Sie an, dass der Leser weiß, was das bedeutet Lassen Sie die richtige Dichte ausgedrückt ja net, und die Beobachtungsdaten weiter, die Notation vereinfachen, tro duce die sum-pro duct symol: (82) Die Ound dann ist: log( log( log( log( log( log( log( (83) finden Sie die, die die Ound maximiert, nehmen Sie die derivativ w.r.t.

and

set

Diese notwendige Voraussetzung für die maximale Umm kann zeigen, daß ausreichend zusätzlich die Beschränkung aller Verteilungen auferlegt, d. h. und wird sich herausstellen, daß sie die erste Beschränkung nicht auferlegt, so daß die zweite erfüllt wird.

The

Lagrangian

functional therefore

(84)

necessary

condition

for

extem

stationary

oin

Das Ergebnis ist also, daß die Ergebnisse der Ergebnisse des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses.

for

Definition der Nachrichten sen von Faktor ..., X endend mit Indizes sen von Faktor ..., X endend mit Indizes wie: ..., X, ...

...,x

(88)

...,x

...,X

,... (89) d.h. die Erlösung des Faktors mit Bezug auf alle Verbindungsvorrichtungen, die ihn verbinden, mit Ausnahme der Verbindungsvorrichtungen, an die die Nachricht eingesandt wurde. Mit diesen Nachrichtendefinitionen, Eqn. ecomes log(log(log(log(( (90) log(log( (91) Die Definition von exp( kann für exp log( log (92) andere Ord lösen, die ariational osterior ariable computed alle eingehenden Nachrichten hinzufügen, exp one tiating und normalisieren (weil aus dem Lagrange Ultiplier berechnet wird, der die Normalisierung durchsetzt).

This

message-passing heme has iterated

til

con

ergence, whic

guaran-

teed

since

the

ound

apuno

function

the

iteration

dynamics. Eine andere Ableitung dieses Algorithmus ohne Rechenableitung aktiviert sich über die Differenz )). Erinnern Sie sich daran, daß die Unterschiede zwischen ositiv und null und nur die Verteilungen überall gleich sind. Nehmen wir an, Ted maximiert die EQN. w.r.t. Diese Maximierung muss lediglich in Betracht gezogen werden, die Begriffe, die am Ende des Verfahrens, die am Ende des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens und die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens oder der Verfahrens, die Begriffeindung des Verfahrens, und die Begriffeindung des Verfahrens.

Ein

Faktor

und

eine Summe

können

daher

Ziehen

Sie

aus: argmax

argmax log(

log(

}\{

log(

log

(94)

With

the

message

definitions

(Eqns. 88) die R.H.S. können argmax argmax log((log(log (95) d.h. benötigen die eingehenden Nachrichten von allen angrenzenden Faktoren des Komponenten dieses Ausdrucks. beachten Sie, dass die Gewerkschaften der Index setzt die Summen die erste und die letzte Zeile sind einfach die Indizes alle hildren, während die Nachricht die zweite Zeile die eingehende Nachricht aus dem Paren ts.

us,

define

log(

log(

log

(96)

and

let

(97)

with

and

d.h. Wahrscheinlichkeitsverteilung. Mit diesen Definitionen erhalten Sie argmax argmax log( log argmax log( log argmax (98) Da die KL-div ergence folgen, dass die Ariation und maximiert andere ord, berechnen Sie die optimale Verteilung gegeben die Verteilungen gegeben die ariables sein Mark blank et, der Folgeflügel: Summen alle eingehenden Nachrichten von unserem Nachbarn Faktor des, exp one tiate, normalisieren.

The

factor

des

Sammeln

Sie

Nachrichten

von

ihrem

Schnabeln

Erläuterungen

und

Zusammenfassungen

von

Berichten

their

log-factor all

ariables

except

the

Eine,

in

der

die Nachricht

eing

sen

to,

similar

sum-pro

duct

message

passing. Darstellen Sie einen Ansatzparameter (Θ) mit voll faktorisierter Annäherung. Ein Fragment aus dem asiatischen Netzwerk. sind die Paren whic Paren und andere Hildren. Diese anderen Hildren/Eltern sind nicht relecorresp unding-faktor-graph-Fragmente Die Parameter app nur den Faktor, der seine Paren ts verbindet.

Vollfactorisierte

Annäherung

und

Korrespondenz

onding

factor

Graph. Bei der Berechnung des Ariational-Ounds hat log]] alle Berechnungsfähigen verwertet, die es applieren, wobei der Faktor 3.3 Lernparameter mit einer Auslegung der Familiendistributionen anwendbar sind, um die Ariational-Botschaft zu übertragen, müssen die Faktoren, die die bedingten Wahrscheinlichkeitsverteilungen sind, kennen.

learn

these

factors

Aus

den

Daten,

dann

nützlich

haben kompakte

die Parameterisierung, die

mit

exp

onen

tial

family

distri-

butions

and

their

conjugate

Betrachten wir die Nettoarbeit (Fragmente Fig. Nehmen wir an, wir lernen die bedingte Verteilung aufgrund ihrer Paren und parametrieren diese Verteilung zusammen, um diese Paren auf eine Supernose diskrete zu halten, aber nehmen wir an, dass die Paren diskrete sind (in manchen Fällen sind die Kontinente traktierbar).

Also

assume

Die

Verteilung aus

den

exp

onen

tial

family

d.h. exp ((99) d.h. es gibt einen Parametervektor für jede Region und die konzentrierte Verknüpfung dieser Parametervektoren. Die Konjugate vor jeder Ausgabe (100) nehmen wir an, dass sie Daten beobachtet und die entsprechenden vergleichbaren Verteilungen berechnet haben (bei den Beobachtungen ersetzen wir die entsprechende Verteilung durch eine Verteilung, die die Beobachtungen umfasst).

Note

that

fully

factorized appro

xi-

mation,

Die Kommission

hat die

Kommission mit dem Vorschlag

für eine

Verordnung (EWG)

Nr.

paren

ts,

(pa

oking

Auf der Abbildung wird festgestellt, dass es genau einen Faktor gibt, der den Parameter und den Vorfaktor verbindet. Bei der Verwendung von Approximating osterior for (Θ), der die gleiche Form hat wie der Vorteil (Eq. 100), sind die Summen der Ariational und depending of the osterior distribution (where range(pa ): log( (Θ) (Θ) (Θ)) log( (101) den ersten Begriff summieren die ossible alues und log( (pa (102) und definieren die resp onsibilities, denn sie messen das Setzen der familiable con tributes, die die Datenverteilung erklären (pa (103) mit der Definition die exp one tial verteilung (eqn.

1),

die Kullbac-Leibler-Divergenzweine

conjugate

p(oste)riors

(Eq. 68) und die Bezeichnung find log(log log log (104) Das Ausführungslog kann mit eqn ausgedrückt werden. 31: log( log (105) Inserting this expression eqn. 104: log(log log log log (106) Begriffe zu sammeln, finden Sie: log(log log( (107) Mit den Ausdrücken (108) und beachten Sie, dass (109) (110) (111) Null einfügen, indem Sie den Begriff log und schreiben hinzufügen und abziehen (mit Hilfe von eqn.

68)

log(

log

log

log

log(

(112)

log(

log

(113)

The

first

part

this

expression

constan

Das Ergebnis ist, daß die Ergebnisse in den beiden Teilen des Lehrverbandes in den beiden Teilen des Lehrverbandes und des Lehrverbandes in den beiden Teilen des Lehrverbandes und des Lehrverbandes in den beiden Teilen des Lehrverbandes und des Lehrverbandes in den beiden Teilen des Lehrverbandes und des Lehrverbandes in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands und der Lehrverbindungen in den Lehrverbindungen des Lehrverbands sind.

24,25),

see

that

the

In diesem Zusammenhang

ist es

wichtig

zu beachten,

daß

die

Wir haben

einen

großen Unterschied

in

der

Vergangenheit.

ariables

the

Diese Teilung entsteht, weil die Responsibilitäten eher Wahrscheinlichkeit als Bestimmung sind. Ansonsten sind die Regeln identisch.

Also,

the

ariational

Datenregeln

können

erhalten

werden, indem

alle

Auf

die Verantwortung geht es

uns

an,

der Vorrang

kommt.

stiffer und

neigt

dazu,

die Daten

zu

ignorieren,

Während

für

maximale

Lik

Eliho

dates. In diesem Abschnitt werden häufig genutzte Konjugatepaare und daraus berechnete Relevanzquantiitäten beschrieben. 4.1 Bernoulli-Beta diskrete zufällige ariable, bei der alternative Ely genannt success (z.B. beim Etting Münzwerfen), giv (117) Seine kanonische Konjugate vorherige Beta-Verteilung mit Dichte (118) verwandeln diese Ausdrücke die exp one tial Familie normale Form (eqns.

and

22),

tro

duce

the

git

log

(119)

whence

1+exp(

1+exp(

and

exp(

(1+exp(

Substitute

eqn. (117): exp log(log exp log log(1 exp(exp( (120) Folglich 1+exp( (vgl. Gleichung. (1)) und exp( (121) verwandeln die Beta-Densität exp auf die normale Form der Familie, beachten Sie, dass Dichte verwandeln lik exp log log(1 exp log log(1 exp( exp (122) Lassen λ,ν finden exp( exp( exp( (123) Bernoulli-Verteilung Standardform Gewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichts 4.2 Multinomial-Diric hlet Die Ultinomialverteilung die Verallgemeinerung die Bernoulli-Verteilung ossible Ergebnisse.

con

enien

repräsentieren

multinomial random

ariates

ectors

mit

Komponenten,

suc,

dass

und

whence

This

called

1-of-K

represen

tation,

Denn

genau

ein

Komponenten

und

Alle

anderen

sind

Lassen

Sie

die Wahrscheinlichkeiten

Die

ossible suc,

dass

dann,

die

ultinomial

distribution can

written

(124)

This

Ausdrucksweise

kann verändert werden.

Familienformular

über

exp

log(log

exp

log

(125)

and

tro

ducing

Das verallgemeinerte

Logit-Log

findet,

dass

exp(

exp(

(126)

exp(

(127)

(alternativ

Ellie

könnte

es

reparieren

und

softmax lassen.

)). Daher (nach einem Durchsetzungsverfahren) und exp(Die Standardkonjugate vor dem Endnumer der Diric-Hlet-Verteilung. Lassen Sie mit und (128) dann die Dichte der Diric-Hlet-Verteilung (129) exp log (() + (() log exp log log (() exp (130) Ersatz benötigen, um den Determinant der Jacobian Let exp (() zu berechnen, d. h.

exp(

Then

exp(

exp(2

exp(

exp(

exp(

exp(

exp(

exp(2

(131)

And

exp(

exp

(132)

With

and

ve,

find

exp(

(133) ultinomial

distribution

standard

form

constrain constrain

1], log

Es gibt

eine Reihe

von Anwendungsmöglichkeiten, die für die Nutzung

von Produkten

und Dienstleistungen

geeignet sind.

Es gibt

eine Reihe

von Anwendungsmöglichkeiten,

mit denen

man sich

beschäftigen kann.

Verteilungstandardform

Beschränkung

Beschränkung

Beschränkung

Beschränkung

1],

i,j

log(

log(

ar(

able

Multiomialverteilung

und Konjugate

Diric

hlet

prior

4.3 Multinomial-Stic kBreaking

The

stic

k-breaking

construction

another

parameterizing

ultinomial

distributions. Das Programm Mac Hine Learning hat um 2005 sehr viel Aufmerksamkeit auf sich gezogen, da das Konzept unendliche Multinomials mit Diric Hlet-process vorstellt. Die Verteilung kann dann (139) durch ausreichende Statistiken geschrieben werden) = (140) und bedeutet daher, daß mit i>k Eqn.

ecomes

exp

log(

log

(141)

transform

Diese

Ausdrucksweise erläutert

die

Familie

Normaler

Formular,

umschreiben Sie

die

Erklärung

the

R.h.s. log (log) log (log) (142) und tro duce die natürlichen Parameter log (log) (143) ,..., log (log) (144) Lösung für Erträge exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex)

Let

the

parameters

these

Beta

distributions, then

(149)

deriv

the

die

entsprechende

Dichte

benötigt

den Determinanten

the

Jacobian

Note

that

consequence

eqns. 145-147, die jacobian up dreieckige Matrix, daher kann der Determinant, der den Prozekt gibt, die Diagonale versucht: exp(((1 exp( ... exp() 1 exp( ....)) (150) (151) kann die Gleichung umschreiben. auf expenziale Form exp log(log (152) und umordnen Sie die exp one als: log(log log(log (153) log log log log(log( (154) log(log( (155) Daher lassen Sie sich für die Dichte (156) exp (157) erhalten, die fast exponentielle Familiennormform ist, mit Ausnahme von: sollte, d. h.

die

Daten

nicht

abschließen,

Daher

ist

die

Notwendigkeit

konstant.

Diese

Beobachtungen

werden

abgegrenzt,

wenn

dies erforderlich ist.

Dies

bedeutet, dass die

mit Ausnahme

des

und

damit

des

Standards

parametrization the

prior

the

stic k-breaking

construc-

tion

(Eq. 149), die sind die Pseudokonten, die Fälle, in denen sie sehen, dass unsere Definition (158) die gleiche Bedeutung hat, davon ausgehen, dass die Beobachtungen von Daten und entsprechenden Statistiken ausreichend waren.

this

table,

let

exp(

)(1

exp(

)(1

exp(

ultinomial

stic

k-breaking

distribution standard

form

constrain

constrain log

log

1+exp(

exp(

constrain

Ex:

Ex:

Max

K,l

Max

K,l

)+1

exp

exp

max

able

The

stic

k-breaking

distribution for

ultinomial

ariables

stic

k-breaking prior

standard

form

constrain

Einschränkung

Einschränkung

Einschränkung

ar(

ar(

ar(

log(

log(

ar(

Die Konjugate vor der Strickbrechverteilung für letztendliche Wirkstoffe 4.4 Oisson-Gamma Die Oisson-Verteilung univariate Teger-v-allued-Rundwirkstoffe z.B. Spik und radioaktive Wirkstoffe in Standardform, Given exp 162, wo die Geschwindigkeit.

Its

sufficien

statistic

and

natural

parameter are

(163)

log(

(164)

and

hence

exp(

exp(

exp(

(165)

Note

dass

für

die

konjugate vorherige

Gamma

distribution with

densit

exp

(166)

where

the

shap

parameter,

and

the

Skala. transformieren diese exp one tial Familieform, lassen Sie (167) und beachten Sie, dass exp () exp λ,ν exp( exp())) exp( (168) 4.5 Multivariate Gaussisch mit Gauss-Wishart vor dem Ultivariate Gaussisch weit verbreitet, z.B. alle Grenzwerte von endlicher Größe Gaussisch Prozess sind Gaussisch.

Aber

auch Standard-Zutaten-Parameter

des

for

regression,

z. B. lineare andere Basisfunktionen. die Standardform, ultivariate Gaussian densit vector-v alued random ariable with ariates dim parameterized mean ector and symmetric, ositiv definite ariance matrix exp (169) oisson distribution standard form exp( constrain log( constrain exp exp( +1) exp( ar( exp( Gamma prior for oisson-distributed standard form exp( constrain log( ar( (log() +1 log( ar() √ +1) +1) λ,ν able oisson distribution and conjugate Gamma prior enien verwenden den Vers namens cision matrix ex (169) oisson distribution also symmetric and ositiv definite: (170) verwandeln die Gaussian die exp one tial family normal form, umschreiben die one (171) Beachten Sie, dass i, i, i, ij, ij, (172) daher aus ausreichende statistische und natürliche Parameter bestehen:

172,

the

row

ectors

,...,

(173)

,...,

d,d

(174)

Second,

order

the off-diagonal

elemen

(with

some

arbitrary

fashion

(z. B. lektisch) und konstruieren die Ektore, d. h. enthält das Dreieck und der Erator extrahiert die Dreieckmatrix, ohne die Diagonale.

can

written

(181)

With

these

substitutions, the

exp

Eine

soziale

Familie ist

eine normale

Form

der

Multivariate

Gaussian

daher

exp exp

(182)

and

log(

log(2

log

(183)

Berechnen Sie

die

Momente,

benötigen

Sie

den Grad.

this

expression

Da ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich

the

ell-kno

expressions

for

exp

ectations

Die zweite Ableitung aktiv (notwendig für die Aluation, den Gradien und die Divergenz) wird hier weggelassen, sie können die automatische Differenzierung von den Ausdrücken berechnen, z. B. Theano Die Priorität der Parameter die Gaussian giv (multiv ariate) Gauss-Wishart-Verteilung [1].

standard

form,

giv

(192)

exp

(193)

exp

tr(

(194)

where

the

ultiv

ariate

gamma

function

[3]:

(195)

reparameterize follo

ws:

(196)

and

Const. (197) (198) (199) i,i (200) k,l k,l l,k (201) (202) Mit diesen Substitutionen und dem Argument können die Explantials eqn. geschrieben werden tr( (203) eqn. ecomes exp exp (204) verwandeln dies die gewünschte Explantial-Familieform, müssen die natürlichen Parameter der letzten Gaussian (siehe Eqns.

174,176,178). Dies kann durch die Vermehrung der Gleichung 192 mit dem Determinanten der Jakobischen Transformation erreicht werden, die auf die Matrix folgt: Stack das diagonale Element, die Ectordimension oder das off-diagonale Wer Dreieck, das Ectordimensional. Der Jakobische hat dann die Flügelstruktur, die aus den Definitionen folgt.

174,176,178

(rows

und

Spalten, die

mit veränderbaren

Namen

gekennzeichnet

sind):

(205)

virtue

Das absolute Gebiet des Determinans (206) Reparameterierung von Gleichheitsbegriffen und Ultipierung mit diesem Ausdruck ergeben sich (vgl. Gleichung für die Definition):

calculate

exp

ectations,

benötigen

die

abgeleiteten

aktiv

log)):

log(

log(2

log(

log

log(

(208)

with

log(2)

log(2

log(2). So log(2 log( (209) wo log die ultiv ariate digamma-Funktion ist. die Ableitung aktiv w.r.t. Bitte beachten Sie, dass Eqns. 196-202 bedeutet i,i (2( und i>j i,j j,j j,i,i,i,j,k,k,k (210) i,j i,k,k,k,k (211) i,j k,l i,k,l i,l j,k (212) Mit der Form ula von [2], so finden Sie log(m,n m,n m,n m,n m,n m,k n,k (213) log(l (214) log(m,n m,n n,k,k (215) Die ausreichenden Statistiken des ultiven Gaussischen Forms sind (l) ectorisierten Formdreieck (216)) diagnostisch (217) diagnostisch (218) (219) Die zweite Ableitung kann ähnlich leichter automatische Diagnose erhalten werden.

The

exp

Ectation

die

ausreichenden Statistiken

können berechnet

werden

from

Gleichung 57. bereits berechnet (Gleichung 202). Die Oberflächenintegral annisiert, da die Dichte normalisiert werden muss.

see

also

the

Jacobian

Die

Bemühungen

um eine

geeignete Neuordnung

der

Versucht

diagonal

zu

finden

diag(

(222)

and

lik

ewise

for

4.5.1

Univ

ariate

Gauss-Gauss-Gamma trivial,

see

Zufällige

Identifikationen,

die

sehr

nützlich

sind

Decomp

osition

Kullbac

k-Leibler div

ergence

for

multiv

ariate

Gaussians: let

(223)

Multivariate

Gaussische

Verteilungsstandardform

ex-streng

ositiv

halbbbestimmt und

symmetrisch

diag(

lt(

diag(

lt(

constrain

s.t. os.semidef. Ex-diag. log. log. log. log. diag. diag. diag. diag. lt. lt. able Multivariate Gaussian Verteilung und konjugate Gauss-Wishart vorzuschließen Ultivariate Gaussian Die bedingte Verteilung gibt dann auch Ultivariate Gaussian (siehe [2]): (224) (225) (226) Annahme hatte eine vorläufige Verstärkung für den Abbau des Flügels (tilde deutet auf Ariationsparameter): (227) die in der bedingten Gaussian-Verteilung verallgemeinert wird, da es sich um freie Ariationsparameter handelt.

Beachten

Sie

die

Zerfallung

des

Flügels

prop

ert

the

KL-div

ergence, whic

follo

directly

from

its definition:

(228)

Mit

Hilfe

der Verteilungen wird

der

zweite

Begriff

Die

rechte

Seite

gibt

die

usual

expression for

the

KL-div

ergence

Und

die

letzten Gaussischen:

dim[

log(

log

(229)

and

the

first

term

dim[

log(

log

+tr

(230)

Dieser

Ausdruck

null

if:

Null-Auslösung

kann

nicht hergestellt

werden.

Ich

habe

die

Ansatz gemacht,

weil die

KL-div

ergence

ositive, for

its

exp

Ectation Null,

hat

Null

für

alle

die

ausdrückliche

Repräsentation

erfordert

die

durchschnittliche

Projektionsmatrix Referenzen

[1]

C.M. Bishop. Musterignition und Machine arning Springer, New ork, 2007. [2] etersen und Pedersen. Die Matrix okb ersion 20121115, ttp://www.math.u aterlo o.ca/ olk wi/matrixco okb.p [3] A.T. James. Distributions Matrix ariates und atent ots Derive Normal Samples Ann.