Erhebungs-Identifikationen für
die
anhaltende
Schlussfolgerung
with
exp
onen
tial-family dels
Dominik
Endres,
Kathrin
abst,
Anna-Lena
ert,
Raphael
Eine [E-Mail
geschützt]
Septem
Abstract
collection
Identifikationen,
die
für
die
anhaltende Schlussfolgerung
nützlich sind
with
exp
onen
tial
family
distributions/densities. Alle Abweichungen wurden von den Autoren vorgenommen, sofern nicht anders angegeben. Dies bedeutet nicht, daß die hier gesammelten Ergebnisse die Literatur nicht vorher erworben haben. Diese Sammlung und ihr Fortschritt. Es ist sicherlich unvollständig und wahrscheinlich fehlerhaft, dass Bug-rep-Orts und -Kontributionen am häufigsten sind, mailen Sie bitte an [email protected] Exp onen tial Familienverteilungen Verteilung sagte, dass entlang der exp onen tial Familie kann das Formular geschrieben werden [1]: exp( (1) wo die zufälligen Ariaten diskret kontinuous sind, die ausreichenden Statistiken sind Funktionen die nicht unbedingt die gleichen dimensionalit er, die Notwendigkeit linear unabhängig endend.
The
are
the
natur
am-
eters
one
for
eac
sufficien
Die Funktion der Normalisierung ist konstant (ersetzen Sie den Tegral durch Summe für diskrete exp( (2) 1.1 Momente am Gradien w.r.t. andere Seiten Gleichung finden: exp( exp( (3) und die Exektion ist: log( (4) Berechnen der Ableitung aktiv die i-te Komponente der L.h.s.
Eqn. w.r.t. Erträge (aufzuweisen, dass log x,y x,y x,y x,y exp( log( i−h log( (5) Bezeichnen die Hessische die Arianzmatrix gibt − log( (6) Höhere Reihenfolge Momente können durch höhere Reihenfolge abzuleiten es. 1.2 Maxim Lik eliho maxim um-like eliho approximations, benötigen die Gradien log( w.r.t.
log(
log
(7)
other
ords,
maximizing
the
lik
eliho
(d.h. nach dem Gradien steigt der Ausgang höher wie bei den Parameter) um die ausgegebenen Bereiche der ausreichenden Statistik ähnlicher zu machen als die tatsächlich beobachteten ausreichenden Statistiken.
datap
oints
Die
Parameterschätzung
erlangte
Lösung
log(
(8)
1.3 Die (differen tial) trop giv definiert log (()) (9) beachten Sie, dass dies nicht die bedingte trop giv mit der Definition der exp one tial Familie Verteilung (gleiche wie dies kann geschrieben werden log (() log und log (()) log (10) der Grad der trop w.r.t.
need
log(
(11)
Using
eqn. Finden Sie (12) auch log(log exp(log(log exp(log log(log log(log (13) und log(log log( (14) Der Grad der trop w.r.t. the log( −∇h log( i−∇ (15) log( i−h log (16) 1.4 Kullbac k-Leibler Divergenz Die KL-divergenzverteilung mit Parameterverteilung mit Parameter ist: log [log log )) log (17)
10:
log(
log(
(19)
Its
gradien
In diesem Fall ist es notwendig, die Konzeption und das Lernen von hierarchischen und hierarchischen Dingen zu verknüpfen, wobei die Konzeption und das Lernen von hierarchischen Dingen sehr nützlich sind, da die Konzeption und das Lernen mit i.i.d.
observ
ations
translates
parameter
dates
(rather
than
complicated
Die Konjugate Prior Exponential Family Distribution (e.g. gegeben Exponential) (22) wobei die Parameter der p (oste) Prior, die gleiche Funktion und die willkürliche ositive Funktion (verschieden von) sind.
and
22)
exp(
exp(
exp(
exp(
exp
exp
)))
exp
exp
)))
(23)
Beachten
Sie,
dass
dieser Ausdruck
dep
endet
die
Daten
nur
durch
und
Sie
werden als
ausreichende Statistiken
bezeichnet.
Sie
enthält alle Informationen.
die
von
den
Daten
ermittelten
Bedürfnisse
the
parameter
Ähnliches Ergebnis gilt auch für das maximale Um-Like-Learning, siehe [1]. Durch die Einführung der österieren Ämter (24) (25) werden außerdem die Normalisierung des österieren Konstants identifiziert, d. h. exp und schließlich diese Identifikationen verknüpft.
data
and
conjugate
Vor,
erhalten
Sie hinter
nur
die Ersetzung
der
prior
parameters
according
Ferner ist zu beachten, daß die Zahl der Beobachtungsdaten nach Gleichung 24 verfolgt wird. Da sie auch vorhergehende Informationen über den genannten Pseudo-ount enthält, so sind die östere Einheit und die log-p östere z.B. die Breite der maximale monotonisch abnimmt (Man kann auch die Hessische log-p östere berechnen).
Hence,
also
der
Onc
Entration
Ameter
genannt
wird.
Der
Osterior ist
nur
acht.
die
vorherigen
und
und
die
Beobachtungen
data. Diese späteren Daten können sich wiederholen, d. h. die Akkumulation der ausreichenden Statistiken kann sich wiederholen. 2.1 Maximum um-a-p osteriori (MAP) Parameter Schätzungen
26),
sometimes
enough
use
the
Parameter,
die
die
Osterior
maximieren,
Bei der Einstellung des Ableiters aktiv auf das Log der Umererator Null finden Sie log(log eqn. log( (27) d.h. die höchste Höchstmenge aufgeteilt, wo die ausgegebenen Parameter die natürlichen Parameter gleich dem Quotient der höchsten Parameter (e.g.
24,25)
plus
term
dep
ending
The
latter
often
zero,
since
)=1
für Menschenverteilungen
(siehe
Abschnitt
Tabellen)
2.2 Ausführungen Berechnungsparameterausführungen (d. h. und deren Funktionen) können ähnlich wie die Ausführungen aus der familiären Verteilung erfolgen.
find,
noting
that
log(
log(
log
(31)
the
second momen
ts,
tak
the
deriv
ativ
(see
qn. 29): exp exp exp exp log (( (32) i−h (33) und log (( (34) Lik equise, die Berechnung der abgeleiteten aktiven Gleichung. andere Seiten ergeben log(log ))) (35) wo log(log log log log(log log log(log log log(ar(log))) v(log log (36) log(i−h log v(log(v(log(ar( (37) und uns, wobei festgestellt wird, dass ar(ar(ar(log log)) (38) (38) Eine weitere Auslegung, die aus der Normalisierung berechnet werden kann, ist exp (39) die Integral zu zusichern, und es gibt neue Parameter, die suc (40) (41) mit diesen Parameter, die tegral exp one tial Familie normal Form, und (42) (43) ar( (44) 2.3 Vorhersageverteilung, trop und log-like eliho Die Vorhersageverteilung und damit verbundene Quanten können aus der tegralen exp exp exp exp (45) abgeleitet werden, wo die letzte Linie aus der Normalisierungsgleichung 28 folgt.
the
tegral
the
l.h.s. Die Exportation unter dem vorherigen: (46) Differenzierung mit den entsprechenden Erträgen: log log , wo die Derivate aktiviert werden und die exportierte log-ähnliche Eliho mit eqn erhält. 30: log( log log (47) erhalten Ausführungen das Formular log(, die die für die Berechnung erforderlichen Begriffe sind die erwartete Entrope (48) (49) log( log( (50) 2.4 Ausreichende Statistiken Die ausreichenden Statistiken für feste natürliche Parameter sind nicht ausreichend.
log(
(51)
aus
conjugate
prior, dem
exp
Entfernung unter
der
vorherigen
Entfernung
the
r.h.s. −h log( (52) berechnen diese Exektion, kann man das Divergenz-Theorem aus der ökonomischen Berechnung (Ostrogradsky-Gauss) verwenden. differenzierbares Ectorfeld dieses Theorems besagt, dass (53) wo die Oberfläche, die den ökonomischen Fall umschließt, das Feld mit konstantem Ector und leicht differenzierbarer skalarer Funktion betrachten.
Then,
using
find
(54)
und
da
dies
für
follo
gilt
that
(55)
This
iden
tit
can
Gebraucht
wird, um
die
Ausbreitung
zu berechnen.
r.h.s. Gleichung des Gradiens ex log(log (56) wo die Oberfläche den Bereich umschließt Daher ist die Exektion: log( (57) mit weiteren Beschränkungen ts, dann hat die Oberfläche der Bereich seit normalisierbar ist. Daher ist die Oberflächenintegral ust null. Dies z.B.
the
case
for
the
Multinomial
distribution
and
the
oisson
In diesen Fällen wird der Ausdruck vereinfacht (58) Die Ausgabe für das letzte Gaussian-Ariate ist ebenfalls berechenbar, siehe Anhang.
and
log(
log
(59)
log
log
(log(
log
(60)
Similar the
gradien
the
Aufgrund
der Familienabschnitte
Gradien und
Wards
des
tatsächlichen
Gebiets
and
from
the
exp
Die Differen tial trop (nicht die bedingte trop giv und exp(log log log(log log (61) wo die expektionen w.r.t. die p(oste) rior equation sind.
and
30):
log(
log(
log
log
log(
i−
log
log
v(log
log(
log
(64)
log
(65)
2.7
Kullbac
k-Leibler div
ergence
The
KL-div
Ergenzverteilung
mit
Parameterverteilung
mit
parameters giv
log(
log(
log(
(66)
The
second
term
the
r.h.s. GIV (Exp Ectations w.r.t log(log log(log (67) und uns, unter Verwendung von eqn. und finden log log (68) Die abgeleiteten Aktiv sind: log(log(log(log(log( (69) (70) wo Matrix mit Versuchen i,j Lik equise, (71) 3.1 Argumentative Ableitung mit konjugierter Spannung = Argumentative Ableitung, ersetzen Sie die unüberwindbare Verteilung (oder die Dichte (d. h.
one
wenn
die Marginalen
und
die Konditionalitäten hart
sind
Das
Problem
ist,
daß die
observ
data. Das ist eine sehr schwierige Angelegenheit, aber man kann diese Bedingung nicht schreiben, da es nur ungefähr so ist. Die Annäherung verknüpft die richtige Verteilung über die Ariation und auch die Evidenz (ELBO): log log log log log log log (72) wo die zweite Linie folgt von Jensens Ungleichheit für Kon-Funktionen und der Definition der Kullbac k-Leibler-Divergenz.
ound
the
log-marginal-lik
eliho
which
try
maximize
w.r.t. Die daraus resultierende Annäherung an das richtige Oster, das, wenn die Klassenverteilungen eingehalten werden, die diesen Fall (und nur diesen Fall) bearbeiten können, das Ound den Folgeflügel verschärfen wird, die späteren Datumregeln für den Fall conjugate und andere sind die exp one tial Familie auch davon ausgehen, dass die Konjugate die gleiche ist, dass das Oster datiert Parameter-Daten reduzieren, gleich Abschnitt Letztendlich davon ausgehen, dass die Daten bestehen aus i.i.d.
observ
ations,
Das ELBO, das einen anderen Temperaturparameter hat, kann also Abweichungen von der optimalen Schlussfolgerung verwenden, für Sto-Hast-Dating-Minibatc, etc. Bezeichnen Sie die vorherigen Parameter mit und die osterieren Parameter mit dem expektierten log-ähnlichen Eliho unter dem osterieren log für Daten kann dann von eqn berechnet werden.
(47):
log(
log(
log(
(74)
where
giv
eqn. (30) and the KL-div ergence eqn. (68). maximieren Sie die EQN. (73) w.r.t. Die österen Parameter werden die Ellb-Differenz und einen Teil umschreiben, der nicht auf die österen Parameter beruht, und die KL-Divergenz zwischen dem österen Parameter und die Verteilung derselben Exponentialfamilie auf die österen Parameter, die auf die österen Parameter beruhen.
(26)
all
data-related
Verteilung
der
Qualitäten
Sammeln
von Bedingungen
the
ELBO
Gleichung (75) und Verknüpfung dieser Definitionen, finden Sie log(log log (78) Vergleichen Sie die letzten Zeilen der Ausdruck für die Divergenz-Equation. (68), finden Sie, dass die Log-Term und Faktor diese Zeilen sind KL-divergenz.
Exact
sum-pro
duct
can
not
run
this
graph. Richtig korrespondierende Faktor-Grafik. Die Übermittlung von Berichten (z.B. benötigt die Empfangsberichte von allen Mitgliedern, deren Marken blank et sind, die sich auf die vernetzten Nebenfaktoren beziehen können (für alle anderen Destinationen). durch die Verbindungsfaktoren. log log log log (79) (80) wobei maximal nur und nur geschieht und somit das maximale ELBO nach dem nachfolgenden Datum gegeben ist.
(79),
die
für
die
Parameter
angegeben sind
Gleichung (76). Ausdruck für die ausgedehnte log-ähnliche Gleichung (74), die nur auf die ersten Parameter abschließt. Dies ist möglich, weil diese Parameter aus ausreichenden Statistiken berechnet werden (die Definition ausreichend ist, um die gleiche Gleichung zu bestimmen).
Rewrite
the
osterior
parameters
and
and substitute
these
expressions the
log-
Lich
eliho
dann
log(log(log(
(81)
3.2 ariational
message
passing
Denote
Die
gesetzten
Indizes
lassen
die
festgelegten
Indizes
von beobachteten
Aariablen mit
und
der
Satz
alle
Indizes suc,
die
und
eine vollständig
faktorisierte
Annäherung in
Betracht
ziehen,
d.h. eine, in der die Dichte der latenten Aariablen pro Duct einzelne Aariablen verteilt. Die Notation in der Mitte ist korrekt, weil es eine Dichte gibt. Überlassen Sie den zusätzlichen Index und nehmen Sie an, dass der Leser weiß, was das bedeutet Lassen Sie die richtige Dichte ausgedrückt ja net, und die Beobachtungsdaten weiter, die Notation vereinfachen, tro duce die sum-pro duct symol: (82) Die Ound dann ist: log( log( log( log( log( log( log( (83) finden Sie die, die die Ound maximiert, nehmen Sie die derivativ w.r.t.
and
set
Diese notwendige Voraussetzung für die maximale Umm kann zeigen, daß ausreichend zusätzlich die Beschränkung aller Verteilungen auferlegt, d. h. und wird sich herausstellen, daß sie die erste Beschränkung nicht auferlegt, so daß die zweite erfüllt wird.
The
Lagrangian
functional therefore
(84)
necessary
condition
for
extem
stationary
oin
Das Ergebnis ist also, daß die Ergebnisse der Ergebnisse des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses des Ergebnisses.
for
Definition der Nachrichten sen von Faktor ..., X endend mit Indizes sen von Faktor ..., X endend mit Indizes wie: ..., X, ...
...,x
(88)
...,x
...,X
,... (89) d.h. die Erlösung des Faktors mit Bezug auf alle Verbindungsvorrichtungen, die ihn verbinden, mit Ausnahme der Verbindungsvorrichtungen, an die die Nachricht eingesandt wurde. Mit diesen Nachrichtendefinitionen, Eqn. ecomes log(log(log(log(( (90) log(log( (91) Die Definition von exp( kann für exp log( log (92) andere Ord lösen, die ariational osterior ariable computed alle eingehenden Nachrichten hinzufügen, exp one tiating und normalisieren (weil aus dem Lagrange Ultiplier berechnet wird, der die Normalisierung durchsetzt).
This
message-passing heme has iterated
til
con
ergence, whic
guaran-
teed
since
the
ound
apuno
function
the
iteration
dynamics. Eine andere Ableitung dieses Algorithmus ohne Rechenableitung aktiviert sich über die Differenz )). Erinnern Sie sich daran, daß die Unterschiede zwischen ositiv und null und nur die Verteilungen überall gleich sind. Nehmen wir an, Ted maximiert die EQN. w.r.t. Diese Maximierung muss lediglich in Betracht gezogen werden, die Begriffe, die am Ende des Verfahrens, die am Ende des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens und die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens, die Begriffe des Verfahrens oder der Verfahrens, die Begriffeindung des Verfahrens, und die Begriffeindung des Verfahrens.
Ein
Faktor
und
eine Summe
können
daher
Ziehen
Sie
aus: argmax
argmax log(
log(
}\{
log(
log
(94)
With
the
message
definitions
(Eqns. 88) die R.H.S. können argmax argmax log((log(log (95) d.h. benötigen die eingehenden Nachrichten von allen angrenzenden Faktoren des Komponenten dieses Ausdrucks. beachten Sie, dass die Gewerkschaften der Index setzt die Summen die erste und die letzte Zeile sind einfach die Indizes alle hildren, während die Nachricht die zweite Zeile die eingehende Nachricht aus dem Paren ts.
us,
define
log(
log(
log
(96)
and
let
(97)
with
and
d.h. Wahrscheinlichkeitsverteilung. Mit diesen Definitionen erhalten Sie argmax argmax log( log argmax log( log argmax (98) Da die KL-div ergence folgen, dass die Ariation und maximiert andere ord, berechnen Sie die optimale Verteilung gegeben die Verteilungen gegeben die ariables sein Mark blank et, der Folgeflügel: Summen alle eingehenden Nachrichten von unserem Nachbarn Faktor des, exp one tiate, normalisieren.
The
factor
des
Sammeln
Sie
Nachrichten
von
ihrem
Schnabeln
Erläuterungen
und
Zusammenfassungen
von
Berichten
their
log-factor all
ariables
except
the
Eine,
in
der
die Nachricht
eing
sen
to,
similar
sum-pro
duct
message
passing. Darstellen Sie einen Ansatzparameter (Θ) mit voll faktorisierter Annäherung. Ein Fragment aus dem asiatischen Netzwerk. sind die Paren whic Paren und andere Hildren. Diese anderen Hildren/Eltern sind nicht relecorresp unding-faktor-graph-Fragmente Die Parameter app nur den Faktor, der seine Paren ts verbindet.
Vollfactorisierte
Annäherung
und
Korrespondenz
onding
factor
Graph. Bei der Berechnung des Ariational-Ounds hat log]] alle Berechnungsfähigen verwertet, die es applieren, wobei der Faktor 3.3 Lernparameter mit einer Auslegung der Familiendistributionen anwendbar sind, um die Ariational-Botschaft zu übertragen, müssen die Faktoren, die die bedingten Wahrscheinlichkeitsverteilungen sind, kennen.
learn
these
factors
Aus
den
Daten,
dann
nützlich
haben kompakte
die Parameterisierung, die
mit
exp
onen
tial
family
distri-
butions
and
their
conjugate
Betrachten wir die Nettoarbeit (Fragmente Fig. Nehmen wir an, wir lernen die bedingte Verteilung aufgrund ihrer Paren und parametrieren diese Verteilung zusammen, um diese Paren auf eine Supernose diskrete zu halten, aber nehmen wir an, dass die Paren diskrete sind (in manchen Fällen sind die Kontinente traktierbar).
Also
assume
Die
Verteilung aus
den
exp
onen
tial
family
d.h. exp ((99) d.h. es gibt einen Parametervektor für jede Region und die konzentrierte Verknüpfung dieser Parametervektoren. Die Konjugate vor jeder Ausgabe (100) nehmen wir an, dass sie Daten beobachtet und die entsprechenden vergleichbaren Verteilungen berechnet haben (bei den Beobachtungen ersetzen wir die entsprechende Verteilung durch eine Verteilung, die die Beobachtungen umfasst).
Note
that
fully
factorized appro
xi-
mation,
Die Kommission
hat die
Kommission mit dem Vorschlag
für eine
Verordnung (EWG)
Nr.
paren
ts,
(pa
oking
Auf der Abbildung wird festgestellt, dass es genau einen Faktor gibt, der den Parameter und den Vorfaktor verbindet. Bei der Verwendung von Approximating osterior for (Θ), der die gleiche Form hat wie der Vorteil (Eq. 100), sind die Summen der Ariational und depending of the osterior distribution (where range(pa ): log( (Θ) (Θ) (Θ)) log( (101) den ersten Begriff summieren die ossible alues und log( (pa (102) und definieren die resp onsibilities, denn sie messen das Setzen der familiable con tributes, die die Datenverteilung erklären (pa (103) mit der Definition die exp one tial verteilung (eqn.
1),
die Kullbac-Leibler-Divergenzweine
conjugate
p(oste)riors
(Eq. 68) und die Bezeichnung find log(log log log (104) Das Ausführungslog kann mit eqn ausgedrückt werden. 31: log( log (105) Inserting this expression eqn. 104: log(log log log log (106) Begriffe zu sammeln, finden Sie: log(log log( (107) Mit den Ausdrücken (108) und beachten Sie, dass (109) (110) (111) Null einfügen, indem Sie den Begriff log und schreiben hinzufügen und abziehen (mit Hilfe von eqn.
68)
log(
log
log
log
log(
(112)
log(
log
(113)
The
first
part
this
expression
constan
Das Ergebnis ist, daß die Ergebnisse in den beiden Teilen des Lehrverbandes in den beiden Teilen des Lehrverbandes und des Lehrverbandes in den beiden Teilen des Lehrverbandes und des Lehrverbandes in den beiden Teilen des Lehrverbandes und des Lehrverbandes in den beiden Teilen des Lehrverbandes und des Lehrverbandes in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands in den beiden Teilen des Lehrverbands und des Lehrverbands und der Lehrverbindungen in den Lehrverbindungen des Lehrverbands sind.
24,25),
see
that
the
In diesem Zusammenhang
ist es
wichtig
zu beachten,
daß
die
Wir haben
einen
großen Unterschied
in
der
Vergangenheit.
ariables
the
Diese Teilung entsteht, weil die Responsibilitäten eher Wahrscheinlichkeit als Bestimmung sind. Ansonsten sind die Regeln identisch.
Also,
the
ariational
Datenregeln
können
erhalten
werden, indem
alle
Auf
die Verantwortung geht es
uns
an,
der Vorrang
kommt.
stiffer und
neigt
dazu,
die Daten
zu
ignorieren,
Während
für
maximale
Lik
Eliho
dates. In diesem Abschnitt werden häufig genutzte Konjugatepaare und daraus berechnete Relevanzquantiitäten beschrieben. 4.1 Bernoulli-Beta diskrete zufällige ariable, bei der alternative Ely genannt success (z.B. beim Etting Münzwerfen), giv (117) Seine kanonische Konjugate vorherige Beta-Verteilung mit Dichte (118) verwandeln diese Ausdrücke die exp one tial Familie normale Form (eqns.
and
22),
tro
duce
the
git
log
(119)
whence
1+exp(
1+exp(
and
exp(
(1+exp(
Substitute
eqn. (117): exp log(log exp log log(1 exp(exp( (120) Folglich 1+exp( (vgl. Gleichung. (1)) und exp( (121) verwandeln die Beta-Densität exp auf die normale Form der Familie, beachten Sie, dass Dichte verwandeln lik exp log log(1 exp log log(1 exp( exp (122) Lassen λ,ν finden exp( exp( exp( (123) Bernoulli-Verteilung Standardform Gewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichtsgewichts 4.2 Multinomial-Diric hlet Die Ultinomialverteilung die Verallgemeinerung die Bernoulli-Verteilung ossible Ergebnisse.
con
enien
repräsentieren
multinomial random
ariates
ectors
mit
Komponenten,
suc,
dass
und
whence
This
called
1-of-K
represen
tation,
Denn
genau
ein
Komponenten
und
Alle
anderen
sind
Lassen
Sie
die Wahrscheinlichkeiten
Die
ossible suc,
dass
dann,
die
ultinomial
distribution can
written
(124)
This
Ausdrucksweise
kann verändert werden.
Familienformular
über
exp
log(log
exp
log
(125)
and
tro
ducing
Das verallgemeinerte
Logit-Log
findet,
dass
exp(
exp(
(126)
exp(
(127)
(alternativ
Ellie
könnte
es
reparieren
und
softmax lassen.
)). Daher (nach einem Durchsetzungsverfahren) und exp(Die Standardkonjugate vor dem Endnumer der Diric-Hlet-Verteilung. Lassen Sie mit und (128) dann die Dichte der Diric-Hlet-Verteilung (129) exp log (() + (() log exp log log (() exp (130) Ersatz benötigen, um den Determinant der Jacobian Let exp (() zu berechnen, d. h.
exp(
Then
exp(
exp(2
exp(
exp(
exp(
exp(
exp(
exp(2
(131)
And
exp(
exp
(132)
With
and
ve,
find
exp(
(133) ultinomial
distribution
standard
form
constrain constrain
1], log
Es gibt
eine Reihe
von Anwendungsmöglichkeiten, die für die Nutzung
von Produkten
und Dienstleistungen
geeignet sind.
Es gibt
eine Reihe
von Anwendungsmöglichkeiten,
mit denen
man sich
beschäftigen kann.
Verteilungstandardform
Beschränkung
Beschränkung
Beschränkung
Beschränkung
1],
i,j
log(
log(
ar(
able
Multiomialverteilung
und Konjugate
Diric
hlet
prior
4.3 Multinomial-Stic kBreaking
The
stic
k-breaking
construction
another
parameterizing
ultinomial
distributions. Das Programm Mac Hine Learning hat um 2005 sehr viel Aufmerksamkeit auf sich gezogen, da das Konzept unendliche Multinomials mit Diric Hlet-process vorstellt. Die Verteilung kann dann (139) durch ausreichende Statistiken geschrieben werden) = (140) und bedeutet daher, daß mit i>k Eqn.
ecomes
exp
log(
log
(141)
transform
Diese
Ausdrucksweise erläutert
die
Familie
Normaler
Formular,
umschreiben Sie
die
Erklärung
the
R.h.s. log (log) log (log) (142) und tro duce die natürlichen Parameter log (log) (143) ,..., log (log) (144) Lösung für Erträge exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex) exp (ex)
Let
the
parameters
these
Beta
distributions, then
(149)
deriv
the
die
entsprechende
Dichte
benötigt
den Determinanten
the
Jacobian
Note
that
consequence
eqns. 145-147, die jacobian up dreieckige Matrix, daher kann der Determinant, der den Prozekt gibt, die Diagonale versucht: exp(((1 exp( ... exp() 1 exp( ....)) (150) (151) kann die Gleichung umschreiben. auf expenziale Form exp log(log (152) und umordnen Sie die exp one als: log(log log(log (153) log log log log(log( (154) log(log( (155) Daher lassen Sie sich für die Dichte (156) exp (157) erhalten, die fast exponentielle Familiennormform ist, mit Ausnahme von: sollte, d. h.
die
Daten
nicht
abschließen,
Daher
ist
die
Notwendigkeit
konstant.
Diese
Beobachtungen
werden
abgegrenzt,
wenn
dies erforderlich ist.
Dies
bedeutet, dass die
mit Ausnahme
des
und
damit
des
Standards
parametrization the
prior
the
stic k-breaking
construc-
tion
(Eq. 149), die sind die Pseudokonten, die Fälle, in denen sie sehen, dass unsere Definition (158) die gleiche Bedeutung hat, davon ausgehen, dass die Beobachtungen von Daten und entsprechenden Statistiken ausreichend waren.
this
table,
let
exp(
)(1
exp(
)(1
exp(
ultinomial
stic
k-breaking
distribution standard
form
constrain
constrain log
log
1+exp(
exp(
constrain
Ex:
Ex:
Max
K,l
Max
K,l
)+1
exp
exp
max
able
The
stic
k-breaking
distribution for
ultinomial
ariables
stic
k-breaking prior
standard
form
constrain
Einschränkung
Einschränkung
Einschränkung
ar(
ar(
ar(
log(
log(
ar(
Die Konjugate vor der Strickbrechverteilung für letztendliche Wirkstoffe 4.4 Oisson-Gamma Die Oisson-Verteilung univariate Teger-v-allued-Rundwirkstoffe z.B. Spik und radioaktive Wirkstoffe in Standardform, Given exp 162, wo die Geschwindigkeit.
Its
sufficien
statistic
and
natural
parameter are
(163)
log(
(164)
and
hence
exp(
exp(
exp(
(165)
Note
dass
für
die
konjugate vorherige
Gamma
distribution with
densit
exp
(166)
where
the
shap
parameter,
and
the
Skala. transformieren diese exp one tial Familieform, lassen Sie (167) und beachten Sie, dass exp () exp λ,ν exp( exp())) exp( (168) 4.5 Multivariate Gaussisch mit Gauss-Wishart vor dem Ultivariate Gaussisch weit verbreitet, z.B. alle Grenzwerte von endlicher Größe Gaussisch Prozess sind Gaussisch.
Aber
auch Standard-Zutaten-Parameter
des
for
regression,
z. B. lineare andere Basisfunktionen. die Standardform, ultivariate Gaussian densit vector-v alued random ariable with ariates dim parameterized mean ector and symmetric, ositiv definite ariance matrix exp (169) oisson distribution standard form exp( constrain log( constrain exp exp( +1) exp( ar( exp( Gamma prior for oisson-distributed standard form exp( constrain log( ar( (log() +1 log( ar() √ +1) +1) λ,ν able oisson distribution and conjugate Gamma prior enien verwenden den Vers namens cision matrix ex (169) oisson distribution also symmetric and ositiv definite: (170) verwandeln die Gaussian die exp one tial family normal form, umschreiben die one (171) Beachten Sie, dass i, i, i, ij, ij, (172) daher aus ausreichende statistische und natürliche Parameter bestehen:
172,
the
row
ectors
,...,
(173)
,...,
d,d
(174)
Second,
order
the off-diagonal
elemen
(with
some
arbitrary
fashion
(z. B. lektisch) und konstruieren die Ektore, d. h. enthält das Dreieck und der Erator extrahiert die Dreieckmatrix, ohne die Diagonale.
can
written
(181)
With
these
substitutions, the
exp
Eine
soziale
Familie ist
eine normale
Form
der
Multivariate
Gaussian
daher
exp exp
(182)
and
log(
log(2
log
(183)
Berechnen Sie
die
Momente,
benötigen
Sie
den Grad.
this
expression
Da ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich, ich
the
ell-kno
expressions
for
exp
ectations
Die zweite Ableitung aktiv (notwendig für die Aluation, den Gradien und die Divergenz) wird hier weggelassen, sie können die automatische Differenzierung von den Ausdrücken berechnen, z. B. Theano Die Priorität der Parameter die Gaussian giv (multiv ariate) Gauss-Wishart-Verteilung [1].
standard
form,
giv
(192)
exp
(193)
exp
tr(
(194)
where
the
ultiv
ariate
gamma
function
[3]:
(195)
reparameterize follo
ws:
(196)
and
Const. (197) (198) (199) i,i (200) k,l k,l l,k (201) (202) Mit diesen Substitutionen und dem Argument können die Explantials eqn. geschrieben werden tr( (203) eqn. ecomes exp exp (204) verwandeln dies die gewünschte Explantial-Familieform, müssen die natürlichen Parameter der letzten Gaussian (siehe Eqns.
174,176,178). Dies kann durch die Vermehrung der Gleichung 192 mit dem Determinanten der Jakobischen Transformation erreicht werden, die auf die Matrix folgt: Stack das diagonale Element, die Ectordimension oder das off-diagonale Wer Dreieck, das Ectordimensional. Der Jakobische hat dann die Flügelstruktur, die aus den Definitionen folgt.
174,176,178
(rows
und
Spalten, die
mit veränderbaren
Namen
gekennzeichnet
sind):
(205)
virtue
Das absolute Gebiet des Determinans (206) Reparameterierung von Gleichheitsbegriffen und Ultipierung mit diesem Ausdruck ergeben sich (vgl. Gleichung für die Definition):
calculate
exp
ectations,
benötigen
die
abgeleiteten
aktiv
log)):
log(
log(2
log(
log
log(
(208)
with
log(2)
log(2
log(2). So log(2 log( (209) wo log die ultiv ariate digamma-Funktion ist. die Ableitung aktiv w.r.t. Bitte beachten Sie, dass Eqns. 196-202 bedeutet i,i (2( und i>j i,j j,j j,i,i,i,j,k,k,k (210) i,j i,k,k,k,k (211) i,j k,l i,k,l i,l j,k (212) Mit der Form ula von [2], so finden Sie log(m,n m,n m,n m,n m,n m,k n,k (213) log(l (214) log(m,n m,n n,k,k (215) Die ausreichenden Statistiken des ultiven Gaussischen Forms sind (l) ectorisierten Formdreieck (216)) diagnostisch (217) diagnostisch (218) (219) Die zweite Ableitung kann ähnlich leichter automatische Diagnose erhalten werden.
The
exp
Ectation
die
ausreichenden Statistiken
können berechnet
werden
from
Gleichung 57. bereits berechnet (Gleichung 202). Die Oberflächenintegral annisiert, da die Dichte normalisiert werden muss.
see
also
the
Jacobian
Die
Bemühungen
um eine
geeignete Neuordnung
der
Versucht
diagonal
zu
finden
diag(
(222)
and
lik
ewise
for
4.5.1
Univ
ariate
Gauss-Gauss-Gamma trivial,
see
Zufällige
Identifikationen,
die
sehr
nützlich
sind
Decomp
osition
Kullbac
k-Leibler div
ergence
for
multiv
ariate
Gaussians: let
(223)
Multivariate
Gaussische
Verteilungsstandardform
ex-streng
ositiv
halbbbestimmt und
symmetrisch
diag(
lt(
diag(
lt(
constrain
s.t. os.semidef. Ex-diag. log. log. log. log. diag. diag. diag. diag. lt. lt. able Multivariate Gaussian Verteilung und konjugate Gauss-Wishart vorzuschließen Ultivariate Gaussian Die bedingte Verteilung gibt dann auch Ultivariate Gaussian (siehe [2]): (224) (225) (226) Annahme hatte eine vorläufige Verstärkung für den Abbau des Flügels (tilde deutet auf Ariationsparameter): (227) die in der bedingten Gaussian-Verteilung verallgemeinert wird, da es sich um freie Ariationsparameter handelt.
Beachten
Sie
die
Zerfallung
des
Flügels
prop
ert
the
KL-div
ergence, whic
follo
directly
from
its definition:
(228)
Mit
Hilfe
der Verteilungen wird
der
zweite
Begriff
Die
rechte
Seite
gibt
die
usual
expression for
the
KL-div
ergence
Und
die
letzten Gaussischen:
dim[
log(
log
(229)
and
the
first
term
dim[
log(
log
+tr
(230)
Dieser
Ausdruck
null
if:
Null-Auslösung
kann
nicht hergestellt
werden.
Ich
habe
die
Ansatz gemacht,
weil die
KL-div
ergence
ositive, for
its
exp
Ectation Null,
hat
Null
für
alle
die
ausdrückliche
Repräsentation
erfordert
die
durchschnittliche
Projektionsmatrix Referenzen
[1]
C.M. Bishop. Musterignition und Machine arning Springer, New ork, 2007. [2] etersen und Pedersen. Die Matrix okb ersion 20121115, ttp://www.math.u aterlo o.ca/ olk wi/matrixco okb.p [3] A.T. James. Distributions Matrix ariates und atent ots Derive Normal Samples Ann.