Inferenz von Zuordnungswahrscheinlichkeiten in Bayesian-Mixture-Models

Neue Frage »

thomasbayes Auf diesen Beitrag antworten »
Inferenz von Zuordnungswahrscheinlichkeiten in Bayesian-Mixture-Models
Hallo Leute!

Dies ist mein erster Post nach längerem "lauern" und stillem mitlesen.
Nun habe ich auch ein konkretes Problem bei dem ich um Hilfe bitte.

Hauptreferenz hierzu ist die Zusammenfassung zu Conjugate Bayesian Analysis von Murphy ("Conjugate Bayesian analysis of the Gaussian distribution" in Google, konnte keine Links posten(?),
https://www.cs.ubc.ca/~murphyk/Papers/bayesGauss.pdf)

Ich arbeite zur Zeit an einem Machine Learning Projekt in dem ich Bayesian Inference für Mixture Models implementieren möchte/muss.

Konkret mühe ich mich mit dem Problem zur Inferenz der "Assignment Probabilities" (Zuordnungswahrscheinlichkeiten auf Deutsch (?)) ab.
Dies ist die Wahrscheinlichkeit dass ein observierter Punkt einer bestimmten Komponente im Mixture Model zugeordnet werden kann.

Diese wird üblicherweise als eine latente Variable modelliert.
Ich will diese hier im Kontext eines Conjugate Modells _analytisch_ bestimmen.
(Ich weiss dass dies normal über (Gibs-) Sampling gelöst wird, ich muss es hier jedoch _analytisch_ tun aufgrund des Kontext des Projektes.)

Dem ist durch blindem Anwenden von Bayes' Rule "beizukommen":

1)


folgt nach Anwendung von den Gesetzen der bedingten Wahrscheinlichkeit und marginalisieren von ("Sum" und "Product Rule" im Machine Learning Jargon)


Mein Modell modelliert die Unsicherheit über sowohl den Mittelwert als auch Varianz eines observierten Datensatzes als Posterior Distribution.
Das ist ein Standardfall in der Bayesian Statistik und es ist bekannt dass es hierzu eine Reihe bestimmter Conjugate Priors gibt.
In meinem Fall handelt es sich um eine
"Normal-Inverse- (NIX)" Verteilung ist (siehe Murphy PDF Seite 11, 5.2)).

----------------

Da ich die Lösung für das gleiche Problem mit einem einfacheren Modell bei dem nur die Unsicherheit über den Mittelwert modelliert wird vorliegen habe möchte ich zunächst das Problem anhand dieses Modells illustrieren.

Für den Fall/Modell in dem nur der Mittelwert unbekannt ist und die Varianz als fix gesehen wird besteht der Conjugate Prior aus einer Normalverteilung (Gaussian). (Der Likelihood ist in beiden Modellen ebenfalls Gaussian, Siehe Murphy Seite 1)

----------------

Nun folgende Überlegungen zu dem (einfacheren) Modell:

Wir können ein Mixture Modell als graphical Model sehen und daher sagen dass das Modell sich faktorisieren lassen lässt als

2)


Der joint über die Datenpunkte lässt sich auch wiederum faktorisieren:

(pa = parents = Elternknoten im graphischen modell des mixture models)

Sodass der volle Joint sich als



ergibt.

Da in diesem Beispiel ein Normal-Normal Modell vorliegt (Prior ist Gaussian/Normal) ergibt sich bei Anschauen eines Datenpunktes folgendes:





wobei

der Likelihood ist.

( ist ein binärvektor in dem nur eine stelle gleich 1 sein kann, alle andern 0 und als Indikatorvariable fungiert der die jeweilige Komponente "herauspickt"; demnach und für alle )


ist der Prior

ist die Zuornungswahrscheinlichkeit die wir zunächst als annehmen.

Setzen wir nun den vollen Joint in 1) ein erhalten wir:



Schauen wir zunächst auf den Nenner: 3)



Dank der Conjugacy Eigenschaft sind diese Integrale mittels abstrakter Begründung (ohne das Integral im Eigentlichen Sinne mechanisch zu bearbeiten) zu lösen.
Da Prior und Likelihood Gaussian sind können wir Gebrauch von folgendem Fakt machen:



Die Posteriourverteilung (Produkt aus zwei Gaussians) ist also wieder Gaussian mit "aktualisiertem" Mittelwert und Varianz, skaliert mit einem anderem Gaussian.

Die Integrale in 3) lösen sich also zu:



Der volle Bruch ist damit



Aufgrund der Conjugacy von Normal-Normal fallen also die Zuweisungswahrscheinlichkeiten sehr elegant heraus (jeweils die Skalierung c nach einem "Bayes-Update").
Dieser Gedankengang scheint mir korrekt und gibt in der Implementierung auch korrekte Ergebnisse.

----------------

Nun zu meinem eigentlichen Problem:

Ich möchte die Zuweisungswahrscheinlichkeiten genau wie oben bestimmen, nur dass diesmal das Modell die Unsicherheit über sowohl Mittelwert als auch Varianz modellieren soll, sodass mein Prior hier eine "Normal-Inverse- (NIX)" Verteilung ist (siehe Murphy PDF Seite 11, 5.2)).

Da die NIX Verteilung ein ziemliches Biest ist hoffe ich das ähnliches abstraktes Argumentieren mich ans Ziel bringen können, ohne die Integrale konkret lösen zu müssen.

In Murphy's Dokument werden die algebraischen Transformationen zur Bestimmung der Posterior Distribution die dann nach scharfem Hinsehen wieder eine NIX "Distribution" erkennen lassen unter Auslassung der Normalisierungskonstanten gemacht sodass letztlich nur eine Proportionalität herauskommt. In meinem Fall brauche ich aber auch alle (Normalisierungs-) Konstanten die in die Proportionalität "absorbiert" worden sind und unterschlagen wurden.

Mein Ansatz:

Nach Murphy (Seite 13, Gleichung 141-144) ist die Posterior Distribution wieder eine NIX Verteilung mit aktualisierten Parametern. Das heisst ich könnte den Normalisierungsfaktor hinschreiben da bekannt ist wie er auszusehen hat für eine NIX Verteilung. Was aber mit den restlichen Konstanten?

Wenn ich mir die Argumentation in Murphy (Seite 15, 5.4, Gleichung 168 ff.) zur Bestimmung des Marginal Likelihoods anschaue erscheint mir dies hilfreich.

Wenn ich also wie in 3) die Integrale nehmen würde nur diesmal mit einem NIX-Prior so würde doch gerade übrig bleiben. (Vergleiche Murphy Seite 15, 5.4, Gleichung 168 ff)

(mit als die Normalisierungskonstanten für den Prior und die Normalisierungskonstante vom Likelihood)

Und fliesst als Normalisierungskonstante in die neue NIX Verteilung (Posterior) ein.

Kann ich so argumentieren?

Ich bitte die saloppen mathematischen Begründungen zu entschuldigen. Ich bin von Hause aus kein Mathematiker sondern Informatiker und das Studium ist schon ne Weile her....Das ganze ist im Kontext eines praktischen Projektes.

Ich würde mich sehr freuen wenn mir hier jemand helfen könnte das ganze "stramm zu zurren" und vllt auch etwas formaler aufzuschreiben für den Fall mit NIX Prior (analog zum Normal Prior). Die NIX Verteilung schüchtert mich als Praktiker schon etwas ein mit ihrer erdrückenden Symbolik muss ich sagen.

Danke!
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »