Ableitung einer Matrix mit Parametern

15.08.2016, 14:21

Romaxx

Ableitung einer Matrix mit Parametern

Hallo zusammen,

ich habe folgenden Ausdruck:

$\begin{eqnarray*} L = \frac{ND}{2}ln(2\pi) + \frac{D}{2}ln(det(K)) + \frac{1}{2}trace(K^{-1}S) \end{eqnarray*}$ ,

mit

$\begin{eqnarray*} S = YY^T \end{eqnarray*}$ und $\begin{eqnarray*} K = XX^T+\sigma^2I \end{eqnarray*}$ .

Dabei ist $\begin{eqnarray*} X \end{eqnarray*}$ eine Matrix der Dimension $\begin{eqnarray*} N\times D \end{eqnarray*}$ und $\begin{eqnarray*} Y \end{eqnarray*}$ eine Matrix der Dimension $\begin{eqnarray*} N\times q \end{eqnarray*}$ .

Nun soll folgendes gelten:

$\begin{eqnarray*} \frac{\partial L}{\partial X} = -K^{-1}SK^{-1}X+DK^{-1}X \end{eqnarray*}$

Ich kenne folgende Formeln, wobei $\begin{eqnarray*} \theta \end{eqnarray*}$ ein Parameter in der Matrix $\begin{eqnarray*} A \end{eqnarray*}$ ist:

$\begin{eqnarray*} \frac{\partial A^{-1}}{\partial \theta} = -A^{-1}\frac{\partial A}{\partial \theta} A^{-1} \end{eqnarray*}$ ,

$\begin{eqnarray*} \frac{\partial ln(det(A))}{\partial \theta} = trace(A^{-1}\frac{\partial A}{\partial \theta}) \end{eqnarray*}$

Ich komme damit auf:

$\begin{eqnarray*} \frac{\partial L}{\partial x_{ij}} =\frac{D}{2}trace(K^{-1}\frac{\partial K}{\partial x_{ij}}) + \frac{1}{2}trace(-K^{-1}\frac{\partial K}{\partial x_{ij}}K^{-1}S) \end{eqnarray*}$ ,

Ich weiß hier bereits nicht, ob die Ableitung passt.
Ich habe nämlich verschiedene Fälle von Matrizen $\begin{eqnarray*} X \end{eqnarray*}$ und $\begin{eqnarray*} Y \end{eqnarray*}$ in Matlab meine Ableitung mit dem was herauskommen soll getestet und komme nicht auf dasselbe Ergebnis. Es scheint als hätte ich bereits hier Faktoren wie $\begin{eqnarray*} \sigma \end{eqnarray*}$ oder $\begin{eqnarray*} N \end{eqnarray*}$ vergessen, wenn ich beide numerisch vergleiche (durcheinander teile und herumspiele).
Ich brauche keinen genauen Beweis. ich möchte es lediglich nachvollziehen können, ob das so stimmt.

Danke

15.08.2016, 15:11

Romaxx

Auf diesen Beitrag antworten »

Hallo,

also es scheint als hätte ich doch alles richtig gemacht. Habe in Matlab etwas Falsches eingegeben.

Danke für das Nachdenken!

Roman

15.08.2016, 15:31

Romaxx

Auf diesen Beitrag antworten »

Hallo,

eine Frage hätte ich da noch.

Um mit allgemeinen $\begin{eqnarray*} K \end{eqnarray*}$ zurecht zu kommen, wird folgendes vorgeschlagen.

Man soll zuerst nach $\begin{eqnarray*} K \end{eqnarray*}$ ableiten, denn dazu gibt es eine Formel:

$\begin{eqnarray*} \frac{\partial L}{\partial K} = -K^{-1}SK^{-1}+DK^{-1} \end{eqnarray*}$

Diese Formel soll ich nun mit $\begin{eqnarray*} \frac{\partial K}{\partial x_{ij}} \end{eqnarray*}$ mit der Kettenregel verbinden.

Wie sieht das für den oben einfachen Fall aus, dass $\begin{eqnarray*} K = XX^T+\sigma^2I \end{eqnarray*}$ ?
Mir ist hier nicht ganz klar, wie man auf eine einfache Matrixmultiplikation von $\begin{eqnarray*} X \end{eqnarray*}$ von rechts kommt, wenn man die Kettenregel wie gerade eben erwähnt anwendet.
Scheint trivial, ich sehe es aber nicht.

15.08.2016, 21:17

Romaxx

Auf diesen Beitrag antworten »

Hallo,

wer den genauen Wortlaut sehen möchte, kann dies unter:

https://www.google.de/url?sa=t&source=we...aIxu5n1iTux-0mw

Seite 1791 und Seite 1788

Grüße

17.08.2016, 09:59

Ehos

Auf diesen Beitrag antworten »

Du wolltest wissen, wie man die Ableitung $\begin{eqnarray*} \tfrac{\partial L}{\partial X} \end{eqnarray*}$ berechnet, wobei L der Ausdruck (6) in deinem Artikel ist. Dieser Ausdruck $\begin{eqnarray*} \tfrac{\partial L}{\partial X} \end{eqnarray*}$ bezeichnet den ganz normalen Gradienten $\begin{eqnarray*} \nabla L \end{eqnarray*}$ der skalaren Funktion L. So steht es jedenfalls in deinem Artikel im Kapitel 2.3. unterhalb der Formel (6):

<Zitat> "The gradient of (6) with respect to X may be found as..."

Im Kapitel "2.3. Probabilistic PCA..." deines Artikels steht nämlich, dass $\begin{eqnarray*} X=(x_1,...,x_N) \end{eqnarray*}$ ein normaler Vektor ist (keine Matrix, wie du in deinem 1.Beitrag geschrieben hast). Gesucht ist also nicht die Ableitung $\begin{eqnarray*} \tfrac{\partial L}{\partial X_{ij}} \end{eqnarray*}$ nach einem Matrixelement.

17.08.2016, 13:24

Romaxx

Auf diesen Beitrag antworten »

Hallo Ehos,

danke für deinen Beitrag.

Zitat:

In dem Artikel wird von Mehrzahl 'gradients' gesprochen. Es handelt sich bei $\begin{eqnarray*} \frac{\partial L}{\partial X} \end{eqnarray*}$ um mehrere Gradienten.

Zitat:

Im Kapitel "2.3. Probabilistic PCA..." deines Artikels steht nämlich, dass $\begin{eqnarray*} X=(x_1,...,x_N) \end{eqnarray*}$ ein normaler Vektor ist (keine Matrix, wie du in deinem 1.Beitrag geschrieben hast). Gesucht ist also nicht die Ableitung $\begin{eqnarray*} \tfrac{\partial L}{\partial X_{ij}} \end{eqnarray*}$ nach einem Matrixelement.

Wenn du weiter liest findest du $\begin{eqnarray*} X=(x_1,...,x_N)\in\mathbb R^{N\times q} \end{eqnarray*}$ .
Das unterscheidet sich zwar zu meinem ersten Post:

Zitat:

$\begin{eqnarray*} S = YY^T \end{eqnarray*}$ und $\begin{eqnarray*} K = XX^T+\sigma^2I \end{eqnarray*}$ .Dabei ist $\begin{eqnarray*} X \end{eqnarray*}$ eine Matrix der Dimension $\begin{eqnarray*} N\times D \end{eqnarray*}$ und $\begin{eqnarray*} Y \end{eqnarray*}$ eine Matrix der Dimension $\begin{eqnarray*} N\times q \end{eqnarray*}$ .

Hier habe ich mich noch nicht strikt an die Notation im Artikel gehalten, da dies meiner Meinung nach für das Problem keine Rolle spielt (kann mich auch Irren, bin mir aber sehr sicher eigentlich). Hier könnte auch $\begin{eqnarray*} q \end{eqnarray*}$ das $\begin{eqnarray*} D \end{eqnarray*}$ sein und anders herum. Um weiter Verwirrung zu umgehen, richte ich meine Notation nun an dem Artikel aus.
Den Sachverhalt als einzelne partielle Ableitungen nach $\begin{eqnarray*} x_{ij} \end{eqnarray*}$ zu verstehen ist meiner Meinung nach immer noch richtig.

Grüße

18.08.2016, 13:35

Ehos

Auf diesen Beitrag antworten »

Du hast recht. In dem zitierten Artikel wird die "Matrix-Ableitung" $\begin{eqnarray*} \tfrac{\partial L}{\partial X_{ij}} \end{eqnarray*}$ des folgenden Terms berechnet

$\begin{eqnarray*} L=-\tfrac{DN}{2}\cdot\ln(2\pi)-\tfrac{D}{2}\cdot \ln[\det(K)]-\tfrac{1}{2}\cdot Tr(K^{-1}S) \end{eqnarray*}$

Abkürzung:
$\begin{eqnarray*} K=XX^T+\tfrac{1}{\beta}I \end{eqnarray*}$
$\begin{eqnarray*} S=YY^T \end{eqnarray*}$

Da der 1.Summand von L konstant ist, sind müssen nur der 2. und 3.Summand berechnet werden.

----------------------------------------------------------------------
2.Summand:
Hierfür benutze folgende Regel, die du selbst bereits genannt hast

$\begin{eqnarray*} \tfrac{\partial}{\partial X_{ij}}\ln[\det(K)]=Tr \left ( K^{-1}\tfrac{\partial K}{\partial X_{ij}}\right ) \end{eqnarray*}$

Diese Regel kann man übrigens leicht herleiten, wenn man alles in demjenigen Koordinatensystem betrachtet, worin die Matrix K diagonal ist.
----------------------------------------------------------------------
3.Summand:
Betrachte alles in in demjenigen Koordinatensystem, worin die symmetrische Matrix $\begin{eqnarray*} XX^T \end{eqnarray*}$ diagonal ist, also $\begin{eqnarray*} XX^T=\begin{pmatrix} \lambda_1 & & \\ & ... & \\ & & \lambda_n \end{pmatrix} \end{eqnarray*}$ . Dann sind $\begin{eqnarray*} K \end{eqnarray*}$ und $\begin{eqnarray*} K^{-1} \end{eqnarray*}$ ebenfalls diagonal

$\begin{eqnarray*} K=\begin{pmatrix} \lambda_1+\tfrac{1}{\beta} & & \\ & ... & \\ & & \lambda_n+\tfrac{1}{\beta} \end{pmatrix} \end{eqnarray*}$
$\begin{eqnarray*} K^{-1}=\begin{pmatrix} \tfrac{\beta}{\beta \lambda_1+1} & & \\ & ... & \\ & & \tfrac{\beta}{\beta \lambda_n+1} \end{pmatrix} \end{eqnarray*}$

Für die Matrixspur bekommt man

$\begin{eqnarray*} Tr(K^{-1}S)=\sum\limits_{k=1}^{n} \tfrac{\beta}{\beta \lambda_k+1}S_{kk} \end{eqnarray*}$

Weil darin nur die Größe $\begin{eqnarray*} \lambda_k \end{eqnarray*}$ von $\begin{eqnarray*} X_{ij} \end{eqnarray*}$ abhängt, erhält man mittels Quotientenregel für die Ableitung der Matrixspur

$\begin{eqnarray*} \tfrac{\partial}{\partial X_{ij}}Tr(K^{-1}YY^T)=-\sum\limits_{k=1}^{n} \tfrac{\partial \lambda_k}{\partial X_{ij}}\tfrac{\beta^2 }{(\beta \lambda_k+1)^2}S_{kk}=-Tr \left [ \begin{pmatrix} \tfrac{\partial \lambda_1}{\partial X_{ij}} & & \\ & ... & \\ & & \tfrac{\partial \lambda_n}{\partial X_{ij}} \end{pmatrix}\begin{pmatrix} \tfrac{\beta}{\beta \lambda_1+1} & & \\ & ... & \\ & & \tfrac{\beta}{\beta \lambda_n+1} \end{pmatrix}^2\begin{pmatrix} S_{11} & ... & S_{13} \\ ... & ... & ... \\ S_{31} & ... & S_{33} \end{pmatrix} \right ] \end{eqnarray*}$

Versuche, das noch zu vereinfachen.

18.08.2016, 14:42

Romaxx

Auf diesen Beitrag antworten »

Hallo Ehos,

danke für deinen Beitrag. Die Vorgehensweise ist interessant.

Du scheinst mit solchen Rechnungen Erfahrungen zu haben. Kannst du mir noch die Vorgehensweise in meinem dritten Post erläutern? Mir ist nicht klar, wie man auch eine einfache Multiplikation von X von links kommt. (Kettenregel anwenden etc.)

Hast du mir zu solchen Ableitungen eine gute Literatur?

Grüße

19.08.2016, 11:43

Ehos

Auf diesen Beitrag antworten »

Die letzten Zeile meines Posts vom 18.08.18 muss irgendwie einen Ausdruck ergeben, worin die Matrix X vorkommt ohne Tr(...). Wie das geht, ist mir auch noch nicht klar.

19.08.2016, 12:58

Romaxx

Auf diesen Beitrag antworten »

Hallo Ehos,

ja, das man auf ein X kommen muss ja, die Vorgehensweise mit der Kettenregel ist für mich aber ominös. Denn dann müsste $\begin{eqnarray*} \frac{\partial K}{\partial X} = \frac{\partial }{\partial X} (XX^T+\sigma^2I)=X \end{eqnarray*}$ sein.

Das macht aber für mich keinen Sinn.

Neue Frage »

Antworten »

Ableitung einer Matrix mit Parametern

Verwandte Themen