Warum kann man eine Hauptkomponentenanalyse durch die Lösung eines Eigenwertproblems berechnen?

Neue Frage »

BlicktNix Auf diesen Beitrag antworten »
Warum kann man eine Hauptkomponentenanalyse durch die Lösung eines Eigenwertproblems berechnen?
Meine Frage:
Hallo liebe Community,

nach Lektüre verschiedenster Quellen von Bortz bis Überla - wobei jeder eine andere Notation und andere Herleitung nutzt - bin ich kurz vorm Verzweifeln und frage an dieser Stelle.

Warum kann man eine Hauptkomponentenanalyse (PCA) durch die Lösung eines Eigenwertproblems berechnen??

Mir ist klar, dass das eine recht "umfangreiche" Frage für so ein Forum ist, aber vielleicht hat ja dennoch jemand eine kompakte Erklärung oder kann auf eine Erklärung verweisen, die möglichst wenige an Vorwissen (insbes. zur Matrixalgebra) voraussetzt.


(Hinweis Cross-/Multiposting: Frage auch bei gutefrage.net gestellt)

Meine Ideen:
Das Vorgehen habe ich folgendermaßen verstanden:
1) Man berechnet die Korrelationsmatrix R zu den beobachteten Datenpunkten (z.B. Ausprägungen von Probanden auf Variablen) berechnet und dann von R die Eigenwerte berechnet.
2) Dann berechnet man die Eigenwerte von R über die charakterische Gleichung von R, d.h. der Entwicklung der Determinanten für die charakterische Gleichung -> führt zu einem Polynom mit p versch. Eigenwerten \lambda, die die charakteristische Gleichung erfüllen.
3) Man berechnet die normierten Eigenvektoren zu den Eigenwerten.

Was nur ein Bruchteil des Problem ist und vielleicht auch falsch.
watcher Auf diesen Beitrag antworten »

Hallo,

ich versuch mich mal an einer Antwort, vermutlich wirds aber daran scheitern:
Zitat:
eine Erklärung verweisen, die möglichst wenige an Vorwissen (insbes. zur Matrixalgebra)
, denn etwas Vorwissen ist schlicht nötig.

Zitat:
Warum kann man eine Hauptkomponentenanalyse (PCA) durch die Lösung eines Eigenwertproblems berechnen??

Bei einer PCA diagonalisiert man die Matrix.
Im standardmäßigen Diagonalisierungsalgorithmus berechnet man zunächst alle Eigenwerte der Matrix (mittels char. Polynom) und diese liefern einem die diagonalisierte Matrix. (Dein Schritt 2). Dein Schritt 3 liefert die Transformationsmatrizen.
Warum tut man das?
Mit der obigen Transformation angewandt auf die Datenpunkte ergibt sich eine Darstellung bei der die Varianz (zumindest im normalverteilten Fall) nur noch in Richtung der (neuen) Achsen liegt. Der Anteil an der Gesamtvarianz jeder Achse entspricht dem entsprechenden Eigenwert (bzw. Wert aus der Diagonalmatrix) durch die Summe der Eigenwerte.
Daher kann man an Hand der Eigenwerte oft eine Dimensionsreduktion dürchführen in dem man die kleinsten EW rauschschmeißt, und dadurch die Varianz nur geringfügig ändert.
BlicktNix Auf diesen Beitrag antworten »

Hallo watcher,

vielen, vielen Dank für deine Antwort smile !

Ich glaube, deine Antwort hat mich - bei allem mangelende Vorkenntnissen - doch dazu gebracht, zu erkennen, welche der allerwichtigstensn Matrixalgebra-Elemente ich mir anschauen sollte und wo der Zusammenhang ist.

Das Folgende habe ich mir also mittlerweile zusammengereimt. Wäre super, wenn du dir das noch einmal anschauen könntest Gott !

1) Das Grundmodell der PCA besagt:
In den beobachteten Variablen X (z.B. von Probanden bearbeitete Aufgaben) kommen die Ausprägungen der Faktoren/Hauptkomponenten der jeweiligen Probanden zum Ausdruck, wobei die "Relevanz" (später: Ladung) eines Faktors für die jeweiliegen Variablen unterschiedliche stark ist:
X = AF "Grundgleichung"
mit
X: Ausgangsdatzensatz beobachteter Variablen,
A: Ladungsmatrix, d.h. Gewichte der Faktoren für die Variablen,
F: Faktorwertematrix, d.h. Ausprägungen der Probanden auf den Faktoren

2) Die Idee der PCA ist, dass die Hauptkomponenten als Linearkombination der gewichteten Variablen dargestellt werden können:
P = VX
mit
P: Hauptkomponentenmatrix,
V: Matrix der Lineargewichte,
X: Ausgandsdatensatz der beobachteten Variablen).

3) Die Kovarianzmatrix S der Hauptkomponenten P lässt sich wie folgt berechnen:


4) Setzt man 2) in 3) ein und formt um, erhält man:

mit
R: Korrelationsmatrix der beobachteten Daten

4) Die Korrelationsmatrix R ist ja eine quadratische, reelle Matrix.
Nun gilt generell in der Matrixalgebra:
Zu jeder quadratischen, reellen Matrix Q (hier: R) kann man ein Skalar und einen Vektor e finden, so dass man - über die charakteristische Gleichung von R und der Entwicklung der Determinanten - die Eigenwerte und die - wenn man sie normalisier - eindeutigen Eigenvektoren der Matrix Q (hier: R) findet. Diese (unkorrelierten) Eigenvektoren bilden eine Einheitsmatrix E, mit der die ursprüngliche quadratische Matrix diagonalisiert werden kann:


allgemein, mit:
E: Einheitsmatrix ()
Q: Quadratische, reelle Matrix

bzw. analog hier in der Hauptkomponentenanalyse:

mit:
V: Lineargewichte der Hauptkomonenten, d.h. Varianzen der Hauptkomponenten
R: Korrelationsmatrix der beobachteten Daten

Finde ich also diese eindeutige Matrix, mit der ich meine Korrelationsmatrix R diagonalisieren kann, habe ich eine Diagonalmatrix, die die einzelnen Varianzen der Hauptkomponenten enthält (, die dann noch der Größe nach sortiert werden müssen, um das Ziel der sukzessiven, maximalen Varianzaufklärung zu erreichen).

Stimmt das so?
(ob V´RV oder VRV´und wie man dann weiter rechnet, hängt wohl davon ab, wie rum die Ausgansdatenmatrix aufgebaut ist - das habe ich "unterwegs" immer durcheinander geschmissen :-/ )

Ich danke für die Hilfe!!
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »