Multiple lineare Regression, Methode der kleinsten Quadrate (OLS)

Neue Frage »

Soziologiestudentin Auf diesen Beitrag antworten »
Multiple lineare Regression, Methode der kleinsten Quadrate (OLS)
Hallo,
ich beschäftige mich gerade für eine Prüfung mit der multiplen linearen Regression und zwar habe ich dabei als Literatur Christof Wolf und Henning Best: "Handbuch der sozialwissenschaftlichen Datenanalyse". Ich schreibe mal auf, welche Buchstaben die in der Regressionsgleichung verwenden, damit wir über das gleiche reden:

y (Dach) = Beta0 + Beta1 x1 + Beta2 X2 + ..... + Betak Xk

Y (Dach) ist dabei Y minus den Fehlerterm, Beta 0 ist der Punkt, wo die Regressionsgerade die Y-Achse schneidet. Die anderen Betas sind die Steigungskoeffizienten.

Das zentrale Problem der Regressionsanalyse ist es ja, die Schätzer für die Regressionskoeffezienten so zu bestimmen, dass die vom Modell geschätzten y-Werte den beobachteten y-Werten möglichst gut entsprechen.
Deswegen versucht man ja die Summe der quadrierten Residuen zu minimieren.

Ich habe nun früher geglaubt, dass man sie aus dem Grund quadrieren würde, weil wenn zum Beispiel ein beobachteter Y-Wert um drei Einheiten nach oben von der Regressionsgerade abweichen würde und ein anderer beobachteter Y-Wert um drei Einheiten nach unten abweichen würde, die Summe davon Null wäre.

In meinem Buch steht aber nun etwas Anderes (und das verstehe ich nicht): "Daher erscheint es zunächst naheliegend, die Regressionskoeffizienten so zu bestimmen, dass die, über alle Beobachtungseinheiten aufsummierten Residuen, als die Summe von Epsilon (Epsilon ist der Fehlerterm), minimiert werden. Dieser Ansatz führt jedoch nicht zum gewünschten Ergebnis, da beliebig viele Mengen Betaj existieren, bei denen die Summe der Residuen gleich Null ist. Dies ist für alle diejenigen Mengen Betaj der Fall, bei denen die vorhergesagten Werte durch den Schwerpunkt der Verteilung, also durch den Punkt (Y quer, x1 quer, x2 quer, ...., xk quer) gehen."

Mal ganz dumm gefragt: Warum ist hier von Mengen Betaj die Rede? Und warum ist die Rede davon, dass sie durch den Schwerpunkt der Verteilung (x1 quer, x2 quer, ...., xk quer) gehen (Y quer verstehe ich).
Kann mir das jemand erklären (bitte in einfachen Worten, da ich keine Mathematikerin bin)? Vielen Dank im Voraus.
minizicke1306 Auf diesen Beitrag antworten »

Hallo Soziologiestudentin,

Als erstes muss ich dich jedoch mal korrigieren:
Zitat:
Die anderen Betas sind die Steigungskoeffizienten.

Das ist zwar mathematisch korrekt, macht aber hier keinen Sinn.
Du hast ja Datenpunkte und Datenpunkte mit Steigung sind etwas merkwürdig. Bei den anderen Betas handelt es sich um Regressionskoeffizienten, die dir angeben, welchen Einfluss die unabhängigen Variablen auf die abhängigen Variablen haben.

Ein kleines Beispiel:
Man gehe davon aus, dass die Farbe (unabhängige Variable) einen Einfluss auf den Absatz (abhängige Variable) eines Autos hat. Mit statistischen Analysen kann man überprüfen, ob die Farbe den Absatz eines Autos beeinflusst und wie stark diese Wirkung des Regressors "Farbe" auf den Absatz ist. Diese Wirkung steckt in deiner Formel in den "anderen Betas", sprich beispielsweise zeigt dir das an wie stark der Einfluss von der unabhängigen Variable auf die abhängige Variable ist.


Da ich leider keine Ahnung habe, inwiefern du das alles schon verstanden hast fange ich jetzt einfach mal von vorne (LINEARE REGRESSION) an zu erklären:

Zuerst einmal hast du eine Datenmenge X, mit den Elementen und eine Datenmenge Y mit den Elementen . Den Zusammenhang zwischen den beiden Datenmengen nimmst du als linear an:
Nun definieren wir x als die unabhänge, y als die abhängige Variable. Von diesen beiden Variablen existieren jetzt jeweils n Messungen/Elemente und , mit .

Nun gibt es allerdings das Problem, dass der funktionale Zusammenhang zwischen x und y nicht exakt festgestellt werden kann, da die Messungen Fehler beinhalten. Dieser Fehler wird allgemein mit Epsilon bezeichnet.

Damit verändert sich nun auch unser Modell (s.o.) zu oder mit den Messungen ausgedrückt . (Hierbei ist Epsilon_i das Residuum der Stichprobe, also die Differenz zwischen der Geraden und den einzelnen Messwerten .
Der Schätzwert ist demnach und daher ist das Residuum .

Zitat:
Daher erscheint es zunächst naheliegend, die Regressionskoeffizienten so zu bestimmen, dass die, über alle Beobachtungseinheiten aufsummierten Residuen, als die Summe von Epsilon (Epsilon ist der Fehlerterm), minimiert werden.

Was nichts anderes bedeutet als:
Die unbekannte Gerade lässt sich nun ermitteln, indem man die Summe der Quadrierten Residuen minimiert und somit die geschätzte Gerade an die unbekannte Gerade annähert. Dazu bestimmt man die Regressionskoeffizienten so, dass minimal wird.

Das leitest du dann partiell ab (partielle Ableitung Teil 1/2;partielle Ableitung Teil 2/2) und setzt dann die erste Ableitung gleich Null.

Daraus erhälst du dann

und .

Dabei sind bzw. die Mittelwerte der Messungen/Elemente bzw. . ist die Varianz zwischen den und und ist die Varianz aller .
(falls dir das nicht klar ist: Die Wurzel aus der Varianz (=Standardabweichung) sagt dir im Grunde um wieviel die Werte im Durchschnitt um den Mittelwert verstreut liegen)

Das Quadrat hat dabei den Sinn, dass keine neg. Ergebnisse auftauchen und damit Werte, die weit weg vom Mittelwert liegen stärker ins Gewicht fallen, als diejenigen, die nah am Mittelwert (=im Schwerpunkt der Verteilung) liegen (bei diesen ist die Summe der Residuen null, da die infinitesimal kleinen Residuen quadriert werden und somit nahezu Null sind):
Zitat:
da beliebig viele Mengen Betaj existieren, bei denen die Summe der Residuen gleich Null ist. Dies ist für alle diejenigen Mengen Beta_j der Fall, bei denen die vorhergesagten Werte durch den Schwerpunkt der Verteilung,



Für die MULTIPLE LINEARE REGRESSION ist es im Prinzip analog, außer, dass es sich eben jetzt um Vektoren und Matrizen handelt Augenzwinkern
Demnach ist auch das Ergebnis für die Regressionskoeffizienten ein Vektor smile

Auch wenn es sehr ausführlich ist, hoffe ich, dass ich dir helfen konnte. Bei Fragen melde dich einfach nochmal.

Liebe Grüße
Lampe16 Auf diesen Beitrag antworten »
RE: Multiple lineare Regression, Methode der kleinsten Quadrate (OLS)
Hallo minizicke1306,
ich versuche einfachere Erklärungen.

Zitat:
Original von Soziologiestudentin
Ich habe nun früher geglaubt, dass man sie aus dem Grund quadrieren würde, weil ... die Summe davon Null wäre.

Bleib dabei! Du denkst richtig.

Zitat:
Warum ist hier von Mengen Betaj die Rede?

Lass das Wort "Menge" einfach weg. Dann wird es verständlicher. Ein ähnliches Beispiel: Wenn ein Mathematiker sagt, "Ich habe 2 Finger" kann er doch ein guter Pianist sein. Sonst hätte er gesagt: "Ich habe maximal 2 Finger."


Zitat:
Und warum ist die Rede davon, dass sie durch den Schwerpunkt der Verteilung (x1 quer, x2 quer, ...., xk quer) gehen (Y quer verstehe ich).

Zeichne Dir mal ein -Diagramm mit nur vier Punkten auf den Ecken eines achsparallelen Rechtecks auf und lege irgend eine Gerade durch seinen Mittelpunkt (=Schwerpunkt): Die Summe der Abweichungen ist immer gleich null.

Oder etwas mathematischer: Wenn Du die Summe der Abweichungen (statt der Summe der Abweichungsquadrate) zum Kriterium machtest, könntest Du sogar verlangen, dass diese gleich null ist, was ja "besser" als das Minimum wäre.

Nur durch Umformung kommst Du auf

womit der Schwerpunkt ins Spiel gekommen ist.
Zur Lösung könntest Du jetzt a oder b beliebig wählen, und erst dann läge der andere Parameter fest. Die obige graphischen Erklärung besagt dasselbe.
Zellerli Auf diesen Beitrag antworten »

Ich will garnicht der dritte Koch sein, sondern nur als Hilfe:

Die Terme in LaTeX (nachvollziehen durch copy+paste):

oder z.B.

Und dann noch etwas zu der Vorstellung, dass man (nur) quadriert, weil sich die Fehler sonst zu Null wegheben können:
Die Aussage stimmt ja, aber die Methode die Fehler so zu nehmen, dass sie sich möglichst gut zu Null addieren ist auch eine legitime - nur eben nicht eindeutige (siehe Ende des Beitrags von Lampe16). Das heißt das ist nicht grundsätzlich ein unerwünschter Nebeneffekt, sondern eine wichtige Eigenschaft eines zufälligen Fehlers.
Deshalb kann man alternativ auch sagen die quadrierten Fehler sollen minimal werden, wobei durch das Quadrieren zusätzlich eine Gewichtung hereinkommt, denn große Abweichungen wiegen dann schwerer als kleine. Damit erhält man dann eine eindeutige Lösung.
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »