Lineare Regression, warum Vertikalabstände?

Neue Frage »

Amyxy Auf diesen Beitrag antworten »
Lineare Regression, warum Vertikalabstände?
Meine Frage:
Hallo smile
Ich stelle mir die Frage, weshalb man im R^2 für die lineare Regression die Vertikalabstände von den Messwerten zur Regressionsgeraden minimal hält, und nicht die Normalabstände. Kann mir das bitte jemand erklären?

Meine Ideen:
Nach Wahl eines Skalarproduktes (Standardskalarprodukt) im R^n kann man k (falls y durch kx ersetzt werden soll) so wählen, dass k=<x,y>/<x,x> ist, also genau passend zum Fußpunkt des Lotes, was die Minimierung der Normalabstände entsprechen würde. Liege ich damit falsch? Oder gibt es hier einen Unterschied zwischen R^2 und R^n, mit n>2?
Iorek Auf diesen Beitrag antworten »

Simple Antwort: weil es einfacher ist und für die meisten (einführenden) Anwendungen ausreicht. Es gibt aber natürlich auch die orthogonale Regression, was deiner Forderung entspricht. smile
Amyxy Auf diesen Beitrag antworten »

Danke für die Antwort! Freude Die Anforderung an die ersetzenden Punkte der Regressionsgeraden ist aber doch genau jener, den durch die Ersetzung entstehenden "Fehler" möglichst gering zu halten, oder? Da sich die Vertikalabstände und die Normalabstände im R^2 (in jedem nicht trivialen Fall) nicht entsprechen und meinen Überlegungen nach die Normalabstände den kleineren Fehler verursachen würden, erscheint mir die Wahl der Normalabstände willkürlich. Oder ist der Grund jener, dass durch die Wahl der Vertikalabstände die Argumente x1,x2,...,xn im R^2 nicht "verrückt" werden müssen (bei den Normalabständen wäre der neu gewählte Punkt 1y' statt y1 nämlich nicht mehr passend zum Argument x1)
zyko Auf diesen Beitrag antworten »

Beachte, wenn der Vertikalabstand des i-ten Punktes ist, dann gilt
als Normalabstand, wobei der Winkel zwischen der x-Achse und der Regressionsgerade ist.
Damit ergibt sich als Gesamtfehler über die Normalabstände (Quadratsumme )

Hierin ist die Quadratsumme der Verikalabstände; denn die Umrechnung zwischen Vertikal- und Normalabständen beinhaltet für alle Punkte den gleichen Faktor, sodass sich zwar die Quadratsummen unterscheiden aber nicht die Lage der Geraden.
Huggy Auf diesen Beitrag antworten »

Das ist falsch!!!

Die Regressionsgerade ist ja nicht nur durch definiert, sondern auch durch den Achsenabschnitt .

@ Amyxy
Die übliche Regression mit Minimierung der vertikalen Abstände hat rein pragmatische Gründe. Sie ist mathematisch am einfachsten zu handhaben. Na ja, die Minimierung der horizontalen Abstände geht genau so einfach. Siehe auch:

https://de.wikipedia.org/wiki/Einfache_l...essionsrichtung

Die Frage, welche Regression die "bessere" oder "richtigere" ist, lässt sich nur beantworten, wenn bekannt ist, wie die Fehler der Daten statistisch verteilt sind. Die "vertikale" Regression ist in gewisser Hinsicht optimal, wenn die exakt bekannt sind und die Fehler der normalverteilt sind mit Mittelwert 0 (kein systematischer Fehler) und einer von unabhängigen Standardabweichung. Bei Vertauschung der Rollen von und wäre die horizontale Regression oprimal. Sind die und die beide fehlerbehaftet, liegt die optimale Regression irgendwo dazwischen. Die Minimierung des euklidischen Abstandes zur Regressionsgeraden dürfte optimal sein, wenn die Standardabweichungen beider Fehler gleich sind. Das ist aber nur eine Vermutung von mir.
Finn_ Auf diesen Beitrag antworten »

Das ist ein sehr interessantes Thema. Ich würde das als allererstes mit Zufallszahlengeneratoren simulieren. Wenn ihr mit einer bestimmten Verteilung um einen wahren Wert herum streuen lässt, dann kennt ihr ja den ursprünglichen wahren Wert (das ist gerade der Witz an der Simulation). Dann lässt sich auch die tatsächliche Standardabweichung berechnen bzw. die tatsächliche Kovarianz, der tatsächliche Korrelationskoeffizient.

Die Frage ist nun, mit welchem Verfahren der ursprüngliche Zusammenhang für viele Simulationen im Mittel am besten geschätzt werden kann. Darüber hinaus, mit welchem Verfahren Standardabweichung, Kovarianz, Korrelationskoeffizient am besten geschätzt werden. Dabei kann es doch auch eine Rolle spielen ob man y(x) möglichst genau haben will oder x(y).

All das kann möglicherweise davon abhängig sein, was (x, y, beides, ungleichförmig) gestreut wird und mit welcher Verteilung das geschieht.
 
 
Amyxy Auf diesen Beitrag antworten »

Vielen Dank für die ausführlichen Antworten! smile Ich hab mir in den letzten Tagen durch Eure Anregungen auch noch einmal Gedanken darüber gemacht und ich glaube, so langsam werde ich warm mit dem Thema Augenzwinkern
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »