Regression

Neue Frage »

Amlatan Auf diesen Beitrag antworten »
Regression
Hallo allerseits,

ich brauche ein wenig Hilfe für meine Diplomarbeit. Bin mittlerweile schon richtig verzweifelt.

Und zwar möchte ich zeigen, dass zwei Datenreihen zusammenhängen bzw. der eine Datensatz den anderen bedingt. Um dies zu zeigen berechne ich das Bestimmtheitsmaß und möchte dieses dann durch einen t-Test auf Signifikanz prüfen (dieses Vorgehen wurde zumindest auf etlichen Seiten empfohlen).

Ich hab mit Hilfe von Excel (und SPSS - Ergebnisse sind die gleichen) "auf gut Glück" einfach mal eine Regression durchgeführt und versuche nun seit Tagen, die Ergebnisse zu interpretieren.

Mein zweites Problem (eigentlich eher das erste) ist die Frage:
- ob der t-Test dafür überhaupt geeignet ist bzw. überhaupt anwendbar ist
- ob ich dafür nen 1 oder 2-seitigen Test benötige
Ich vermute "Ja, ist anwendbar, da ich normalverteilte ZV hab" und "2-seitig, da meine Alternativypothese ein 'ungleich' beinhaltet".

Aber erstmal zu den Datenreihen. Es handelt sich dabei um relative Bewertungen von Lotterien.
Variable1: 1,61 ; 1,29 ; 1,09 ; 1,18 ; 1,44 ; 1,01 ; 0,75 ; 0,43 ; 0,45 ; 0,32 ; 0,12
Variable2: 1,55 ; 1,33 ; 1,51 ; 0,88 ; 1,43 ; 0,89 ; 0,68 ; 0,55 ; 0,27 ; 0,28 ; 0,39

Excel liefert unter anderem als Ergebnis der Regression: (hab das Excel-Sheet auch als Dateianhang hinzugefügt)
Bestimmtheitsmaß: 0,837923695
Standardfehler: 0,210194927
Beobachtungen: 11

t-Statistik: 0,629362173 bzw. 6,821246221 (zweiter Wert = Variable 1)
P-Wert: 0,54475 bzw. 7,7E-05

Was bedeutet der P-Wert? Ist das die Wahrscheinlichkeit, die Nullhypothese (=Daten sind völlig zufällig) abzulehnen, obwohl sie zutrifft? Wäre dann das Ergebnis, dass die beiden Datenreihen hochsignifikant zusammenhängen?

Schon mal vielen Dank im Voraus. Ich bin froh über jede Hilfe...
Zahlenschubser Auf diesen Beitrag antworten »
RE: Regression
Hallo!

Also ohne zu wissen, was die Datenreihen sind, lässt sich nur eine statistische Aussage treffen, dabei kann aber auch rauskommen, dass die Geburtenrate und die Anzahl der Störche hoch korreliert sind. (Bringt der Storch doch die Kinder???)

Was sind also "relative Bewertungen von Lotterien" und wie hängen die Datenpunkte zusammen?

Übrigens ist dein Ergebnis recht miserabel, weil nur die Konstante signifikant ist und die andere Variable nicht (welche ist das überhaupt???) und außerdem komme ich auch nicht auf deine Ergebnisse?!
Amlatan Auf diesen Beitrag antworten »

OK, die Daten zu erklären wird ein bisschen aufwendiger...

Ich untersuche die Bewertungen von Lotterien, bei denen man mit Wkeit x 10.000 Euro gewinnt und mit Wkeit (100-x) 0 Euro bekommt. x nimmt dabei die Werte 1%, 2%, 5%, 10%, 20%, 50%, 80%, 90%, 95%, 98%, 99% an.
Über das Bewertungsverhalten solcher Lotterien gibt es ein paar Theorien, aber ich habe die Wahrscheinlichkeiten jetzt graphisch dargestellt in Form einer Punktewolke. Das heißt ich habe eine zufällige Punktewolke mit 1000 Punkten erstellt, von denen x % der Punkte Rot gefärbt sind (also die Gewinnwahrscheinlichkeit repräsentieren) und der Rest blau gefärbt ist. Nun möchte ich wissen, ob und wie sich das Bewertungsverhalten verändert, wenn die Wkeiten graphisch dargestellt werden.

Um mit einem Blick die Bewertungsunterschiede zwischen einer Punktewolken-Lotterie und einer normalen Lotterie (bei der die Wkeiten gegeben sind) erfassen zu können, hab ich die "Relative Lotterie-Bewertung" gebildet, d.h:
Bewertung (Punktewolke) / Bewertung (normale Lott.).
Ein Wert von 1 bedeutet, dass beide Lott. genau gleich bewertet wurden; Werte > 1 sagen aus, dass die Punktewolke höher bewertet wurde, usw. (Dies sind die Werte der Variable2; der erste Wert ist der MW aller Lotterie-Bewertungen mit Gewinnwahrscheinlichkeit 1%, der zweite der MW aller Lott.Bewertungen mit Wkeit 2%, usw)

Neben der Bewertung der Lotterien sollten die Probanden schätzen, welche Wahrscheinlichkeiten sie bei der dargestellten Punktewolke vermuten. Das sind dann auch schon die Werte von Variable1, die sich berechnen aus:
Geschätzte Wahrscheinlichkeit / tatsächliche Wahrscheinlichkeit.
Der Wert 1 sagt also aus, dass die Wkeit genau richtig geschätzt wurde; bei Werten >1 wurde eine größere Wkeit geschätzt als tatsächlich vorliegt.

Ich würde nun gerne sagen können: Eine höhere Einschätzung der Wkeit impliziert eine höhere Bewertung der Lotterie. Dies würde man ja intuitiv für "wahr" halten mit der Überlegung: Wenn ich bei der Punktewolke die 10% wie 13% wahrnehme (die Wkeit also um 30% überbewerte), dann bewerte ich auch die Punktewolken- Lotterie um 30% höher als eine normale Lotterie, bei der die 10% vorgegeben sind.

Jetzt will ich das nur noch mathematisch zeigen und genau damit hab ich meine Probleme. Eine längere Recherche im I-Net hat ergeben, dass ich dafür eine Regressionsanalyse brauche. Jedoch sagt das Bestimmtheitsmaß alleine eigentlich gar nichts aus sondern muss auf Signifikanz überprüft werden, damit eine Aussage getroffen werden kann. Für den Signifikanztest wird bei wenig Daten immer der t-Test empfohlen. Und bei dem verzweifel ich bzw. bin ich zu doof für.

Die Daten hab ich erhalten, indem ich bei Excel unter "Analyse- Funktionen" die Regression gewählt hab. Den Rest hat Excel gemacht. SPSS hat mir aber die gleichen Daten ausgespuckt. Wenn ich allerdings in Excel unter Analyse- Funktionen einen "Zweistichproben t-test" wähle, erhalte ich andere Daten, die ich aber ebenso wenig interpretieren kann und wo ich im Endeffekt noch weniger weiß, was das eigentlich ist und was da gemacht wird. traurig
AD Auf diesen Beitrag antworten »
RE: Regression
Zur Bedeutung des p-Wertes verweise ich an kompetente Stelle:

http://de.wikipedia.org/wiki/P-Wert

Bei der Regression hier gehören diese p-Werte zu Tests mit der Nullhypothese, ob der entsprechende Koeffizient gleich Null ist. Eine Ablehnung bedeutet also, dass der Koeffizient signifikant von Null verschieden ist, d.h., bedeutsam für das Modell ist. Bei deiner linearen Regression hier bedeutet das:

Zitat:
Original von Amlatan
t-Statistik: 0,629362173 bzw. 6,821246221 (zweiter Wert = Variable 1)
P-Wert: 0,54475 bzw. 7,7E-05


Die 0.54475 bedeuten, dass der Koeffizient - wohl das Absolutglied der Gerade - nicht signifikant ist. Dagegen weisen die 7.7*10^(-5) auf eine deutliche Signifikanz des anderen Koeffizienten - des Geradenanstiegs - hin.

Soll also heißen: Die berechnete Regressionsgerade unterscheidet sich nicht signifikant von einer Geraden durch den Ursprung.
Zahlenschubser Auf diesen Beitrag antworten »
RE: Regression
Hallo!

Arthur, klar, du hast Recht, ich hatte verstanden „Variable 1“ = „Variable, die überall 1 eins ist“.

Ich sehe allerdings keinen Grund, die Mittelwerte deiner Beobachtungen zu bilden, da du damit ohne Grund Freiheitsgrade (Beobachtungen) verlierst, man könnte ggf. sogar darüber nachdenken das Wahrscheinlichkeitsniveau als Regressor mit aufzunehmen um zu testen, ob bei unterschiedlichen Wahrscheinlichkeiten die Wahrnehmung differiert. (Ich hatte auch Entscheidungstheorie im Studium.) Allerdings sehe ich ein Problem bei deiner Datenerhebung, deine Punktwolke lässt nämlich einigen Spielraum für Interpretation und Manipulation!

Übrigens empfehle ich dir zumindest etwas zum Thema „odd ratio“ zu lesen, da dies hier ggf. angemessen ist – dann wäre es allerdings logistische Regression und damit wird es kompliziert…

Zu deinem Signifikanztest. Der Zweistichprobentest ist hier völlig falsch am Platz und Arthur hat auf den p-Wert ja schon geantwortet.
Amlatan Auf diesen Beitrag antworten »

Vielen Dank erstmal für die Antworten.

Wenn ich Arthur richtig verstehen, dann hab ich doch ein verwertbares Ergebnis erzielt mit folgenden Interpretation:
Wenn sich meine Regressionsgerade nicht signifikant von einer Geraden durch den Ursprung unterscheidet, so bedeutet das doch auch, dass aus einer Erhöhung der unabhängigen x-Variable um z% eine Erhöhung der abhängigen y- Variable um z% folgt. Somit hab ich doch meinen (gewünschten) Zusammenhang. Oder hab ich das falsch interpretiert?

Und nochmal zum Zweistichprobentest. Das der zur Prüfung der "Qualität" der Regression keinen Sinn macht, hab ich mittlerweile nachvollzogen. Aber ich könnte doch mit diesem Test folgende Hypothese testen:
H0: Die zwei Variablen sind gleich, d.h. Var1 - Var2 = 0
Ha: Die zwei Variablen unterscheiden sich, d.h. Var1 - Var2 ungleich 0
Als Ergebnis würde ich erhalten, dass H0 mit großer Wahrscheinlichkeit (97%) nicht abgelehnt werden kann. Das ist doch auch eine Aussage (wobei sie auch ziemlich dürftig ist... Augenzwinkern ).
Oder kann ich die beiden Hypothese auch umdrehen?

Den Mittelwert hab ich genommen, weil die Daten der einzelnen Personen viel zu stark voneinander abweichen. Ich müsste dann die Probanden erst in Gruppen einteilen. Ausserdem hat der Professor seine Zustimmung gegeben...
Mit andere komplexen Tests will ich mich in diesem Zusammenhang auch gar nicht weiter beschäftigen, da dies nur die anderen Ergebnisse "abrunden" soll.
 
 
Zahlenschubser Auf diesen Beitrag antworten »

Nur interessehalber, welchen Lehrstuhl vertritt dein Prof.? Also wofür in welchem Fachbereich?

Wenn er es abgesegnet hat, meinetwegen, mir fallen wie schon geschrieben, gleich einige Kritikpunkte auf, wobei ich deine Arbeit sonst nicht kenne...
Amlatan Auf diesen Beitrag antworten »

Psychologie. Freude
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »