Bestimmtheitsmaß

Neue Frage »

Britta22 Auf diesen Beitrag antworten »
Bestimmtheitsmaß
Meine Frage:
Hallo zusammen,
ich habe eine Regressionsanalyse durchgeführt und hier den Korrelationskoeffizienten und das Bestimmtheitsmaß r, was bei 0,03 liegt. Jetzt ist meine Frage, was sagt das Bestimmtheitsmaß genau aus? Heißt es nur, dass kein Zusammenhang besteht oder auch dass sich die Regressionsanalyse nicht eignet für die Untersuchung dieses Zusammenhanges?
Ich wäre Euch echt dankbar, wenn Ihr mir helfen könntet. Sitze nämlich schon ewig an dieser Arbeit und habe keine Ahnung, ob das richtig ist, was ich hier mache...

Meine Ideen:
B=r², das Bestimmtheitsmaß gibt den Anteil der tatsächlichen Varianz des Merkmals y an, der durch das Modell erklärt wird.
Cel Auf diesen Beitrag antworten »
RE: Bestimmtheitsmaß
Zitat:
Original von Britta22
... und hier den Korrelationskoeffizienten und das Bestimmtheitsmaß r, was bei 0,03 liegt.


Wo hast du das Maß her? Optimal wäre nämlich eines in Höhe von 1, siehe Wiki. Die meisten Programme wie SPSS oder auch Excel, glaube ich, spucken den Wert von 1-R² aus. Und hier wäre 0,03 ganz gut.
mYthos Auf diesen Beitrag antworten »

@Cel

Nein, das entspricht so nicht den Tatsachen. Bei Excel weiss ich es, ich habe schon genug Regressionen damit gerechnet. Je näher der Korrelationskoeffizient und damit auch das Bestimmtheitsmaß an 1 liegt, desto besser ist die Übereinstimmung.
0,03 ist demnach schlecht.

[attach]16602[/attach]

Es muss auch hier im Board schon einige Thread dazu geben ...

mY+
Cel Auf diesen Beitrag antworten »

OK, danke mYthos. Ich hab gerade noch mal in meine Unterlagen geguckt: In SPSS werden auch die Werte von 1- R² ausgegeben, allerdings besteht keine Verwechsgefahr (wie ich zunächst dachte).
Britta22 Auf diesen Beitrag antworten »

Hallo,

heißt das denn jetzt, dass einfach kein Zusammenhang besteht, oder das sich die Regressionsanalyse keine Aussage treffen kann. Wenn diese keine Aussage treffen kann, was kann man denn dann machen?
Huggy Auf diesen Beitrag antworten »

Das Bestimmtsmaß misst nur den linearen Zusammenhang. Bei einem Bestimmtheitsmaß gleich oder nahe Null kann durchaus ein nicht linearer Zusammenhang bestehen.

Du solltest dir die Daten plotten. Vielleicht gibt dir das Ideen für einen eventuellen nicht linearen Zusammenhang. Den kann man dann mit verallgemeinerter linearer Regression oder mit nicht linearer Regression untersuchen.
 
 
mYthos Auf diesen Beitrag antworten »

Gib bitte einmal die Messreihe bekannt, dann können wir weitersehen.

mY+
Britta22 Auf diesen Beitrag antworten »

Hier sind meine Daten, wobei x die Anzahl an Verträgen widerspiegelt und y die Distanz. Es soll untersucht werden inwiefern sich die Distanz auf die Verträge auswirkt. Meine Frage ist eigentlich nur, wie ich das ganze auswerten soll. Mein Korrelationskoeffizient liegt bei -0,19, d.h. es besteht nur ein schwacher Zusammenhang, aber ich weiß einfach nicht, was ich jetzt in Bezug auf das Bestimmtheitsmaß schreiben soll. Also was ich daraus ableiten kann...
x y
40 13,7
14 48,5
4 447,0
4 87,3
3 517,0
3 470,0
3 102,0
2 17,5
3 294,0
2 643,0
2 108,0
2 87,4
2 371,0
2 589,0
2 191,0
2 41,8
2 12,4
2 589,0
2 343,0
2 237,0
2 77,5
1 519,0
1 589,0
1 179,0
1 343,0
1 190,0
1 343,0
0 108,0
0 412,0
0 190,0
0 334,0
0 500,0
0 102,0
0 190,0
0 37,5
0 175,0
0 400,0
0 12,4
0 643,0
0 17,5
0 46,5
0 968,0
0 108,0
0 13,1

Vielen Dank für die Hilfe!
Huggy Auf diesen Beitrag antworten »

Deine Informationen zur Bedeutung von x und y sind ziemlich dürftig. Und ich vermute mal, darin liegt der Kern des Problems. Es hat den Anschein, dass du dem weit verbreiteten Irrtum unterliegst, man könne irgendwelche Zahlenreihen mit irgendwelchen Formeln auswerten und bekomme dann ein interpretierbares Ergebnis.

So geht das nicht!
Vor die Formel haben die Götter den Gedanken gesetzt.
Erst muss man sich mal Gedanken über die Daten machen, insbesondere welchem mathematischen Modell sie folgen könnten. Dann muss man die Daten entsprechend dem vermuteten Modell aufbereiten. Dann kann man sie entsprechend der Vermutung analysieren.

Dazu folgende konkrete Fragen:

(1) Welche Bedeutung hat die Distanz in deinen Daten? Ist das die geometrische Entfernung?

(2) Welche Bedeutung hat die Anzahl der Verträge für eine gegebene Distanz? Sind das Verträge mit einem Partner in dieser Distanz?
Was bedeutet es, wenn in deiner Tabelle die Einträge [2; 12,4] und [0; 12,4] vorkommen?

(3) Niemand verbietet dir, noch mehr Details zu geben.


Ohne nähere Betrachtung der Bedeutung der Daten folgt jede mathematische Auswertung nur dem GiGo-Prinzip (Garbage in - Garbage out), auf deutsch: Müll rein - Müll raus!
Britta22 Auf diesen Beitrag antworten »

Es geht um einen Messebesuch, die Anzahl der Verträge sind die, die aus der Messe resultieren und die Distanz ist die Entfernung zwischen Unternehmen und Messe.

ich weiß, dass man nicht einfach Daten nehmen kann, ich habe aber diese Aufgabe bekommen und muss hier etwas berechnen... wenn ihr mit den Daten nichts anfangen könnt, könnt ihr mir denn bitte sagen, was ich in Bezug auf das Bestimmtheitsmaß schreiben muss.. Ich schreibe bsp. aufgrund des Korrelationskoeffizienten, dass nur ein sehr geringer Zusammenhang besteht, aber was schreibe ich in Bezug auf das Bestimmtheitsmaß, wenn das sehr gering ist...

Ich muss das wirklich dringend wissen!
Britta22 Auf diesen Beitrag antworten »

Wenn ich schon mal dabei bin,
ich habe die Erwerbsquote von 4 Jahren und möchte den Durchschnitt berechnen, wie kann ich das machen??
Huggy Auf diesen Beitrag antworten »

Zitat:
Original von Britta22
Ich schreibe bsp. aufgrund des Korrelationskoeffizienten, dass nur ein sehr geringer Zusammenhang besteht, aber was schreibe ich in Bezug auf das Bestimmtheitsmaß, wenn das sehr gering ist...

Dir scheint nicht klar zu sein, dass bei der einfachen linearen Regression mit einer unabhängigen Variablen das Bestimmtheitsmaß gleich dem Quadrat des Korrelationskoeffizienten ist. Das Bestimmtheitsmaß gibt dir also nicht mehr Information als der Korrelationskoeffizient, sondern weniger, weil die Richtung der Korrelation dabei verloren geht.

Im übrigen scheint es dir ziemlich egal zu sein, ob deine mathematischen Schlussfolgerungen inhaltlich Sinn ergeben. sonst wärst du mehr auf meine Fragen eingegangen. Mit einigem Vorbehalt, da mir wichtige Informationen über die Bedeutung deiner Daten fehlen, halte ich deine Form der Auswertung für ziemlich sinnlos.
Britta22 Auf diesen Beitrag antworten »

Mir ist schon klar, dass das Bestimmtheitsmaß das Quadrat vom Korrelationskoeffizienten ist, aber wenn es nicht mehr als der Korrelationskoeffizient aussagt, warum gibt es den dann überhaupt?
Ich bin natürlich an deinen Hilfen interessiert, ich bin nur gerade ziemlich am verzweifeln und ich habe diese Daten vorgegeben, d. h. ich muss eine Korrelationsanalyse damit machen und kann hier auch nichts ändern... es tut mir Leid, wenn ich vlt etwas arrogant rübergekommen bin, aber ich bin echt am verzweifeln...
Huggy Auf diesen Beitrag antworten »

Zitat:
Original von Britta22
Mir ist schon klar, dass das Bestimmtheitsmaß das Quadrat vom Korrelationskoeffizienten ist, aber wenn es nicht mehr als der Korrelationskoeffizient aussagt, warum gibt es den dann überhaupt?

Dieser einfache Zusammenhang gilt nur bei der linearen Regression mit einer unabhängigen Variablen. Hat man mehrere unabhängige Variablen, hat das Bestimmtheitsmaß schon eine eigenständige Bedeutung.

Zitat:
Ich bin natürlich an deinen Hilfen interessiert, ich bin nur gerade ziemlich am verzweifeln und ich habe diese Daten vorgegeben, d. h. ich muss eine Korrelationsanalyse damit machen und kann hier auch nichts ändern... es tut mir Leid, wenn ich vlt etwas arrogant rübergekommen bin, aber ich bin echt am verzweifeln...

Du kommst nicht arrogant rüber sondern uninteressiert. Du machst den Eindruck, ich brauche ein Ergebnis. Ob es sinnvoll ist, ist mir egal.

Also noch mal:

Es gibt in deinen Daten zwei Einträge mit derselben Entfernung von 12,4, aber unterschiedlichen Vertragszahlen. wie ist das zu verstehen?

Der erste Eintrag ist (40/13,7). Was bedeutet das? Hat ein einzelner Kunde mit dieser Entfernung zur Messe 40 Verträge abgeschlossen? Gab es 40 Kunden, die alle dieselbe Entfernung zur Messe hatten, die jeweils einen Vertrag abgeschlossen haben?


Die Entfernung ist eine stetige Größe. Macht es da Sinn, die Anzahl der Verträge für bestimmte Entfernungen zu betrachten? Wäre es nicht sinnvoller, die Entfernungen in Klassen zu unterteilen? Z. B. Anzahl der Verträge mit einer Entfernung zwischen 100 und 150 etc?
Britta22 Auf diesen Beitrag antworten »

Hey,
vielen Dank schon mal...
also ich werde nur eine einfache Regressionsanalyse machen, also hat das Bestimmtheitsmaß hier keine weitere Aussage?

40/12,4 bedeutet, dass auf einer messe insgesamt 40 Verträge erzielt werden konnten und die 12, 4 ist die Entfernung von der Messe zum Unternehmen/Hochschule. Wenn da manchmal zweimal 12,4 steht, bedeutet dies, dass die Messe in der gleichen Halle statt gefunden hat...
Bei den Verträgen handelt es sich um Studierende... mit den Klassen für die Kilomter ist auf jeden Fall eine gute Idee, bin mir aber nicht so sicher...weil die Einteilung dann schwierig wird...
mYthos Auf diesen Beitrag antworten »

Das Problem ist, dass von einer falschen Zuordnung der x- und y- Daten ausgegangen wird!

Zitat:
Original von Britta22
Hier sind meine Daten, wobei x die Anzahl an Verträgen widerspiegelt und y die Distanz. Es soll untersucht werden inwiefern sich die Distanz auf die Verträge auswirkt.

Also hängt die Anzahl der Besucher von der Distanz ab und nicht umgekehrt. Daher sind wohl die x- und y- Werte zu vertauschen. Dann ist wenigstens ein halbwegs vernünftiger Verlauf einer Funktion erkennbar. Eine logarithmische Regressfunktion hat noch den besten Korrelationskoeffizienten (0,30).

[attach]16651[/attach]

Welche Hilfsmittel (Rechner, CAS-Progr.) stehen dir eigentlich zur Verfügung?

mY+
Huggy Auf diesen Beitrag antworten »

Zitat:
Original von Britta22
Hey,
vielen Dank schon mal...
also ich werde nur eine einfache Regressionsanalyse machen, also hat das Bestimmtheitsmaß hier keine weitere Aussage?

Das ist richtig.

Zitat:
40/12,4 bedeutet, dass auf einer messe insgesamt 40 Verträge erzielt werden konnten und die 12, 4 ist die Entfernung von der Messe zum Unternehmen/Hochschule. Wenn da manchmal zweimal 12,4 steht, bedeutet dies, dass die Messe in der gleichen Halle statt gefunden hat...
Bei den Verträgen handelt es sich um Studierende... mit den Klassen für die Kilomter ist auf jeden Fall eine gute Idee, bin mir aber nicht so sicher...weil die Einteilung dann schwierig wird...

Allmählich, aber sehr allmählich, lichtet sich das Dunkel.
Zu einer Messe kommen doch sicher Studierende aus verschiedenen Entfernungen. Sind die dann in deiner Tabelle auf verschiedene Einträge aufgeteilt?

Wie sieht denn das Rohmaterial deiner Daten aus? Ich nehme an, es gibt (gab) verschiedene Messen an unterschiedlichen Orten? Zu jeder Messe kamen Studierende aus unterschiedlichen Entfernungen? Ein Teil von ihnen hat dann auf der Messe Verträge abgeschlossen?

Liegt das Rohnaterial der Daten in dieser Form vor oder in welcher? Es muss dir klar werden, dass der Anfang jeder Datenanalyse in einem vernünftigen Modell besteht.


Zur Frage, welche Größe denn von welcher abhängt, kann ich mYthos nur zupflichten.
Britta22 Auf diesen Beitrag antworten »

Hallo,

wenn ich Klassen bilden würde für die Distanz, Bps. 0-100km, 100-200km, wie kann ich diese Werte dann für die Berechnung des Korrelationskoeffozienten verwenden?
Ich hätte dann folgende Werte:
68 0-100
9 100-200
5 200-300
6 300-400
7 400-500
9 500-600
2 600-700
68 bedeutet 68 Verträge und die 0-100 ist die Entfernung...
Nehme ich dann den Mittelwert als y-Variable??

ich brauche wirklich dringend Hilfe!
Britta22 Auf diesen Beitrag antworten »

Hey,
ich habe Eure Einträge übersehen... ich habe mich verschrieben, mit den abhängigen und unabhängigen Variablen... also es soll folgende Hypothese untersucht werden:
Je größer die Distanz, desto geringer ist der Erfolg der Messe.

Also ich habe schon die Distanz als unabhängige Variable verwendet und die Verträge sind die abhängige Variable...

Ich habe leider nur Excel zur Verfügung und weiß auch nicht, wie ich eine logarithmische Regression durchführe...

Die Daten sahen folgendermaßen aus:
Ich habe die Anzahl der Verträge einer Messe und die Distanz von der Messe bis zur Hochschule, die hier als Distanz aufgeführt ist... es wird angenommen, dass die Studierenden dann ebenfalls aus dieser Distanz kommen...
Huggy Auf diesen Beitrag antworten »

Zitat:
Original von Britta22
Ich habe leider nur Excel zur Verfügung und weiß auch nicht, wie ich eine logarithmische Regression durchführe...

Excel ist für solche Untersuchungen mehr als ausreichend. Eine logarithmische Regression (eigentlich ist das eine exponentiale Regression) erhält man mit der Excel-Funktion RKP.

Zitat:
Die Daten sahen folgendermaßen aus: 14/
Ich habe die Anzahl der Verträge einer Messe und die Distanz von der Messe bis zur Hochschule, die hier als Distanz aufgeführt ist... es wird angenommen, dass die Studierenden dann ebenfalls aus dieser Distanz kommen...

Wenn man sich die Daten anschaut, fallen einem die beiden ersten Einträge (40/13,7) und (14/48,5) ins Auge, die signifikant von den anderen Einträgen abweichen. Ohne weitere Information würde man diese Daten als Ausreißer einstufen und für die nachfolgende Analyse ignorieren. Es wäre daher zunächst zu untersuchen, ob es bei diesen Einträgen spezielle Gründe für die hohe Zahl der Verträge gibt. Je nach Ergebnis muss man dann entscheiden, ob man diese Einträge als Ausreißer betrachtet oder nicht.

Wenn man die Daten nach Abstandsklassen unterteilt, ist zu bedenken, wie viele Hochschulen es in einer Abstandsklasse gibt. Es liegt nahe, die Daten dann entsprechend dieser Anzahl zunormieren.


Alles in allem ergibt sich der Eindruck (etwas überraschend), dass die Entfernung keinen signifikanten Einfluss hat, wenn man die beiden potentiellen Ausreißer ignoriert. Es hängt also viel davon ab, ob man diese beiden Daten tatsächlich als Ausreißer einstufen darf.
Britta22 Auf diesen Beitrag antworten »

Hey, vielen Dank für den Hinweis mit der logarithmischen Regression... ja hast recht, es besteht kaum ein Zusammenhang, die beiden Ausreisßer müssen beachtet werden, da es unsere wichtigsten Messen sind... ich glaube aber das ich es jetzt endlich alles verstanden habe... es kann natürlich gut möglich sein, dass ich Euch noch mal befragen muss, aber schon mal vielen, vielen lieben Dank!
Britta22 Auf diesen Beitrag antworten »

Hey,
und schon ist mir wieder was eingefalle, ich muss in meiner Arbeit mehrere solcher Analyse machen... kann ich da eigentlich immer zwischen linearer Regression und logaritkischer wechseln, oder ist es besser immer eine einheitliche zu verwenden??
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »