Logistische Regression

Neue Frage »

Lampe16 Auf diesen Beitrag antworten »
Logistische Regression
Es liegt eine Stichprobe der Schuhgröße x (bereits danach geordnet) von 10 Personen aus Frauen (F) und Männern (M) vor (Minimalbeispiel):

: 34 34 35 36 36 38 40 44 45 46
: F F F F F F M M M M

Daraus sollen die Parameter und der logistischen Regressionsgleichung
mit
geschätzt werden, so dass mit und von der Schuhgröße auf das Geschlecht geschlossen werden kann; genauer: so dass bei Vorgabe einer Schuhgröße die Wahrscheinlichkeit für "F" angegeben werden kann.

Meine Frage: Ich weiss nicht, wie ich aus der Stichprobe die -Werte bekomme. Ist für Frauen 0.6 und für Männer 0.4
richtig (Anteile in der Stichprobe)? In allen Artikeln, die ich gelesen habe, stand dazu nichts.

Die am Ende gesuchte Wahrscheinlichkeit ist jedenfalls durch

mit

zu berechnen.

Edit 1
Meine obige Vermutung funktioniert nicht. Neuer Anlauf: Für M setze ich und für F mit z. B. statt null, um numerische Schwierigkeiten mit der Abweichungsquadratsummen-Minimierung zu vermeiden.

Edit 2
Damit genauer zu sehen ist, was ich da treibe, hänge ich einen Scilab-Code an:
code:
1:
2:
3:
4:
5:
6:
7:
8:
9:
10:
11:
12:
13:
 Eps=1e-6;   
 F=1-Eps; // p-Wert bei Frau   
 M=Eps;  // p-Wert bei Mann   
 x=[34 34 35 36 36 38 40 44 45 46]; //Schuhgrößen    
N=length(x); //Umfang der Stichprobe        
p=[F F F F F F M M M M]  //Normale Füße    
//p=[M M M M M M F F F F]  //Rehmänner und Elefantenmädchen
logitVONp=log(p./(1-p)); //logit(p)    
[b,a,sig]=reglin(x,logitVONp)//Lineare Regression der transformierten p-Werte        
x_=25:0.1:60; //x-Bereich für Graphik  
ehoch_=exp(a+b*x_); //Zwischengröße   
pdach_=ehoch_./(1+ehoch_); //Wahrsch. für Frau bei x   
xdel(); plot(x,p,"or",  x_,pdach_,"b")
Huggy Auf diesen Beitrag antworten »
RE: Logistische Regression
Man könnte a und b mit der Maximumlikelihood-Methode numerisch bestimmen. Ein Versuch gab bei mir Werte, die praktisch zu einer Stufenfunktion führen, was angesichts der klaren Trennung von F und M in der Stichprobe nicht verwunderlich ist
Lampe16 Auf diesen Beitrag antworten »
RE: Logistische Regression
Danke Huggy,
ich hatte gelesen, dass man bei der logistischen Regression die ML-Methode zur Optimierung von a und b nimmt. Least-Square kann aber auch nicht ganz falsch sein. Deshalb frage ich nochmal nach: Ist meine Vermutung laut Edit 1, was man für einsetzen muss, einigermaßen i. O.? Da liegt meine eigentliche Schwierigkeit.

Das plot-Ergebnis nach Edit 2 erscheint mir plausibel.
Huggy Auf diesen Beitrag antworten »
RE: Logistische Regression
Was soll denn 0,6 und 0,4 mit den Wahrscheinlichkeiten für Mann und Frau zu tun haben? Das sind doch nur die Anteile von Frau und Mann in der Stichprobe. Die Schuhgrößen sind da gar nicht drin. Es erscheint mir auch schwierig, unmittelbar aus der Stichprobe beobachtete Wahrscheinlichkeiten zu definieren. Aber mit der logistischen Regression bin ich nicht wirklich vertraut. Mit der ML-Methode hat man das Problem nicht. Die Wahrscheinlichkeiten sind durch den logistischen Ansatz definiert. a und b sind dann so zu bestimmen, dass die Wahrscheinlichkeit für die beobachtete Stichprobe maximal wird.
Lampe16 Auf diesen Beitrag antworten »
RE: Logistische Regression
Zitat:
Original von Huggy
Was soll denn 0,6 und 0,4 mit den Wahrscheinlichkeiten für Mann und Frau zu tun haben?


Nix! Das habe ich ja mit Edit 1 meines Startbeitrags auch schon zurückgerudert. Seitdem vermute ich, wie dort formuliert, bin darin aber immer noch unsicher.

Für die im Code angegebenen Daten errechne ich als Regressionskoeffizient b=-4.66 und als Achsabschnitt a= 185.48. Hast Du bei Deiner Rechnung mit ML etwas Ähnliches raus?
Huggy Auf diesen Beitrag antworten »
RE: Logistische Regression
Das Edit hatte ich überlesen.

Mein Ergebnis ist schon anders. Ich habe a = -4839 und b = 124. Die anderen Vorzeichen haben nichts zu bedeuten. Bei mir ist Mann = 1 und Frau = 0. Bei deinen Zahlen kommt der steile Anstieg bei ca. x =33. Das passt doch nicht. Der muss doch etwa bei x = 39 liegen. Hier ein Vergleich der Ergebnisse. Die Kurve mit a = -39 und b = 1 war mein geratener Anfangswert für die numerische Lösung.

[attach]25908[/attach]
 
 
Lampe16 Auf diesen Beitrag antworten »

Moin Huggy,
vielen Dank für die Antwort! Im Moment muss ich was anderes machen, werde aber auf das Thema bald zurückkommen. Ich habe mich erstmals an der Statistiksoftware "R" versucht. Vielleicht kennst Du die besser. Auf jeden Fall bleibe ich bei der Sache. Bis dann.
Huggy Auf diesen Beitrag antworten »

Mit R und sonsiger spezieller Statistiksoftware kenne ich mich überhaupt nicht aus. Ich habe Mathematica benutzt.

Bei diesem Datensatz gibt es kein Maximum für die Likelihood. Das Maximum wäre eine echte Sprungfunktion, die sich aber mit dem logistischen Ansatz nur beliebig annähern lässt. Die Werte, die Mathematica ausgespuckt hat, sind die, bei denen es das Programm aufgegeben hat, noch besser zu werden. Das Ergebnis unterscheidet sich ja auch numerisch praktisch nicht mehr von einer Sprungfunktion.
Lampe16 Auf diesen Beitrag antworten »

Ich habe in einem Skript der Uni Münster ein Beispiel mit Ergebnisbild gefunden und mit Least Square - wie zuvor - nachgerechnet.

Der Code war:
//Logistische Regression, Männer mit "1" codiert
Eps=1e-10;
F=Eps; // p-Wert bei Frau
M=1-Eps; // p-Wert bei Mann
x=[159 161 162 163 165 177 179 180 182 184 185];//(Körper-)Größe
N=length(x); //Umfang der Stichprobe
p=[F F F F F M M M M M M]//W. für Größe
logitVONp=log(p./(1-p));
[b,a,sig]=reglin(x,logitVONp)//Lineare Regression der transformierten p-Werte
xdel();
x_=155:0.3:190;//x-Bereich für Graphik
ehoch_=exp(a+b*x_);//Zwischengröße
pdach_=ehoch_./(1+ehoch_);//Wahrsch. für Mann bei x
plot(x,p,"or", x_,pdach_,"b")
xtitle(...
"Logistische Regression, 5 FRauen, 6 Männer","Körpergröße x","Wahrscheinlichkeit P für ""Mann""")

Mein plot ist im Rahmen der Liniendicke identisch mit dem Uni- Bild. Damt gebe ich mich zufrieden, auch wennn mein Ansatz ziemlich schmutzig ist, indem ich nur aus numerischen Gründen 1-Eps nehme, wo 1 hin gehört.

Mit Maximum-Likelihood komme ich gar nicht klar: Ich weiß nicht, wie ich die Wertepaare der Stichprobe in den Regressionsansatz reinbringen soll.
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »