Konfidenzintervall bei abgeschlossener Stichprobe

19.05.2012, 21:40

Wild123

Konfidenzintervall bei abgeschlossener Stichprobe

Meine Frage:
Hallo liebe Community smile

ich habe im Rahmen meiner Bachelorarbeit eine Umfrage durchgeführt.
Dabei haben die Probanden eine Datei von mir bekommen und mussten lediglich angeben, ob Ihnen das Programm für die Zukunft weiterhilft, oder nicht. Also ein einfach Ja/Nein.

Die Grundgesamtheit Betrug dabei N=200 und die Stichprobe n=20
Jetzt haben 18 mit "Ja" geantwortet und 2 mit "Nein". Wäre ja schön, wenn man sagen könnte, das wären dann bei 200, 180 Ja's und 20 Nein's, aber so einfach ist das ja nicht Big Laugh

Ich möchte also im ein Konfidenzintervalls mit einer Wahrscheinlichkeit von 95% angeben. Allerdings habe ich keine Ahnung wie unglücklich

Alle Formeln die ich finde, benötigen Normalverteilung und die habe ich doch hier nicht, oder? Kann ich überhaupt aus den vorliegenden Daten ein Intervall berechnen, oder muss ich gewisse Sachen abschätzen?

Wäre super, wenn mir jemand helfen könnte smile

Bin auch schon froh über einen Tipp in Richtung "Schau dir mal das an".

Vielen Dank smile

Meine Ideen:
steht oben...

20.05.2012, 00:40

frank09

Auf diesen Beitrag antworten »

RE: Konfidenzintervall bei abgeschlossener Stichprobe
Genaue Infos hier:
http://de.wikipedia.org/wiki/Konfidenzintervall_einer_unbekannten_Wahrscheinlichkeit#Clopper-Pearson-Intervall

Ich fasse mal zusammen:
Du suchst den minimalen Anteil an Nein-Sagern unter der Gesamtheit $\begin{eqnarray*} p_u \end{eqnarray*}$
und den maximalen $\begin{eqnarray*} p_o \end{eqnarray*}$ zur Sicherheit von 95%
Die obere Grenze bestimmt man aus
$\begin{eqnarray*} P(X \leq 2; p_o)=B(20;p=p_o;k\leq 2)= 0,025 \end{eqnarray*}$
und die untere Grenze aus
$\begin{eqnarray*} P(X \geq; 2; p_u) =1-B(20;p=p_u;k\leq 1)=0,025 \end{eqnarray*}$

Strenggenommen ist die Stichprobe nicht binomial-, sondern hypergeometrisch verteilt, weil sich der relative Anteil an der Rest-Gesamtheit nach jeder Befragung leicht ändert. So ist z.B.
$\begin{eqnarray*} P(X = 2; p_o)=\frac{{ 200p_o \choose 2 }{ 200(1-p_o)\choose 18 }}{{ 200 \choose 20 }} \end{eqnarray*}$
Ist halt ein wenig aufwendiger. Es gibt für beide Verteilungen online-Rechner und wenn
du es ganz genau haben willst, rechne mit hypergeom. Verteilung.

20.05.2012, 01:21

Wild123

Auf diesen Beitrag antworten »

RE: Konfidenzintervall bei abgeschlossener Stichprobe
Hallo Frank,

danke für deine Antwort. Ich habe mir die Formeln mal angesehen und auch in Excel kurz durchgerechnet, wie es auf wiki vorgeschlagen wird.

Allerdings habe ich das Gefühl, dass ist nicht das, was ich gesucht habe unglücklich

Die Auswertung der Stichprobe ist ja gegeben, also von n=20, 18 "Treffer" (90 %)

Jetzt möchte ich wissen, wie es sich für die Grundgesamtheit verhält, also für die 200 Personen.

Beim Formelwälzen bin ich immer wieder auf Aussagen gestoßen, die in etwa so aussahen:

"Mit einer Wahrscheinlichkeit von 95 % liegt der Anteil an Treffern in der Grundgesamtheit zwischen 70 % und 100%"

Ich habe dazu folgende Formel für die Intervallsberechnung gefunden, welche leider nur für Normalverteilung gilt (siehe Anhang) und bin wie folgt vorgegangen (was sich im nachhinein leider aufgrund der fehlenden Normalverteilung als falsch herausstellte unglücklich

)

a (also eigentlich alpha) ist meine Sicherheit, z.B. 0,95
--> ich brauche "u von 0,975", was ich aus der Normalverteilungstabelle entnehmen kann und 1,96 entspricht.

Das würde bedeuten, dass ich mit 18 Ja's und 2 Nein's folgendes Intervall erhalte (n=20, p=0,9): [0,7685;1,0315]

Vielleicht habe ich aber auch deine Ausführungen nur falsch verstanden...

Danke schonmal smile

20.05.2012, 03:08

frank09

Auf diesen Beitrag antworten »

RE: Konfidenzintervall bei abgeschlossener Stichprobe
Du gehst von p=0,9 aus. In Wirklichkeit kennst du p aber nicht. Der relative Anteil an Nein oder Ja-Sagern in der Stichprobe ist auch gar nicht so wichtig. Du willst den tatsächlichen Anteil an Nein-Sagern unter den 200 so hoch schätzen, dass es zu weniger als 2,5% Wsk zu "nur" 2 Nein-Sagern unter einer 20er-Stichprobe kommt.
Damit hast du deine Obergrenze. Untergrenze entsprechend.

Eine Obergrenze von 103% ist ja offensichtlich Unsinn.

20.05.2012, 12:43

Wild123

Auf diesen Beitrag antworten »

RE: Konfidenzintervall bei abgeschlossener Stichprobe
Ich hoffe mal, dass sorgt jetzt nicht für "an den Kopf greifen":

also, ich habe folgendes in Excel eingegeben:

untere Grenze: =BETAINV(0,025;18;20-17) = 68,30%
obere Grenze: =BETAINV(1-0,025;18;20-18) = 98,70%

Wenn ich jetzt Wikipedias Wortwahl auf mein Beispiel anpasse, ergibt das irgendwie Unfug:
Bei einem Stimmenanteil von 68,3 % beträgt die Wahrscheinlichkeit, dass sich in der Stichprobe mindestens 18 Personen befinden 2,5 %.

Oder sagt mir das:
Der Tatsächlich Anteil an JA-Sagern liegt mit einer Sicherheit von 95% zwischen 68,30 und 98,70 %?

Für Nein-Sager ergibt das in Excel:

=BETAINV(0,025;2;20-1) = 1,23%
=BETAINV(1-0,025;2;20-2) = 26,03%

Was mich zu der Vermutung bringt, dass ich Mist gebaut habe, denn sollten die jeweiligen Unter-/Obergrenzen bei 2 Ereignissen nicht 100% ergeben? unglücklich

Bin grade etwas verwirrt Hammer

20.05.2012, 15:03

frank09

Auf diesen Beitrag antworten »

RE: Konfidenzintervall bei abgeschlossener Stichprobe

Zitat:

Der Tatsächlich Anteil an JA-Sagern liegt mit einer Sicherheit von 95% zwischen 68,30 und 98,70 %?

So drückt man das am besten aus und die Werte nach Binomialverteilung stimmen auch.
Die Obergrenze für Nein-Sager liegt allerding bei 31,7%. Wie du auf 26,03% kommst ist mir rätselhaft.

Ich rechne nicht mit Excel, sondern mit Online-Rechnern. So habe ich auch das exakte Ergebnis nach hypergeometrischer Verteilung ermittelt:

Obergrenze Nein-Sager 61 (30,5%)
Untergrenze Nein-Sager 3 (1,5%)

Weichen leicht ab.

Wenn man deine Werte auf ganze Zahlen umrechnet, käme man auf
auf 63 (31,5%) und 2 (1%)

20.05.2012, 17:05

Wild123

Auf diesen Beitrag antworten »

RE: Konfidenzintervall bei abgeschlossener Stichprobe
Jetzt wird das alles schon durchsichtiger smile

Den Onlinerechner zur Intervallangabe finde ich leider nicht unglücklich

Dachte, dass müsste auch mit Excel gehen, allerdings bietet das Programm nur eine "komische" hypergeometrische Funktion...

Excel

Gruß Wild

20.05.2012, 21:38

Wild123

Auf diesen Beitrag antworten »

Habe mich jetzt noch weitere 3 Stunden durchs Netz gequält (deutsch wie englisch) und stoße immer wieder auf Formeln, welche entweder wieder auf Binomial zurück greifen (was ich ja nicht "darf") oder Online-Rechner, welche folgende 4 Werte benötigen und einfach kein Intervall angeben...

- Erfolge Stichprobe
- Umfang Stichprobe
- Erfolge Grundgesamtheit
- Umfang Grundgesamtheit

Ich komm einfach nicht drauf... Das mit der Binomialberechnung funktioniert jetzt, aber das exakte Ergebnis nach hypergeometrischer Verteilung bleibt mir verschlossen unglücklich

20.05.2012, 23:40

frank09

Auf diesen Beitrag antworten »

RE: Konfidenzintervall bei abgeschlossener Stichprobe
Meistens hat man ja eine "große" Grundgesamtheit (>1000), bei der sich Anteil (fast) nicht ändert, nachdem sich etwa ein Nein-Sager zu erkennen gegeben hat. Da kann man von Binomialverteilung ausgehen, die eine konstante Wsk voraussetzt. Wenn du aber z.B. 50 Leute hast mit 4 Nein-Sagern, so beträgt deren Anteil zunächst 10%, die Wsk einen 2. Nein-Sager zu treffen, nur noch 3/49 =6,1%, also exakte hypergeometrische Verteilung besser.

Nun ist im konkreten Fall (Obergrenze) danach gesucht, wie viele Nein-Sager unter den 200 sein dürfen bis die Wsk, in einer 20er Stichprobe dennoch höchstens 2 zu "erwischen" auf 2,5% sinkt. Im Modell entspricht das der Wsk, dass man aus 200 Kugeln von denen etwa 61 rot sind, 20 zieht, und dann schaut, wie wahrscheinlich es ist, dass unter den 20 nur bis zu 2 rot sind. Dazu gibt man hier
http://www.mathematik.ch/anwendungenmath/wkeit/hypergeovert.php
folgende Werte ein:
m=200
r=61 (durch "herantasten" ermittelt)
n=20
a=0
b=2

Man erhält 0,026 und damit ist 61 die Obergrenze.
Für die Untergrenze nimmt man folgende Werte
m=200
r=3
n=20
a=0
b=1
und erhält 0,973 (entspricht $\begin{eqnarray*} B(20;p=p_u;k\leq 1)=0,975 \end{eqnarray*}$ )
Damit ist 3 die Untergrenze.

21.05.2012, 00:06

Wild123

Auf diesen Beitrag antworten »

wow, vielen Dank smile

ok, noch ein "Abschlusstest, ob ich das verstanden habe Big Laugh

Annahme: Stichprobe 22, Grundgesamtheit 213, 19 Ja, 3 Nein

Obergrenze: 72 (= 33,80 %)
Untergrenze: 3 (=1,42 %)

Meine Aussage:

Mit einer Sicherheit von 95 % liegt der Anteil der Nein-Sager in der Grundgesamtheit zwischen 1,42% und 33,80 %.

Dies bedeutet, dass meine Zuvor aufgestellte Hypothese, dass in der Grundgesamtheit mindestens 80% Ja-Sager enthalten sind, verwerfen werden muss, da es "bis zu" 33,80 % Nein-Sager geben kann (95 % Sicherheit)

Wuhuu, das "fühlt" sich zumindest schonmal richtig an Big Laugh

Vielen vielen Dank smile

21.05.2012, 01:12

frank09

Auf diesen Beitrag antworten »

Obergrenze richtig, Untergrenze nicht.
Du hast die Untergrenze auf 100% Sicherheit nach unten gesetzt, denn die Wsk, dass bei 3 Nein-Sagern in der Stichprobe mindestens 3 in der Ggheit enthalten sein müssen, ist 100%! Sonst ginge es ja nicht.

Richtig ist Untergrenze=7, denn
P(m=213, r=7, n=22, a=0, b=2)=0,974

21.05.2012, 01:14

Wild123

Auf diesen Beitrag antworten »

ah, Fehler gesehen smile

Dankeschön smile

Neue Frage »

Antworten »

Konfidenzintervall bei abgeschlossener Stichprobe

Verwandte Themen