Berechnung Grundgesamtheit einer Stichprobe

20.09.2006, 14:56

Meiselbert

Berechnung Grundgesamtheit einer Stichprobe

Hi Leute,

diesmal bin ich dran mit einer Frage.

Kurz: Ich benötige eine Formel zur Berechnung der minimalen Stichprobengröße. Das Problem ist, ich benötige diese nicht abhängig von der Verteilung, sondern von der Grundgesamtheit.

Beispiel:

In einem Konzert befinden sich 50.000 Personen (N). Ich möchte mit einer Stichprobe feststellen, wie die Verteilung der Haarfarben auf die Leute ist. Diese ist wohl kaum binomial- oder normal verteilt.

Ausprägungen: blond, braun, rot, schwarz, sonstige
Stichprobengenauigkeit nehm ich einfach mal 95% an und als Varianz 0,05.

a) Wie groß muss die Stichprobe sein???

b) Wie groß müsste sie, wenn ich in eine Disko gehe und nur 1000 Gäste habe?

Letztendlich will ich formal zeigen, dass bei geringerer Grundgesamtheit eine kleinere Stichprobe notwendig ist.

Kann mir jemand ne Formel nennen???

20.09.2006, 15:05

Auf diesen Beitrag antworten »

Es geht also um den unbekannten Anteil $\begin{eqnarray*} p \end{eqnarray*}$ irgendeiner Teilgruppe (z.B. schwarze Haare) in einer Gruppe von $\begin{eqnarray*} N \end{eqnarray*}$ Menschen, bei dir $\begin{eqnarray*} N=50000 \end{eqnarray*}$ oder $\begin{eqnarray*} N=1000 \end{eqnarray*}$ .

Mit einer Stichprobe vom Umfang $\begin{eqnarray*} n \end{eqnarray*}$ kannst du z.B. ein 95%-Konfidenzintervall für dieses $\begin{eqnarray*} p \end{eqnarray*}$ angeben. Und wenn du jetzt noch von diesem Konfidenzintervall eine gewisse Genauigkeit forderst (also z.B. $\begin{eqnarray*} p \end{eqnarray*}$ auf $\begin{eqnarray*} \pm 1% \end{eqnarray*}$ genau, d.h. Konfidenzintervalllänge maximal 0.02), dann kannst du den nötigen Stichprobenumfang $\begin{eqnarray*} n \end{eqnarray*}$ berechnen.

Nochmal zusammengefasst, du brauchst also wenigstens zwei Angaben zur Genauigkeit: Einmal die Toleranzangabe für den zu bestimmenden Anteil, das ist die Konfidenzintervalllänge. Und zum zweiten das Konfidenzniveau, meist sowas wie 90, 95 oder 99%. Nur eins davon reicht nicht für eine "seriöse" statistische Antwort.

Zu eigentlichen Berechnung: Da gibt es erstmal die Approximation durch Normalverteilung. Die ist aber nur geeignet, wenn $\begin{eqnarray*} n\ll N \end{eqnarray*}$ gilt, also $\begin{eqnarray*} N \end{eqnarray*}$ sehr, sehr groß ist im Vergleich zur beabsichtigten Stichprobe, deren Umfang wir aber noch gar nicht kennen, sondern erst bestimmen wollen! Da beißt sich die Katze gewissermaßen in den Schwanz...
Überhaupt wird bei dieser Methode der Einfluss von $\begin{eqnarray*} N \end{eqnarray*}$ ganz verwischt.

Es geht auch exakt, mit der dem Problem zugehörigen hypergeometrischen Verteilung, was dann aber unheimlich aufwändig ist und leider nicht in einer kleinen schönen Formel mündet.

20.09.2006, 16:47

Meiselbert

Auf diesen Beitrag antworten »

also könnte ich es über den absoluten Fehler probieren.

10/1000 = 1%
10/50.000 = 0,02%

somit habe ich verschiedene relative Fehler und könnte die in die Formel einsetzen.

$\begin{eqnarray*} n=\frac{0,05²*1,96²}{0,02²}=480 \end{eqnarray*}$

könnte ich mir vorstellen. Aber ganz richtig kann das auch nicht sein:

$\begin{eqnarray*} n=\frac{0,05²*1,96²}{1²}=0,19208 \end{eqnarray*}$

Also stimmt wohl was an meiner Denkweise nicht.

20.09.2006, 16:55

Auf diesen Beitrag antworten »

Dazu müsste man erstmal wissen, was deine Denkweise ist - ich sehe nur eine Rechnung ohne Erklärung, was du da eigentlich inhaltlich machst.

20.09.2006, 17:18

Meiselbert

Auf diesen Beitrag antworten »

Na ich kann doch versuchen zu zeigen, dass eine Abweichung von 10 Leuten bei 50.000 als Grundgesamtheit ne viel genauere (größere) Erhebung verlangt als bei 1000 Personen.

21.09.2006, 08:20

Meiselbert

Auf diesen Beitrag antworten »

nochmal bissl länger mein Problem:

Eventuell ist es möglich über die absolute Fehlertoleranz zu gehen (Signifikanzniveau bleibt bei 95%).
1000 Personen und ne Toleranz von 1%, also 10 Personen. Bei 50.000 Personen machen 10 Leute aber nur 0,02% aus, was also eine viel genauere Stichprobe erfordert.
Aber wie gestalte ich das in ner Formel??? Mein Ansatz von oben stimmt ja wohl irgendwie nicht.

22.09.2006, 09:36

Auf diesen Beitrag antworten »

Ok, du willst nicht erklären, was du da gerechnet hast, dann versuche ich es mal nachzuvollziehen:

Zitat:

Original von Meiselbert
$\begin{eqnarray*} n=\frac{0,05²*1,96²}{0,02²}=480 \end{eqnarray*}$

Passend für das vorliegende Problem wäre das Konfidenzintervall

$\begin{eqnarray*} \left[ \bar{p} - z_{1-\alpha/2} \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} , \bar{p} + z_{1-\alpha/2} \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} \right] \end{eqnarray*}$

für den unbekannten Anteil $\begin{eqnarray*} p \end{eqnarray*}$ einer Teilmenge mit einer gewissen Eigenschaft einer Grundgesamtheit; dabei ist $\begin{eqnarray*} \bar{p} \end{eqnarray*}$ der relative Anteil der Elemente mit dieser Eigenschaft in der Stichprobe vom Umfang $\begin{eqnarray*} n \end{eqnarray*}$ .

Die Länge dieses Konfidenzintervalls ist $\begin{eqnarray*} d = 2z_{1-\alpha/2} \sqrt{\frac{\bar{p}(1-\bar{p})}{n}} \end{eqnarray*}$ , wobei für $\begin{eqnarray*} \alpha=0.05 \end{eqnarray*}$ das Normalverteilungsquantil $\begin{eqnarray*} z_{1-\alpha/2} = z_{0.975}\approx 1.96 \end{eqnarray*}$ zur Anwendung kommt. Nach $\begin{eqnarray*} n \end{eqnarray*}$ umgeformt ergibt sich

$\begin{eqnarray*} n = 4z^2_{1-\alpha/2} \frac{\bar{p}(1-\bar{p})}{d^2}\qquad (*) \end{eqnarray*}$

Sieht zwar ähnlich aus, lässt sich aber mit deinen Rechnungen nicht in Einklang bringen, da ich nicht weiß, welche Konfidenzintervallänge $\begin{eqnarray*} d \end{eqnarray*}$ du zugrundlegst. Ich nehme mal als Beispiel, dass wir den Anteil $\begin{eqnarray*} p \end{eqnarray*}$ der Schwarzhaarigen auf $\begin{eqnarray*} \pm 1% = \pm 0.01 \end{eqnarray*}$ genau wissen wollen, dann ist $\begin{eqnarray*} d=0.02 \end{eqnarray*}$ diese Konfidenzintervallbreite für $\begin{eqnarray*} p \end{eqnarray*}$ . Nun wissen wir ja vorab nicht, welches $\begin{eqnarray*} \bar{p} \end{eqnarray*}$ wir erhalten werden, der ungünstigste Fall ist $\begin{eqnarray*} \bar{p}=0.5 \end{eqnarray*}$ , weil da in (*) rechts das Maximum erreicht wird. Diesen ungünstigsten Fall angenommen ergibt sich die Rechnung

$\begin{eqnarray*} n = 4\cdot 1.96^2 \frac{0.25)}{0.02^2} = 9604 \end{eqnarray*}$

für den notwendigen Stichprobenumfang. Was auffällt, und was ich oben schon in meinem ersten Beitrag erwähnt habe: Diese Betrachtung geht von einer Grundgesamtheit vom Umfang $\begin{eqnarray*} N\gg n \end{eqnarray*}$ aus.

Deine Rechnung kann ich, wie gesagt, nicht nachvollziehen, da mir überhaupt nicht klar ist, auf welchen Modellannahmen die beruht.

Mit der exakten Rechnung basierend auf der hypergeometrischen Verteilung ergibt sich hingegen für $\begin{eqnarray*} N=50000 \end{eqnarray*}$ der notwendige Stichprobenumfang $\begin{eqnarray*} n=8055 \end{eqnarray*}$ ; für $\begin{eqnarray*} N=1000 \end{eqnarray*}$ hingegen $\begin{eqnarray*} n=907 \end{eqnarray*}$ , also "fast" alle! Das liegt an der doch harten Genauigkeitsforderung von $\begin{eqnarray*} \pm 1% \end{eqnarray*}$ . Weicht man diese auf, sagen wir $\begin{eqnarray*} \pm 5% \end{eqnarray*}$ , dann sind bei $\begin{eqnarray*} N=1000 \end{eqnarray*}$ "nur" noch $\begin{eqnarray*} n=277 \end{eqnarray*}$ zu untersuchen.

Insgesamt ist festzustellen, dass der notwendige Stichprobenumfang mehr von den Genauigkeitsanprüchen $\begin{eqnarray*} d \end{eqnarray*}$ und $\begin{eqnarray*} \alpha \end{eqnarray*}$ bestimmt wird als von der Grundgesamtheitsgröße $\begin{eqnarray*} N \end{eqnarray*}$ .

Um das zu untermauern: Wenn man etwa das Wahlergebnis von $\begin{eqnarray*} N = 40\,000\,000 \end{eqnarray*}$ für eine Partei bei der Bundestagswahl auf $\begin{eqnarray*} \pm 1% \end{eqnarray*}$ mit 95% Sicherheit voraussagen will, braucht man auch "nur" $\begin{eqnarray*} n=9599 \end{eqnarray*}$ Befragte, was letztendlich sehr nahe an den 9604 von obiger Näherung liegt.

25.09.2006, 12:06

Meiselbert

Auf diesen Beitrag antworten »

Vielen Dank, das hilft mir weiter. Ich hatte demnach einfach nen Denkfehler drin. Ich werd die Sache alles in allem bissl abändern und dann passt es.

Dankeschön nochmal.
Gruß, Meiselbert.

08.04.2008, 13:35

1of1

Auf diesen Beitrag antworten »

Hallo zusammen!

Super Erklärung zum Stichprobenumfang - Leute, hier findet und versteht ihr es!!!

Neue Frage / Abänderung, da mein $\begin{eqnarray*} p \end{eqnarray*}$ sehr nahe bei $\begin{eqnarray*} 0 \end{eqnarray*}$ und $\begin{eqnarray*} 1 \end{eqnarray*}$ sein kann:

Ich bräuchte vor diesem Hintergrund das exakte Vorgehen für die Binomialverteilung, also Konfidenzintervall

$\begin{eqnarray*} \left[ \widehat{p}_2(x) - \widehat{p}_1(x) \right] = d \end{eqnarray*}$

und das dann aufgelöst nach $\begin{eqnarray*} n \end{eqnarray*}$ .
(wie oben, nur exakt mit Verteilungsfunktion der Binomialverteilung)

Geht wohl kaum explizit, muss numerisch sein. Hat jemand eine Empfehlung für ein Vorgehen / Programm bzw. schonmal eins geschrieben?

Supervielen Dank schonmal!!
Flo

09.04.2008, 12:30

1of1

Auf diesen Beitrag antworten »

Ah, halt. Hab nochmal drüber nachgedacht.

Die Approximation mit der Normalverteilung sollte doch in Ordnung sein, selbst für $\begin{eqnarray*} p \end{eqnarray*}$ nahe $\begin{eqnarray*} 0 \end{eqnarray*}$ oder $\begin{eqnarray*} 1 \end{eqnarray*}$ .

Grund: falls $\begin{eqnarray*} p \end{eqnarray*}$ nahe $\begin{eqnarray*} 0 \end{eqnarray*}$ oder $\begin{eqnarray*} 1 \end{eqnarray*}$ , dann erkennt man schon "viel früher" (also mit weniger Umfang), dass es so ist. In der Formel wird mit $\begin{eqnarray*} p = 0,5 \end{eqnarray*}$ ja auch das Argument des Maximums verwendet...

Meines Erachtens also quasi: pangalaktische Weltformel für entsprechenden Fall gefunden... Freude

Andersdenkende: Bitte melden! Willkommen

06.08.2008, 15:20

Freece

Auf diesen Beitrag antworten »

Hallo,
ich versuche schon den ganzen Tag einen minimalen Stichprobenumfang rauszubekommen. Ich versteh einfach nicht, wie genau man auf das "d" kommt.

Ist das "d" für 1% immer 0,02? Mir fehlt da irgendwie der Bezug der Ausgangsgröße.

Also mir geht speziell darum, dass ich eine Grundgesamtheit von 26500 Stück habe. Es geht dabei speziell um Produkte die eine gewisse größe haben müssen und nur geringfügig davon abweichen dürfen.
ich soll jetzt berechnen, wie groß eine Stichprobe sein muss, um sagen zu können das in der charge x% zu groß oder zu klein sind. (zur qualitätsbestimmung)

kann man das überhaupt so genau ausrechnen? sitz schon den ganzen tag mit meinem Statistik zeugs von vor zwei semestern hier und bekomm das nicht hin traurig

02.12.2010, 08:39

Thaddy

Auf diesen Beitrag antworten »

exakte Rechnung der hypergeometrischen Verteilung
Ich beziehe mich mal auf den drittletzten Eintrag von "AD", wie genau kommst du auf die genaue rechnung, also das Ergebnis n = 8055 von N = 50000 oder n = 9599 von N = 40000000???

Neue Frage »

Antworten »

Berechnung Grundgesamtheit einer Stichprobe

Verwandte Themen