Wahrscheinlichkeit einer best. Abweichung bei Stichprobe

Neue Frage »

Schüler12345 Auf diesen Beitrag antworten »
Wahrscheinlichkeit einer best. Abweichung bei Stichprobe
Meine Frage:
Hallo,
Ich würde gerne berechnen, wie groß die Wahrscheinlichkeit ist, dass das Ergebnis einer Stichprobe um einen bestimmten Betrag von den realen Verhältnissen abweicht. Dazu suche ich eine geeignete Formel.

Als Beispielaufgabe: Es gibt eine unbestimmte Anzahl Personen, die eine Hälfte bevorzugt Partei A, die andere Partei B. Von diesen Personen nehme ich eine Stichprobe von 100 Leuten. Wie groß ist die Wahrscheinlichkeit, dass in meiner Stichprobe 60 Personen oder mehr Partei A bevorzugt, bzw. dass meine Stichprobe um 20% oder mehr von den realen Verhältnissen abweicht?

Meine Ideen:
Konnte leider selbst keine Formel finden und zum Herleiten einer eigenen Formel reichen meine Mathekenntnisse nicht aus unglücklich
Ich bräuchte das ganze für ein Literatur-/SoWiprojekt ...

Herausgefunden habe ich: Bei Anteilswerten berechnet man die durchnittliche Abweichung (Standartabweichung) mit:

t= Anteilswert, im Beispiel oben 0,5
n= Anzahl Elemente in der Stichprobe

Nur bei einer bestimmten Abweichung ?
Dafür bräuchte ich dann doch eure Hilfe =)
Zellerli Auf diesen Beitrag antworten »

Also zunächst mal ist die Formel falsch.

Für die Standardabweichung gilt . Aber diese Formel hilft dir hier nicht weiter.

Zunächst mal ein paar Grundbegriffe:
Alle Wahlberechtigten nennt man die Grundgesamtheit. Sagen wir mal der Einfachheit halber dass das 10 Mio sind.
Nehmen wir an davon sind genau 600 000 Anhänger der Partei A, dann nennt man diese die absolute Häufigkeit der Anhänger der Partei A. sind die relative Häufigkeit (Abkürzung RH).
Gleiches gilt für die Stichprobe. Nehmen wir mal an du fragst 100 Leute und sind Anhänger der Partei A (absolute Häufigkeit), dann sind die relative Häufigkeit.


Du musst dir jetzt über zwei flexible Grenzen klarwerden:
1. Die RH der Stichprobe ist seltenst mit der RH der Grundgesamtheit identisch. Es muss eine gewisse Toleranz geben für die Differenz der RH von Stichprobe und Grundgesamtheit. Bei Infratest liegt diese Differenz in der Sonntagsfrage bei großen Parteien z.B. bei 1,1 Prozenpunkten.
2. Wie groß darf die Wahrscheinlichkeit dafür sein, dass die Abweichung größer ist als diese Toleranz? Üblicher Weise verwendet man hier 5%, aber auch 1% oder 10%.

Beide Werte hängen voneinander ab, z.B. ist die Irrtumswahrscheinlichkeit sehr gering, wenn du eine Toleranz von 30 Prozentpunkten zulässt. Also z.B. "Die Zusage für Partei A liegt bei 60%, also zwischen 30 und 90%." Das macht auch wissenschaftlich wenig Sinn.
Genauso macht es wenig Sinn, wenn du eine hohe Irrtumswahrscheinlichkeit zulässt, also z.B. sagst du zu 50% darfst du außerhalb der Toleranz liegen. Dann macht die Angabe "59%-61%" auch wenig Sinn, weil die Hälfte der Werte außerhalb dieser Grenze liegt, z.B. der Wert 12%.


Deine Frage, wie groß die Wahrscheinlichkeit ist, dass genau 60 von 100 Leuten Partei A wählen, hängt davon ab, wieviele Leute von allen Wahlberechtigten Partei A wählen und ob du eine Toleranz zulässt (z.B. auch 59 oder 61 Leute).

Deine Frage, wie groß die Wahrscheinlichkeit ist, dass die RH deiner Stichprobe um mehr als 20% von der RH der Grundgesamtheit abweicht, hängt ab von der Größe der RH. Liegt sie z.B. bei 50%, so kann in einer 100er Stichprobe mit ca. 3,5% eine Abweichung größer als 10 Prozentpunkte (also dass der Wert zwischen 40 und 60% liegt) auftreten.
Liegt die RH der Grundgesamtheit bei 99% (also wählen fast alle Leute Partei A), so ist die Wahrscheinlichkeit für eine Abweichung um 10 Prozenpunkte in der Stichprobe (also, dass du 89 oder 100 hast - mehr als 100 geht ohnehin nicht) quasi gleich 0.

Überleg dir mal praktikable Werte und dann können wir die Berechnung erarbeiten.
Schüler12345 Auf diesen Beitrag antworten »

Ersteinmal Danke für die ausführliche Antwort und Entschuldigung, dass ich relativ spät antworte smile

Die zuerst genannte Formel habe ich hierher:
psydok.sulb.uni-saarland.de/volltexte/2004/268/html/node142.html
Mit Excel habe ich einige Werte ausprobiert und von der größenordnung her scheinen sie mir sinnvoll für die Standartabweichung (=durchschnittliche Abweichung?)
Die Formel die du genannt hast geht bei steigender Stichprobengröße n gegen unendlich, kann also nicht eine Formel für die durchnittliche Abweichung einer Stichprobe sein, da müsste die Abweichung doch mit steigender Stichprobengröße abnehmen, oder? Die Formel wollte ich auch für Argumente in meinem Projekt nutzen, daher wäre es gut, wenn du mir auch hierbei helfen könntest -> welche formel ist die richtige ? =)

Die beiden Punkte zu Toleranz und Irrtumswahrscheinlichkeit kann ich nachvollziehen, für eine aussagekräftige Umfrage muss also beides realtiv niedrig sein, sonst ist die Umfrage unbrauchbar und dazu muss die stichprobe groß genug gewählt werden. schonmal danke dafür =)

Jetzt fragst du nach praktikablen Werten ... nur da ist das Problem ^^
Mit den Formeln wollte ich letztendlich praktikable Werte herausfinden. Eigentlich wollte ich nicht allzuviel schreiben, um niemanden abzuschrecken, ist ja meist so, dass niemand antwortet, wenn die Frage zu lang ist... aber ich glaube ich sollte wenigstens grob beschreiben, was ich mit den entsprechenden Formeln machen möchte:



gehört nicht zwingend zur Frage, nur bei Interesse lesen:
---------------------------------------------------------------------------------------------------------------
In meinem Projekt geht es um eine fiktive Geschichte über die idee zu einer alternative Regierungsform, dabei werden dann vor- und nachteile diskutiert.
Der Gedanke dabei ist, dass in herkömmlichen Demokratien gewählte Repräsentanten die Entscheidungen treffen, doch so kommen manchmal Gesetze zu stande, die keine mehrheit in der Bevölkerung finden. Damit sind die Entscheidungen gegen den Willen des Volkes getroffen worden, von dem in einer Demokratie eigentlich alle Macht ausgehen sollte.
In der alternativen Regierungsform, ich nenn sie mal "demographische Demokratie", bleiben die gewählten Vertreter und Partein wie gehabt bestehen. Doch ihre Aufgabe ist nur noch die Meinungsbildung und Ausarbeitung von Gesetzesvorschlägen. Sämtliche politische Entscheidungen trifft das Volk, repräsentiert durch eine ausreichend große Stichprobe. Aus meiner Themensetzung:
"Die Stichprobe wird so groß gewählt, dass ihre statistische Standartabweichung von dem realen Meinungsbild wesentlich geringer ist, als die durchschnittliche Abweichung des Stimmverhaltens von gewählten Repräsentanten, die nach ihrem Gewissen und ihrer Überzeugung entscheiden." Wenn das bei einer praktikablen Stichprobengröße möglich ist, würde die Stichprobe das Volk besser repräsentieren als gewählte Repräsentanten. Womit die "demoskopische Demokratie" näher an der perfekten Demokratie ist, als die herkömmliche repräsentative Demokratien.
------------------------------------------------------------------------------------------------------------------

In meinem Projekt spielt sich das ganze in einer großen fiktiven Stadt ab, also kann ich die Einwohnerzahl (=Grundgesamtheit) ziemlich frei wählen. Zwischen 100.000 und 100 Mio. ist alles möglich. Den Anteilswert kann ich auch frei wählen, da das ganze als Argument in mein Projekt einfließt, ich denke 0,5 ist am besten geeignet, weil bei diesem Wert die durchschnittliche Abweichung am größten ist (jedenfalls nach der Formel aus meinem ersten Beitrag). Und die passende Stichprobengröße möchte ich ja dabei herausfinden ...

besser formulierte Fragestellung:

Also mal feste Werte:
Grundgesamtheit: 10Mio
Anteilswert: 0,5
Stichprobengröße: 3000
Toleranz: +-1% / +-3% / +- 5%
Fragen dazu: Wie wahrscheinlich ist es, dass die Abweichung der Stichprobe von der Grundgesamtheit größer ist als die Toleranz? Mit welcher Formel kann ich die Wahrscheinlichkeit berechnen?

Ich hoffe man kann jetzt besser verstehen, was ich möchte smile
Zellerli Auf diesen Beitrag antworten »

Der Artikel geht über den Standardfehler eines Regressionskoeffizienten.

Der hat hier nichts zu suchen. Gewöhn dir außerdem mal ein d bei Standard an Big Laugh

Wenn ich dein Projekt richtig verstehe, ist garnichtmal so wichtig, ob die Stichprobe (Abkürzung SP) sagt: 60% "Ja" und die Grundgesamtheit (Abkürzung GGS) eigentlich 63% "Ja", sondern, dass die Grundgesamtheit nicht (z.B.) sagt: 48% "Ja" (bei über 50% "Nein") und die Stichprobe 51% "Ja" oder umgekehrt.

Das heißt die Gefahr, die minimiert werden muss, liegt in bei GGS und SP unterschiedlichen Mehrheitsverhältnissen. Das ist ein etwas anderer Fehler, als die im vorherigen Beitrag von mir genannten.

Diese Wahrscheinlichkeit zu berechnen geht am besten über folgenden Ansatz (scheinbar hattest du diese Idee schon, ich rekapituliere nur nochmal):

Im schlimmsten Fall ist die Quote der "Ja"-Stimmen im Volk gerade so unter 50,0%, also z.B. bei 49,999993%

Am einfachsten rechnet man hier mit den vollen 50% (auch, weil bei Stimmengleichheit ein Antrag als abgelehnt gilt). Das ist der krasseste Fall, denn bei einem geringeren Anteil von "Ja"-Stimmen in der GGS, ist die Wahrscheinlichkeit für ein mehrheitliches "Ja" in der SP geringer.

Das führt aber zum nächsten Problem: Bei einem tatsächlichen Anteil von 0,5 hast du in jeder Stichprobe - egal wie groß - 50% Wahrscheinlichkeit, dass eine Minderheit (oder Gleichstand) in der SP herauskommt und 50% Wahrscheinlichkeit, dass eine Mehrheit herauskommt. Exakt 0,5 gibt es quasi nie, aber auch Werte in der Nähe machen dir Schwierigkeiten.

Man kann große Minderheiten aber nie ausschließen in der Politik.

Eine einfache Strategie ist die folgende:

Zuerst befragst du eine gewisse Menge Leute. z.B. 1000.
Da kommt nun raus: 520 sind dafür.

Wie groß ist die Wahrscheinlichkeit, dass - obwohl nur exakt 50% im Volk dafür sind - diese 52% herauskommen? (das ist der maximale Fehler, bei werten deutlich unter 50% ist es noch unwahrscheinlicher die 520 von 1000 zu erzielen - du rechnest also bereits sehr sicher, weil extrem).

Binomialverteilung: 1000 Versuche, 520 oder mehr Treffer (mehr wäre noch eindeutiger), Trefferwahrscheinlichkeit 0,5

(hier berechnet).

Das ist dir noch eine zu große Fehlerwahrscheinlichkeit.

Du befragst weitere 9000 Leute und hast nun insgesamt 5189 Ja-Stimmen.
Wie groß ist der Fehler?


Diese Fehlerwahrscheinlichkeit genügt dir und du kannst sagen, dass zu über 99,99% eine Mehrheit im Volk dafür vorlag.

Da sind regionale, urbane, demographische, rassische, geschlechtliche Unterschiede natürlich nicht berücksichtigt Augenzwinkern

Analog gehst du vor, wenn die SP eine Minderheit ausspuckt und in der GGS eine Mehrheit vorliegen könnte (kleinste Mehrheit geradeso bei , also mit 0,5 rechnen).

Das heißt: Je geringer die Mehrheit, umso mehr Leute müssen befragt werden (das kann auch nachträglich geschehen).
Schüler12345 Auf diesen Beitrag antworten »

Danke, das ist genau das was ich brauche =)
Es ist sogar direkt ein Rechner dabei... nur leider bekomme ich keine Ergebnisse mehr sobald n ein wenig größer als 1000 wird.Entweder gibt der Rechner "NaN" oder "Infinity" aus ...
Leider haben wir im Unterricht noch nicht mit dem Summenzeichen gearbeitet, ich habs zwar bei Wikipedia nachgeschlagen und versteh jetzt wenigstens grob warum die auftretenden Zahlen dabei jeden Rahmen sprengen, allerdings weiß ich nicht wie ich selbst ein Ergebnis ausrechnen kann unglücklich

Ich habe nicht genau gewusst wie groß die Zahlen dabei genau werden, also habe ich angenommen, dass die Zahlen einfach nur die Möglichkeiten des Homepagerechners sprengen.
Also habe ich nach Mathematikprogrammen gegoogelt, in der Hoffnung sie könnten mit größeren Zahlen umgehen und habe mir eine Testversion von MathCAD runtergeladen und die Formel dort eingegeben.
Es funktioniert prima und ich bekomme die gleichen Ergebnisse wie der Rechner in deinem Link, leider gibt auch MathCAD bei größeren Zahlen einen Fehler aus, mit dem Hinweis, dass Zahlen größer als 10^307 auftreten ...

Gibt es irgendwie einen Trick ,dass ganze per Hand auszurechen, oder die Formel so umzuformen, dass ich auch bei größeren Werten für n (mindestens bis 10.000) ein Ergebnis für die Wahrscheinlichkeit bekomme ?

Vielen Dank für die Hilfe bis jetzt, das hat mich schon ein gutes Stück weitergebracht smile
Zellerli Auf diesen Beitrag antworten »

Der Trick ist die Normalverteilung.

Ansonsten ist zu Berechnung Excel (der Klon von OO geht genauso) immer ganz praktisch.
Eingabe: BINOMVERT(k;n;p;1), n Versuche, Trefferwahrscheinlichkeit p, k Treffer, wobei die 1 für kumuliert (also k oder weniger Treffer) steht. Es ginge auch eine 0 an letzter Stelle (für genau k Treffer).
 
 
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »