Die Wahl als Stichprobe

Neue Frage »

Zeno-2 Auf diesen Beitrag antworten »
Die Wahl als Stichprobe
Statistik ist bei mir schon eine Weile her. Um ein wenig auf Trab zu bleiben habe ich mir Nachfolgendes überlegt und bin prompt steckengeblieben. Wahrscheinlich ist das alles offensichtlich, aber ich sehe es nicht. Also...

Wie Ihr wißt, gibt es inzwischen bei politischen Wahlen ziemlich viele Nichtwähler. Der Anteil der Nichtwähler an den Gesamtwahlberechtigten liegt so ca. bei 30 - 40 %. Dafür gibt es offenbar viele Gründe, die jetzt aber mal egal sein sollen.

Man könnte ja mal ganz doof annehmen, dass die Nichtwähler zwar sehr wohl eine politische Meinung haben, aber aus ganz profanen Gründen (z.B. Bus verpasst oder so) nicht zur Wahl gehen können. Irgendwie schaffen sie es nicht ein Kreuzchen zu machen.

So. Wenn man das mal annimmt, dann könnte man sagen, diejenigen, die es zur Wahlurne schaffen stellen eine Stichprobe der Grundgesamtheit dar. Rein rechnerisch würde es sich bei einer Wahl mit 60-70 % Wahlbeteiligung dann um eine Zufallsstichprobe mit einem sehr großen Stichprobenumfang handeln.

Nehmen wir eine Urnenmodell, mit sehr vielen (M) schwarzen, roten, gelben, grünen und orangen Kugel. Ein Stichprobe von N Kugeln soll uns via der relativen Häufigkeiten n_i/N einen Schätzer für die prozentuale Verteilung der i Farben in der Grundgesamtheit liefern.

Die Stichprobe wäre ein Schätzer für das "wahre Ergebnis der Wahl" mit entsprechendem Schätzfehler. Wie groß wäre der Schätzfehler wenn der
Stichprobenumfang 70 % der Grundgesamtheit beträgt?

Aber jetzt weiß ich nicht weiter. Ich weiß nicht wie man, dadurch, dass die Stichprobe so groß ist und es sich ja um "ziehen ohne zurücklegen", also keine unabhängige "Messung" stattfindet, einen Schätzfehler für den jeweiligen prozentualen Anteil der schwarzen, roten, gelben, grünen und orangen Kugel ermittelt.

Wie läßt sich bei einer großen Stichprobe aus der Grundgesamtheit der Schätzfehler für die Prozentschätzungen angeben?

verwirrt
Dweezil Auf diesen Beitrag antworten »

Habe mich in letzter Zeit auch viel mit Wahlanalysen beschäftigt, und finde das ist eine ausgezeichnete Frage! Freude

Da ich aber kein Student der Statistik bin, kann ich jetzt leider keine verbindliche Antwort geben, klinke mich mit meinen Ideen also nur ein.

Eine Idee wäre sicher die hypergeometrische durch die Normalverteilung anzunähern, was jedenfalls für große Parteien kein Problem sein sollte. Verfahren sowie Bedingungen sind z.B. bei http://de.wikibooks.org/w/index.php?titl...le&oldid=446894 angegeben.

Ein Verfahren zur numerischen Berechnung des exakten KI ist in http://books.google.at/books?id=TD5_e1rI...teilung&f=false angegeben. Möglicherweise gibt es hierzu wie beim exakten KI für den Anteilsvert einer Binomialvert. auch ein Verfahren ohne Numerik welches auf einer anderen Verteilung basiert?
HAL 9000 Auf diesen Beitrag antworten »

Betrachten wir erstmal das überschaubare Problem des Stimmenanteils einer einzigen Partei. Wie du schon sagtest, ist das ganze dann "Ziehen ohne Zurücklegen", und zwar das hypergeometrische Modell:

Von insgesamt Wahlberechtigten würde die (unbekannte) Anzahl die besagte Partei wählen, beobachtet werden aber nur Stimmen für diese Partei bei insgesamt abgegebenen Stimmen. Dann ist



Ein symmetrisches -Konfidenzintervall für würde man nun so festlegen, dass





gilt. In die Berechnung (bzw. Näherung) der Wahrscheinlichkeiten (*) für im Millionenbereich (wie bei der Bundestagswahl) muss man allerdings noch etwas Grips reinstecken, wenn das ganze schnell ablaufen soll. Augenzwinkern


Ein Beispiel: Nehmen wir mal Wahlberechtigte sowie Wähler (entspricht 70%) sowie Wähler für Partei A (entspricht 40%).

Dann ergeben sich zu Niveau (also ) die Werte

,



was bezogen auf die Gesamtzahl der Wahlberechtigten dann das Konfidenzintervall ergibt. D.h., mit 99% Wahrscheinlichkeit liegt das "wahre" Wahlergebnis in diesem Intervall.


P.S.: Mit Normalverteilungsapproximation kommt für das -Konfidenzintervall

mit

heraus, dabei ist . Ergibt fast dasselbe wie die exzessive Rechnung oben - man muss aber bei diesem vergleichsweise großen Stichprobenumfang unbedingt mit der hypergeometrischen statt der Binomialverteilung rechnen, ansonsten erhält man eine zu starke Verfälschung beim Übergang zur Normalverteilungsapproximation. Bei der Binomialverteilung würde man nämlich stattdessen mit rechnen, was deutlich zu groß ist.
Zeno-2 Auf diesen Beitrag antworten »

Ich habe gerade etwas wenig Zeit, nur so viel:

Auch wenn es nur ein kleines Rätsel ist, ist es schön wenn man so eine schöne Antworten erhält. Vielen Dank dafür! Freude

Und

Zitat:
In die Berechnung (bzw. Näherung) der Wahrscheinlichkeiten (*) für im Millionenbereich (wie bei der Bundestagswahl) muss man allerdings noch etwas Grips reinstecken, wenn das ganze schnell ablaufen soll. Augenzwinkern


Ich vermute, du hast hierfür ein kleines rekursives Programm geschrieben?

Nochmals Danke! smile
HAL 9000 Auf diesen Beitrag antworten »

Zitat:
Original von Zeno-2
Ich vermute, du hast hierfür ein kleines rekursives Programm geschrieben?

Ja, aber nur um der Vollständigkeit halber zu überprüfen, wie gut die Normalverteilungsapproximation der hypergeometrischen Verteilung ist. Und bei Werten im Millionenbereich gibt es da überhaupt keine Zweifel: Die Approximation ist sehr gut, so dass man sich dort die aufwändige direkte Berechnung getrost sparen kann:

Tatsächlich entspricht der Approximationsfehler im Beispiel oben am Ende nur zwei (!) Wählerstimmen am unteren und einer Wählerstimme am oberen Ende des zu berechnenden Konfidenzintervalls. Augenzwinkern
Dweezil Auf diesen Beitrag antworten »
n < 0,05N ?
Hätte noch eine Frage zur Approximation:

Oft wird die Faustregel angegeben, man könnte eine hypergeometrische- dann gut durch eine Normalverteilung annähern, wenn
  • 0.1 < M/N < 0.9,
  • n > 30 und
  • n < 0.05*N

Warum die letzte Forderung dass weniger als 5% der Grundgesamtheit entnommen werden dürfen? Offensichtlich funktioniert die Approximation auch dann gut wenn man wesentlich mehr entnimmt?
 
 
HAL 9000 Auf diesen Beitrag antworten »

Das ist vielleicht eine Forderung, wenn man mit der "falschen" Formel für die Varianz der approximierenden Normalverteilung arbeiten will. Mit der richtigen Formel halte ich diese letzte Forderung nicht für nötig. Man sollte allerdings die zweite Forderung "symmetrisch" ergänzen, d.h. zu

.
Dweezil Auf diesen Beitrag antworten »

Diese Bedingungen sind mir sowohl in der Formelsammlung von L. Papula als auch auf der oben verlinkten Seite von wikibooks als "Faustregeln" "über den Weg gelaufen". Bei beiden Stellen wird aber die Varianz der hypergeometrischen Verteilung richtig angegeben. Ist vielleicht nicht von so großer Bedeutung wie die anderen Forderungen.
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »