Stochastik/Statistik Näherung Binomialverteilung

29.05.2016, 12:19

stochastikfrager

Stochastik/Statistik Näherung Binomialverteilung

Meine Frage:
Hallo!
Ich studiere Mathe auf Lehramt und hatte ich damals durch Stochastik "durchgemogelt" und wollte mich jetzt doch etwas ausführlicher damit auseinandersetzen, was ich die letzten 1-2 Wochen getan habe (youtube-Videos und Webseiten).

Dabei sind einige Fragen aufgekommen. Es geht also nicht um konkrete Aufgaben, sondern eher um das Grundverständnis. Falls ich etwas Falsches äußere, macht mich bitte darauf aufmerksam.

In der Schule wird ja die Binomialverteilung durch die Normalverteilung angenähert (nach dem zentralen Grenzwertsatz oder hier im speziellen Fall nach de Moivre-Laplace möglich) und mit der Stetigkeitskorrektur die Annäherung verbessert. Allerdings scheint es so, dass in der Statistik mit Computern einfach die exakte Binomialverteilung bestimmt wird und es keinen Grund für diese Näherung gibt. So steht es z.B. hier: https://en.wikipedia.org/wiki/Continuity_correction
(Macht es dann überhaupt noch Sinn, so etwas in der Schule zu behandeln?)

Erste Frage: Wieso die Stetigkeitskorrektur? Handelt es sich nicht auch für überschaubare n um eine t-Verteilung, die für wachsendes n in einer Normalverteilung mündet (oder diesem zumindest sehr nahe kommt)? Oder verwechsle ich hier etwas?

Nun gibt es ja die one- und two-proportion-z-Tests. Dabei wird ja geschaut, wie viele Standardfehler unser arithmetisches Mittel der Probe von einem vorgegebenen µ entfernt ist (bei dem one-proportion-Test).
Hier ist z.B. eine Übersicht, die ich gut finde:
https://onlinecourses.science.psu.edu/stat414/node/265

Nur hier handelt es sich doch nur um eine Näherung für die Binomialverteilung durch die Nomalverteilung oder nicht?
Mit $\begin{eqnarray*} \sigma = \sqrt{n \cdot p \cdot (1-p)} \end{eqnarray*}$ und $\begin{eqnarray*} \mu = n \cdot p \end{eqnarray*}$
Wo bleibt da die Korrektur? Und wie sieht es in der statistischen Praxis aus? Wird das da genutzt? (z.B. für politische Umfragen)
Auf http://www.wahlrecht.de/lexikon/wahlumfragen.html wird ja bsw. der übliche Standardfehler angegeben.
Wieso haue ich nicht alle k mit k=1,...,n in die Formel für die Binomialverteilung:
$\begin{eqnarray*} \binom{n}{k} \cdot p^{k} \cdot (1-p)^{n-k} \end{eqnarray*}$ für $\begin{eqnarray*} k=1,...,n \end{eqnarray*}$
anstatt mit der Näherung durch die Normalverteilung zu arbeiten? Dann addiere ich die "Balken", also die Werte um den Mittelwert, bis ich das gewünschte Signifikanzniveau erreicht habe?

Also zusammengefasst: Wie relevant ist die Näherung durch die Normalverteilung und wieso arbeitet man ohne jegliche Korrektur mit der Normalverteilung bei den one- und two-proportion-z-Tests? (Bei den t-Tests haben wir ja eine Korrektur, da wir eine t-Verteilung betrachten)

Danke schonmal!

Meine Ideen:
Fragen/Ideen siehe oben

29.05.2016, 12:44

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von stochastikfrager
Erste Frage: Wieso die Stetigkeitskorrektur?

Weil es in den allermeisten Fällen zu einer deutlich verbesserten Approximationsgüte kommt. Die Idee, die der Stetigkeitskorrektur zugrunde liegt, findest du in der Mitte dieses Beitrags: Normalverteilung und der Satz von Laplace

Zitat:

Original von Huggy
Anschaulich ergibt sich das, wenn du dir jeden diskreten k-Wert in der Binomialverteilung durch einen Streifen von $\begin{eqnarray*} k - 0,5 \end{eqnarray*}$ bis $\begin{eqnarray*} k + 0,5 \end{eqnarray*}$ beim Übergang zur Normalverteilung ersetzt denkst.

Zitat:

Original von stochastikfrager
Handelt es sich nicht auch für überschaubare n um eine t-Verteilung, die für wachsendes n in einer Normalverteilung mündet (oder diesem zumindest sehr nahe kommt)?

Dieser Aspekt der t-Verteilung hat nichts mit der Stetigkeitskorrektur von eben zu tun.

29.05.2016, 13:13

stochastikfrager

Auf diesen Beitrag antworten »

Danke schonmal für die Antwort smile

Meine Frage bzgl. der Stetigkeitskorrektur ist: Geht das nicht auch mit der "t-Methode" irgendwie anstatt die Stetigkeitskorrektur zu benutzen?
Dass es sich um eine bessere Approximation ist, habe ich verstanden, aber ist es nicht so, dass man auch die t-Methode benutzen kann, um besser zu approximieren?
Also anstatt die Normalverteilung mit Stetigkeitskorrektur die t-Verteilung zu nutzen und dann das passende t "nachzuschlagen"?
Die Stetigkeitskorrektur ist doch erster Linie dazu da, manuell nachrechnen zu können, oder?

Es ist doch im Allgemeinen so, dass - wenn wir uns eine Summe von zufälligen Variablen nehmen und das n mal durchführen, diese Verteilung (unabhängig von der ursprünglichen Verteilung) für wachsendes n gegen eine Normalverteilung geht. Da das n aber endlich ist, haben wir keine Normalverteilung und wir nutzen die t-Verteilung.

Also meine Fragen nochmal neu formuliert :P
Am Computer muss man nicht annähern, da man direkt die Binomialverteilung berechnen kann?

Könnte man anstatt der Stetigkeitskorrektur die t-Verteilung nutzen, um zu approximieren?

Wieso nutzen wir die Normalverteilung für den proportionalen z-Test? Wieso erfolgt keine Korrektur, da unser n endlich ist? (z.B. n = 100 -> wo bleibt die Korrektur, da Binomialverteilung ungleich Normalverteilung) Wieso nehmen wir z und nicht t? Also wieso schlagen wir den Wert,. den wir rauskriegen, nicht in der t-Tabelle nach anstatt der z-Tabelle?
Und: Kann man am Computer nicht einfach für den proportionalen z-Test direkt die Binomialverteilung nutzen anstatt eine Normalverteilung zu betrachten?

29.05.2016, 13:19

stochastikfrager

Auf diesen Beitrag antworten »

Ah, okay, ich glaube ich versteh jetzt, wieso man die Normalverteilung bei dem proportionalen z-Test betrachtet - weil man ja eine Stichprobe hat und schauen will, in welchem Bereich der Mittelwert der ursprünglichen Verteilung ist.
Nur wieso z und nicht t? geschockt

29.05.2016, 13:38

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von stochastikfrager
Geht das nicht auch mit der "t-Methode" irgendwie anstatt die Stetigkeitskorrektur zu benutzen?

Etwas wie "t-Methode" ist mir nicht bekannt.

Zitat:

Original von stochastikfrager
Also anstatt die Normalverteilung mit Stetigkeitskorrektur die t-Verteilung zu nutzen und dann das passende t "nachzuschlagen"?

Warum sollte man zur Approximation der Binomialverteilung die t-Verteilung benutzen? Mit welchem Freiheitsgradparameter überhaupt? Ich kann deinen Gedanken nicht folgen.

Die Verwendung der Normalverteilung als Approximation basiert jedenfalls auf dem zentralen Grenzwertsatz.

Zitat:

Original von stochastikfrager
Die Stetigkeitskorrektur ist doch erster Linie dazu da, manuell nachrechnen zu können, oder?

Nein, sie ist dazu da, eine bessere Approximation zu erzielen als ohne Stetigkeitskorrektur. Ich weiß, ich wiederhole mich, aber anscheinend ist es nötig.

29.05.2016, 14:32

stochastikfrager

Auf diesen Beitrag antworten »

Ich meine, im Vergleich dazu, dass man einfach direkt die Binomialverteilung betrachtet, was auf dem Papier ja so nicht möglich ist (sondern am Computer). Ich versteh schon, wofür die Stetigkeitskorrektur da ist. Ich wollte sagen, dass sie aufgrund von Computerprogrammen keine große Relevanz mehr hat, da man computergestützt problemlos exakte Werte kriegt und keine Approximation mehr braucht?

------------------------------------------------

Die t-Verteilung ist doch dazu da, dass - wenn wir eine Stichprobe betrachten (z.B. Blutdruckmesswerte) - und unser n endlich ist, wir nicht eine Normalverteilung, sondern eine t-Verteilung betrachten (und n -> unendlich geht es zu einer Normalverteilung). Ist das so richtig? So funktioniert ja der t-Test und deshalb nehmen wir ja dafür nicht den z-Wert?
Und der t-Test dient ja dazu (bzeogen auf ein Sample), dass wir schauen, wie weit sich der "echte" Mittelwert µ von unserem arithmetischen Mittel der Stichprobe mit einer vorgegebenen Wahrscheinlichkeit befindet.

Erst, wenn das n gegen unendlich geht, hätten wir ja eine Normalverteilung. Das Verwenden der t-Werte korrigiert ja sozusagen diese Ungenauigkeit der Normalverteilung, wenn n nicht groß ist.

Mein Problem ist jetzt: Wieso nur, wenn wir tatsächliche Messwerte haben? Wieso nicht auch bei einem Treffer/Niete Modell?

Wenn wir nun eine Umfrage haben mit n=500 und 30% wählen Partei X. (sozusagen Treffer/Niete)
Dann kann ich ja den proportionalen z-Test durchführen, um zu schauen, wie genau dieser Wert von 30% ist. Die Sicherheitswahrscheinlichkeit ist auch gegeben und ich kann schauen, in welchem Bereich sich der eigentliche Erwartungswert befindet.

Nur wir betrachten ja dabei die Normalverteilung als Näherung für die Binomialverteilung. Das führt doch zu einer Ungenauigkeit, weil wir ja 500 Leute betrachten. Wieso korrigieren wir bei dem t-Test, indem wir die t-Verteilung betrachten, aber nicht bei dem proportionalen z-Test?

29.05.2016, 14:53

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von stochastikfrager
Ich wollte sagen, dass sie aufgrund von Computerprogrammen keine große Relevanz mehr hat, da man computergestützt problemlos exakte Werte kriegt und keine Approximation mehr braucht?

Mit keine würde ich mal vorsichtig sein: Für die Wald- und Wiesenaufgaben mit moderat großen $\begin{align*} n \end{align*}$ mag das zutreffen. Wenn man aber (z.B. in der Physik, ich denke da an Thermodynamik) makroskopische Größen als Summen atomarer bzw. molekularer Größen darstellt und $\begin{align*} n \end{align*}$ im Bereich von Zehnerpotenzen 10^{20} und höher liegt, sollte man diese Approximation nicht ad acta legen. Augenzwinkern

P.S: Deine dauernde inhaltliche Vermengung mit der t-Verteilung finde ich irgendwie ziemlich nervig. Die t-Verteilung taucht bei Tests bzw. Konfidenzintervallen auf, wenn die Varianz der Grundgesamtheit nicht bekannt ist, sondern erst aus der Stichprobe geschätzt werden muss. Das hat jetzt nichts primär mit der Binomialverteilung zu tun.

29.05.2016, 15:02

stochastikfrager

Auf diesen Beitrag antworten »

Okay, ich denke, ich hab's verstanden... Sorry, dass ich so wirr schreibe. Scheinbar versteht man nicht, was ich eigentlich fragen will Big Laugh

Ich versuch's nochmal, so wie ich es jetzt verstehe:
Also, bei einer Wahlumfrage habe ich z.B. eine Hypothese wie 25% und ich will diese prüfen. Ich weiß aber, dass es sich dabei um eine Normalverteilung handelt (mein vermuteter oder zu widerlegender p-Wert der ursprünglichen Verteilung).

Wenn ich jetzt aber nicht-dichotome Variablen habe (wie den Blutdruck), habe ich nur diese Werte als Basis für die ursprüngliche Verteilung. Für den t-Test muss ich ja von einer Normalverteilung ausgehen (bzw. irgendwie prüfen).
Da ich nicht weiß, wie die ursprüngliche Normalverteilung für meine aufgestellte Hypothese (was ich aber bei dem oben genannten Test weiß) aussieht, nutze ich die t-Verteilung als Korrektur und nehme nicht die z-Werte.

Ist das so richtig?

29.05.2016, 15:07

stochastikfrager

Auf diesen Beitrag antworten »

Ah, okay, ich kenne ja die Varianz... Freude

Okay, dann ist alles klar.

Auch gut zu wissen, dass diese Approximation doch noch Anwendung findet.
Ich denke mal, dann ist erstmal alles beantwortet.

Neue Frage »

Antworten »

Stochastik/Statistik Näherung Binomialverteilung

Verwandte Themen