Normalverteilung und Konfidenzintervall

Neue Frage »

Laure Auf diesen Beitrag antworten »
Normalverteilung und Konfidenzintervall
Hallo! Wink

Ich suche mich grade durchs Netz, kann aber keine Antwort finden. Ich will das Konfidenzintervall für den Mittelwert und auch für die Standardabweichung berechnen. Mein Problem ist, daß alle Formeln, die ich finde, auf der Normalverteilungsannahme beruhen. Da Normalverteilung aber NICHT vorliegt, welche Formeln benutzt man denn dann? verwirrt Kann mir da jemand weiterhelfen? Wäre großartig!
Marvin42 Auf diesen Beitrag antworten »

Verteilungsfrei kannst mit der Tschebycheff (oh gott wie schreibt man den richtig) Ungleichung abschätzen. Die Intervalle werden im Verhältnis zu Verfahren mit Verteilungsannahme sehr breit.
unbekannter nr1 Auf diesen Beitrag antworten »

Für einen bekannten Mittelwert und ein Ergebnismenge die sehr viele Elemente enthält kann man die tatsächliche Verteilung mit einer Gauss-Verteilung annähern.

Such danach bei Google und Wikipedia - wirst überall was darüber finden.

Hoffe es hilft
bil Auf diesen Beitrag antworten »

Zitat:
Original von unbekannter nr1
Für einen bekannten Mittelwert und ein Ergebnismenge die sehr viele Elemente enthält kann man die tatsächliche Verteilung mit einer Gauss-Verteilung annähern.

Such danach bei Google und Wikipedia - wirst überall was darüber finden.

Hoffe es hilft


wo steht das bei google oder wikipedia? eine stichprobe mit vielen ausreißern könnte man z.b. nicht mit der normalverteilung annähern...

gruss bil
Laure Auf diesen Beitrag antworten »

@Marvin24: Mit Tschebyscheff - Ungleichung? (Bei den hundert Schreibweisen für diesen Namen ist es doch fast egal, welche man nutzt, hauptsache eine, bei der man erkennt, wer gemeint ist ;o) ) Wie muß ich mir das vorstellen? =D

@Unbekannter Nr.1: Auch 5647 Messwerte können nicht mal annähernd normalverteilt sein! Und da ich solche Fälle vorliegen habe, nützt mir deine Antwort leider nicht viel, denn die Formeln für Normalverteilung besitze ich ja. Ich brauche die OHNE...

@bil: exakt! Danke!

Noch jemand Ideen? =D
AD Auf diesen Beitrag antworten »

Das mit der Normalverteilung hat schon seine Richtigkeit und basiert auf dem Zentralen Grenzwertsatz:

Bei beliebiger Verteilung der Grundgesamtheit, sofern diese Verteilung nur Erwartungswert und Varianz besitzt, gilt für den Mittelwert von Werten dieser Grundgesamtheit

für ,

dabei sind Erwartungswert und Varianz der Grundgesamtheit.

Und das ist das Entscheidende: Nicht die Werte selbst, sondern allein der Mittelwert verhält sich - zumindest für große - annähernd normalverteilt.


EDIT: Schreibfehler...
 
 
Laure Auf diesen Beitrag antworten »

Nun, ich kenne den zentralen Grenzwertsatz Big Laugh

Aber er nützt mir in diesem Fall leider gar nichts. Die Berechnung eines Konfidenzintervalls nach den gängigen Formeln beruht auf der Normalverteilung der Ausgangsdaten, nicht der des Mittelwerts... Und da haben wir mein Problem, denn eine Normalverteilung liegt nicht vor.

Ich habe jetzt irgendwo folgende Zeile gefunden:

Konfidenzintervalle werden berechnet "wie zuvor (bei Normalverteilungsannahme), aber mit asymptotischer Überdeckungwahrscheinlichkeit 1 – alpha".

??? Kann jemand was damit anfangen? Und die Idee mit der Tschebyscheff-Ungleichung klingt ganz gut, kann mir dazu bitte jemand noch was erklären?

DANKE!
AD Auf diesen Beitrag antworten »

So richtig gelesen hast du meinen Beitrag aber nicht, oder? Also wiederhole ich nochmal die entscheidende Stelle:

Zitat:
Original von Arthur Dent
Und das ist das Entscheidende: Nicht die Werte selbst, sondern allein der Mittelwert verhält sich - zumindest für große - annähernd normalverteilt.

Und genau deswegen kann man - zumindest asymptotisch für - beim Mittelwert von Normalverteilung ausgehen, auch wenn die zugrunde liegenden Daten nicht normalverteilt sind!!!

Und in der Folge kann man also mit diesem Mittelwert wie mit jeder anderen normalverteilten Größe rechnen. Und genau darauf beruht das Konfidenzintervall für den Mittelwert. Richtig ist allerdings, dass man dann gerade bei kleinen N einen gehörigen Approximationsfehler drin hat, dessen sollte man sich selbstverständlich bewusst sein.
Laure Auf diesen Beitrag antworten »

Ich habe sehr wohl richtig gelesen... Und ich glaube, wir reden vom Gleichen, ohne es zu merken. Eben weil die DATEN nicht normalverteilt sind, ensteht mein Problem.

Ich habe zwei Vergleichsgruppen, die ich auf Unterschiede testen will. Sind die Daten normalverteilt, vergleiche ich die Mittelwerte. Sind sie es nicht, die Mediane. Egal welche Verteilung vorliegt, soll ich Konfidenzintervalle für den Mittelwert und die Standardabweichung angeben. (Ob das sinnvoll ist, ist hier leider nicht diskutierbar :o( ...) Da sich also schon die möglichen Unterschuchungen unterscheiden, die vorgenommen werden, unterscheiden sich meiner Recherche nach auch die Formeln zur Berechnung der Konfidenzintervalle.

Zum Beispiel hier:
http://www.statistik.tuwien.ac.at/public...bak/node66.html
gleich im zweiten Absatz steht, daß die DATEN normalverteilt sind.

Ist das denn tatsächlich vernachlässigbar???
Laure Auf diesen Beitrag antworten »

Da ich leider nicht editieren kann, hier noch eine Zusatzbemerkung:

Das Problem der nichtvorhandenen Normalverteilung beißt mir häufiger in den Allerwertesten, zum Beispiel bei der Berechnung das p-Wertes, für den ich auch noch keine brauchbare Formel auftreiben konnte...
AD Auf diesen Beitrag antworten »

Zitat:
Original von Laure
Zum Beispiel hier:
http://www.statistik.tuwien.ac.at/public...bak/node66.html
gleich im zweiten Absatz steht, daß die DATEN normalverteilt sind.

Stimmt, das steht da. Aber da steht nichts über nichtnormalverteilte Grundgesamtheiten. Da steht insbesondere auch nicht, dass die Konfidenzintervallformel da nicht gilt. Die guten Leute wollten sich nur den Ärger ersparen, da bei niedrigen durchaus beachtliche Approximationsfehler entstehen, das ist alles. Aber wenn du nur der Seite glaubst, und dich auch durch inhaltliche Argumente wie den ZGWS überzeugen lässt, was fragst du dann hier überhaupt?

Inhaltlich habe ich nichts mehr anzufügen, steht alles schon oben.
Laure Auf diesen Beitrag antworten »

Ich habe schon SEHR viele Seiten im Netz nach einer Antwort durchforstet. Und glaube mir, wäre das die einzige Seite gewesen, auf der diese Angabe stand, hätte ich mir die Frage hier erspart. Aber ich finde diese Angabe immer wieder - und auch immer wieder die kuriosesten kurzen Sätze, wie es ohne Normalverteilung geht (natürlich ohne Angabe einer nützlichen Formel... traurig )

Für den Mittelwert bei großen N habe ich das Problem eventuell im Griff über die bei Wikipedia angegebene Formel, die anscheinend auf dem ZGWS beruht. Aber für N<50 (eben wo die größten Approximationsfehler entstehen) bin ich hilflos. Vor allem für die Standardabweichung findet man nichts.

Ich finde es schade, daß du nur auf den ZGWS verweißt, statt dich mit meiner eigentlichen Frage auseinander zu setzen. Ich glaube nämlich, daß es sich hier um ein verbreitetes Problem handelt. Formeln zu finden, die die Normalverteilung der Daten NICHT voraussetzen, ist mühevoll (und ich hänge schon zwei Wochen daran).
AD Auf diesen Beitrag antworten »

Von nichts kommt nichts: Wenn du genauere Angaben über die Grundgesamtheit hast, kann man auch mehr rausholen. Als grobes Mittel bleibt dir höchstens noch, dir was aus Tschebyscheff zu basteln. Oder besser noch aus Berry-Esseen. Aber nach dem Vorwurf

Zitat:
Original von Laure
Ich finde es schade, daß du nur auf den ZGWS verweißt, statt dich mit meiner eigentlichen Frage auseinander zu setzen.

ist meine Motivation ziemlich eingeschränkt, das näher auszuführen.
Laure Auf diesen Beitrag antworten »

Hallo nochmal Arthur!

Wenn du das als Vorwurf verstehst, tut es mir leid, denn es ist keiner. Es war eine reine Anmerkung dazu, daß es für mich als den Fragesteller sehr frustrierend ist, wenn man zweimal die gleiche Antwort erhält und dabei das Gefühl hat, daß die eigentliche Fragestellung nicht erkannt wurde. Ich brauche nämlich dringend Hilfe .

Offenbar kennst du ja sogar die Antwort auf meine Frage, wie dein letzter Post vermuten läßt. Da ich aber anscheinend deine Motivation durch unvorsichtige Formulierung meines Gefühszustands im Keim erstickt habe, muß ich wohl wieder googeln. Gefühlsäußerung: traurig

Laure
vizechecker Auf diesen Beitrag antworten »

Hi,

der Thread ist zwar schon lange tot smile aber die Problematik taucht ja doch immer wieder auf. Ich habe gerade das Problem, dass eine Stichprobe von N=25 Mittelwerten sich leider nicht normalverteilt verhält.

Ich vermute mal, dass die Idee mit dem Chebyshev auf diese Formel von Wikipedia hinausläuft:



Dann wäre ja ein "Konfidenzintervall", wenn auch von schlechter Güte smile

Ist aber denn die Chebyshev Ungleichung genau so gültig, wenn ich ja nur Stichprobenschätzer für und habe? verwirrt

Wäre nett, wenn jemand da eine Antwort hat. Viele Grüße,
Alex
Wutzofant Auf diesen Beitrag antworten »
Anwendung des Zentralen Grenzwertsatzes
Ja, der Thread ist lange tot, aber da ich zufällig drüber gestolpert bin und zumindest eine (unelegante) Antwort weiß, schreibe ich mal was dazu.

Wie wendet man den zentralen Grenzwertsatz an? – Indem man mehrere Gruppen bildet.

Angenommen, ich habe N=10.000 Stichproben einer Grundgesamtheit (z.B. Messwerte), die nicht normalverteilt sind, aber auf die sich der ZGWS anwenden lässt. Denn Achtung – nicht immer ist für die Verteilung der Grundgesamtheit die Varianz oder der Mittelwert definiert, vgl. z.B. Pareto-Verteilung mit kleinen Exponenten oder Cauchy-Verteilung.

Dann bilde ich daraus 100 Gruppen à je 100 Stichproben. Für jede der Gruppen berechne ich ihren Mittelwert. Jetzt habe ich 100 verschiedene Mittelwerte, und die sollten ungefähr normalverteilt sein (das sollte man z.B. mit einem QQ-Plot gegen Normalverteilung checken; wenn man wirklich viele Gruppen und viele Daten pro Gruppe hat, dann auch mit statistischem Test, z.B. Kolmogorow-Smirnow oder ).

Und jetzt berechnest Du einfach ganz normal das Konfidenzintervall für den Mittelwert der Mittelwerte – voilà.

Das Problem ist natürlich, dass man eine große Anzahl an Stichproben braucht. Typischerweise braucht man umso mehr, je mehr die Verteilung der Grundgesamtheit streut (große Stichprobenvarianz) und/oder von der Normalverteilung abweicht (große Schiefe, geringe Kurtosis).

Der Vorteil ist, dass man bei gleicher Stichprobengröße genauere Grenzen als bei Tschebyschew kriegt.
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »