ChiQuadrat-Verteilungstest

11.09.2016, 18:13

MelanieKS

Auf diesen Beitrag antworten »

ChiQuadrat-Verteilungstest

Meine Frage:
Hallo

ich habe eine rel. Häufigkeitsverteilung für eine diskrete Größe.
Für diese will ich eine Wahrscheinlichkeitsfunktion erstellen und dann
einen ChiQuadrattest unterziehen..

Meine Ideen:
...Muss ich dazu dann auch die Anzahl der FG auch um einen weiteren zusätzlichen
reduzieren, wie ich es beim Schätzen bspw. des Lambda einer Exp-Verteilung mache?

Ich meine damit nicht dein einen FG, den ich eh wegen des Satz von Pearson mache.
Sondern einen zusätzlichen, da ich ja "irgendwie" was schätze, in dem Falle die Wahrscheinlichkeit
für das Eintreten des jeweiligen diskreten Ereignisses.

Danke

12.09.2016, 08:49

Huggy

Auf diesen Beitrag antworten »

RE: ChiQuadrat-Verteilungstest
Das hängt davon ab, ob die Wahrscheinlichkeitsfunktion, mit der du die empirische Häufigkeitsverteilung vergleichst, mit allen Parametern vorgegeben ist oder ob ein oder mehrere Parameter aus den Daten geschätzt werden. Die Zahl der geschätzten Parameter ist zusätzlich von den Freiheitsgraden abzuziehen.

12.09.2016, 09:23

MelanieKS

Auf diesen Beitrag antworten »

Nachfrage...
Hallo,

danke, das ist genau meine Frage, ob ich da schon schätze oder nicht.
Es ist ja so, dass ich die Werte meiner Verteilung ja annehme.

Bsp:

aus der Häufigkeitsverteilung ergebe sich folgendes
h1: 0,23
h2: 0,45
h3: 0,12
h4: 0,20

ich "schätze" jetzt meine Verteilung zu

p1:0,2
p2:0,45
p3: 0,15
p4: 0,2

Muss ich nun dann nun einen weiteren FG abziehen oder nicht?

Also in dem falle: 4-1-1 oder 4-1 ?

Wenn ich eine stetige Verteilung wie Exp-Verteilung annehme und dazu das lambda schätze ist es klar, da ziehe ich ja einen zusätzlichen ab?
Aber in dem Fall oben, bin ich mir unsicher, da es ja eine diskrete(!) Verteilung ist!

danke

12.09.2016, 09:34

Huggy

Auf diesen Beitrag antworten »

RE: Nachfrage...
Was ist die Basis für deine Schätzung? Es sieht so aus, dass du empirischen Werte einfach auf 0.05 genau rundest, allerdings bei den Gruppen 1 und 3 in eine ungewöhnliche Richtung.

12.09.2016, 15:09

MelanieKS

Auf diesen Beitrag antworten »

Basis
.. das war jetzt nur ein Beispiel. Es geht mir ja um das Prinzip als solches..
Aber lass mich natürlich auch zu dem Schätzen gerne eines besseren belehren.
smile

smile

12.09.2016, 15:28

Huggy

Auf diesen Beitrag antworten »

RE: Basis
Es kommt schon darauf an, was du schätzt. Wenn du die tatsächlichen relativen Häufigkeiten aller Klassen anhand der beobachteten Häufigkeiten schätzt, ist ein Chi-Quadrat-Test sinnlos.

Anzeige

12.09.2016, 15:39

MelanieKS

Auf diesen Beitrag antworten »

Ok..
OK.

Nun eine grundsätzliche Frage: Ich kann doch ausgehend der beobachteten abs. und rel. Häufigkeiten für eine diskrete Größe auf eine Wahrscheinlichkeitsverteilung schließen oder?

Ich hatte den ChiQuadrat so verstanden, dass er
a) unabh. der zugrundeliegenden Verteilung (also auch diskrete Verteilungen) und
b) diese angenomme allgemeine Verteilung gegen die Stichproben zu validieren

Danke schonmal

12.09.2016, 15:55

Huggy

Auf diesen Beitrag antworten »

RE: Ok..
Du kannst eine Vermutung oder Hypothese über den Typ der Verteilung anstellen oder es liegt schon vor der Datenerhebung eine solche vor. Dann kannst du mit dem Chi-Quadrat-Test prüfen, ob die beobachteten Daten sich nicht zu stark von der Hypothese unterscheiden, um diese beibehalten zu können.

Du könntest deine obigen Daten zum Beispiel auf eine Gleichverteilung testen. Da muss gar kein Parameter geschätzt werden. Oder du könntest sie auf eine linear ansteigende oder fallende Verteilung testen. Dann müsste ein Parameter geschätzt werden und die Zahl der Freiheitsgrade würde sich von 3 auf 2 verringern. Wenn aber alle Häufigkeiten in den Klassen geschätzt werden, dann gibt es nichts zu testen. Formal kommt man dann auf 0 Freiheitsgrade.

Anders sieht es aus, wenn unabhängig von der Datenerhebung eine Vermutung über die Häufigkieiten vorlag. Dann kannst du diese Vermutung testen. Dann wird aber nichts aus den Daten geschätzt. Es bleibt bei 3 Freiheitsgraden.

12.09.2016, 16:00

MelanieKS

Auf diesen Beitrag antworten »

Danke...
..das war schonmal recht hilfreich.

Der Punkt ist auch, dass mir das diskrete da ein wenig Bauschmerzen macht,
da die Daten ja keiner natürlichen Anordnung folgen und je nachdem, wie
ich sie sortiere, bekäme ich eine andere Verteilung.

Ich denke mal, dass sinnvollste ist wohl, wenn ich ja Klasse eine "Wahrscheinlichkeit"
annehme und damit keine Verteilungstest brauche.

Danke.

12.09.2016, 16:09

Huggy

Auf diesen Beitrag antworten »

RE: Danke...
Wenn die Nummerierung der Klassen bei einer diskreten Verteilung eine willkürliche ist, bleiben nur 2 sinnvolle Tests: Der Test auf Gleichverteilung und der Test auf eine vorgegebene Verteilung auf die Klassen.

12.09.2016, 16:10

MelanieKS

Auf diesen Beitrag antworten »

danke...

kannst du letzteres erläutern?
Was meinst du mit Test auf die Klassen?

12.09.2016, 16:29

Huggy

Auf diesen Beitrag antworten »

Mal ein Beispiel: Es gebe eine Anzahl Glücksräder mit jeweils 4 Feldern. Die Wahrscheinlichkeiten der Felder bei den einzelnen Glückräder seien unterschiedlich. Jetzt kommt jemand mit einer beobachteten relativen Häufigkeitsverteilung für eines der Räder. Du weißt aber nicht, von welchem Rad die Beobachtung stammt. Du hast aber, woher auch immer, eine Vermutung, von welchem Glücksrad sie ist. Wenn du die tatsächliche Wahrscheinlichkeitsfunktion dieses Glücksrads kennst, kannst du einen Chi-Quadrat-Test machen, ob deine Vermutung stimmen könnte.

12.09.2016, 16:48

MelanieKS

Auf diesen Beitrag antworten »

Danke.

Stimmt,das habe ich verstanden.

Übrigens, ich glaub, der Groschen ist auch gefallen, warum im Grunde ein Verteilungstest bei eigens geschätzten Wahrscheinlichkeiten aus meinen beobachteten rel. Häufigkeiten keinen Sinn macht.
Ich kann da die Werte gleichsetzen und hätte den perfekten Test, was keinen Sinn macht ;-)

Ich habe aber dennoch zwei Fragen, die ich einfach mal stelle:
a) gibt es einen Ansatz, wie ich die Wahrscheinlichkeiten sinnvoll ableite

und die Frage b) hat jetzt mit den Thread nix mehr zu tun, aber ich stelle sie dennoch mal hier:
Es geht um die Größe meiner Stichprobe. Ich kenn es halt nur über die stetigen Verteilungen (bspw Messwerte) und dort den Fakt, dass die Abweichungen normalverteilt. Dann kann man die Mindestgröße ja durch das Konfidenzintervall (= gewünschte Sicherheit; Wahrscheinlichkeit) und den akzeptierten Fehler recht gut abschätzen.
Nur in meinem Fall kann ich den Fehler ja nicht wirklich angeben bzw ihn stetig beschreiben.

Danke

12.09.2016, 17:06

Huggy

Auf diesen Beitrag antworten »

Zitat:

Original von MelanieKS
Ich kann da die Werte gleichsetzen und hätte den perfekten Test, was keinen Sinn macht ;-)

So ist es.

Zitat:

a) gibt es einen Ansatz, wie ich die Wahrscheinlichkeiten sinnvoll ableite

Da gibt es nichts besseres, als die beobachtete relative Häufigkiet als Schätzwert für die tatsächliche relative Häufigkeit zu nehmen.

Zitat:

Nur in meinem Fall kann ich den Fehler ja nicht wirklich angeben bzw ihn stetig beschreiben.

Ein Konfidenzintervall für die relative Häufigkeit in einer bestimmten Klasse kannst du berechnen, indem du aus deiner Verteilung eine Binomialverteilung machst. Fasse dazu alle anderen Klassen zu einer Klasse zusammen. Für den Parameter p einer Binomialverteilung gleich der relativen Häufigkeit der betrachten Klasse, kann man exakte und genäherte Konfidenzintervalle bestimmen.

12.09.2016, 17:30

MelanieKS

Auf diesen Beitrag antworten »

Zitat:

a) gibt es einen Ansatz, wie ich die Wahrscheinlichkeiten sinnvoll ableite
Da gibt es nichts besseres, als die beobachtete relative Häufigkiet als Schätzwert für die tatsächliche relative Häufigkeit zu nehmen.

Mel: Und damit die tatsächliche relative Häufigkeit als "Wahrscheinlichkeit" ansatzen.

Zitat:

Nur in meinem Fall kann ich den Fehler ja nicht wirklich angeben bzw ihn stetig beschreiben.
Ein Konfidenzintervall für die relative Häufigkeit in einer bestimmten Klasse kannst du berechnen, indem du aus deiner Verteilung eine Binomialverteilung machst. Fasse dazu alle anderen Klassen zu einer Klasse zusammen. Für den Parameter p einer Binomialverteilung gleich der relativen Häufigkeit der betrachten Klasse, kann man exakte und genäherte Konfidenzintervalle bestimmen.

[/quote]

Mel:
OK. Verstanden. Und dann die Größe der Stichprobe quasi pro Klasse berechnen.
Ich habe mal gelesen, dass man mit n>50 schon relativ sicher unterwegs ist.
Ich weiss, dass ist eine Faustformel, aber als Indikator brauchbar?

Danke

12.09.2016, 18:00

Huggy

Auf diesen Beitrag antworten »

Zitat:

Original von MelanieKS
OK. Verstanden. Und dann die Größe der Stichprobe quasi pro Klasse berechnen.
Ich habe mal gelesen, dass man mit n>50 schon relativ sicher unterwegs ist.
Ich weiss, dass ist eine Faustformel, aber als Indikator brauchbar?

Na ja, das kommt auf die Genauigkeit an, die man sucht und wo die beobachtete relative Häufigkeit liegt.

Noch eine Anmerkung: Bei der Reduktion der Multinomialverteilung (mehr als 2 Klassen) auf die Binomialverteilung erhält man Konfidenzintervalle, die nicht unabhängig voneinander sind. Es gibt auch die Möglichkeit der simultanen Bestimmung der Konfidenzintervalle für alle $\begin{eqnarray*} p_i \end{eqnarray*}$ einer Multinomialverteilung. Auf die Schnelle habe ich die entsprechenden Formeln im Internet nicht gefunden. Sie stehen aber in:

Joachim Hartung
Statistik
Lehr- und Handbuch der angewandten Statistik

12.09.2016, 18:18

MelanieKS

Auf diesen Beitrag antworten »

Danke
Danke schonmal. Ich muss das alles erstmal verdauen.
Sind ja immer Dinge, die man erstmal auch setzen lassen muss.

Meist gehen die Lehrbücher ja auch die "schönen" Beispiele ein, wie
Messfehler etc, die man auch schön intuitiv normal verteilt beschreiben
kann Big Laugh

Big Laugh

13.09.2016, 14:04

MelanieKS

Auf diesen Beitrag antworten »

Kurze Bitte
Hallo,

kannst Du mir noch eine andere Quelle nennen?
Ich habe geguckt, aber nicht die Chance auf die schnelle an einen Hartung zu kommen.
Zur nächsten Uni-Bib sind es eine Stunde Fahrt.

Bzgl. der Unabhängigkeit? Ist das die Überlappung von denen man in der Literatur liest?
Dort habe ich auch gelesen, dass es diverse Ansätze gibt, von einer einfachen für n*p*(1-p)
über diverse andere.
Ist die Überlappung für eine erste Abschätzung nicht vernachlässigbar? Oder doch zu
pauschal gefragt?

Danke

13.09.2016, 15:32

Huggy

Auf diesen Beitrag antworten »

RE: Kurze Bitte
Schau mal hier auf Seite 156 - 158:

Konfidenzintervalle Multinomialverteilung

Da findest du die Formeln und ein durchgerechnetes Beispiel. Was du mit Überlappung meinst, ist mir nicht klar. Am besten schafft man sich ein Gefühl für die verschiedenen Ansätze, indem man ein Paar Beispiele durchrechnet. Dann sieht man, ob die Unterschiede für die eigenen Genauigkeitsanforderungen relevant sind oder nicht.

13.09.2016, 19:08

MelanieKS

Auf diesen Beitrag antworten »

Danke...
Danke für die Quelle. Das ist lieb.
Ja, ich probiere eh immer einiges durch, da ich nur über Beispiele lerne.
Geht mir da wie nicht wenig anderen.

Ach das mit dem "Überlappen" habe aus

https://de.wikipedia.org/wiki/ Konfidenz...rteilun<br /> g

Dort steht das mit der Überdeckungswahrscheinlichkeit, was ich für mich als "Überlappung" gedeutet habe. Mag aber falsch sein.
Und da kam mir die Idee, dass es die von Dir zitierte Abhängigkeit ist.

Ich will mich nochmal herzlich für Deine Zeit bedanken, die Du Dir immer nimmst smile

smile

13.09.2016, 20:08

Huggy

Auf diesen Beitrag antworten »

RE: Danke...
Jetzt verstehe ich, was du mit Überlappen meinst.

Bei der individuellen Bestimmung von Konfidenzintervallen für die Parameter $\begin{eqnarray*} p_i (i= 1, ..., n) \end{eqnarray*}$ einer Multinomialverteilung und bei deren simultaner Bestimmung geht es aber um etwas anderes. Es geht um das Ziel, das man mit dem Konfidenzniveau erreichen möchte. Wenn man das Konfidenzintervall für jeden Parameter individuell z. B mit einem Konfidenzniveau von $\begin{eqnarray*} 0.95 \end{eqnarray*}$ bestimmt und wenn diese Wahrscheinlichkeiten alle unabhängig voneinander wären, dann wäre die Wahrscheinlichkeit, dass alle n Parameter von ihrem Konfidenzintervall überdeckt werden nach der Produktregel für unabhängige Ereignisse $\begin{eqnarray*} 0.95^n \end{eqnarray*}$ und das ist kleiner als $\begin{eqnarray*} 0.95 \end{eqnarray*}$ . Wenn man also das Ziel hätte, dass alle n Parameter mit einer Wahrscheinlichkeit von 0.95 überdeckt werden, müsste man die individuelle Wahrscheinlichkeit entsprechend höher wählen. Das ergibt breitere Konfidenzintervalle.

Da aber die n Parameter nicht unabhängig sind - es gilt ja $\begin{eqnarray*} \sum p_i=1 \end{eqnarray*}$ - kann man dieses Ziel mit einer geringeren Vergrößerung der Konfidenzintervalle erreichen. Das geschieht mit der simultanen Bestimmung.

Wenn man nur das Ziel hat, dass jeder Parameter individuell mit 95 % Wahrscheinlichkeit überdeckt wird, kann man die simultane Bestimmung außen vor lassen.

14.09.2016, 08:57

MelanieKS

Auf diesen Beitrag antworten »

Vielen Dank!!
Hallo,

Danke. Ja, das verstehe ich jetzt.
Stimmt natürlich, dass bei der Kombination Wahrscheinlichkeiten die angestrebte nachlässt.
Hätte ich jetzt erstmal so nicht unbedingt im Fokus gehabt, aber danke.
Das ist das schöne an dem fach: Es geht immer Dinge, die auf den zweiten Blick "logisch" erscheinen,
die man aber selbst so mglw. nicht im Block gehabt hätte- zumindestens ich ;-)

Lieben Dank nochmal
smile

smile

1

Verwandte Themen

Die Beliebtesten »

Die Größten »

Die Neuesten »