Hypothesentest auf Mittelwert bei unbekanntem Sigma

12.05.2015, 12:58

Agent 47

Auf diesen Beitrag antworten »

Hypothesentest auf Mittelwert bei unbekanntem Sigma

Hallo an alle!
In einem anderen Thread habe ich bereits eine Frage zu einem Beispiel gestellt.
Ich verstehe jetzt wie man hier auf eine normalverteilte Grundgesamtheit testen kann.
Jetzt war noch die Frage, ob es notwendig ist eine normalverteilte Grundgesamtheit anzunehmen, um Hypothesen bezüglich des Mittelwertes zu testen.
Die Antwort in der Lösung ist Nein, wegen dem zentralen Grenzwertsatz.
Wir haben für eine einzige Stichprobe nur zwei Hypothesentests bzgl. des Mittelwertes kennengelernt: Mittelwert einer normalverteilten Gesamtheit mit Sigma bekannt und Sigma unbekannt.
Eine Voraussetzung für beide Tests war: "Die Grundgesamtheit ist normalverteilt (Näherungsweise n>30)".
Habe ich das richtig verstanden, dass mit dem zentralen Grenzwertsatz entweder gegeben sein muss, dass die Grundgesamtheit normalverteilt ist ODER der Stichprobenumfang n>30 gelten muss?
In dem Skriptum ist das leider nicht sehr eindeutig formuliert, man könnte es auch so verstehen, dass beides gelten muss.

Bei dem Beispiel ist gegeben dass n=47, x=215 und s=235, sowie die gemessenen Werte liegen zwischen 5 und 1176.
Bei einem zweiten Punkt ist gefragt, ob diese Daten der Idee widersprechen, dass x höchstens 200 war. Dazu soll man die relevanten Hypothesen bei einem Signifikanzniveau von 0,1 testen und den P-Wert dazu verwenden.

In der Lösung wird dann ein z-Wert angegeben um den P-Wert aus der Tabelle zu bestimmen, also die stand. Normalverteilung verwendet.
Wieso aber darf man das damit rechnen, wenn nur die empirische Standardabweichung s bekannt ist und nicht Sigma?
Wäre super wenn mir das jemand erklären könnte!

12.05.2015, 15:32

1nstinct

Auf diesen Beitrag antworten »

RE: Hypothesentest auf Mittelwert bei unbekanntem Sigma

Zitat:

Habe ich das richtig verstanden, dass mit dem zentralen Grenzwertsatz entweder gegeben sein muss, dass die Grundgesamtheit normalverteilt ist ODER der Stichprobenumfang n>30 gelten muss?

Der ZGS kann nicht gegeben sein oder nicht, er gilt IMMER.

Das macht man sich zunutze, und kann eben so asymphtotisch mit einer Normalverteilung arbeiten (deshalb ist die Normalverteilung die vill wichtigste Verteilung überhaupt).

Der Fehler wird eben mit steigendem Stichprobenumfang immer kleiner, aber natürlich gilt nicht
"n>30 -> Normalverteilung liegt vor".

Zitat:

wenn nur die empirische Standardabweichung s bekannt ist und nicht Sigma?

Falls die Standardabweichung nicht bekannt ist, wird diese eben basierend auf der Stichprobe geschätzt.

12.05.2015, 15:47

Agent 47

Auf diesen Beitrag antworten »

RE: Hypothesentest auf Mittelwert bei unbekanntem Sigma

Zitat:

Der ZGS kann nicht gegeben sein oder nicht, er gilt IMMER.

Sorry das war blöd formuliert, das weiß ich schon.
Es war so gemeint, dass entweder gegeben sein muss das die Grundgesamtheit normalverteilt ist oder n>30 gilt weil das die Aussage des ZGS ist.

Zitat:

Der Fehler wird eben mit steigendem Stichprobenumfang immer kleiner, aber natürlich gilt nicht
"n>30 -> Normalverteilung liegt vor".

Auch das ist mir bewusst, aber reicht n>30 wenn nicht gegeben ist, dass die Grundgesamtheit normalverteilt ist um mit den Hypothesentests bzgl. des Mittelwertes rechnen zu können?
z.B. wenn Sigma unbekannt ist mit der Test-Statistik $\begin{eqnarray*} t=\frac{x-my_{0} }{s/\sqrt{n} } \end{eqnarray*}$

Zitat:

Falls die Standardabweichung nicht bekannt ist, wird diese eben basierend auf der Stichprobe geschätzt.

Das ist eben meine Frage wieso in der Lösung anscheinend mit $\begin{eqnarray*} z=\frac{x-my_{0} }{sigma/\sqrt{n} } \end{eqnarray*}$ gerechnet wird und nicht mit der t-Verteilung wie ich es oben angeschrieben habe.
Denn aus der Angabe habe ich eigentlich nur die empirische Standardabweichung s gegeben.
Kann man das hier trotzdem mit z rechnen oder muss ich mit der t-Verteilung rechnen und das ist ein Fehler in der Lösung?

12.05.2015, 15:51

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von 1nstinct
Der ZGS kann nicht gegeben sein oder nicht, er gilt IMMER.

Ob dieser Bestimmtheit muss ich natürlich ein wenig schmunzeln. Zumindest gilt der ZGS, sofern Erwartungswert und Varianz der Verteilung der Grundgesamtheit existieren - das ist soweit hinreichend. Augenzwinkern

Augenzwinkern

12.05.2015, 16:42

1nstinct

Auf diesen Beitrag antworten »

Stimmt, danke HAL, da sollte man schon genau sein.

Aber ich glaube es wurde klar, auf was ich hinweisen wollte smile

smile

.

Zitat:

...oder n>30 gilt weil das die Aussage des ZGS ist.

Nochmals, der ZGS sagt was über das asymptotische Verhalten aus. Du behauptest doch genausowenig, dass $\begin{eqnarray*} \frac 1n=0 \end{eqnarray*}$ für $\begin{eqnarray*} n>30 \end{eqnarray*}$ gilt.
Es gilt eben $\begin{eqnarray*} \lim_{n\to \infty}\frac 1n=0 \end{eqnarray*}$

Allerdings wird der Fehler bei größeren n immer kleiner (in dem Bsp eben $\begin{eqnarray*} \frac 1n \end{eqnarray*}$ ).

Man will eben immer mit einer Normalverteilung arbeiten, da man dann entsprechende Tests verwenden kann. Das soll jedoch nicht heißen, dass für andere Verteilungen keine Test existieren!

Zitat:

Falls die Standardabweichung nicht bekannt ist, wird diese eben basierend auf der Stichprobe geschätzt.

Wenn du dir die Teststatistiken von Gauß- und t-Test anschaust, sollte sofort klar werden, dass beim t-Test eben die Varianz geschätz wird. Das ist der einzige Unterschied.

12.05.2015, 16:53

Agent 47

Auf diesen Beitrag antworten »

Ich glaube wir "reden" gerade aneinander vorbei...
Ich weiß schon, dass beim t-Test die Varianz aufgrund der Stichprobe geschätzt wird, darum geht es ja.
In der Angabe zu dem Beispiel habe ich auch ganz klar nur ein s=235 gegeben, also die empirische Standardabweichung.
Aber bei dem zweiten Fragepunkt wurde in der Lösung der z-Wert der stand. Normalverteilung berechnet und meine Frage ist wieso darf/muss man das machen oder ist das ein Fehler und ich müsste schon mit der t-Verteilung rechnen?

Ich weiß leider auch nicht was du mir mit dem ZGS erklären willst.
Den habe ich soweit schon verstanden, um den geht es mir nicht, meine Frage war ob für die genannten Test-Statistiken n>30 eine ausreichende Voraussetzung ist, wenn nicht gegeben ist, dass die Grundgesamtheit normalverteilt ist.

Anzeige

12.05.2015, 18:21

1nstinct

Auf diesen Beitrag antworten »

Zitat:

die genannten Test-Statistiken n>30 eine ausreichende Voraussetzung ist

Was heißt aussreichend? Für eine Klausur? Für die Entscheidung eines Bauers für die eine oder andere Apfelsorte? Für ein Pharmaunternehmen in Bezug auf ein Medikament? Für die Herstellung von medizinischen Geräten?

Wie gesagt, der ZGS gilt für $\begin{eqnarray*} n\to \infty \end{eqnarray*}$ , es wird also immer ein Fehler vorhanden sein.
Wenn dein Prof gesagt hat, ab 30 kann man auch die entsprechende Normalverteilung testen, dann mach das. Mehr kann ich dazu nicht sagen.

Zitat:

s=235 gegeben, also die empirische Standardabweichung

Die empirische Standardabweichung wird doch gerade aus den Stichproben geschätzt, wenn du aber eine Varianz gegeben hast, benutz sie und führ den Gaußtest durch.

12.05.2015, 19:00

Agent 47

Auf diesen Beitrag antworten »

Ok ich habe gerade gesehen, dass es auf Wikipedia eindeutig steht, das habe ich übersehen sorry.
http://de.wikipedia.org/wiki/Einstichproben-t-Test
Hier steht eindeutig, dass bei unbekannter Verteilung der Grundgesamtheit n>30 ausreichend ist um die Tests durchzuführen. Nichts anderes habe ich gemeint.
Und das sind ja allgemein gültige Tests mit vorgeschriebener Vorgangsweise, das spielt doch überhaupt keine Rolle welche Werte ich testen will.
Keine Ahnung was du damit gemeint hast.

Und ich habe eben keine Standardabweichung (wieso schreibst du Varianz?) gegeben, außer der empirischen welche aus der Stichprobe geschätzt wurde, das ist ja mein Problem!

Es wird in der Lösung anscheinend dieser Test verwendet: http://de.wikipedia.org/wiki/Gau%C3%9F-T...-Gau.C3.9F-Test
obwohl kein Sigma bekannt ist.

13.05.2015, 07:47

Huggy

Auf diesen Beitrag antworten »

Man sollte hier mal 2 Dinge auseinanderhalten:

(1) Grundgesamt normalverteilt ( $\begin{eqnarray*} N \end{eqnarray*}$ ) oder nicht ( $\begin{eqnarray*} \bar N \end{eqnarray*}$ )
(2) Standardabweichung bekannt ( $\begin{eqnarray*} B \end{eqnarray*}$ ) oder aus der Stichprobe geschätzt ( $\begin{eqnarray*} \bar B \end{eqnarray*}$ )

Durch Kombination ergeben sich insgesamt 4 Fälle für Tests bezüglich des Mittelwertes.

$\begin{eqnarray*} NB \end{eqnarray*}$ : Man verwendet den Gaußtest.

$\begin{eqnarray*} N \bar B \end{eqnarray*}$ : Man verwendet den t-Test. Der Unterschied zum Gaußtest ist lediglich, dass man die kritischen Werte aus der t-Verteilung entnimmt statt aus der Normalverteilung. Ist der Stichprobenumfang hinreichend groß (Faustformel $\begin{eqnarray*} n \geq 30 \end{eqnarray*}$ ), kann man statt der t-Verteilung wieder die Normalverteilung nehmen, da sich die t-Verteilung dann der Normalverteilung annähert.

$\begin{eqnarray*} \bar NB \end{eqnarray*}$ : Bei genügend großem Stichprobenumfang (Faustformel $\begin{eqnarray*} n \geq 30 \end{eqnarray*}$ ) kann man aufgrund des zentralen Grenzwertsatzes den Gaußtest verwenden.

$\begin{eqnarray*} \bar N \bar B \end{eqnarray*}$ : Auch hier verwendet man bei genügend großem Stichprobenumfang üblicherweise den Gaußtest. Man sollte allerdings beachten, dass man dann 2 Näherungen kumuliert, nämlich die durch den zentralen Grenzwertsatz und die Näherung der t-Verteilung durch die Normalverteilung. Das macht den Gesamtfehler größer.

13.05.2015, 10:30

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von Huggy
$\begin{eqnarray*} \bar N \bar B \end{eqnarray*}$ : Auch hier verwendet man bei genügend großem Stichprobenumfang üblicherweise den Gaußtest.

Wobei man streng genommen die Gausstest-Testgröße hier ja gar nicht berechnen kann, da $\begin{align*} \sigma \end{align*}$ unbekannt ist. Augenzwinkern

Augenzwinkern

Aber ist schon klar, du meinst hier diese Formel mit $\begin{align*} s \end{align*}$ statt $\begin{align*} \sigma \end{align*}$ eingesetzt. Prinzipiell ist es eigentlich egal, ob man in diesem Fall $\begin{align*} \bar{N}\bar{B} \end{align*}$ diesen Gauss-Test oder den t-Test anwendet, da bei derart großen $\begin{align*} n \end{align*}$ für die Quantile eh $\begin{align*} t_{n-1,\alpha}\approx z_{\alpha} \end{align*}$ gilt. Augenzwinkern

Augenzwinkern

13.05.2015, 11:29

Agent 47

Auf diesen Beitrag antworten »

Ok danke für die Hilfe, so habe ich es mir eigentlich eh gedacht.
Nur ist n=47 kein besonders großer Stichprobenumfang oder?
Das Problem welches ich noch habe ist folgendes: Wenn man mit der Test-Statistik den z-Wert berechnet bekommt man laut Lösung z=0,438 womit man aus der Tabelle der stand. Normalverteilung ein P=0,3336 bekommt (wobei ich glaube hier wurde ein Rundungsfehler gemacht).
Würde man mit der t-Verteilung rechnen bekommt man den selben t-Wert, aber in unserer Tabelle ist für diesen Freiheitsgrad der kleinste t-Wert ca. 1,3 also zu groß um den P-Wert auch nur annähernd bestimmen zu können.
Wurde hier nur deshalb mit dem z-Wert gerechnet und der Fehler den man dabei macht in Kauf genommen, weil die Tabelle der t-Verteilung gar keinen P-Wert liefert?

13.05.2015, 13:51

Huggy

Auf diesen Beitrag antworten »

Mir ist dein Problem nicht so recht klar. Der Stichprobenumfang $\begin{eqnarray*} n = 47 \end{eqnarray*}$ ist jedenfalls größer als die in der Faustformel genannte Grenze $\begin{eqnarray*} n \geq 30 \end{eqnarray*}$ .

Die Testgröße nenne ich mal t statt z, weil z üblicherweise für die Umkehrfunktion der Standardnormalverteilung verwendet wird. Es ergibt sich:

$\begin{eqnarray*} t \approx 0.437595 \end{eqnarray*}$

Daraus ergeben sich mit der Normalverteilung bzw. der t-Verteilung mit 46 Freiheitsgraden berechnet folgende p-Werte:

$\begin{eqnarray*} p_N \approx 0.33084 \end{eqnarray*}$

$\begin{eqnarray*} p_t \approx 0.331864 \end{eqnarray*}$

Als kritische Werte ergeben sich zum Signifikanzniveau 0.1:

$\begin{eqnarray*} t_{c,N} \approx 1.28155 \end{eqnarray*}$

$\begin{eqnarray*} t_{c,t} \approx 1.30023 \end{eqnarray*}$

Wenn man nur Tabellen der t-Verteilung zur Verfügung hat, kann es natürlich sein, dass diese nicht weit genug reichen oder man interpolieren muss.

13.05.2015, 17:11

Agent 47

Auf diesen Beitrag antworten »

Du hast geschrieben für n>=30 kann man den Gaußtest verwenden, wenn die Standardabweichung bekannt ist, das ist aber hier nicht der Fall.
Wenn die Grundgesamtheit nicht normalverteilt ist und die Standardabweichung nicht bekannt ist, hast du gemeint bei genügend großem n kann man den Gaußtest verwenden.
Reicht hierfür also auch n>=30?
Und wir haben die P-Werte eben immer nur mit den Tabellen bestimmt, nie direkt berechnet und ich kann den P-Wert für dieses t auch nicht interpolieren, weil das t nicht zwischen zwei Werten in unserer Tabelle liegt.

13.05.2015, 18:20

Huggy

Auf diesen Beitrag antworten »

Mir ist für den hier vorliegenden Fall $\begin{eqnarray*} \bar N \bar B \end{eqnarray*}$ keine von $\begin{eqnarray*} n \geq 30 \end{eqnarray*}$ abweichende Empfehlung bekannt. Und da kannst du mit der Normalverteilung arbeiten.

Abgesehen davon kann ich mir nicht vorstellen, dass der obige Testwert nicht innerhalb deiner Tabelle liegt. Er liegt ja recht nahe bei der Mitte und nicht im Rand der Verteilung.
Vielleicht interpretierst du deine Tabelle falsch. Sie könnte z. B. statt der Verteilungsfunktion deren Umkehrfunktion angeben. Auch sind Tabellen so aufgebaut, dass man fehlende Teile durch Symmetriebetrachtungen ergänzen kann.

13.05.2015, 19:57

Agent 47

Auf diesen Beitrag antworten »

Ja kann schon sein.
Unsere Tabelle ist so aufgebaut:
--------------------Area in One Tail
-----| 0,005 | 0,01 | 0,025 | 0,05 | 0,10
--------------------Area in Two Tails
n-1 | 0,01 | 0,02 | 0,05 | 0,10 | 0,20
------------------------------------------------------
45 | 2,690 | 2,412 | 2,014 | 1,679 | 1,301

Hoffe es ist klar wie das gemeint ist.
Links immer die Freiheitsgrade und dann die jeweiligen t-Werte für die Wkt. je nachdem ob einseitig oder beidseitig.
Kann ich daraus den P-Wert für die t-Verteilung bestimmen?

14.05.2015, 07:27

Huggy

Auf diesen Beitrag antworten »

Wenn die Tabelle nicht weiter reicht, kannst du mit ihr für deine Aufgabe den p-Wert nicht auf Basis der t-Verteilung bestimmen. Die Tabelle beruht im im Prinzip auf der Umkehrfunktion der t-Verteilung. Sie ist speziell zugeschnitten auf die Bestimmung kritischer Werte beim Hypothesentest zu einem gegebenen Signifikanzniveau. Die Eingangszeile ist das Signifikanzniveau, die Ausgangszeile der kritische Wert. Um mit dieser Tabelle zu deiner Aufgabe den p-Wert bestimmen zu können, müsste die Eingangszeile (einseitig) noch den Bereich zwischen 0,3 und 0,4 abdecken. Da man aber üblicherweise keine Signifikanzniveaus größer 0,1 betrachtet, hört sie bei 0,1 auf.

14.05.2015, 14:32

Agent 47

Auf diesen Beitrag antworten »

Ok dann habe ich die Tabelle auch richtig verstanden.
Vielen Dank nochmal für die Hilfe!

1

Verwandte Themen

Die Beliebtesten »

Die Größten »

Die Neuesten »