Signifikanz einer normalverteilten Zufallsvariable bestimmen

25.11.2018, 19:21

Kimmy1995

Signifikanz einer normalverteilten Zufallsvariable bestimmen

Meine Frage:
Hallo ihr Lieben,

seit geraumer Zeit beschäftige ich mich mit dem Random-Forest-Algorithmus. Bei der Wichtigkeitsschätzung mit Hilfe der Signifikanz verstehe ich leider überhaupt nicht, wie vorzugehen ist... Das Problem ist, dass ich lediglich eine Definition gefunden habe und sonst keinerlei weitere Erklärungen im Internet oder in Büchern... Da das Problem rein mathematischer Natur ist, hoffe ich sehr, dass mir hier jemand einen Denkanstoß geben kann! smile

Gegeben:
- D := Durchschnitt der Werte einer Zufallsvariable (z.B. X)
- S := Dazugehörige Standardabweichung (bzgl. Zufallsvariable X)
- B := Konstanter Wert aus den natürlichen Zahlen

Hieraus wird bestimmt:
Z = D/(S/sqrt(B))

Nun wird angenommen, dass Z normalverteilt ist.

Gesucht:
Mit Hilfe der Normalverteilungsannahme soll die Signifikanz von Z bestimmt werden. Leider ist mir überhaupt nicht klar, wie ich hier vorgehen oder ansetzen muss...

Für jeden Tipp bin ich sehr dankbar! smile

Meine Ideen:
- Bei Z verstehe ich leider schon nicht, wie man den Erwartungswert oder die Varianz bestimmen kann... Immerhin ist Z einfach eine konkrete Zahl?
- Die Signifikanz ist mir nur als Irrtumswahrscheinlichkeit aus Hypotestentests oder Konfidenzintervallen bekannt... Aber auch wieder nicht für eine konkrete Zahl...

26.11.2018, 08:40

Huggy

Auf diesen Beitrag antworten »

RE: Signifikanz einer normalverteilten Zufallsvariable bestimmen

Zitat:

Original von Kimmy1995
- Bei Z verstehe ich leider schon nicht, wie man den Erwartungswert oder die Varianz bestimmen kann... Immerhin ist Z einfach eine konkrete Zahl?

Das ist so nicht richtig. Du vermengst hier Zufallsgrößen mit ihren Realisierungen. Das Ergebnis eines Wurfs mit einem Würfel is eine Zufallsgröße. Wirft man mehrfach, können sich unterschiedliche Ergebnisse zeigen. Das Ergebnis eines konkreten Wurfs ist eine Realisierung der Zufallsgröße. Diese Realisierung ist eine Zahl. Man muss also immer unterscheiden zwischen der Zufallsgröße, die keine Zahl ist (mathematisch gesehen ist sie eine Abbildung) und ihren Realisierungen, die Zahlen sind.

Du hast eine Zufallsgröße $\begin{eqnarray*} X \end{eqnarray*}$ . Wenn $\begin{eqnarray*} D \end{eqnarray*}$ der Mittelwert von Stichproben aus $\begin{eqnarray*} X \end{eqnarray*}$ ist, dann ist $\begin{eqnarray*} D \end{eqnarray*}$ auch eine Zufallsgröße. Zieht man wiederholt Stichproben, ergeben sich ja unterschiedliche Mittelwerte. Der Mittelwert einer konkreten Stichprobe ist eine Realisierung von $\begin{eqnarray*} D \end{eqnarray*}$ . Das ist eine Zahl.

Ist $\begin{eqnarray*} X \end{eqnarray*}$ normalverteilt, so ist bei gegebenem Stichprobenumfang $\begin{eqnarray*} n \end{eqnarray*}$ auch $\begin{eqnarray*} D \end{eqnarray*}$ normalverteilt. Bei genügend großem Stichprobenumfang gilt das näherungsweise auch dann, wenn $\begin{eqnarray*} X \end{eqnarray*}$ nicht normalverteilt ist. Wenn $\begin{eqnarray*} \sigma \end{eqnarray*}$ die Standardabweichung von $\begin{eqnarray*} X \end{eqnarray*}$ ist, dann ist (eventuell näherungsweise)

$\begin{eqnarray*} \sigma_D = \frac {\sigma} {\sqrt n} \end{eqnarray*}$

die Standardabweichung von $\begin{eqnarray*} D \end{eqnarray*}$ . $\begin{eqnarray*} Z=D/\sigma_D \end{eqnarray*}$ ist dann eine Zufallsgröße mit der Standardabweichung $\begin{eqnarray*} \sigma_Z=1 \end{eqnarray*}$ . Nun kann man sinnvoll die Frage stellen, ob eine Realisierung von $\begin{eqnarray*} Z \end{eqnarray*}$ signifikant von dem Erwartungswert von $\begin{eqnarray*} Z \end{eqnarray*}$ abweicht.

So etwas könnte bei dir gemeint sein. Mit dem Random-Forest-Algorithmus bin ich allerdings überhaupt nicht vertraut.

26.11.2018, 08:51

HAL 9000

Auf diesen Beitrag antworten »

Ja, die Struktur $\begin{eqnarray*} Z = \frac{D}{\frac{S}{\sqrt{B}}} \end{eqnarray*}$ riecht irgendwie nach Standardisierung, aber nur wenn

a) $\begin{eqnarray*} B=n \end{eqnarray*}$ , d.h. gleich dem Stichsprobenumfang ist, und

b) Die Ausgangszufallsgrößen $\begin{eqnarray*} X_1,\ldots,X_n \end{eqnarray*}$ , und damit auch deren Durchschnitt $\begin{eqnarray*} D=\bar{X}_n \end{eqnarray*}$ bereits zentriert sind, d.h., Erwartungswert Null besitzen.

In dem Fall würde der Zentrale Grenzwertsatz aussagen, dass $\begin{eqnarray*} Z \end{eqnarray*}$ näherungsweise standardnormalverteilt ist.

26.11.2018, 12:24

Kimmy1995

Auf diesen Beitrag antworten »

RE: Signifikanz einer normalverteilten Zufallsvariable bestimmen
Hey,

vielen Dank euch beiden, dass ihr euch die Zeit genommen habt und so ausführlich geantwortet habt! smile

Zu deinen Punkten HAL 9000:

a) Ja genau, B = n gilt, das hätte ich in meinem ersten Post korrekterweise nennen müssen...

b) Ich weiß leider nicht so ganz, wie ich den Erwartungswert überprüfen soll...

--------------------------
Also evtl. mal ein stark vereinfachtes Beispiel (n wäre hier natürlich zu klein, für gewöhnlich ist es deutlich größer)

Zufallsvariable X, welche die Ausprägungen xi annimmt:

x1 = 2
x2 = 1
x3 = 2

Es gilt n = B = 3.

Dann wäre gerundet der Durchschnitt D = 1,67, S = 0,57 und ÃD = S/√n = 0,33.
Für Z würde sich dann der Wert 5,07 ergeben.
--------------------------

An Huggy: Vielen Dank für das mathematisch korrekte Erklären der Zufallsvariablen...
Irgendwie hatte ich mich sofort auf die Zahlenwerte versteift und nicht weiter über den Hintergrund von diesen nachgedacht.

Da n für gewöhnlich deutlich größer ist, könnte man also davon ausgehen, dass D normalverteilt ist.

Für mein Beispiel erhalte ich also die Verteilungen:
X ~ N(1,67 ; 0,57) (Falls normalverteilt)
D ~ N( ? ; 0,33) (Ist das ? hier: 1,67/√n) (*)

-> Z := D/0,33 ~ N(?/0,33 ; 1) (**)
Hier entspricht D der Zufallsvariablen.

Aber was genau von der obigen Rechnung entspricht nun der Signifikanz von Z (***)?
Mir ist der Begriff in diesem Zusammenhang leider nicht geläufig...

(Die Fragen/ Unsicherheiten habe ich zur besseren Orientierung mit den *'chen gekennzeichnet)

Vielen Dank im Voraus für eure Unterstützung! smile

26.11.2018, 12:56

HAL 9000

Auf diesen Beitrag antworten »

Du rechnest mit $\begin{eqnarray*} Z = \sqrt{n}\frac{\bar{X}_n}{S} \end{eqnarray*}$ , dabei ist $\begin{eqnarray*} S \end{eqnarray*}$ aber nicht die Standardabweichung der Verteilung, sondern die empirische Standardabweichung der Stichprobe - so zumindest ist dein Beispiel deutlich zu lesen. Dieses $\begin{eqnarray*} Z \end{eqnarray*}$ entspricht der Testgröße des Einstichproben-t-Test zur Hypothese

$\begin{eqnarray*} H_0:\; \mu = 0 \end{eqnarray*}$

für den unbekannten Erwartungswert $\begin{eqnarray*} \mu \end{eqnarray*}$ der Grundgesamtheit - womöglich geht es hier ja darum (ob nun im größeren Kontext des mir unbekannten Random-Forest-Algorithmus, sei mal dahingestellt). Dieses $\begin{eqnarray*} Z \end{eqnarray*}$ besitzt bei normalverteilten $\begin{eqnarray*} X_i \end{eqnarray*}$ und unter $\begin{eqnarray*} H_0 \end{eqnarray*}$ eine $\begin{eqnarray*} t \end{eqnarray*}$ -Verteilung mit $\begin{eqnarray*} (n-1) \end{eqnarray*}$ Freiheitsgraden, die allerdings für $\begin{eqnarray*} n\to\infty \end{eqnarray*}$ in eine Standardnormalverteilung übergeht.

26.11.2018, 17:01

Kimmy1995

Auf diesen Beitrag antworten »

RE: Signifikanz einer normalverteilten Zufallsvariable bestimmen
Danke für deine schnelle Rückmeldung! smile

Der Tipp bzgl. des T-Test war vermutlich genau der richtige Ansatz smile

Ich habe mal eine PDF-Datei angehängt, in welcher ich die Berechnung exemplarisch durchgeführt habe. Vermutlich lässt sich die Irrtumswahrscheinlichkeit alpha am einfachsten über den Beibehaltungsbereich bestimmen?

Beim Beibehaltungsbereich selbst bin ich mir dann jedoch nicht sicher, wie ich mit n umgehen muss... n=3 ist ja bereits bei der konkreten Berechnung von Z miteingegangen. Demnach müsste ich ja richtigerweise auch n=3 bei t_(n-1) im Beibehaltungsbereich einsetzen. Würde ich dies machen, lies sich jedoch die Umformung nicht so einfach realisieren (und die Normalverteilungsannahme würde nirgends mit reinfliesen)...
In Kurz: Ich Zweifel sehr stark an der rotmarkierten Umformung...

Könntest du mir evtl. noch sagen, ob diese stimmt oder falsch ist?
Bzw. wie ich dann notfalls Z = -t_(2,(1-alpha/2) nach alpha auflösen kann?

Ich weiß deine Hilfe wirklich sehr zu schätzen!

Neue Frage »

Antworten »

Signifikanz einer normalverteilten Zufallsvariable bestimmen

Verwandte Themen