Varianz

Neue Frage »

Hubert1965! Auf diesen Beitrag antworten »
Varianz
Meine Frage:
Varianz

Hallo Leute,

Ich habe ein reales Problem, das ich euch aber vorerst in einer abstrahierten Version vorlegen möchte. (Das reale Problem erläutere ich am Ende.)

Das vereinfachte Problem:
Ich habe einen Roulette-Kessel, der nicht 37, sondern N Fächer hat.
Ich habe einen Sack mit genau N Murmeln, nämlich:
r rote
b blaue
N-(r+b) schwarze
Ich öffne den Sack und lasse alle Murmeln auf den Roulettekessel purzeln. In jedes Fach fällt genau eine Murmel.
Ich interessiere mich nun für jene Stellen, wo eine rote und eine blaue Murmel in benachbarten Fächern liegen, und zwar links die rote und rechts die blaue.
Ich suche:
Erwartungswert: Wie viele rot-blau-Paare sind zu erwarten?
Varianz bzw. Standardabweichung: Wie weit weg vom Erwartungswert ist mit zufälligen Ergebnissen zu rechnen? (Eigentlich geht es um diese Frage: Wenn mir ein bestimmtes Ergebnis gezeigt wird: Wie wahrscheinlich ist es, dass es wirklich zufällig entstanden ist? Mehr dazu beim realen Problem weiter unten.)

Erwartungswert:
Der Erwartungswert ist:
E = r*b/(N-1)
Beweis:
Ich betrachte ein bestimmtes Fach. Die Wahrscheinlichkeit, dass eine rote Murmel hineinfällt ist:
p(r) = r/N
Die Kugeln, die ins Fach rechts daneben fallen könnten, haben nur mehr (N-1) Fächer zur Auswahl. Daher ist die Wahrscheinlichkeit, dass in dieses Nachbarfach eine blaue Murmel fällt:
p(b) = b/(N-1)
Die Wahrscheinlichkeit das beide Ereignisse eintreten ist:
p(rb) = p(r) * p(b) = r*b/(N*(N-1))
(Hinweis: Ich hätte auch mit der blauen Murmel beginnen können und ins linke Nachbarfach eine rote fallen lassen können. Dann haben p(r?) und p(b?) zwar andere Werte (ihre Nenner sind vertauscht), aber ihr Produkt p(r?b?) ist genau dasselbe.)
Der Roulettekessel hat genau N Stellen, an denen das passieren kann, also ist der Erwartungswert:
E = N * p(rb)
E = N*r*b/(N*(N-1))
E = r*b/(N-1)
qed

Varianz:
Da stecke ich fest. Ich weiß nicht mal, wie und wo ich ansetzen soll um die Varianz zu berechnen.
Ich bitte um Hilfe!

Nummerisches Experiment:
Ich habe in einer Excel-Tabelle alle möglichen Kombinationen für (N=12, r=4, b=3) erzeugt und die Ergebnisse abgezählt. Das kommt raus:
Es gibt 27720 verschiedene Kombinationen.
In 5880 Kombinationen gibt es gar kein rb-Paar.
In 14112 Kombinationen gibt es ein rb-Paar.
In 7056 Kombinationen gibt es zwei rb-Paare.
In 672 Kombinationen gibt es drei rb-Paare.
Mittelwert:
Insgesamt gibt es 0*5880 + 1*14112 + 2*7056 + 3*672 = 30240 rb-Paare.
Im Mittel sind das 30240/27720 = 12/11 = 1,090909090909 rb-Paare.
Das stimmt exakt mit dem Erwartungswert aus der obigen Formel überein:
E = r*b/(N-1) = 3*4/(12-1) = 12/11
Varianz:
5880 ?Messpunkte? liegen im Abstand von -12/11 vom Erwartungswert.
14112 Punkte haben den Abstand -1/11.
7056 Punkte 10/11.
672 Punkte 21/11.
Quadriert man die Abstände und multipliziert sie mit ihrer Häufigkeit, erhält man:
5880*144/121 + 14112*1/121 + 7056*100/121 + 672*441/121 = 1902474/121
Teilt man das noch durch N erhält man die Varianz:
Var = (1902474/121)/27720 = 1902474/3354120
Das kann man durch 5544 kürzen:
Var = 336/605 = 0,55537190082645
Die Wurzel daraus ist die Standardabweichung, die ich eigentlich benötige:
s = wurzel(336/605) = 0,74523278297889

Ich habe also für N=12, r=4 und b=3 diese Werte:
E = 12/11
Var = 336/605
Für E habe ich auch eine Formel:
E = r*b/(N-1)
Aber für Var suche ich noch eine Formel.

Das reale Problem:
Die Sache mit dem Roulette-Kessel war eine Abstraktion. In Wirklichkeit geht es um Wörter in einem Text.
Ich habe einen langen Text (ca. 100.000 Wörter) und soll daraus Wortpaare extrahieren, die zusammen einen Begriff ergeben (meistens, aber nicht immer, sind das Namen). Ich soll also finden: ?New York?, ?Albert Einstein? und ?erste Hilfe?. Ich soll aber nicht diese Kombinationen finden: ?der in?, ?und der?. Das Problem: ?der in? kommt weitaus häufiger vor als ?New York?. Der Grund: Wörter wie ?der? und ?in? kommen deutlich häufiger vor als ?New? oder ?York?.
Die Lösung: Ich berechne aus den Häufigkeiten zweier Wörter den Erwartungswert E für deren zufälliges gemeinsames Auftreten und die dazugehörige Standardabweichung s. Die tatsächliche Häufigkeit eines Paares sei H. Dann sollte der Wert W=(H-E)/s ein ziemlich gutes Maß dafür sein, ob ein Wortpaar wirklich ein Paar mit einer Bedeutung ist (dann ist W positiv und groß), oder ob die beiden Wörter nichts miteinander zu tun haben (dann ist W in der Nähe von 0 oder negativ).
Ich analysiere alle existierenden Wortpaare, berechne für jedes W und sortiere die Paare dann nach W. Diese Liste muss dann noch händisch gesichtet werden, aber dank der Vorsortierung muss ich nicht mehr alle Paare anschauen, sondern nur die, die am Ende der Liste stehen.


Meine Ideen:
Liebe Grüße
Hubert Schölnast
HAL 9000 Auf diesen Beitrag antworten »

Prinzipiell sind deine Überlegungen zum Erwartungswert richtig, ich stelle sie aber mal in Hinblick auf die Varianzberechnung auf eine andere Bezeichnungsgrundlage:

Sei

,

selbstredend wird modulo betrachtet, wegen der kreisförmigen Anordnung der Fächer.

Dann ist gerade die zufällige Anzahl der beschriebenen Rot-Blau-Paasre. Nochmal, unter dem Gesichtspunkt dieser Bezeichnungen, die Erwartungswertberechnung:



Bei der Varianz berechnen wir zunächst das zweite Moment:



Der erste Summand ist wegen klar, bei der zweiten Doppelsumme mit ist zu unterscheiden zwischen direkten Nachbarn und dem Rest:

Offenkundig ist nämlich , denn es kann ja nicht ein Fach zugleich eine rote und blaue Kugel enthalten. Für die restlichen (es sind deren noch übrig gebliebene Paare) gilt nun



so dass man auf



kommt, was zur Varianz



führt. Ich hoffe, ich hab mich nirgendwo verrechnet - falls doch: Der Weg ist zumindest prinzipiell richtig. Augenzwinkern
Hubert1965! Auf diesen Beitrag antworten »

Danke!
Ich muss mir das noch genauer zu Gemüte führen, weil ich einige Schritte (noch) nicht nachvollziehen kann. (Meine letze Mathe-Stunde ist nun doch schon mehr als 30 Jahre vorüber.) Aber wenn ich in die Formel N=12,r=4,b=3 einsetze, kommt (nach dem Kürzen durch 2) 336/605 raus, also genau der Wert, den ich "experimentell" gefunden habe.

Nochmals Danke!
Hubert1965 Auf diesen Beitrag antworten »

Hallo!

Nachdem es mir endlich gelungen ist, mein altes Matheboard-Konto wieder zu aktivieren (Passwort vergessen, und hatte urlaubsbedingt keinen Zugriff auf meine E-Mails) möchte ich mich nochmals für die Lösung meines Problems bedanken.

Ich hatte mittlerweile auch Zeit, Papier und Stift um mir die Lösung im Detail anzusehen. Ich kann sie nun nachvollziehen, und konnte in der Herleitung keine Fehler entdecken.

Danke!


LG
Hubert Schölnast
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »