Ereignis mit mehreren Zufallsvariablen berechnen

28.08.2017, 14:42

Hackensack

Ereignis mit mehreren Zufallsvariablen berechnen

Hallo zusammen,
ich stecke gerade an einem etwas komplizierteren stochastischem Problem fest, von dem ich nicht einmal sicher bin, ob es sich einfach berechnen lässt:

Es sollen N gleich normalverteilte Zufallsvariablen $\begin{eqnarray*} X_i \end{eqnarray*}$ gegeben sein, deren Verteilung auch bekannt ist (N ist fest und wird so im bereich 4-5 liegen, falls das von Bedeutung sein sollte).

Aus den Variablen wird der arithm. Mittelwert $\begin{eqnarray*} M = 1/N \sum_{i=1}^N X_i \end{eqnarray*}$ berechnet und ein Intervall $\begin{eqnarray*} [c_1M,c_2M] \end{eqnarray*}$ gebildet innerhalb dessen alle Variablen liegen sollen.

Sieht jemand einen Weg die Wahrscheinlichkeit zu berechnen alle N Variablen $\begin{eqnarray*} X_i \end{eqnarray*}$ in dem Intervall um ihren Mittelwert M liegen?

Was ich bis jetzt habe ist die Verteilung für den Mittelwert. Danach ist Die Summe aus N normalverteilten Variablen auch wieder normalverteilt und deswegen der Mittelwert normalverteilt mit $\begin{eqnarray*} \mu_M=\mu_X \end{eqnarray*}$ und $\begin{eqnarray*} \sigma_M = \frac{1}{\sqrt{N}} \sigma_X \end{eqnarray*}$

28.08.2017, 14:59

HAL 9000

Auf diesen Beitrag antworten »

Die Wahrscheinlichkeit wird vom Verhältnis $\begin{align*} \frac{\mu}{\sigma} \end{align*}$ abhängig sein, abgesehen davon aber nicht von $\begin{align*} \mu,\sigma \end{align*}$ einzeln. Offenkundig ist z.B., dass bei fest gewählten $\begin{align*} c_1<1 \end{align*}$ und $\begin{align*} c_2>1 \end{align*}$ die gesuchte Wahrscheinlichkeit gegen 1 geht, wenn $\begin{align*} \frac{\mu}{\sigma}\to \infty \end{align*}$ .

28.08.2017, 15:57

Hackensack

Auf diesen Beitrag antworten »

RE: Ereignis mit mehreren Zufallsvariablen berechnen
Hinweis: Ich bin nicht zwangsläufig auf der Suche nach einer Berechnungsmöglichkeit die sich von Hand durchführen lässt, sondern nach einem theoretischen Ansatz für das Problem, den ich notfalls auch einfach numerisch in einem Skript berechnen kann.

28.08.2017, 15:58

HAL 9000

Auf diesen Beitrag antworten »

Wenn man sich das ganze mal aufschreibt, landet man ganz schnell bei Wahrscheinlichkeiten der $\begin{align*} N \end{align*}$ -dimensionalen Normalverteilung, zu berechnen für relativ kompliziert zu beschreibende Polyeder im $\begin{align*} N \end{align*}$ -dimensionalen Raum (mit Seitenflächen ziemlich "schief" im Raum). Eine einigermaßen handhabbare Formel ist da nicht zu erwarten, selbst unter Einsatz von $\begin{align*} \Phi \end{align*}$ wird man das vermutlich nicht "integralfrei" hinbekommen.

Was natürlich immer geht, wäre Monte Carlo, aber das natürlich dann nur für einzelne $\begin{align*} N,c_1,c_2,\frac{\mu}{\sigma} \end{align*}$ immer wieder neu.

28.08.2017, 16:14

Hackensack

Auf diesen Beitrag antworten »

Zitat:

Original von HAL 9000
Was natürlich immer geht, wäre Monte Carlo, aber das natürlich dann nur für einzelne $\begin{align*} N,c_1,c_2,\frac{\mu}{\sigma} \end{align*}$ immer wieder neu.

Monte-Carlo habe ich schon ausprobiert um die richtigen Wahrscheinlichkeiten zu berechnen. Das Problem ist allerdings, dass man relativ viele Versuche braucht um eine ausreichende Genauigkeit zu erreichen.

Die Berechnung müsste allerdings für meinen Verwendungszweck relativ schnell berechenbar sein. Eindimensionale Integrale wären kein Problem, die kann ich numerisch noch ziemlich schnell integrieren.

Und zur Not würde es auch eine Abschätzung nach unten tun, also eine Mindestwahrscheinlichkeit mit der alle Variablen im Intervall liegen.

28.08.2017, 16:20

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von Hackensack
Eindimensionale Integrale wären kein Problem, die kann ich numerisch noch ziemlich schnell integrieren.

Das sind sie aber leider nicht, es werden N-dimensionale sein.

Welche Genauigkeit benötigst du denn?

28.08.2017, 16:40

Hackensack

Auf diesen Beitrag antworten »

Zitat:

Original von HAL 9000

Welche Genauigkeit benötigst du denn?[/quote]

Die ersten 3 Nachkommastellen sollten schon stimmen. Und die Berechnung sollte in weniger als einer Sekunde durchführbar sein.

Ein Ansatz von mir sah z.B. so aus:

$\begin{eqnarray*} \int_{- \infty }^{+ \infty } N(\sigma_M,\mu_m,M) * (F_X(c_2 M)-F_X(c_1M))^N \, dM \end{eqnarray*}$
wobei N die Normalverteilungsdichte und F die kumulierte Verteilungsfunktion ist.

Allerdings kam eine zu hohe Wahrscheinlichkeit raus

28.08.2017, 16:54

HAL 9000

Auf diesen Beitrag antworten »

Für (absolute) $\begin{align*} 3\sigma \end{align*}$ -Genauigkeit (also 99.5% Sicherheit) $\begin{align*} \Delta p \end{align*}$ benötigt man ja maximal $\begin{align*} N\approx \frac{9}{4(\Delta p)^2} \end{align*}$ Versuche bei Monte Carlo. Für $\begin{align*} \Delta p = 0.001 \end{align*}$ wären das also 2250000 Versuche.

Zitat:

Original von Hackensack
Und die Berechnung sollte in weniger als einer Sekunde durchführbar sein.

Sportlich, aber als optimiertes Kompilat machbar, zumindest auf einer halbwegs modernen Platform. Wenn mehrere Kerne zur Verfügung stehen erst recht.

28.08.2017, 17:51

Hackensack

Auf diesen Beitrag antworten »

Ich bin da leider durch technische Anforderungen etwas eingeschränkt, sonst wäre das über eine vernünftige parallele Implementierung durchaus machbar.

Bei dem vollständigen Problem soll übrigens noch zusätzlich der Mittelwert in einem Bereich $\begin{eqnarray*} [M_{min},M_{max}] \end{eqnarray*}$ liegen.

Lässt sich die Wahrscheinlichkeit dass alle Werte innerhalb eines Intervalls liegen denn nicht igendwie einschränken, indem man das Intervall irgendwie durch das kleinste Intervall $\begin{eqnarray*} [c_1M_{min},c_2M_{min}] \end{eqnarray*}$ abschätzt?

28.08.2017, 18:11

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von Hackensack
Lässt sich die Wahrscheinlichkeit dass alle Werte innerhalb eines Intervalls liegen denn nicht igendwie einschränken, indem man das Intervall irgendwie durch das kleinste Intervall $\begin{eqnarray*} [c_1M_{min},c_2M_{min}] \end{eqnarray*}$ abschätzt?

Was verstehst du unter $\begin{eqnarray*} M_{min} \end{eqnarray*}$ ? Und in welchem Sinne ist dieses Intervall dann ein "kleinstes" ?

Mal noch die Ergebnisse nachgereicht (2250000 Monte-Carlo-Simulationen auf i7-4790k).
8 Threads: 50ms
1 Thread: 240ms

28.08.2017, 23:35

Hackensack

Auf diesen Beitrag antworten »

Ok. Womit hast du denn diese Ergebnisse gemessen?

Ich bin leider dazu gezwungen Python zu verwenden, was ja aufgrund von Interpreter leider etwas langsamer ist als Compilersprachen. Damit habe ich derzeit nur ca. ein hunderstel deiner Rechengeschwindigkeit, wobei mein Code allerdings auch noch nicht optimiert ist

$\begin{eqnarray*} M_{min} \end{eqnarray*}$ soll der kleinste Mittelwert sein, der zulässig ist. Und das kleinste Intervall (im Sinne von kleinste Ausdehnung) um den Mittelwert ist dann genau bei diesem Wert, wenn die Intervallgrenzen für $\begin{eqnarray*} X_i \end{eqnarray*}$ linear vom Mittelwert abhängen

29.08.2017, 08:20

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von Hackensack
$\begin{eqnarray*} M_{min} \end{eqnarray*}$ soll der kleinste Mittelwert sein, der zulässig ist.

Verstehe nicht, was du hier mit "zulässig" meinst. Aufgrund der Normalverteiltheit gibt es für $\begin{eqnarray*} M \end{eqnarray*}$ keine Schranken nach oben und unten, auch wenn es nach beiden Seiten irgendwann ziemlich unwahrscheinlich wird.

Zur anderen Fragen: Das Programm ist in C geschrieben, also (wie ich schon sagte) ein echtes Kompilat. Das Programm arbeitet mit dem schnellen, aber doch ganz guten Zufallszahlengenerator MT19937, die Normalverteilungswerte werden erzeugt per Polar-Methode.

Eine vage Idee hätte ich noch:

Ich weiß jetzt nicht, ob du mit $\begin{align*} c_1,c_2,\frac{\mu}{\sigma} \end{align*}$ ein breites Parameterfeld abdecken willst, oder ob es eher doch eng ist. In letzterem Fall kannst du dir ja auch die Wahrscheinlichkeitswerte an einer vorab festgelegten Menge von Gitterpunkten dieses Parameterfeldes vorberechnen (ob nun per Monte-Carlo oder sonstwie), quasi eine dreidimensionale Lookup-Table, und dazwischen dann Interpolation betreiben. Dazu sollte natürlich gewährleistet sein, dass du mit den Anfragen nie über dein Gitter hinaus kommst, denn Extrapolation geht hier mit ziemlicher Sicherheit schief (wenn man's übertreibt, sogar dann mit Wahrscheinlichkeitsprognosewerten <0 oder >1 Augenzwinkern

03.09.2017, 23:20

Hackensack

Auf diesen Beitrag antworten »

Mir ist bewusst, dass der Mittelwert unbeschränkt ist. Allerdings gibt es noch eine eine Vorgabe für die Variablen, die ich im Anfang nicht dazu geschrieben habe um das problem nicht zusätzlich zu verkomplizieren:
Und zwar sollen nicht nur alle Variablen in einem Intervall um den Mittelwert liegen, sondern der Mittelwert selbst soll noch in einem fest vorgegebenen Intervall $\begin{eqnarray*} [M_{min},M_{max}] \end{eqnarray*}$ liegen.

Mein aktueller gewählter Ansatz schätzt jetzt diese Wahrscheinlichkeit mit der alle Variablen X_i in dem Intervall um ihren Mittelwert UND der Mittelwert innerhalb des fest vorgegebenen Intervalls liegt nach unten ab.

Und zwar gilt
$\begin{eqnarray*} P >= \int_{M_{min} }^{M_{max} } N(\sigma_M,\mu_m,M) * (F_X(c_2 M)-F_X(c_1M))^N \, dM \end{eqnarray*}$
wobei N die Normalverteilungsdichte und F die kumulierte Verteilungsfunktion ist.

Die Abschätzung weicht zwar noch teilweise relativ stark ab, gibt aber schon ganz gut die Größenordnung an in der die Wahrscheinlichkeit ungefähr liegen wird. Und mit dieser Abschätzung nach unten kann ich dann die Wahrscheinlichkeit, dass obiger Fall nicht eintreten wird nach oben abschätzen.

04.09.2017, 09:32

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von Hackensack
Allerdings gibt es noch eine eine Vorgabe für die Variablen, die ich im Anfang nicht dazu geschrieben habe um das problem nicht zusätzlich zu verkomplizieren:

Ich bin immer schlichtweg begeistert, wenn die Leute erst so nach und nach alle Informationen auf den Tisch packen, am besten durch die Hintertür in einer Lösungs-/Ansatzbeschreibung. unglücklich

So ein Vorgehen ist nicht geeignet, die Dinge "nicht zusätzlich zu verkomplizieren", es erzeugt nur vermeidbare Irritationen (s.o.).

Neue Frage »

Antworten »

Ereignis mit mehreren Zufallsvariablen berechnen

Verwandte Themen