Diskretisieren einer Zufallsvariablen

24.10.2006, 11:40

Yoda

Diskretisieren einer Zufallsvariablen

Hallo!
In der Literatur findet man zu Diskretisierungsmethoden wenig. Daher meine Bitte, mir die Diskretisierung einer Zufallsvariablen zu erläutern.

Meine Problematik besteht aus einer stetigen Zufallsvariablen X, die auf der reellen Achse Zahlen (Daten) verteilt. Letztenendes möchte ich deren Verteilung bestimmen. Ich hoffe, ich gehe richtig in der Annahme, dass bei Schätzungen von Verteilungen die Wahrscheinlichkeitsdichte nur gemittelt über endliche Intervalle der Zufallsvariablen geschätzt werden können. Somit hat man die Notwendigkeit der Diskretisierung.

Reicht es nun bzgl. des Diskretisierens der Zufallsvariablen ihren Wertebereich in n-Teile zu gliedern?
D.h. in n gleich große Intervalle, so dass $\begin{eqnarray*} X_{n} \end{eqnarray*}$ die diskrete Zufallsvariable ist, die mit Wahrscheinlichkeit $\begin{eqnarray*} p_{n}:=P[X \in Intervall_{n}] \end{eqnarray*}$ den Wert $\begin{eqnarray*} x_{i} \end{eqnarray*}$ annimmt.

Ist die Diskretisierung damit abgeschlossen? Oder muß man sich zu jeder Diskretisierung auch Gedanken über ihre Konvergenz der Unterteilung machen (also über Verfeinerungen usw.) ?

Gruß und danke im voraus,
Yoda
P.S: Tut mir leid, ich komme mit dem Formeleditor nicht klar. smile

PPS kurellajunior: geformelt Wink

24.10.2006, 15:07

Auf diesen Beitrag antworten »

RE: Diskretisieren einer Zufallsvariablen

Zitat:

Original von Yoda
Reicht es nun bzgl. des Diskretisierens der Zufallsvariablen ihren Wertebereich in n-Teile zu gliedern?

Reicht wofür - das ist die Frage.

Jede Schätzung der Verteilung kann natürlich nur so gut sein, wie die Feinheit (oder eben Grobheit) der Intervallunterteilung angelegt ist. D.h., zwei stetige Zufallsgrößen $\begin{eqnarray*} X,Y \end{eqnarray*}$ , deren Verteilung zwar verschieden ist, für die aber $\begin{eqnarray*} P(X\in I_n)=P(Y\in I_n) \end{eqnarray*}$ für alle Intervalle $\begin{eqnarray*} I_n \end{eqnarray*}$ einer gewählten Intervalleinteilung gilt, wird man durch diese Intervalleinteilung niemals unterscheiden können.

Aus statistischer Sicht sollte die Intervalleinteilung nicht so sehr in Intervalle gleicher Länge münden, als vielmehr in Intervalle (möglichst) gleicher Wahrscheinlichkeit! Also bei $\begin{eqnarray*} k \end{eqnarray*}$ Intervallen $\begin{eqnarray*} I_1,I_2,\ldots,I_k \end{eqnarray*}$ diese möglichst so einteilen, dass

$\begin{eqnarray*} P(X\in I_n) \approx \frac{1}{k} \end{eqnarray*}$ für $\begin{eqnarray*} n=1,\ldots,k \end{eqnarray*}$

gilt.

Aus Genauigkeitsgründen der zu bestimmenden Verteilung sollte man die Intervallzahl also möglichst hoch wählen. Andererseits macht das wenig Sinn, wenn man nur wenige Daten zur Verfügung hat, und dann etwa viele Klassen "leer" bleiben. Aus diesen beiden sich gegensätzlich verhaltenden Erwägungen liegt eine vernünftige Intervallanzahl (z.B. für Chi-Quadrat-Anpassungstest) irgendwo in der Größenordnung $\begin{eqnarray*} k=O(\sqrt{N}) \end{eqnarray*}$ , wobei $\begin{eqnarray*} N \end{eqnarray*}$ die Stichprobenanzahl ist.

24.10.2006, 21:58

Marvin42

Auf diesen Beitrag antworten »

die Abb. einer ZV ist doch
$\begin{eqnarray*} \Omega \rightarrow R \end{eqnarray*}$

also dann doch eher den Definitionsbereich einteilen als den Wertebereich.
Ich schreib schon wieder Blödsinn. einfach ignorieren.

Neue Frage »

Antworten »

Diskretisieren einer Zufallsvariablen

Verwandte Themen