Gauss'sche Normalverteilung und Skalierung der Graphen

12.09.2012, 19:56

medieninformatiker

Gauss'sche Normalverteilung und Skalierung der Graphen

Hallo zusammen,

ich verzweifele momentan an der grafischen Darstellung von Messwerten und deren Auftreten/Streuung in Kombination mit einer Gauss'schen Normalverteilungs-Dichtekurve.

Meine grundsätzlichen Annahmen nach meinem bisherigen Verständnis - möglicherweise habe ich bereits hier etwas missverstanden:

Die Gauss'sche Normalverteilung (bzw. deren Dichtekurve, die "Gauss-Glocke") visualisiert die Wahrscheinlichkeiten von Streuungen um einen Erwartungswert abhängig von der Standardabweichung $\begin{eqnarray*} \sigma \end{eqnarray*}$ ( $\begin{eqnarray*} 0\sigma \end{eqnarray*}$ = arithmetisches Mittel aller Werte).

Die Y-Achse eines solches Graphen (also das Ergebnis von $\begin{eqnarray*} ~f(x) \end{eqnarray*}$ ) entspricht einer prozentualen Wahrscheinlichkeit (Wert * 100, also 0,2 => 20%). Demzufolge beträgt die Wahrscheinlichkeit des Auftretens des exakten Erwartungswerts (bzw. des arithmetischen Mittels der gesamten Messreihe) ungefähr 40%.

Aufgabe ist es nun, die Verteilung einer Reihe von Messwerten mit einem bestimmten Erwartungswert zusammen mit der Gauss-Glocke darzustellen - Messwert auf der X-Achse, Auftreten dieses Wertes auf der Y-Achse.

Dummerweise sieht das dann aus wie in Anhang 1 - zunächst dachte ich an eine fehlerhafte Skalierung, nach einigem Überlegen und Testen wurde mir dann aber die vermeintlich tatsächliche Ursache klar:

Gehen wir mal von Gewichtsmessungen und n Objekten mit einem Zielgewicht von je 50g aus.

Zehn dieser Objekte lege ich nun auf eine Waage, die auf 0,1g genau misst. Das Resultat sind z.B. folgende Werte:

$\begin{eqnarray*} 49,9 - 50,0 - 50,0 - 50,0 - 50,0 - 50,0 - 50,0 - 50,0 - 50,1 - 50,1 \end{eqnarray*}$

Jeder dieser Werte bildet einen Punkt (nennen wir es eine "Gruppe") auf der X-Achse, deren prozentuales Auftreten ich auf der Y-Achse auftrage:

$\begin{eqnarray*} 1 * 49,9 => 0,1 => 10% \end{eqnarray*}$
$\begin{eqnarray*} 7 * 50,0 => 0,7 => 70% \end{eqnarray*}$
$\begin{eqnarray*} 2 * 50,1 => 0,2 => 20% \end{eqnarray*}$

Nun nehmen wir eine präzisere Waage, nämlich mit einer Messgenauigkeit von 0,01g, auf die ich die selben zehn Objekte lege:

$\begin{eqnarray*} 49,93 - 49,96 - 49,98 - 49,99 - 50,00 - 50,01 - 50,02 - 50,04 - 50,06 - 50,07 \end{eqnarray*}$

Hier bestünde jede "Gruppe" nur aus einem Messwert - jeder dieser Messwerte hätte also eine "gemessene Wahrscheinlichkeit" von 0,1 = 10% - die "Auflösung" auf der X-Achse wäre deutlich höher.

Sprich: Um so präziser die Messwerte, um so geringer wird die Wahrscheinlichkeit des mehrfachen Auftretens eines dieser Messwerte, um so flacher wird meine Dichtekurve und um so weniger entspricht sie der Gauss-Glocke.

Multipliziere ich nun die Messwerte auf der Y-Achse - durch stumpfes Ausprobieren - mit einem Faktor > 1, siehts schon ziemlich "gaussig" aus (siehe Anhang 2).

Und genau hier weiß ich nicht mehr weiter - was tut man in diesem Fall, bzw. wie bekomme ich die beiden Kurven "synchron"? Habe ich evtl. etwas grundsätzliches missverstanden? Wo ist mein Denkfehler?

Das Integral bzw. die Fläche unter der Gauss-Glocke muss immer 1 betragen, richtig? Dies sollte dann ja auch für die Messwerte-Kurve zutreffen? Wäre es hier evtl. der richtige Ansatz, einen "Streckfaktor" für die Messwerte auf der Y-Achse zu ermitteln, so dass sich bei einer bestimmten Skalierung der Achsen eine Fläche von 1 ergibt?

Gruß,

Christian

13.09.2012, 10:39

medieninformatiker

Auf diesen Beitrag antworten »

Ein Stück weiter bin ich gekommen:

Ich trage auf der Y-Achse die relativen Häufigkeiten auf, die Gauss-Kurve ist allerdings eine Dichte-Kurve, also eine kumulierte Häufigkeit (?).

D.h. meine Messwert-Kurve muss ebenfalls die kumulierte Häufigkeit darstellen, d.h. ich muss die Summe der Häufigkeiten auftragen - damit erledigt sich auch das Problem der Präzision bzw. der "Auflösung" der Messwerte.

So ganz klar ist mir das allerdings trotzdem noch nicht bzw. meine Vorgehensweise bei der Kumulation ist falsch - siehe Anhang. Summiere ich einfach alle Wahrscheinlichkeiten, ergibt sich keine Glocke, sondern eine stetige Steigung?

Gruß

Christian

13.09.2012, 10:58

Steffen Bühler

Auf diesen Beitrag antworten »

RE: Gauss'sche Normalverteilung und Skalierung der Graphen

Zitat:

Original von medieninformatiker
Multipliziere ich nun die Messwerte auf der Y-Achse - durch stumpfes Ausprobieren - mit einem Faktor > 1, siehts schon ziemlich "gaussig" aus

Kann es sein, daß dieser Faktor zufällig $\begin{eqnarray*} \frac 1 {\sigma \sqrt {2 \pi}} \end{eqnarray*}$ beträgt?

Augenzwinkern

Viele Grüße
Steffen

13.09.2012, 12:02

medieninformatiker

Auf diesen Beitrag antworten »

RE: Gauss'sche Normalverteilung und Skalierung der Graphen

Zitat:

Original von Steffen Bühler

Zitat:

Original von medieninformatiker
Multipliziere ich nun die Messwerte auf der Y-Achse - durch stumpfes Ausprobieren - mit einem Faktor > 1, siehts schon ziemlich "gaussig" aus

Kann es sein, daß dieser Faktor zufällig $\begin{eqnarray*} \frac 1 {\sigma \sqrt {2 \pi}} \end{eqnarray*}$ beträgt?

Leider nicht - in diesem konkreten Beispiel wäre das ~3,9, siehe Anhang 1. Anhang 2 entspricht einem Faktor von $\begin{eqnarray*} 2*(\frac 1 {\sigma \sqrt {2 \pi}}) \end{eqnarray*}$ , also ~7,8 - so würde es schon eher passen.

Aber wie gesagt bin ich mit dem Auftragen relativer, nicht-kumulierter Wahrscheinlichkeiten sowieso auf dem falschen Weg, oder?

17.09.2012, 14:20

medieninformatiker

Auf diesen Beitrag antworten »

Keiner eine weitere Idee/einen Ansatz? Kann es sein, dass eine "gleichskalierte" Darstellung der Gauss-Glocke und einer gemessenen Dichte/Verteilung generell nicht möglich ist?

Die Dichtefunktion, die die Gauss-Glocke ergibt, ist die erste Ableitung einer Verteilungsfunktion (also (Mess-)Werte auf der X-Achse und kumulierte relative Häufigkeit auf der Y-Achse) und gibt damit die Steigung an der Stelle x der Verteiloungsfunktion an - richtig?

Falls dies stimmt, folgere ich daraus, dass ich die Funktion zur kumulierten Verteilungsfunktion der echten gemessenen Werte kennen müsste, um sie in eine Dichtefunktion abzuleiten, die ich der Gauss-Glocke gegenüberstellen könnte. Und mangels Funktion der kumulierten Verteilungsfunktion ist dies nicht möglich?

Was gibt eigentlich die Y-Achse der Gauss-Glocke an bzw. welche Einheit? Beispiel: http://de.wikipedia.org/w/index.php?titl...=20091213093404
Ist das "irgenein" mathematischer Wert ohne "weitere Aussagekraft", der nur dazu dient/führt, dass die Fläche unter der Gauss-Glocke in Korrelation mit der X-Achse immer 1 ergibt?

17.09.2012, 15:16

Steffen Bühler

Auf diesen Beitrag antworten »

Ja, vielleicht kommt daher die Verwirrung. Es geht ja um eine Dichte, die auf der y-Achse abgetragen wird. Du hast Deine Daten offenbar in Klassen der Breite 0,01g klassiert. Die Punkte (eigentlich ja Balken) Deiner blauen Kurven müssten also jeweils einen Zahlenwert angeben, der mit dieser Klassenbreite und der Anzahl der Messungen multipliziert den prozentualen Anteil angibt, den diese Klasse hat. Nur dann würden alle Deine Balkenflächen addiert den Wert Eins ergeben. Das scheint bei Dir nicht der Fall zu sein, ich weiß allerdings auch nicht, wie genau Du zu den y-Werten Deiner blauen Kurven gekommen bist. Hast Du die selbst ausgerechnet? Mit welcher Formel?

Viele Grüße
Steffen

17.09.2012, 15:39

Huggy

Auf diesen Beitrag antworten »

Zitat:

Original von medieninformatiker
Die Dichtefunktion, die die Gauss-Glocke ergibt, ist die erste Ableitung einer Verteilungsfunktion (also (Mess-)Werte auf der X-Achse und kumulierte relative Häufigkeit auf der Y-Achse) und gibt damit die Steigung an der Stelle x der Verteiloungsfunktion an - richtig?

Richtig, bis auf eine Kleinigkeit. Wenn man die kumulierte relative Häufigkeit aus einer Stichprobe aufträgt, so nennt man das die empirische Verteilungsfunktion. Diese ist eine mehr oder weniger gute Näherung der tatsächlichen, aber eventuell unbekannten Verteilungsfunktion.

Zitat:

Falls dies stimmt, folgere ich daraus, dass ich die Funktion zur kumulierten Verteilungsfunktion der echten gemessenen Werte kennen müsste, um sie in eine Dichtefunktion abzuleiten, die ich der Gauss-Glocke gegenüberstellen könnte. Und mangels Funktion der kumulierten Verteilungsfunktion ist dies nicht möglich?

Nicht zwangsläufig.
Wie du inzwischen weißt, gibt die Dichtefunktion f(x) einer stetigen Zufallsgröße X nicht unmittelbar eine Wahrscheinlichkeit für X an. Schon gar nicht gibt sie die Wahrscheinlichkeit $\begin{eqnarray*} P(X = x) \end{eqnarray*}$ für einen einzelnen Wert x an. Diese Wahrscheinlichkeit ist bei einer stetigen Zufallsgröße immer 0.

Erst das Integral über die Dichtefunktion ergibt eine Wahrscheinlichkeit. Es ist

$\begin{eqnarray*} P(X \in [a,b])=\int_a^b f(x)dx \end{eqnarray*}$

die Wahrscheinlichkeit, dass die Zufallsgröße X einen Wert im Intervall [a, b] annimmt. Hat man nun ein kleines Intervall $\begin{eqnarray*} [a,b] =\Delta x \end{eqnarray*}$ um einen Wert x, so gilt näherungsweise

$\begin{eqnarray*} P(X \in [a,b])=\int_a^b f(x)dx \approx f(x) \Delta x \end{eqnarray*}$

Das bedeutet umgekehrt, hat man einen Schätzwert R für $\begin{eqnarray*} P(X \in \Delta x) \end{eqnarray*}$ in Form einer relativen Häufigkeit in dem Intervall aus einer Stichprobe, so ergibt

$\begin{eqnarray*} \frac {R}{\Delta x} \approx f(x) \end{eqnarray*}$

einen Näherungswert für die Dichtefunktion. Man kann also ein Histogramm mit relativen Häufigkeiten in eine empirische Dichtefunktion umrechnen, indem man die Häufigkeiten durch die Intervallbreite teilt. Das ergibt allerdings nur vernünftige Ergebnisse, wenn die Intervallbreite nicht zu groß ist und in den Intervallen nicht zu wenige Werte liegen.

Bei der Normalverteilung ist noch zu beachten, dass man so eine empirische Dichtefunktion für die Normalverteilung mit der Standardabweichung aus der Stichprobe bekommt. Misst man die Intervallbreite in Standardabweichungen, bekommt man bis auf eine Nullpunktsverschiebung eine empirische Dichtefunktion der Standardnormalverteilung.

Zitat:

Was gibt eigentlich die Y-Achse der Gauss-Glocke an bzw. welche Einheit? Beispiel: http://de.wikipedia.org/w/index.php?titl...=20091213093404
Ist das "irgenein" mathematischer Wert ohne "weitere Aussagekraft", der nur dazu dient/führt, dass die Fläche unter der Gauss-Glocke in Korrelation mit der X-Achse immer 1 ergibt?

Die Einheit der Dichtefunktion ist Wahrscheinlichkeit pro Längeneinheit auf der x-Achse. Bei deinem obigen Beispiel hätte die Dichtefunktion die Einheit Wahrscheinlichkeit/kg.

Neue Frage »

Antworten »

Gauss'sche Normalverteilung und Skalierung der Graphen

Verwandte Themen