Boxplot und Kenndaten

03.09.2024, 09:35

MMchen60

Boxplot und Kenndaten

Liebe Forumsgemeinde, es geht um die Aufgabe mit Lösung im Anhang. Also, normalerweise wird das Thema Boxplot ja in Klasse 9 Realschule behandelt. Hier taucht es plötzlich aber in einer Vorbereitungsklausur eines Studiums "Bankwesen" der DHBW Heidenheim auf. Und da sind Lösungswerte angegeben, die mit der Realschul- bzw. Gymnasiallehre nicht übereinstimmen und ich wollte deshalb mal nahfragen, ob es da zusätzliche Regeln gibt.
Als erstes: kommt bei der Quartilsberechnung eine Kommazahl heraus, wird der Rangplatz der nächsten ganzen Zahl genommen. In Heidenheim wohl nicht, Beispiel 1. Quartil, da steht Position 7,75 und es wird der Wert zwischen Position 7 und Position 8 angeführt.
Beim dritten Quartil kann der Herr Prof wohl nicht rechnen, denn bei mir ist $\begin{eqnarray*} \frac {3}{4} \cdot 30=22,5 \end{eqnarray*}$ und nicht 23,25. Auch ist beim 1. Quartil bei mir $\begin{eqnarray*} \frac {1}{4} \cdot 30=7,5 \end{eqnarray*}$ und nicht 7,75.
Jetzt kommen die Antennen (Whisker) für mich laufen die vom Minimum bis zum 1. Quartil links und vom 3. Quartil bis zum Maximum eben rechts.
Jetzt sind für mich Maxima eben der kleinste Wert und der größte Wert. In Heidenheim wohl nicht, denn da werden erst mal Ausreißer weggenommen, sowohl am Anfang als auch am Ende, wobei am Anfang 2 Ausreißer 58 und 63 und am Ende 2 Ausreißer 108 und 110 weggenommen werden. Worin besteht darin die Logik, denn vor den linken Ausreißern steht noch die 53, die als Extremum dann auftaucht und nach den rechten Ausreißern steht noch 140 und 170, die dann als zwei Extrema auftauchen. Warum links 1 Extremum und rechts plötzlich 2? Wie sind die Ausreißer denn definiert?
Und wie berechnen sich jetzt die Whisker und was ist der Wert Whisker real?
Vielen Dank für Antwort.

04.09.2024, 04:38

trancelocation

Auf diesen Beitrag antworten »

Ich hänge die korrigierte Version als Bild an.

Die von dir benutzte Regel ist korrekt und die in der Tabelle angegebenen Quartile sind falsch.

Damit ein Wert Q1 als 1. Quartil einer (geordneten) Datenreihe qualifiziert, muss dieser Wert folgende 2 Bedingungen gleichzeitig erfüllen:

Höchstens 25 % der Daten sind kleiner als Q1 und höchstens 75 % der Daten sind größer als Q1.

Es sind 23 Datenpunkte - also mehr als 75% der Daten - größer als 81. Damit kann 81 kein 1. Quartil sein (unabhängig davon, was irgendwelche Software ausgibt).

Analoges gilt für das 3. Quartil Q3. Dort sind mehr als 75% der Daten kleiner als 89. Damit ist 89 kein 3. Quartil.

Leider ist vielen nicht bekannt, dass für Datensätze mit einem nicht durch 4 teilbaren Datenumfang das 1. und das 3. Quartil immer eindeutig bestimmt sind. Und die von dir genannte Methode liefert exakt diesen Wert.

Nur bei durch 4 teilbaren Datenumfängen kann es nicht eindeutig bestimmte Quartile geben.

04.09.2024, 05:49

HAL 9000

Auf diesen Beitrag antworten »

Zitat:

Original von MMchen60
Als erstes: kommt bei der Quartilsberechnung eine Kommazahl heraus, wird der Rangplatz der nächsten ganzen Zahl genommen.

Das ist korrekt, die allgemeine Formel für das $\begin{eqnarray*} \alpha \end{eqnarray*}$ -Quantil einer Stichprobe vom Umfang $\begin{eqnarray*} n \end{eqnarray*}$ ist

$\begin{eqnarray*} q_{\alpha} = \begin{cases} \frac{1}{2}\left(x^*_{n\alpha}+x^*_{n\alpha+1}\right) &\mbox{ falls }n\alpha\in\mathbb{N}\\ x^*_{\left\lceil n\alpha\right\rceil} &\mbox{ sonst}\end{cases} \end{eqnarray*}$

für alle $\begin{eqnarray*} 0<\alpha<1 \end{eqnarray*}$ sowie die aufsteigend geordnete Stichprobe $\begin{eqnarray*} x^* \end{eqnarray*}$ .

Deiner Beschreibung nach scheint der Professor mit der unüblichen "Alternativdefinition"

$\begin{eqnarray*} q_{\alpha} \stackrel{?}{=} \frac{1}{2}\left(x^*_{\left\lfloor (n+1)\alpha\right\rfloor}+x^*_{\left\lceil (n+1)\alpha\right\rceil}\right) \end{eqnarray*}$

zu arbeiten, zumindest im Fall $\begin{eqnarray*} (n+1)\alpha\not\in\mathbb{N} \end{eqnarray*}$ . Diese andere Definition erfüllt i.a. nicht die wichtige Eigenschaft

"Höchstens Anteil $\begin{eqnarray*} \alpha \end{eqnarray*}$ der Daten sind kleiner und höchstens Anteil $\begin{eqnarray*} (1-\alpha) \end{eqnarray*}$ der Daten sind größer als als $\begin{eqnarray*} q_{\alpha} \end{eqnarray*}$ ."

(also das was trancelocation für $\begin{eqnarray*} \alpha = \frac{1}{4} \end{eqnarray*}$ genannt hatte).

05.09.2024, 05:18

trancelocation

Auf diesen Beitrag antworten »

Ich ergänze noch diese Antwort, um zu erklären, wie es zu solchen Abweichungen bei der Quartils- bzw. Quantilsberechnung kommen kann.

Es gibt einerseits die (empirischen) Quantile zu einem Datensatz (siehe HAL 9000s Antwort) und andererseits die Quantile zu einer Verteilungsfunktion.

Manche statistische Software scheint nun die Quantile zu einem Datensatz mithilfe einer empirischen kumulativen Verteilungsfunktion zu schätzen. Dabei wird dann zwischen den Datenpunkten der empirischen kumulativen Verteilung interpoliert. Wie zwischen den Datenpunkten ein Quantil interpoliert wird, kann sehr verschieden sein.

Und zum Schluss werden die so gefundenen Quantilsschätzwerte als Quantile des Datensatzes ausgegeben, was zu großer Verwirrung führen kann.

Zur Illustration hab ich zwei Graphen ergänzt:

Eine tatsächliche empirische Verteilungsfunktion zum Datensatz und eine linear interpolierte.

Wenn nun Quantile mit einer interpolierten Verteilungsfunktion geschätzt werden, kann es zu starken Abweichungen von den empirischen Quantilen kommen.

Neue Frage »

Antworten »

Boxplot und Kenndaten

Verwandte Themen