Boxplot

Neue Frage »

Feely Auf diesen Beitrag antworten »
Boxplot
Meine Frage:
Hallo!
Wir besprechen im Moment in Mathe das Thema Boxplots und ich blicke da nicht so richtig durch.
Habe jetzt schon lange im Internet gesucht aber überall steht was anderes und manchmal auch sehr kompliziert (Wikipedia)...unglücklich
Ich verstehe das Ganze jetzt so:
ich habe beispielsweise die Werte: 2,4,6,8,10,12,14
Dann finde ich erstmal den Median, also hier 8.
Dann nochmal den Median vom unteren Quartil, also hier 4.
Und den Median vom oberen Quartil, hier 12.
Im Boxplot mache ich dann erstmal einen Strich bei 8. Dann einen bei 4 und 12 und von 4-12 ist die Box.
Bis zum minimalen Wert (2) und bis zum maximalen Wert (14) mache ich ncoh Striche (Fühler?).
So habe ich das jetzt bisher verstanden (wenn es überhaupt richtig ist..).
Aber ich verstehe das mit diesen 50% und so weiter nicht. Stellt jetzt die Box die mittleren 50% dar?
Irgendwo stand, dass das untere Quartal 25% und das Obere 75% sind... Aber wieso denn das?! Das müsste dann doch beides 25% ausmachen oder nicht?!
Vielleicht kann mir hier mal jemand dieses Thema verständlich erklären... Ich weiß, dass es viel ist und dass einige damit nicht klar kommen. Aber ich wäre euch wirklich sehr dankbar!!
Liebe Grüße.

Meine Ideen:
Steht alles oben Augenzwinkern
Zellerli Auf diesen Beitrag antworten »

So einen Boxplot macht man, weil nicht alle Messreihen gleichverteilt sind und deshalb der arithmetische Mittelwert oft wenig aussagekräftig ist (hier ist das garnicht so, aber es ist ja eine Übungsaufgabe). Man will eine Aussage darüber erhalten, wieviele Daten in gewissen Grenzen liegen (beim arithmetischen Mittelwert will man wissen, welchen Wert die Daten durchschnittlich annehmen).

Achtung: Im Folgenden steht "darunter" für "kleiner oder gleich" und "darüber" für "größer oder gleich".
Im Grunde marschiert man (beim Lesen des Boxplots) beim kleinsten Wert los und hat dann die drei Grenzen:
Grenze 1: 25%-Quantil, Unteres Ende der Box: Darunter liegen mindestens 25% der Messdaten.
Grenze 2: 50%-Quantil, Median: Darunter liegen mindestens 50% und darüber liegen mindestens 50% der Daten.
Grenze 3: 75%-Quantil, Oberes Ende der Box: Darunter liegen mindestens 75% der Messdaten (also liegen höchstens 25% darüber). Daher kommt die Zahl 75%.

Bei ausreichend vielen Daten kann man sich das "mindestens"/"höchstens" sparen (z.B. bei 10000 ist es egal ob 5000 oder 5001 unterm Median liegen) und sich auch erlauben zu sagen:
25%-Quantil: Darunter liegen 25% der Daten.
Median: Darunter liegen 50%, darüber 50% der Daten.
75%-Quantil: Darüber liegen 25% der Daten.
Bei kontinuierlichen Verteilungen (das entspricht unendlich vielen Messwerten) kann man sich "mindestens"/"höchstens" sogar ganz ohne einen Fehler zu machen sparen.


Bei Verteilungsfunktionen betrachtet man Intervalle von der linken äußersten (also untersten) Grenze (bei 0, beim minialen Wert oder gar im Negativen) bis zu einem bestimmten Wert rechts davon (also größer als dieser Grenze). Das heißt, dass, wenn man z.B. das 75%-Quantil festlegt, man vom Minimum (ganz links) solange nach rechts wandert, bis man den ersten Wert X erwischt, sodass das entstandene Intervall vom Minimum bis zu diesem Wert X mindestens 75% der Werte enthält.
Dass der Bereich rechts davon dann konsequenter Weise höchstens 25% ausmacht, ist ein Nebeneffekt.
Dieses Bild zeigt es sehr schön.
Feely Auf diesen Beitrag antworten »

Also erstmal: Danke für deine Antwort!

Aber ich verstehe das alles irgendwie immer noch nicht zu 100%.
Was meinst du mit diesen Intervallen? Und woher weiß man das mit diesen % Zahlen..? Ich meine die Zahlen können ja ganz unterschiedlich sein... und dann kann man immer sagen in der Box liegen 50% der Daten und 25% darunter bzw darüber?

Tut mir leid, wenn ich jetzt so dumm frage...
Zellerli Auf diesen Beitrag antworten »

Die Zahlen legt man doch vorher fest. Du kannst auch eine Box konstruieren, unter der 10%, in der 70% und über der 10% liegen. Das ist aber nicht üblich und meistens macht es nicht viel Sinn.

Und wenn du einen Boxplot auswertest ist auch ganz genau benannt wie die Box konstruiert wurde. Wenn es nicht kommentiert ist, ist der Standard 25%, 50%, 75%.

Und die Daten können natürlich ganz unterschiedlich sein, dementsprechend unterschiedlich sehen die Boxen ja nachher aus.
Sie sind gerade eine Maß für die Unterschiedlichkeit der Daten!

Frag ruhig weiter, wenn du etwas nicht verstehst. Genau dafür sind wir da. Du kannst auch gerne Beispiele posten.
Feely Auf diesen Beitrag antworten »

Hallo,

alsooo... ich steh ein bisschen auf dem Schlauch unglücklich

Ich versuchs glaub ich wirklich mal mit einem Beispiel, so wie ich es verstehe...:

Mal diese Aufgabe:
Peter bestellt häufig Pizzen. So hat er die Zeiten (in min) zwischen Bestellung und Lieferung notiert:
25, 24, 36, 38, 37, 30, 32, 36, 35, 38, 28, 29, 31 (Urliste)
24, 25, 28, 29, 30, 31, 32, 35, 36, 36, 37, 38, 38 (Rangliste)

Jetzt ermittel ich den Median. Hier: 32

Nun könnte ich ja z.B. einen Zahlenstrahl zeichnen und bei 32 so einen Strich machen. Oder?
(bzw neben dem Zahlenstrahl, denn der gehört ja eig nicht dazu)

Als nächstes ermittel ich den Median vom 1. Quartil: 28,5
Mache wieder einen Strich bei dieser Zahl.

Jetzt noch den Median vom 2. Quartil: 36,5
Und wieder einzeichnen.

von 28,5 bis 36,5 zeichne ich jetzt eine Box.
Und die Fühler gehen dann noch von 24 bis 28,5
und von 36,5 bis 38.

So, nun hätte ich mein Boxplot gezeichnet...
Aber was ich jetzt nicht verstehe... Wie kann man das auswerten?
Und eben das mit den Prozent.. der hintere Teil sieht doch viel kleiner aus als der erste... wieso enthält er dann immer (oder standardmäßig) 75% der Daten?!
Oder ist das immer so weil man das so mit den Medianen macht... Das dass dan automatisch so ist?!
Zellerli Auf diesen Beitrag antworten »

Erstmal: Genau richtig, so sieht der Boxplot aus.

Und noch zur Klarstellung: 75% liegen nicht vom 75%-Quantil bis zum hinteren Ende, sondern vom vorderen Ende bis zum 75%-Quantil.

Du stellst eine wichtige Frage:
Warum hält ein größeres Intervall weniger oder nur die gleiche Anzahl an Daten, wie ein kleineres?
Antwort: Weil die Daten im kleinen Intervall weniger stark streuen und ausreißen, als im großen.

Ich verändere mal dein Beispiel: Der erste Wert soll nicht 24 sein, sondern 2.
Dann bleiben alle Mediane identisch! Denn es kommt ja nur darauf an wieviele Werte über oder unter dem Median liegen, nicht wie weit diese Werte darüber oder darunter liegen.
Aber dann ist das Vermeintliche Missverhältnis noch viel größer.

Nur weil du ein großes Intervall anbietest, z.B. 2 bis 32 im abgeänderten Beispiel, heißt das ja noch lange nicht, dass mehr Pizzen in der Zeit ankommen als im viel kleineren Intervall 32 bis 38.

Man kann aber sehr viel anfangen mit dem Boxplot:
Du bestellst eine Pizza und weißt: in 75% der Fälle wird sie zwischen 28,5 und 38 Minuten brauchen (also vom 25%-Quantil bis zum oberen Ende).
Oder du weißt: Wenn jemand behauptet die Pizza sei in weniger als 30min da, dann kannst du mit ihm ruhig wetten, denn das kommt in weniger als 50% der Fälle vor (weil 30 unter dem Median von 32 liegt).
Und durch die Asymmetrie, die du angesprochen hast (also großes Intervall unten, kleines oben) erkennst du, dass es im oberen Bereich kaum Ausreißer gibt, man also, wenn die Pizza zur oberen Hälfte gehört, ziemlich genau sagen kann, dass sie in ca. 36,5 Minuten kommt (Median der oberen Hälfte).
Ist die Pizza hingegen in der unteren Hälfte (Median der unteren Hälfte: 28,5), kommt sie durchaus deutlich früher oder später.
Für diese Schätzung ist der Durchschnitt besser als der Median, aber er stimmt umso mehr mit dem Median überein, je kleiner das Intervall ist (und in der oberen Hälfte ist es recht klein, unten recht groß).
 
 
Feely Auf diesen Beitrag antworten »

Juhuuu ich habs endlich verstanden!! smile

Vielen, vielen Dank, du hast mir wirklich geholfen!! Gott

Und auch danke für deine Geduld Augenzwinkern .
Zellerli Auf diesen Beitrag antworten »

Freut mich. smile
Wenn dir trotzdem noch Fragen dazu (oder zu anderen Themen) einfallen, ruhig posten!
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »