Begriff für den Schwerpunkt einer Verteilung

Neue Frage »

sandy245 Auf diesen Beitrag antworten »
Begriff für den Schwerpunkt einer Verteilung
Hallo zusammen,
ich habe mal wieder eine Frage: Angenommen ich habe folgende Zahlenverteilung (siehe unten). Dann liegt doch der "Schwerpunkt" der Verteilung bei 15, 12, 14, 10, 16. Diesen "Schwerpunkt" möchte ich ermitteln. Bevor ich die Suche nach einer Formel starten kann, muss ich aber zunächst wissen, welchen Fachbegriff man für diesen "Schwerpunkt" in der Statistik verwendet. Kann mir jemand einen Begriff nennen?


1
3
2
1
15
12
14
10
16
1
3
2
1

Ich bedanke mich!
AD Auf diesen Beitrag antworten »
RE: Begriff für den Schwerpunkt einer Verteilung
Was meinst du mit "Zahlenverteilung" - sollen das Gewichte sein? Und wieso soll dann der Schwerpunkt bei den 5 mittleren Zahlen liegen, für mich in keinster Weise nachvollziehbar.

Das stochastische Äquivalent zum Schwerpunkt ist der Erwartungswert.
sandy245 Auf diesen Beitrag antworten »
RE: Begriff für den Schwerpunkt einer Verteilung
Die Zahlenverteilung entspricht den Ausfallzahlen eines Bauteils XY:

Ausfallzahl 01.2008 beträgt 1
Ausfallzahl 02.2008 beträgt 3
Ausfallzahl 03.2008 beträgt 2
Ausfallzahl 04.2008 beträgt 1
Ausfallzahl 05.2008 beträgt 15
Ausfallzahl 06.2008 beträgt 12
Ausfallzahl 07.2008 beträgt 14
Ausfallzahl 08.2008 beträgt 10
Ausfallzahl 09.2008 beträgt 16
Ausfallzahl 10.2008 beträgt 1
Ausfallzahl 11.2008 beträgt 3
Ausfallzahl 12.2008 beträgt 2
Ausfallzahl 01.2009 beträgt 1
…..

Der „Schwerpunkt“ liegt bei im Bereich 05.2008 bis 09.2008, weil dort die höchsten Ausfallzahlen sind. Und diesen „Schwerpunkt“ will ich ermitteln. Wie macht man denn das? Und wie heißt denn der Fachbegriff in der Statistik für "Schwerpunkt"? Gibt es da etwas?
sandy245 Auf diesen Beitrag antworten »

....ohhhh "Erwartungswert"? Habe das erst eben gelesen, sorry!
Zahlenschubser Auf diesen Beitrag antworten »

Hallo!

Also der "Schwerpunkt" deiner Stichprobe wäre wie Arthur schon gesagt, der (arithmetische) Mittelwert deiner Datenreihe. Du scheinst aber zumindest interpretativ eher auf so etwas wie den Median oder das ein hohes Quantil der Verteilung (zum Beispiel das Maximum) eingehen zu wollen.

Hast du eine komplette Aufgabenstellung oder kannst du uns verraten, wozu diese Angabe brauchst? Mich würde vor allem erst einmal wundern, warum die Ausfälle rapide ansteigen um danach wieder rapide abzufallen. Da es sich um eine Zeitreihe handelt, ist der Erwartungswert nur sinnvoll, wenn er zeitunabhängig ist und diesen Eindruck habe ich nicht.
sandy245 Auf diesen Beitrag antworten »

Hallo zusammen,
„Also der "Schwerpunkt" deiner Stichprobe wäre wie Arthur schon gesagt, der (arithmetische) Mittelwert deiner Datenreihe.“ Nein, ich habe keine Stichprobe. Zu jedem Bauteil in der Datenbank betrachte ich die Grundgesamtheit aller Ausfälle, das heißt Zeitraum von 01.2002 bis dato. Als Beispiel hatte ich nur einen Ausschnitt der Grundgesamtheit genommen. Kann ja hier nicht alle Zahlen von 2002 bis 2009 aufführen.

Ja, den Mittelwert der Ausfälle zu jedem Bauteil habe ich berechnet. Der wäre ja für die obigen Ausfälle 6,3 (ich nehme mal an, dass die wenigen Werte der Grundgesamtheit dieses Bauteils entsprechen). Jedoch bringt mir der Mittelwert nix, wenn ich doch den Zeitraum! haben möchte, wo die Ausfälle besonders hoch sind. Median geht auch nicht, denn der Median ist ja die Merkmalsausprägung desjenigen Elements, das in der Größe nach geordneten Beobachtungsreihe in der Mitte steht. Meine Beobachtungsreihe ist aber nicht geordnet (zudem will ich nicht nur einen Wert, sondern einen Zeitraum).

Mein Lösungsweg (mit der Hand am Arm): Ich habe den Max-Ausfallwert ermittelt. In diesem Fall wäre das der Wert 16. Dann habe ich ¼ von Max berechnet. ¼ von Max wäre ja 4. Dann habe ich ermittelt, welche Werte größer als 4 sind und das habe ich als „Schwerpunkt“ definiert. Also größer als 4 sind ja im obigen Beispiel 15, 12, 14, 10, 16.

Mein Problem:
1 - Dieser Lösungsweg erscheint mir unprofessionell / 2 – Ich kann das Problem, dass ein zweiter Schwerpunkt (im nächsten Monat bei der Datenaktualisierung) hinzukommt, nicht immer greifen. Dazu muss ich jetzt aber ein anderes Zahlenbeispiel nehmen, wo es passt. Undzwar:

Berichtsmonat Mai 2009:
Ausfallzahl 01.2008 beträgt 1
Ausfallzahl 02.2008 beträgt 3
Ausfallzahl 03.2008 beträgt 2
Ausfallzahl 04.2008 beträgt 50
Ausfallzahl 05.2008 beträgt 300
Ausfallzahl 06.2008 beträgt 200
Ausfallzahl 07.2008 beträgt 250
Ausfallzahl 08.2008 beträgt 3
Ausfallzahl 09.2008 beträgt 4
Ausfallzahl 10.2008 beträgt 1
Ausfallzahl 11.2008 beträgt 3
Ausfallzahl 12.2008 beträgt 2
Ausfallzahl 01.2009 beträgt 3

Max: 300
¼ von Max: 75
Werte über 75: 300, 200, 250 -> Schwerpunkt

Berichtsmonat Juni 2009:
Ausfallzahl 01.2008 beträgt 1
Ausfallzahl 02.2008 beträgt 3
Ausfallzahl 03.2008 beträgt 2
Ausfallzahl 04.2008 beträgt 50
Ausfallzahl 05.2008 beträgt 300
Ausfallzahl 06.2008 beträgt 200
Ausfallzahl 07.2008 beträgt 250
Ausfallzahl 08.2008 beträgt 3
Ausfallzahl 09.2008 beträgt 4
Ausfallzahl 10.2008 beträgt 1
Ausfallzahl 11.2008 beträgt 3
Ausfallzahl 12.2008 beträgt 50
Ausfallzahl 01.2009 beträgt 3

Max: 300
¼ von Max: 75
Werte über 75: 300, 200, 250 -> Schwerpunkt
Der neue Schwerpunkt im Dezember 2008 wird nicht erfasst, da 50 < 75. Dieser Monat sollte aber als Schwerpunkt erkannt werden, weil die Ausfallzahl von einem Monat auf den anderen Monat von 2 auf 50 gestiegen ist. Mit meiner Methode kann ich das leider noch nicht greifen.

„Mich würde vor allem erst einmal wundern, warum die Ausfälle rapide ansteigen um danach wieder rapide abzufallen“ Die Ausfallwerte steigen rapide an, wenn es Qualitätsprobleme in der Produktion gibt. Das heißt, dass ein Werkzeug beispielsweise nicht mehr mit den richtigen Druck presst, wie er pressen soll. Oder dass ein Teil über Wochen falsch verbaut wurde usw. Die Ausfallwerte fallen rapide ab, wenn man gemerkt hat, dass es ein Qualitätsproblem in der Produktion gibt und diese durch Fehlerabstellmaßnahmen behoben hat.

„Hast du eine komplette Aufgabenstellung oder kannst du uns verraten, wozu diese Angabe brauchst?“ Das Erkennen! Der Qualitätsprobleme erfolgt derzeit noch manuell durch Sichten der Ausfallzahlen in der DB. Ist in den Ausfallzahlen irgendwo ein starker Anstieg, dann deutet das auf ein Qualitätsproblem hin und man analysiert dann, was da los ist. Meine Aufgabe ist es, einen Trigger/ Marker (wie auch immer man das nennen mag) zu schreiben, der bei der monatlichen Aktualisierung der Ausfallzahlen solche Ausfallhäufungen/ Schwerpunkte automatisch anzeigt bzw. hohe Zuwächse erkennt, um dann Maßnahmen für die Fehlerabstellung generieren zu können. Ein hoher Zuwachs liegt auch schon vor, wenn in einem Monat die Ausfallzahl zuest 2 ist, und dann auf einmal 10.

Hoffe, man versteht ein bische, was ich meine und hoffentlich könnt ihr mir weiterhelfen. Dachte, ich kann das ganze vielleicht mit der Normalverteilung lösen, aber das habe ich dann doch irgendwie verworfen... wusste nicht genau, wie die Normalverteilung die hohen Ausfallzeiträume erkennen soll.

Vielen Dank erst einmal!
 
 
Zahlenschubser Auf diesen Beitrag antworten »

Wenn ich dich richtig verstehe, ist was du brauchst ein statistischer Test zur Ausreißererkennung. Dazu würde ich spontan aus der Zeitreihenanalyse ein simples Modell vorschlagen, welches untersucht ob ein einzelner Ausreißer oder eine Niveauverschiebung vorliegt. Dies könnte in der allereinfachsten Form ein t-Test auf signifikante Abweichung vom robusten (also ausreißerbereinigten) Mittelwert sein. Etwas ausgefeilter wäre dann ein stationäres ARMA-Modell, indem Dummies auf Signifikanz für die oben angesprochenen Quellen dienen.

Das Problem grundsätzlich am aktuellen Reihenende ist aber immer die Identifikation dieser Ausreißer! Im Nachhinein lässt sich recht sauber eine Phase von Qualitätsproblemen identifizieren, mit dem letzten Monatswert sieht es etwas schwieriger aus.

Kurzum, berechne den robusten (!) Mittelwert, dessen Standardabweichung und teste den aktuellen Wert mit einem t-Test. Kennst du den? Ist Standard und in jedem Lehrbuch enthalten.

Am deinem Ausgangsbeispiel:

Beobachtungen: 8 (ohne Ausreißer)
Mittelwert: 1,75
Standardfehler: 0,3134 (Standardabweichung geteilt durch Wurzel aus Anzahl der Beobachtungen)

Demnach ist die Wahrscheinlichkeit (Normalverteilung mit obigen Parametern) 10 Ausfälle zu beobachten, ohne dass es sich dabei um einen Ausreißer handelt, ziemlich exakt null.



Den 26,3-fachen Wert der Standardabweichung zu beobachten ist praktisch ausgeschlossen. Schon der 2-fache Wert hat nur eine Wahrscheinlichkeit von 5% (zweiseitig). In deinem Fall wäre aber sogar ein einseitiger Test angemessen, da es um Ausreißer nach oben geht (Wahrscheinlichkeit halbiert sich nochmal).

Übrigens verwende bitte nicht den Begriff Schwerpunkt, sondern nenn es Ausreißer, denn das sind sie.
sandy245 Auf diesen Beitrag antworten »

Danke erst einmal für deine schnelle Rückmeldung und die vielen Informationen. Ja, du hast richtig verstanden, dass ich die Ausreißer! erkennen möchte. Muss jetzt erst einmal verinnerlichen, was du mir als Lösungsansatz geliefert hast. Ist mir alles nicht so geläufig und ich merke gerade, dass ich an der FH viel zu wenig Statistik hatte! Sicherlich werde ich nochmals ein paar Fragen haben.... hoffe, du kannst mir dann auch wieder weiterhelfen

Danke im Voraus!
sandy245 Auf diesen Beitrag antworten »

Hallo nochmals,

"Demnach ist die Wahrscheinlichkeit (Normalverteilung mit obigen Parametern) 10 Ausfälle zu beobachten, ohne dass es sich dabei um einen Ausreißer handelt, ziemlich exakt null." -> Das verstehe ich nicht. Warum ist es denn ziemlich exakt null?

"Das Problem grundsätzlich am aktuellen Reihenende ist aber immer die Identifikation dieser Ausreißer! Im Nachhinein lässt sich recht sauber eine Phase von Qualitätsproblemen identifizieren, mit dem letzten Monatswert sieht es etwas schwieriger aus." -> Meinst du mit "letzten Monatswert" die Ausfallzahl 50 im Monat Dezember 2008 des Berichtsmonats Juni 2009 (siehe unten, Ausfallzahl ist ja zum Berichtsmonat Mai 2009 extrem gestiegen)? Wenn ja, wie kann mir der T-Test helfen, wenn ich genau diesen Wert 50 bei der monatlichen Datenaktualisierung erkennen will? Ach, das Problem ist echt zum Mäuse-Melken...

Berichtsmonat Mai 2009:
Ausfallzahl 01.2008 beträgt 1
Ausfallzahl 02.2008 beträgt 3
Ausfallzahl 03.2008 beträgt 2
Ausfallzahl 04.2008 beträgt 50
Ausfallzahl 05.2008 beträgt 300
Ausfallzahl 06.2008 beträgt 200
Ausfallzahl 07.2008 beträgt 250
Ausfallzahl 08.2008 beträgt 3
Ausfallzahl 09.2008 beträgt 4
Ausfallzahl 10.2008 beträgt 1
Ausfallzahl 11.2008 beträgt 3
Ausfallzahl 12.2008 beträgt 2
Ausfallzahl 01.2009 beträgt 3


Berichtsmonat Juni 2009:
Ausfallzahl 01.2008 beträgt 1
Ausfallzahl 02.2008 beträgt 3
Ausfallzahl 03.2008 beträgt 2
Ausfallzahl 04.2008 beträgt 50
Ausfallzahl 05.2008 beträgt 300
Ausfallzahl 06.2008 beträgt 200
Ausfallzahl 07.2008 beträgt 250
Ausfallzahl 08.2008 beträgt 3
Ausfallzahl 09.2008 beträgt 4
Ausfallzahl 10.2008 beträgt 1
Ausfallzahl 11.2008 beträgt 3
Ausfallzahl 12.2008 beträgt 50
Ausfallzahl 01.2009 beträgt 3


Vielleicht sagst du nochmals etwas dazu?
JPL Auf diesen Beitrag antworten »

Hi Sandy,

du kannst das Problem auf mehrere Arten angehen. entweder wir Zahlenschubsere s beschrieben hat (sieh dazu auch den Ausreißertest nach Grubbs http://de.wikipedia.org/wiki/Ausrei%C3%9Fertest_nach_Grubbs) oder - was viel einfacher wäre: Welcher Anteil von fehlerhaften Bauteilen wäre von seiten der Produktion zu erwarten/zulässig? Immer wenn diese Grenze in einem Monat überschritten wird, wir dieser "geflagged".
Grüße,
JPL
sandy245 Auf diesen Beitrag antworten »

Hallo JPL,
>> "Welcher Anteil von fehlerhaften Bauteilen wäre von seiten der Produktion zu erwarten/zulässig? Immer wenn diese Grenze in einem Monat überschritten wird, wir dieser "geflagged"" -> Danke für den Tip, bringt mich aber leider nicht zum Ziel die Ausreißer zu Identifizieren nach dem Motto:

Beispiel: Bauteil XZ:
Außreißer/Peak/ Häufung Nr1: Januar bis März 2008
Außreißer/Peak/ Häufung Nr2: Juni 2008
Außreißer/Peak/ Häufung Nr3: November bis Dezember 2008

Ja ich hatte im Internet auch mal etwas gestöbert und bin bezüglich dem Ausreißertest nach Grubbs auf folgedne Seite gestoßen (hier habe sogar ich es verstanden): Tanzen http://www.faes.de/Basis/Basis-Statistik..._1/ausrei_1.HTM

Eine weitere Frage habe ich noch: Ich muss ja gegen Ende von desem Grubbs-Test den PG mit dem Wert aus der Tabelle Nach Grubbs vergleichen. Als ich das Beispiel aus meinem Link nachvollzogen habe, so habe ich visuell die Werte verglichen. Nun habe ich aber eine Access-Datenbank. Wie mache ich das dann elektronisch in der DB? (Oh, darf ich diese Frage hier überhaupt stellen? Geht ja nicht mehr direkt um Mathematik... hm, ich tue es trotzdem, ihr seit schon im Thema drin)



Vielen Dank
JPL Auf diesen Beitrag antworten »

Hi Sandy,

zum ersten Fall: angenommen, es sollen höchstens 5% der Bauteile ausfallen. Dann werden alle Monate, in denen mehr als 5% ausfallen als Aussreißer markiert. Problem dabei ist nur, dass du irgendeine Basis pro Monat brauchst, um die % berechnen zu können.

Grubbs ist zwar schon ein Test - aber: Wenn du mehrere Aussreißer finden willst, hast du das Problem des multiplen testens (http://de.wikipedia.org/wiki/Alphafehler-Kumulierung), d.h. dass der Prozentsatz der fälschlich abgelehneten Hypothesen nicht mehr nur 5% sind, sondern immer größer wird.
Außerdem hast du bei Grubbs noch ein Problem: die Streuung sinkt mir gößer werdendem Stichprobenumfang. Als Konsequenz wirst du bei großen Stichproben immer einen Ausreißer finden, egal ob er nun einer ist, oder nicht.
Deswegen sind diese Ausreißertests mit Vorsicht zu geniessen.
Wenn du's trotzdem machen willst: Auf der Wiki Seite findet sich eine allgmeine Darstellung der kritischen Werte, basierend auf der t-Verteilung. Das müsste sich dann irgendwie in Access implementieren lassen.

Generell sollte man sich fragen, was diese Aussreißerdiagnostik soll. Basierend auf der Antwort zu der Frage ergibt sich nämlich möglichwerweise eine ganz andere Fragestellung mit einem ganz anderen Test.

Grüße,
JPL
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »