Sheppard Korrektur bei unterschiedlichen Klassenbreiten

Neue Frage »

MasterWizz Auf diesen Beitrag antworten »
Sheppard Korrektur bei unterschiedlichen Klassenbreiten
Hey Leute Wink

Kennt ihr euch mit der Sheppard Korrektur aus? Bei klassierten Daten ist, soweit ich das verstanden habe, die Varianz durch die Annahme der Gleichverteilung innerhalb der Klassen, um die Varianz der stetigen Gleichverteilung größer. Bei gleichen Klassenbreiten besagt die Korrektur, dass diese besagte Varianz, also , abgezogen werden sollte.

Was genau passiert allerdings bei verschiedenen Klassenbreiten? Ist dann der Sheppard Korrektur Term einfach das arithmetische Mittel aus den Varianzen der einzelnen Klassen?

Ich habe leider online nur eine Quelle gefunden, in der es für konstante Klassenbreiten hergeleitet wurde. Jedoch werden zwischendurch für mich nicht nachvollziehbare Annahmen getroffen, weshalb ich meine Vermutung nicht bestätigen kann. Ich hoffe ihr könnt auch hier wieder Licht ins Dunkel bringen! smile
Scotty1701D Auf diesen Beitrag antworten »
RE: Sheppard Korrektur bei unterschiedlichen Klassenbreiten
Hallo,

Zitat:
Ich habe leider online nur eine Quelle gefunden,

komisch, ich habe unter „sheppard correction for moments“ 274000 Ergebnisse gefunden Augenzwinkern

Unter Sheppard‘s Correction steht zum Beispiel:
Zitat:
Class intervals should be equal in width.

Bei verschiedenen Klassenbreiten ist sie daher gar nicht definiert!

Wie kommst du auf die Annahme der Gleichverteilung innerhalb der Klassen?
Bei der Sheppard-Korrektur geht es um Daten, die in ein Histogramm gesamplet werden. Anschaulich gesehen werden dadurch die einzelnen Werte „verschmiert“ (für alle Werte wird der Mittelpunkt ihres Klassenintervalls angenommen), wodurch die Momente größer wird.
MasterWizz Auf diesen Beitrag antworten »
RE: Sheppard Korrektur bei unterschiedlichen Klassenbreiten
Zitat:
Original von Scotty1701D
komisch, ich habe unter „sheppard correction for moments“ 274000 Ergebnisse gefunden Augenzwinkern

Ich habe nur eine Quelle auf deutsch gefunden (Billeter: Grundlagen der Elementarstatistik, S.122-125), in der dieser Korrekturterm hergeleitet wurde. Ich finde es auch sehr komisch, dass du 274000 solcher Quellen gefunden hast. Vielleicht magst du mir ja eine davon schicken, in der ebenfalls eine Herleitung ausführlich beschrieben wird, sodass eine Erweiterung auf unterschiedliche Klassenbreiten möglich ist.

Wie ich auf Gleichverteilung komme? Durch die Klassenbildung sind Informationen verloren gegangen. Daher treffe ich eine Annahme. Wenn du bessere Ideen für eine Annahme bei unzureichenden Informationen hast, dann lass es mich gern wissen.
Scotty1701D Auf diesen Beitrag antworten »
RE: Sheppard Korrektur bei unterschiedlichen Klassenbreiten
Ich hatte ja nicht behauptet, dass alle Quellen eine Herleitung haben. Augenzwinkern
Wichtig ist, dass aus den Quellen hervorgeht, dass die Klassen dieselbe Breite haben. Ich kenne deine Quelle nicht, aber dort scheint es ja eine Herleitung zu geben.
Ich habe diese Quelle gefunden. (Die Suche nach deutschen Quellen habe ich im schon im letzten Jahrtausend aufgegeben Big Laugh )

Deine Formulierung zur Gleichverteilung war etwas irreführend, aber im Prinzip hast du recht.

Für unterschiedliche Klassenbreiten sieht es schwierig aus. Da wirst du wohl erstmal ein paar Annahmen über die Verteilung der Daten und der Klassenbreiten machen müssen.
MasterWizz Auf diesen Beitrag antworten »
RE: Sheppard Korrektur bei unterschiedlichen Klassenbreiten
Vielleicht ist es wirklich schlauer auf englisch zu suchen.

Zitat:
Original von Scotty1701D
Ich habe diese Quelle gefunden.

Auch hier wird wieder von einer äquidistanten Zerlegung der Intervalle ausgegangen. Um das zu verallgemeinern, müsste man noch den Integralbegriff neu aufrollen, soweit wollte ich eigentlich nicht ausholen Hammer

Also denkst du wird es voraussichtlich keine einfache Möglichkeit geben die Varianz, die sich durch die zusätzliche Annahme ergibt, bei unterschiedlichen Klassenbreiten wieder abzuziehen?

Im Anhang befinden sich die relevanten Auszüge meiner Quelle:
[attach]56116[/attach]
[attach]56117[/attach]
[attach]56118[/attach]

Meine Idee war die Klassenbreiten variablen zu lassen. Nur verstehe ich beim besten Willen nicht, was an dem Punkt passiert, als gesetzt wird und danach das nicht verschwindet. (Bemerkung: sind hier keine Differentiale, sondern einfach nur die Klassenbreiten).
Scotty1701D Auf diesen Beitrag antworten »
RE: Sheppard Korrektur bei unterschiedlichen Klassenbreiten
Diese Herleitung ist mir ehrlich gesagt etwas suspekt. verwirrt
1. Im Schritt nach Gleichung (60) wird so gerechnet, als wäre ein Differenzial, obwohl das ja nicht der Fall ist. ist lediglich klein gegenüber dem Wertebereich der Zufallsgröße. Ich gehe daher davon aus, dass die einzelnen Schritte zum Teil Näherungen sind.
2. taucht in den Gleichungen gar nicht auf, nur im Text vor Gleichung (60). Dieser Text ist daher so unsinnig.
(Es ist außerdem üblich, zu schreiben, da etwas anderes bedeutet.)
3. Die Bemerkung ist Blödsinn und wird ja auch nicht weiter berücksichtigt. ist offenbar eine Dichtefunktion, und wenn man den Wert von in der Intervallmitte mit der Intervallbreite multipliziert, dann ergibt die Summe natürlich 1. Der vorletzte Schritt in der Zeile muss also weg. geschockt

Wenn man das für unterschiedliche Intervallbreiten weiterdenken will, dann würde ich diese ganze Rechnung vergessen und in der zweiten Zeile ansetzen () und dort ersetzen.
 
 
MasterWizz Auf diesen Beitrag antworten »
RE: Sheppard Korrektur bei unterschiedlichen Klassenbreiten
Zitat:
Original von Scotty1701D
Diese Herleitung ist mir ehrlich gesagt etwas suspekt. verwirrt [...]
3. Die Bemerkung ist Blödsinn und wird ja auch nicht weiter berücksichtigt.

Sehe ich genauso!! Mit werden wahrscheinlich einfach nur Klassenbreiten bezeichnet. Aber der Schritt zu setzen und dann aber mit beliebigem weiterzurechnen, ist doch quatsch? Ich muss dazu sagen, dass ich den ganzen rechnerischen Teil dazwischen ausgelassen habe, aber ja dann hier die Ergebnisse als Fotos angehängt habe.

Zitat:
Original von Scotty1701D
Wenn man das für unterschiedliche Intervallbreiten weiterdenken will, dann würde ich diese ganze Rechnung vergessen und in der zweiten Zeile ansetzen () und dort ersetzen.

Das habe ich versucht, bevor ich hier de Frage gestellt habe. Wenn ich das richtig überblicke, kann man bis zum Schritt (61) dadurch fast alles so übernehmen:
, wobei


Gilt jetzt allerdings weiterhin folgende Begründung?
Zitat:
Wie in Quelle nur mit statt
Bei einer stetigen Verteilung, die die -Achse am Anfang und am Ende schneidet wird


Und selbst wenn das gelten sollte, kann ich dann noch etwas aus dem verbleibenden zaubern?
HAL 9000 Auf diesen Beitrag antworten »

Ich hab mir mal bewusst die obigen Rechnungen nicht angeschaut, und davon unbeeinflusst selbst mal gerechnet für folgende Situation:

Stichprobe vom Umfang bestehend aus mit folgender Aufteilung in Klassen mit Mittelpunkt und Breite für :

In Klasse mögen genau Werte liegen, es ist damit .

sind unbekannt, es sind nur die bekannt. Gesucht sind erwartungstreue Schätzungen für Stichprobenmittelwert sowie Varianz unter der Modellierung, dass die X-Werte in Klasse dort stetig gleichverteilt im Intervall und unabhängig voneinander liegen.

---------------------------------------

Beim Stichprobenmittelwert kommt wenig spannend heraus, d.h., als würde man den Mittelwert der Intervallmitten mit der entsprechenden Vielfachheit nehmen.

Bei der Stichprobenvarianz habe ich nach mittellanger Rechnung folgendes erhalten:



Das entspricht der Stichprobenvarianz der Intervallmittenstichprobe zuzüglich dieses Summanden . Im Falle gleicher Intervallbreiten ergibt das einfach .
MasterWizz Auf diesen Beitrag antworten »

Hi HAL Wink
Freut mich, dass du auch dabei bist. Der addierte Term entspricht ja im Endeffekt dem arithmetischen Mittel der Varianzen der einzelnen Klassen (bei Gleichverteilung innerhalb der Klassen).

Grundsätzlich ist das auch der Punkt in der Quelle, von dem aus ich gestartet bin. Dort wurde aus Sicht der Statik argumentiert, dass das Verhältnis aus axialem Trägheitsmoment und Rechteckfläche ist:
[attach]56127[/attach]

Für die Gesamtstreuung gilt also soweit:


Im Folgenden wird dieser Term allerdings noch verändert durch einen Übergang von der Rechteckverteilung zu einer Trapezverteilung, da sich die (angeblich) in der Realität öfter ergibt:
[attach]56128[/attach]
Es wird also ein Dreieck mit der Fläche addiert und wieder subtrahiert. Die Schwerpunktabszisse dieses Dreiecks ist damit bzw.
Das Trägheitsmoment, das die Klasse betrifft, wird dadurch folgendermaßen geändert:


Wo allerdings langsam der Punkt kommt, wo ich eure Unterstützung brauche ist die weitere Vorgehensweise:
[attach]56129[/attach]
Also in unsere Symbolik übersetzt:


Nach einer ewig langen und mühsamen Umformung ergibt sich nun:

Doch wie geht es jetzt weiter??

Für würde ein massiver Teil des Terms einfach wegfallen:
[attach]56131[/attach]
Es verbleibt lediglich:
.
Der subtrahierte Term am Ende ist die Sheppard Korrektur.

Doch wie sieht der Korrekturterm in unserem allgemeinen Fall aus? Können wir den auch so einfach zusammenfassen?

Für die Zuordnung von der Schreibweise in der Quelle zu unserer Schreibweise:
,
HAL 9000 Auf diesen Beitrag antworten »

Ehrlich gesagt verstehe ich deine Resultate nicht: Erst schreibst du in Formel (60) (was wohl meinem Resultat entspricht), und dann aber weiter unten in Formel (62) .

Redest du über dasselbe ? Das macht doch irgendwie keinen Sinn, die beiden Formeln widerprächen sich ja dann. Also scheint es um unterschiedliche zu gehen. verwirrt
MasterWizz Auf diesen Beitrag antworten »

Glaub mir, ich bin genauso verwirrt wie du. Soweit ich das verstehe, wird die Formel erweitert um die neue Annahme der Trapezverteilung anstelle der Rechteckverteilung.
HAL 9000 Auf diesen Beitrag antworten »

Die Rechteckverteilung ist doch aber eine spezielle Trapezverteilung - oder was meinst du mit letzterer? verwirrt

Ich kann mir ehrlich gesagt kaum eine Verteilung innerhalb der Klasse vorstellen, die zu einer KLEINEREN Varianz führt als wenn man die Klassenmitten nimmt: Es sei denn, die ist asymmetrisch so angelegt, dass in den unteren Klassen tendenziell hohe Intervallwerte, und in den oberen Klassen tendenziell kleine Intervallwerte angenommen werden. Aber wer denkt sich sowas pathologisches aus?
Scotty1701D Auf diesen Beitrag antworten »

Zitat:
Original von MasterWizz
Soweit ich das verstehe, wird die Formel erweitert um die neue Annahme der Trapezverteilung anstelle der Rechteckverteilung.

Ich denke auch, dass das die Idee ist. Bei der Korrektur werden dann wohl die Häufigkeiten in den benachbarten Intervallen berücksichtigt. Da bei einer trapezförmigen Verteilung die Varianz etwas kleiner ist, wird wohl auch die Korrektur kleiner. Allerdings kann sie nicht so klein werden, dass sie ihr Vorzeichen wechselt verwirrt
Entweder ich verstehe hier was grundsätzlich falsch oder die Rechnung ist fehlerhaft.
MasterWizz Auf diesen Beitrag antworten »

Sry Leute ich kann ja auch nur meine Vermutungen zu den Erklärungen aus dem Buch abgeben. Ich hatte gehofft ihr könnt hier Licht ins Dunkel bringen. Euch scheint aber der gleiche Teil zu stressen, wie mich. Aber wenn selbst HAL ratlos ist, dann zweifle ich tatsächlich lieber den Autor Billeter an, der das Buch verfasst und bei Springer veröffentlich hat haha.

Also mich machen die gleichen Stellen fertig, wie euch. Es schien nur zum Greifen nah einfach aus ein zu machen. Wenn ihr eine bessere Idee habt die Shepard Korrektur für verschiedene Klassenbreiten herzuleiten, dann würd ich mich sehr freuen das mit euch zusammen auszuarbeiten.
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »