Inbeziehungsetzen von stat. Kennwerten (Denkfehler?)

Neue Frage »

Mathegast Auf diesen Beitrag antworten »
Inbeziehungsetzen von stat. Kennwerten (Denkfehler?)
Hallo. Ich habe gerade (wahrscheinlich) eine riesigen Denkfehler und komme einfach nicht weiter.

Ich mache Versuche an der Uni und bin gerade über ein Problem gestolpert, dass ich nach mehreren Anläufen und Versuchen im Excel nicht hinbekommen habe. Da ich eine Schweigepflichtserklärung unterschrieben habe, vereinfache ich die Situation mal folgendermaßen:

Es sollen 20 Bäckereien nach ihrer Güte in Reihenfolge gebracht werden, d. h. also "Bäcker A" kommt auf Platz 5 von 20 und zwar ist das Gütekriterium das "Schmecken" ihres Kuchens. Die Erhebung gestaltet sich so, dass zwar die (grundsätzlich hoch subjektive) Bewertung anhand einer Prozentskala hinreichend und genügend standardisiert ist, nicht aber die Anzahl der Personen, da die Personen, die die Bäckerei betreten natürlich freiweillig abstimmen dürfen und nicht jede Bäckerei gleichen Zulauf hat, die Erhebung aber in einem stark begrenzten Zeitraum stattfand.

Jetzt habe ich also für jede Bäckerei eine insgesamte Prozentzahl der Kuchenqualität (anhand Kundengeschmack) aber stark unterschiedliche Frequentierungszahlen. Mal als Beispiel 3 Zeilen (dabei heißt Prozent: "bei 100 % kann der Kuchen definitiv nicht besser schmecken):

Bäckerei Prozent Anzahl Teilnehmer in dieser Bäckerei
A 68 204
B 80 98
C 71 2.864
etc.

So, mein Problem ist, ich würde nun gern die Prozent bezüglich der Gesamtprobandenzahl relativieren. D. h. also so in Bezug setzen, dass die 80 % bei gerade mal 98 Personen auch den 71 % Prozent von knapp 3.000 Leuten gerecht berechnet werden, denn letztere sind (zumindest augenscheinlich) mehr wert. D. h. also ich suche in Bezug auf den Gesamtwert von Teilnehmern die angemessenen Prozentzahlen.

Ich hoffe, das war zu verstehen und mir kann jemand helfen, denn ich habe die ganze Zeit das Gefühl, ich sei kurz vor der Lösung.

Danke.
Zellerli Auf diesen Beitrag antworten »

Zitat:
So, mein Problem ist, ich würde nun gern die Prozent bezüglich der Gesamtprobandenzahl relativieren. D. h. also so in Bezug setzen, dass die 80 % bei gerade mal 98 Personen auch den 71 % Prozent von knapp 3.000 Leuten gerecht berechnet werden, denn letztere sind (zumindest augenscheinlich) mehr wert. D. h. also ich suche in Bezug auf den Gesamtwert von Teilnehmern die angemessenen Prozentzahlen.


Ich verstehe das so (ich setze die Prozentskala mal in Punkte um also 0 bis 100 Punkte, Prozent könnten im weiteren Verlauf verwirren):
Bäcker A kriegt durchschnittlich eine Note 71, das ist die Durchschnittsnote von 3000 Kunden.
Bäcker B kriegt durchschnittlich eine Note 80, das ist die Durchschnittsnote von 98 Kunden.

Es ist sehr richtig, dass die Umfrage unter 3000 in der Regel "mehr wert" ist (es sei denn da liegt ein konkreter "Messfehler" vor, einseitige Umfrage, nicht alle Kuchen getestet, "schlechten Tag" gehabt, etc.).

Es gibt kein stochastisches Instrument, dass dir auf vernünftiger Grundlage die Note von B verändert (vermutlich abwertet), um zu bewerten, dass die Note von Bäcker A auf mehr Daten basiert.

Was du machen kannst, ist eine Fehlerrechnung. Das heißt, du kannst sagen, dass die Wahrscheinlichkeit, dass ein neuer Kunde Bäcker A auch eine 71 (oder etwas in dem Bereich) gibt viel größer ist, als die Wahrscheinlichkeit, dass ein neuer Kunde Bäcker B eine 80 gibt.
So ist das auch bei Wahlumfragen. Die großen Parteien haben eine kleinere Abweichung, da ein "Messfehler", den eine Person ausmacht, bei 500 Befragten weniger ausfällt als nur bei 50.
Das wäre natürlich nur bedingt möglich bei etwas so subjektiven, wie dem Geschmack. Klar kann man auch eine Wahlentscheidung ändern, aber der Bäcker bietet ja auch ständig leicht unterschiedliche Qualität, die Tagesform ist anders, die Notenskala ist unüberschaubar riesig (100 Notenstufen bei 80 befragten ist sehr unsinnig).

Oder du unterstellst einen Objektiven Universalgeschmack für jedes Gebäck "Die Schokotorte von Bäcker X erzeugt bei der Menschheit eine Note 85" oder so, den es gilt mit einer möglichst großen Stichprobe herauszufinden. Dann könntest du ausrechnen, wie groß die Wahrscheinlichkeit ist, dass sich der Kundenstamm von A irrt, bzw. der von B.

Ich denke vernünftig wäre erstmal, die Anzahl der signifikanten Stellen anzupassen.
Es ist Unsinn eine Note auf 3 Stellen anzugeben, wenn es nur eine zweistellige Anzahl an befragten gibt.
Das wäre schonmal eine "Vereinfachung", die - ohne große Fehlerrechnung - schonmal die Aussagekraft der Umfrage verdeutlicht.

Ansonsten könntest du auch aus den Erhebungen bei allen Bäckern 100 zufällig ziehen, um es vergleichbar zu machen (dann natürlich sinnvoller Weise die Notenskala auf 0-10 einstellen).
Dann streuen die Messdaten gleich start und die Ergebnisse werden vergleichbar.

Der Endverbraucher wird mit einer wissenschaftlich fundierten Fehlerrechnung nicht viel anfangen können. Und in die Note kannst du (außer einen Fehler anzugeben) nicht die Güte der Messung einfließen lassen.
Huggy Auf diesen Beitrag antworten »
RE: Inbeziehungsetzen von stat. Kennwerten (Denkfehler?)
Wie schon Zellerli bemerkte, kannst du an den beobachteten Prozentzahlen durch statistische Herumrechnerei nichts ändern. Aber mittels des Konfidenzintervalls kannst du diese Zahlen mit so etwas wie einem Fehlerbalken versehen. Dieser Fehlerbalken beinhaltet den Umfang der Stichprobe. Je größer die Stichprobe, desto kleiner der Fehlerbalken.
JPL Auf diesen Beitrag antworten »
RE: Inbeziehungsetzen von stat. Kennwerten (Denkfehler?)
Hi Huggy,

Zitat:
Original von Huggy
...Aber mittels des Konfidenzintervalls kannst du diese Zahlen mit so etwas wie einem Fehlerbalken versehen.

Fehlerbalken und Konfidenzintervall sind aber nicht dasselbe. Der Fehlerbalken entspricht dem SE des Schätzers, während das KI auch noch das Quantil der entsprechenden Verteilung beinhaltet - deswegen wird gerne der SE statt SD verwendet, weil er kleiner ist und daher besser aussieht, obwohl das meistens Unsinn ist.
Grüße,
JPL
Mathegast Auf diesen Beitrag antworten »

Hallo. Erstmal vielen Dank. Ich hatte mir schon gedacht, dass es keine direkte Übersetzung dafür gibt, aber man zweifelt manchmal schnell an sich.

Ich werde wohl übers WE alle Vorschläge mal ausprobieren.

BTW: Kann man diese randomisierte Auswahl (bei allen Bäckern 100 Kunden ziehen) auch von SPSS machen lassen? Bin leider nicht so firm mit dem Programm, ist aber das einzige Statistikprogramm, dass mir zur Verfügung steht.

Also wie gesagt, tausend Dank erstmal.
Zellerli Auf diesen Beitrag antworten »

SPSS kenne ich jetzt nichtmal.

Aber das kannst du sogar mit Excel machen:

Zwei Spalten:
Spalte A beinhaltet die "Messwerte", also die Note der Kunden
Spalte B beinhaltet genauso viele "Zufallszahlen (kannste im Excel ja einfach z.B. in B2 einmal eingeben und dann runterziehen bis die Noten in Spalte A aufhören).

Dann markierst du beide Spalten (also nur die Noten und Zufallszahlen, keine evtl. Beschreibung über den Spalten) und gehst oben in der Leiste auf "Daten --> Sortieren" und dann nach "Zufallszahl" (oder wie eben deine Spalte mit den Zufallszahlen benannt ist.

Anschließend nimmst du einfach die ersten 100 Werte. Vielleicht wäre eine dritte Spalte hilfreich, in der du 1-100 durchnummerierst, wodurch du weißt, wo deine Stichprobe endet.
 
 
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »