Wie kann ich ermitteln, ob Stichprobengröße repräsentativ ist?

Neue Frage »

REDsonic Auf diesen Beitrag antworten »
Wie kann ich ermitteln, ob Stichprobengröße repräsentativ ist?
Hallo zusammen,

ich habe ein kleines statistikproblem für meine diplomarbeit. mir liegt eine druchgeführte umfrage vor, die an einer geschichteten grundgesamtheit durchgeführt wurde. diese will ich nun auswerten und nur eine sehr kurze aussage darüber treffen, ob die stichprobengröße und damit die ergebnisse repräsentativ im bezug auf die grundgesamtheit sind.

also. wir haben eine grundgesamtheit von 614 Verkäufern. die teilen sich in drei gebiete auf, die umsätze zu 30/40/30 prozent machen. also gibt es drei schichten. innerhalb der umfrage kam ein verwertbarer rücklauf von 107 stichprobenergebnissen. die stichprobengröße ist also 107. wie kann ich nun aussagen treffen, dass diese größe und damit das ergebnis repräsentativ ist. es wurden bei der umfrage viele fragen gestellt. mittlerweile weiß ich, dass man bei stichprobengröße >30 eine normalverteilung zugrunde legen kann, komm aber mit der berechnung der stichprobengröße in dieser langen formel nicht so klar.
könnte mir das von euch einer zeigen? vielen dank vorab.

gruß. micha.
MarronJones Auf diesen Beitrag antworten »

Du kannst nur zeigen, über "Zentrale Grenzwertsätze", dass es Verteilungen gibt, die mit steigender Stichprobenzahl gegen eine Normalverteilung laufen. D.h. die Verteilung die du untersuchst weicht dann nur gering von der Normalverteilung ab.

Man sagt, dass man ab einer Stichprobenzahl von mindestens 30 eine angemessene Approximation der Normalverteilung erhält. Allerdings solltest du hier dir ein Histogramm oder eine Kerndichteschätzung anschauen und Goodness-of-Fit Tests machen, denn hast du bspw. eine schiefe oder multimodale Verteilung und approximierst sie mit der Normalverteilung, kannst du immer noch gut daneben liegen egal wie groß deine Stichprobe ist.

Also zuerst Dichteschätzer, dann Goddness-of-Fit Tests (hier würde ich auch auf nichtparametrische Tests zugreifen) und dann wenn Normalverteilung von den Tests mit hoher Signifikanz angenommen wird, würde ich mal Konvergenzrate von Zentralen Grenzwertsätzen nachschauen, die sind normalerweise abhängig von der Stichprobengröße.

Weitere Möglichkeit bei Annahme der Normalverteilung: Momente der Verteilung werden mit unverzerrtem Schätzer geschätzt und diese konvergieren auch mit der Größe der Stichprobe zu den wahren Parametern der Grundgesamtheit....

Aber alles in allem kann man nicht bei ZVen sagen das ist jetzt repräsentativ, wenn man die Verteilung der Grundgesamtheit nicht kennt, denn du kannst ja bspw. nur Werte unter dem Mittelwert ziehen und hättest bei einer symmetrischen Verteilung dann die Hälfte aller Werte (also ne ganze Menge). Diese würden dir aber ein völlig falsches Bild geben von der Grundgesamtheit. Sowas kommt zwar nur mit geringer WK vor, erklärt aber sehr anschaulich die Problemstellung mit der sich die Statistik beschäftigt.
REDsonic Auf diesen Beitrag antworten »

hmm...vielen dank erstmal. das klingt mir immer komplizierter, zumal ich nur den satz schreiben wollte, dass bei diese stichprobengröße repräsentativ ist oder eben nicht. nun hört sich das nach ner menge zeit an die ich in der diplomarbeit sonst an allen ecken und enden brauche.

schafft es denn abhilfe, wenn ich die gebietszuteilung und damit die befragung der verkäufer vorher festlege? also wir haben der befragung wohl vorgegeben, dass 30% aus nord, 40% aus mitte und 30% aus süd befragt werden. damit haben wir doch eigentlich schonmal die schichten umgangen oder? also könnte ich doch für die einzelnen schichten nun ausrechnen, wieviele ich hätte befragen müssen, um der entsprechenden grundgesamtheit einer schicht aussagekraft zu verleihen oder?

also folgendes beispiel. ich habe 30% aus nord von 1000 leuten grundgesamtheit. nun befrage ich 100, wobei darunter genau 30% aus nord sind. kann ich dann nicht irgendwie einfach ermitteln, wie groß meine erzielte treffsicherheit und streuung der stichprobe ist? also nehmen wir an da kommt 80% sicherheit und 20% unsicherheit raus, wäre das doch schonmal ne aussage für meinen einen satz in der diplomarbeit...

gruß. dennis
MarronJones Auf diesen Beitrag antworten »

Folgendes: Repräsentativ für die Gebiete: das kann man hinnehmen. Jedoch gilt es zu beachten, dass

1. die Verteilungen innerhalb der Gebiete durchaus unterschiedlich sein können und
2. die Auswahl der Individuen bestimmten Kriterien genügen sollten, welche von dir festgelegt werden aufgrund deiner Einschätzung der Einflüsse dieser Kriterien auf das zu untersuchende Kriterium.

Beispiel: Nehmen wir an das zu untersuchende Kriterium sei das Gehalt, dann wären Kriterien die bei der Auswahl bedacht sein sollten bspw. Alter, Geschlecht, Dauer und Art der Ausbildung, etc.

Nimmst du bspw. nur Individuen aus Gebiet 1 die unter 30 sind, in der Grundgesamtheit sind aber mehr als 70% älter, dann wäre dies nicht repräsentativ.

Wenn es dir darum geht Treffsicherheit, bzw. Streuung zu untersuchen, würde ich mir Konfidenzintervalle errechnen. Dafür solltest du natürlich einen Schätzer wie den Mittelwert (besser bei völlig ungewisser Verteilung der Grundgesamtheit den Median oder andere Quantile) oder die Varianz haben. Damit kannst du dann angeben, in welchem Intervall um deinen Schätzwert der wahre Wert der Grundgesamtheit liegt mit bestimmter von dir vorgegebener WK und gegebener Stichprobengröße. Ist dann das Intervall recht groß, ist die Schätzung sehr ungenau und man "könnte" sagen das dies nicht repräsentativ "wäre".

Aber auch hier sei Vorsicht geboten, denn wie schon gesagt: Ist die Verteilung der Grundgesamtheit nicht Normalverteilt (d.h. insbesondere symmetrisch) könntest du stark daneben liegen auch wenn das Konfidenzintervall, was auf der Normalverteilung in dem Falle beruht, klein ist. Einkommen sind bspw. lognormalverteilt...

Aber jedes Statistikprogramm wirft dir einen Jarque-Bera-Test raus....dann kannst du dir sicher sein....

Ich wäre immer vorsichtig in solchen Arbeiten mit festen Aussagen....daraus drehen einem manche Professoren einen Strick....
REDsonic Auf diesen Beitrag antworten »

Hallo ich bins nochmal,

habe die letzten Tage im Lesesaal verbracht und mich mal ein wenig aufgeschlaut. Bin inszwischen so weit, dass ich meine Erhebunng einfach ausgewertet habe und nun bei der induktiven Statistik stehen geblieben bin.

Generell wurde die Stichprobe am Verfahren der Quotenauswahl ausgewählt, wonach 33 A-Betriebe, 32 B-Betriebe und 34 C-Betriebe befragt werden sollen. Blöderweise haben wir nun aber 108 verwertbare Rückmeldungen von unserem Umfrageinstitut wonach 21 A-Betriebe, 37 B-Betriebe und 50 C-Betriebe befragt wurden. Also entgegen jeglicher Gesetzgebung oder Vorauswahl. Insofern liegt da schonmal der erste Fehler, dass die Merkmalsausprägung der Grundgesamtheit in der Stichprobe nicht abgebildet wurde. Ist das ausreichend um eine mangelnde Repräsentativität zu erklären?

Mit der induktiven Statistik komme ich leider nicht weiter, weil ich weder die grundgesamtheit schätzen kann, noch einen hypothesentest machen kann. Zudem sind alle Fragen des Umfragebogens geschlossene mit den Antwortmöglichkeiten Ja, Nein und keine Angabe. Zu meinem Problem gibt es irgendwie kein Buch. Alle gehen davon aus, dass irgendwelche Zahlenwerte vorliegen...aber ich hab ja immer ja, nein oder keine angabe zu bestimmten anzahlen oder relativen häufigkeiten.

Was soll ich nur machen?
Gruß. dennis
MarronJones Auf diesen Beitrag antworten »

Hallo Dennis,

zuerst einmal zu deiner Auwahl: wenn du nicht die Anzahl der Betriebe zurückerhalten hast, die du für repräsentativ hälst, dann ist das eben so, dann mußt du eben mit den Daten arbeiten, welche dir gegeben wurden. Es ist somit ein random sample, denn du hast ja die Auswahl nicht getroffen sondern die Unternehmen, welche dir geantwortet haben. Das heißt aber in der Regel nicht, dass du hier die induktive Statistik nicht anwenden kannst, denn die beschäftigt sich gerade damit von zufälligen Ziehungen auf die Grundgesamtheit zu schließen.

Du solltest dich jetzt fragen, was sind denn meine Hypothesen zu den Unternehmen und dann diese Hypothesen mit verschiedenen Testverfahren überprüfen.

Daten der Form Ja/Nein werden einfach mit 1 oder 0 beziffert, d.h. du gibst den Ja-Antworten eine 1 und den Nein-Antworten eine 0 und kannst dann schauen wie hoch die Anzahl dieser Antworten ist (Häufigkeiten).

Es ist immer recht schwierig etwas generelles zu sagen als Aussenstehender, wenn man die Daten und die Hypothesen nicht kennt, vll. hilft dir dort die sog. Multivariate Statistik weiter. Diese ist besonders dann gefragt, wenn du glaubst, dass deine Stichprobe nicht aus einer Verteilung stammt sondern evtl. aus mehreren (z.B. in deinem Fall aus A/B/C-Unternehmen).

Sei dir also im Klaren, was du aus den Daten sehen möchtest und was deine zu überprüfenden Vermutungen (Hypothesen) sind.

Zu der Quote: du kannst sie doch wieder herstellen indem du bestimmte Unternehmen wieder cancelst...dann könntest du auch schauen, wie sich evtl. deine Testergebnisse um kompletten Sample verändern.

Frohes Schaffen

Simon
 
 
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »