Festlegung einer aussagekräftigen Stichprobe

Neue Frage »

DonnaDicky Auf diesen Beitrag antworten »
Festlegung einer aussagekräftigen Stichprobe
Hallo zusammen,

wir haben folgendes Problem zu lösen und sind mathematisch leider nicht sonderlich fit. Es wäre daher wirklich schön, wenn jemand uns weiterhelfen, bzw. in die richtige Richtung lenken könnte.

In einer Datenbank befinden sich 4500 Datensätze mit jeweils einigen Auswahllisten aber auch vielen freien Textfeldern, in die freie Texte hineingeschrieben wurden. Diese Datensätze sollen nun anhand ihrer Quellen auf ihre Richtigkeit untersucht werden (im Rahmen einer Validierung dieser Datenbank). Hat man hier eine Möglichkeit, einen Stichprobenumfang festzulegen, anhand derer man feststellen kann, dass mit 95% Wahrscheinlichkeit nur 1% dieser Datensätze falsch eingetragen wurden?

Prinzipiell haben wir nur die Größe der Grundgesamtheit. Andere Werte und Verteilungen sind unbekannt und müssten wahrscheinlich abgeschätzt werden, da eine Bestimmung der Verteilung anhand von Tests aufgrund der Datensatzstruktur unmöglich erscheint. Wir sind uns nun unsicher, ob das überhaupt möglich ist und wenn doch, welche Verteilung man zugrunde legen kann und warum, bzw. wie man dann den Stichprobenumfang erhält. Über Hinweise sind wir wirklich dankbar, gerne bitte mit Quellenangabe!

Herzlichen Dank!
Zellerli Auf diesen Beitrag antworten »

Zitat:
In einer Datenbank befinden sich 4500 Datensätze mit jeweils einigen Auswahllisten aber auch vielen freien Textfeldern, in die freie Texte hineingeschrieben wurden. Diese Datensätze sollen nun anhand ihrer Quellen auf ihre Richtigkeit untersucht werden


Irgendwie kann ich dir hier nicht folgen...

Um welche Größe geht es denn genau und welche Werte kann sie annehmen?
DonnaDicky Auf diesen Beitrag antworten »

Hallo

Das ist ein bisschen schwierig zu erklären. Die einzelnen Datensätze bestehen aus jeweils vielen Angaben, teilweise Zahlen, viel aber auch freier Text. Man kann auch einfach sagen, wir möchten prüfen, ob der Text aus der Quelle richtig in den Datensatz eingetragen wurde. Es geht also darum, anhand der Quelle zu beurteilen, der Datensatz ist richtig/falsch. Ein Datensatz bleibt immer gleich und ändert seine Werte und seinen Text niemals.

Und dafür bräuchten wir, wenn das möglich ist, eine aussagekräftige Stichprobe, die uns eben mit 95%tiger WK sagen kann, dass nicht mehr als 1% falsch eingetragen wurde. Uns stellt sich jetzt die Frage, welche Verteilung wir annehmen können und warum? Und das Ganze am besten mit einer Quelle, auf die man sich berufen kann.

Es wäre wirklich toll, wenn du uns helfen könntest!
Zellerli Auf diesen Beitrag antworten »

Dann nochmal zusammenfassen:

Ich stelle mir da gerade eine Menge von Merkmalen vor, die man einen Datensatz nennt.
Einige Merkmale haben quantitative Ausprägung, andere qualitative.
Zum Beispiel, wenn man einen Menschen einordnet:
Größe: 216cm
Alter: 2 Jahre
politische Gesinnung: grün
Größter Traum: eine eigene Nutella Fabrik

Dabei tauchen jetzt für mich folgende Probleme auf: Die Größe und das Alter (die ja nich unabhängig sind) könnte man noch irgendwie in den Griff kriegen. Und vielleicht auch noch die politische Gesinnung anhand von Demoskopie. Aber richtig hart wird es beim größten Traum.

Und über euren Datensatz wisst ihr scheinbar nicht so sonderlich viel oder wie frei sind die möglichen Einträge?

Jetzt noch meine Frage: Was hat es jetzt mit einer "Quelle" in diesem Zusammenhang auf sich?
Huggy Auf diesen Beitrag antworten »

Aus deiner Beschreibung wird nicht so recht klar, geht es bei der Zählung um die Datensätze oder die einzelnen Einträge in die Datensätze. Jeder Datensatz scheint ja mehrere Einträge zu haben.

Für den mathematischen Aspekt der Frage ist das allerdings unerheblich. Man hat eine Menge von Objekten (Datensätze, Eintragungen oder sonst etwas). Jedes Objekt hat eines von zwei Merkmalen, hier richtig oder falsch. Ein unbekannter Anteil p der Menge hat das Merkmal falsch. Wenn man aus der Menge eine Stichprobe vom Umfang n nimmt, ergibt sich die Wahrscheinlichkeit, dass k bzw. <= k der Objekte in der Stichprobe das Merkmal falsch haben, aus der Binomialverteilung B(k, n, p). Die Frage der Verteilung ist damit geklärt. Es ist die Binomialverteilung.

Jetzt soll aus einer Stichprobe auf den Parameter p der Binomialverteilung geschlossen werden. Gesucht ist also ein Konfidenzintervall für p, hier ein einseitiges mit einer Sicherheit von 95 %. Wie man das berechnet, findet man in den meisten Statistikbüchern.

Deine eigentliche Frage ist, wie groß der Umfang n der Stichprobe sein muss, damit man auf p <= 1 % mit 95 % Sicherheit schließen kann. Die traurige Antwort ist, ohne eine Vermutung über p lässt sich das nicht sagen. Immerhin lässt sich das Problem eingrenzen, da offenbar vermutet wird, dass p < 1 % ist. Eine Stichprobe mit n = 100 reicht nicht aus, das mit 95 % Sicherheit zu bestätigen. Selbst wenn in der Stichprobe keine Objekte mit dem Merkmal falsch wären, würde die Grenze des 95 %-Konfidenzintervalls noch über 1 % liegen. Eine Stichprobe mit n = 500 könnte ausreichen, wenn das unbekannte p deutlich kleiner als 1 % ist. Sollte aber p >= 0,4 % sein, ist ein noch größerer Stichprobenumfang erforderlich.
Zellerli Auf diesen Beitrag antworten »

Huggy:
Zitat:
Jedes Objekt hat eines von zwei Merkmalen, hier richtig oder falsch.


Wenn man das hineininterpretiert, ist man ein gewaltiges Stück weiter. Aber ist es so gemeint? Wäre ja gut machbar, wenn es so ist Augenzwinkern
 
 
DonnaDicky Auf diesen Beitrag antworten »

Hallo,

vielen Dank erst einmal für eure Hilfe, das ist wirklich nett! Man kann es so annehmen, wie Huggy es getan hat: richtig oder falsch. Unser p ist unbekannt, müssen wir es dann annehmen oder kann man n auch noch anders bestimmen? Bzw. wie legt man dann fest, wie die nächstgrößere Stichprobe aussähe, falls p zu groß wird?

Es wäre super, wenn ihr uns zudem ein paar Bücher nennen könntet, in denen wir die Erklärungen finden und wie man mit den Formeln umzugehen hat.

Danke!!!
Huggy Auf diesen Beitrag antworten »

Mit Buchtipps kann ich leider nicht dienen, da meine Werke so alt sind, dass du sie höchstens noch im Antiquariat findest. Ich gebe einfach mal die Formeln für dein Problem an. Vorab aber noch eine Bemerkung: Man findet in der Literatur häufig Formeln, die auf der Näherung der Binomialverteilung durch die Normalverteilung beruhen. Die kann man hier nicht verwenden, weil p zu klein ist.

Eingabedaten sind:

n Sichprobenumfang
x gefundene Anzahl mit Merkmal falsch
S gewünschte Sicherheit in %


Das Konfidenzintervall kann mittels der F-Verteilung ausgedrückt werden. Die obere Grenze des einseitigen Konfidenzintervalls ist bei x > 0:



Diese Formel kannst du z.B. so direkt in Excel eingeben. FINV ist der in Excel verwendet Funktionsname.

Ist x = 0 ist die Formel anders und wesentlich einfacher:



Beispiele:

n = 500
x = 2
S = 95 %


Die obere Formel ergibt

n = 100
x = 0
S wie vorher

Die untere Formel ergibt


Ich würde mit n = 600 beginnen und danach, falls notwendig, n auf z. B. 1200 erhöhen. Sollte aber die in der Stichprobe beobachtete Fehlerrate schon nahe an 1 % liegen, kann man auch gleich die alle Objekte prüfen.
DonnaDicky Auf diesen Beitrag antworten »

Hallo Huggy,

vielen Dank für deine Hilfe! Da wir wirklich Laien auf dem Gebiet sind, hätten wir da noch ein paar Rückfragen, hoffentlich ist das okay.

1. Die Formel, die du uns angegeben hast für P0, x>0, beruht sie jetzt auf der Binomialverteilung oder ist sie eine Annäherung der Binomialverteilung durch die F-Verteilung oder beruht sie auf der F-Verteilung? Und wieso F-Verteilung?

2. Wo finden wir Quellen für diese Formel? Oder eine Herleitung? Wir würden das Ganze gerne versuchen zu verstehen.. Bzw. wonach (Stichworte) müssten wir suchen, um eine Quelle zu finden?

3. Prinzipiell legt man also n erst mal willkürlich fest und überprüft n. Daraus erhält man x, berechnet mit alpha dann P0 und guckt, ob es unter 0,01 fällt?

Herzlichen Dank für deine Bemühugnen, dass ist wirklich hilfreich!!!
DonnaDicky Auf diesen Beitrag antworten »

ach, nicht 0,01 natürlich :-)
Huggy Auf diesen Beitrag antworten »

Zitat:
Original von DonnaDicky
1. Die Formel, die du uns angegeben hast für P0, x>0, beruht sie jetzt auf der Binomialverteilung oder ist sie eine Annäherung der Binomialverteilung durch die F-Verteilung oder beruht sie auf der F-Verteilung? Und wieso F-Verteilung?

Die Formel beruht auf der Binomialverteilung und der Tatsache, dass man die Binomialverteilung durch die F-Verteilung ausdrücken kann. Sie ist keine Näherung, sondern exakt. Der Zusammenhang zwischen Binomialverteilung und F-Verteilung ist kaum in wenigen Zeilen zu erklären.

Zitat:
2. Wo finden wir Quellen für diese Formel? Oder eine Herleitung? Wir würden das Ganze gerne versuchen zu verstehen.. Bzw. wonach (Stichworte) müssten wir suchen, um eine Quelle zu finden?

Meine Quelle ist:
Kurt Stange
Angewandte Statistik, Erster Teil
1970
Dort auf Seite 436 ff

Bei Amazon gibt es Angebote für gebrauchte Exemplare. Da ich keine Bibliothek in der Nähe habe, kann ich leider kein aktuelles Statiistikbuch angeben. Im heutigen Computerzeitalter kann man natürlich auch direkt die Binomialverteilung benutzen. Dazu ist einfach die Gleichung



numerisch nach p aufzulösen. In Excel erledigt das die Zielwertsuche.

Zitat:
3. Prinzipiell legt man also n erst mal willkürlich fest und überprüft n. Daraus erhält man x, berechnet mit alpha dann P0 und guckt, ob es unter 0,01 fällt?

Richtig!
Dabei ist es zweckmäßig, vorab mit verschiedenen Werten von n und x rechnerisch auszuprobieren, wie viele Objekte mit dem Merkmal falsch (also welches x) man in einer Stichprobe vom Umfang haben darf, damit <= 1 % noch erfüllt ist.
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »