Datensätze zu Klassen zuordnen

Neue Frage »

Hubert1965 Auf diesen Beitrag antworten »
Datensätze zu Klassen zuordnen
Ich habe ein Machine-Learning-Problem zu lösen, das darin besteht, ein Modell aus vorhandenen Daten zu extrahieren und dieses Modell dann zu verwenden, um Datensätze aus einer ähnlichen Quelle verschiedenen Klassen zuzuweisen. Da das ursprüngliche Problem etwas abstrakt ist, habe ich mir eine ähnliche, aber abgespeckte Aufgabe ausgedacht, auf deren Grundlage ich das Problem und meine Fragen zeigen möchte:

Datenmodell:

100 Frauen und 1000 Männer studieren Elektrotechnik an einer Universität. Diese 1100 Leute haben im letzten Monat diese Dinge gekauft:

  • Tampons: 50 Frauen (F) und 0 Männer (M)
  • Nagellack: 20 F, 2 M.
  • Haarspray: 20 F, 20 M.
  • Mineralwasser: 70 F, 700 M.
  • Neuer Laptop: 2 F, 20 M.
  • Herrenschuhe: 0 F, 200 M.
  • Betten: 0 F, 5 M.


Triviale Fragen:
Wenn man mir sagen würde, dass 11 Personen aus der oben beschriebenen Gruppe Mineralwasser gekauft haben und ich raten müsste, wie viele von ihnen Frauen sind, würde ich sagen, dass es höchstwahrscheinlich 1 Frau und 10 Männer sind, da dies genau dem Geschlechterverhältnis der Mineralwasserkäufer entspricht, das auch genau das Geschlechterverhältnis der gesamten Gruppe ist.

Wenn man mir sagen würde, dass 5 Personen Tampons gekauft haben, würde ich davon ausgehen, dass alle 5 Personen Frauen sind, da nach den obigen Informationen Männer keine Tampons kaufen, sondern nur Frauen.

Ähnlich verhält es sich mit Herrenschuhen: Ich würde annehmen, dass jeder, der Herrenschuhe kauft, ein Mann ist.

Etwas schwieriger:
Bisher war alles einfach. Aber was ist, wenn mir gesagt wird, dass 22 Personen aus dieser Gruppe in einem andern und auch längeren Zeitraum Betten gekauft haben? Darf man glauben, dass dies nur Männer waren? Wenn Betten von Männern und Frauen gleich oft gekauft würden (0,5% der Männer kaufen Betten und 0,5% der Frauen tun das auch), hätten wir in unserer Gruppe mit 1000 Männern von denen 5 Betten kaufen, bei 100 Frauen einen Erwartungswert von 1/2 Frau, die ein Bett kaufen würde. Da kann es durchaus sein, dass es zufällig in Monat der Datenerhebung gerade keine Frau in der Gruppe gab, die ein Bett gekauft hat, obwohl von 1000 Frauen vielleicht 5 ein Bett gekauft hätten. Wie kann diese Überlegung bei der Berechnung berücksichtigt werden? Intuitiv würde ich sagen, dass unter den 22 Bettenkäufern 1 Frau war. Aber wie kann man das mathematisch begründen?

Zurück zu den Mineralwasserkäufern: Wenn ich nicht nur für 1 Gruppe von 11 Personen raten müsste, wie viele von ihnen Frauen wären, sondern wenn ich für 100 Gruppen mit jeweils 11 Personen raten müsste, und wenn ich jedes Mal gesagt hätte: „1 Frau und 10 Männer“: Wie oft hätte ich richtig geraten? Wie oft hätte ich richtig geraten, wenn ich gesagt hätte: „Keine Frau und 11 Männer“ oder „2 Frauen und 9 Männer“ usw.?

Das eigentliche Problem:

Jetzt wird es noch einen Tick schwieriger und wir nähern uns dem eigentlichen Problem, das ich lösen sollte:

Wir haben:

a) 100 Personen, die Nagellack und Herrenschuhe gekauft haben
b) 100 Personen, die Nagellack, Herrenschuhe und Haarspray gekauft haben
c) 100 Personen, die Nagellack, Herrenschuhe und Mineralwasser gekauft haben
d) 100 Personen, die Nagellack, Herrenschuhe und einen Laptop gekauft haben
e) 100 Personen, die Tampons und ein Bett gekauft haben
f) 100 Personen, die Tampons und Herrenschuhe gekauft haben

Und ich soll jetzt für jede der 6 Gruppen die wahrscheinlichste Anzahl von Frauen in der Gruppe angeben.

Am interessantesten ist f): Nach unseren Zahlen ist jeder, der Tampons kauft, eine Frau und jeder, der Herrenschuhe kauft, ein Mann. Menschen, die beides kaufen, sollten nach unseren Zahlen gar nicht existieren. (Zumindest lassen die Daten, die in dem Monat der Datenerhebung gesammelt wurden, diesen Schluss zu.) Aber wenn es solche Menschen doch gibt: Wie muss man vorgehen, wenn auch in diesem Fall eine Wahrscheinlichkeit für das Geschlecht angeben soll?

Eine weitere interessante Frage: Vergleiche a) mit c) und d): Ändert das Wissen, dass eine Person, die Nagellack und Herrenschuhe gekauft hat, zusätzlich auch Mineralwasser oder einen Laptop gekauft hat, das Ergebnis?
Hubert1965 Auf diesen Beitrag antworten »
RE: Datensätze zu Klassen zuordnen (Statistik, Wahrscheinlichkeiten)
Ist meine Frage unklar formuliert? Dann bitte ich um entsprechende Rückmeldungen.

Oder ist sie euch zu schwer?
Elvis Auf diesen Beitrag antworten »

Deine Frage ist alles andere als genderneutral. Das ursprünglich etwas abstrakte Problem hat zweifellos mehr Engagement verdient als das von dir angebotene.
Hubert1965 Auf diesen Beitrag antworten »

Wie kannst du so eine Aussage machen ohne zu wissen, was mein abstraktes Problem ist? Du vergleichst etwas das du kennst mit etwas das du nicht kennst und "weißt" welches von beiden besser ist?

Und warum sollte ein konkretes Problem weniger Engagement verdienen als ein abstraktes? Die Mathematik dahinter ist genau dieselbe. Bei dem Beispiel, das ich genannt habe, kann man sich wenigstens vorstellen worum es geht.
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »