Ansatz zur Berechnung eines prozentualen Confidence-Wertes gesucht

Neue Frage »

Dataworm Auf diesen Beitrag antworten »
Ansatz zur Berechnung eines prozentualen Confidence-Wertes gesucht
Hallo,

ich suche nach Ansätzen zur Berechnung einer Wahrscheinlichkeit. Ich könnte mir zwar selber eine Gewichtung überlegen, wäre aber überrascht wenn es hierfür nicht bereits typische Lösungen gibt, bei denen ich nur zu doof war sie zu finden. Ein entsprechendes Stichwort könnte mir da eventuell schon weiterhelfen.

Am besten mal direkt das Szenario, dass ich grad im Kopf habe:
Ich will die Sprache eines Texts ermitteln und mir dazu auch noch ausgeben lassen, mit welcher Wahrscheinlichkeit der Text den jeweiligen Sprachen entstammt. Dazu kann ich erstmal ganz banal zählen wieviele der Wörter vom Text in der jeweiligen Sprache existieren, wobei ein Wort natürlich in mehreren Sprachen vorkommen kann. Somit kann ich also bezogen auf eine Sprache allein einen Prozentsatz bezüglich der Anzahl an Hits/Matches angeben. Die Confidence (also quasi die global betrachtete Wahrscheinlichkeit) hängt nun aber natürlich auch von den Wahrscheinlichkeiten der anderen N-1 Sprachen ab (ja es wird gegen eine bekannte Anzahl an Sprachen geprüft). Wenn die spezifische Wahrscheinlichkeit für English bei 60% liegen würde und für Deutsch bei 0%, dann wäre ich mir natürlich schon recht sicher an dieser Stelle. Wenn Deutsch jedoch auch eine Wahrscheinlichkeit von 50% hätte, dann ist English immer noch das wahrscheinlichste Ergebnis, aber dennoch wäre ich mir nicht mehr ganz so sicher.

Bestimmt gibt es hierfür ein Standard-Verfahren, auf das mich hier jemand verweisen kann?! Ich hatte bereits über den Satz von Bayes nachgedacht, aber ich verfüge in diesem Fall ja leider nicht über bedingte Wahrscheinlichkeiten.

Theoretisch könnte man noch versuchen weitere Kriterien einzubringen, beispielsweise je mehr Wörter der Text hat, desto sicherer wird mein Ergebnis vermutlich ausfallen, aber das ist erstmal nicht so wichtig und hat eventuell schon automatisch entsprechende Auswirkungen auf die Confidence. Ebenso könnte man versuchen eine Gewichtung vorzunehmen, wenn bekannt ist, welche Sprachen der Author des Textes spricht und welches seine/ihre Muttersprache ist. Aber solche Ergänzungen nehme ich ggf. später selber noch vor.

Vielen Dank schon mal vorab. Sorry auch, falls die Lösung am Ende so banal ist, dass ich selber darauf hätte kommen müssen (was mich grad nicht überraschen würde). :-D
Steffen Bühler Auf diesen Beitrag antworten »
RE: Ansatz zur Berechnung eines prozentualen Confidence-Wertes gesucht
Willkommen im Matheboard!

Da bisher niemand geantwortet hat, hier ein einfacher Ansatz:

Führe einen "Abwertungsfaktor" ein, der die Wahrscheinlichkeit einer Sprache mit denen aller anderen verknüpft. In Deinem Fall (Englisch 60%, Deutsch 50%) wäre das dann beispielsweise .

Viele Grüße
Steffen
Dataworm Auf diesen Beitrag antworten »

Vielen Dank für die Rückmeldung! Ja das ist glaube ich auch genau der Ansatz, den ich mir im Nachhinein noch als mögliche Lösung überlegt habe. Also quasi die Kombination der Wahrscheinlichkeiten, die sich einmal als der Anzahl der Treffer einer Sprache durch die Wortzahl ergibt und dann die Anzahl der Treffer einer Sprache durch die Anzahl der Treffer aller Sprachen zusammen. Müsste glaube ich auf dasselbe Ergebnis hinauslaufen.

Aber alleine nochmal diesen Ansatz bestätigt zu bekommen gibt mir nochmal Zuversicht, dass die Vorgehensweise vermutlich ganz brauchbar sein sollte. Vielen Dank dir!
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »