Modellierung stochastischer Unabhängigkeit von relativen Häufigkeiten einzelner Zeichen möglich?

Neue Frage »

CharFreqChris Auf diesen Beitrag antworten »
Modellierung stochastischer Unabhängigkeit von relativen Häufigkeiten einzelner Zeichen möglich?
Hallo zusammen,

von MusicBrainz habe ich mir die CD-Beschreibungen der Discs geholt, die eine Alpha3-Codierung für die jeweilige Sprache haben. Dabei habe ich bei allen Zeichen nur die Großbuchstaben betrachtet. Schließlich habe ich die relativen Häufigkeiten (Frequenzen) der Großbuchstaben in eine CSV-Datei (erste 10 Zeilen sollten als txt-Datei an diesem Posting hängen) geschrieben.

Bevor es nun damit richtig los- oder weitergeht stellt sich mir die Frage, ob die Frequenzen stochastisch unabhängig sind. Nehmen wir mal an, unter P(A) versteht man die Frequenz des Buchstaben 'A' und unter P(B) die des Buchstaben 'B'. Beide lassen sich aus jeder Zeile eines Datensatzes ablesen und ich möchte wissen, ob das Auftauchen eines Buchstaben B vom Auftauchen des Buchstaben A stochastisch abhängt.

Dann müsste ja gelten . Während ich sowohl P(A) als auch P(B) direkt aus jeder Zeile eines Datensatzes ablesen kann (zugegeben: das sind jetzt noch echte Prozentangaben, die durch 100 geteilt werden müssten) ist mir unklar, wie bestimmt werden kann.

Für jeden Hinweis ist Euch dankbar

Christian
HAL 9000 Auf diesen Beitrag antworten »

Na zähle einfach die Zeilen, die "A und B" enthalten.

Deine .txt-Datei verstehe ich nicht, da sind abgesehen von einer Kopfzeile mit lauter Einträgen uci* nur Zahlen zu sehen, keine Buchstaben...
CharFreqChris Auf diesen Beitrag antworten »

Hey HAL,

ich sehe folgende Schwierigkeit: P(A) und P(B) (wie alle P(x)) sind ja relative Häufigkeiten und liefern damit Werte [100, 0] bzw [1, 0] richtig normiert. Wenn ich Zeilen zähle, gibt das eine ganze Zahl (zur Zeit größer 10000), was weit außerhalb des Werte-Bereichs [100, 0] bzw [1, 0] liegt. Wie modelliere ich so, dass das vom Wertebereich hinkommt?

Was das Zählen anlangt, könnte ich erstmal alle Zeilen zählen, in denen Werte für A und B auftauchen und diese dann zur Gesamtzahl aller Zeilen in Beziehung setzen. Dadurch lande ich dann im Wertebereich [1, 0]. Meinst Du das?

Die Textdatei: Die erste Zeile ist die Kopf-Zeile mit der Unicode-Nummer des darunter stehenden Wertes. Alle folgenden Zeilen weisen dann nur noch dir relativen Häufigkeiten der entsprechenden Buchstaben aus.

Beste Grüße von

Christian
HAL 9000 Auf diesen Beitrag antworten »

Ich wollte jetzt eigentlich nicht über die Trivialität debattieren, wie man aus absoluten Häufigkeiten relative macht...

Außderdem hatte ich angenommen, du hast die Originaldaten zur Verfügung, d.h., alle CD-Beschreibungen. Wenn du die natürlich schon vorverarbeitet hast, und da nur das Auftreten von Einzelbuchstaben statistisch erfasst hast: Pech gehabt, dann musst du die Originaldaten eben nochmal scannen, diesmal auf dich interessierende Buchstabenkombinationen wie hier "A und B".

Allein aus den Einzelbuchstabenstatistiken ist dieser Wert natürlich NICHT berechenbar.
CharFreqChris Auf diesen Beitrag antworten »

OK, das ist eine schlechte Nachricht, weil dann ja A|B ungleich B|A ist und das ganze Scannen sehr sehr aufwändig (aussichtslos) wird. Schade und Danke - ganz trivial ;-)
HAL 9000 Auf diesen Beitrag antworten »

Verstehe nicht, was daran "aussichtslos" sein soll: Wenn du in der Lage bist, einzeln nach "A" bzw. "B" zu scannen, dann kannst du das doch sicher auch jeden einzelnen Datensatz einmal nach "A" und einmal nach "B" scannen, und dann die Ergebnisse UND-verknüpft zählen! unglücklich
 
 
CharFreqChris Auf diesen Beitrag antworten »

Aussichtslos heißt hier folgendes: Die einzelnen Discs liegen (gut unterscheidbar und vor allem mit allen vollen Titeln) in einer Datenbank. Ich würde diese Discs eindampfen wollen auf die relativen Häufigkeiten der Einzelgroßbuchstaben. Dieses Eindampfen lässt von den Discs nur die relativen Häufigkeiten der Buchstaben und am Ende einen Alpha3-Code übrig. Eine direkte Verbindung dieser Zeile zur Disc, aus der sie erzeugt wurde, besteht nicht mehr.

Diese Frequenzen mit abschließendem Alpha3-Code sollen von einem ML-Modell verwendet werden, das schließlich Alpha3-Codes richtig rät, eben nur auf Grundlage der einzelnen Großbuchstaben-Frequenzen. Das ML-Modell erfordert eigentlich, dass die einzelnen Features voneinander unabhängig sind.

Bevor ich also (Atom-) Strom für (womöglich sinnfreies) Rumrechnen verballere, hätte ich mich gerne überzeugt, dass das funktionieren kann. Dafür hätte ich den Nachweis der stochastischen Unabhängigkeit der Frequenzen gebraucht. Und das wird dann ja - insbesondere wenn man zurückgehen möchte, auf die vollständigen Ursprungs-Texte auf der Disc - ein monströses Rumgerechne, wenn man nur mal von 26 möglichen Buchstaben ausgeht und dann auch noch einbeziehen müsste, wer vor wem steht, was dazwischen passiert und so weiter.

Ich hatte gehofft, dass es einen einfachen Weg gibt, zu bestimmen :-(
HAL 9000 Auf diesen Beitrag antworten »

Hmm, du willst also die Daten, die dazu nötig wären eine solche Unabhängigkeitsannahme nachzuweisen, (aus welchen Gründen auch immer) nicht erfassen. Dann musst du das mit dem Nachweis eben vergessen.
CharFreqChris Auf diesen Beitrag antworten »

Naja, das Problem dieses Nachweises ist doppelt.

Erstens müsste ich ja einen Nachweis führen, wie genau zu berechnen ist. Was zum Beispiel machen mit den Zeichen zwischen den Buchstaben?

Zweitens müsste ich diese Metrik über den gesamten Datensatz nachrechnen (lassen).

Nachdem ich schon für den ersten Fall keine klare Vorstellung habe, kann ich den Nachweis wohl wirklich vergessen und arbeite auf den Punkt hin, an dem mich irgendwer mit deutlich mehr Erfahrung ganz trivial auslacht.

Naja, such is life ;-)
HAL 9000 Auf diesen Beitrag antworten »

Zitat:
Original von CharFreqChris
Was zum Beispiel machen mit den Zeichen zwischen den Buchstaben?

Ich verstehe nicht, was du meinst. Wenn es um die Ereignisse geht

... Buchstabe A kommt in der CD-Beschreibung vor
... Buchstabe B kommt in der CD-Beschreibung vor

dann ist

... sowohl Buchstabe A als auch Buchstabe B kommen in der CD-Beschreibung vor

Selbstverständlich sind dann auch andere Zeichen zwischen den beiden denkbar, und auch die Reihenfolge (ob zuerst A und dann B kommt oder umgekehrt) kann mit diesem Ereignis nicht erfasst werden.
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »