Mathematisch die Wichtigen Worte eines Textes ermitteln?

Neue Frage »

Steven44566 Auf diesen Beitrag antworten »
Mathematisch die Wichtigen Worte eines Textes ermitteln?
Meine Frage:
Guten Morgen zusammen,

ich hoffe, das ich hierim richtigen Forum gelandet bin, DASS ich nur weiß da es geht, aber nicht exakt WIE. Mein erster Gedanke war, dass dort die Mathematik weiterhelfen kann:

Ich möchte gerne herausfinden, ob man mit Hilfe der Mathematik (ggf. in Kombination mit einer Basisdatenbank bestehender Worte) einen Algorithmus entwickeln kann, welcher die wichtigsten Worte eines Textes herausfinden und damit dessen "Thema" oder "Richtung" bestimmen kann. Sodass der Algorithmus z.B. in einem Artikel der Süddeutschen Zeitung ermittelt kann, dass es hier um die Themen "Bundesrat" "Abstimmung" "Gesetzt" und "Steuererleichterung" geht.

Ich halte das für ein recht schwieriges Unterfangen und habe einige Ideen, die aber noch in den Kinderschuhen stecken. Daher interessiert mich eure Meinung.

Steven

Meine Ideen:
Wie oben beschrieben habe ich dazu einige Ideen zur Filterung des Textes, entnehmen von Worten und abgleich mit der Datenbank etc. Diese sind aber alle Informatischer Natur und haben nichts mir dem mathematisch Problem zu tun. Daher bitte eure Meinungen smile
Steven44566 Auf diesen Beitrag antworten »

Entschuldigung. Der erste Satz sollte natürlich lauten:

Ich hoffe, dass ich hier im richtigen Forum gelandet bin. Da ich nur weiß DASS es geht, aber nicht exakt WIE.

smile
Iridium Auf diesen Beitrag antworten »

Hi,

Sowas geht bestimmt, dürfte aber nicht ganz trivial sein. Zuerst müsste mal geklärt werden, was "wichtig" in deinem Kontext bedeuten soll. Man kann natürlich eine einfache Statistik über die Häufigkeit des Auftretens einzelner Worte erstellen, so daß wenn z.B. oft "Bundestag" etc. auftaucht eine gewisse Wahrscheinlichkeit besteht, daß es sich um einen politischen Text handelt. Aber sicher ist das nicht, denn es könnte ja auch die Homepage einer Firma sein, die Teppichböden für den Bundestag hergestellt hat und so stolz darauf ist, daß sie das andauernd erwähnt, oder es ist die Reisebeschreibung von jemandem, der gerade in Berlin war und oft an dem Gebäude vorbeikam. Man kann sich da viel vorstellen. Insbesondere den Sinn herauszukriegen, also rein aus statistischen Angaben, dürfte schwierig sein, dazu müsste man eher das Auftauchen mehrerer Begriffe sinnvoll miteinander in Beziehung setzen und z.B. auch Abstände zwischen Worten irgendwie als Gewichtung einfließen lassen. Hört sich für mich nach dem klassischen Suchmaschinenalgorithmus an...d.h. wie google z.B. seine Suchmaschinenergebnisse nach Rang sortiert. Aber ob die Algorithmen wiederum öffentlich beschrieben sind oder nicht eher Firmengeheimnis?

Gruß
Steven44566 Auf diesen Beitrag antworten »

Hallo Iridium,

ich sehe das genauso wie du. Mit einem reinen Zählalgorithmus kommt man da nicht wirklich weiter, da dieser nur die Anzahl der Worte aber nicht deren "Sinn" im Kontext erfassen kann.

Meine Idee war, eine Basisdatenbank mit den z.B. 25.000 häufigsten Worten anzulegen und diese einem Bereich zuzuordnen (z.B. Politik, Technik). Das könnte man beides z.B. per Umfrage lösen.

Anschließend könnte man sich den Text vornehmen, die Sätze per Endung ( ! ? . ) in Blöcke einteilen, und dann ggf. noch mit Bindewörtern wie "sodass", "welcher " etc. arbeiten, um die Worte in eine Verbindung zu bringen. So könntem an z.B. sagen, dass die Substantive, die in dem zweiten Teil eines Satzes (der mit "sodass" eingeleitet wird) stehen, in Verbindung zu den Substantiven im ersten Satz stehen.

Wenn man das ggf. mit der Basisdatenbank in relation setzt, könnte das (im Groben) ein Ansatz sein.

Oder was meinst du?

PS: Andere Meinungen sind natürlich auch gerne gesehen/gehört/gelesen smile
Iridium Auf diesen Beitrag antworten »

Zitat:
Original von Steven44566
Wenn man das ggf. mit der Basisdatenbank in relation setzt, könnte das (im Groben) ein Ansatz sein.


Ja, ein grober Ansatz wäre das. Aber ich befürchte, leider zu grob. Man unterschätzt meiner Meinung nach leicht die Fähigkeiten des eigenen Mustererkennungs- und verarbeitungsapparates (sprich des eigenen Gehirns), sowie die jahrzehntelange Übung bzw. Gewöhnung an grammatikalische Muster der eigenen Muttersprache. Man sieht ja die Schwierigkeiten, in die die meisten Menschen kommen, wenn sie eine andere Sprache lernen wollen. Das ist für die allermeisten Durchschnittsmenschen eine mühsame Angelegenheit. Man weiß auch, daß z.B. Wort-für-Wort Übersetzungen oft sehr schlecht den Sinn wiedergeben (ich hatte ewig Latein und weiß wovon ich spreche smile ). Übertragen auf deinen Fal heißt das z.B., daß das Anlegen einer Datenbank das einfachste ist (ähnlich wie im Prinzip Vokabellernen eine reine Fleißarbeit). Auch die grammatikalischen Regeln sind im Prinzip klar. Trotzdem gibt es soviele Variationsmöglichkeiten, über die ein Muttersprachler verfügt, daß man deshalb noch lange kein guter Übersetzer ist, wenn man damit einschließt, daß ein guter Übersetzer immer auch den Sinngehalt richtig zu erfassen in der Lage ist.

Das von dir gestellte Problem hat außerdem noch zwei weitere Aspekte...erstens ist es von allgemeinem Interesse...d.h. es wird schon fertig ausgearbeitete Softwarelösungen geben, so daß es eigentlich unnötig ist, das Rad neu zu erfinden (außer man macht das quasi als Hobby und zur Befriedigung des persönlichen Ehrgeizes). Andererseits...die Tatsache, daß es sicher schon einige Leute gegeben hat, die über das Problem nachgedacht haben, und daß es vielleicht doch noch keine wirklich befriedigende Lösung gibt, zeigt auch, daß es wohl in die Klasse der sehr schwierigen Probleme fallen dürfte. Das heißt nicht, daß man nicht selbst mal drüber nachdenken kann, in der Hoffnung, man findet eine bessere Lösung...nur sollte man gleichzeitig realistisch bleiben und sich zumindest mal nicht zu viel erhoffen.
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »