Informationsgehalt einer Nachricht, Entropie

Neue Frage »

fgfdgfdhtrz5tgrgtrg Auf diesen Beitrag antworten »
Informationsgehalt einer Nachricht, Entropie
Meine Frage:

Hallo!

Ich schaue mir gerade diese Seite zum Thema Informationsgehalt an, um grundlegend zu verstehen, worum es da geht:
http://www.netzmafia.de/skripten/digitaltechnik/nachricht-info.html

Beispiel A)

1) Am 1. Juli war die Temperatur größer als 25 Grad.
2) Am 1. Juli betrug die Temperatur 29 Grad.

Beispiel B)

1) Einfacher Weg: Sie wohnt in derselben Straße. Es gibt nur eine Entscheidung (nach rechts oder nach links gehen).
2) Komplizierter Weg: Es gibt mehrere Abzweigungen; bei jeder Gabelung muß entschieden werden, ob man rechts oder links geht.

Beispiel C)

1) Am 1. Januar war die Temperatur größer als 25 Grad.
2) Am 1. Juli war die Temperatur größer als 25 Grad.

Meine Ideen:
Zu Beispiel A steht dort, dass Nachricht 2 einen höheren Informationsgehalt hat: Das sehe ich intuitiv auch so, aber ich die Begründung finde ich überhaupt nicht einleuchtend.

Intuitiv würde ich sagen, Nachricht 2 ist informativer, weil sie keinen Interpretationsspielraum zulässt: Es ist 29 Grad, fertig. Bei Nachricht 1 weiß ich nicht, wie viel Grad es sind, also erhalte ich weniger Informationen aus dieser Nachricht.

Deren Erklärung ist:

"Bei 1 gibt es nur zwei Möglichkeiten (kleiner/größer 25 Grad), bei 2 sind theoretisch beliebig viele Möglichkeiten gegeben. Also ist bei 2 die Information größer. Daraus folgt, dass Information mit der Zahl der Möglichkeiten zu tun hat."

Wieso gibt es beliebig viele Möglichkeiten?

Zu B)

Dort würde ich intuitiv sagen, Nachricht 1 hat einen höheren Informationsgehalt, wieder mit der Begründung, dass klar ist, was gemeint ist.

Zu C) schreiben sie:

"Es handelt sich um die gleiche Nachricht, aber nach unserer Kenntnis über das Klima in München ist Fall 1) wesentlich unwahrscheinlicher als Fall 2)."

Das ist doch nicht dieselbe Nachricht? Einmal geht es um de Januar und einmal um den Juli...?

Und generell dieses Konzept, dass ein Wort oder Zeichen umso informativer ist, je seltener es vorkommt. So ganze verstehe ich das noch nicht.

Bei ganzen Wörtern, okay: Wenn ich einen Text lese, in dem es um den elektrischen Widerstand geht und es kommt dauernd das Wort Widerstand vor, dann ist das erste Auftreten des Wortes sehr informativ, weil ich damit gesagt bekomme, worum es geht und die anderen Male weiß ich schon, dass es um Widerstände geht.

Ist das die Idee dahinter?
Hubert1965 Auf diesen Beitrag antworten »

Zu Beispiel A)

1) Am 1. Juli war die Temperatur größer als 25 Grad.
2) Am 1. Juli betrug die Temperatur 29 Grad.

Im Fall 1 beträgt der Informationsgehalt genau 1 bit. Weniger geht nicht (wenn man außer Acht lässt, dass bestimmte Messwerte mit unterschiedlichen Wahrscheinlichkeiten auftreten)

Im Fall 2 hängt der Informationsgehalt der Nachricht von der (hier nicht näher angegebenen) Messgenauigkeit ab. Aber wenn man einen Messbereich von -20 bis +45 Grad mit 1-Grad-Intervallen annimmt, dann sind das relativ genau mögliche Messwerte, was bedeutet, dass zur Wiedergabe jedes Wertes 6 signifikante Bit verwendet werden müssen, und das ist mehr als das eine Bit aus Fall 1, daher ist in 2 der Informationsgehalt größer.

Zu Beispiel B)

Wenn ich recht verstanden habe, ist hier bereits alles klar und verständlich.

zu C)

Hier hilft die Idee, eine Computerdatei, die solche Informationen enthält, verdichten zu wollen. Man will daraus also eine zip-Datei machen, oder eine beliebige andere gepackte Datei.

In der Datei stehen Messwerte, die im Jänner erfasst wurden. Da wirst du viele Werte rund um den Gefrierpunkt haben, aber nur wenige Werte im Bereich von 25 Grad.

Zum Packen gibt es mehrere Ansätze, aber am Ende läuft es darauf hinaus, dass du Werte, die besonders häufig auftreten, in der gepackten Datei durch eine möglichst kurze Bitfolge repräsentierst, während du für exotische Werte, die selten vorkommen, ruhig eine längere Bitfolge verwenden kannst.

Nimm an, du hast in deiner Liste 3000-mal den Wert 1° stehen, 2800-mal 0°, 2700-mal 2°, ebenso oft -1. Aber 25° steht nur 4-mal in deiner Liste, und 26° gar nicht.

Wenn jeder Wert ursprünglich mit 6 bit gespeichert wurde, und du für die Werte zwischen -1° und 2° jeweils nur 3 bit in der gepackten Datei verwendest, dafür aber den seltenen Wert 25° aufgrund der gewählten Codierung mit 10 oder 12 bit wiedergeben musst, hast du die Größe der gesamten Datei fast halbiert, ohne den Informationsgehalt zu verringern.

Die Entropie kann man sich nämlich als Äquivalent zur Länge der kleinstmögliche Größe einer gepackten Datei vorstellen.

Und mit dieser Vorstellung im Kopf, wird klar, dass ein Messwert von 25° in einer Datei mit Jänner-Temperaturen beim Packen einen längeren Code bekommen wird, als derselbe Messwert in einer Datei mit Juli-Temperaturen. Und weil diese gepackte Bitzahl (bzw. der Logarithmus ihrer Länge) ein grobes Maß für die Entropie, also den Informationsgehalt ist, steckt im Wert »25°« mehr Information wenn er in einer Liste mit winterlichen Außentemperaturen vorkommt, als wenn er in einer Liste mit Sommer-Werten steht.

Deine Vorstellung von der Häufigkeit von Worten entspricht ganz genau dieser Idee. Wenn du Texte nicht auf Buchstaben-Ebene, sondern auf Wort-Ebene packen willst (was übrigens gar keine so schlechte Idee ist), dann wirst du in einer Text-Datei, in der juristische Gesetzestexte enthalten sind, für »Widerstand« einen längeren Code verwenden, als in einem Aufsatz über das Ohmsche Gesetz. Daher steckt im Wort »Widerstand« ein kleinerer Informationsgehalt wenn es in dem Physik-Text vorkommt, verglichen mit dem juristischen Text.

Aber wenn du deutsche Texte auf Wort-Ebene packen willst, werden in praktisch jedem Fall die Wörter »der«, »die«, »und«, »in«, »den«, »von«, »zu«, »das«, »mit«, »sich« die kürzesten Bitfolgen bekommen, weil das die zehn häufigsten Wörter in eigentlich jedem deutschen Text sind.

Und tatsächlich steckt in diesen Wörter so gut wie keine Information. Streicht man aus einem Text alle Wörter mit Ausnahme der häufigsten 100, hat man anschließend keine Ahnung, worum es im Originaltext geht, obwohl knapp die Hälfte des Textes übrig bleibt. Streicht man hingegen jeder Wort aus der Top-100-Liste, dann streicht man den Text ebenfalls auf ungefähr die Hälfte zusammen, aber es ist dennoch möglich, zu erkennen, worum es in diesem Text geht. Einige Details werden verloren gegangen sein, aber das Thema ist leicht erkennbar. Das ist so, weil die seltenen Wörter die größte Information tragen, während die häufigen kaum etwas dazu beitragen.
Neue Frage »
Antworten »



Verwandte Themen

Die Beliebtesten »
Die Größten »
Die Neuesten »