 |
Wenn wir den Zusammenhang von
Entropie und
Information näher
beleuchten wollen, müssen wir uns zunächst mal anschauen, wie man
Information quantitativ definiert. |
| |
 |
Die erste wichtige Erkenntnis dazu
ist: Das geht überhaupt nicht so, wie man sich das naiv vorstellen
würde. Schauen wir ein Beispiel an: |
|
 |
Welcher der zwei nachfolgenden
Symbolketten enthält mehr Information?
- PRÜFUNG BESTANDEN
- ARFGUN SEPUNNBEDÜT
|
 |
Die an sich klare Antwort
"1" ist falsch. |
|
 |
Denn die beiden Sätze enthalten
technisch, d.h. von der Syntax (= Muster,
Zusammenstellung) her gesehen, exakt dieselbe Information, denn die beiden
Zeichenketten bestehen aus einem identischen Satz von Zeichen. |
|
 |
Die Zahl an Bits, die man bräucht, um beide Sätze zu
kodieren und dann vielleicht auf irgendeinem Datenkanal zu übertragen ist
identisch. Auch die Störanfälligkeit, der mögliche Verlust an
Information ist dieselbe für die beiden Sätze sowie für alle
anderen möglichen Sequenzen, die sich aus der gebenen Menge an Symbolen
bilden lassen. |
 |
Dass wir das Gefühl haben, dass eigentlich nur eine
einzige Sequenz (die Nr. 1) Sinn ergibt und damit Information
enthält, liegt daran, dass wir
automatisch die Semantik (= Bedeutung) einer
Symbolsequenz betrachten. |
|
 |
Maschinen können das aber
nicht; siehe das grandiose Scheitern der "künstlichen
Intelligenz". |
|
 |
Es gibt deshalb keine befriedigende
Definition von Information, die auch der Bedeutung der betrachteten Information gerecht wird;
selbst nur auf die Syntax bezogene Definitionen sind im Grunde noch
unbefriedigend. |
 |
Da wir aber nichts Besseres haben,
nehmen wir die klassische Definition, von Shannon 1948 eingeführt. |
 |
Betrachten wir zunächst eine
Symbolmenge, z.B. ein Alphabet, mit N Zeichen oder Symbolen.
Damit treten in statistisch gebildeten
Symbolketten alle Symbole gleich
häufig auf (im Gegensatz zu Wörtern einer Sprache, z.B. der Deutschen, in
denen z.B. das Symbol "E" sehr viel häufiger auftreten
wird als "Y"). |
|
 |
Damit ist die Wahrscheinlichkeit
pi dafür, dass ein Symbol vorkommt, für alle
Symbole gleich groß und wir haben pi = p =
1/N |
|
 |
Nebenbei bemerkt: Wenn wir die
pi unterschiedlich groß machen würden und
dann anfangen Symbolketten zu bilden, landen wir ganz schnell bei den
Prinzipien der statistischen Thermodynamik. |
 |
Wieviel Information steckt in
einem Zeichen? |
|
 |
Stellen wir uns vor, wir warten bei der
Übermittlung einer Sequenz auf das nächste Symbol. Wir definieren die
im Zeichen steckende Information I über die Formel |
|
|
|
|
|
|
|
|
|
|
 |
I ist dann schlicht die Zahl der
Ja/Nein Fragen, die man braucht um mit der geringstmöglichen Anzahl an Fragen
herauszufinden, um welches Symbol es sich handelt |
|
 |
Das "geringstmöglich" ist dabei
ein bißchen unpräzise. Wir würden aber z.B. bei einem Alphabet
uns nicht naiv wie folgt durchfragen: Ist es A? - Nein, Ist es
B?, ...; sondern fragen: Kommt es aus der 1. Hälfte? - Nein;
1. Hälfte der 2. Hälfte?,... . Nach jeder derartigen
Frage bleibt dann immer nur noch die Hälfte der Möglichkeiten. |
 |
Damit haben wir eine 1.
Definition für Information |
|
|
|
|
|
|
|
|
|
|
 |
Dabei steht "ld" für den
"Logarithmus dualis", den Logarithmus zur Basis 2. |
 |
Das ist aber zu einfach um damit viel
anfangen zu können, Deshalb unterstellen wir jetzt, dass die
Einzelwahrscheinlichkeiten pi des Auftretens der
Symbole verschieden sind - so wie in einem "richtigen" Alphabet im
Kontext einer "richtigen" Sprache . |
|
 |
Die Information
I(zi), die im i-ten Symbol (=
zi) steckt, ist dann offenbar |
|
|
|
|
|
| I(zi) = ld N = ld
(1/pi) = ld (pi) |
|
|
|
|
|
|
 |
Unwahrscheinliche Buchstaben enthalten dann mehr
Information als wahrscheinliche. Das ist auch OK, denn wenn wir in einer
Übertragung ein "y" oder "x" bekommen,
wissen wir einfach mehr als wenn mal wieder ein "e"
rüberwächst. |
 |
So gesehen können wir den
Informationsgehalt einer Nachricht auch wie folgt definieren: |
|
|
|
|
|
| Der Informationsgehalt eines
übermittelten Symbols ist proportional zum Grad unserer
Überraschung. |
|
|
|
|
|
 |
Wenn wieder mal ein "e" kommt,
hält sich die Überraschung in Grenzen, aber ein "y"
erwarten wir halt eher nicht1). |
 |
Im nächsten Schritt
interessieren wir uns nur noch für den Mittelwert H der Information, der in
einem durch die pi definierten spezifischen
sprachbezogenen Alphabet mit N Symbolen steckt. |
|
 |
Um einen zum Mittelwert proportionalen Wert
H zu erhalten, müssen wir über die in den Symbolen
enthaltene Information multipliziert mit der
Wahrscheinlichkeit ihres Auftretens summieren; wir haben also |
|
|
|
|
|
| H = |
N
S
i = 1 |
pi · I(pi) |
= |
N
S
i = 1 |
pi · ld (pi) |
|
|
|
|
|
 |
Das ist die klassische Formel von
Shannon. Die Größe H hat er, und das sollte uns jetzt
nicht all zu sehr verblüffen, Entropie
genannt. |
|
 |
Die Bedeutung von H
für die Informationstheorie liegt darin, dass wenn wir Z
Zeichen übertragen wollen, das Produkt H · Z
direkt die Mindestzahl der bits angibt, die
man braucht um mit dem Alphabet Information übertragen zu
können. |
 |
Aber warum nennt Shannon diesen
Informationsmittelwert Entropie? Ist das
tatsächlich dasselbe, wie die Entropie in der Thermodynamik? |
 |
Nun ja - nicht exakt. But close
enough. Von der thermodynamischen Entropie S, wie sie in der
statistischen Thermodynamik definiert
wird, unterscheidet sich H nur in zwei
verhältnismäßig trivialen Punkten: |
|
 |
1. Die oben indirekt
angesprochene Proportionalitätskonstante (die in den
Gleichungen immer = 1 gesetzt ist) muss k =
Boltzmannkonstante sein. Aber das ist wahrlich trivial; wir messen nur mit
verschiedenen Maßsystemen. |
|
 |
2. Die korrekte
thermodynamische Entropie, die eigentlich nur für Gleichgewicht definiert
ist, entspricht genaugenommen nur dem Maximalwert von H, den wir für
Gleichverteilung der Symbole erhalten. |
 |
Wenn man dann das
alles gebührend berücksichtigt, erhält man eine interessante
Beziehung für die thermodynamische
Entropie, die in einem bit Information steckt: |
|
|
|
|
|
|
|
|
|
|
 |
Das bedeutet, dass eine
Entropieerhöhung von 0,957 · 1023
JK1 in einen gegebenen System, genau ein bit an
Information vernichtet. Und da die Entropie in einem abgeschlossenen System
nicht abnehmen kann, kann auch keine Information spontan entstehen. |
|
 |
Das ist nicht nur
"Theorie", sondern damit konnte Leo Szilard zum ersten Mal
eines der berühmtesten offenen Probleme der Thermodynamik, den
"Maxwellschen Dämon" erklären. Mal selbst Googeln;
Stichworte: information entropie maxwell dämon. |
 |
Immerhin, irgendwie scheinen die gute
alte Entropie und die noch recht junge und
nicht sonderlich gut definierte Information
zusammenzuhängen. Hat das was zu bedeuten? Wird die Informatik
möglicherweise auch mal zu einem Untergebiet der Physik, so wie die
Chemie? |
|
 |
Nichts genaues weiß man nicht. Es gibt
berühmte Leute, die sehr konträre Ansichten vertreten.
Atkins, z.B. hält
das alles für trivial bis Blödsinn, während
Penrose darin
einen der Schlüssel für die künftige "neue" Physik
sieht. |
|
 |
Wir werden sehen. |
|
|
© H. Föll