Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff...

24
Kapitel 2 Information Information ist der grundlegende Begriff der Informatik. Mehr noch: „Der Begriff der Information ist vermutlich das zentrale interdisziplinäre Brückenkonzept der modernen Wissenschaften * “. Dieses Kapitel beschreibt, aus welchen Aspekten Information besteht, welche für die Informarik wesentlichen Definitionsansätze es gibt und wie Information in der Informatik tatsächlich dargestellt wird. Inhalt 1. Was ist Information 2. Nachrichtentechnische Definition 3. Algorithmische Definition 4. Darstellung in der Informatik * (einige Teile dieses Kapitels entstammen: H.Lyre: „Informationstheorie)

Transcript of Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff...

Page 1: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

Kapitel 2 Information

Information ist der grundlegende Begriff der Informatik. Mehr noch: „Der Begriff der Information ist vermutlich das zentrale interdisziplinäre Brückenkonzept der modernen Wissenschaften * “.Dieses Kapitel beschreibt, aus welchen Aspekten Information besteht, welche für die Informarik wesentlichen Definitionsansätze es gibt und wie Information in der Informatik tatsächlich dargestellt wird.

Inhalt1. Was ist Information

2. Nachrichtentechnische Definition

3. Algorithmische Definition

4. Darstellung in der Informatik

* (einige Teile dieses Kapitels entstammen: H.Lyre: „Informationstheorie)

Page 2: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.1 Was ist Information

Es deutet einiges darauf hin, dass „Information“ ein zumindest ebenso fundamentaler Begriff ist, wie „Stoff“ in der Chemie und „Energie“ in der Physik (die tatsächlich schon zu „Materie-Energie“ vereint wurden).Betrachtet man Information als ursächliche (atomare) Größe so ist die Frage: „was ist Information“ eher irrelevant. Dafür rücken Fragestellungen wie „woraus besteht Information“, „worin ist Information“, „was kann ich mit Information machen“ in den Vordergrund.In diesem Unterkapitel soll die erste dieser Fragen: „woraus besteht Information?“ betrachtet werden

Inhalt1. Semiotische Dreidimensionalität

2. Semantik und Pragmatik

3. Semantische Ebenen

Page 3: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.1.1 Semiotische Dreidimensionalität

Die wohl wichtigste Charakterisierung des Informationsbegriffes entspringt der „Semiotik“ – der Zeichenlehre (Also die Lehre, die sich mit Zeichen bzw. Symbolen befasst) und lässt sich auf den Informationsbegriff übertragen. Demnach haben Informationseinheiten drei Aspekte:

die Syntax betrifft das Auftreten einzelnder Informationseinheiten und ihrer Beziehungen untereinander.

die Semantik betrifft die Bedeutung der Informationseinheiten und ihre Beziehungen untereinander.

die Pragmatik betrifft die Wirkung der Informationseinheiten und ihrer Beziehungen untereinander.

Diese drei Aspekte müssen in ihrer Gesamtheit berücksichtigt werden

(entweder explizit oder implizit) sind ungewichtet haben keinen Bezug zum informationsverarbeitenden System (z.B. Mensch,

Maschine, …)

Page 4: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.1.2 Semantik und Pragmatik

Carl Friedrich von Weizsäcker: Information ist nur, was verstanden wird Information ist nur, was Information erzeugt

(die wiederum syntaktische Aspekte hat, verstanden werden muss und Information erzeugen muss, die wiederum … hermeneutischer Zirkel)

Der Aspekt „verstanden werden“ erlaubt keine strenge Formalisierung (denn was bedeutet „verstanden werden“ – wie kann man es messen)sehr wohl lässt sich aber der Aspekt „Information erzeugen“ formalisieren.Beispiel:

Person A bittet Person B, das Licht einzuschalten:Sequenz von Zeichen: „B I T T E S C H A L T E D A S L I C H T A N“

Person B „interpretiert“ die Zeichenkette = wertet die Semantik, die Bedeutung der Zeichenkette aus: „????“

Person B generiert neue Information:Licht = onoder stellt sich einen erleuchteten Raum vor, was neurologisch zu messen ist.

Da Semantik und Pragmatik eng miteinander verzahnt sind spricht man auch vom semantopragmatischen Aspekt der Information

Page 5: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.1.3 Semantische Ebenen

Der semantopragmatischen Aspekt der Information zeigt die Unmöglichkeit eines absoluten Begriffs von Information, d.h. Information ist relativ zu den semantischen Ebenen der beteiligten Systemen.Beispiel (siehe 2.1.2):

Person A spricht deutsch, Person B kann kein deutschd.h. die semantischen Ebenen sind völlig disjunkt.Daher ist in diesem Bezugssystem zwar der syntaktische Aspekt von Information, aber keine semantischer und damit (wahrscheinlich) auch kein pragmatischer Aspekt und damit auch keine Information vorhanden.

In der Realität sind unterschiedliche semantische Ebenen die Regel und verändern sich auch dynamisch:Beispiel: Beim Erlernen der Muttersprache testet ein Kleinkind zunächst Laute. Bei einer positiven Reaktion (z.B. Ma-Ma) erfolgt rudimentäre Wortbildung, die mit dem Semantikverständnis von Worten zu komplexeren syntaktischen Strukturen (Sätzen) mit komplexeren semantischen Strukturen weiterentwickelt werden.

In der Informatik strebt man gleichartige semantische Ebenen an.

Page 6: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.2 Nachrichtentechnische Definition (nach Shannon)

Information hat vielfältige Repräsentationsformen. Noch vor Entstehen der Informatik als Wissenschaft hat Claude Elwood Shannon (1916-2001) wichtige Maßzahlen zur Erfassung von Information definiert. Dabei geht er von der nachrichtentechnischen Repräsentation von Information, der „Nachricht“ aus.Dieses Unterkapitel stellt diese Maßzahlen und deren Grundlagen dar.

Inhalt:1. Nachricht

2. Informationsgehalt einer Nachricht

3. Informationsgehalt eines Zeichens

4. Mittlerer Informationsgehalt

5. Informationsgehalt des Menschen

Page 7: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.2.1 Definition: Nachricht

sei Alphabet X: Menge von Symbolen/Zeichen X = {x1, x2, ... xn}

Eine Zeichenkette (ein Wort) der Länge n über X ist eine Folge von n Zeichen aus X (ein n-Tupel über X)

Beispiel: X={a,b}Worte über X: {a,b,ab,ba,aba,abb,baa,bbb, ...}Worte der Länge n mit n=3: {aaa,aab,aba,abb,baa,bab,bba,bbb}

Die Menge aller n-Tupel über X ist das n-facheKreuzprodukt X X ... X (n mal), bezeichnet als Xn

|Xn| = | X X ... X | = |X| * |X| * ... * |X| = |X|n

Die Anzahl der Elemente alle Worte mit der maximalen Länge n ist |X|n

Wird eine Zeichenkette übermittelt, so spricht man von Nachricht Nx

Sender Kanal Empfänger

Störung

Informationsübetragung(nach Shannon, Hartley,Weaver und Wiener)

Page 8: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.2.2 Definition: Informationsgehalt einer Nachricht

Ein Maß für die Information (der Informationsgehalt) einer Nachricht Nn,x der Länge n (über ein Alphabet X) ist die kürzeste Länge der Beschreibung, die notwendig ist, um die Nachricht Nn,x aus der Menge aller möglichen Nachrichten der Länge n sicher zu ermitteln

Beispiel: Information der Nachricht N8,{0,1} : Suche in |{0,1}|8 = 256 Wörtern

Der Informationsgehalt einer aus mehreren (voneinander unabhängigen) Zeichen bestehenden Zeichenkette ist gleich der Summe der Informationen der einzelnen Zeichen:

1 * ld(|X|) + 1* ld(|X|) + ... + 1* ld(|X|) = n * ld(|X|) = ld(|X|n)

Optimal mit binärem Suchen

Anzahl Fragen:ld(|Xn|) = ld(|X|n) = n ld(|X|)

obere Hälfte ?ja nein

obere Hälfte ?ja nein

obere Hälfte ?ja nein

...

Page 9: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.2.3 Definition: Informationsgehalt eines Zeichens

Idee: Der Informationsgehalt eines Symbols xi hängt von der Wahrscheinlichkeit seines

Auftretens ab: Je seltener ein Symbol auftritt, desto höher ist sein Informationsgehalt:

h(xi) = f(1/p(xi))

Definition nach Shannon (ca. 1950):Der Informationsgehalt h (Einheit bit) eines Symbols xi ist definiert als der Logarithmus Dualis des Reziprokwertes der Wahrscheinlichkeit, mit der das Symbol auftritt:

h(xi) = ld(1/p(xi)) = -ld p(xi)

Page 10: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.2.3 Beispiel: Informationsgehalt

Beispiel: Sei die Wahrscheinlichkeit von E = 0,5 und die von H = 0,25 Informationsgehalt des Zeichens „E“ :

hE = ld (1/0.5) = 1bit Informationsgehalt des Zeichens „H“ :

hH = ld (1/0,25) = 2 bit Informationsgehalt der Zeichenkette „EHE“

hEHE = ld(2) + ld(4) + ld(2) = ld(2 * 4 * 2) = 4 bit

log a b =log c b

log c amit a = 2, c = 10 gilt: ld b =

lg b

lg 2 3,322 lg b

Umrechnungsregel des ld in den 10er-Logarithmus (lg)

Page 11: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.2.4 Definition: Mittlerer Informationsgehalt

Kennt man die Einzelwahrscheinlichkeiten aller möglichen Symbole einer Symbolsequenz, so ist der mittlere Informationsgehalt Hs der Symbole s (Entropie der Quelle) definiert als: Hs = (p(xi) * h(xi)) = (p(xi) * ld(1/p(xi))) = - p(xi) * ld(p(xi)))

Der mittlere Informationsgehalt Hs,n einer Symbolkette der Länge n ist:

Hs,n = Hs * n

BeispielP

x 0,5y 0,25z 0,25

p hx 0,5 1y 0,25 2z 0,25 2

Hs = 0,5 * 1bit + 0,25 * 2bit + 0,25 * 2bit = 1,5 bit

d.h. die Symbole habeneinen mittleren Informa-tionsgehalt von 1,5 bit.

Page 12: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.2.5 Beispiel: Bitfolge

Aus welcher Himmelsrichtung weht der Wind (N, O, S, W) ? Bei anzunehmender Gleichverteilung der Antworten ist der mittlere

Informationsgehalt H = p(xi) * ld(1/p(xi)) = 4*(0,25*2) = 2 bit Die Frage lässt sich in zwei Fragen umsetzen

Weht der Wind aus N oder O (ja/nein) ? Weht der Wind aus O oder W (ja/nein) ?

Eine mögliche Antwort: 1 Frage=ja, 2 Frage=nein lässt sich durch die Bitfolge 10 darstellen und bezeichnet eindeutig Norden als die Windrichtung

10 = Norden 11 = Osten 01 = Westen 00 = Süden

Nimmt man noch die Zwischenrichtungen NO, SO, SW und NW hinzu, so können die 8 Zustände mit 3 Bit codiert werden (wie?)

Page 13: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.2.6 Beispiel: Informationsaufnahme des Menschen

Beim Lesen (eines deutschen Textes) erreicht der Mensch eine Geschwindigkeit von ca. 25 Zeichen/sec

das entspricht 25 * 2 Bit (mittleren Informationsgehalt in der deutschen Sprache) = 50 Bit/sec

dieser Wert ist unabhängig vom Alphabet - kann also auch z.B. im chinesischen erreicht werden (weniger Zeichen/sec, größerer mittlerer Informationsgehalt).

Nachrichten, die mit anderen Medien dargestellt werden, können ca. genauso schnell verarbeitet werden.

Aufnahme des Menschen Bewusst aufgenommen werden ca. 50% von 50 Bit/sec also 25 bit/sec Bei einer Aufnahmedauer von ca. 16 Stunden am Tag ergibt sich eine

Lebensinformationsmenge von ca. 3 * 1010 Bit die Speicherkapazität des Gehirns ist mit ca. 1012 Bit auch in der Lage, diese

Informationsmenge zu speichern (sogar 100 Mal) Die Lebensinformationsmenge findet auf einer CD-ROM Platz und ist über

Glasfaserkabel in wenigen Sekunden zu übertragen.

Page 14: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.3 Algorithmische Definition

Betrachten wir folgende Nachrichten: 1110111011000110110101100010 1111000111100011110001111000nach Shannon ist der Informationsgehalt der ersten Zeichenkette A identisch mit dem der zweiten Zeichenkette B (denn hA(0)=hB(0) und hA(1)= hB(1))Aber: Ist das (intuitiv) wirklich so ?

Inhalt:1. Die Turing-Maschine

2. Das Turing-Programm

3. Beispiele

H. Ernst:“Grundlagen und Konzepte der Informatik“,Vieweg-Verlag,2000

Page 15: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.3.1 Einige Fragen

1. Wie kann eine Regel (Algorithmus) zur Generierung von Zeichenketten beschieben werden?

2. Gibt es ein Modell, mit dem man solche Regeln formalisieren kann? Wie sieht ein solches abstraktes Model aus ? Gibt es genau ein Model oder mehrere ? Sind diese Modelle äquivalent ?

3. Kann jede Zeichenkette durch einen Algorithmus beschrieben werden.

Page 16: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.3.2 Die Turing-Maschine

Als abstraktes Modell eines Computers beschrieb Alan Turing (1912-1954) 1963 - also noch vor der Erfindung des Digitalrechners - eine nach ihm benannte abstrakte Maschine

Formal kann eine Turing-Maschine wie folgt beschrieben werden: Alphabet: A = {a0, ... , an}, der Zeichenvorrat der Turing-Maschine, wobei a0 das

Leerzeichen ("blank") darstellt (Oft: a1=0, a2=1)

Bandinschrift: B: Z A eine Zuordnung, die jeder Stelle des rechtsseitig unendlichen Bandes ein Zeichen zuordnet. Dabei wird festgesetzt, dass B(k) = a0

für alle bis auf endlich viele . Kopfposition: k Z Zustände: eine endliche Menge von Maschinenzuständen.Q = {q0, ..., qm} Darunter

sind q0, der Anfangszustand und H Q , die Menge der Haltezustände,

ausgezeichnet. Statt Haltzustände wird oft auch eine Halteaktion angegeben

Turing-Tabelle:eine Übergangsrelation: d : A Q A Q {r, l, n, h}, das jedem (gelesenen) Zeichen in Abhängigkeit eines Zustandes ein neues Zeichen, einen Folgezustand und eine Aktion (r,l,n,h} zuordnet

Page 17: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.3.3 Das Turing-Programm

Die Aktionen: r (right): das Verschieben des Kopfes nach rechts l (left): das Verschieben des Kopfes nach links optional n (none): keine Bewegung des Kopfes optional h (halt): Impliziter Übergang in einen Endzustand

a1 a2 a3 a4 ... a6

dieMaschineim Zustand

das unter demKopf geleseneZeichen

dieAktion

der neueZustand

q q‘r oder lak

das neueZeichen

falls so ist

al

Page 18: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.3.4 Beispiel

Das „Busy beaver“-Problem:Wie viele „1“-en kann ein terminierendes Turing-Programm auf einem leeren Band mit einer vorgegebenen Anzahl von Zuständen maximal erzeugen.

In dieser Notation wird statt eines Übergangs in den Haltezustand (z.B. q5) die Aktion „halt“ ausgeführt.

Der Rekord für |Z|=5 liegt bei 4096 „1“en (J.Buntrock, H.Marxen, 1989) Es wurde gezeigt, dass es möglich ist, mehr als 4098 „1“en zu generieren -

allerdings nicht wie.

11 Schritte, 6 Einsen 96 Schritte, 13 Einsen

Page 19: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.3.5 Information

Die algoritmische Definition definiert Informationgehalt:der algorithmische Informationsgehalt einer Nachricht ergibt sich aus der Länge L des kürzesten Algorithmuses (z.B. Turing-Programms), welches die Nachricht erzeugt.

Daraus ergibt sich, dass der algorithmische Informationsgehalt (bis auf eine kleine Konstante) immer kleiner oder gleich dem (nachrichtentechnischen) Informationsgehalt einer Nachricht ist, denn im „einfachsten“ Fall kann die Turing-Maschine die komplette Nachricht auf dem Turingband codieren und besteht aus einem leeren Programm.

Page 20: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.3 Darstellung in der Informatik

Die Wurzeln der Informatik liegen weniger in der Nachrichtentechnik, als vielmehr in der Mathematik. Darum ist die Repräsentation von Information als Nachricht weniger relevant als die Darstellung von Zahlen (in binärer Repräsentation) und algebraischen (bool‘schen) Objekten.In diesem Unterkapitel geht es um diese Repräsentationen.

Inhalt1. Das Bit in der Informatik

2. Die Darstellung des Bit

3. Beispiel

4. Das Byte und mehr

Page 21: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.3.1 Das Bit in der Informatik

Definition aus der Informatik:Ein bit ist die Informationsmenge in einer Antwort, auf eine Frage, die zwei Möglichkeiten zulässt:

ja /nein wahr/falsch schwarz/weiß ...

Der Informationsgehalt eines Zeichens einer zweielementigen Alphabetes mit gleicher Auftretungswahrscheinlichkeit ist(nach Shannon)

h = -ld p = -ld 0,5 = 1bit

Page 22: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.3.2 Die Darstellung des Bit

Diese zwei Möglichkeiten werden meist mit 0 bzw. 1 codiert Die technische Darstellung erfolgt u.a. mit Hilfe von:

Ladung 0 = ungeladen 1 = geladen

Spannung 0 = 0 Volt 1 = 5 Volt

Magnetisierung 0 = nicht magnetisiert 1 = magnetisiert

Licht 0 = kein Licht 1 = Licht

Reflexionseigenschaften 0 = reflektiert 1 = reflektiert nicht

...

Page 23: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.3.4 Das Byte und mehr

Aus bestimmten Gründen Geschwindigkeit von Lese- und Schreiboperationen Darstellungsmöglichkeit „häufiger“ Zeichen (z.B. Alphabet) Darstellungsmöglichkeiten von Zahlen, etc.

werden in der Informatik oft Vielfache von 8Bit-Gruppen verwendet (8Bit, 16Bit, ...)Eine 8-Bitsequenz heißt ein Byte.

Bestimmte 2er-Potenzen werden in der Informatik häufig als Maßzahlen (z.B. für Speichergrößen) verwendet:

1 KByte = 210 = 1024 Byte (1 Kilobyte) 1 MByte = 210 * 210 Byte (1 Megabyte) 1 GByte = 210 * 210 * 210 Byte (1 Gigabyte) 1 TByte = 210 * 210 * 210 * 210 Byte (1 Terrabyte)

Page 24: Kapitel 2Information Information ist der grundlegende Begriff der Informatik. Mehr noch: Der Begriff der Information ist vermutlich das zentrale interdisziplinäre.

2.4 Zusammenfassung des Kapitels

Was ist Information Nachrichtentechnische Definition

Informationsgehalt eines Zeichens (x) h(x) = ld (1/p(x)) = - ld

(p(x) einer Nachricht (n) h(n) = h(n1) + h(n2) + h(n3)

+ ... Mittlerer Informationsgehalt

ein/aller Zeichen(s) (x) H(x) = p(xi) * h(xi) einer Nachricht (n) H(n) = n * H(x)

Algorithmische Definition Definition in der Informatik

Bits und Bytes

Achtung:Nichtverwechseln !