WS12/13 -- Basisinformationstechnologie I | 02: Grundlagen II

Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners // [email protected]
Basisinformationstechnologie I Wintersemester 2012/13 17. Oktober 2012 – Grundlagen II

 Kurzwiederholung: Information, Daten, Bits, Bitfolgen  Datenverarbeitungsgrößen: Bits, Nibbles,
Bytes, Datenwörter  Datei- und Speichergrößen:  Kilo, Mega, Giga, etc.  Informationsdarstellung: ASCII Code  Probleme des ASCII Codes  Teillösung ISO 8859  Unicode  UTF-8  Binär-, Dezimal- und Hexadezimalsystem  Umwandlung vom Dezimal- ins Binärsystem  Umwandlung vom Dezimal- ins Hexadezimalsystem Themenüberblick „Grundlagen II“

Kurzwiederholung

Quelle: http://www.wzl.rwth-aachen.de/de/ebecb2e7d199a686c125736f00454c10/11_v_deu.pdf Wissenspyramide

 Metadaten  Informationen (bzw. Daten), die andere Informationen (bzw.
Daten) beschreiben.  „…das kenne ich doch irgendwoher…?!?“  Bibliothek  HTML  Struktur (Tags)  Meta Tags  Problemfall: Fotoalbum / Urlaubsfotos beschreiben Metadaten / Metainformationen

(X)HTML / Eine Website – Metainformation I „…das kenne ich
doch irgendwoher…?!?“ I

(X)HTML / Eine Website – Metainformation II „…das kenne ich
doch irgendwoher…?!?“ II

Metadaten „von Hand“: Zettelkasten „…das kenne ich doch irgendwoher…?!?“ III
Quelle: http://www.cognitiones.de/lib/exe/fetch.php/cognitiones/zettelkasten.jpg?cache=&w=450&h=291

Metadaten: Auja! Intention (u.a.):  Dinge auffindbar bzw. suchbar machen
(z.B. Fotos, Digitalisate) „…das kenne ich doch irgendwoher…?!?“ IV Quelle: http://www.cineclub.de/images/2001/die_fabelhafte_welt_der_a_4.jpg

Dinge beschreiben / um Metainformation anreichern Übung

Kurzwiederholung II

 Binärer Code: 0 oder 1  Konkret (Elektrotechnik): 
Elektrische Ladungen: 0 = ungeladen, 1 = geladen (Beispiel: Kondensator)  Elektrische Spannungen: 0 = 0 Volt, 1 = 5 Volt  Magnetisierungen: 0 = unmagnetisiert 1 = magnetisiert Beispiel: Festplatte Wiederholung: Bits – Codierung Bild: Kondensator Quelle: Elcap, Jens Both http://de.wikipedia.org/w/index.php?title=Datei:Wiki-Ta-und-Al-Elkos-P1090329-1.jpg

Acht Möglichkeiten mit einem Codierungs- / Symbolvorrat von Bit: 
0 0 0 = Nord  0 0 1 = NordOst  0 1 0 = Ost  0 1 1 = SüdOst  1 0 0 = Süd  1 0 1 = SüdWest  1 1 0 = West  1 1 1 = NordWest Wiederholung: Bits – Bitfolgen

Jedes zusätzliche Bit verdoppelt die Anzahl der möglichen Bitfolgen (Antwortmöglichkeiten).
Die Anzahl der Bits wächst linear, die Anzahl der Zustände wächst exponentiell, so dass gilt:  Für Bitfolgen der Länge n gibt es genau 2n mögliche Bitfolgen.  1 Bit = 21 = 2 Bitfolgen (0 oder 1)  2 Bit = 22 = 4 Bitfolgen (00, 01, 10, 11)  3 Bit = 23 = 8 Bitfolgen (000, 001, 010, 011, 100, 101, 110, 111)  4 Bit = 24 = 16 Bitfolgen (0000, 0001, ...., 1111) Hausaufgaben

 Wie viele Bit werden benötigt, um die 26 Großbuchstaben
des Alphabets zu codieren? A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z  1 Bit = 2 Symbole 2 Bit = 4 3 Bit = 8 4 Bit = 16 5 Bit = 32 Symbole  Plus Kleinbuchstaben: 52 Symbole zu codieren: 6 Bit = 64 Symbole Hausaufgaben

Grundlagen II

Festplatte  Kapazität?  Geschwindigkeit? Daten speichern: Festplatte (mit beweglichen
Teilen)

Bildnachweis: http://de.wikipedia.org/w/index.php?title=Datei:Landing_zone.jpg&filetimestamp=20071127210010

Daten speichern: Festplatte (SSD)

2 TB Festplatte gekauft, eingebaut – und nur ~1,81 TB
werden in Windows angezeigt (WTF?!?) ? Festplattenkapazität

Hersteller von Festplatten geben die Größen ihrer Produkte in Zehnerpotenzen
an (Dezimalpräfixnotation):  500 GByte = 465 GByte Speicherplatz  Giga = 109 = 1.000.000.000 Bytes anstatt 230 = 1.073.741.824 Bytes  „Verlust“ pro GigaByte: 73.741.824 Bytes = 73.741.824 / 1024 = 72013,5 KiloByte = 70,33 MegaByte  Tipp: Multiplikation mit 0.9313 Festplattenkapazität Bildnachweis: Festplatte, Quelle: Audriusa, http://de.wikipedia.org/w/index.php?title=Datei:Harddisk-full.jpg

Um die Größe von Dateien, d.h. die Anzahl der in
der Datei enthaltenen Bytes auszudrücken, werden folgende Größenfaktoren verwendet: Datei- und Speichergrößen  Binärpräfix – Vielfache von Zweierpotenzen  Dezimalpräfix – Vielfache von Zehnerpotenzen Vgl.: http://de.wikipedia.org/wiki/Bin%C3%A4rpr%C3%A4fix

 Gruppierung von vier Bits zu einem Nibble:  01001111011000010110110001101100
 0100 1111 0110 0001 0110 1100 0110 1100  Nibble = Halb-Byte  Byte = Zwei Nibble, d.h. 8 Bit  Wort = Abhängig von Rechnerarchitektur:  16 Bit  32 Bit – Pentium, Athlon, etc.  64 Bit – Core2Duo, Core i5  Doppelwort = 2x Wort, z.B. 32 Bit Bit / Nibble / Byte / Wort – Begrifflichkeiten Nibble Byte Wort

Wortbreite:  Gibt die Datenmenge an, die während eines Taktes
gleichzeitig verarbeitet werden kann  Determiniert die Größe des maximal adressierbaren Speichers Bit / Nibble / Byte / Wort – Begrifflichkeiten

Übung I

 Besprochen: Unterste Ebene, Datenebene  0 und 1 
Textdarstellung und –repräsentation durch Abstraktion, d.h. Codierung:  Wir weisen jedem Zeichen eine Folge von Bits zu  Mit 7 Bit lassen sich 27 = 128 verschiedene Zeichen codieren Informationsdarstellung (Schrift)zeichen Dezimal Binär <Escape> 27 (0)0011011 … … … A 65 (0)1000001 B 66 (0)1000010 C 67 (0)1000011 … … … <Del> 127 (0)1111111

Codierung = Abbildungsvorschrift   Weist jedem Zeichen eines Zeichenvorrats
– der Urbildmenge – eindeutig ein Zeichen oder eine Zeichenfolge aus einem Zeichenvorrat – der Bildmenge – zu. Beispiel: Verschiebe- / Cäsar-Code:  Urbildmenge: abcdefghijklmnopqrstuvwxyz  Bildmenge: defghijklmnopqrstuvwxyzabc (um drei Zeichen des Alphabets verschoben)  hello world  khoor zruog Codierung a b c d e f g h i j k l m n o p q r s t u v w x y z d e f g h i j k l m n o p q r s t u v w x y z a b c

Welcher Tiername ist hier codiert? L N W F K
K J Übung II: Codierung a b c d e f g h i j k l m n o p q r s t u v w x y z ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

Zeichenkodierung

 ASCII Code  Extended ASCII  ISO 8859 
(Unicode)  (UTF-8) Zeichenkodierungen: Überblick

 ASCII-Codierung (ASCII für „American Standard Code for Information Interchange“)
 1963 als Standard verabschiedet, 1968 aktualisiert  Repräsentiert:  Kleinbuchstaben  Großbuchstaben  Zahlen  Satzzeichen (Punkt, Komma, etc.)  Sonderzeichen („+“, „&“, etc.)  Steuerzeichen (<Return>, <Tabulator>) Zuordnung Bitcode   Zeichen: ASCII Code Bild: Tastatur; Quelle: Marek; http://de.wikipedia.org/wiki/Datei:Arab_keyboard.jpg

Ein Blick auf den ASCII-Code

 Nur 7 Bit des Bytes werden genutzt.  Grund:
Sicherheit der Datenübertragung sicherstellen: Das erste Bit wurde auf 0 gesetzt, wenn die Anzahl der übrigen Bits gerade ist und auf 1 gesetzt, wenn die Anzahl der übrigen Bits ungerade ist: ? 0 0 0 0 0 0 1  1 0 0 0 0 0 0 1 ASCII: Probleme

 Durch verbesserte Datenübertragung: Verwendung des ersten Bits  „Extended
ASCII“.   Somit 256 darstellbare Zeichen im ASCII Code Zum 7-Bit ASCII Code kamen Zeichen wie „ö“, „ü“, etc. hinzu. ASCII: Probleme  Extended ASCII

Problem…

Normenfamilie ISO 8859  8-Bit-Zeichensatz  ISO = Internationale Organisation
für Normung (International Organization for Standardization)  Spezifiziert die zusätzlich darstellbaren Zeichen; dabei entsprechen die ersten mit sieben Bit kodierbaren Zeichen (einschließlich führendes Nullbit) dem ASCII Code  15 Normen, von ISO 8859-1 bis 8859-16 Teillösung: ASCII  ISO 8859

Normenfamilie ISO 8859 ISO 8859-1 Latin-1, Westeuropäisch ISO 8859-2 Latin-2,
Mitteleuropäisch ISO 8859-3 Latin-3, Südeuropäisch ISO 8859-4 Latin-4, Baltisch ISO 8859-5 Kyrillisch ISO 8859-6 Arabisch ISO 8859-7 Griechisch ISO 8859-8 Hebräisch ISO 8859-9 Latin-5, Türkisch … … ISO 8859-16 Latin-10, Südosteuropäisch

Lösung…Unicode

 Unicode will das Problem des beschränkten ASCII-Zeichenvorrates lösen. 
Intention: Darstellung mehrerer unterschiedlicher Sprachen mit einer Zeichencodierung  Ziel: Alle in Gebrauch befindlichen Schriftsysteme und Zeichen zu codieren.  Versionen:  Unicode codierte seine Zeichen zunächst über 16 Bit (65536 Zeichen).  Unicode 2.0 erweitert Zeichenraum auf 17 Bereiche (Planes), kann 1.114.112 Zeichen darstellen. Ein weiterer Standard: Unicode

 UTF-8: In den 1990ern eingeführt von der ISO (International
Organization for Standardization)  UTF  Implementierung von Unicode  UTF-8 ist eine Mehrbyte-Codierung. Das bedeutet:  Dass 7-Bit ASCII-Zeichen mit einem Byte codiert werden, alle anderen verwenden zwischen 2 und 6 Bytes Die Idee:  Häufig benutzte Zeichen werden mit einem Byte codiert, seltenere mit mehreren Bytes – das spart Speicherplatz.  UTF-8 codierte Dateien sind kompatibel zu 7-Bit ASCII Und noch ein Standard: UTF-8

Zeichensätze …und die Praxis

Codierung eines Textes, d.h. einer Zeichenkette, eines Strings: „Hello World“
  H, e, l, l, o, , W, o, r, l, d  Jedes Zeichen ersetzen durch seine Nummer im ASCII-Code Dezimaldarstellung: 72 101 108 108 111 32 87 111 114 108 100 Binärdarstellung: 1001000 1100101 1101100 1101100 … Zeichensätze: Die Praxis

Übung III: Geheimcode

Kurzwiederholung

 Binärcode: Pro Bit lassen sich im binären Code zwei
(0 und 1) Antwortmöglichkeiten codieren.  Nibble = Halb-Byte (=4 Bit)  Byte = Zwei Nibble, d.h. 8 Bit  Wort = Zwei Byte  16 Bit  Doppelwort = 2x Wort, 32 Bit Gut zu wissen

Speichergrößen Hersteller von Festplatten drücken die Größe ihrer Festplatten nicht
als Zweierpotenz, sondern in Zehnerpotenzen aus. Gut zu wissen II

 ASCII Code = „American Standard Code for Information Interchange“
 ASCII Code (1967 entworfen) verwendet 7 Bits zur Repräsentation der Zeichen. Das erste Bit dient(e) der Sicherstellung der Informationsübertragung.  Problem ASCII Code: Anzahl der Zeichen (128 bzw. 256) zu gering  ISO 8859 baut auf ASCII auf, verwendet das erste Bit zur Erweiterung des Zeichensatzes Gut zu wissen III

Keine Hausaufgaben…ich wünsche eine gute Woche! Hausaufgaben

WS12/13 -- Basisinformationstechnologie I | 02:...

WS12/13 -- Basisinformationstechnologie I | 02: Grundlagen II

More Decks by Jan Wieners

Other Decks in Education

Featured

Transcript