Upgrade to Pro — share decks privately, control downloads, hide ads and more …

WS12/13 -- Basisinformationstechnologie I | 02:...

Avatar for Jan Wieners Jan Wieners
October 16, 2012

WS12/13 -- Basisinformationstechnologie I | 02: Grundlagen II

Avatar for Jan Wieners

Jan Wieners

October 16, 2012
Tweet

More Decks by Jan Wieners

Other Decks in Education

Transcript

  1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners // [email protected]

    Basisinformationstechnologie I Wintersemester 2012/13 17. Oktober 2012 – Grundlagen II
  2.  Kurzwiederholung: Information, Daten, Bits, Bitfolgen  Datenverarbeitungsgrößen: Bits, Nibbles,

    Bytes, Datenwörter  Datei- und Speichergrößen:  Kilo, Mega, Giga, etc.  Informationsdarstellung: ASCII Code  Probleme des ASCII Codes  Teillösung ISO 8859  Unicode  UTF-8  Binär-, Dezimal- und Hexadezimalsystem  Umwandlung vom Dezimal- ins Binärsystem  Umwandlung vom Dezimal- ins Hexadezimalsystem Themenüberblick „Grundlagen II“
  3.  Metadaten  Informationen (bzw. Daten), die andere Informationen (bzw.

    Daten) beschreiben.  „…das kenne ich doch irgendwoher…?!?“  Bibliothek  HTML  Struktur (Tags)  Meta Tags  Problemfall: Fotoalbum / Urlaubsfotos beschreiben Metadaten / Metainformationen
  4. Metadaten „von Hand“: Zettelkasten „…das kenne ich doch irgendwoher…?!?“ III

    Quelle: http://www.cognitiones.de/lib/exe/fetch.php/cognitiones/zettelkasten.jpg?cache=&w=450&h=291
  5. Metadaten: Auja! Intention (u.a.):  Dinge auffindbar bzw. suchbar machen

    (z.B. Fotos, Digitalisate) „…das kenne ich doch irgendwoher…?!?“ IV Quelle: http://www.cineclub.de/images/2001/die_fabelhafte_welt_der_a_4.jpg
  6.  Binärer Code: 0 oder 1  Konkret (Elektrotechnik): 

    Elektrische Ladungen: 0 = ungeladen, 1 = geladen (Beispiel: Kondensator)  Elektrische Spannungen: 0 = 0 Volt, 1 = 5 Volt  Magnetisierungen: 0 = unmagnetisiert 1 = magnetisiert Beispiel: Festplatte Wiederholung: Bits – Codierung Bild: Kondensator Quelle: Elcap, Jens Both http://de.wikipedia.org/w/index.php?title=Datei:Wiki-Ta-und-Al-Elkos-P1090329-1.jpg
  7. Acht Möglichkeiten mit einem Codierungs- / Symbolvorrat von Bit: 

    0 0 0 = Nord  0 0 1 = NordOst  0 1 0 = Ost  0 1 1 = SüdOst  1 0 0 = Süd  1 0 1 = SüdWest  1 1 0 = West  1 1 1 = NordWest Wiederholung: Bits – Bitfolgen
  8. Jedes zusätzliche Bit verdoppelt die Anzahl der möglichen Bitfolgen (Antwortmöglichkeiten).

    Die Anzahl der Bits wächst linear, die Anzahl der Zustände wächst exponentiell, so dass gilt:  Für Bitfolgen der Länge n gibt es genau 2n mögliche Bitfolgen.  1 Bit = 21 = 2 Bitfolgen (0 oder 1)  2 Bit = 22 = 4 Bitfolgen (00, 01, 10, 11)  3 Bit = 23 = 8 Bitfolgen (000, 001, 010, 011, 100, 101, 110, 111)  4 Bit = 24 = 16 Bitfolgen (0000, 0001, ...., 1111) Hausaufgaben
  9.  Wie viele Bit werden benötigt, um die 26 Großbuchstaben

    des Alphabets zu codieren? A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z  1 Bit = 2 Symbole 2 Bit = 4 3 Bit = 8 4 Bit = 16 5 Bit = 32 Symbole  Plus Kleinbuchstaben: 52 Symbole zu codieren: 6 Bit = 64 Symbole Hausaufgaben
  10. 2 TB Festplatte gekauft, eingebaut – und nur ~1,81 TB

    werden in Windows angezeigt (WTF?!?) ? Festplattenkapazität
  11. Hersteller von Festplatten geben die Größen ihrer Produkte in Zehnerpotenzen

    an (Dezimalpräfixnotation):  500 GByte = 465 GByte Speicherplatz  Giga = 109 = 1.000.000.000 Bytes anstatt 230 = 1.073.741.824 Bytes  „Verlust“ pro GigaByte: 73.741.824 Bytes = 73.741.824 / 1024 = 72013,5 KiloByte = 70,33 MegaByte  Tipp: Multiplikation mit 0.9313 Festplattenkapazität Bildnachweis: Festplatte, Quelle: Audriusa, http://de.wikipedia.org/w/index.php?title=Datei:Harddisk-full.jpg
  12. Um die Größe von Dateien, d.h. die Anzahl der in

    der Datei enthaltenen Bytes auszudrücken, werden folgende Größenfaktoren verwendet: Datei- und Speichergrößen  Binärpräfix – Vielfache von Zweierpotenzen  Dezimalpräfix – Vielfache von Zehnerpotenzen Vgl.: http://de.wikipedia.org/wiki/Bin%C3%A4rpr%C3%A4fix
  13.  Gruppierung von vier Bits zu einem Nibble:  01001111011000010110110001101100

     0100 1111 0110 0001 0110 1100 0110 1100  Nibble = Halb-Byte  Byte = Zwei Nibble, d.h. 8 Bit  Wort = Abhängig von Rechnerarchitektur:  16 Bit  32 Bit – Pentium, Athlon, etc.  64 Bit – Core2Duo, Core i5  Doppelwort = 2x Wort, z.B. 32 Bit Bit / Nibble / Byte / Wort – Begrifflichkeiten Nibble Byte Wort
  14. Wortbreite:  Gibt die Datenmenge an, die während eines Taktes

    gleichzeitig verarbeitet werden kann  Determiniert die Größe des maximal adressierbaren Speichers Bit / Nibble / Byte / Wort – Begrifflichkeiten
  15.  Besprochen: Unterste Ebene, Datenebene  0 und 1 

    Textdarstellung und –repräsentation durch Abstraktion, d.h. Codierung:  Wir weisen jedem Zeichen eine Folge von Bits zu  Mit 7 Bit lassen sich 27 = 128 verschiedene Zeichen codieren Informationsdarstellung (Schrift)zeichen Dezimal Binär <Escape> 27 (0)0011011 … … … A 65 (0)1000001 B 66 (0)1000010 C 67 (0)1000011 … … … <Del> 127 (0)1111111
  16. Codierung = Abbildungsvorschrift   Weist jedem Zeichen eines Zeichenvorrats

    – der Urbildmenge – eindeutig ein Zeichen oder eine Zeichenfolge aus einem Zeichenvorrat – der Bildmenge – zu. Beispiel: Verschiebe- / Cäsar-Code:  Urbildmenge: abcdefghijklmnopqrstuvwxyz  Bildmenge: defghijklmnopqrstuvwxyzabc (um drei Zeichen des Alphabets verschoben)  hello world  khoor zruog Codierung a b c d e f g h i j k l m n o p q r s t u v w x y z d e f g h i j k l m n o p q r s t u v w x y z a b c
  17. Welcher Tiername ist hier codiert? L N W F K

    K J Übung II: Codierung a b c d e f g h i j k l m n o p q r s t u v w x y z ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
  18.  ASCII Code  Extended ASCII  ISO 8859 

    (Unicode)  (UTF-8) Zeichenkodierungen: Überblick
  19.  ASCII-Codierung (ASCII für „American Standard Code for Information Interchange“)

     1963 als Standard verabschiedet, 1968 aktualisiert  Repräsentiert:  Kleinbuchstaben  Großbuchstaben  Zahlen  Satzzeichen (Punkt, Komma, etc.)  Sonderzeichen („+“, „&“, etc.)  Steuerzeichen (<Return>, <Tabulator>) Zuordnung Bitcode   Zeichen: ASCII Code Bild: Tastatur; Quelle: Marek; http://de.wikipedia.org/wiki/Datei:Arab_keyboard.jpg
  20.  Nur 7 Bit des Bytes werden genutzt.  Grund:

    Sicherheit der Datenübertragung sicherstellen: Das erste Bit wurde auf 0 gesetzt, wenn die Anzahl der übrigen Bits gerade ist und auf 1 gesetzt, wenn die Anzahl der übrigen Bits ungerade ist: ? 0 0 0 0 0 0 1  1 0 0 0 0 0 0 1 ASCII: Probleme
  21.  Durch verbesserte Datenübertragung: Verwendung des ersten Bits  „Extended

    ASCII“.   Somit 256 darstellbare Zeichen im ASCII Code Zum 7-Bit ASCII Code kamen Zeichen wie „ö“, „ü“, etc. hinzu. ASCII: Probleme  Extended ASCII
  22. Normenfamilie ISO 8859  8-Bit-Zeichensatz  ISO = Internationale Organisation

    für Normung (International Organization for Standardization)  Spezifiziert die zusätzlich darstellbaren Zeichen; dabei entsprechen die ersten mit sieben Bit kodierbaren Zeichen (einschließlich führendes Nullbit) dem ASCII Code  15 Normen, von ISO 8859-1 bis 8859-16 Teillösung: ASCII  ISO 8859
  23. Normenfamilie ISO 8859 ISO 8859-1 Latin-1, Westeuropäisch ISO 8859-2 Latin-2,

    Mitteleuropäisch ISO 8859-3 Latin-3, Südeuropäisch ISO 8859-4 Latin-4, Baltisch ISO 8859-5 Kyrillisch ISO 8859-6 Arabisch ISO 8859-7 Griechisch ISO 8859-8 Hebräisch ISO 8859-9 Latin-5, Türkisch … … ISO 8859-16 Latin-10, Südosteuropäisch
  24.  Unicode will das Problem des beschränkten ASCII-Zeichenvorrates lösen. 

    Intention: Darstellung mehrerer unterschiedlicher Sprachen mit einer Zeichencodierung  Ziel: Alle in Gebrauch befindlichen Schriftsysteme und Zeichen zu codieren.  Versionen:  Unicode codierte seine Zeichen zunächst über 16 Bit (65536 Zeichen).  Unicode 2.0 erweitert Zeichenraum auf 17 Bereiche (Planes), kann 1.114.112 Zeichen darstellen. Ein weiterer Standard: Unicode
  25.  UTF-8: In den 1990ern eingeführt von der ISO (International

    Organization for Standardization)  UTF  Implementierung von Unicode  UTF-8 ist eine Mehrbyte-Codierung. Das bedeutet:  Dass 7-Bit ASCII-Zeichen mit einem Byte codiert werden, alle anderen verwenden zwischen 2 und 6 Bytes Die Idee:  Häufig benutzte Zeichen werden mit einem Byte codiert, seltenere mit mehreren Bytes – das spart Speicherplatz.  UTF-8 codierte Dateien sind kompatibel zu 7-Bit ASCII Und noch ein Standard: UTF-8
  26. Codierung eines Textes, d.h. einer Zeichenkette, eines Strings: „Hello World“

      H, e, l, l, o, , W, o, r, l, d  Jedes Zeichen ersetzen durch seine Nummer im ASCII-Code Dezimaldarstellung: 72 101 108 108 111 32 87 111 114 108 100 Binärdarstellung: 1001000 1100101 1101100 1101100 … Zeichensätze: Die Praxis
  27.  Binärcode: Pro Bit lassen sich im binären Code zwei

    (0 und 1) Antwortmöglichkeiten codieren.  Nibble = Halb-Byte (=4 Bit)  Byte = Zwei Nibble, d.h. 8 Bit  Wort = Zwei Byte  16 Bit  Doppelwort = 2x Wort, 32 Bit Gut zu wissen
  28. Speichergrößen Hersteller von Festplatten drücken die Größe ihrer Festplatten nicht

    als Zweierpotenz, sondern in Zehnerpotenzen aus. Gut zu wissen II
  29.  ASCII Code = „American Standard Code for Information Interchange“

     ASCII Code (1967 entworfen) verwendet 7 Bits zur Repräsentation der Zeichen. Das erste Bit dient(e) der Sicherstellung der Informationsübertragung.  Problem ASCII Code: Anzahl der Zeichen (128 bzw. 256) zu gering  ISO 8859 baut auf ASCII auf, verwendet das erste Bit zur Erweiterung des Zeichensatzes Gut zu wissen III
  30. /