Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sommersemester 2012 -- Blockseminar Daten- und Metadatenstandards | 02: Text und XML

Jan Wieners
September 18, 2012

Sommersemester 2012 -- Blockseminar Daten- und Metadatenstandards | 02: Text und XML

Jan Wieners

September 18, 2012
Tweet

More Decks by Jan Wieners

Other Decks in Education

Transcript

  1. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Daten- und Metadatenstandards Sommersemester 2012 [Blockseminar] 24. September 2012 – Text / XML: Erste Schritte
  2. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Text ◦ Inhalt ◦ Struktur ◦ Äußeres Erscheinungsbild: Layout  Extensible Markup Language: XML ◦ Tags ◦ Attribute Themenüberblick „ Text / XML: Erste Schritte“
  3. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Text Eine Definition von „Text“ … was liegt näher? „Text (lat. textus: Gewebe, Geflecht), Instrument der Kommunikation mittels Sprache; umgangssprachlich für eine zusammenhängende schriftliche Darstellung, […] in der elektronischen Datenverarbeitung für das als Datei gespeicherte Sprachmaterial […] Der T. wird durch typische Formen, die auch in Kombinationen vorkommen, von seinem Umfeld bzw. einem anderen T. abgegrenzt[…]“ (Metzler Lexikon Literatur- und Kulturtheorie. Ansätze, Personen, Grundbegriffe. Hg. Von Ansgar Nünning. 3. aktualisierte Auflage, Stuttgart 2004.)
  4. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Text als Differenz der Formen? Kognitiver Prozess: Mustererkennung / Pattern Recognition
  5. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Stichw.: Mündlichkeit  Schriftlichkeit  (CEEC) http://www.ceec.uni-koeln.de/  vdIb - Verteilte Digitale Inkunabelbibliothek http://inkunabeln.ub.uni- koeln.de/ Text: Tradierung von Information / Wissen
  6. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Text! Inhalt „Trebnitz 10. November [1915] Liebster Kafka. Bedenken Sie meine große Versumpftheit“ Struktur Darstellung
  7. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Text… Inhalt „Trebnitz 10. November [1915] Liebster Kafka. Bedenken Sie meine große Versumpftheit“ Struktur Darstellung Inhalt? Struktur? Darstellung? …wat es‘ dat?
  8. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    XML (eXtensible Markup Language)  „Markup Language“  Auszeichnungssprache  Einfach zu erstellen: Textdatei *.xml  Von Rechnern gut zu verarbeiten: APIs & Co.  Reines Textformat  Menschenlesbar XML, so schaut‘s aus (Beispiel von http://de.selfhtml.org/xml/intro.htm) : <nachricht> <titel>XML wird jetzt auch in SELFHTML beschrieben!</titel> <text> Nach langer Pause ist eine neue SELFHTML-Version erschienen. Eine der wichtigsten Neuerungen ist der XML-Teil, in dem die neue Definitionssprache für Auszeichnungssprachen behandelt wird. […] </text> <datum>20.10.2001</datum> <redakteur>Ferdinand Schreiberling</redakteur> </nachricht> XML
  9. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Allergrundlegendstes grundlegendstes Grundkonzept: Tags <nachricht> Lorem ipsum dolor sit amet </nachricht> XML Öffnendes Tag Schließendes Tag (erkennbar durch das Zeichen “/“ (Slash))
  10. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     XML besteht grundsätzlich aus 3 Elementen, die unabhängig voneinander existieren können und innerhalb des XML-Dokuments eigenständige Einheiten bilden: ◦ Die Daten oder der Textinhalt werden von Tags geklammert, d.h. von einem Start-Tag und einem End-Tag umschlossen. <hello> world </hello> ◦ Die Struktur des Textes kann z.B. über DTDs (Document Type Definition) und XML Schema (XSD: XML Schema Definition) beschrieben werden. ◦ Die Form und Darstellung des Textes kann über CSS (Cascading Style Sheets) und XSL (eXtensible Stylesheet Language) festgelegt werden.  Über die Verwendung von XML können also Inhalt (Daten), Struktur und Layout eines Dokuments strikt getrennt werden. XML: Anforderungen und Eigenschaften
  11. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     XML-Dokumente müssen wohlgeformt (well-formed) sein, d.h. sie müssen den Regeln der XML-Syntax genügen (Auszug aus den Syntax-Regeln): Jedes Element muss ein Start- und ein Endtag besitzen <beispiel> Element mit Kindelementen <element1>Irgendein Textinhalt</element1> <element2></element2> <element3/> </beispiel> Falsch: <beispiel> Element <element1> Text </beispiel> XML: Wohlgeformt vs. gültig
  12. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    ! Elemente dürfen geschachtelt sein, sich aber nicht überlappen <strong><em> Beispielinhalt </strong></em> Falsch <strong><em> Beispielinhalt </em></strong> Richtig ! Es muss genau ein Wurzelelement existieren: <wurzelelement> <element1>Irgendein Textinhalt</element1> </wurzelemenent> ! Attributwerte müssen in Anführungszeichen stehen: <element1 attributwert=500>Textinhalt</element1> Falsch <element1 attributwert=“500“>Textinhalt</element1> Richtig XML: Wohlgeformt vs. gültig
  13. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    ! Ein Element darf nicht zwei Attribute mit dem gleichen Namen besitzen <name vorname=“Francis“ vorname=“Scott“ nachname=“Fitzgerald“/> Falsch <name vorname=“Francis Scott“ nachname=“Fitzgerald“/> Richtig ! Zu Beginn eines XML Dokumentes sollte die XML Deklaration (Processing Instruction) stehen: <?xml version=“1.0“ encoding=“UTF-8“?> XML: Wohlgeformt vs. gültig
  14. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    ToDo: Das folgende Rezept soll in XML abgebildet werden: Devans Bean Dip 1 Tasse gebackene Bohnen, 1 Tasse Burrito-Sauce, 150g gewürfelter Jalapeno-Käse, 0.5 Tasse saure Sahne, Bohnen und Burrito Sauce in Pfanne mittlerer Größe anheizen, bis die Mischung kocht, gewürfelten Käse hinzufügen, umrühren, bis der Käse schmilzt. Vom Herd nehmen und saure Sahne einrühren. Als Tunke zu Tortilla-Chips aus Mais servieren. XML Praxis I Rezept aus: Shepherd, Devan: XML … in 21 Tagen. München, 2002: Markt+Technik Verlag.
  15. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Blockdiagramm 1 Tasse gebackene Bohnen, 1 Tasse Burrito-Sauce, 150g gewürfelter Jalapeno-Käse, 0.5 Tasse saure Sahne, Bohnen und Burrito Sauce in Pfanne mittlerer Größe anheizen, bis die Mischung kocht, gewürfelten Käse hinzufügen, umrühren, bis der Käse schmilzt. Vom Herd nehmen und saure Sahne einrühren. Als Tunke zu Tortilla- Chips aus Mais servieren. XML Praxis I Titel Menge Posten Menge Posten Menge Posten Menge Posten Zubereitung Serviervorschlag Rezept Zutaten
  16. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Baumdiagramm XML Praxis I Rezept Serviervorschlag Zubereitung Zutaten Titel Menge Posten Menge Posten Menge Posten
  17. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    <?xml version=“1.0“?> <kochbuch> <rezept> <titel>Devans Bohnentunke</titel> <zutaten> <posten menge=“1 Tasse“>gebratene Bohnen</posten> <posten menge=“1 Tasse“>Burrito Sauce</posten> <posten menge=“150 gr.“>gewuerfelter Jalapeno-Kaese</posten> <posten menge=“0.5 Tasse“>saure Sahne</posten> </zutaten> <zubereitung>Bohnen und Burrito Sauce in Pfanne mittlerer Groesse anheizen, bis die Mischung kocht, gewuerfelten Kaese hinzufuegen, umruehren, bis der Kaese schmilzt. Vom Herd nehmen und saure Sahne einruehren.</zubereitung> <serviervorschlag>Als Tunke zu Tortilla-Chips aus Mais servieren.</serviervorschlag> </rezept> </kochbuch> XML Praxis I
  18. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Im folgenden XML Markup verstecken sich fünf Fehler: 01: <?xml version="2.0"?> 02: <rezept titel="Devans Bohnentunke“><zutaten> 03: <posten menge="1 Tasse" menge=“2“>gebratene Bohnen</posten> 04: <posten menge="1 Tasse">BurritoSauce<posten><posten></posten> 05: <posten menge="150 gr.">gewuerfelter Jalapeno-Kaese</posten> 06: <posten menge=0.5 Tasse>saure Sahne</posten> 07: <posten></posten> 08: </zutaten> 09: <zubereitung>Bohnen und Burrito Sauce in Pfanne mittlerer Groesse anheizen, … Vom Herd nehmen und saure Sahne einruehren.</zubereitung> 10: <serviervorschlag>Als Tunke zu Tortilla-Chips aus Mais servieren.</serviervorschlag> 11: </rezept> 12: <rezept>Devans Bohnentunke II</rezept> Übung I
  19. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Bilden Sie bitte die beiden folgenden Cocktailrezepte über XML ab. Ergänzen Sie zunächst das Baumdiagramm auf dem Übungsblatt um die entsprechenden Elemente / Bezeichnungen. Gin Tonic 4cl Gin 16cl Tonic Water Gin, Tonic Water und Eiswürfel in ein Longdrinkglas geben. Daiquiri 4cl Rum (weiss) 2cl Limettensaft 0.5cl Rohrzuckersirup Alle Zutaten mit Eis kräftig shaken (mind. 10sec.) und in eine kleine Martinischale auf frisches Eis abseihen. Eine Limettenscheibe zur Dekoration anstecken und servieren. Übung II