Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sommersemester 2012 -- Blockseminar Daten- und Metadatenstandards | 05: Text Encoding Initiative (TEI)

Jan Wieners
September 20, 2012

Sommersemester 2012 -- Blockseminar Daten- und Metadatenstandards | 05: Text Encoding Initiative (TEI)

Jan Wieners

September 20, 2012
Tweet

More Decks by Jan Wieners

Other Decks in Education

Transcript

  1. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Daten- und Metadatenstandards Sommersemester 2012 [Blockseminar] 26. September 2012 – Text Encoding Initiative (TEI)
  2. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Standards definieren: DTD Aber: Wie lassen sich mit einem Standard sämtliche in den Geisteswissenschaften zu behandelnden Texte beschreiben? Problemstellung: Eine Lösung
  3. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Anzureicherndes / auszuzeichnendes Basismaterial: Codices Electronici Ecclesiae Coloniensis (CEEC) http://www.ceec.uni-koeln.de/  vdIb - Verteilte Digitale Inkunabelbibliothek http://inkunabeln.ub.uni-koeln.de/ Text I
  4. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Hugo von Hofmannsthal – Die Beiden Text II Sie trug den Becher in der Hand – Ihr Kinn und Mund glich seinem Rand –, So leicht und sicher war ihr Gang, Kein Tropfen aus dem Becher sprang. So leicht und fest war seine Hand: Er ritt auf einem jungen Pferde, Und mit nachlässiger Gebärde Erzwang er, daß es zitternd stand. Jedoch, wenn er aus ihrer Hand Den leichten Becher nehmen sollte, So war es beiden allzu schwer: Denn beide bebten sie so sehr, Daß keine Hand die andre fand Und dunkler Wein am Boden rollte.
  5. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Eine Lösung: TEI (Text Encoding Initiative)   Fokus: Text  TEI bezeichnet sowohl ◦ das Konsortium (TEI-C), ◦ als auch einen Standard zur Kodierung und zum Austausch von Textdokumenten „TEI hat ein unabhängiges, portables und offenes Format [für die] Speicherung, Austausch und Analyse von Texten in den Geisteswissenschaften entwickelt. Das konkrete Resultat dieser Arbeit sind sowohl Richtlinien für die Kodierung unterschiedlicher Textsorten als auch das Textkodierungsformat selber.“ (http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html)  Richtlinien und Format sind frei zugänglich und kostenlos Text Encoding Initiative (TEI)
  6. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Intention: ◦ 1987 entstanden als internationale Initiative von Philologen ◦ Dokumentenformat zur Repräsentation von Texten in digitaler Form ◦ Vielseitigkeit & Praxisnähe ◦ „gekennzeichnet, von [der Bemühung,] ein Regelwerk zu bestimmen, da[s] dem Anwender möglichst viel Freiheit überläßt und möglichst wenige Vorentscheidungen trifft“ (http://computerphilologie.uni-muenchen.de/praxis/teiprax.html) Text Encoding Initiative (TEI)
  7. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Versionsgeschichte ◦ 1990: TEI P1 (P => Proposal, Entwurf / Plan) Basiert auf SGML ◦ 1992 / 1993: TEI P2 ◦ 1994: TEI P3 ("Green Books") ◦ 2002: TEI P4 (XML-basiert) ◦ 2002: TEI Lite ◦ 2007 TEI P5 Text Encoding Initiative (TEI)
  8. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Vgl. http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html Hugo von Hofmannsthal – Die Beiden Sie trug den Becher in der Hand – Ihr Kinn und Mund glich seinem Rand –, So leicht und sicher war ihr Gang, Kein Tropfen aus dem Becher sprang. So leicht und fest war seine Hand: Er ritt auf einem jungen Pferde, Und mit nachlässiger Gebärde Erzwang er, daß es zitternd stand. Jedoch, wenn er aus ihrer Hand Den leichten Becher nehmen sollte, So war es beiden allzu schwer: Denn beide bebten sie so sehr, Daß keine Hand die andre fand Und dunkler Wein am Boden rollte. TEI und die Praxis
  9. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     TEI Lite DTD: ◦ <!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite XML ver. 1//EN" "http://www.hit.uib.no/xml/Ibsen/teixlite.dtd"[ <!ENTITY % ISOlat1 SYSTEM "http://www.hit.uib.no/xml/Ibsen/iso-lat1.ent"> %ISOlat1; ]> ◦  Absolut referenziert: http://www.hit.uib.no/xml/Ibsen/teixlite.dtd Inhalt: <!ELEMENT TEI.2 (teiHeader, text) > <!ATTLIST TEI.2 ana IDREFS #IMPLIED corresp IDREFS #IMPLIED next IDREF #IMPLIED prev IDREF #IMPLIED id ID #IMPLIED n CDATA #IMPLIED lang IDREF #IMPLIED rend CDATA #IMPLIED TEIform CDATA "TEI.2" > TEI
  10. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     TEI-kodierter Text besteht aus mehreren Abschnitten:  1. Kopf des Dokumentes (teiHeader) ◦  Informationen über den kodierten Text TEI
  11. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     TEI-kodierter Text besteht aus mehreren Abschnitten:  2. Der eigentliche Text TEI
  12. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Intention: u.a. Wahrung der Gedichtcharakteristika, i.e. Strophen- und Verseinteilung TEI Hugo von Hofmannsthal – Die Beiden Sie trug den Becher in der Hand – Ihr Kinn und Mund glich seinem Rand –, So leicht und sicher war ihr Gang, Kein Tropfen aus dem Becher sprang. So leicht und fest war seine Hand: Er ritt auf einem jungen Pferde, Und mit nachlässiger Gebärde Erzwang er, daß es zitternd stand. Jedoch, wenn er aus ihrer Hand Den leichten Becher nehmen sollte, So war es beiden allzu schwer: Denn beide bebten sie so sehr, Daß keine Hand die andre fand Und dunkler Wein am Boden rollte.
  13. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Intention II: Eröffnen von Analyse- und Retrievalmöglichkeiten, z.B. per XSLT: „Gebe den zweiten Vers der dritten Strophe aus“.   Indexierung: Speichern von (relevanten) Schlüsselwörtern TEI
  14. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Tagauswahl (vgl.: http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html ) ◦ Core Tag Set: In allen TEI-DTDs automatisch vorhanden, muss nicht explizit ausgewählt werden. ◦ Base Tag Sets: Eine TEI-DTD kann jeweils nur eines dieser Tag Sets enthalten: TEI prose: Für die meisten Dokumente sinnvoll und ausreichend. verse: Ergänzt das elementare Vers-Markup im Core Tag Set durch zusätzliche Tags für metrische Analyse, Reimschema usw. drama: Ergänzt das elementare Dramen-Markup im Core Tag Set durch zusätzliche Tags für die Auszeichnung von Dramentexten. spoken: Ersetzt die Basisstruktur durch eine Struktur für linguistische Analyse (z. B. Sprechakte). dictionaries: Ersetzt die Basisstruktur durch eine detaillierte Struktur zur Auszeichnung lexikographischer Merkmale. terminology: Ersetzt die Basisstruktur durch eine differenzierte Struktur für terminologische Datenbanken. […]
  15. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Tagauswahl (vgl.: http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html ) ◦ Additional Tag Sets: Eine TEI-DTD kann eines oder mehrere folgender Tag Sets enthalten: TEI linking: Ergänzung durch Elemente für Hyperlinks, sowie zur Segmentation und Verbindung von Hyperlinks. figures: Ergänzung durch Elemente für Tabellen, Graphiken und Formeln. analysis: Ergänzung durch Elemente für Interpretation und einfache linguistische Analysen. fs: Ergänzung durch Elemente für Merkmalsanalyse (feature structure analysis). certainty: Ergänzung durch Elemente zur Definition der Sicherheit und der Korrektheit einer Auszeichnung sowie Kennzeichnung der Verantwortlichkeit für eine Auszeichnung. transcr: Ergänzung durch Elemente für die Transkription von Primärquellen (z. B. Handschriften). textcrit: Ergänzung durch Elemente für einen textkritischen Apparat. names.dates: Ergänzung durch Elemente für die detaillierte Auszeichnung von Namen und Daten. […]
  16. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Weiterführende Informationen: ◦ „Yesterday's Information Tomorrow“ – Die Text Encoding Initiative: http://www.onb.ac.at/sichtungen/beitraege/bruvik-tm- 1a.html ◦ „TEI in der Praxis“http://computerphilologie.uni- muenchen.de/praxis/teiprax.html ◦ http://www.tei-c.org/index.xml Text Encoding Initiative (TEI)
  17. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Erstellen Sie – unter Verwendung der entsprechenden Vorlage – in oXygen ein neues XML-Dokument, das gegen die TEI P4 Lite validiert.  Bilden Sie den Anfang Goethes Elegie „Alexis und Dora“, wie es sich unter http://ora- web.swkk.de/digimo_online/digimo.entry?source= digimo.Digitalisat_anzeigen&a_id=4557&p_ab=0 (Herzogin Anna Amalia Bibliothek) findet, mit der TEI ab. Übung