Upgrade to Pro — share decks privately, control downloads, hide ads and more …

WS12/13 -- IT-Zertifikat: Daten- und Metadatenstandards | Die Text Encoding Initiative (TEI)

Jan Wieners
December 12, 2012

WS12/13 -- IT-Zertifikat: Daten- und Metadatenstandards | Die Text Encoding Initiative (TEI)

Jan Wieners

December 12, 2012
Tweet

More Decks by Jan Wieners

Other Decks in Education

Transcript

  1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners // [email protected]

    Daten- und Metadatenstandards Wintersemester 2012 / 2013 12. Dezember 2012 – Die Text Encoding Initiative
  2.  Standards definieren: DTD Aber: Wie lassen sich mit einem

    Standard sämtliche in den Geisteswissenschaften zu behandelnden Texte beschreiben? Problemstellung: Eine Lösung
  3.  Anzureicherndes / auszuzeichnendes Basismaterial: Codices Electronici Ecclesiae Coloniensis (CEEC)

    http://www.ceec.uni-koeln.de/  vdIb - Verteilte Digitale Inkunabelbibliothek http://inkunabeln.ub.uni-koeln.de/ Text I
  4. Hugo von Hofmannsthal – Die Beiden Text II Sie trug

    den Becher in der Hand – Ihr Kinn und Mund glich seinem Rand –, So leicht und sicher war ihr Gang, Kein Tropfen aus dem Becher sprang. So leicht und fest war seine Hand: Er ritt auf einem jungen Pferde, Und mit nachlässiger Gebärde Erzwang er, daß es zitternd stand. Jedoch, wenn er aus ihrer Hand Den leichten Becher nehmen sollte, So war es beiden allzu schwer: Denn beide bebten sie so sehr, Daß keine Hand die andre fand Und dunkler Wein am Boden rollte.
  5. Eine Lösung: TEI (Text Encoding Initiative)  Fokus: Text TEI

    bezeichnet sowohl  das Konsortium (TEI-C),  als auch einen Standard zur Kodierung und zum Austausch von Textdokumenten „TEI hat ein unabhängiges, portables und offenes Format [für die] Speicherung, Austausch und Analyse von Texten in den Geisteswissenschaften entwickelt. Das konkrete Resultat dieser Arbeit sind sowohl Richtlinien für die Kodierung unterschiedlicher Textsorten als auch das Textkodierungsformat selber.“ (http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html)  Richtlinien und Format sind frei zugänglich und kostenlos Text Encoding Initiative (TEI)
  6. Eine Lösung: TEI (Text Encoding Initiative)  Fokus: Text TEI

    bezeichnet sowohl  das Konsortium (TEI-C),  als auch einen Standard zur Kodierung und zum Austausch von Textdokumenten „TEI hat ein unabhängiges, portables und offenes Format [für die] Speicherung, Austausch und Analyse von Texten in den Geisteswissenschaften entwickelt. Das konkrete Resultat dieser Arbeit sind sowohl Richtlinien für die Kodierung unterschiedlicher Textsorten als auch das Textkodierungsformat selber.“ (http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html)  Richtlinien und Format sind frei zugänglich und kostenlos Text Encoding Initiative (TEI)
  7. Intention:  1987 entstanden als internationale Initiative von Philologen 

    Dokumentenformat zur Repräsentation von Texten in digitaler Form  Vielseitigkeit & Praxisnähe  „gekennzeichnet, von [der Bemühung,] ein Regelwerk zu bestimmen, da[s] dem Anwender möglichst viel Freiheit überläßt und möglichst wenige Vorentscheidungen trifft“ (http://computerphilologie.uni-muenchen.de/praxis/teiprax.html) Text Encoding Initiative (TEI)
  8. Versionsgeschichte  1990: TEI P1 (P => Proposal, Entwurf /

    Plan) Basiert auf SGML  1992 / 1993: TEI P2  1994: TEI P3 ("Green Books")  2002: TEI P4 (XML-basiert)  2002: TEI Lite  2007 TEI P5
  9. Vgl. http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html Hugo von Hofmannsthal – Die Beiden Sie trug

    den Becher in der Hand – Ihr Kinn und Mund glich seinem Rand –, So leicht und sicher war ihr Gang, Kein Tropfen aus dem Becher sprang. So leicht und fest war seine Hand: Er ritt auf einem jungen Pferde, Und mit nachlässiger Gebärde Erzwang er, daß es zitternd stand. Jedoch, wenn er aus ihrer Hand Den leichten Becher nehmen sollte, So war es beiden allzu schwer: Denn beide bebten sie so sehr, Daß keine Hand die andre fand Und dunkler Wein am Boden rollte. TEI und die Praxis
  10. TEI Lite DTD:  <!DOCTYPE TEI.2 PUBLIC "-//TEI//DTD TEI Lite

    XML ver. 1//EN" "http://www.hit.uib.no/xml/Ibsen/teixlite.dtd"[ <!ENTITY % ISOlat1 SYSTEM "http://www.hit.uib.no/xml/Ibsen/iso-lat1.ent"> %ISOlat1; ]>  Absolut referenziert: http://www.hit.uib.no/xml/Ibsen/teixlite.dtd Inhalt: <!ELEMENT TEI.2 (teiHeader, text) > <!ATTLIST TEI.2 ana IDREFS #IMPLIED corresp IDREFS #IMPLIED next IDREF #IMPLIED prev IDREF #IMPLIED id ID #IMPLIED n CDATA #IMPLIED lang IDREF #IMPLIED rend CDATA #IMPLIED TEIform CDATA "TEI.2" > TEI
  11. TEI-kodierter Text besteht aus mehreren Abschnitten:  1. Kopf des

    Dokumentes (teiHeader)   Informationen über den kodierten Text TEI
  12. Intention: u.a. Wahrung der Gedichtcharakteristika, i.e. Strophen- und Verseinteilung TEI

    Hugo von Hofmannsthal – Die Beiden Sie trug den Becher in der Hand – Ihr Kinn und Mund glich seinem Rand –, So leicht und sicher war ihr Gang, Kein Tropfen aus dem Becher sprang. So leicht und fest war seine Hand: Er ritt auf einem jungen Pferde, Und mit nachlässiger Gebärde Erzwang er, daß es zitternd stand. Jedoch, wenn er aus ihrer Hand Den leichten Becher nehmen sollte, So war es beiden allzu schwer: Denn beide bebten sie so sehr, Daß keine Hand die andre fand Und dunkler Wein am Boden rollte.
  13. Intention II: Eröffnen von Analyse- und Retrievalmöglichkeiten, z.B. per XSLT:

    „Gebe den zweiten Vers der dritten Strophe aus“.  Indexierung: Speichern von (relevanten) Schlüsselwörtern TEI
  14. Tagauswahl (vgl.: http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html )  Core Tag Set: In allen

    TEI-DTDs automatisch vorhanden, muss nicht explizit ausgewählt werden.  Base Tag Sets: Eine TEI-DTD kann jeweils nur eines dieser Tag Sets enthalten: TEI prose: Für die meisten Dokumente sinnvoll und ausreichend. verse: Ergänzt das elementare Vers-Markup im Core Tag Set durch zusätzliche Tags für metrische Analyse, Reimschema usw. drama: Ergänzt das elementare Dramen-Markup im Core Tag Set durch zusätzliche Tags für die Auszeichnung von Dramentexten. spoken: Ersetzt die Basisstruktur durch eine Struktur für linguistische Analyse (z. B. Sprechakte). dictionaries: Ersetzt die Basisstruktur durch eine detaillierte Struktur zur Auszeichnung lexikographischer Merkmale. terminology: Ersetzt die Basisstruktur durch eine differenzierte Struktur für terminologische Datenbanken. […]
  15. Tagauswahl (vgl.: http://www.onb.ac.at/sichtungen/print/bruvik-tm-1a-print.html )  Additional Tag Sets: Eine TEI-DTD

    kann eines oder mehrere folgender Tag Sets enthalten: TEI linking: Ergänzung durch Elemente für Hyperlinks, sowie zur Segmentation und Verbindung von Hyperlinks. figures: Ergänzung durch Elemente für Tabellen, Graphiken und Formeln. analysis: Ergänzung durch Elemente für Interpretation und einfache linguistische Analysen. fs: Ergänzung durch Elemente für Merkmalsanalyse (feature structure analysis). certainty: Ergänzung durch Elemente zur Definition der Sicherheit und der Korrektheit einer Auszeichnung sowie Kennzeichnung der Verantwortlichkeit für eine Auszeichnung. transcr: Ergänzung durch Elemente für die Transkription von Primärquellen (z. B. Handschriften). textcrit: Ergänzung durch Elemente für einen textkritischen Apparat. names.dates: Ergänzung durch Elemente für die detaillierte Auszeichnung von Namen und Daten. […]
  16. Weiterführende Informationen:  „Yesterday's Information Tomorrow“ – Die Text Encoding

    Initiative: http://www.onb.ac.at/sichtungen/beitraege/bruvik-tm- 1a.html  „TEI in der Praxis“ http://computerphilologie.uni- muenchen.de/praxis/teiprax.html  http://www.tei-c.org/index.xml Text Encoding Initiative (TEI)
  17. /