Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sommersemester 2012 -- Blockseminar Daten- und Metadatenstandards | 07: Metadatenstandards im BAM-Sektor

Jan Wieners
September 26, 2012

Sommersemester 2012 -- Blockseminar Daten- und Metadatenstandards | 07: Metadatenstandards im BAM-Sektor

Jan Wieners

September 26, 2012
Tweet

More Decks by Jan Wieners

Other Decks in Education

Transcript

  1. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Daten- und Metadatenstandards Sommersemester 2012 [Blockseminar] 26. Juni 2012 – Digitale Bibliotheken, Metadatenstandards: MARC, Dublin Core, METS/MODS & Co.
  2. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     „BAM“-Sektor: Bibliotheken, Archive, Museen  Digitale Bibliotheken, Digitale Archive, Digitale Museen  Bibliographische Metadaten ◦ MARC ◦ MAB ◦ MARCXML ◦ Dublin Core (DC) ◦ Qualified Dublin Core ◦ Metadata Object Description Schema (MODS) ◦ BibTeX  Digitale Objekte ◦ Metadata Encoding and Transmission Standard (METS)  Gruppierung digitaler Objekte ◦ Open Archives Initiative (OAI) ◦ OAI-PMH  (Eingebettete) Metadaten für Multimedia ◦ Bild: (GIF, PNG, JPEG), TIFF, EXIF ◦ Audio: ID3 / ID3v2 Sitzungsüberblick
  3. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Vannevar Bush (1890-1974) ◦ 1954: „As we may think“  „Memex“ (Memory Extender) Digitale Bibliothek
  4. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Digitale Bibliothek “A focused collection of digital objects, including text, video, and audio [and beyond: 3D objects, simulations, dynamic visualizations, and virtual reality], along with methods for access and retrieval, and for selection, organization, and maintenance of the collection.” [Witten, Bainbridge, Nichols (2010): How to Build a Digital Library]
  5. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Digitale Bibliothek Sammlung digitaler Objekte ◦ Text ◦ Video ◦ Audio ◦ 3D Objekte ◦ Simulationen, VR, etc. Bereitstellung von Zugriffsmöglichkeiten: ◦ Benutzerseite:  Zugriff (access)  Abfrage (retrieval) von digitalen Objekten ◦ Bibliothekarinnen-/Bibliothekarseite:  Selection  Organization  Maintenance Metadaten  Kritisch für alle Formen organisierter digitaler Inhalte
  6. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Metadaten Grundfrage: Woher stammen die Metadaten?  Option I: Ein Mensch hat festgelegt, dass x  Ein Mensch betrachtet und analysiert das Dokument und weist einem Metadatenelement einen bestimmten Wert zu.  Option II: Ein Computerprogramm hat x analysiert und bestimmt  Ein Algorithmus verarbeitet das Dokument und gibt einen Wert für das Metadatenelement aus.
  7. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Arten von Metadaten:  Administrative metadata for managing resources, such as rights information  Descriptive metadata for describing resources (Beispiel: Zettel des Zettelkataloges)  Preservation metadata for describing resources, such as recording preservation actions  Technical metadata related to low-level system information, such as data formats and any data compression used  Usage metadata related to system use, such as tracking user behavior  “End user’s view is only the tip of the iceberg: Much of the metadata is not intended for public display” Metadaten
  8. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     MARC  MAB  MARCXML  Dublin Core: DC  Qualified Dublin Core  Metadata Object Description Schema: MODS  BibTeX Bibliographische Metadaten: Standards
  9. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     MARC: MAchine Readable Cataloging  Vorgestellt in den späten 1960er Jahren von Henriette Avram (Library of Congress)  !Grundproblem/-intention: Migration von Zettelkatalogen zu computerbasierter Repräsentation von Datensätzen (Records)  MARC-Datensätze gespeichert als Sammlung von Feldern in einem „ziemlich komplexen Format“ [Witten, Bainbridge, Nichols (2010): How to Build a Digital Library]  “Producing a MARC record for a particular publication is an onerous undertaking that is governed by a detailed set of (highly detailed) rules and guidelines called the Anglo- American Cataloging Rules (AACR2R, 2R  final revised 2nd edition).” [Witten, Bainbridge, Nichols (2010): How to Build a Digital Library] MARC
  10. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    MARC Tags (die Spitze des Eisbergs)  Variable Control Fields (00x)  Variable Data Fields ◦ Numbers and Codes (0xx) ◦ Main Entries (1xx) ◦ Titles (2xx) ◦ Edition, Imprint, etc. (2xx) ◦ Physical Description, etc. (3xx) ◦ Series Statements (4xx) ◦ Notes (5xx) ◦ […]  Vgl. die Referenz unter http://www.itsmarc.com/crs /bib1468.htm
  11. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Repräsentation von MARC-Daten per XML  Beispiel: „MARCXML Example Documents“ http://www.loc.gov/standards/marcxml/  MARC-Datensatz (sandburg.mrc) MARCXML
  12. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Maschinelles Austauschformat für Bibliotheken (MAB),  MAB  1970er, Deutsche Nationalbibliothek  MAB2  1990er  Verwendung mit RAK (Regeln zur Alphabetischen Katalogisierung) Vgl.: http://www.d-nb.de/standardisierung/formate/mab.htm Kleiner Exkurs: MAB und VD18
  13. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Intention: Digitalisierung und Erschließung der im deutschen Sprachraum veröffentlichten Drucke des 18. Jahrhunderts Kontext VD18 VD 16 VD 17 VD 18 ~100 000 erfasste Titel ~255 000 Titel Ziel: Mehr als 600 000 Titel Förderzeitraum: 1969- 1999 Förderzeitraum: Seit Juli 1996 Förderzeitraum: Ab 2009
  14. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Benannt nach Dublin, Ohio, wo 1995 das erste Treffen der Gruppe / Initiative veranstaltet wurde.  Dublin Core (DC): Satz von vordefinierten Metadatenelementen, intendiert für ◦ Nutzung durch Nicht-Spezialisten ◦ die Beschreibung digitaler Ressourcen (i.e. Websites), die häufig keinen eigenen MARC Katalog-Eintrag erhalten würden  Verglichen mit MARC: Sehr einfach Dublin Core
  15. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Beschreibung von Ressourcen ◦ durch Autorinnen / Autoren: Erschließung  Auffindbarkeit von Ressourcen ◦ genauere Recherche (gegenüber Volltext)  Designziel: Allgemeinheit, Einfachheit  ISO, ANSI/NISO Standard Dublin Core
  16. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Definiert Begriffe / Konzepte, keine Syntax (!)  Kann ausgedrückt werden z.B. mittels/in HTML oder XML Versionen: ◦ "Dublin Core Simple" (15 Elemente) vs. ◦ "Dublin Core Qualified" (element refinements) Namensraum ◦ "Begriffe im Namensraum DCTerms" (55 Elemente): http://dublincore.org/documents/dcmi-terms/  Dublin-Core-Metadaten-Elemente sind ein Standard zur Beschreibung unterschiedlicher Objekte.  Die Kernelemente dieses Standards werden in dem „Dublin Core Metadata Element Set“ beschrieben (http://www.dublincore.org/documents/dces/). Das Set setzt sich aus 15 Elementen zusammen, die gleichzeitig auch Teil der umfangreicheren „DCMI Metadata Terms“ (http://www.dublincore.org/documents/dcmi-terms/) sind, wobei die „DCMI Metadata Terms“ neben weiteren Elementen auch ein kontrolliertes Vokabular für Objekttypen enthalten. Dublin Core
  17. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Satz von 15 Elementen zur Beschreibung von Ressourcen: ◦ Title ◦ Creator ◦ Subject ◦ Description ◦ Publisher ◦ Contributor ◦ Date ◦ Type ◦ Format ◦ Identifier ◦ Source ◦ Language ◦ Relation ◦ Coverage ◦ Rights  Alle Elemente sind optional und wiederholbar, die Reihenfolge ist beliebig Dublin Core
  18. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Elementübersicht: http://de.wikipedia.org/wiki/Dublin_Core Vgl. auch: http://de.selfhtml.org/html/kopfdaten/meta.ht m#dublin_core Übungsaufgabe: Geben Sie die wesentlichen Charakteristika des Werkes „Die Jungfrau züchtigt den Jesusknaben vor drei Zeugen“ (Max Ernst, 1926) mit Dublin Core wieder. Dublin Core Übung
  19. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Stärke und Schwäche von Dublin Core: Einfachheit  Genügen 15 Elemente, um (digitale) Objekte adäquat zu beschreiben? Dublin Core
  20. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Zwei sich ergänzende internationale Formate zur Kodierung von Metadaten und digitalen Objekten, die aus mehreren Teilen (Seiten, Dateien, Kapitel, etc.) bestehen (vgl. http://www.gbv.de/wikis/cls/METS/MODS) : ◦ Metadata Encoding and Transmission Standard (METS) ◦ Metadata Object Description Schema (MODS)  Heimat von METS: http://www.loc.gov/standards/mets/  METS: „Designed to permit the representation, maintenance, and exchange of the increasingly complex digital objects that make up digital libraries. Library catalogs have for years used MARC records to fulfill these functions for their materials. The METS initiative aims to do the same for digital collections.” METS / MODS
  21. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Sieben Hauptabschnitte: ◦ Kopfteil (METS Header) ◦ Erschließungsangaben (Descriptive Metadata) ◦ Verwaltungsangaben (Administrative Metadata) ◦ Dateienabschnitt (File Section) ◦ Strukturbeschreibung (Structural Map) ◦ Strukturverknüpfungen (Structural Links) ◦ Verhalten (Behavior)  Ein Beispiel: ◦ http://www.hki.uni-koeln.de/sosem-2012/it-zertifikat-der-phil- fak-daten-und-metadatenstandards/bam-sektor-digitale- bibliotheken-archive-museen/mets-mods bzw. ◦ http://vd18-proto.bibliothek.uni-halle.de/de-slub- vd18/oai/?verb=GetRecord&metadataPrefix=mets&mode=view &identifier=5270690 METS / MODS
  22. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     OAI: Beispiel für eine Schnittstelle zur Kommunikation von (Meta-)Daten über das Internet  Konzepte & Co.: ◦ Data Provider  Systeme, die Metadaten über OAI-PMH zugänglich machen ◦ OAI-PMH  OAI Protocol for Metadata Harvesting ◦ Service Provider  Sammelt Metadaten von Datenprovidern, bietet Suchinterface für Archive, von denen Metadaten gesammelt wurden OAI: Begrifflichkeiten, Konzepte
  23. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Datenkommunikation über http-Request  Basisadresse + Script (+ Verb (+ Argument)?)*  Sechs "Verben" zur Kommunikation ◦ Identify [wer bist du?] ◦ ListMetadataFormats [was sprichst du?] ◦ ListSets [was hast du für Sammlungen?] ◦ ListIdentifiers [gib mir deine Identifier] ◦ ListRecords [gib mir Datensätze] ◦ GetRecords [gib mir Datensätze] ◦ Sechs "Argumente": metadataPrefix, identifier, from, until, set, resumptionToken OAI: Kommunikation
  24. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     Service-Provider: ◦ OAISTER (Service Provider): http://www.oaister.org/ ◦ BASE (Service Provider): http://www.base-search.net/  Data Providers: http://www.openarchives.org/Register/BrowseSites ◦ ZVDD (Data Provider): http://www.digitalisiertedrucke.de/ http://www.digitalisiertedrucke.de/oai2d.py?verb=ListSets ◦ BSB (Data Provider): http://www.bsb-muenchen.de/ http://mdz1.bib-bvb.de/~db/OAI/oai2.php?verb=Identify ◦ KUPS (Data Provider): http://kups.ub.uni- koeln.de/phpoai/oai2.php ◦ CEEC (Data Provider): http://www.ceec.uni-koeln.de/ http://www.ceec.uni-koeln.de/ceec- oai/kleioc?verb=Identify OAI: Beispielanwendungen
  25. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

    Beispielanwendung CEEC  Handschrift Dom 213  Bild: http://www.ceec.uni-koeln.de/ceec- cgi/kleioc/0010/exec/pagesma/%22kn28- 0213_001.jpg%22/segment/%22body%22  Beschreibung: http://www.ceec.uni-koeln.de/ceec- cgi/kleioc/0010/exec/katl/%22kn28-0213%22  XML (TEI-like): http://www.ceec.uni- koeln.de/projekte/CEEC/database/descriptions/kn28- 0213.xml  OAI (oai_dc): http://www.ceec.uni-koeln.de/ceec- oai/kleioc?verb=GetRecord&metadataPrefix=oai_dc&i dentifier=kn28-0213 OAI: CEEC
  26. Universität zu Köln Historisch-Kulturwissenschaftliche Informationsverarbeitung Jan G. Wieners, MA <[email protected]>

     http://de.wikipedia.org/wiki/Open_Archives_Initiative  http://en.wikipedia.org/wiki/Open_Archives_Initiative  http://www.openarchives.org/  http://www.openarchives.org/OAI/openarchivesprotocol.h tml Weiterführende Informationen