Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Finlands nationalbibliografi som länkad data

Finlands nationalbibliografi som länkad data

Presentation på Libris användardag 2018 hos Kungliga biblioteket i Stockholm, Sverige den 5 december 2018.

Video: https://www.youtube.com/watch?v=LPiuZyY_VTI

Finlands nationalbibliografi Fennica har publicerats i form av länkade öppna data. Detta innebär att alla verk, upplagor (instanser), personer, organisationer, ämnen och platser som nämns i nationalbibliografin bildar ett nätverk av över 2 miljoner sammankopplade objekt. Det går att följa länkarna mellan dem och till exempel se vilka roller olika personer har i förhållande till litteraturen. Med hjälp av SPARQL-teknologi kan man också göra djupgående analyser av Fennica, till exempel hitta de mest populära ämnena under olika tidsperioder. I presentationen visas hur den länkade versionen av Fennica kom till, vilka nya möjligheter för analys och återanvändning av metadata den öppnar och hur den kommer att utvecklas i framtiden.

Google Slides: http://tinyurl.com/fennica-ld-kb

Avatar for Osma Suominen

Osma Suominen

December 05, 2018
Tweet

More Decks by Osma Suominen

Other Decks in Technology

Transcript

  1. Om mig Osma Suominen Systemspecialist, Nationalbiblioteket i Finland Doktorsavhandling “Methods

    for Building Semantic Portals” Semantic Computing Research Group, Aalto-universitetet, 2013 Inledde mitt arbete på Nationalbiblioteket 2013 med att bygga upp tesaurus- och ontologiservicen Finto.fi Jobbar med att utveckla bibliografisk länkad data (Fennica-LD) samt med automatisk innehållsbeskrivning (Annif) Programvaruprojekt med öppen källkod t.ex. Skosify - Validation and QA tool for SKOS vocabularies Skosmos - SKOS vocabulary publishing tool Annif - Tool for automated subject indexing and classification Twitter: @OsmaSuominen LinkedIn: osmasuominen GitHub: @osma
  2. Finlands nationalbibliografi Fennica Innehåller metadata om: • finländska böcker från

    och med 1488 • periodiska publikationer, bl.a. tidningar, från och med 1771 • kartor från och med 1540-talet • audiovisuella material • digitaliserade gamla material • ämnesbaserad katalog över småtryck, bl.a. reklam och visitkort • katalog över tematiska webbinsamlingar från och med 2008 • förlagens förhandsinformation om kommande publikationer • utvalda e-böcker från och med 2008. Fennica innehäller inte: • musik (katalogiseras i nationaldiskografin Viola) • artiklar (katalogiseras i artikeldatabasen Arto) Melinda samkatalog Fennica Ex Libris Aleph ILS
  3. Nationalsamlingen Fennica är samtidigt en katalog över nationalsamlingen, som är

    en arkivsamling över den nationella publikationsproduktionen. Nationalsamlingen innehåller tryckt material från början av 1800-talet fram till dags dato. I Nationalsamlingen ingår dessutom utländskt material som är finskspråkigt, publicerat av finländare eller som handlar om Finland (s.k. utlandsfennica).
  4. Fennica Finna.fi Sökmotor för material i Finlands museum, arkiv och

    bibliotek + reservation, lånefunktioner ... Fennica-LD data.nationallibrary.fi Fennica publicerat som länkad data
  5. Varför skapa Fennica-LD? 1. Göra bibligrafisk data mer synligt, också

    internationellt 2. Förbättra kvaliteten och interoperabiliteten 3. Lära oss om nya metoder och teknologier 4. Varför inte? :)
  6. Fennica-LD vs. Libris XL Fennica-LD Libris XL Syfte Konvertering av

    finska nationalbibliografin till länkad data samt publicering av sultresultatet i hanterbar form Samkatalog för hantering av bibliografisk metadata Originalformat för metadata MARC21 BIBFRAME / JSON-LD Datamodell Schema.org-baserad BIBFRAME-baserad Exportformat Olika RDF-format (RDF/XML, Turtle, N-Triples, JSON-LD, HDT) JSON-LD, MARC Användargränssnitt data.nationallibrary.fi Endast internt bruk Driftstatus Experimentell drift sedan 12/2017 I produktion sedan 7/2018
  7. bib record bib record bib record bib record auth record

    auth record auth record bib record bib record auth record auth record auth record 1M bib records 125k person names 40k corporate names 35k subjects (YSA) bib record bib record
  8. bib record bib record bib record bib record auth record

    auth record auth record bib record bib record auth record auth record auth record Work Instance Person Subject 1M bib records 125k person names 40k corporate names 35k subjects (YSA) bib record bib record Place Organization
  9. Work Instance Person Subject Image credit: MaryMaking blog bib record

    bib record bib record bib record auth record auth record auth record bib record bib record auth record auth record auth record 125k person names 40k corporate names 35k subjects (YSA) bib record bib record 1M bib records
  10. As seen in: SWIB16 talk DCMI webinar o-bib journal article

    “From MARC silos to Linked Data silos”
  11. med Verk och Instanser såsom i BIBFRAME för att beskriva

    våra entiteter från ett webbfokuserat slutanvändarperspektiv Special thanks to Richard Wallis for help with applying schema.org!
  12. MARCXML BIBFRAME RDF Schema.org RDF Linked to external URIs MARC

    / Aleph seq With deduplicated works Work keys With deduplicated agents Agent keys Convert & clean using Catmandu Convert using marc2bibframe2 Convert to Schema.org using SPARQL CONSTRUCT YSA subjects YSO subjects Corporate names RDA Media, Content, Carrier Link against controlled vocabularies using SPARQL Generate work keys for merging using SPARQL Merge works using SPARQL Merge agents (person, org) using SPARQL RDF store https://github.com/NatLibFi/bib-rdf-pipeline
  13. Data dump downloads Publicering som länkade data (och MARC) både

    för människor och för maskiner under CC0-licens RDF HDT Jena Fuseki bib-lod-ui Flask app HTML+JSON-LD OpenSearch API Linked Data RDF RDF store RDF N-Triples MARC records Linked Data Fragments server SPARQL LDF
  14. Identitetshantering Bibliotek har traditionellt hanterat identiteter (t.ex. personer, verk, orter,

    ämnen) med auktoriserade namnformer - strängar Strängar är problematiska. Det skulle vara bättre att ha stabila identifikatorer i stället. Det gör man oftast inte i MARC. Vi har ganska många dubbletter (mest personer och verk) i Fennica-LD: • vet inte alltid om två personer med samma namn är på riktigt samma person • ett svårt problem att identifiera verk från traditionella bibliografiska poster Detta torde vara lättare i Libris XL, eftersom ni jobbar med länkade entiteter.
  15. “Cool URIs don’t change” -- Tim Berners-Lee ...men vi konverterar

    om och om MARC-poster, som ändras hela tiden!
  16. Work Instance Person Subject Place Organization LCSH Finnish Place Name

    Registry Wikidata WorldCat Other national libraries WorldCat Works LIBRIS XL? ISNI VIAF ISNI Wikidata
  17. Framtida steg 1. Berikning och städning av RDF-data, t.ex. mer

    specifika klasser såsom Map 2. Vidareutveckling av verksbeskrivningar och extraktion av verk 3. Djupare sammankoppling till andra länkade dataset 4. Utvidgning till andra kataloger: diskografin Viola, artikeldatabasen Arto
  18. Tack så mycket! [email protected] - @OsmaSuominen http://data.nationallibrary.fi - @NatLibFiData Öppen

    källkod: https://github.com/NatLibFi/bib-rdf-pipeline https://github.com/NatLibFi/bib-lod-ui Denna presentation: http://tinyurl.com/fennica-ld-kb