Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Die Bibliothek als Daten-Jongleur: Services für...

Die Bibliothek als Daten-Jongleur: Services für datenzentrierte Forschung

Philipp Zumstein

March 11, 2016
Tweet

More Decks by Philipp Zumstein

Other Decks in Research

Transcript

  1. Die Bibliothek als Daten-Jongleur Services für datenlastige Forschung Dr. Philipp

    Zumstein Universitätsbibliothek Mannheim Bibcast, 11.03.2016
  2. 3 Universitätsbibliothek Mannheim Big Data, Data Science • Big Data

    = zu groß für übliche Datenverarbeitung • z.B. Common Crawl: ca. 150 TB pro Monat • Data Science = Mathematik, Statistik + Informatik, Hacking Skills + Domänenwissen • Kann/soll hierbei die Bibliothek unterstützen? Sind dies unsere typischen Benutzer? Bibliothek …
  3. 4 Universitätsbibliothek Mannheim Digital Humanities Geistes- und Kulturwissenschaften digitale Ressourcen

    computergestützte Verfahren Text-Mining Information Retrieval Bildverarbeitung Informationsextraktion … Bild-Digitalisate Volltexte … Wieviel Infrastruktur soll die Bibliothek hier aufstellen und wann beginnt die Forschungsarbeit? Kooperative Projekte? Bibliothek
  4. 5 Universitätsbibliothek Mannheim Datenlastige Forschung Empirische Wirtschaftsforschung, Sozialwissenschaften, Umfragedaten, Statistikdaten,

    psychologische Tests, … Mit welchen Maßnahmen kann die Bibliothek die Forscher bei der „Datenlast“ optimal unterstützen? Bibliothek datenzentriert datenorientiert datenlastig Big Data, Data Science Digital Humanities Fokus hier
  5. 7 Universitätsbibliothek Mannheim Hoppenstedt‘s Aktienführer • Jährliche Zusammenstellung von Firmenprofile

    (börsennotierte Unternehmen) • Nur gedruckte Bände (bis 2000) • Ab 1956 regelmäßig • Ab 1870 mit Unterbrüchen und unter unterschiedlichen Namen • Adressinformationen, Finanz- und Bilanzzahlen, Vorstand, Aktionäre, Beteiligungen, …
  6. 8 Universitätsbibliothek Mannheim Ausgangslage • Längsschnittanalysen über verschiedene Jahre nur

    schwierig möglich • Kleine Teile der Daten wurden für die Auswertung in verschiedenen Forschungsprojekten (wiederholt) abgetippt • Mehrfacharbeit • Nur bedingt replizierbare Forschungsergebnisse • gezwungen auf kleiner Stichprobe zu arbeiten • Kann man hier nicht zentral eine Infrastruktur aufbauen?
  7. 9 Universitätsbibliothek Mannheim Aktienführer-Datenarchiv Projekt • DFG - Projekt •

    Bearbeitete Jahrgänge 1979-1999 • Ca. 25.000 Scans • Lizenz für freien Zugriff deutschlandweit für wissenschaftliche Einrichtungen (siehe DBIS) • Datenextraktion im Double-Key-Verfahren (> 99,90% Zeichengenauigkeit), XML-Strukturerfassung • Datenbank aufbauen, Web-Ansicht und Exportmöglichkeiten
  8. 13 Universitätsbibliothek Mannheim Beispiel Export Aktienkurse aller DAX-30-Unternehmen im Berichtszeitraum

    0 500 1000 1500 2000 2500 3000 3500 1948 1968 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 Allianz Aktiengesellschaft Holding BASF Aktiengesellschaft Bayer Aktiengesellschaft Bayerische Hypotheken- Und Wechsel-Bank Aktiengesellschaft Video
  9. 14 Universitätsbibliothek Mannheim Beispiel Export 0 500 1000 1500 2000

    2500 3000 3500 1948 1957 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 Allianz Aktiengesellschaft Holding BASF Aktiengesellschaft Bayer Aktiengesellschaft Bayerische Hypotheken- Und Wechsel-Bank Aktiengesellschaft Bayerische Motoren Werke Aktiengesellschaft Bayerische Vereinsbank COMMERZBANK AKTIENGESELLSCHAFT Continental Gummi-Werke Aktiengesellschaft
  10. 15 Universitätsbibliothek Mannheim Datenschätze Haben Sie in Ihrer Bibliothek auch

    Datenschätze im gedruckten Bestand? 1 1 1 1 1 1 1 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0
  11. 17 Universitätsbibliothek Mannheim Forschungsdaten in der Informationskompetenz • Wo findet

    man die Finanz- und Bilanzdaten der Robert Bosch GmbH für die letzten 5 Jahre? • Um einen Business Plan zu erstellen, benötigen Sie statistische Daten über mobiles Bezahlen. • Wo gibt es statistische Daten zu Beschäftigungsquoten von 55-64 Jährigen in der EU?
  12. 18 Universitätsbibliothek Mannheim Text und Data Mining • Weitestmögliche Verwendung

    von Forschungsdaten • Text und Data Mining vertraglich auch zusichern lassen • The Hague Declaration • “The Right to Read is the Right to Mine”
  13. 19 Universitätsbibliothek Mannheim Auf den Schultern von Riesen Auf den

    Schultern von „Forschungsdaten- Riesen“ verwendete Literatur angeben • Zitat • Literaturverzeichnis verwendete Daten angeben • Datenzitation • Quellenverzeichnis Zitationen Bildquelle: Rosenwald 4, Bl. 5r https://commons.wikimedia.org/wiki/File:Library_of_Congress,_Rosenwald_4,_Bl._5r.jpg
  14. 20 Universitätsbibliothek Mannheim Datenzitationen • Data Citation Principles • Literaturverwaltungsprogramme

    • Relationen zwischen Publikationen und Forschungsdaten aufzeigen im Katalog oder Repositorium  InFoLiS Projekt Webclip (Bib.Kongress 2016): „Click here for research data“
  15. 22 Universitätsbibliothek Mannheim Bibliotheksräume für Forscher Gotha, Forschungsbibliothek, Handschriftenlesesaal (1985)

    Ludwig, Jürgen (19. August 1985) https://commons.wikimedia.org/wiki/File:Bundesarchiv_Bild_1 83-1985-0819- 017,_Gotha,_Forschungsbibliothek,_Handschriftenlesesaal.jpg CC-BY-SA 3.0
  16. 23 Universitätsbibliothek Mannheim Data Science Studio (U Washington) • Universität

    Washington, Seattle • seit Januar 2015: Data Science Studio (davor Lesesaal) • öffentlicher Raum (ca. 450m2) – für kollaborative Forschung – offene Arbeitsumgebungen – casual seating – kleine ruhige Konferenzräume
  17. 24 Universitätsbibliothek Mannheim Data Science Studio (U Washington) Photo ©

    University of Washington eScience Institute. All rights reserved
  18. 25 Universitätsbibliothek Mannheim Data Science Studio (UW): Services • „Bring

    your data and your code and get some technical help in data management, predictive analytics, software engineering, or visualization“ • Ansprechpartner: (mit Sprechzeiten) • Incubator (datenlastige Forschungsfragen im Team bearbeiten über 10 Wochen mit Unterstützung) + Community Seminar (wöchentlich) + Workshops
  19. 26 Universitätsbibliothek Mannheim Bibliothek Daten- repositorien Daten- managementpläne IK Bibliotheksräume

    Literatur- verwaltung Erwerbung Forschungsdaten- Projekte Zusammenfassung Forschungsdaten
  20. 27 Universitätsbibliothek Mannheim Bild des Graphen: Martin Grandjean (2. November

    2013): Graph representing the metadata of thousands of archive documents, documenting the social network of hundreds of League of Nations personals. CC-BY- SA. https://commons.wikimedia.org/wiki/File:Social_Network_Analysis_Visualization.png