Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Datenzitationen: Theorie, Praxis und Perspektiven

Datenzitationen: Theorie, Praxis und Perspektiven

In einer wissenschaftlichen Publikation sollen die verwendeten Forschungsdaten möglichst gleich wie die verwendete Literatur angegeben werden. Wenn bei diesen Datenzitationen die Forschungsdaten über eine DOI referenziert werden, dann können diese Beziehungen auch einfach maschinell verarbeitet werden. Die genaue Formattierung und Reihung der Metadatenfelder in Datenzitationen ist bereits in etlichen Empfehlungen und Zitationsstilen geregelt. In der Praxis wird aber häufig nur der Name einer Studie (in unterschiedlichen Varianten) oder evtl. der Name der Datenbank im Fließtext angegeben. Genau hier setzt das Projekt InFoLiS [1] der UB Mannheim in Kooperation mit der GESIS und der HdM Stuttgart/Universität Mannheim an. Ziel dieses DFG-Projektes ist es, mit Hilfe von Text-Mining-Techniken die Datenzitationen zwischen Publikationen und Forschungsdaten explizit zu machen und diese Beziehungen in Recherchesysteme wie etwa Discovery-Systeme oder institutionelle Repositorien einzubinden.

[1] http://infolis.github.io/

Philipp Zumstein

October 28, 2015
Tweet

More Decks by Philipp Zumstein

Other Decks in Research

Transcript

  1. Datenzitat aus dem frühen 17. Jahrhundert  Kepler (1609): Astronomia

    nova  Datenzitat im Titel der Publikation  Angabe des Namens des Datenerhebers Johannes Kepler (1571-1630) Tycho de Brahe (1546-1601) Neuen Astronomie ursächlich begründet oder Physik des Himmels, beinhaltet Kommentare zur Bewegung des Sterns Mars, aus den Beobachtungen von Tycho Brahe
  2. Warum Daten zitieren?  Newton (1676): „Wenn ich weiter geblickt

    habe, so deshalb, weil ich auf den Schultern von Riesen stehe.“  Zitierung von fremden Daten sollte so sauber sein wie bei fremden Textstellen um „Daten-Plagiate“ zu vermeiden  Zitationen erlauben den Verlauf des wissenschaftlichen Diskurses auch bzgl. Forschungsdaten zu verfolgen Quelle: Encyclopedic manuscript containing allegorical and medical drawings ; South Germany, ca. 1410 ; Rosenwald 4 (Bild 15)
  3. Warum Daten zitieren?  Forschung wird überprüfbar  Rogoff &

    Reinhart (2010): Staatsverschuldung über 90 Prozent  Wirtschaftswachstum sinkt rapide  Zugrundeliegenden Forschungsdaten und Berechnungen lagen vor  Herndon, Ash & Pollin (2013): erneut durchgerechnet und dabei Codierungsfehler und andere das Resultat verfälschende Faktoren entdeckt  These widerlegt  Forschung wird replizierbar  Chang & Li (2015) haben 67 Artikel aus den Wirtschaftswissenschaften untersucht:  50 % der Ergebnisse konnten nicht repliziert werden (Hauptgrund: fehlende Daten oder Code)  Forschungsprozess wird transparent und offen Beispiel von: Vlaeminck (2015): Data Policies at Economics Journals: Theory and Practice. The Replication Network
  4. Joint Declaration of Data Citation Principles  8 Prinzipien zu

    Datenzitationen: 1. Wichtigkeit 2. Ansehen und Zuordnung 3. Nachweis 4. Eindeutige Identifizierung 5. Zugriff 6. Beständigkeit 7. Genauigkeit und Nachprüfbarkeit 8. Interoperabilität und Flexibilität  CODATA-ICSTI Data Citation Standards and Practices  Beinahe 100 institutionelle Befürworter (38 Datenzentren, 17 Verlage, 25 Fachgesellschaften)
  5. Data Citation Working Group  auch Maschinell verarbeitbare Datenzitationen 

    auch Teilmengen von Daten eindeutig identifizieren  auch wenn Daten noch hinzugefügt, gelöscht oder anderweitig modifiziert werden können  Fokus bei technischen Aspekten: Machbarkeitsstudie, prototypische Implementierungen  https://rd-alliance.org/groups/data-citation-wg.html
  6. Wie sollen Daten zitiert werden?  Datenzitationen möglichst gleich wie

    andere Zitationen darstellen  Ausführliche Angaben im Quellenverzeichnis (Literaturverzeichnis)  Kurzbeleg im Text  alternativ mit Fußnoten arbeiten  Angaben in Datenzitationen  Forschungsdaten eindeutig identifizieren  Auffinden der Forschungsdaten  Konsistente Formattierung  Abgrenzung von Datenzitationen und Zitationen zu Publikationen
  7. DataCite  Vorgeschlagenes Format für Datenzitationen:  Rattinger, Hans; Roßteutscher,

    Sigrid; Schmitt-Beck, Rüdiger; Weßels, Bernhard (2012): Wahlkampf-Panel (GLES 2009). Version: 3.0.0. GESIS Datenarchiv. Dataset. doi:10.4232/1.11131  Optional: Version, Typ der Ressource Urheber (Veröffentlichungsdatum): Titel. Version. Publikationsagent. Typ der Ressource. Identifikator
  8. Datenzitationen nach ICPSR United States Department of Health and Human

    Services. Substance Abuse and Mental Health Services Administration. Office of Applied Studies. Treatment Episode Data Set -- Discharges (TEDS-D) -- Concatenated, 2006 to 2011. ICPSR30122-v4. Ann Arbor, MI: Inter-university Consortium for Political and Social Research [distributor], 2014-10-10. http://doi.org/10.3886/ICPSR30122.v4
  9. Datenzitationen nach APA 6th ed. U.S. Department of Health and

    Human Services, Substance Abuse and Mental Health Services Administration, Office of Applied Studies. (2011). Treatment episode data set -- discharges (TEDS-D) -- concatenated, 2006 to 2009 [Data set]. http://doi.org/10.3886/ICPSR30122.v2 Quelle: http://blog.apastyle.org/apastyle/2013/12/how-to-cite-a-data-set-in-apa-style.html
  10. Datenzitationen nach American Economic Association  Romer, Christina D., and

    David H. Romer. 2010. “The Macroeconomic Effects of Tax Changes: Estimates Based on a New Measure of Fiscal Shocks: Dataset.” American Economic Review. http://www.aeaweb.org/articles.php? doi=10.1257/aer.100.3.763 (accessed August 22, 2012).
  11. Wie werden Daten in der Praxis zitiert?  „Diese Zahl

    haben wir auf der Basis der Europäischen Arbeitskräftestichprobe 2002 berechnet.“  „Darauf verweist schon die IGLU-Studie, nach der in Deutschland die Zehnjährigen im internationalen Vergleich der Lesekompetenz bedeutend besser abschneiden als die Fünfzehnjährigen.“  „For this purpose, data from the Socio-Economic Panel (SOEP) of the years 1990 and 2003 are used and for both periods, the impact factors are estimated using linear regression models.“
  12. Verarbeitungsschritte in der Praxis  Datenzitationen im Fließtext erkennen 

    Datenzitationen auflösen, normalisieren  IGLU = Internationale Grundschul-Lese-Untersuchung  SOEP = Socio-Economic Panel = Sozio-oekonomische Panel = Sozioökonomische Panel  Datenzitationen eindeutig identifizieren  IGLU 2001, IGLU 2006 oder IGLU 2011?  Zugehörige Forschungsdaten finden  Übung: Finden Sie die vorher erwähnten Daten!
  13. Was ist das Projekt InFoLiS?  Integration von Forschungsdaten und

    Literatur  http://infolis.github.io/  DFG -Projekt  UB Mannheim, GESIS, HDM Stuttgart/Uni Mannheim Automatisierung dieser Verarbeitungsschritte, d.h. automatische Umwandlung von Datenzitationen im Fließtext (Praxis) zu richtigen, auflösbaren Datenzitationen
  14. Was ist das Projekt InFoLiS?  Mit Hilfe von Text-Mining-Techniken

    die Datenzitationen zwischen Publikationen und Forschungsdaten explizit zu machen  Linked Data, Webservices, API zur Nachnutzung
  15. Was ist das Projekt InFoLiS?  Datenzitationen in Recherchesysteme wie

    etwa Discovery- Systeme oder institutionelle Repositorien einbinden
  16. Schluss/Diskussion  „Darüber hinaus erfordern Forschungsdaten- managementmodelle visionäre Führung, um

    festzulegen, wie Datenverknüpfungen am besten in Bibliothekskataloge zu integrieren sind“ (NMC Horizon Report 2014 – Library Edition, S. 7)  Wo werden Datenzitationen gesucht?  Wo sollen Datenzitationen sichtbar sein für die Benutzer?  Welche Rolle können/sollen Bibliotheken bei Datenzitationen einnehmen?