Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Datenzitationen: Theorie, Praxis und Perspektiven

Datenzitationen: Theorie, Praxis und Perspektiven

Vortrag auf dem NIK-BW Workshop 2016 zum Thema "Forschungsdatenmanagement – Was müssen wir wissen? Was können wir tun?" am 24.11.2016 in Mannheim.

Philipp Zumstein

November 24, 2016
Tweet

More Decks by Philipp Zumstein

Other Decks in Education

Transcript

  1. Übersicht  Einleitung  Definition  Warum zitieren?  Theorie

     Praxis  Perspektiven  Projekt Infolis  Diskussion Wie?
  2. Definition Datenzitation  Forschungsdaten = Rohdaten, für die nächsten Schritte

    bei der Forschungsarbeit  eigene Forschungsdaten  Forschungsdaten von einem Datenanbieter  Offizielle Statistik  Forschungsdaten eines Kollegen  Zitation = Quellenangabe, Literaturnachweis  formale, standardisierte Form  auffindbare Quellen, nachvollziehbare Argumentation  Forschungsanteile können den Urhebern zugeordnet werden  Datenzitation = Zitation auf Forschungsdaten
  3. Warum zitieren?  Saubere Zitationen anstatt Plagiate, wissensch. Fehler 

    Zitationen sind häufig die „Währung“ in der Wissenschaft (Evaluation, Akkreditierung, Berufungsverfahren, …)  Zitationen erlauben den Verlauf des wissenschaftlichen Diskurses zu verfolgen  Newton (1676): „Wenn ich weiter geblickt habe, so deshalb, weil ich auf den Schultern von Riesen stehe.“ Quelle: Encyclopedic manuscript containing allegorical and medical drawings ; South Germany, ca. 1410 ; Rosenwald 4 (Bild 15)
  4. Warum Daten zitieren?  Forschungsprozess wird transparent und offen 

    Forschung wird überprüfbar  Rogoff & Reinhart (2010): Staatsverschuldung über 90 Prozent  Wirtschaftswachstum sinkt rapide  Zugrundeliegenden Forschungsdaten und Berechnungen lagen vor  Herndon, Ash & Pollin (2013): erneut durchgerechnet und dabei Codierungsfehler und andere das Resultat verfälschende Faktoren entdeckt  These widerlegt  Forschung wird replizierbar  Chang & Li (2015) haben 67 Artikel aus den Wirtschaftswissenschaften untersucht:  50 % der Ergebnisse konnten nicht repliziert werden (Hauptgrund: fehlende Daten oder Code) Beispiel von: Vlaeminck (2015): Data Policies at Economics Journals: Theory and Practice. The Replication Network
  5. Wertschätzung von Datenzitationen  Das dazugehörige Papier zitieren anstatt die

    Daten  Alle Mitarbeiter im Labor als Autoren des Papers aufführen, z.B. http://cds.cern.ch/record/2 234120?ln=en  Data Citation Index (Thomson Reuters)  DataCite : doi für Forschungsdaten  Author Contributions in PeerJ, z.B. https://peerj.com/preprints/ 2513v1/  DataCite + CrossRef Event Data, Lagotto
  6. Joint Declaration of Data Citation Principles  8 Prinzipien zu

    Datenzitationen: 1. Wichtigkeit 2. Ansehen und Zuordnung 3. Nachweis 4. Eindeutige Identifizierung 5. Zugriff 6. Beständigkeit 7. Genauigkeit und Nachprüfbarkeit 8. Interoperabilität und Flexibilität  CODATA-ICSTI Data Citation Standards and Practices  Aktuell 114 institutionelle Befürworter (darunter 40 Datenzentren, 23 Verlage, 28 Fachgesellschaften)
  7. Wie sollen Daten zitiert werden?  Datenzitationen möglichst gleich wie

    andere Zitationen darstellen  Ausführliche Angaben im Quellenverzeichnis (Literaturverzeichnis)  Kurzbeleg im Text  alternativ mit Fußnoten arbeiten  Angaben in Datenzitationen  Forschungsdaten eindeutig identifizieren  Auffinden der Forschungsdaten  Konsistente Formattierung  Abgrenzung von Datenzitationen und Zitationen zu Publikationen (optional)
  8. DataCite  Vorgeschlagenes Format für Datenzitationen:  Rattinger, Hans; Roßteutscher,

    Sigrid; Schmitt-Beck, Rüdiger; Weßels, Bernhard (2012): Wahlkampf-Panel (GLES 2009). Version: 3.0.0. GESIS Datenarchiv. Dataset. https://doi.org/10.4232/1.11131  Optional: Version, Typ der Ressource Urheber (Veröffentlichungsdatum): Titel. Version. Publikationsagent. Typ der Ressource. Identifikator
  9. Datenzitationen nach APA 6th ed. U.S. Department of Health and

    Human Services, Substance Abuse and Mental Health Services Administration, Office of Applied Studies. (2011). Treatment episode data set -- discharges (TEDS-D) -- concatenated, 2006 to 2009 [Data set]. http://doi.org/10.3886/ICPSR30122.v2 Quelle: http://blog.apastyle.org/apastyle/2013/12/how-to-cite-a-data-set-in-apa-style.html
  10. Datenzitationen nach American Economic Association  Romer, Christina D., and

    David H. Romer. 2010. “The Macroeconomic Effects of Tax Changes: Estimates Based on a New Measure of Fiscal Shocks: Dataset.” American Economic Review. http://www.aeaweb.org/articles.php? doi=10.1257/aer.100.3.763 (accessed August 22, 2012).
  11. Datenzitat aus dem frühen 17. Jahrhundert Kepler (1609): Astronomia nova

    Johannes Kepler (1571-1630) Tycho de Brahe (1546-1601) Neue, ursächlich begründete Astronomie oder Physik des Himmels. […] Aufgrund der Beobachtungen des Tycho Brahe Titel Datenzitat Autor
  12. Wie werden Daten in der Praxis zitiert?  „Diese Zahl

    haben wir auf der Basis der Europäischen Arbeitskräftestichprobe 2002 berechnet.“  „Darauf verweist schon die IGLU-Studie, nach der in Deutschland die Zehnjährigen im internationalen Vergleich der Lesekompetenz bedeutend besser abschneiden als die Fünfzehnjährigen.“  „For this purpose, data from the Socio-Economic Panel (SOEP) of the years 1990 and 2003 are used and for both periods, the impact factors are estimated using linear regression models.“
  13. Verarbeitungsschritte in der Praxis  Datenzitationen im Fließtext erkennen 

    Datenzitationen auflösen, normalisieren  IGLU = Internationale Grundschul-Lese-Untersuchung  SOEP = Socio-Economic Panel = Sozio-oekonomische Panel = Sozioökonomische Panel  Datenzitationen eindeutig identifizieren  IGLU 2001, IGLU 2006 oder IGLU 2011?  Zugehörige Forschungsdaten finden  Übung: Finden Sie die vorher erwähnten Daten!
  14. Wie kann man dies verbessern? 1. Datenzitationen sauber setzen wie

    normal Zitationen  WissenschaflterInnen müssen ggf. Gewohnheiten anpassen  Bewusstsein schaffen, Anreizsysteme  Hilfestellungen, Tools  In die guten wissenschaftliche Praktiken der Fachcommunity aufnehmen 2. Nachträglich automatisiert etwas machen…  InFoLiS
  15. Was ist das Projekt InFoLiS?  Integration von Forschungsdaten und

    Literatur  http://infolis.github.io/  DFG -Projekt  UB Mannheim, GESIS, HDM Stuttgart/Uni Mannheim Automatisierung dieser Verarbeitungsschritte, d.h. automatische Umwandlung von Datenzitationen im Fließtext (Praxis) zu richtigen, auflösbaren Datenzitationen
  16. Was ist das Projekt InFoLiS?  Mit Hilfe von Text-Mining-Techniken

    die Datenzitationen zwischen Publikationen und Forschungsdaten explizit zu machen  Linked Data, Webservices, API zur Nachnutzung
  17. Was ist das Projekt InFoLiS?  Datenzitationen in Recherchesysteme wie

    etwa Discovery- Systeme oder institutionelle Repositorien einbinden https://www.youtube.com/watch?v=kV9Ti3zcIB0
  18. Schluss/Diskussion  Wo werden Datenzitationen gesucht?  Wo sollen Datenzitationen

    sichtbar sein für die Benutzer oder sonst zur Anreicherung genutzt werden?  Wie kann man das Bewusstsein für saubere Datenzitationen weiter ausbauen?  Sind die empfohlenen Literaturverwaltungsprogramme für Datenzitationen bereit?  Welche Rolle können/sollen Bibliotheken bei Datenzitationen einnehmen?