Upgrade to Pro — share decks privately, control downloads, hide ads and more …

sains terbuka untuk semua - research data management

sains terbuka untuk semua - research data management

Author: Dasapta Erwin Irawan
Affiliation: Institut Teknologi Bandung
Profile: https://orcid.org/0000-0002-1526-0863
Downloadable Google Slides: https://docs.google.com/presentation/d/1RY6pehCrErboe8rHvUyLDvrsROsLRsVy3wRF7SpMZBQ/edit?usp=sharing
Event: PDII LIPI Bogor

Dasapta Erwin Irawan

November 13, 2019
Tweet

More Decks by Dasapta Erwin Irawan

Other Decks in Science

Transcript

  1. Slide ini telah • dipresentasikan di: ◦ Forum IGDORE Bali:

    24 April 2018 ◦ Forum diskusi LPPM ITB: Mei 2018 ◦ Forum diskusi Proyek Riset Bersama UDARA (Manchester University dan ITB): Mei 2018, video, blog 3
  2. 8

  3. 9

  4. 10

  5. 11

  6. Background • Data is valuable • It takes large amount

    of resources to get: F und, T ime, E nergy • Data is also time and geographic specific 13
  7. Research institution needs to ensure the lifetime of data is

    long enough for more parties to re-use it. 14 Data created Data analysed Data reported Article/report written Data abandoned
  8. By January the following year 15 Where did I put

    all my excel spreadsheets. I forgot.
  9. A quick review on why we did this Therefore you

    must appreciate your data. How do we do that? By making sure to extend the potential lifetime of your data. make a systematic data structure, write a proper documentation, and put it somewhere S . A . F . E. 16
  10. 17 Where to put you data? Here are some options:

    • Submit the data along with an article to journal publisher • Upload the data to a dedicated website/portal • Submit the data to repositories using Green OA mechanism. You can send the data to data journal, with potential drawbacks: journal policy to data licensing, journal subscription
  11. 18 Where to put you data? Here are some options:

    • Submit the data along with an article to journal publisher • Upload the data to a dedicated website/portal • Submit the data to repositories using Green OA mechanism. Easy solution with potential drawbacks: need a website maintainer, storage etc
  12. 19 Where to put your data? Here are some options:

    • Submit the data along with an article to journal publisher • Upload the data to a dedicated website/portal • Submit the data to repositories using Green OA mechanism. We recommend this solution. Data creators have the following options: - institutional repositories - disciplinary specific repositories - public-open repository services
  13. Few things to remember when we mention data, it can

    be: numbers in a raw - unprocessed state videos of you or another person taking data, doing some lab experiment, doing some narrative explanations, an interview etc voice recordings of you or another person explaining something, describing experiments, doing interview etc digital maps 20
  14. File formats Image: jpg/png Text: doc, docx, ppt, pptx, txt,

    markdown Tables: xls, xlsx, csv Video: mp4 Voice: mp3 Maps: shp 21
  15. ITB core principle in RDM = S . A .

    F . E S table and searchable A ccessible and interoperable F lexible E asy to use and reuseable 22
  16. ITB core principle in RDM = S . A .

    F . E S table and searchable A ccessible and interoperable F lexible E asy to use and reuseable 23 You must look for a storage (preferable online storage) that is stable for long preservation of your data. We could recommend the following: - ITB institutional repository: ITB-Eprints - OSF read their FAQ. - Figshare read their FAQ on DCC. - Zenodo read their FAQ.
  17. S . A . F . E principles to store

    your data S table and searchable A ccessible and interoperable F lexible E asy to use and reuseable 24 You must look for a storage that you can set to “public”, so that people can access it without having to sign up to the service. Also, the repository should be friendly and can be easily connected with another services.
  18. S . A . F . E principles to store

    your data S table and searchable A ccessible and interoperable F lexible E asy to use and reuseable 25 The repository should be flexible in terms of folder arrangement, file arrangement (move files around), text editing for documenting.
  19. S . A . F . E principles to store

    your data S table and searchable A ccessible and interoperable F lexible E asy to use and reuseable 26 You and the users should find it easy to use and operate. A simple drag and drop interface is preferable. Save the files in to its native forms. Give the users the easiest way to reuse the files, if you have a table, then share the csv or xls, if you have a text document, then share the Markdown (md) or doc/x.
  20. Few things to remember when you are planning a data

    repository, put yourself as the user, not the creator. And the users likely want it to be C . U . T . E: C ompact but systematic U sable T imely E asy to follow 27 The dataset should be packed in small-digestible sizes. If it consists of folders, then you may want to keep the structure simple. You could split it in to different bigger components if it gets too complicated. We suggest data creators to make a Readme file for metadata and to give a context to the data.
  21. Few things to remember when you are planning a data

    repository, put yourself as the user, not the maker. And the users likely want it to be C . U . T . E: C ompact but systematic U sable T imely E asy to follow 28 The users would want the files to be in readable format. Do not give the PDF if you can provide the docx, xls, ppt files. We prefer text-based format, like txt, md, csv, as it’s light weight.
  22. Few things to remember when you are planning a data

    repository, put yourself as the user, not the maker. And the users likely want it to be C . U . T . E: C ompact but systematic U sable T imely E asy to follow 29 Users would like the data to be available as soon as possible. If you’re done with the report or the article, they would expect the data to be one-click away. Give them a chance to cite the data alone (data citation), not the whole report or article.
  23. Few things to remember when you are planning a data

    repository, put yourself as the user, not the maker. And the users likely want it to be C . U . T . E: C ompact but systematic U sable T imely E asy to follow 30 If you should an embargo period, then make it clear, so the users can easily find it. It’s important for them to understand the situation of your data. For very sensitive data, you may also consider to only post the minimal dataset. Make sure it’s enough for readers to test the validity of your method. A Readme file may come in handy to describe the terms and conditions.
  24. Components of a data repository • Data storage and software

    • Metadata • Structure • Persistent link • Licensing • Data maintainer • Indexing 31
  25. Components of a data repository 1. Data storage and software

    2. Metadata 3. Structure 4. Persistent link 5. Licensing 6. Data maintainer 7. Indexing 32 Static repository: Eprints-based platform (ITB-Eprint), Dataverse-based platform, or DSpace-based platform. Dynamic repository (with version control): OSF, Figshare, Zenodo
  26. Components of a data repository • Data storage and software

    • Metadata • Structure • Persistent link • Licensing • Data maintainer • Indexing 33 Three level of storage: • local working storage: researcher’s laptop or PC • local backup storage: researcher’s portable HDD (immediate backup) • remote storage/repository: see next slide (weekly backup)
  27. Components of a data repository • Data storage and software

    • Metadata • Structure • Persistent link • Licensing • Data maintainer • Indexing 34 Static repository: Eprints-based platform (ITB-Eprint), Dataverse-based platform, or DSpace-based platform, PANGAEA repository Dynamic repository (with version control): OSF, Figshare, Zenodo
  28. Components of a data repository • Data storage and software

    • Metadata • Structure • Persistent link • Licensing • Data maintainer • Indexing 35 Metadata for general data ( see table sheet “general_dataset”): 1. Title of the dataset 2. Abstract (to give context) 3. Creator 4. Contributor 5. Publisher 6. Funder 7. Date of publication 8. Data type 9. Location 10. License/rights 11. Data structure 12. Data size 13. File format
  29. Components of a data repository • Data storage and software

    • Metadata • Structure • Persistent link • Licensing • Data maintainer • Indexing 36 Metadata for geospatial data (see table `general_geospatial_dataset`): 1. Title 2. Title of dataset 3. General information 4. Metadata publisher 5. Identification information 6. Responsible party 7. Topic category 8. Spatial domain 9. Keywords 10. MMS level 2 metadata 11. Constraints
  30. Components of a data repository • Data storage and software

    • Metadata • Structure • Persistent link • Licensing • Data maintainer • Indexing 37 If you have multiple dataset, a data structure is important, or creators can build a data collection. Any of each, this information should be in the metadata (or Readme file). Creators can make a data structure based on research stage, or if they may break it down in to themes.
  31. Components of a data repository • Data storage and software

    • Metadata • Structure • Persistent link • Licensing • Data maintainer • Indexing 38 We recommend the following structure: - data: raw data, processed data - analysis: - lab protocols - code - tables - plots/charts - output: - reports: preliminary, mid, final - articles - presentations
  32. Components of a data repository • Data storage and software

    • Metadata • Structure • Persistent link • Licensing • Data maintainer • Indexing 39 DOI (from Datacite or CrossRef) or any other persistent link
  33. Components of a data repository • Data storage and software

    • Metadata • Structure • Persistent link • Licensing • Data maintainer • Indexing 40 This is important for data re-use and data citation. Data users can follow the license easily. We recommend the following licenses: • Creative Commons (CC-0, CC-BY) • MIT license or GNU license (mostly for software or code) • Academic Free License (AFL)
  34. Components of a data repository • Data storage and software

    • Metadata • Structure • Persistent link • Licensing • Data maintainer • Indexing 41 PI or data staff in each research team Data steward at university level
  35. Components of a data repository • Data storage and software

    • Metadata • Structure • Persistent link • Licensing • Data maintainer • Indexing 42 Data repository should be indexed by all or at least one of the following indexing services: OneSearch (From Indonesian National Library and Archive) SHARE (an initiative founded in 2013 by ARL, AAU and APLU) BASE (they are connected with Open Knowledge Lab) Google Scholar
  36. Our progress Repositori ITB - Eprints: recommended for finished project

    Repositori ITB - OSF: recommended for on-going project 43
  37. Beberapa catatan akhir yang penting 1. Selama ini kita terlalu

    fokus kepada luaran konvensional -- makalah dalam jurnal, makalah di prosiding dan yang sejenisnya -- dan melupakan luaran yang memiliki jangkauan lebih luas. 2. Manfaat riset (terutama yang didanai oleh publik) adalah untuk komunitas secara luas bukan pribadi, 3. Dampak terpenting bukanlah penerbitan hasil riset di jurnal tertentu, jumlah sitasi, indeks-H dan yang sejenisnya, tetapi sejauh mana riset kita mampu menginspirasi peneliti dan calon peneliti berikutnya, sehingga mereka dapat berpartisipasi di dalam pengembangan riset secara menerus. 44
  38. References - Open Data Workshop Repository - ITB and University

    of Sydney Team - Data Management Plan (DMPtool) guidelines - University of California Curation Center - Open Data Repository Guidelines - Digital Curation Center (DCC) guidelines - FAIR principles of open data - FORCE11 - Perrier et al., 2017, Research data management in academic institutions: A scoping review, PLOSone, https://doi.org/10.1371/journal.pone.0178261 . - Irawan et al., 2017, The implementation of open science in Indonesia to increase research transparensy, access, and scientific impact (in Indonesian language), Jurnal Berkala Ilmu Perpustakaan UGM, https://doi.org/10.22146/bip.17054 . 45
  39. QA • Data apa yang harus disimpan? data untuk melakukan

    penelitian atau data hasil penelitian? ◦ data apapun yang dihasilkan dari riset (data primer). ◦ kalau yang dimaksud adalah data sekunder: maka akan sangat berkaitan dengan ketentuan penggunaan data (atau lisensi) dari instansi penghasil data tersebut • Hal apa yang menginisiasi / menginspirasi bapak untuk mengkampanyekan open science? ◦ ini diawali dari alasan-alasan yang religius dan sangat manusiawi: bahwa ilmu harus disampaikan (walaupun sedikit), bahwa manusia itu pelupa, selalu memerlukan bantuan dan pengakuan orang lain.
  40. QA • Ada pertanyaan dari peserta Sosialisasi RIN berkaitan dengan

    perilaku dosen-dosen di Universitas berperingkat 10 besar di Indonesia dlm mengunggah-publish-dan open data Apakah sdh dilakukan semua dosen ◦ saya dapat menjawab dengan cepat dan tegas TIDAK. ◦ kalaupun data dipublikasikan, selalu dikaitkan dengan penerbitkan makalah dan disampaikan dalam format PDF. Sangat sedikit yang menyampaikan data sebagai material pendukung (supplementary materials) dalam format yang dapat digunakan ulang dengan mudah.
  41. QA • Mohon dijelaskan terkait keamanan data ketika disimpan dalam

    repository. Apakah cukup aman dari serangan ransomware yang variannya terus bermunculan. Ada sodinokibi yg merusak data pada server. ◦ mohon maaf saya bukan orang IT, sehingga kurang memahami hal ini. ◦ tapi saya yakin setiap ada masalah, selalu ada orang yang membuat solusinya, dan selalu ada sebagian kecil diantaranya yang memberikan solusi secara terbuka (bukan entitas bisnis) • Disebutkan format yang diunggah harus dapat digunakan untuk text, format data apa saja yang dimaksud? ◦ semaksimum mungkin format teks memang direkomendasikan. tujuannya untuk meminimalkan ketergantungan kepada piranti lunak berbayar yang sering bermasalah dengan versi, misal: berkas yang ditulis dengan Ms Word versi baru tidak dapat dibuka oleh Ms Word versi lama. ◦ utk teks: txt, tabel: csv, dst.
  42. QA • Bagaimana cara menghadapi peneliti sangat egosentris terhadap data

    yang dimilikinya? ◦ hmmm harus lebih sering lagi diadakan sosialisasi pada berbagai event dan cara. ◦ juga perlu mencari komponen peneliti yang lebih mudah menerima hal baru, misal: kita dekati anggota tim, atau mahasiswa, yang pada akhirnya akan dapat mempengaruhi ketua tim. ◦ kenalkan berbagai benefit, bukan kewajibannya.
  43. QA • pada point ke-3 dlm "Catatan Akhir yang Penting",

    bhw bukan h-index dll yang penting, tetapi menginspirasi peneliti lain. Saya setuju dalam hal ini. Tetapi bagaima cara mengukur keberhasilannya? ◦ h indeks digunakan agar cepat saja karena pakai angka ◦ kalau tidak menggunakan itu, maka perlu telaten mengkurasi dampak karya ilmiah, misal menggunakan Altmetric atau Impact Story (yang juga pakai angka dan terkait dengan ORCID) ◦ atau menggunakan cara manual (secara daring) dengan melihat keterkaitan antara suatu karya dengan berbagai kebijakan, dst. ◦ tidak ada cara cepat memang, ini harus dibahas terpisah.
  44. QA • Mohon masukannya apa,data management planning apakah merupakan dokumen

    tersendiri yang melengkapi proposal penelitian, atau dmp masuk dalam struktur proposal, ◦ sebaiknya masuk ke proposal ya, bisa masuk ke bab langsung atau lampiran. ◦ saya usulkan sebagai lampiran karena DMP mestinya dirilis oleh lembaga jadi seragam isinya.
  45. QA • Mohon pendapat bapak mengenai feature di RIN yang

    dapat mempublish atau tidak mempublish data yang di upload, apakah ini sesuai dengan kaidah open science? ◦ kaidah open science juga memperhatikan data sensitif. data sensitif tetap diunggah ke repositori tapi tidak dibuat publik, atau dengan melakukan deidentifikasi kalau memiliki komponen identitas lembaga atau individu. ◦ jadi tetap saja penting ada pilihan fitur repositori publik dan repositori private (limited access). • Menurut bapak apakah urgen untuk upload proposal riset ke dalam rin...jika ya apa urgensiny? ◦ penting sekali, tapi tidak harus dibuat publik. gunanya untuk pimpinan guna mengevaluasi antara rencana dengan implementasi ◦ untuk bidang seperti psikologi ini sangat penting, karena mereka punya banyak kasus analisis statistik yang dimanipulasi agar hipotesis terbukti atau sebaliknya, hipotesis diubah agar hasil riset terlihat lebih menarik dan layak terbit di jurnal ◦ selain itu ini bisa jadi salah satu cara untuk mencegah terjadinya pendanaan ganda. subyek atau lokasi sudah diriset beberapa tahun sebelumnya tapi diusulkan kembali.
  46. QA • User saat ini dimanjakan dgn berbagai aplikasi. Saat

    mengisi sebuahrepositori kebanyakan mengeluhkan terlalu byk field & rumit. Apa yg perlu dilakukan agar memudahkan pengisian, akses & membangun habi ◦ mmm. ya benar ini memang bisa jadi masalah. ◦ tapi bisa juga diakali dengan meminimkan peran pengguna. misal ybs hanya mengisi metadata dasar, seperti judul, penulis, abstrak, kata kunci, selebihnya diisi oleh tim admin. ◦ tapi memang dibutuhkan sosialisasi tentang pentingnya metadata secara lebih luas • Menggunakan metode yang sama, teori yang sama, dengan lokus penelitian yang berbeda apakah bisa disebut plagiasi pa..? ◦ jelas bukan, selama penjelasan metode dan teorinya merujuk ke sumber primernya.
  47. QA • Jika dlm DMP berbeda dgn dilapangan, tindakan apa

    yg dpt dilakukan seorang data curator? Apa dampaknya bagi data owner? ◦ version control bisa diaktifkan, dengan ada penjelasan tentang kenapa kebijakan manajemen datanya berubah • Selama berkolaborasi riset di lapangan dengan tim, bagaimana data sharing dilakukan ? Opini (sebagai akademik dan peneliti) terkait assistance dari data manager selama proses riset berlangsung ? ◦ jadi tim bisa terbagi jadi dua: tim inti (PI dan anggota) dan tim pendukung. Data manager ada di tim pendukung. ◦ semuanya punya akses yang bisa diatur apakah sebagai admin, read/write, atau read only
  48. QA • Bagaimana pendapat bapak terkait pertentangan antara open science

    dgn sensitivitas data? ◦ dalam implementasi sains (terbuka) juga ada pengecualian untuk data sensitif. masalahnya indonesia belum punya regulasi yang pasti dan terpublikasi tentang hal ini, juga untuk regulasi tentang riset (sebagai turunan UU risteknas) serta regulasi akses terbuka. ◦ ini menyebabkan modus baku (default mode) adalah ketertutupan, yang mana ini bukanlah prinsip utama sains. • Terkait share idea atau proposal, tidak dipungkiri bahwa masih ada kekhawatiran bahwa ide tsb akan dicuri. Bgmn menyikapi hal tsb? ◦ pada dasarnya untuk memprioritaskan klaim dan pemikiran, suatu dokumen berisi ide justru harus diumumkan.
  49. QA • Lebih cocok mana raw material atau data yang

    sudah dianalisis untuk dishare? contohnya gambar peta mentah atau data tabular yang menjelaskan dari peta tersebut? ◦ raw material wajib dibagikan, termasuk peta mentah dan data tabular ◦ hasil analisis sudah pasti ada dalam laporan atau makalah. • apa tantangan terbesar untuk implementasi open science di indonesia mengingat kultur di indonesia masih sangat sulit untuk berbagi resources. Apa saran anda untuk pddi sbg motor pengelola data di idn?