Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Standards of Government Data Publishing - Open...

Avatar for abrahaj abrahaj
April 27, 2012

Standards of Government Data Publishing - Open Data Albania

Tema si Standarte te publikimit te Gov Data (W3C recommendations dhe analize e data.gov & data.gov.uk), Kataloge per publikim te dhenash (CKAN, DataHub etc), dhe integrimi i te dhenave ne Linked Open Data.

Avatar for abrahaj

abrahaj

April 27, 2012
Tweet

More Decks by abrahaj

Other Decks in Technology

Transcript

  1. Aktiviteti • Hyrje – Frymezimi – Perkufizim “Open Data” &

    Principet – Standartet e botimit te te dhenave te hapura • XML • RDF & Semantic Technologies – Katalogje te botimit te Open Data • CKAN • DataHub Pushim • ODA Eksplorues – Implementime Open Data • Data.gov • Data.gov.uk – Open.Data.Al • Template dhe Implementime • Eksploruesi
  2. • „Hans Rosling shows the best stats you´ve ever seen“

    Inspiration Cili shtet ka vdekjen me te larte tek femijet? Sri Lanka apo Turkey Poland apo South Korea Malaysia apo Russia Pakistan apo Vietnam Thailand apo South Africa Studentet Suedeze mesatarja ± Cl 1.8 ± 0.4 Majmunet mesatarja 2.5 Profesoret Suedeze mesatarja± Cl 2.4 ± 0.4
  3. • Ne Shqiperi, popullsia eshte e mbizoteruar nga femrat apo

    nga meshkujt? • Ka me shume ndotje me CO2 tani apo para vitit 1990? Te dhenat mundesojne: • Ndryshimin e perceptimeve • Perhapjen e dijes • Ofrojne kendveshtrime dhe frymezim • Influencojne vendimmarrjen Changing the Mindset
  4. Perkufitim Open Data Open data eshte filozofia qe mbeshtet shperndarjen

    dhe publikimin e lire te te dhenave, pa kufizime ligjore, patenta apo mekanizma te tjere kontrolli.
  5. Principet e Open Data 1. Te plota / Complete Te

    gjitha te dhenat publike duhet te jene te arritshme. Te dhenat publike jane te dhena qe nuk jane subjekt i privatesise, sigurise apo kufizimeve te tjera 2. Origjinale / Primary Te dhenat duhet te jene ne format baze, te paperpunuara dhe te nderthurura dhe ofruar me komente
  6. Principet e Open Data /2 3. Korrekte ne dimensionin kohe

    / Timely Te dhenat duhet te ofrohen menjehere per te ruajtur vleren e castit dhe jo pas nje fare kohe kur nuk kane me vlere. 4. Te aksesueshme / Accessible Te dhenat duhet te jene te gjendshme nga nje grup I gjere njerezish per nje grup te gjere qellimesh. 5. Ne format te kuptueshem nga makinat / Machine processable Te dhenat duhet te jene te organizuara ne menyre te tille qe lejojne procesimin automatik.
  7. Principet e Open Data /3 6. Pa diskrimim / Non-discriminatory

    Te dhenat jane te vlefshme per kedo, pa nevoje regjistrimi. 7. Pa pronesi / Non-proprietary Asnje entitet nuk ka pronesi absolute mbi te dhenat. 8. Pa kufizim licence / License-free Te dhenat nuk jane subjekt I ndonje te drejte autori, patente, marke apo sekreti tregetar. Megjithate kufizime llogjike per privatesine dhe sigurine mund te lejohen
  8. • Akses i lirë dhe i hapur • Lehtësi për

    rishpërndarje • Lehtësi për ripërdorim • Asnjë kufizim se kush e përdor dhe për cfarë sipas Open Knowledge Definition Cfarë është Open Data? Të dhëna për të cilat ofrohet:
  9. • Nëse nuk është e kërkueshme, nuk ekziston • Nëse

    nuk procesohet nga kompjuteri, nuk të angazhon • Nëse nuk lejohet ripërdorimi, nuk të jep fuqi Kërkoje, përdore, shpërndaje
  10. • Arkivë qëndrore për të dhëna të hapura • Lehtësi

    kërkimi dhe ripërdorimi • Vizualizim i qartë grafik • Artikuj hulumtues Open Data Albania
  11. Perse te dhena qeveritare te hapura!? Te dhenat qeveritare botohen

    per 3 arsye: • Rritja e kujdesit qytetar per funksionimin e qeverise duke ofruar kontroll me te larte; • Kontribut me informacion me vlere per shoqerine • Mundeson qeverine dhe shoqerine per te funksionuar me me efikasitet
  12. W3C / Standarte te Gov Data Hapat e botimite te

    te dhenave qeveritare • Hapi 1: – Botoni te dhena ne format te thjeshte (raw) – Te dhenat duhet te jene te mirestrukturuara – Te dhena vizuale qe nuk lejojne nxjerrjen e te dhenave per riperdorim (psh imazhe/pdf-scans etj) duhet te shmangen.
  13. W3C / Standarte te Gov Data Hapat e botimite te

    te dhenave qeveritare • Hapi 2: – Krijoni nje katalog online per te vendosur te dhenat ne format te thjeshte (raw) – Datasetet e te dhenave duhet te jene te strukturuara dhe te dokumentuara, perndryshe jane te paperdorshme
  14. W3C / Standarte te Gov Data Hapat e botimite te

    te dhenave qeveritare • Hapi 3: – Te dhenat duhet te jene te lexueshme nga njerezit dhe makinat – Te dhenat duhet te jene te pasura me informacione semantike, metadata, dhe identifikues – Te dhenat duhet te kodohen dhe te sherbehen duke perdorur formate te hapura dhe jo formate komerciale
  15. Koncepte te rendesisshme • Identifikimi – Cdo resource ne internet

    duhet te identifikohet ne menyre unike nepermjet nje URI/URL/IRI – Mendoni Databaze / Primary Key si koncept per Identifikim unik te nje burimi • Dokumentimi – Pa dokumentim, te dhenat ne format paresore jane te pavlefshme – Minimalisht cdo resource duhet te kete disa metadata si titulli, pershkrimi, data, burimi
  16. Koncepte te rendesisshme • Arkivimi – Te dhenat kane vlere

    ne kohe. – Procedure e miremenduar per publikimin e versioneve te te njejtit dataset. – URLte duhet te reflektojne versionimin • Nderfaqe publikimi – Krijimi I nderfaqeve me teknologji qe lejojne botimin e te dhenave /XSLT+XML, RDFa+HTML etc
  17. Koncepte te rendesisshme • Zgjedhja e formatit te duhur per

    publikimin e te dhenave – Mendime te ndryshme aktualisht • XML • Spreadsheet • CVS • RDF
  18. Do's and Don'ts – Tim Berners Lee Do's and Don'ts

    • Do pick URIs which are likely to be persistent • Do put RDF metadata giving the license. • Do use the RDF and SPARQL standards • Make sure your human readable pages are accessible. • Do NOT hide data files inside zip files unless they are also available directly. • Do NOT put data up in proprietary formats. • Do NOT wait until you have a complete schema or ontology to publish data. • Do NOT seek to replace existing data systems.
  19. Outline • Koncepte baze – Cfare eshte Linked Data –

    Instrumentet kryesore per botimin e Linked Data(RDF, OWL,…) – Objektivat e botimit te te dhenave te strukturuara ne web • Si mund te botojme te dhena ne web – RDF & SPARQL Endpoints
  20. Basic Notions • Linked Open Data : nje fenomen shoqeror

    dhe teknik – Gjithmone e me shume te dhena te hapura • Qeveritare, kulturore, shkencore,… – E rendesishme per t’I bere te dhenat te aksesueshme nga makinat • Lehteson shkembimin e te dhenave ndermjet sistemeve heterogjene • Ndihmon rritjen e sherbimeve dhe aplikimeve te bazuar ne Open Data • Mundeson menyra te reja per te vizualizuar dhe lunduar te dhenat – Sasia e te dhenave te hapura po dublikohet cdo vite qe nga 2007
  21. Data is Published in Graphs myPresentation Linked Data : Exposing

    your data on the Web 08/02/2011 hasTitle hasCreationDate me hasAuthor Armand hasName Tirana livesIn Ali Dem livesIn
  22. Ontologies Define the Meaning of Data myPresentation Open Data Albania

    Presentation 08/02/2011 hasTitle hasCreationDate me hasAuthor Armand hasName Tirana livesIn Ali Dem livesIn Presentation Person City hasAuthor livesIn
  23. Ontologies, Data, Web Resources myPresentation Open Data Albania Presentation 08/02/2011

    hasTitle hasCreationDate me hasAuthor Armand hasName Tirane livesIn Ali Dem livesIn Presentation Person hasAuthor domain range Document superclass Ontolgoies Data Web resources
  24. Web i faqeve-> Web-i i te dhenave • Ne webin

    e te dhenave – Te dhena direkt online – Cdo objekt te dhenash ka nje URI – Lidhim objekte te dhenash me te dhena te tjera te perkufizuara diku tjeter, duke perdorur lidhjet semantike – Perdoren ontologji per t’u dhene kuptim gjerave  Ne webin e faqeve  Vendosen faqe me permbajtje  Faqet kane URL  Lidhim faqet me faqe te tjera nepermjet hyperlinks
  25. Nocione baze: URI • URI: Uniform Resource Identifier – Identifikues

    unik i resourceve ne web – Na mundeson te referojme nje resource dhe te nderveprojme me te – URL nuk eshte URI
  26. Nocione baze: RDF • Te dhenat vendosen ne web duke

    perdorur nje formalizim qe quhet per te pershkruar burimet ne web – RDF • Te dhenat vijne ne forme trip(subjekt-predikate-objekt) • ex: thisPresentation – hasAuthor - Armand myPresentation 08/02/2011 hasCreationDate me hasAuthor Armand hasName Tirana livesIn http://open.data.al/uris#myPresentation http://armand.brahaj.com/uris#me http://dbpedia.org/resource/Tirana
  27. Nocione baze: Ontologji • Ontologjite ofrojne nje fjalor – Kuptimi

    i klasave dhe vecorive jane te percaktuara mire qe lejon «kuptim» te te dhenave • Ontologjite permbajne njohuri te pergjithshme, te vlefshme per te gjitha te dhenat – Lejojne te nenkuptohen fakte te tjera nga burime qe jane remote • Ontology Web Language (OWL) eshte gjuha qe percakton ontologji
  28. Shembuj ontologjish oda:Dataset oda:DataEntry oda:Indicator oda:Topic skos:Concept event:Event rdfs:subClassOf oda:indicator

    oda:dimension oda:topic Literal sdmx-measure: obsValue oda:subindicator dc:creator dc:title Literal dc:date Literal Literal dc:publisher Literal oda:Dimension oda:Country oda:Year rdfs:subClassOf oda:dataset oda:year oda:country rdf:type oda:<http://open.data.al/oda.owl#> skos:<http://www.w3.org/2004/02/skos/cor e# > event: <http://purl.org/NET/c4dm/event.owl#> sdmx-measure:<http://purl.org/linked- data/sdmx/2009/measure#> dc:<http://purl.org/dc/elements/1.1#> rdf:<http://www.w3.org/1999/02/22-rdf- syntax-ns#> rdfs:<http://www.w3.org/2000/01/rdf- schema#> http://ais.al/ns/oda http://vocab.data.gov/
  29. Publishing Linked Data • Menyra me e thjeshte eshte te

    publikohen skedare RDF – Per te njejten URI mund te ofrohen RDF tek makinat, dhe faqe normale tek njerezit • Ka nje menyre me te cilen mund te fshihen RDFte pas cdo faqe HTML – RDFa standard • Ofrimi i nje API – query Interfaces – SPARQL eshte nje gjuhe pyetesore per data-graphe – e ngjashme me SQL – Lejon te perzgjidhen pjese te nje grafi te madh te dhenash sipas interesit
  30. Publishing Linked Data: SPARQL Endpoints • Bazuar mbi SPARQL endpoints

    eshte e mundur te ndertohen nderfaqe grafike – http://explorer.data.al – http://dbpedia.neofonie.de/browse/
  31. Si te gjejme resource • Sindice Search Engine • CKAN

    – http://ckan.net/ directory of data sets • VoID – vocabulary for describing Data Sets
  32. The Big Picture RDF RDF SPARQL endpoint SPARQL endpoint Application

    Application RDFa pages Indexes and Directories Sincide.com, CKAN,… discover sources consume RDF data make SPARQL queries consume data from RDFa pages discover sources
  33. Katalogje te dhenash • Ku duhet te instalohet nje katalog?

    • Si te katalogojme? • Cfare te katalogojme? • Si te ofrojme access per njerezit dhe per makinat? • Si te organizojme nje komunitet perreth nje katalogu?
  34. Repository: TheDataHub.org • Mirembahet nga Open Knowledge Foundation (OKF) and

    nje komunitet I gjere per open data • I perdorur gjeresisht • 1 Dhjetor 2012: kishte 2418 datasets, 314 LOD • Vecori te portalit: • Tagging, Vleresim, Feedback, Diskutime, Grupe • Si pasurohet!?
  35. Metadata per katalogjet: Reference e shpejte  Cfare?  package

    name, title, url  tag:lod  topic  shortname  format-*  Kush?  author || maintainer  published by producer  provenance metadata  license  Kur?  version  last updated  Perse?  package description  Ku gjendet?  example URI  downloads/dumps  SPARQL endpoint  Sa?  triples  links:* (outlinks)  namespace (inlinks)  vocab mappings
  36. Shembuj katalogjesh • CKAN – ckan.org – Browser features at:

    http://ckan.org/features/ • DATATANK – datatank.com – Minimalist in features, good for a startup project
  37. State of the LOD Cloud Triples by domain Links by

    domain Domain # of datasets Triples % (Out-)Links % Media 25 1,841,852,061 5.82 % 50,440,705 10.01 % Geographic 31 6,145,532,484 19.43 % 35,812,328 7.11 % Government 49 13,315,009,400 42.09 % 19,343,519 3.84 % Publications 87 2,950,720,693 9.33 % 139,925,218 27.76 % Cross-domain 41 4,184,635,715 13.23 % 63,183,065 12.54 % Life sciences 41 3,036,336,004 9.60 % 191,844,090 38.06 % User-generated content 20 134,127,413 0.42 % 3,449,143 0.68 % 295 31,634,213,770 503,998,829 http://www4.wiwiss.fu-berlin.de/lodcloud/state/
  38. State of the LOD Cloud (2) •SPARQL Endpoint: 68.14% •RDF

    Dumps: 39.66% •Provide provenance: 36.63 % •Provide licensing: 17.84% vocabulary use: