$30 off During Our Annual Pro Sale. View Details »

Valsts pārvaldes atvērto datu semantiskās integrācijas procesi

Valsts pārvaldes atvērto datu semantiskās integrācijas procesi

Bakalaura darba aizstāvēšanas prezentācija

Kārlis Lauva

January 23, 2014
Tweet

More Decks by Kārlis Lauva

Other Decks in Education

Transcript

  1. VALSTS PĀRVALDES ATVĒRTO DATU SEMANTISKĀS
    INTEGRĀCIJAS PROCESI
    Bakalaura darbs
    Kārlis Lauva
    23.01.2014.

    View Slide

  2. Darba mērķi
    ● Situācijas apskats Latvijā un ES
    ● Semantiskās integrācijas procesu definēšana
    ● Saeimas datu semantiskās integrācijas plāna izveide

    View Slide

  3. Atvērtie dati
    ● Brīvi pieejami tīmeklī
    ● Licencēti ar atvērtu licenci
    ● Nav ierobežota to atkalizmantošana
    ● Vēlama atvērtu formātu izmantošana

    View Slide

  4. Saistītie atvērtie dati
    ● Atvērto datu publicēšanas veids
    ● Unikālas tīmekļa adreses kā identifikatori
    ● Izmanto RDF datu modeli
    ● Sasaistīti ar citām atvērto datu kopām

    View Slide

  5. Atvērto datu situācija Latvijā
    ● Viena no nozares prioritātēm
    ● Tiesiskais regulējums tiek izstrādāts
    ● Trūkst labu atvērto datu izmantošanas piemēru
    ● Galvenā aktivitāte interesentu grupu līmenī

    View Slide

  6. Situācija Eiropas Savienībā
    ● Labi piemēri Apvienotajā Karalistē un Francijā, no kā
    mācīties
    ● Izstrādāta direktīva atvērto datu izmantošanai

    View Slide

  7. Piecu līmeņu atvērtie dati
    attēls: http://5sardata.info

    View Slide

  8. Semantiskā integrācija
    Atvērto datu transformācija, lai tie būtu pieejami
    tīmeklī kā saistītie atvērtie dati

    View Slide

  9. Semantiskās integrācijas procesi
    ● Tvēruma un objektu definēšana
    ● Datu ieguve
    ● Datu attīrīšana
    ● Datu bagātināšana
    ● Datu publicēšana
    ● Datu avota uzturēšana

    View Slide

  10. Objektu un tvēruma definēšana
    ● Objektu, to īpašību un attiecību definēšana
    ● Identifikatoru izvēle

    View Slide

  11. Sākotnējo datu ieguve
    ● Datu lejupielāde no avota
    ● Izgūšana (“scraping”) no lejupielādētiem
    dokumentiem
    ● Pārveidošana atvērtos datu apmaiņas formātos

    View Slide

  12. Datu attīrīšana
    ● Vienota kodējuma izmantošana
    ● Ārpus tvēruma esošo objektu izmešana

    View Slide

  13. Datu bagātināšana
    ● Sasaiste ar citām saistīto datu kopām
    ● Ārējo attiecību aprakstīšana

    View Slide

  14. Saistīto datu publicēšana tīmeklī
    ● Datu glabātuves izveide vai izvēle
    ● Datu glabātuves formāta izvēle
    ● Tīmekļa servera izveide pieprasījumu apstrādei
    ● Serializēto RDF formātu nodrošināšana

    View Slide

  15. Saistīto datu avota uzturēšana
    ● Datu ajtaunošana
    ● Iepriekšējo soļu atkārtošana
    ● Datu shēmas atjaunošana

    View Slide

  16. Saeimas datu semantiskā integrācija
    ● Dati pieejami kā JavaScript funkciju izsaukumi
    ● Izmantotas balsojumu, sēžu un deputātu kopas
    ● Jau pieejami ārējie identifikatori

    View Slide

  17. attēls: saeima.lv

    View Slide

  18. attēls: saeima.lv

    View Slide

  19. Semantiskās integrācijas plāns
    ● Valodā Python izveidots rīku kopums
    ● Semantiski integrēts ar DBPedia.org
    ● Datu bagātināšana nav automātiski iespējama
    ● Esošo datu atjaunošana nav jāveic, jo esošie dati
    nemainās
    ● Plāns Saeimas datu avota implementēšanai

    View Slide

  20. Rezultāti un secinājumi
    ● Valstiskā līmenī ļoti aktuāls temats
    ● Aktualitāte nākotnē tikai pieaugs
    ● Uz šādu rīku bāzes var būvēt plašākam interesentu
    lokam izmantojamus rīkus
    ● Saeimas saistīto datu avota (un datu izguves rīku)
    publicēšana atvērtā pirmkoda veidā -
    http://ej.uz/govscrape

    View Slide

  21. PALDIES PAR UZMANĪBU!
    25.01.2013.

    View Slide