Upgrade to Pro — share decks privately, control downloads, hide ads and more …

從開放資料到資料治理

 從開放資料到資料治理

2017 國發會開放資料工作坊

wHisKy CHANG

April 17, 2017
Tweet

More Decks by wHisKy CHANG

Other Decks in Education

Transcript

  1. 2017 OD2DG 問題: • 資料看起來很多,但是 80-90% 根本沒 人用 (少於 100-200

    下載) • 資料很多都是 CSV / XML / JSNO – 但 是有多少是騙人的 (偽裝的三星)
  2. 2017 OD2DG 資料來源:Open data Support (2014). Open Data & Metadata

    Quality. Available from: https://www.slideshare.net/OpenDataSupport/open-data-quality-29248578 . (last access 2016/1/30) 資料品質 :
  3. 2017 OD2DG 資料來源:Open data Support (2014). Open Data & Metadata

    Quality. Available from: https://www.slideshare.net/OpenDataSupport/open-data-quality-29248578 . (last access 2016/1/30) 資料品質 :
  4. 2017 OD2DG 資料品質評鑑 : 1. 資料 metadata 描述 2. 資料下載與取得

    3. 資料編碼與資料結構化 4. 資料內容描述 (data schema) 5. 資料欄位與內容標準 (standard)
  5. 2017 OD2DG 資料品質評鑑 : 1. 資料 metadata 描述 2. 資料下載與取得

    3. 資料編碼與資料結構化 4. 資料內容描述 (data schema) 5. 資料欄位與內容標準 (standard)
  6. 2017 OD2DG 資料品質評鑑 : 1. 資料 metadata 描述 2. 資料下載與取得

    3. 資料編碼與資料結構化 4. 資料內容描述 (data schema) 5. 資料欄位與內容標準 (standard)
  7. 2017 OD2DG • 結構化 • DB – 資料庫 • XML

    / JSON / KML • 半結構化 • CSV / TSV • 非結構化 • Word / 圖片 / 影音
  8. 2017 OD2DG 內容的檢驗 (結構化)資料分類 1. 表格數字 + 文字 Excel /

    Google Sheets 2. 地理空間資料 Google Fusion Table CartoDB
  9. 2017 OD2DG 內容的檢驗 資料清洗 – Data Cleaning 一致性檢查 • 台北市,北市,台北

    • 使用單位 (千元,萬?) • 多餘空白 • 重複資料 無效值與缺失值 • 噪音資料 / Noisy Data • 不完整資料 / incomplete Data