Upgrade to Pro — share decks privately, control downloads, hide ads and more …

「特別区の統計」を用いたオープンデータ・ポータルの開発

 「特別区の統計」を用いたオープンデータ・ポータルの開発

2021年度卒業研究

d-lab 北陸大学

February 02, 2022
Tweet

More Decks by d-lab 北陸大学

Other Decks in Education

Transcript

  1. 統計不正 9 統計不正とは?? データの改ざん、集計⽅法の勝⼿な修正 2018年 厚⽣労働省が所管する毎⽉勤労統計をめぐる問題が発覚 ⇩ ⼀⻫点検 しかし… 2021年12⽉15⽇

    国⼟交通省の統計不正がに朝⽇新聞の報道で発覚 ⽇本経済新聞(2021年)「統計不正とは ⼀⻫点検でも撲滅できず」,2021年12⽉29⽇, https://www.nikkei.com/article/DGXZQOUA287740Y1A221C2000000/
  2. 各ポータルサイトの⽐較 19 e-Stat ⽇本銀⾏ 世界銀⾏ OECD Our World in Data

    JETRO データ数が多い 5 3 5 期間指定ができる 5 5 3 5 5 1 ファイル形式 (csv,xlsx) 3 3 5 5 5 5 グラフ機能がある 5 5 3 5 5 1 合計点 18 13 14 20 15 7 ⽇本のサイトの多くがpdf 海外のサイトでは、ほとんどがcsvやxlsx 様々な⾔語に対応していくことが⼤切
  3. 総務省の定義 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか □チェック項目1-5

    スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い 総務省「統計表における機械判 読可能なデータ作成に関する表 記⽅法について」 令和2年12⽉18⽇ 15のチェック項⽬がある 21
  4. e-Stat 24 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか

    □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔
  5. ⽇本銀⾏ 26 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか

    □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔
  6. JETRO 28 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか

    □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔
  7. 世界銀⾏ 30 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか

    □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔
  8. OECD 32 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか

    □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔
  9. Our World in Data 34 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3

    数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔
  10. 総務省の表記⽅法の改善点 41 チェック項⽬1-9 データの単位の記載はあるか データの単位が含まれる項⽬について別セルにその項⽬の単位を⼊⼒すること ⇩ 単位とフィールドの対応表を作る 単位 売上 円

    単価 円 販売数 個 費用 円 人件費 円 スタッフ人数 人 一人当たり人件費 円 賃料 円 利益 円 売上 単価 販売数 費用 人件費 スタッフ数 一人当たり人件費 賃料 利益 プランA 320000 800 400 23200 19200 2 9600 4000 296800 プランB 480000 800 600 34800 28800 3 9600 6000 445200 プランC 640000 800 800 58000 48000 5 9600 10000 582000
  11. 「特別区の統計」の紹介 47 公益財団法⼈特別区協議会が提供する 東京23区の各⾏政分野における基礎的なデータ をとりまとめた「特別区の統計」を活⽤ 13分野85項⽬117表からなる⼆次統計データベース 昭和56(1981)年〜平成18(2006)年のデータはPDF 平成19(2007)年〜令和3(2021)年はExcelで提供 (令和3年版データは随時更新) 分野

    項目 Excelファイル数 1.土地と人口 1~ 12 17 2.産業 13~ 18 13 3.住居 19~ 22 5 4.道路・公園 23~ 31 9 5.保健衛生 32~ 38 19 6.区民 39~ 41 5 7.福祉 42~ 52 17 8.環境 53~ 60 9 9.教育・文化 61~ 67 24 10.交通・災害 68~ 72 5 11.選挙・議会 73~ 78 10 12.執行機関 79~ 80 9 13.財政 81~ 85 24 166 ※令和2年度版
  12. 参考⽂献 61 l JETRO,https://www.jetro.go.jp/,(2021年11⽉23⽇アクセス). l OECD,https://www.meti.go.jp/policy/trade_policy/oecd/index.html,(2021年11⽉23⽇アクセス). l Our World in

    Data,https://ourworldindata.org/,(2021年11⽉23⽇アクセス). l The World Bank,https://www.worldbank.org/en/home,(2021年11⽉23⽇アクセス). l 公益財団法⼈特別区協議会,「特別区の統計」, https://www.tokyo23city.or.jp/chosa/tokei/tokubetsuku/index.html,(2021年11⽉23⽇アクセス). l 庄司昌彦責任編集(2014)『オープンデータ特集号』,国際⼤学グローバル・コミュニケーション・センター. l 総務省,2020.12.18,「統計表における機械判読可能なデータ 作成に関する表記⽅法」 ,https://www.soumu.go.jp/main_content/000723626.pdf l 総務省統計局,「e-Stat政府統計の総合窓⼝」,https://www.e-stat.go.jp/,(2021年11⽉23⽇アクセス). l ⾼度情報通信ネットワーク社会推進戦略本部(IT総合戦略本部)(2016)「官⺠データ活⽤推進基本法」, https://www.kantei.go.jp/jp/singi/it2/hourei/detakatsuyo_honbun.htmlhttps://www.e-stat.go.jp/, (2021年11⽉23⽇アクセス).
  13. 参考⽂献 62 l ⽇本銀⾏,https://www.boj.or.jp/,(2021年11⽉23⽇アクセス). l ⻄村清彦・⼭澤成康・肥後雅博(2020)『統計 危機と改⾰ システム劣化からの復活』,⽇経BP. l ⽇本経済新聞(2021年)「政府統計、8割がデータ検索できず

    縦割りが浮き彫り」,2021年9⽉1⽇, https://www.nikkei.com/news/printarticle/?R_FLG=0&bf=0&ng=DGXZQOUA31AJD0R30C21A8000000 l 松島七⾐(2019)『Tableauによる最強・最速のデータ可視化テクニック〜データ加⼯からダッシュボード作成ま で〜』,翔泳社.