Slide 1

Slide 1 text

「特別区の統計」を⽤いた オープンデータ・ポータルの開発 北陸⼤学卒業研究発表会with特別区協議会 2022年2⽉2⽇ 北陸⼤学経済経営学部マネジメント学科4年 ⽥尻ゼミ 2018m006 天池 紘⼦ 2018m157 中⻄ 唯来 2018m210 松井 涼華

Slide 2

Slide 2 text

発表の構成 1.はじめに 2.オープンデータと統計危機 3.世界の統計データポータルサイト 4.「良い」データセットの定義 5.「特別区の統計」データのダッシュボード化 6.まとめ 2

Slide 3

Slide 3 text

はじめに 3

Slide 4

Slide 4 text

⽬的 4 統計データを使いやすく 良いデータポータルサイトの提案 良いデータセットの定義を提案

Slide 5

Slide 5 text

背景 5 2021年9⽉1⽇にデジタル庁が設⽴されたように今⽇、 データサイエンスが注⽬されている しかし、⽇本経済新聞(2021)9⽉1⽇の記事によると、 会計検査院は政府統計のポータルサイトで検索やデータ抽出機能が使えない統計が 全体の8割であると述べている。 私たちはデータをうまく活⽤できていない現状にある ⽇本経済新聞(2021年)「政府統計、8割がデータ検索できず 縦割りが浮き彫り」,2021年9⽉1⽇, https://www.nikkei.com/news/printarticle/?R_FLG=0&bf=0&ng=DGXZQOUA31AJD0R30C21A8000000

Slide 6

Slide 6 text

オープンデータと統計危機 6

Slide 7

Slide 7 text

オープンデータ 7 オープンデータとは︖︖ 機械判読に適したデータ形式で、⼆次利⽤が可能な利⽤ルールで 公開されたデータ⼈⼿を多くかけずにデータの⼆次利⽤を可能とするもの ⇩ 許可されたルールの範囲内であれば、 誰でも⾃由に複製・加⼯や頒布などができるデータのこと

Slide 8

Slide 8 text

オープンデータ 8 オープンデータの⽬的 ⼈⼝統計や公共施設の場所などをはじめとした様々な公共のデータを ユーザーに有効活⽤してもらい、社会経済全体の発展に寄与すること 世界中で取り組まれている!!

Slide 9

Slide 9 text

統計不正 9 統計不正とは?? データの改ざん、集計⽅法の勝⼿な修正 2018年 厚⽣労働省が所管する毎⽉勤労統計をめぐる問題が発覚 ⇩ ⼀⻫点検 しかし… 2021年12⽉15⽇ 国⼟交通省の統計不正がに朝⽇新聞の報道で発覚 ⽇本経済新聞(2021年)「統計不正とは ⼀⻫点検でも撲滅できず」,2021年12⽉29⽇, https://www.nikkei.com/article/DGXZQOUA287740Y1A221C2000000/

Slide 10

Slide 10 text

⽇本の公的統計の問題点 10 l 景気判断のもととなるGDPや景気関連統計の振れ(ノイズ)が⼤きい l 統計のカバレッジが⼗分ではない、GDPが経済活動を⼗分に捕捉できていない l インフレ率の推計精度が⼗分ではない l ⽇本経済の成⻑⼒(潜在成⻑率・⽣産性)を正確に評価できていない l 統計作成プロセスが、⽇本の社会経済の構造変化に対応していない

Slide 11

Slide 11 text

世界の統計データポータルサイト 11

Slide 12

Slide 12 text

データポータルサイトの紹介 12 世界のデータポータルサイトを6つ紹介 le-Stat l⽇本銀⾏ lJETRO l世界銀⾏ lOECD lOur World in Data

Slide 13

Slide 13 text

e-Stat 13 e-Statは、政府統計のポータルサイト 680の調査データ 1,575,262件のデータセット 17分野 総務省統計局,「e-Stat政府統計の総合窓⼝」https://www.e-stat.go.jp/

Slide 14

Slide 14 text

⽇本銀⾏ 14 国のあらゆる国際収⽀統計の統計を作成 12分野の統計 ⽇本銀⾏, https://www.boj.or.jp/

Slide 15

Slide 15 text

JETRO 15 世界各国の基礎データ等を⽐較 ⽇本の経済・社会の更なる発展 JETRO,https://www.jetro.go.jp/

Slide 16

Slide 16 text

世界銀⾏ 16 「オープンな開発」を推進 約8000の開発指標や1万件以上の調査研究等を無料で公開 統計データ量は4962件 世界銀⾏, https://www.worldbank.org/en/home

Slide 17

Slide 17 text

OECD 17 「世界最⼤のシンクタンク」 統計データ量は8063件 OECD, https://www.oecd.org/

Slide 18

Slide 18 text

Our World in Data 18 データや研究は公共財としてユーザーに無料で提供 コロナウイルスに関するデータ Our World in Data,https://ourworldindata.org/

Slide 19

Slide 19 text

各ポータルサイトの⽐較 19 e-Stat ⽇本銀⾏ 世界銀⾏ OECD Our World in Data JETRO データ数が多い 5 3 5 期間指定ができる 5 5 3 5 5 1 ファイル形式 (csv,xlsx) 3 3 5 5 5 5 グラフ機能がある 5 5 3 5 5 1 合計点 18 13 14 20 15 7 ⽇本のサイトの多くがpdf 海外のサイトでは、ほとんどがcsvやxlsx 様々な⾔語に対応していくことが⼤切

Slide 20

Slide 20 text

「良い」データセットの定義 20

Slide 21

Slide 21 text

総務省の定義 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い 総務省「統計表における機械判 読可能なデータ作成に関する表 記⽅法について」 令和2年12⽉18⽇ 15のチェック項⽬がある 21

Slide 22

Slide 22 text

各ポータルサイトダウンロードデータの⽐較 22 世界の統計データポータルサイトのダウンロードデータを 総務省の統計ルールを使⽤して⽐較

Slide 23

Slide 23 text

e-Stat 23 総務省統計局,「e-Stat政府統計の総合窓⼝」https://www.e-stat.go.jp/

Slide 24

Slide 24 text

e-Stat 24 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔

Slide 25

Slide 25 text

⽇本銀⾏ 25 ⽇本銀⾏, https://www.boj.or.jp/

Slide 26

Slide 26 text

⽇本銀⾏ 26 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔

Slide 27

Slide 27 text

JETRO 27 JETRO,https://www.jetro.go.jp/

Slide 28

Slide 28 text

JETRO 28 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔

Slide 29

Slide 29 text

世界銀⾏ 29 世界銀⾏, https://www.worldbank.org/en/home

Slide 30

Slide 30 text

世界銀⾏ 30 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔

Slide 31

Slide 31 text

OECD 31 OECD, https://www.oecd.org/

Slide 32

Slide 32 text

OECD 32 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔

Slide 33

Slide 33 text

Our World in Data 33 Our World in Data,https://ourworldindata.org/

Slide 34

Slide 34 text

Our World in Data 34 □チェック項目1-1 ファイル形式はExcelかcsvとなっているか □チェック項目1-2 1セル1データとなっているか □チェック項目1-3 数値データは数値属性とし、文字列を含まないこと □チェック項目1-4 セルの結合をしていないか □チェック項目1-5 スペースや改行等で体裁を整えていないか □チェック項目1-6 項目名等を省略していないか □チェック項目1-7 数式を使用している場合は、数値データに修正しているか □チェック項目1-8 オブジェクトを使用していないか □チェック項目1-9 データの単位を記載しているか □チェック項目1-10 機種依存文字を使用していないか。 □チェック項目1-11 e-statの時間軸コードの表記、西暦表記又は和暦に西暦の併記がされているか □チェック項目1-12 地域コード又は地域名称が表記されているか □チェック項目1-13 数値データの同一列内に特殊記号(秘匿等)が含まれる場合 □チェック項目2-1 データが分断されていないか □チェック項目2-2 1シートに複数の表が掲載されていないか データ形式の留意点 表の構成の取り扱い データ・項目の取り扱い ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔ ✔

Slide 35

Slide 35 text

ダウンロードデータ⽐較まとめ 35 6つのダウンロードデータを⽐較してみると どのサイトにおいても総務省のルール全てに該当するものはなかった… 特にチェック項⽬1-9データの単位を記載しているかについて どのサイトも適していると⾔えない!!

Slide 36

Slide 36 text

ダウンロードデータ⽐較まとめ 36 総務省の定義だけでは不⼗分。 私たちd-labがより良い定義を提案!! u標準的なテーブル形式とは︖ u総務省の表記⽅法の改善した⽅が良い点 ud-labが提案する機械判読が容易になる表記⽅法

Slide 37

Slide 37 text

標準的なテーブル形式とは︖ 37 データ分析ツールの表はデータベースのテーブルの表記ルールに 従っていることが前提!!

Slide 38

Slide 38 text

総務省の表記⽅法の改善点 38 チェック項⽬1-3 数値データは数値属性とし、⽂字列を含まないこと 注釈・脚注がある場合は 「別途列を設けて注釈を分離させる」 「表の欄外に記載する」または「注釈を別シートに記載する」の いずれかの⽅法により記載すること ⇩ 注釈を別シートに記載する

Slide 39

Slide 39 text

総務省の表記⽅法の改善点 39

Slide 40

Slide 40 text

総務省の表記⽅法の改善点 40

Slide 41

Slide 41 text

総務省の表記⽅法の改善点 41 チェック項⽬1-9 データの単位の記載はあるか データの単位が含まれる項⽬について別セルにその項⽬の単位を⼊⼒すること ⇩ 単位とフィールドの対応表を作る 単位 売上 円 単価 円 販売数 個 費用 円 人件費 円 スタッフ人数 人 一人当たり人件費 円 賃料 円 利益 円 売上 単価 販売数 費用 人件費 スタッフ数 一人当たり人件費 賃料 利益 プランA 320000 800 400 23200 19200 2 9600 4000 296800 プランB 480000 800 600 34800 28800 3 9600 6000 445200 プランC 640000 800 800 58000 48000 5 9600 10000 582000

Slide 42

Slide 42 text

d-lab版定義 42 l注釈・脚注は別シートに記載 lフィールド名(変数名)は1⾏にする lデータの1⾏⽬はフィールド名(変数名)、2⾏⽬からデータを⼊⼒ l単位とフィールドの対応表を作る lセルによって体裁を整えない l前年データがある場合⻄暦の列を作成し過年度データを同列に配置 l合計・構成⽐は記載しない

Slide 43

Slide 43 text

「特別区の統計」データの ダッシュボード化 43

Slide 44

Slide 44 text

ダッシュボードとは 44 様々な情報をグラフィティカルにまとめ ⼀⽬で理解できるようにするデータ可視化の⽅法 多くのBI(ビジネス・インテリジェンス)ツールでは ダッシュボード機能が備わっている!!

Slide 45

Slide 45 text

Tableauの紹介 45 ビジュアル分析プラットフォーム Tableauの⽬的 分析フローを改善し、ビジュアライゼーショ ンを通じて⼈々がデータをさらに利⽤できる こと

Slide 46

Slide 46 text

「特別区の統計」の紹介 46 公益財団法⼈特別区協議会が提供する 東京区の各⾏政分野における基礎的なデータをとりまとめた「特別区の統計」を活⽤ 公益財団法⼈特別区協議会, 「特別区の統計」 https://www.Tokyo- 23city.or.jp/index.html

Slide 47

Slide 47 text

「特別区の統計」の紹介 47 公益財団法⼈特別区協議会が提供する 東京23区の各⾏政分野における基礎的なデータ をとりまとめた「特別区の統計」を活⽤ 13分野85項⽬117表からなる⼆次統計データベース 昭和56(1981)年〜平成18(2006)年のデータはPDF 平成19(2007)年〜令和3(2021)年はExcelで提供 (令和3年版データは随時更新) 分野 項目 Excelファイル数 1.土地と人口 1~ 12 17 2.産業 13~ 18 13 3.住居 19~ 22 5 4.道路・公園 23~ 31 9 5.保健衛生 32~ 38 19 6.区民 39~ 41 5 7.福祉 42~ 52 17 8.環境 53~ 60 9 9.教育・文化 61~ 67 24 10.交通・災害 68~ 72 5 11.選挙・議会 73~ 78 10 12.執行機関 79~ 80 9 13.財政 81~ 85 24 166 ※令和2年度版

Slide 48

Slide 48 text

Tableauによる作業 48 BIツールTableauを使⽤して「特別区の統計」のダッシュボード化を⾏う 前準備として同⼀フォルダ内に「特別区の統計」の各年度の同じデータファイルを ダウンロードして保存

Slide 49

Slide 49 text

Tableauによる作業 49 ダッシュボード化を取り組む前に… Tableau Prep Builderという前処理ツールを⽤いてデータの読み込み テーブル形式の特徴に従っていないためうまく読み込めない…

Slide 50

Slide 50 text

Tableauによる作業 50 しかし、「データインタープリター」という機能をオンにすると 適切な範囲を読み取りフィールド名をつけることが出来る︕︕

Slide 51

Slide 51 text

Tableauによる作業 51 次に、Tableau Prep Builder内の「ワイルドカードユニオン」という箇所を選択 「*toukei-001」を⼀致パターンとして指定することで前準備として 同⼀フォルダ内に保存したデータを縦につなげることが可能に︕ これはファイル名がルールに 従っていたおかげで可能になった

Slide 52

Slide 52 text

Tableauによる作業 52 「ワイルドカードユニオン」を選択してデータを縦につなげても 元のファイルの変数名にデータの基準⽇などが⼊⼒されていると、 それもフィールド名として読み込まれてしまう… 同じ変数であるのに異なるフィールドとして認識されてしまう… よって⼿作業での修正が必要

Slide 53

Slide 53 text

Tableauによる作業 53 また、「特別区の統計」のデータには⻄暦表記がない。 ファイル名からも何年度のデータを使⽤しているか判断できない よって、ファイル名と⻄暦表記の対応表を作成する必要がある。 これはTableau Prep Builderにおいて結合することで対応できる。

Slide 54

Slide 54 text

Tableauによる作業 54 Tableau Prep Builderで処理したデータをTableau Desktopで読み込む。 区別の折れ線グラフを作成。同じような⼿順で「特別区の統計」以外も活⽤できる

Slide 55

Slide 55 text

Tableauによるダッシュボード化 55 今回ダッシュボード化するために ⼟地と⼈⼝ 特別区の⾯積と⼈⼝、交通・災害 交通事故発⽣件数及び死傷者数 Excelファイルの変数の結合(ジョイン)を⾏った。

Slide 56

Slide 56 text

Tableauによるダッシュボード化 56 ダッシュボード化することで 様々な⾓度から可視化したデータを組み合わせ、 複数のフィルターを絞り込むことで 今まで気づかなかったインサイトが得られやすくなる。

Slide 57

Slide 57 text

まとめ 57

Slide 58

Slide 58 text

まとめ 58 l世界で推進されているオープンデータの⽇本の現状、問題点 l世界のデータポータルサイトの⽐較と総務省の定義との⽐較 l良いデータポータルサイトとデータセットの定義について検討 l「特別区の統計」のダッシュボード化

Slide 59

Slide 59 text

今後の課題 59 作成した定義を活⽤してもらうこと Tableauやその他のBIツールの理解をより深め、 さまざまなグラフの作成に挑戦したい

Slide 60

Slide 60 text

参考⽂献 60

Slide 61

Slide 61 text

参考⽂献 61 l JETRO,https://www.jetro.go.jp/,(2021年11⽉23⽇アクセス). l OECD,https://www.meti.go.jp/policy/trade_policy/oecd/index.html,(2021年11⽉23⽇アクセス). l Our World in Data,https://ourworldindata.org/,(2021年11⽉23⽇アクセス). l The World Bank,https://www.worldbank.org/en/home,(2021年11⽉23⽇アクセス). l 公益財団法⼈特別区協議会,「特別区の統計」, https://www.tokyo23city.or.jp/chosa/tokei/tokubetsuku/index.html,(2021年11⽉23⽇アクセス). l 庄司昌彦責任編集(2014)『オープンデータ特集号』,国際⼤学グローバル・コミュニケーション・センター. l 総務省,2020.12.18,「統計表における機械判読可能なデータ 作成に関する表記⽅法」 ,https://www.soumu.go.jp/main_content/000723626.pdf l 総務省統計局,「e-Stat政府統計の総合窓⼝」,https://www.e-stat.go.jp/,(2021年11⽉23⽇アクセス). l ⾼度情報通信ネットワーク社会推進戦略本部(IT総合戦略本部)(2016)「官⺠データ活⽤推進基本法」, https://www.kantei.go.jp/jp/singi/it2/hourei/detakatsuyo_honbun.htmlhttps://www.e-stat.go.jp/, (2021年11⽉23⽇アクセス).

Slide 62

Slide 62 text

参考⽂献 62 l ⽇本銀⾏,https://www.boj.or.jp/,(2021年11⽉23⽇アクセス). l ⻄村清彦・⼭澤成康・肥後雅博(2020)『統計 危機と改⾰ システム劣化からの復活』,⽇経BP. l ⽇本経済新聞(2021年)「政府統計、8割がデータ検索できず 縦割りが浮き彫り」,2021年9⽉1⽇, https://www.nikkei.com/news/printarticle/?R_FLG=0&bf=0&ng=DGXZQOUA31AJD0R30C21A8000000 l 松島七⾐(2019)『Tableauによる最強・最速のデータ可視化テクニック〜データ加⼯からダッシュボード作成ま で〜』,翔泳社.