Slide 1

Slide 1 text

「特別区の統計」ダッシュボード化プロジェクト d-lab 北陸⼤学経済経営学部 ⽥尻ゼミ 天池紘⼦, ⾼⽥泰成, ⾕⼝巧, 中⻄唯来, 野尻裕樹, 本保⾥矩, 松井京介, 松井涼華, ⼭⽥悠⼈ 公益社団法⼈特別区協議会 研究成果報告会, 2021/03/11

Slide 2

Slide 2 text

発表の構成 1. プロジェクトの概要 2. データ提供の問題点 3. 理想のデータ 4. Tableauによる作業 5. まとめ 2

Slide 3

Slide 3 text

1. プロジェクトの概要 3

Slide 4

Slide 4 text

北陸⼤学の紹介 • ⼤学概要 • ⽯川県⾦沢市郊外 • 1975年に創⽴の私⽴⼤学 • 2017年に3学部を改組・新設 • ⾃分達は経済経営学部2期⽣ 薬学部 673 経済経営学部 1,220 国際コミュニケーション学部 399 医療保健学部 254 ※未来創造学部 9 計 2,564 • ⽥尻ゼミの紹介 • 今年度から始まった新しいゼミ • 3年⽣26名 • d-labという組織名で活動中 • データ分析と地域デザインがテーマ • 今年度のプロジェクト • 株式会社ぐるなび連携プロジェクト 「⾦沢の⾷⽂化を後世に残す、アフター コロナにおける飲⾷店事業計画作成」 • 公益財団法⼈あくるめ連携プロジェクト 「コミュニティ財団による地域の新しい 資⾦循環と⼈材育成 • データ分析プロジェクト(9名) 坂本東⽣ 板橋区議がメンター 4

Slide 5

Slide 5 text

データ分析プロジェクト • 坂本区議からのご紹介で「特別区の統計」を活⽤しやすくするこ とに取り組む 5

Slide 6

Slide 6 text

「特別区の統計」 • 8分野85項⽬117表からなる ⼆次統計データベース • 分割されている表もあるので、 実際のExcelファイル数は163 • 昭和56(1981)〜平成18 (2006)はPDFのみ • 平成19(2007)〜令和2 (2020)はExcelファイルも • 今回はこのデータを対象にした 6 分野 項⽬ Excelファイル数 1.⼟地と⼈⼝ 1〜12 17 2.産業 13〜18 13 3.住居 19〜22 5 4.道路・公園 23〜31 9 5.保健衛⽣ 32〜38 17 6.区⺠ 39〜41 5 7.福祉 42〜52 17 8.環境 53〜60 9 9.教育・⽂化 61〜67 23 10.交通・災害 68〜72 5 11.選挙・議会 73〜78 10 12.執⾏機関 79〜80 9 13.財政 81〜85 24 163 ※ 令和元年度

Slide 7

Slide 7 text

今回のプロジェクトの⽬標 • BI(ビジネス・インテリジェンス)ツールであるTableau(タブ ロー)を⽤いて、複雑に分かれているデータを⼀元的に扱えるよ うにする • WEBからアクセスできるようにする • グラフを表⽰する 7

Slide 8

Slide 8 text

Tableauの紹介 • ビジュアル分析プラットフォーム • 有償のBIツール製品 • 1年毎のサブスクリプション契約 • 学⽣は在学中、無償で利⽤でき る︕ 8

Slide 9

Slide 9 text

2. データ提供の問題点 9

Slide 10

Slide 10 text

1. 年度ごとのファイル • すべてのファイルが単年度別に整理 されている • そのため、経年変化を⾒ることがで きない • 経年変化を⾒るためには、データ部 分を下にコピー&ペーストしなけれ ばならない • ファイル数だけ、繰り返し作業となる 10 令和元年度データ 平成30年度データ

Slide 11

Slide 11 text

2. Excelの表記 • Excel表の形式が印刷を ⽬的としたものとなっ ており、データ処理が 困難になっている • 総務省「統計表におけ る機械判読可能なデー タ作成に関する表記⽅ 法について」令和2年 12⽉18⽇ • 15のチェック項⽬ 11 データ形式の留意点 □チェック項⽬1-1 ファイル形式はExcelかCSVとなっているか データ・項⽬の取り扱い □チェック項⽬1-2 1セル1データとなっているか □チェック項⽬1-3 数値データは数値属性とし、⽂字列を含まないこと □チェック項⽬1-4 セルの結合をしていないか □チェック項⽬1-5 スペースや改⾏等で体裁を整えていないか □チェック項⽬1-6 項⽬名等を省略していないか □チェック項⽬1-7 数式を使⽤している場合は、数値データに修正しているか □チェック項⽬1-8 オブジェクトを使⽤していないか □チェック項⽬1-9 データの単位を記載しているか □チェック項⽬1-10 機種依存⽂字を使⽤していないか。 □チェック項⽬1-11 e-Statの時間軸コードの表記、⻄暦表記⼜は和暦に⻄暦の併記がされているか □チェック項⽬1-12 地域コード⼜は地域名称が表記されているか □チェック項⽬1-13 数値データの同⼀列内に特殊記号(秘匿等)が含まれる場合 表の構成の取り扱い □チェック項⽬2-1 データが分断されていないか □チェック項⽬2-2 1シートに複数の表が掲載されていないか

Slide 12

Slide 12 text

2. Excelの表記 • 総務省ルールでは、15 項⽬のうち、13項⽬に はすでに適合 • 「データ単位の記載」 と「⻄暦表記」がない 状態 • しかし、実際に作業を するとまだ問題が… 12 データ形式の留意点 ✓チェック項⽬1-1 ファイル形式はExcelかCSVとなっているか データ・項⽬の取り扱い ✓チェック項⽬1-2 1セル1データとなっているか ✓チェック項⽬1-3 数値データは数値属性とし、⽂字列を含まないこと ✓チェック項⽬1-4 セルの結合をしていないか ✓チェック項⽬1-5 スペースや改⾏等で体裁を整えていないか ✓チェック項⽬1-6 項⽬名等を省略していないか ✓チェック項⽬1-7 数式を使⽤している場合は、数値データに修正しているか ✓チェック項⽬1-8 オブジェクトを使⽤していないか □チェック項⽬1-9 データの単位を記載しているか ✓チェック項⽬1-10 機種依存⽂字を使⽤していないか。 □チェック項⽬1-11 e-Statの時間軸コードの表記、⻄暦表記⼜は和暦に⻄暦の併記がされているか ✓チェック項⽬1-12 地域コード⼜は地域名称が表記されているか ✓チェック項⽬1-13 数値データの同⼀列内に特殊記号(秘匿等)が含まれる場合 表の構成の取り扱い ✓チェック項⽬2-1 データが分断されていないか ✓チェック項⽬2-2 1シートに複数の表が掲載されていないか

Slide 13

Slide 13 text

2. Excelの表記 • Excel表の形式が印刷を⽬的としたものとなっており、データ処 理が困難 • Tableauを含め、多くのデータ分析ツールでは、表の表記はデー タベースのテーブルの表記ルールに従っていることが前提 • 1⾏が1件のデータを表す • 列ごとに決められた意味を持つ • 列には「型」が決められている • 各⾏は、格納されている状態では順序 の概念はない 13 SQLをはじめよう - 初⼼者でもわかる、構⽂とデータ取得の基本 - エンジニアHub|若⼿Webエンジニアのキャリアを考える︕ https://eh-career.com/engineerhub/entry/2019/11/05/103000

Slide 14

Slide 14 text

2. Excelの表記 • テーブルでは1⾏⽬はフィールド名 (変数名)が⼊り、2⾏⽬からデー タが⼊る想定 • 実際のファイルでは、変数名を表 すのに6⾏を使っている • 下部にデータ以外の、出所、注が ⼊っている • 望ましい対応 ① 変数名は1⾏にする ② 単位、出所、注などは別ファイルに 記載する 14

Slide 15

Slide 15 text

2. Excelの表記 • 同⼀年度でないデータが、列に ⼊っている • 望ましい対応 ① 総務省ルールのように、⻄暦の列を 作成する ② 同⼀の変数の過年度データは同列に 配置する 15

Slide 16

Slide 16 text

2. Excelの表記 • 「計」や「構成⽐」のように表 計算で求められるものは、列に 加える必要は無い 16

Slide 17

Slide 17 text

3. 理想のデータ 17

Slide 18

Slide 18 text

データ分析のための理想の形式 • すべてのデータが格納された1つのExcelファイル 18 ユニオン: 列⽅向に同⼀変数の過年度データを繋げていく フィールド名: 1⾏⽬のみに記載 結合(ジョイン): 同じ区の別な変数を横⽅向に 繋げていく 39toukei-001.xls 38toukei-001.xls 39toukei-002.xls

Slide 19

Slide 19 text

4. Tableauによる作業 19

Slide 20

Slide 20 text

データの読み込み • Tableau Prepという前処理ツールを⽤いた • テーブルルールに従ってないので、うまく読み込めない 20

Slide 21

Slide 21 text

データの読み込み • しかし「データインタープリータ」をオンにすることで、適切な 範囲を読み込み、フィールド名をつけてくれる 21

Slide 22

Slide 22 text

過年度データのユニオン • 同⼀フォルダに、各年度の同じ データのファイルをダウンロー ドして保存しておく • 「ワイルドカードユニオン」を 選択し「*touke-001」を⼀致パ ターンに指定することですべて のデータを縦に繋げることがで きる • ファイル名がルールに従ってつい ていたおかげ︕ 22

Slide 23

Slide 23 text

過年度データのユニオン • しかし、元のファイルの変数名 にデータの基準⽇などが⼊って いると、それもフィールド名に 読み込んでしまう • 同じ変数のはずなのに、異なる フィールドとして認識されてし まう 😭 → 結局、⼿作業が必要 23

Slide 24

Slide 24 text

⻄暦列の追加 • 元のデータには⻄暦がない • ファイル名からも何年度のデータ が分からない →ファイル名と⻄暦の対応表を作 成 • Tableu Prepで結合することで対応 24

Slide 25

Slide 25 text

可視化 • 前処理したデータを、Tableau Desktopで読み込んで区別の折れ 線グラフを作成 25

Slide 26

Slide 26 text

WEBに発⾏ • 作成したグラフ(Viz)をTableau OnlineというWEBサイトに発⾏ 26

Slide 27

Slide 27 text

作成したグラフ数 • 今回は、Excelファイルが違う変数の結合(ジョイン)は⾏わなかった • 作業はExcelファイルごとに⾏ったので、ファイル内の変数ごとにグラフ (Viz)を作成した → 作成したグラフ数は1,397に達した 27 分野 項⽬ Excelファイル数 作成Viz数 1.⼟地と⼈⼝ 1〜12 17 177 2.産業 13〜18 13 196 3.住居 19〜22 5 56 4.道路・公園 23〜31 9 84 5.保健衛⽣ 32〜38 17 0 6.区⺠ 39〜41 5 66 7.福祉 42〜52 17 65 8.環境 53〜60 9 60 9.教育・⽂化 61〜67 23 238 10.交通・災害 68〜72 5 59 11.選挙・議会 73〜78 10 126 12.執⾏機関 79〜80 9 0 13.財政 81〜85 24 270 163 1,397

Slide 28

Slide 28 text

5. まとめ 28

Slide 29

Slide 29 text

まとめ 1. 1変数1グラフという構成なので、⼈ ⼝と⼟地を組み合わせるといったク ロス集計ができない • データの前処理で、ファイルの結合を⾏う 2. いまは単純な折れ線グラフだけなの で、地理グラフなどを作成していく 3. 複数のグラフから構成されるダッ シュボードを作成する 4. Tableau Onlineはアカウントを持っ ている⼈だけなので、⼀般公開可能 なTableau Publicのギャラリーを活 ⽤する 29 https://public.tableau.com/profile/.72524515#!/vizhome/2021209_/sheet0