Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
「特別区の統計」ダッシュボード化プロジェクト d-lab 北陸⼤学経済経営学部 ⽥尻ゼミ 天池紘⼦, ⾼⽥泰成, ⾕⼝巧, 中⻄唯来, 野尻裕樹, 本保⾥矩, 松井京介, 松井涼華, ⼭⽥悠⼈ 公益社団法⼈特別区協議会 研究成果報告会, 2021/03/11
Slide 2
Slide 2 text
発表の構成 1. プロジェクトの概要 2. データ提供の問題点 3. 理想のデータ 4. Tableauによる作業 5. まとめ 2
Slide 3
Slide 3 text
1. プロジェクトの概要 3
Slide 4
Slide 4 text
北陸⼤学の紹介 • ⼤学概要 • ⽯川県⾦沢市郊外 • 1975年に創⽴の私⽴⼤学 • 2017年に3学部を改組・新設 • ⾃分達は経済経営学部2期⽣ 薬学部 673 経済経営学部 1,220 国際コミュニケーション学部 399 医療保健学部 254 ※未来創造学部 9 計 2,564 • ⽥尻ゼミの紹介 • 今年度から始まった新しいゼミ • 3年⽣26名 • d-labという組織名で活動中 • データ分析と地域デザインがテーマ • 今年度のプロジェクト • 株式会社ぐるなび連携プロジェクト 「⾦沢の⾷⽂化を後世に残す、アフター コロナにおける飲⾷店事業計画作成」 • 公益財団法⼈あくるめ連携プロジェクト 「コミュニティ財団による地域の新しい 資⾦循環と⼈材育成 • データ分析プロジェクト(9名) 坂本東⽣ 板橋区議がメンター 4
Slide 5
Slide 5 text
データ分析プロジェクト • 坂本区議からのご紹介で「特別区の統計」を活⽤しやすくするこ とに取り組む 5
Slide 6
Slide 6 text
「特別区の統計」 • 8分野85項⽬117表からなる ⼆次統計データベース • 分割されている表もあるので、 実際のExcelファイル数は163 • 昭和56(1981)〜平成18 (2006)はPDFのみ • 平成19(2007)〜令和2 (2020)はExcelファイルも • 今回はこのデータを対象にした 6 分野 項⽬ Excelファイル数 1.⼟地と⼈⼝ 1〜12 17 2.産業 13〜18 13 3.住居 19〜22 5 4.道路・公園 23〜31 9 5.保健衛⽣ 32〜38 17 6.区⺠ 39〜41 5 7.福祉 42〜52 17 8.環境 53〜60 9 9.教育・⽂化 61〜67 23 10.交通・災害 68〜72 5 11.選挙・議会 73〜78 10 12.執⾏機関 79〜80 9 13.財政 81〜85 24 163 ※ 令和元年度
Slide 7
Slide 7 text
今回のプロジェクトの⽬標 • BI(ビジネス・インテリジェンス)ツールであるTableau(タブ ロー)を⽤いて、複雑に分かれているデータを⼀元的に扱えるよ うにする • WEBからアクセスできるようにする • グラフを表⽰する 7
Slide 8
Slide 8 text
Tableauの紹介 • ビジュアル分析プラットフォーム • 有償のBIツール製品 • 1年毎のサブスクリプション契約 • 学⽣は在学中、無償で利⽤でき る︕ 8
Slide 9
Slide 9 text
2. データ提供の問題点 9
Slide 10
Slide 10 text
1. 年度ごとのファイル • すべてのファイルが単年度別に整理 されている • そのため、経年変化を⾒ることがで きない • 経年変化を⾒るためには、データ部 分を下にコピー&ペーストしなけれ ばならない • ファイル数だけ、繰り返し作業となる 10 令和元年度データ 平成30年度データ
Slide 11
Slide 11 text
2. Excelの表記 • Excel表の形式が印刷を ⽬的としたものとなっ ており、データ処理が 困難になっている • 総務省「統計表におけ る機械判読可能なデー タ作成に関する表記⽅ 法について」令和2年 12⽉18⽇ • 15のチェック項⽬ 11 データ形式の留意点 □チェック項⽬1-1 ファイル形式はExcelかCSVとなっているか データ・項⽬の取り扱い □チェック項⽬1-2 1セル1データとなっているか □チェック項⽬1-3 数値データは数値属性とし、⽂字列を含まないこと □チェック項⽬1-4 セルの結合をしていないか □チェック項⽬1-5 スペースや改⾏等で体裁を整えていないか □チェック項⽬1-6 項⽬名等を省略していないか □チェック項⽬1-7 数式を使⽤している場合は、数値データに修正しているか □チェック項⽬1-8 オブジェクトを使⽤していないか □チェック項⽬1-9 データの単位を記載しているか □チェック項⽬1-10 機種依存⽂字を使⽤していないか。 □チェック項⽬1-11 e-Statの時間軸コードの表記、⻄暦表記⼜は和暦に⻄暦の併記がされているか □チェック項⽬1-12 地域コード⼜は地域名称が表記されているか □チェック項⽬1-13 数値データの同⼀列内に特殊記号(秘匿等)が含まれる場合 表の構成の取り扱い □チェック項⽬2-1 データが分断されていないか □チェック項⽬2-2 1シートに複数の表が掲載されていないか
Slide 12
Slide 12 text
2. Excelの表記 • 総務省ルールでは、15 項⽬のうち、13項⽬に はすでに適合 • 「データ単位の記載」 と「⻄暦表記」がない 状態 • しかし、実際に作業を するとまだ問題が… 12 データ形式の留意点 ✓チェック項⽬1-1 ファイル形式はExcelかCSVとなっているか データ・項⽬の取り扱い ✓チェック項⽬1-2 1セル1データとなっているか ✓チェック項⽬1-3 数値データは数値属性とし、⽂字列を含まないこと ✓チェック項⽬1-4 セルの結合をしていないか ✓チェック項⽬1-5 スペースや改⾏等で体裁を整えていないか ✓チェック項⽬1-6 項⽬名等を省略していないか ✓チェック項⽬1-7 数式を使⽤している場合は、数値データに修正しているか ✓チェック項⽬1-8 オブジェクトを使⽤していないか □チェック項⽬1-9 データの単位を記載しているか ✓チェック項⽬1-10 機種依存⽂字を使⽤していないか。 □チェック項⽬1-11 e-Statの時間軸コードの表記、⻄暦表記⼜は和暦に⻄暦の併記がされているか ✓チェック項⽬1-12 地域コード⼜は地域名称が表記されているか ✓チェック項⽬1-13 数値データの同⼀列内に特殊記号(秘匿等)が含まれる場合 表の構成の取り扱い ✓チェック項⽬2-1 データが分断されていないか ✓チェック項⽬2-2 1シートに複数の表が掲載されていないか
Slide 13
Slide 13 text
2. Excelの表記 • Excel表の形式が印刷を⽬的としたものとなっており、データ処 理が困難 • Tableauを含め、多くのデータ分析ツールでは、表の表記はデー タベースのテーブルの表記ルールに従っていることが前提 • 1⾏が1件のデータを表す • 列ごとに決められた意味を持つ • 列には「型」が決められている • 各⾏は、格納されている状態では順序 の概念はない 13 SQLをはじめよう - 初⼼者でもわかる、構⽂とデータ取得の基本 - エンジニアHub|若⼿Webエンジニアのキャリアを考える︕ https://eh-career.com/engineerhub/entry/2019/11/05/103000
Slide 14
Slide 14 text
2. Excelの表記 • テーブルでは1⾏⽬はフィールド名 (変数名)が⼊り、2⾏⽬からデー タが⼊る想定 • 実際のファイルでは、変数名を表 すのに6⾏を使っている • 下部にデータ以外の、出所、注が ⼊っている • 望ましい対応 ① 変数名は1⾏にする ② 単位、出所、注などは別ファイルに 記載する 14
Slide 15
Slide 15 text
2. Excelの表記 • 同⼀年度でないデータが、列に ⼊っている • 望ましい対応 ① 総務省ルールのように、⻄暦の列を 作成する ② 同⼀の変数の過年度データは同列に 配置する 15
Slide 16
Slide 16 text
2. Excelの表記 • 「計」や「構成⽐」のように表 計算で求められるものは、列に 加える必要は無い 16
Slide 17
Slide 17 text
3. 理想のデータ 17
Slide 18
Slide 18 text
データ分析のための理想の形式 • すべてのデータが格納された1つのExcelファイル 18 ユニオン: 列⽅向に同⼀変数の過年度データを繋げていく フィールド名: 1⾏⽬のみに記載 結合(ジョイン): 同じ区の別な変数を横⽅向に 繋げていく 39toukei-001.xls 38toukei-001.xls 39toukei-002.xls
Slide 19
Slide 19 text
4. Tableauによる作業 19
Slide 20
Slide 20 text
データの読み込み • Tableau Prepという前処理ツールを⽤いた • テーブルルールに従ってないので、うまく読み込めない 20
Slide 21
Slide 21 text
データの読み込み • しかし「データインタープリータ」をオンにすることで、適切な 範囲を読み込み、フィールド名をつけてくれる 21
Slide 22
Slide 22 text
過年度データのユニオン • 同⼀フォルダに、各年度の同じ データのファイルをダウンロー ドして保存しておく • 「ワイルドカードユニオン」を 選択し「*touke-001」を⼀致パ ターンに指定することですべて のデータを縦に繋げることがで きる • ファイル名がルールに従ってつい ていたおかげ︕ 22
Slide 23
Slide 23 text
過年度データのユニオン • しかし、元のファイルの変数名 にデータの基準⽇などが⼊って いると、それもフィールド名に 読み込んでしまう • 同じ変数のはずなのに、異なる フィールドとして認識されてし まう 😭 → 結局、⼿作業が必要 23
Slide 24
Slide 24 text
⻄暦列の追加 • 元のデータには⻄暦がない • ファイル名からも何年度のデータ が分からない →ファイル名と⻄暦の対応表を作 成 • Tableu Prepで結合することで対応 24
Slide 25
Slide 25 text
可視化 • 前処理したデータを、Tableau Desktopで読み込んで区別の折れ 線グラフを作成 25
Slide 26
Slide 26 text
WEBに発⾏ • 作成したグラフ(Viz)をTableau OnlineというWEBサイトに発⾏ 26
Slide 27
Slide 27 text
作成したグラフ数 • 今回は、Excelファイルが違う変数の結合(ジョイン)は⾏わなかった • 作業はExcelファイルごとに⾏ったので、ファイル内の変数ごとにグラフ (Viz)を作成した → 作成したグラフ数は1,397に達した 27 分野 項⽬ Excelファイル数 作成Viz数 1.⼟地と⼈⼝ 1〜12 17 177 2.産業 13〜18 13 196 3.住居 19〜22 5 56 4.道路・公園 23〜31 9 84 5.保健衛⽣ 32〜38 17 0 6.区⺠ 39〜41 5 66 7.福祉 42〜52 17 65 8.環境 53〜60 9 60 9.教育・⽂化 61〜67 23 238 10.交通・災害 68〜72 5 59 11.選挙・議会 73〜78 10 126 12.執⾏機関 79〜80 9 0 13.財政 81〜85 24 270 163 1,397
Slide 28
Slide 28 text
5. まとめ 28
Slide 29
Slide 29 text
まとめ 1. 1変数1グラフという構成なので、⼈ ⼝と⼟地を組み合わせるといったク ロス集計ができない • データの前処理で、ファイルの結合を⾏う 2. いまは単純な折れ線グラフだけなの で、地理グラフなどを作成していく 3. 複数のグラフから構成されるダッ シュボードを作成する 4. Tableau Onlineはアカウントを持っ ている⼈だけなので、⼀般公開可能 なTableau Publicのギャラリーを活 ⽤する 29 https://public.tableau.com/profile/.72524515#!/vizhome/2021209_/sheet0