Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
特別区協議会「特別区の統計 ダッシュボード化」プロジェクト
Search
d-lab 北陸大学
March 11, 2021
0
120
特別区協議会「特別区の統計 ダッシュボード化」プロジェクト
田尻ゼミ 公益財団法人特別区協議会と研究発表会を開催|TOPICS|北陸大学
https://www.hokuriku-u.ac.jp/sptopics/202103170911.html
d-lab 北陸大学
March 11, 2021
Tweet
Share
More Decks by d-lab 北陸大学
See All by d-lab 北陸大学
おんせん図書館みかんが地域にもたらす効果に関する研究
dlab_hu
0
130
住みよさランキングの分析から分かる加賀市の「消滅可能性都市」脱却策
dlab_hu
0
110
加賀市魅力発見の解決策
dlab_hu
0
39
コロナ禍前後の金沢市における飲食店利用の実態分析
dlab_hu
0
86
「金沢カレー」ヴィーガン化計画
dlab_hu
0
33
加賀百万石ケバブ事業化プロジェクト
dlab_hu
0
130
加賀あくるめ財団連携プロジェクト「人口減少における自治力の低下」
dlab_hu
0
59
ぐるなび連携プロジェクト「新型コロナウイルス流行時における飲食店の分析」
dlab_hu
0
54
ぐるなび連携プロジェクト「加賀百万石ケバブ」
dlab_hu
0
92
Featured
See All Featured
Learning to Love Humans: Emotional Interface Design
aarron
272
40k
It's Worth the Effort
3n
183
27k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
28
7.9k
10 Git Anti Patterns You Should be Aware of
lemiorhan
654
59k
Teambox: Starting and Learning
jrom
132
8.7k
Unsuck your backbone
ammeep
668
57k
How GitHub (no longer) Works
holman
311
140k
Speed Design
sergeychernyshev
24
570
Making the Leap to Tech Lead
cromwellryan
132
8.9k
What's new in Ruby 2.0
geeforr
342
31k
Side Projects
sachag
452
42k
Transcript
「特別区の統計」ダッシュボード化プロジェクト d-lab 北陸⼤学経済経営学部 ⽥尻ゼミ 天池紘⼦, ⾼⽥泰成, ⾕⼝巧, 中⻄唯来, 野尻裕樹, 本保⾥矩,
松井京介, 松井涼華, ⼭⽥悠⼈ 公益社団法⼈特別区協議会 研究成果報告会, 2021/03/11
発表の構成 1. プロジェクトの概要 2. データ提供の問題点 3. 理想のデータ 4. Tableauによる作業 5.
まとめ 2
1. プロジェクトの概要 3
北陸⼤学の紹介 • ⼤学概要 • ⽯川県⾦沢市郊外 • 1975年に創⽴の私⽴⼤学 • 2017年に3学部を改組・新設 •
⾃分達は経済経営学部2期⽣ 薬学部 673 経済経営学部 1,220 国際コミュニケーション学部 399 医療保健学部 254 ※未来創造学部 9 計 2,564 • ⽥尻ゼミの紹介 • 今年度から始まった新しいゼミ • 3年⽣26名 • d-labという組織名で活動中 • データ分析と地域デザインがテーマ • 今年度のプロジェクト • 株式会社ぐるなび連携プロジェクト 「⾦沢の⾷⽂化を後世に残す、アフター コロナにおける飲⾷店事業計画作成」 • 公益財団法⼈あくるめ連携プロジェクト 「コミュニティ財団による地域の新しい 資⾦循環と⼈材育成 • データ分析プロジェクト(9名) 坂本東⽣ 板橋区議がメンター 4
データ分析プロジェクト • 坂本区議からのご紹介で「特別区の統計」を活⽤しやすくするこ とに取り組む 5
「特別区の統計」 • 8分野85項⽬117表からなる ⼆次統計データベース • 分割されている表もあるので、 実際のExcelファイル数は163 • 昭和56(1981)〜平成18 (2006)はPDFのみ
• 平成19(2007)〜令和2 (2020)はExcelファイルも • 今回はこのデータを対象にした 6 分野 項⽬ Excelファイル数 1.⼟地と⼈⼝ 1〜12 17 2.産業 13〜18 13 3.住居 19〜22 5 4.道路・公園 23〜31 9 5.保健衛⽣ 32〜38 17 6.区⺠ 39〜41 5 7.福祉 42〜52 17 8.環境 53〜60 9 9.教育・⽂化 61〜67 23 10.交通・災害 68〜72 5 11.選挙・議会 73〜78 10 12.執⾏機関 79〜80 9 13.財政 81〜85 24 163 ※ 令和元年度
今回のプロジェクトの⽬標 • BI(ビジネス・インテリジェンス)ツールであるTableau(タブ ロー)を⽤いて、複雑に分かれているデータを⼀元的に扱えるよ うにする • WEBからアクセスできるようにする • グラフを表⽰する 7
Tableauの紹介 • ビジュアル分析プラットフォーム • 有償のBIツール製品 • 1年毎のサブスクリプション契約 • 学⽣は在学中、無償で利⽤でき る︕
8
2. データ提供の問題点 9
1. 年度ごとのファイル • すべてのファイルが単年度別に整理 されている • そのため、経年変化を⾒ることがで きない • 経年変化を⾒るためには、データ部
分を下にコピー&ペーストしなけれ ばならない • ファイル数だけ、繰り返し作業となる 10 令和元年度データ 平成30年度データ
2. Excelの表記 • Excel表の形式が印刷を ⽬的としたものとなっ ており、データ処理が 困難になっている • 総務省「統計表におけ る機械判読可能なデー
タ作成に関する表記⽅ 法について」令和2年 12⽉18⽇ • 15のチェック項⽬ 11 データ形式の留意点 □チェック項⽬1-1 ファイル形式はExcelかCSVとなっているか データ・項⽬の取り扱い □チェック項⽬1-2 1セル1データとなっているか □チェック項⽬1-3 数値データは数値属性とし、⽂字列を含まないこと □チェック項⽬1-4 セルの結合をしていないか □チェック項⽬1-5 スペースや改⾏等で体裁を整えていないか □チェック項⽬1-6 項⽬名等を省略していないか □チェック項⽬1-7 数式を使⽤している場合は、数値データに修正しているか □チェック項⽬1-8 オブジェクトを使⽤していないか □チェック項⽬1-9 データの単位を記載しているか □チェック項⽬1-10 機種依存⽂字を使⽤していないか。 □チェック項⽬1-11 e-Statの時間軸コードの表記、⻄暦表記⼜は和暦に⻄暦の併記がされているか □チェック項⽬1-12 地域コード⼜は地域名称が表記されているか □チェック項⽬1-13 数値データの同⼀列内に特殊記号(秘匿等)が含まれる場合 表の構成の取り扱い □チェック項⽬2-1 データが分断されていないか □チェック項⽬2-2 1シートに複数の表が掲載されていないか
2. Excelの表記 • 総務省ルールでは、15 項⽬のうち、13項⽬に はすでに適合 • 「データ単位の記載」 と「⻄暦表記」がない 状態
• しかし、実際に作業を するとまだ問題が… 12 データ形式の留意点 ✓チェック項⽬1-1 ファイル形式はExcelかCSVとなっているか データ・項⽬の取り扱い ✓チェック項⽬1-2 1セル1データとなっているか ✓チェック項⽬1-3 数値データは数値属性とし、⽂字列を含まないこと ✓チェック項⽬1-4 セルの結合をしていないか ✓チェック項⽬1-5 スペースや改⾏等で体裁を整えていないか ✓チェック項⽬1-6 項⽬名等を省略していないか ✓チェック項⽬1-7 数式を使⽤している場合は、数値データに修正しているか ✓チェック項⽬1-8 オブジェクトを使⽤していないか □チェック項⽬1-9 データの単位を記載しているか ✓チェック項⽬1-10 機種依存⽂字を使⽤していないか。 □チェック項⽬1-11 e-Statの時間軸コードの表記、⻄暦表記⼜は和暦に⻄暦の併記がされているか ✓チェック項⽬1-12 地域コード⼜は地域名称が表記されているか ✓チェック項⽬1-13 数値データの同⼀列内に特殊記号(秘匿等)が含まれる場合 表の構成の取り扱い ✓チェック項⽬2-1 データが分断されていないか ✓チェック項⽬2-2 1シートに複数の表が掲載されていないか
2. Excelの表記 • Excel表の形式が印刷を⽬的としたものとなっており、データ処 理が困難 • Tableauを含め、多くのデータ分析ツールでは、表の表記はデー タベースのテーブルの表記ルールに従っていることが前提 • 1⾏が1件のデータを表す
• 列ごとに決められた意味を持つ • 列には「型」が決められている • 各⾏は、格納されている状態では順序 の概念はない 13 SQLをはじめよう - 初⼼者でもわかる、構⽂とデータ取得の基本 - エンジニアHub|若⼿Webエンジニアのキャリアを考える︕ https://eh-career.com/engineerhub/entry/2019/11/05/103000
2. Excelの表記 • テーブルでは1⾏⽬はフィールド名 (変数名)が⼊り、2⾏⽬からデー タが⼊る想定 • 実際のファイルでは、変数名を表 すのに6⾏を使っている •
下部にデータ以外の、出所、注が ⼊っている • 望ましい対応 ① 変数名は1⾏にする ② 単位、出所、注などは別ファイルに 記載する 14
2. Excelの表記 • 同⼀年度でないデータが、列に ⼊っている • 望ましい対応 ① 総務省ルールのように、⻄暦の列を 作成する
② 同⼀の変数の過年度データは同列に 配置する 15
2. Excelの表記 • 「計」や「構成⽐」のように表 計算で求められるものは、列に 加える必要は無い 16
3. 理想のデータ 17
データ分析のための理想の形式 • すべてのデータが格納された1つのExcelファイル 18 ユニオン: 列⽅向に同⼀変数の過年度データを繋げていく フィールド名: 1⾏⽬のみに記載 結合(ジョイン): 同じ区の別な変数を横⽅向に
繋げていく 39toukei-001.xls 38toukei-001.xls 39toukei-002.xls
4. Tableauによる作業 19
データの読み込み • Tableau Prepという前処理ツールを⽤いた • テーブルルールに従ってないので、うまく読み込めない 20
データの読み込み • しかし「データインタープリータ」をオンにすることで、適切な 範囲を読み込み、フィールド名をつけてくれる 21
過年度データのユニオン • 同⼀フォルダに、各年度の同じ データのファイルをダウンロー ドして保存しておく • 「ワイルドカードユニオン」を 選択し「*touke-001」を⼀致パ ターンに指定することですべて のデータを縦に繋げることがで
きる • ファイル名がルールに従ってつい ていたおかげ︕ 22
過年度データのユニオン • しかし、元のファイルの変数名 にデータの基準⽇などが⼊って いると、それもフィールド名に 読み込んでしまう • 同じ変数のはずなのに、異なる フィールドとして認識されてし まう
😭 → 結局、⼿作業が必要 23
⻄暦列の追加 • 元のデータには⻄暦がない • ファイル名からも何年度のデータ が分からない →ファイル名と⻄暦の対応表を作 成 • Tableu
Prepで結合することで対応 24
可視化 • 前処理したデータを、Tableau Desktopで読み込んで区別の折れ 線グラフを作成 25
WEBに発⾏ • 作成したグラフ(Viz)をTableau OnlineというWEBサイトに発⾏ 26
作成したグラフ数 • 今回は、Excelファイルが違う変数の結合(ジョイン)は⾏わなかった • 作業はExcelファイルごとに⾏ったので、ファイル内の変数ごとにグラフ (Viz)を作成した → 作成したグラフ数は1,397に達した 27 分野
項⽬ Excelファイル数 作成Viz数 1.⼟地と⼈⼝ 1〜12 17 177 2.産業 13〜18 13 196 3.住居 19〜22 5 56 4.道路・公園 23〜31 9 84 5.保健衛⽣ 32〜38 17 0 6.区⺠ 39〜41 5 66 7.福祉 42〜52 17 65 8.環境 53〜60 9 60 9.教育・⽂化 61〜67 23 238 10.交通・災害 68〜72 5 59 11.選挙・議会 73〜78 10 126 12.執⾏機関 79〜80 9 0 13.財政 81〜85 24 270 163 1,397
5. まとめ 28
まとめ 1. 1変数1グラフという構成なので、⼈ ⼝と⼟地を組み合わせるといったク ロス集計ができない • データの前処理で、ファイルの結合を⾏う 2. いまは単純な折れ線グラフだけなの で、地理グラフなどを作成していく
3. 複数のグラフから構成されるダッ シュボードを作成する 4. Tableau Onlineはアカウントを持っ ている⼈だけなので、⼀般公開可能 なTableau Publicのギャラリーを活 ⽤する 29 https://public.tableau.com/profile/.72524515#!/vizhome/2021209_/sheet0