Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
特別区協議会「特別区の統計 ダッシュボード化」プロジェクト
Search
d-lab 北陸大学
March 11, 2021
0
120
特別区協議会「特別区の統計 ダッシュボード化」プロジェクト
田尻ゼミ 公益財団法人特別区協議会と研究発表会を開催|TOPICS|北陸大学
https://www.hokuriku-u.ac.jp/sptopics/202103170911.html
d-lab 北陸大学
March 11, 2021
Tweet
Share
More Decks by d-lab 北陸大学
See All by d-lab 北陸大学
おんせん図書館みかんが地域にもたらす効果に関する研究
dlab_hu
0
130
住みよさランキングの分析から分かる加賀市の「消滅可能性都市」脱却策
dlab_hu
0
130
加賀市魅力発見の解決策
dlab_hu
0
40
コロナ禍前後の金沢市における飲食店利用の実態分析
dlab_hu
0
110
「金沢カレー」ヴィーガン化計画
dlab_hu
0
36
加賀百万石ケバブ事業化プロジェクト
dlab_hu
0
170
加賀あくるめ財団連携プロジェクト「人口減少における自治力の低下」
dlab_hu
0
62
ぐるなび連携プロジェクト「新型コロナウイルス流行時における飲食店の分析」
dlab_hu
0
58
ぐるなび連携プロジェクト「加賀百万石ケバブ」
dlab_hu
0
100
Featured
See All Featured
For a Future-Friendly Web
brad_frost
176
9.5k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
540
A Tale of Four Properties
chriscoyier
158
23k
How GitHub (no longer) Works
holman
313
140k
GraphQLとの向き合い方2022年版
quramy
44
13k
Making the Leap to Tech Lead
cromwellryan
133
9.1k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
114
50k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.3k
The Cult of Friendly URLs
andyhume
78
6.2k
Fireside Chat
paigeccino
34
3.2k
Become a Pro
speakerdeck
PRO
26
5.1k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
20
2.4k
Transcript
「特別区の統計」ダッシュボード化プロジェクト d-lab 北陸⼤学経済経営学部 ⽥尻ゼミ 天池紘⼦, ⾼⽥泰成, ⾕⼝巧, 中⻄唯来, 野尻裕樹, 本保⾥矩,
松井京介, 松井涼華, ⼭⽥悠⼈ 公益社団法⼈特別区協議会 研究成果報告会, 2021/03/11
発表の構成 1. プロジェクトの概要 2. データ提供の問題点 3. 理想のデータ 4. Tableauによる作業 5.
まとめ 2
1. プロジェクトの概要 3
北陸⼤学の紹介 • ⼤学概要 • ⽯川県⾦沢市郊外 • 1975年に創⽴の私⽴⼤学 • 2017年に3学部を改組・新設 •
⾃分達は経済経営学部2期⽣ 薬学部 673 経済経営学部 1,220 国際コミュニケーション学部 399 医療保健学部 254 ※未来創造学部 9 計 2,564 • ⽥尻ゼミの紹介 • 今年度から始まった新しいゼミ • 3年⽣26名 • d-labという組織名で活動中 • データ分析と地域デザインがテーマ • 今年度のプロジェクト • 株式会社ぐるなび連携プロジェクト 「⾦沢の⾷⽂化を後世に残す、アフター コロナにおける飲⾷店事業計画作成」 • 公益財団法⼈あくるめ連携プロジェクト 「コミュニティ財団による地域の新しい 資⾦循環と⼈材育成 • データ分析プロジェクト(9名) 坂本東⽣ 板橋区議がメンター 4
データ分析プロジェクト • 坂本区議からのご紹介で「特別区の統計」を活⽤しやすくするこ とに取り組む 5
「特別区の統計」 • 8分野85項⽬117表からなる ⼆次統計データベース • 分割されている表もあるので、 実際のExcelファイル数は163 • 昭和56(1981)〜平成18 (2006)はPDFのみ
• 平成19(2007)〜令和2 (2020)はExcelファイルも • 今回はこのデータを対象にした 6 分野 項⽬ Excelファイル数 1.⼟地と⼈⼝ 1〜12 17 2.産業 13〜18 13 3.住居 19〜22 5 4.道路・公園 23〜31 9 5.保健衛⽣ 32〜38 17 6.区⺠ 39〜41 5 7.福祉 42〜52 17 8.環境 53〜60 9 9.教育・⽂化 61〜67 23 10.交通・災害 68〜72 5 11.選挙・議会 73〜78 10 12.執⾏機関 79〜80 9 13.財政 81〜85 24 163 ※ 令和元年度
今回のプロジェクトの⽬標 • BI(ビジネス・インテリジェンス)ツールであるTableau(タブ ロー)を⽤いて、複雑に分かれているデータを⼀元的に扱えるよ うにする • WEBからアクセスできるようにする • グラフを表⽰する 7
Tableauの紹介 • ビジュアル分析プラットフォーム • 有償のBIツール製品 • 1年毎のサブスクリプション契約 • 学⽣は在学中、無償で利⽤でき る︕
8
2. データ提供の問題点 9
1. 年度ごとのファイル • すべてのファイルが単年度別に整理 されている • そのため、経年変化を⾒ることがで きない • 経年変化を⾒るためには、データ部
分を下にコピー&ペーストしなけれ ばならない • ファイル数だけ、繰り返し作業となる 10 令和元年度データ 平成30年度データ
2. Excelの表記 • Excel表の形式が印刷を ⽬的としたものとなっ ており、データ処理が 困難になっている • 総務省「統計表におけ る機械判読可能なデー
タ作成に関する表記⽅ 法について」令和2年 12⽉18⽇ • 15のチェック項⽬ 11 データ形式の留意点 □チェック項⽬1-1 ファイル形式はExcelかCSVとなっているか データ・項⽬の取り扱い □チェック項⽬1-2 1セル1データとなっているか □チェック項⽬1-3 数値データは数値属性とし、⽂字列を含まないこと □チェック項⽬1-4 セルの結合をしていないか □チェック項⽬1-5 スペースや改⾏等で体裁を整えていないか □チェック項⽬1-6 項⽬名等を省略していないか □チェック項⽬1-7 数式を使⽤している場合は、数値データに修正しているか □チェック項⽬1-8 オブジェクトを使⽤していないか □チェック項⽬1-9 データの単位を記載しているか □チェック項⽬1-10 機種依存⽂字を使⽤していないか。 □チェック項⽬1-11 e-Statの時間軸コードの表記、⻄暦表記⼜は和暦に⻄暦の併記がされているか □チェック項⽬1-12 地域コード⼜は地域名称が表記されているか □チェック項⽬1-13 数値データの同⼀列内に特殊記号(秘匿等)が含まれる場合 表の構成の取り扱い □チェック項⽬2-1 データが分断されていないか □チェック項⽬2-2 1シートに複数の表が掲載されていないか
2. Excelの表記 • 総務省ルールでは、15 項⽬のうち、13項⽬に はすでに適合 • 「データ単位の記載」 と「⻄暦表記」がない 状態
• しかし、実際に作業を するとまだ問題が… 12 データ形式の留意点 ✓チェック項⽬1-1 ファイル形式はExcelかCSVとなっているか データ・項⽬の取り扱い ✓チェック項⽬1-2 1セル1データとなっているか ✓チェック項⽬1-3 数値データは数値属性とし、⽂字列を含まないこと ✓チェック項⽬1-4 セルの結合をしていないか ✓チェック項⽬1-5 スペースや改⾏等で体裁を整えていないか ✓チェック項⽬1-6 項⽬名等を省略していないか ✓チェック項⽬1-7 数式を使⽤している場合は、数値データに修正しているか ✓チェック項⽬1-8 オブジェクトを使⽤していないか □チェック項⽬1-9 データの単位を記載しているか ✓チェック項⽬1-10 機種依存⽂字を使⽤していないか。 □チェック項⽬1-11 e-Statの時間軸コードの表記、⻄暦表記⼜は和暦に⻄暦の併記がされているか ✓チェック項⽬1-12 地域コード⼜は地域名称が表記されているか ✓チェック項⽬1-13 数値データの同⼀列内に特殊記号(秘匿等)が含まれる場合 表の構成の取り扱い ✓チェック項⽬2-1 データが分断されていないか ✓チェック項⽬2-2 1シートに複数の表が掲載されていないか
2. Excelの表記 • Excel表の形式が印刷を⽬的としたものとなっており、データ処 理が困難 • Tableauを含め、多くのデータ分析ツールでは、表の表記はデー タベースのテーブルの表記ルールに従っていることが前提 • 1⾏が1件のデータを表す
• 列ごとに決められた意味を持つ • 列には「型」が決められている • 各⾏は、格納されている状態では順序 の概念はない 13 SQLをはじめよう - 初⼼者でもわかる、構⽂とデータ取得の基本 - エンジニアHub|若⼿Webエンジニアのキャリアを考える︕ https://eh-career.com/engineerhub/entry/2019/11/05/103000
2. Excelの表記 • テーブルでは1⾏⽬はフィールド名 (変数名)が⼊り、2⾏⽬からデー タが⼊る想定 • 実際のファイルでは、変数名を表 すのに6⾏を使っている •
下部にデータ以外の、出所、注が ⼊っている • 望ましい対応 ① 変数名は1⾏にする ② 単位、出所、注などは別ファイルに 記載する 14
2. Excelの表記 • 同⼀年度でないデータが、列に ⼊っている • 望ましい対応 ① 総務省ルールのように、⻄暦の列を 作成する
② 同⼀の変数の過年度データは同列に 配置する 15
2. Excelの表記 • 「計」や「構成⽐」のように表 計算で求められるものは、列に 加える必要は無い 16
3. 理想のデータ 17
データ分析のための理想の形式 • すべてのデータが格納された1つのExcelファイル 18 ユニオン: 列⽅向に同⼀変数の過年度データを繋げていく フィールド名: 1⾏⽬のみに記載 結合(ジョイン): 同じ区の別な変数を横⽅向に
繋げていく 39toukei-001.xls 38toukei-001.xls 39toukei-002.xls
4. Tableauによる作業 19
データの読み込み • Tableau Prepという前処理ツールを⽤いた • テーブルルールに従ってないので、うまく読み込めない 20
データの読み込み • しかし「データインタープリータ」をオンにすることで、適切な 範囲を読み込み、フィールド名をつけてくれる 21
過年度データのユニオン • 同⼀フォルダに、各年度の同じ データのファイルをダウンロー ドして保存しておく • 「ワイルドカードユニオン」を 選択し「*touke-001」を⼀致パ ターンに指定することですべて のデータを縦に繋げることがで
きる • ファイル名がルールに従ってつい ていたおかげ︕ 22
過年度データのユニオン • しかし、元のファイルの変数名 にデータの基準⽇などが⼊って いると、それもフィールド名に 読み込んでしまう • 同じ変数のはずなのに、異なる フィールドとして認識されてし まう
😭 → 結局、⼿作業が必要 23
⻄暦列の追加 • 元のデータには⻄暦がない • ファイル名からも何年度のデータ が分からない →ファイル名と⻄暦の対応表を作 成 • Tableu
Prepで結合することで対応 24
可視化 • 前処理したデータを、Tableau Desktopで読み込んで区別の折れ 線グラフを作成 25
WEBに発⾏ • 作成したグラフ(Viz)をTableau OnlineというWEBサイトに発⾏ 26
作成したグラフ数 • 今回は、Excelファイルが違う変数の結合(ジョイン)は⾏わなかった • 作業はExcelファイルごとに⾏ったので、ファイル内の変数ごとにグラフ (Viz)を作成した → 作成したグラフ数は1,397に達した 27 分野
項⽬ Excelファイル数 作成Viz数 1.⼟地と⼈⼝ 1〜12 17 177 2.産業 13〜18 13 196 3.住居 19〜22 5 56 4.道路・公園 23〜31 9 84 5.保健衛⽣ 32〜38 17 0 6.区⺠ 39〜41 5 66 7.福祉 42〜52 17 65 8.環境 53〜60 9 60 9.教育・⽂化 61〜67 23 238 10.交通・災害 68〜72 5 59 11.選挙・議会 73〜78 10 126 12.執⾏機関 79〜80 9 0 13.財政 81〜85 24 270 163 1,397
5. まとめ 28
まとめ 1. 1変数1グラフという構成なので、⼈ ⼝と⼟地を組み合わせるといったク ロス集計ができない • データの前処理で、ファイルの結合を⾏う 2. いまは単純な折れ線グラフだけなの で、地理グラフなどを作成していく
3. 複数のグラフから構成されるダッ シュボードを作成する 4. Tableau Onlineはアカウントを持っ ている⼈だけなので、⼀般公開可能 なTableau Publicのギャラリーを活 ⽤する 29 https://public.tableau.com/profile/.72524515#!/vizhome/2021209_/sheet0