Upgrade to Pro — share decks privately, control downloads, hide ads and more …

特別区協議会「特別区の統計 ダッシュボード化」プロジェクト

d-lab 北陸大学
March 11, 2021
120

特別区協議会「特別区の統計 ダッシュボード化」プロジェクト

田尻ゼミ 公益財団法人特別区協議会と研究発表会を開催|TOPICS|北陸大学
https://www.hokuriku-u.ac.jp/sptopics/202103170911.html

d-lab 北陸大学

March 11, 2021
Tweet

Transcript

  1. 北陸⼤学の紹介 • ⼤学概要 • ⽯川県⾦沢市郊外 • 1975年に創⽴の私⽴⼤学 • 2017年に3学部を改組・新設 •

    ⾃分達は経済経営学部2期⽣ 薬学部 673 経済経営学部 1,220 国際コミュニケーション学部 399 医療保健学部 254 ※未来創造学部 9 計 2,564 • ⽥尻ゼミの紹介 • 今年度から始まった新しいゼミ • 3年⽣26名 • d-labという組織名で活動中 • データ分析と地域デザインがテーマ • 今年度のプロジェクト • 株式会社ぐるなび連携プロジェクト 「⾦沢の⾷⽂化を後世に残す、アフター コロナにおける飲⾷店事業計画作成」 • 公益財団法⼈あくるめ連携プロジェクト 「コミュニティ財団による地域の新しい 資⾦循環と⼈材育成 • データ分析プロジェクト(9名) 坂本東⽣ 板橋区議がメンター 4
  2. 「特別区の統計」 • 8分野85項⽬117表からなる ⼆次統計データベース • 分割されている表もあるので、 実際のExcelファイル数は163 • 昭和56(1981)〜平成18 (2006)はPDFのみ

    • 平成19(2007)〜令和2 (2020)はExcelファイルも • 今回はこのデータを対象にした 6 分野 項⽬ Excelファイル数 1.⼟地と⼈⼝ 1〜12 17 2.産業 13〜18 13 3.住居 19〜22 5 4.道路・公園 23〜31 9 5.保健衛⽣ 32〜38 17 6.区⺠ 39〜41 5 7.福祉 42〜52 17 8.環境 53〜60 9 9.教育・⽂化 61〜67 23 10.交通・災害 68〜72 5 11.選挙・議会 73〜78 10 12.執⾏機関 79〜80 9 13.財政 81〜85 24 163 ※ 令和元年度
  3. 1. 年度ごとのファイル • すべてのファイルが単年度別に整理 されている • そのため、経年変化を⾒ることがで きない • 経年変化を⾒るためには、データ部

    分を下にコピー&ペーストしなけれ ばならない • ファイル数だけ、繰り返し作業となる 10 令和元年度データ 平成30年度データ
  4. 2. Excelの表記 • Excel表の形式が印刷を ⽬的としたものとなっ ており、データ処理が 困難になっている • 総務省「統計表におけ る機械判読可能なデー

    タ作成に関する表記⽅ 法について」令和2年 12⽉18⽇ • 15のチェック項⽬ 11 データ形式の留意点 □チェック項⽬1-1 ファイル形式はExcelかCSVとなっているか データ・項⽬の取り扱い □チェック項⽬1-2 1セル1データとなっているか □チェック項⽬1-3 数値データは数値属性とし、⽂字列を含まないこと □チェック項⽬1-4 セルの結合をしていないか □チェック項⽬1-5 スペースや改⾏等で体裁を整えていないか □チェック項⽬1-6 項⽬名等を省略していないか □チェック項⽬1-7 数式を使⽤している場合は、数値データに修正しているか □チェック項⽬1-8 オブジェクトを使⽤していないか □チェック項⽬1-9 データの単位を記載しているか □チェック項⽬1-10 機種依存⽂字を使⽤していないか。 □チェック項⽬1-11 e-Statの時間軸コードの表記、⻄暦表記⼜は和暦に⻄暦の併記がされているか □チェック項⽬1-12 地域コード⼜は地域名称が表記されているか □チェック項⽬1-13 数値データの同⼀列内に特殊記号(秘匿等)が含まれる場合 表の構成の取り扱い □チェック項⽬2-1 データが分断されていないか □チェック項⽬2-2 1シートに複数の表が掲載されていないか
  5. 2. Excelの表記 • 総務省ルールでは、15 項⽬のうち、13項⽬に はすでに適合 • 「データ単位の記載」 と「⻄暦表記」がない 状態

    • しかし、実際に作業を するとまだ問題が… 12 データ形式の留意点 ✓チェック項⽬1-1 ファイル形式はExcelかCSVとなっているか データ・項⽬の取り扱い ✓チェック項⽬1-2 1セル1データとなっているか ✓チェック項⽬1-3 数値データは数値属性とし、⽂字列を含まないこと ✓チェック項⽬1-4 セルの結合をしていないか ✓チェック項⽬1-5 スペースや改⾏等で体裁を整えていないか ✓チェック項⽬1-6 項⽬名等を省略していないか ✓チェック項⽬1-7 数式を使⽤している場合は、数値データに修正しているか ✓チェック項⽬1-8 オブジェクトを使⽤していないか □チェック項⽬1-9 データの単位を記載しているか ✓チェック項⽬1-10 機種依存⽂字を使⽤していないか。 □チェック項⽬1-11 e-Statの時間軸コードの表記、⻄暦表記⼜は和暦に⻄暦の併記がされているか ✓チェック項⽬1-12 地域コード⼜は地域名称が表記されているか ✓チェック項⽬1-13 数値データの同⼀列内に特殊記号(秘匿等)が含まれる場合 表の構成の取り扱い ✓チェック項⽬2-1 データが分断されていないか ✓チェック項⽬2-2 1シートに複数の表が掲載されていないか
  6. 2. Excelの表記 • Excel表の形式が印刷を⽬的としたものとなっており、データ処 理が困難 • Tableauを含め、多くのデータ分析ツールでは、表の表記はデー タベースのテーブルの表記ルールに従っていることが前提 • 1⾏が1件のデータを表す

    • 列ごとに決められた意味を持つ • 列には「型」が決められている • 各⾏は、格納されている状態では順序 の概念はない 13 SQLをはじめよう - 初⼼者でもわかる、構⽂とデータ取得の基本 - エンジニアHub|若⼿Webエンジニアのキャリアを考える︕ https://eh-career.com/engineerhub/entry/2019/11/05/103000
  7. 2. Excelの表記 • テーブルでは1⾏⽬はフィールド名 (変数名)が⼊り、2⾏⽬からデー タが⼊る想定 • 実際のファイルでは、変数名を表 すのに6⾏を使っている •

    下部にデータ以外の、出所、注が ⼊っている • 望ましい対応 ① 変数名は1⾏にする ② 単位、出所、注などは別ファイルに 記載する 14
  8. 作成したグラフ数 • 今回は、Excelファイルが違う変数の結合(ジョイン)は⾏わなかった • 作業はExcelファイルごとに⾏ったので、ファイル内の変数ごとにグラフ (Viz)を作成した → 作成したグラフ数は1,397に達した 27 分野

    項⽬ Excelファイル数 作成Viz数 1.⼟地と⼈⼝ 1〜12 17 177 2.産業 13〜18 13 196 3.住居 19〜22 5 56 4.道路・公園 23〜31 9 84 5.保健衛⽣ 32〜38 17 0 6.区⺠ 39〜41 5 66 7.福祉 42〜52 17 65 8.環境 53〜60 9 60 9.教育・⽂化 61〜67 23 238 10.交通・災害 68〜72 5 59 11.選挙・議会 73〜78 10 126 12.執⾏機関 79〜80 9 0 13.財政 81〜85 24 270 163 1,397
  9. まとめ 1. 1変数1グラフという構成なので、⼈ ⼝と⼟地を組み合わせるといったク ロス集計ができない • データの前処理で、ファイルの結合を⾏う 2. いまは単純な折れ線グラフだけなの で、地理グラフなどを作成していく

    3. 複数のグラフから構成されるダッ シュボードを作成する 4. Tableau Onlineはアカウントを持っ ている⼈だけなので、⼀般公開可能 なTableau Publicのギャラリーを活 ⽤する 29 https://public.tableau.com/profile/.72524515#!/vizhome/2021209_/sheet0