Upgrade to Pro — share decks privately, control downloads, hide ads and more …

国勢調査で実践する初心者のためのPythonデータ分析ハンズオンセミナー資料

Hide Ogawa
October 30, 2023

 国勢調査で実践する初心者のためのPythonデータ分析ハンズオンセミナー資料

Hide Ogawa

October 30, 2023
Tweet

More Decks by Hide Ogawa

Other Decks in Business

Transcript

  1. ⾃⼰紹介 ⼩川 英幸 おがわ   ひでゆき 合同会社 ⻑⽬ Founder & CEO 新卒後、2000年〜2017年まで証券会社にてトレーダー‧アナリストとして勤務。2017

    年に⻑⽬設⽴。 執筆: Pythonデータ分析ハンズオンセミナー(⽇経BP 2023/8) Pythonインタラクティブ‧データビジュアライゼーション⼊⾨(朝倉書店 2020/12) WEB + DB Press Vol.118 Pythonデータ可視化 登壇: PyCon APAC 2023 など多数。
  2. Pythonデータ分析ハンズオンセミナー 本書籍でお伝えしたかったこと - プログラミングを具体的に(リストとか辞書の使い⽅など) - ビジネスでのデータ分析の活⽤をはじめよう - ツール+統計+ビジネス知識が必要 - 全部マスターしようとすると無理

    - これくらい簡単なところから始めると良い - いくつからでもはじめられる - 私がアラフォーでプログラミングはじめてまぁまぁいろいろできるようになっている。 補助ツールもたくさんあるので、いくつからでもはじめられるということをお伝えした かった。
  3. 位置データ付き国勢調査のデータを扱う - eStat(政府の統計データ掲載ペー ジ)の検索キーワードで常にトップに 位置する国勢調査を扱う - データ取得 -> データ前処理 ->

    活⽤ア イデアをPythonから扱える - 書籍では紙⾯の都合上、⼀つのデータ しか扱っていないが、同じ処理⽅法で すべてのデータが扱える
  4. 国勢調査の調査項⽬ 世帯員に関する事項 1. 氏名 2. 男女の別 3. 出生年月 4. 世帯主との続き柄

    5. 配偶の関係 6. 国籍 7. 現在の住居の居住期間 8. 5年前の住居 9. 在学、卒業などの教育の状況 10. 就業状態 11. 所属企業の名称と事業の種類 12. 仕事の種類 13. 従業上の地位 14. 従業地、通学地 15. 従業地への利用交通手段 世帯に関する調査 1. 世帯の種類 2. 世帯員の数 3. 住居の種類 4. 住宅の建て方 目的: 国内の人及び世帯の実態を把握し、各種行政施策その他の基礎資料を得ることを目的とする。 調査事項: https://www.stat.go.jp/data/kokusei/2020/gaiyou.html
  5. 実際の話をちょっと - 弊社に実際に来るご相談を聞いていると、国勢調査のデータ+ほかのデータと いう解決策が、最初のステップとして役⽴つことが多い。 - マーケティングの効率化は案外なされていないので、ある地域がどのような年 齢構成になっているかなどは役⽴つ情報となる。 - そのほかにも、役⽴つ情報が満載 -

    位置データがあるというので、具体的にどこにどうしましょうというのは、凄 い良いデータとなる(作成いただきありがとうございます) - 活⽤+回答をしっかりするということをやりたい - 書籍のハンズオンは当初4本の予定だったが、1本⽬で250ページほどとなっ たので、これだけに絞ることになった
  6. 書籍のハンズオンの内容 - データの準備と前処理: 66ページ分 - データ可視化(データを知るステップ): 38 ページ分 - データ分析:

    26ページ分 - 本には各⼯程ごとに、やりたいことにより前 処理を加えている - 実際の作業ではデータ分析にトライアンドエ ラーがあり、量は増えるが、データ分析の実 際の⼯程量をまぁまぁ表わせているのではな いか?
  7. 前処理 - データを分析に使えるようにするステップ - 思いのほか⼤変‧⼤切なステップ - 気を遣う - どうなっているかよくわからない -

    ⼤変さはいろいろだが、分析しているといろいろデータ の形を変えたりと、必須な作業 - データによって公開されている形をとる理由もあるた め、こういうのは怒らず、そんなものと捉えるべき - 前処理の⼤変さを良く知りたい⽅は「データ分析 前処 理」で調べてみてください
  8. 発展的活⽤ - 国勢調査の年齢別⼈⼝以外のデータを扱う - 複数のデータを組み合わせる - ⾃社にあるデータ - そのほかのオープンデータ -

    データ購⼊ - Plus デジタル活⽤したビジネス展開を - 割安にできる部分もあるので、リスクヘッジしなが ら売上を上げることなども実現できる