Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Digital TransformationをPythonを使って進めよう!

Hide Ogawa
October 30, 2023

Digital TransformationをPythonを使って進めよう!

PyConAPAC2023 Day2 13:55 - 14:10
合同会社長目 小川 英幸

DXは最終的にデジタル活用したビジネスモデルの変革を目指す。その作業には物理・アナログデータのデジタルデータ化(デジタイゼーション)と、業務プロセスのデジタル化(デジタライゼーション)があり、それらが組み合わさってDXが進む。

昨今の日本企業では、両方のプロセスが進み始め、活用できる社内データが増え始めている。そのため、データを分析してビジネス価値を生み出せる段階にある。

一方で、社内のデータだけではビジネスの価値向上を達成するのは難しく、社外のデータも必要となる。社外のデータとしてはオープンデータが活用できる。

本トークは、社外のデータの取得や、社外のデータと社内のデータを組み合わせて分析して、価値を出す作業はPythonを使うと簡単にできるということを示すトークとなる。

またその実践として、札幌市のオープンデータを具体的にどう扱うかも示した。実際のコード、データは次のgithubリポジトリにある。

[https://github.com/mazarimono/pyconapac2023](https://github.com/mazarimono/pyconapac2023)

Hide Ogawa

October 30, 2023
Tweet

More Decks by Hide Ogawa

Other Decks in Business

Transcript

  1. ⾃⼰紹介 ⼩川 英幸 ( X: @ogawahideyuki) おがわ   ひでゆき 合同会社 ⻑⽬ Founder

    & CEO 新卒後、2000年〜2017年まで証券会社にてトレーダー‧アナリストとして勤務。 2017年に⻑⽬設⽴。 執筆: Pythonデータ分析ハンズオンセミナー(⽇経BP 2023/8) Pythonインタラクティブ‧データビジュアライゼーション⼊⾨(朝倉書店 2020/12) WEB + DB Press Vol.118 Pythonデータ可視化 登壇: PyCon APAC 2023 など多数。
  2. 書籍執筆 売上の⼀部を寄付しました。 - ⽇本⾚⼗字 - ⽇本⾻髄バンク - NumFOCUS - OpenStreetMap

    書籍を⼿にしていただいた皆様のおかげで す。ありがとうございます!
  3. 代表的なデータ分析のステップ - データ収集 - サイトから - APIから - データ前処理 -

    分析に使うデータを、分析に使える形に - データ可視化‧EDA - 統計量‧グラフなどから、データの傾向を確認 - モデル作成 - 役⽴つ情報にデータを変換 - モデル化する - 報告 - 分かりやすい形で情報を提供 👈Pythonで全てこなせる
  4. Pythonの役⽴つポイント - データ収集 - サイトから - APIから - データ前処理 -

    分析に使うデータを、分析に使える形に - データ可視化‧EDA - 統計量‧グラフなどから、データの傾向を確認 - モデル作成 - 役⽴つ情報にデータを変換 - モデル化する - 報告 - 分かりやすい形で情報を提供 👈Pythonで全てこなせる requests pandas matplotlib, plotly sklearn, pytorch panel, stremlit
  5. 今回のデータなどの概要 - 概要 - 札幌市のオープンデータを使って、分析実践 - サイト: https://data.pf-sapporo.jp/ - 使うデータ

    - 札幌市の地下鉄の乗⾞数(Daily) - 札幌駅前通地下歩⾏空間(チ・カ・ホ)⼈流データ(15min) - 札幌市内の気象観測記録(区別‧年次別)(10min) - 札幌市円⼭動物園の⼊場者数(Daily) - データがちょっと⾶んでいる - ライセンス: CC4.0 - オープンデータ - デイリーでビジネスに役⽴つデータを出しているのは札幌 市くらい(情報求む!!!)
  6. 前処理 - 前処理とは - 分析する前に次のようなことを確認するステップ - データがコンピュータで処理できるか - 期待するようなデータか? -

    異常値がないか - などなど - 前処理ポイント - 技術的にはいろいろある。上⼿くpandasなどを使うと良 い - 処理後、可視化して確認すると、うまく処理できたか理 解しやすい - あまり前処理がいらない場合、データを作ってくれている⼈ が頑張ってくれている。感謝。 コードは割愛
  7. 前処理 - 今回の前処理 - それぞれのデータごとに確認 - 内容(カラム名) - 分析に使えるデータか? -

    使えない場合、プログラムで処理 - データがあっていそうか確認 - 望みのデータが出来たら保存 - ポイント - データがうまくできているかデータを可視化 するとわかりやすい コードは割愛
  8. 分析する - データの観察 1. それぞれのデータがどう動いているか観察 2. データがどう動くか? 3. データ間の相関などを観察 -

    観察のポイント - 多くの属性を観察できるツールが提供されている - それをうまく使う(parallel_coordinates関数) - よりインタラクティブに観察する(panelを使う) - 統計量なども使う(今回省略) - NOTEBOOK: https://colab.research.google.com/drive/1xNyMrmYV0BVra oWEfH7HLxL1kbgDHLh1?usp=sharing
  9. Jupyterで観察観察⼤変 => panelがおすすめ - 要素を切り替えるのに⼊⼒して shift + enter - 避けるためにいくつか⽅法が

    - Jupyter上でインタラクティブに動作する可視化アプ リを作る - JupyterDash: Reactの勉強にはよいけど、コード量多 - streamlit-jupyter: まだ出たばっかりだしなぁ‧‧‧ - panel: numfocusだし、Jupyter上で動かすとなると、 現状はファーストチョイス!?
  10. 機械学習モデル作成 - 総来園者数を予測するモデルを作成する - model: LightGBM - 訓練データ: 2019/4/1 -

    2022/11/30 テストデータ: 2022/12 - 利⽤パッケージ - scikit-learn: データの前処理、モデルの評価 - LightGBM: モデル作成など - notebook: https://colab.research.google.com/drive/1OUwGNAGL5i6N LgAx7kJ07XR0a9K5vAyf?usp=sharing - 精度上げたいという⽅は、dataがgithubにあります。精度上 がったら、Xなどでお知らせいただけますと幸いですw - https://github.com/mazarimono/pyconapac2023
  11. まとめ - ⽇本企業でデータ基盤が整い、今後はデータ分析を使ってどうし ていくかが重要となる(デジタル化の次のステップ) - 社内の情報だけでなく、社外のデータもうまく活⽤して業績を伸 ばす。そのためにオープンデータなどの外部データを活⽤すると いう発想も重要。 - LLMがあるからプログラミング⾔語は⼈類は使えなくてもよいと

    いう発想もあるが、逆に共通⾔語としてある程度できると、ハル シネーションを修正したりと役に⽴つ。 - データからインサイトを得るという部分では、Pythonのエコシ ステムが揃っており、それを活⽤しない⼿はない。 - データとその分析ツールを活⽤して、企業の業績の拡⼤を⽬指し ましょう