Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析Workshop

 データ分析Workshop

データの分析を行うWorkshopのコンテンツです。
対象は、全ての方です。ITに詳しい方も含みます。

- [Session] データ分析コト始め
- [HOL] Power BIのHands-on Lab
- [Workshop] 自分の業務データでのWorkshop

More Decks by Daiyu Hatakeyama | @dahatake | 畠山 大有

Other Decks in Technology

Transcript

  1. Setup • PC • Power BI Desktop インストール済み • インターネット

    への接続 • (Option) データファイル • Excel、CSV など集計前のデータ • ハンズオン テキスト • https://aka.ms/pbihol • ハンズオン サンプル • https://aka.ms/pbihol-sample
  2. 労働生産性 先進7か国中 45年連続最下位 生産年齢人口 2030年時点で1,300万人減 112,917 91,941 88,085 84,307 82,279

    80,513 71,619 87,380 0 50,000 100,000 米国 フランス イタリア ドイツ カナダ 英国 日本 G7平均 労働生産性の国際比較 2013年版 @ 日本生産性本部 国立社会保障・人口問題研究所 人口統計資料(2013) 総人口 生産年齢 高齢者 2000 1900 1950 2050 100 80 60 若年層 データから見える近い将来
  3. Data に関する 私の ”お気に入り” 主要な指標を追跡するには、 ダッシュボードアプリケーションが必要 そうすれば、意思決定を行う際に 無視できる Data 項目が増える

    Data を持つ != Data を活用する Data > あなたの視点。常に そうではありません。 このようなデータを無視するつもり はありませんが、 私の豊富なマーケティング経験も 考慮しなければなりません。
  4. トーマス・エジソン 1880年 蓄音機発明 「蓄音機に商業的価値はまったくない」 (※1) トーマス・ワトソン | IBM会長 1943年 「世界でコンピューターの需要はせいぜい5台だと思う」

    (※2) ケン・オルセン | DEC社長 1977年 「個人が家庭にコンピューターを持つ理由など見当たらない」 (※3) ※1 Life of Thomas Alva Edison | Biography | Articles and Essays | Inventing Entertainment: The Early Motion Pictures and Sound Recordings of the Edison Companies | Digital Collections | Library of Congress (loc.gov) Case Files: Thomas A. Edison | The Franklin Institute ※2 "I think there is a world market for maybe five computers." – Lexology No. 1059: Inventing the Computer (uh.edu) ※3 Ken Olsen – Wikipedia
  5. データの分析に必須な 3つの武器 • ビジネス上の課題の仮説 • 文章化していること • 例: 3か月前 より実施しているキャンペーンの売り上げ

    増 への効果を 知りたい • 生データ • 集計しないもの。計算はツールの方でいくらでも出来る • データの意味・価値の分かる人の参画 • 丸投げできない 説明変数 目的変数
  6. 畠山 さんの 売上 データ 日付 購入 数 ユーザー ID 商品

    説明 コスト カテゴリー 番組名 など… Viewer minutes データをここまで整形するのも実は一苦労…
  7. • 各店舗の売上金額? • 売上金額トップ10の中で 増えたのは? • 店舗と売上の関係は? • 宣伝施策で売上に効果があった のは?

    • 売上最低の店舗は 何が原因? • 次の四半期の売上増は どの要因で増やせそうか? 何を知りたいのか? = 仮説 ビジネス上の知りたい事を考えるのが、難しい 何が起こっているのか? 現状把握 なぜそれが発生したのか? 何の 相関関係があるのか? 次に何をすればいい? そのための 予測は?
  8. Excel マクロ問題 Visual Basic for Applications 一つのファイルに、プログラム とデータが一緒に(※) ※: VBA

    からは、外部APIや外部データ参照もできます 属人化 Excel のバージョンアップ が難しくなる 習得が容易 展開が容易 VBAの下位互換性は 実は高い 大きなデータは扱えない それは… マクロ書かなくても、Excel に実装されてませんか? Excel で実装する必要が本当にありますか?
  9. Did you Know… スクリプト言語 豊富なデータ分析用 パッケージ (習得が容易) 実装が容易 属人化 バージョンアップで

    互換性は頻繁に失われる バージョン固定のためのコンテナ化が推奨 コンテナ の知識・インフラ プログラムの 知識は必須 大きなデータも 扱える (PySpark) Spark インフラ それは… -GUI ツールで出来なくて、Python じゃないと処理が難しいのか?
  10. Cloud only の弊害 Data を持ち出せない インターネットへの接続 Sustainability の観点 手元の PC/Mac

    以外に 稼働している Computer PC のみでの ハンズオン/ワークショップ を実施中 Data は PCの中 インターネットへの接続不要 手元の PC/Mac のみ フェーズを踏める。 うまくいったら Cloud も使えばいい ほぼ無料のアプリのみ Excel Power BI Desktop (無料版)
  11. Cloud only の弊害 Data を持ち出せない インターネットへの接続 Sustainability の観点 手元の PC/Mac

    以外に 稼働している Computer PC / Mac のみでのハンズオン/ワークショップを実施中 Data は PCの中 インターネットへの接続不要 Sustainability の観点 手元の PC/Mac のみ フェーズを踏める。 うまくいったら Cloud も使えばいい ほぼ無料のアプリのみ それは PC で処理できない Big Data なんでしたっけ? Excel Power BI Desktop (無料版)
  12. No-Code / Low-Code のインパクト これまで Excelが ナレッジワークを変えてきたように、 Low-Code・No-Code 技術のようなツールの登場によって、 現場のエキスパートが

    現場でオートメーションを実現し、製造業の生産性を一気に変えるようなパラダイム変化が起こっている Excel コードを書かずとも出来るコトは多々ある! Power BI Desktop (無料版)
  13. Digital Feedback Loop = Data Centric Data AI Syst ems

    & Experie nces Intelligent 顧客 とのエンゲージ 従業員 が最大限に力を発揮できる 製品 の変革 業務プロセス の最適化
  14. 進め方 • ダメ出し厳禁。否定的なコメント厳禁。全ての方を尊重する • 寄り道、間違い、勘違いは大歓迎 • 役職者の Teaching 禁止。Coaching は大歓迎

    • データが王様です • 最初の30時間以内に、グラフを1つ作成する。何でもいいです • データ分析のサイクルを早く回す • 画面を映す人を1時間で交代 • 疲れる • 作業者が一番覚える • 休憩・ランチはグループ毎に • Teams へログを書く • 担当者は決めない。気づいた人が書く
  15. 演習 (2) データを読む - 5分 • 完成品の Excel ファイル「訪日外客数.xlsx」を使います •

    時間での人数の変化のグラフを作成してください #データ分析 #PowerBI
  16. 演習 (3) データ加工する – 90分 • Power BI Desktop を使って、公開されている訪日外客数データを

    ダウンロードせずに、直接参照して、データの加工を行います • https://aka.ms/pbihol/ #データ分析 #PowerBI
  17. レポート 分析 レポート と 分析 完全自動化 事前定義 ある程度定義 半自動化 KPI

    の監視 データから探求 容易なデータ入力 データ入力はしない 高い印刷表現力 高い動的表現力 定型処理 非定型処理 目的 データ項目 自動化 表現 データ入力 根拠に基づく世界=正解に近い 仮説の域を出にくい世界 演繹的アプローチ 帰納的アプローチ
  18. 演習 (4) サンプルを見る - 10分 • 完成品の Power BI ファイル「F-data_report_sample_4.bpix」を

    使います • どんな仮説でデータを取得してきたのか? • どんな可視化をしたのか? #データ分析 #PowerBI
  19. Workshop - おススメ 手順 • 仮説を文章化する • 説明変数の表を作成する • 5W2H

    で抜け漏れを探す • 説明変数 でデータの分割・分類などを検討 • データの場所 – どこに当該データがあるのか? • データを Power BI に取り込む • Power Query で最低限の加工をする • Power BI でグラフを作成する データ自身が変 データから気づきがあって 追加・修正したい
  20. ・基礎集計で既存のデータの傾向を解釈。その後、その傾向をヒントに追加の説明変数を 5W2H で洗い出す ・例)小売販売予測データ 観点5W2H 説明変数 データ元 曜日 カレンダー 土日祝日

    カレンダー 開店経過年数 店舗 ・・・ 店舗立地 店舗 店タイプ 店舗 ・・・ 顧客性別割合 顧客、POS 顧客年代割合 顧客、POS ・・・ 定期販促 販促 特別販促 販促 ・・・ Why?(なぜ) ・・・ When?(いつ) Where?(どこ) Who?(誰が) What?(何を) 観点5W2H 説明変数 データ元 天気 気象 最高気温 気象 降水量 気象 平均湿度 気象 体感温度 気象 ・・・ 前年売上 POS 前3ヶ月売上平均 POS 1ヶ月来店客数 POS ・・・ How? (どんな、どうやって) How much? (どれだけ) データ (説明変数) の洗い出しの考え方
  21. データの洗い出し例 No. アイテム 観点5W1H 現状データ 有無 データ粒度 何年前からの データがある? なぜ予測に関連する可能性あると思うか?

    データソース 1 地域 Where(どこ) あり マスタ 固定情報 基礎集計で地域によって訪日外客数のボリュームや 伸びの相関あり 国マスタ 2 人口 How(どれだ け) あり annual 2020年 対象国の人口は訪日ボリュームに関係あり https://memorva.jp/ranking/unfpa/who_whs_population.php 3 公用語 What(何・どん な) なし マスタ 固定情報 公用語関係あるかな?英語圏は訪日しやすいとか https://novanexus.jp/information/language-related- information/ 4 対象国通貨の為替 How(どれだ け) あり monthly 2002~2022年 円安?円高?によって訪日外客数に影響ありそう 為替相場情報 | みずほ銀行 (mizuhobank.co.jp) 5 日本⇔対象国との距離 How(どれだ け) なし マスタ 固定情報 日本⇔対象国との距離は訪日しやすさに関係あり そう https://rinist.me/entry/819/ 6 緯度 Where(どこ) なし マスタ 固定情報 北半球?南半球?赤道近くどこらへんにある国か によって 訪日時期や好みが関係ありそう https://amano-tec.com/data/download.php 7 GDP成長率(実質) How(どれだ け) なし annual 1960~2021年 (欠損あり) 対象国の経済状況は旅行等の国民行動に影響 がありそう GDP growth (annual %) | Data (worldbank.org) 8 消費者物価指数 How(どれだ け) なし annual 1960~2022年 対象国の経済状況は旅行等の国民行動に影響 がありそう Consumer price index (2010 = 100) | Data (worldbank.org) 9 対象国⇔日本離発着数 How(どれだ け) なし annual 2015~2022年 対象国⇔日本の直行便離発着数は訪日しやすさ に関係ありそう https://www.mlit.go.jp/koku/koku_fr19_000005.html 1 月 When(いつ) あり monthly 2003~2022年 基礎集計で国によって訪日の多い月の特徴が見え たから 1 過去の訪日外客数 How(どれだ け) あり monthly 2003~2022年 訪日外客数・出国日本人数データ|統計・データ|日本政府観光 局(JNTO) 2 過去の訪日外国人の国内流動 (目的) Why?(なぜ) あり annual 2014~2019年 対象国が何を目的に訪日するかは関係ありそう 総合的な交通体系を目指して:集計データファイル - 国土交通省 (mlit.go.jp) 3 過去の訪日外国人の国内流動 (行動) Where(どこ) あり annual 2014~2019年 訪日外国人の国内流動(行動)データは関係あ りそう 総合的な交通体系を目指して:集計データファイル - 国土交通省 (mlit.go.jp) 1 コロナ感染者数 How(どれだ け) なし Daily 2020年~現在 コロナ流行後は対象国及び日本の感染者数推移 が訪日に関係ありそう WHO Coronavirus (COVID-19) Dashboard | WHO Coronavirus (COVID-19) Dashboard With Vaccination Data https://covid19.who.int/WHO-COVID-19-global-data.csv 2 日本の入国制限情報 How(どれだ け) なし 国名コード マスタ 固定情報 http://www.kc.tsukuba.ac.jp/ulismeta/metadata/standard/cnt ry_code.html
  22. 演習 (6) データ分析を楽しむ! – 残り時間 データ持参頂いた方 • 仮説を文章化する • 説明変数、目的変数の

    データソースを探す • Power BI Desktop に読み込む。 データ加工->可視化を繰り返す • 途中出てきた発見は、必ずメモする • それは仮説の検証でもあります • 場合によっては仮説を見直します データ持参頂いていない方 • 訪日外客数データ のハンズオン テキストの続きを行う #データ分析 #PowerBI
  23. Assistants API • Application と Model と2つの面がある ChatGPT機能強化の方向性 ChatGPT マルチモーダル

    Foundation Model Application Service Completion API Threads Tools Code Interpreter Function Calling Function Calling
  24. • ChatGPT Plus (有償版) 参加ユーザーのみ • ChatGPT のPluginの一つ • セッションのタイムアウトあり

    • GTP-4 のトランザクション回数上限あり • 50回 / 3時間 (2023年7月下旬現在) • ファイルのアップロードとダウンロード • 512 MB まで • 1000個まで • Python のコード生成 • インターネットの接続は出来ない • Python のコード実行 • 可能な範囲でのエラーの修正 OpenAI – Code Interpreter ChatGPT plugins (openai.com) Beta
  25. データ分析実行 と PowerPoint 作成 [ChatGPT Hack] Code Interpreter で訪日外客者数のデータ分析と PowerPoint

    のファイルを作ってみた - Qiita ファイルアップロード と Prompt Insight と グラフ 作成 PowerPoint 作成 Beta
  26. データの加工 (クレンジング、前処理) も… [ChatGPT Hack] Code Interpreter で、訪日外客者数 Excel ファイルのデータ加工

    (データクレンジング・前処理)をやってみた - Qiita ファイルアップロード と Prompt 結果の基礎解析 作成したデータセット Beta
  27. タスクを手伝ってくれる優秀なチームメンバー データ分析のシナリオ例 これまで ChatGPT + Code Interpreter 仮説の 文章化 データ収集

    データの理解 データ変換 可視化 (グラフ作成) 気づきを 文章化 レポート作成 仮説の 文章化 データ収集 データの理解 データ変換 可視化 (グラフ作成) 気づきを 文章化 レポート作成 データ構造は 指定した方がいい データの内容の理解は ある程度任せられる 最も退屈で大変 ChatGPT 仮説の 文章化 データ収集 データの理解 データ変換 可視化 (グラフ作成) 気づきを 文章化 レポート作成 ネタから作成 ネタから作成