Slide 1

Slide 1 text

データ分析 Workshop

Slide 2

Slide 2 text

Setup • PC • Power BI Desktop インストール済み • インターネット への接続 • (Option) データファイル • Excel、CSV など集計前のデータ • ハンズオン テキスト • https://aka.ms/pbihol • ハンズオン サンプル • https://aka.ms/pbihol-sample

Slide 3

Slide 3 text

Data - ヒト・モノ・カネ・時間などと同じような企業・組織の資産 -

Slide 4

Slide 4 text

違いが分かりますか? 紙 テープ ディスク USBメモリ モバイル クラウド 機密情報 人

Slide 5

Slide 5 text

労働生産性 先進7か国中 45年連続最下位 生産年齢人口 2030年時点で1,300万人減 112,917 91,941 88,085 84,307 82,279 80,513 71,619 87,380 0 50,000 100,000 米国 フランス イタリア ドイツ カナダ 英国 日本 G7平均 労働生産性の国際比較 2013年版 @ 日本生産性本部 国立社会保障・人口問題研究所 人口統計資料(2013) 総人口 生産年齢 高齢者 2000 1900 1950 2050 100 80 60 若年層 データから見える近い将来

Slide 6

Slide 6 text

いわゆる「業務の記録」 がいまだに多い (出典)総務省(2020)「デジタルデータの経済的価値の計測と活用の現状に関する調査研究」 https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r02/html/nd132110.html 日本の データ 活用状況の “実態”

Slide 7

Slide 7 text

“1つ の正確な測定は 1,000名 の専門家の意見に 匹敵する” – Admiral Grace Hopper グレース・ホッパー - Wikipedia

Slide 8

Slide 8 text

Data に関する 私の ”お気に入り” 主要な指標を追跡するには、 ダッシュボードアプリケーションが必要 そうすれば、意思決定を行う際に 無視できる Data 項目が増える Data を持つ != Data を活用する Data > あなたの視点。常に そうではありません。 このようなデータを無視するつもり はありませんが、 私の豊富なマーケティング経験も 考慮しなければなりません。

Slide 9

Slide 9 text

トーマス・エジソン 1880年 蓄音機発明 「蓄音機に商業的価値はまったくない」 (※1) トーマス・ワトソン | IBM会長 1943年 「世界でコンピューターの需要はせいぜい5台だと思う」 (※2) ケン・オルセン | DEC社長 1977年 「個人が家庭にコンピューターを持つ理由など見当たらない」 (※3) ※1 Life of Thomas Alva Edison | Biography | Articles and Essays | Inventing Entertainment: The Early Motion Pictures and Sound Recordings of the Edison Companies | Digital Collections | Library of Congress (loc.gov) Case Files: Thomas A. Edison | The Franklin Institute ※2 "I think there is a world market for maybe five computers." – Lexology No. 1059: Inventing the Computer (uh.edu) ※3 Ken Olsen – Wikipedia

Slide 10

Slide 10 text

https://www.gapminder.org/

Slide 11

Slide 11 text

データ分析 最初の一歩

Slide 12

Slide 12 text

データの分析に必須な 3つの武器 • ビジネス上の課題の仮説 • 文章化していること • 例: 3か月前 より実施しているキャンペーンの売り上げ 増 への効果を 知りたい • 生データ • 集計しないもの。計算はツールの方でいくらでも出来る • データの意味・価値の分かる人の参画 • 丸投げできない 説明変数 目的変数

Slide 13

Slide 13 text

•小売店の店長 •仕事: 在庫の最適化 売上の最大化 アルバイト含む従業員の満足度向上 •やりたい事はかなり一般的 畠山 さん

Slide 14

Slide 14 text

畠山 さんの 売上 データ 日付 購入 数 ユーザー ID 商品 説明 コスト カテゴリー 番組名 など… Viewer minutes データをここまで整形するのも実は一苦労…

Slide 15

Slide 15 text

3つの分析パターン Viewer minutes 何が起こっているのか? 現状把握 なぜそれが発生したのか? 何の 相関関係があるのか? 次に何をすればいい? そのための 予測は? 統計と機械学習 のアプローチ

Slide 16

Slide 16 text

• 各店舗の売上金額? • 売上金額トップ10の中で 増えたのは? • 店舗と売上の関係は? • 宣伝施策で売上に効果があった のは? • 売上最低の店舗は 何が原因? • 次の四半期の売上増は どの要因で増やせそうか? 何を知りたいのか? = 仮説 ビジネス上の知りたい事を考えるのが、難しい 何が起こっているのか? 現状把握 なぜそれが発生したのか? 何の 相関関係があるのか? 次に何をすればいい? そのための 予測は?

Slide 17

Slide 17 text

時系列推移を見たい 国別視聴数データ 1) 現状把握

Slide 18

Slide 18 text

データの構成比を見たい 1) 現状把握

Slide 19

Slide 19 text

データの相関を見たい 2) 相関関係

Slide 20

Slide 20 text

データを正しく使用しないと 間違った結論が出る可能性もあある http://tylervigen.com/spurious-correlations

Slide 21

Slide 21 text

「DX を導入するので データサイエンティスト を育成します」 「Python のトレーニングコースを作成します」

Slide 22

Slide 22 text

どうしたらいいんでしょうか?

Slide 23

Slide 23 text

Excel マクロ問題 Visual Basic for Applications 一つのファイルに、プログラム とデータが一緒に(※) ※: VBA からは、外部APIや外部データ参照もできます 属人化 Excel のバージョンアップ が難しくなる 習得が容易 展開が容易 VBAの下位互換性は 実は高い 大きなデータは扱えない それは… マクロ書かなくても、Excel に実装されてませんか? Excel で実装する必要が本当にありますか?

Slide 24

Slide 24 text

Did you Know… スクリプト言語 豊富なデータ分析用 パッケージ (習得が容易) 実装が容易 属人化 バージョンアップで 互換性は頻繁に失われる バージョン固定のためのコンテナ化が推奨 コンテナ の知識・インフラ プログラムの 知識は必須 大きなデータも 扱える (PySpark) Spark インフラ それは… -GUI ツールで出来なくて、Python じゃないと処理が難しいのか?

Slide 25

Slide 25 text

Cloud only の弊害 Data を持ち出せない インターネットへの接続 Sustainability の観点 手元の PC/Mac 以外に 稼働している Computer PC のみでの ハンズオン/ワークショップ を実施中 Data は PCの中 インターネットへの接続不要 手元の PC/Mac のみ フェーズを踏める。 うまくいったら Cloud も使えばいい ほぼ無料のアプリのみ Excel Power BI Desktop (無料版)

Slide 26

Slide 26 text

Cloud only の弊害 Data を持ち出せない インターネットへの接続 Sustainability の観点 手元の PC/Mac 以外に 稼働している Computer PC / Mac のみでのハンズオン/ワークショップを実施中 Data は PCの中 インターネットへの接続不要 Sustainability の観点 手元の PC/Mac のみ フェーズを踏める。 うまくいったら Cloud も使えばいい ほぼ無料のアプリのみ それは PC で処理できない Big Data なんでしたっけ? Excel Power BI Desktop (無料版)

Slide 27

Slide 27 text

“Data Warehouse” という言葉は 1970年代には あったそうで… Source: Data warehouse - Wikipedia

Slide 28

Slide 28 text

分析は ツールを入れても 上手くいく保証が無い

Slide 29

Slide 29 text

体制 プロセス 技術(アプリ) 他社事例が 自社で うまくいくとは限らない 人 Data 同じ人はいない 同じデータは無い。 ERP でさえ カスタマイズ

Slide 30

Slide 30 text

• 何を意味しているのか? • いつ、どこで、取得したのか? • 入手漏れが無いのか? • 項目同士に関連があるのか? • 欠損や例外がどれだけ 含まれているのか? 「ゴミデータからは、 ゴミの結果しか生まれない」

Slide 31

Slide 31 text

No-Code / Low-Code のインパクト これまで Excelが ナレッジワークを変えてきたように、 Low-Code・No-Code 技術のようなツールの登場によって、 現場のエキスパートが 現場でオートメーションを実現し、製造業の生産性を一気に変えるようなパラダイム変化が起こっている Excel コードを書かずとも出来るコトは多々ある! Power BI Desktop (無料版)

Slide 32

Slide 32 text

自分たちで作るコトの価値 ビジネス要件は仮説 仮説測定 の 仮KPI設定 仮KPI測定の為の Proof of Concept 自前であれば、早いし、アプリは捨てやすい 記録・データは残す Know-How が蓄積 Feedback を基に 素早く 軌道修正

Slide 33

Slide 33 text

Know-How をためる = 人や組織、地域が 強くなる

Slide 34

Slide 34 text

Digital Feedback Loop = Data Centric Data AI Syst ems & Experie nces Intelligent 顧客 とのエンゲージ 従業員 が最大限に力を発揮できる 製品 の変革 業務プロセス の最適化

Slide 35

Slide 35 text

日本が Software と データ を自在に扱える 武器にすれば 無敵じゃね?

Slide 36

Slide 36 text

Hands-on

Slide 37

Slide 37 text

お持ち帰り頂きたいコト ツールの使い方 データの分析とは、何をすることなのか? -> 定型レポートとの違いが説明できる ビジネス・業務の本質 #データ分析 #PowerBI インフラの話 ビジネスツールの話 ビジネスの話

Slide 38

Slide 38 text

進め方 • ダメ出し厳禁。否定的なコメント厳禁。全ての方を尊重する • 寄り道、間違い、勘違いは大歓迎 • 役職者の Teaching 禁止。Coaching は大歓迎 • データが王様です • 最初の30時間以内に、グラフを1つ作成する。何でもいいです • データ分析のサイクルを早く回す • 画面を映す人を1時間で交代 • 疲れる • 作業者が一番覚える • 休憩・ランチはグループ毎に • Teams へログを書く • 担当者は決めない。気づいた人が書く

Slide 39

Slide 39 text

分からなかったときの動き方 隣の人と話す ネットで調べる Microsoft Copilot (Bing Chat) と話す Microsoft の人を捕まえる

Slide 40

Slide 40 text

演習 (1) データを読む – 5分 • 政府観光局で公開している「国籍/月別 訪日外客数(2009-2022)」の Excel から、日本の観光客の現状を読み取ってください #データ分析 #PowerBI

Slide 41

Slide 41 text

演習 (2) データを読む - 5分 • 完成品の Excel ファイル「訪日外客数.xlsx」を使います • 時間での人数の変化のグラフを作成してください #データ分析 #PowerBI

Slide 42

Slide 42 text

演習 (3) データ加工する – 90分 • Power BI Desktop を使って、公開されている訪日外客数データを ダウンロードせずに、直接参照して、データの加工を行います • https://aka.ms/pbihol/ #データ分析 #PowerBI

Slide 43

Slide 43 text

国名 扱いにくいデータ (同じ内容を意図した列が複数ある) 扱いやすいデータ (列単位で) 同じ内容のデータを複数もたない

Slide 44

Slide 44 text

レポート 分析 レポート と 分析 完全自動化 事前定義 ある程度定義 半自動化 KPI の監視 データから探求 容易なデータ入力 データ入力はしない 高い印刷表現力 高い動的表現力 定型処理 非定型処理 目的 データ項目 自動化 表現 データ入力 根拠に基づく世界=正解に近い 仮説の域を出にくい世界 演繹的アプローチ 帰納的アプローチ

Slide 45

Slide 45 text

演習 (4) サンプルを見る - 10分 • 完成品の Power BI ファイル「F-data_report_sample_4.bpix」を 使います • どんな仮説でデータを取得してきたのか? • どんな可視化をしたのか? #データ分析 #PowerBI

Slide 46

Slide 46 text

Workshop

Slide 47

Slide 47 text

実データとの向き合う • 雑に傾向を理解する • 時間での変化 • 全体の割合。何で指針として分割するのか? • 目的変数があったら。相関関係も見てみる • いろんな人の考えを謙虚に聞く。多様性 • 正解があると思わない。探求しつづける

Slide 48

Slide 48 text

チーム 作業のススメ • 1つの課題を別の知見・頭脳を使って 試行錯誤することで、より短期間に 解決策を探しやすい • その場で会話することによる、 リアルタイムでの Output と レビュー • Team Building

Slide 49

Slide 49 text

Workshop - おススメ 手順 • 仮説を文章化する • 説明変数の表を作成する • 5W2H で抜け漏れを探す • 説明変数 でデータの分割・分類などを検討 • データの場所 – どこに当該データがあるのか? • データを Power BI に取り込む • Power Query で最低限の加工をする • Power BI でグラフを作成する データ自身が変 データから気づきがあって 追加・修正したい

Slide 50

Slide 50 text

・基礎集計で既存のデータの傾向を解釈。その後、その傾向をヒントに追加の説明変数を 5W2H で洗い出す ・例)小売販売予測データ 観点5W2H 説明変数 データ元 曜日 カレンダー 土日祝日 カレンダー 開店経過年数 店舗 ・・・ 店舗立地 店舗 店タイプ 店舗 ・・・ 顧客性別割合 顧客、POS 顧客年代割合 顧客、POS ・・・ 定期販促 販促 特別販促 販促 ・・・ Why?(なぜ) ・・・ When?(いつ) Where?(どこ) Who?(誰が) What?(何を) 観点5W2H 説明変数 データ元 天気 気象 最高気温 気象 降水量 気象 平均湿度 気象 体感温度 気象 ・・・ 前年売上 POS 前3ヶ月売上平均 POS 1ヶ月来店客数 POS ・・・ How? (どんな、どうやって) How much? (どれだけ) データ (説明変数) の洗い出しの考え方

Slide 51

Slide 51 text

データの洗い出し例 No. アイテム 観点5W1H 現状データ 有無 データ粒度 何年前からの データがある? なぜ予測に関連する可能性あると思うか? データソース 1 地域 Where(どこ) あり マスタ 固定情報 基礎集計で地域によって訪日外客数のボリュームや 伸びの相関あり 国マスタ 2 人口 How(どれだ け) あり annual 2020年 対象国の人口は訪日ボリュームに関係あり https://memorva.jp/ranking/unfpa/who_whs_population.php 3 公用語 What(何・どん な) なし マスタ 固定情報 公用語関係あるかな?英語圏は訪日しやすいとか https://novanexus.jp/information/language-related- information/ 4 対象国通貨の為替 How(どれだ け) あり monthly 2002~2022年 円安?円高?によって訪日外客数に影響ありそう 為替相場情報 | みずほ銀行 (mizuhobank.co.jp) 5 日本⇔対象国との距離 How(どれだ け) なし マスタ 固定情報 日本⇔対象国との距離は訪日しやすさに関係あり そう https://rinist.me/entry/819/ 6 緯度 Where(どこ) なし マスタ 固定情報 北半球?南半球?赤道近くどこらへんにある国か によって 訪日時期や好みが関係ありそう https://amano-tec.com/data/download.php 7 GDP成長率(実質) How(どれだ け) なし annual 1960~2021年 (欠損あり) 対象国の経済状況は旅行等の国民行動に影響 がありそう GDP growth (annual %) | Data (worldbank.org) 8 消費者物価指数 How(どれだ け) なし annual 1960~2022年 対象国の経済状況は旅行等の国民行動に影響 がありそう Consumer price index (2010 = 100) | Data (worldbank.org) 9 対象国⇔日本離発着数 How(どれだ け) なし annual 2015~2022年 対象国⇔日本の直行便離発着数は訪日しやすさ に関係ありそう https://www.mlit.go.jp/koku/koku_fr19_000005.html 1 月 When(いつ) あり monthly 2003~2022年 基礎集計で国によって訪日の多い月の特徴が見え たから 1 過去の訪日外客数 How(どれだ け) あり monthly 2003~2022年 訪日外客数・出国日本人数データ|統計・データ|日本政府観光 局(JNTO) 2 過去の訪日外国人の国内流動 (目的) Why?(なぜ) あり annual 2014~2019年 対象国が何を目的に訪日するかは関係ありそう 総合的な交通体系を目指して:集計データファイル - 国土交通省 (mlit.go.jp) 3 過去の訪日外国人の国内流動 (行動) Where(どこ) あり annual 2014~2019年 訪日外国人の国内流動(行動)データは関係あ りそう 総合的な交通体系を目指して:集計データファイル - 国土交通省 (mlit.go.jp) 1 コロナ感染者数 How(どれだ け) なし Daily 2020年~現在 コロナ流行後は対象国及び日本の感染者数推移 が訪日に関係ありそう WHO Coronavirus (COVID-19) Dashboard | WHO Coronavirus (COVID-19) Dashboard With Vaccination Data https://covid19.who.int/WHO-COVID-19-global-data.csv 2 日本の入国制限情報 How(どれだ け) なし 国名コード マスタ 固定情報 http://www.kc.tsukuba.ac.jp/ulismeta/metadata/standard/cnt ry_code.html

Slide 52

Slide 52 text

演習 (6) データ分析を楽しむ! – 残り時間 データ持参頂いた方 • 仮説を文章化する • 説明変数、目的変数の データソースを探す • Power BI Desktop に読み込む。 データ加工->可視化を繰り返す • 途中出てきた発見は、必ずメモする • それは仮説の検証でもあります • 場合によっては仮説を見直します データ持参頂いていない方 • 訪日外客数データ のハンズオン テキストの続きを行う #データ分析 #PowerBI

Slide 53

Slide 53 text

ChatGPT

Slide 54

Slide 54 text

Assistants API • Application と Model と2つの面がある ChatGPT機能強化の方向性 ChatGPT マルチモーダル Foundation Model Application Service Completion API Threads Tools Code Interpreter Function Calling Function Calling

Slide 55

Slide 55 text

• ChatGPT Plus (有償版) 参加ユーザーのみ • ChatGPT のPluginの一つ • セッションのタイムアウトあり • GTP-4 のトランザクション回数上限あり • 50回 / 3時間 (2023年7月下旬現在) • ファイルのアップロードとダウンロード • 512 MB まで • 1000個まで • Python のコード生成 • インターネットの接続は出来ない • Python のコード実行 • 可能な範囲でのエラーの修正 OpenAI – Code Interpreter ChatGPT plugins (openai.com) Beta

Slide 56

Slide 56 text

データ分析実行 と PowerPoint 作成 [ChatGPT Hack] Code Interpreter で訪日外客者数のデータ分析と PowerPoint のファイルを作ってみた - Qiita ファイルアップロード と Prompt Insight と グラフ 作成 PowerPoint 作成 Beta

Slide 57

Slide 57 text

データの加工 (クレンジング、前処理) も… [ChatGPT Hack] Code Interpreter で、訪日外客者数 Excel ファイルのデータ加工 (データクレンジング・前処理)をやってみた - Qiita ファイルアップロード と Prompt 結果の基礎解析 作成したデータセット Beta

Slide 58

Slide 58 text

タスクを手伝ってくれる優秀なチームメンバー データ分析のシナリオ例 これまで ChatGPT + Code Interpreter 仮説の 文章化 データ収集 データの理解 データ変換 可視化 (グラフ作成) 気づきを 文章化 レポート作成 仮説の 文章化 データ収集 データの理解 データ変換 可視化 (グラフ作成) 気づきを 文章化 レポート作成 データ構造は 指定した方がいい データの内容の理解は ある程度任せられる 最も退屈で大変 ChatGPT 仮説の 文章化 データ収集 データの理解 データ変換 可視化 (グラフ作成) 気づきを 文章化 レポート作成 ネタから作成 ネタから作成

Slide 59

Slide 59 text

生産性を高め、創造性を引き出す Copilot for Microsoft 365 Microsoft Graph - ユーザーのデータ- 大規模言語 モデル (LLM) Microsoft 365 アプリ 自然言語 インターネット

Slide 60

Slide 60 text

セキュリティ コンプライアンス プライバシー 責任ある AI マイクロソフトの包括的なアプローチに基づいて構築 Copilot for Microsoft 365