Slide 1

Slide 1 text

データの読み方 コト始め - Python 勉強する前に、Excel で出来る事もたくさんある! - 畠山 大有 | Daiyu Hatakeyama Architect && Software Engineer && Applied Data Scientist Microsoft Japan /dahatake @dahatake /in/dahatake /dahatake /dahatake

Slide 2

Slide 2 text

素材 編集 考査 編成 分析 オンエア 配信 企画 女子高生層に 人気のあるタレントは Yさん だよ SNSで、 Microsoft が 流行っているって テレビって お年寄りしか 観ていないって ミュージシャンのX さん、 zzz 県で 爆発的に人気って聞いた コールセンターに あの報道良かったって 連絡あったみたい 番組連動をCloud でやれば、視聴率 増えるって サイマル配信して、 本当にテレビに若者が 返ってくるの? VoDの会員数は 増やすために XXX のコンテンツ出して みようか? 何に基づいて、 会社のリソース (人・モノ・カネ・時間) を使う「判断」をしているのですか?

Slide 3

Slide 3 text

データが ビジネスを動かす 新しい原動力になる

Slide 4

Slide 4 text

フェルミ推定 Fermi Problems

Slide 5

Slide 5 text

Chicago 市には 何人のピアノ調律師がいますか? 200 調律師 1000 調律回数 毎年必要な 調律回数 20万 ピアノ 毎年調律が必要 400万 世帯 50 営業週/年 5 営業日/週 8 営業時間/日 2 作業時間/調律 20軒に1軒は ピアノがある ざっくり 回答 (移動時間 など引いて) Chicago 市の人口は約900万人

Slide 6

Slide 6 text

私たちは正確な答えを知らない 正確な答えを見つけるには、大きなコストがかかる。 特に多くの時間が必要になる可能性が高い • ラフな見積もりを作成する これらは正確である必要はない。1桁以内に収まれば十分 幾つかの現実的な見積もり用の変数と共に... あなたの見積もりを使用して、 回答に向かって作業する How this works

Slide 7

Slide 7 text

フェルミ推定 現実世界の問題に対する有用な近似値を見つける 利点 簡単かつ迅速に計算 正確なデータへの依存度が低い 定量化可能なエラーマージン 決定を下すのに十分 ⚠ 実践投入の前に、あなたの仮定をしっかりとテストする必要あり 主な機能 近似値を作成する 推測を正当化する 平均/分散/境界を考慮する 桁の精度を目指す

Slide 8

Slide 8 text

「DXを導入するので、社内に データサイエンティスト を育成します」 「Python のトレーニングコースを作成します」

Slide 9

Slide 9 text

どうしたらいいんでしょうか?

Slide 10

Slide 10 text

Python は プログラミング言語 スクリプト言語 豊富なデータ分析用 パッケージ (習得が容易) 実装が容易 属人化 バージョンアップで 互換性は頻繁に失われる バージョン固定のためのコンテナ化が推奨 コンテナ の知識・インフラ プログラムの 知識は必須 大きなデータも 扱える (PySpark) Spark インフラ それは… GUI ツールで出来なくて、Python じゃないと処理が難しいのか?

Slide 11

Slide 11 text

No-Code / Low-Code のインパクト これまで Excelが ナレッジワークを変えてきたように、 Low-Code・No-Code 技術のようなツールの登場によって、 現場のエキスパートが 現場でオートメーションを実現し、製造業の生産性を一気に変えるようなパラダイム変化が起こっている Excel コードを書かずとも出来るコトは多々ある! Power BI Desktop (無料版)

Slide 12

Slide 12 text

Cloud Only の弊害 Data を持ち出せない インターネットへの接続 Sustainability の観点 手元の PC/Mac 以外に 稼働している Computer PC だけかつオフラインでも作業が出来る!😊 Data は PCの中 インターネットへの接続不要 手元の PC/Mac のみ フェーズを踏める。 うまくいったら Cloud も使えばいい ほぼ無料のアプリのみ Excel Power BI Desktop (無料版)

Slide 13

Slide 13 text

Cloud only の弊害 Data を持ち出せない インターネットへの接続 Sustainability の観点 手元の PC/Mac 以外に 稼働している Computer PC / Mac のみでのハンズオン/ワークショップを実施中 Data は PCの中 インターネットへの接続不要 Sustainability の観点 手元の PC/Mac のみ フェーズを踏める。 うまくいったら Cloud も使えばいい ほぼ無料のアプリのみ それは PC で処理できない Big Data なんでしたっけ? Excel Power BI Desktop (無料版)

Slide 14

Slide 14 text

データを読む 最初の一歩

Slide 15

Slide 15 text

番組のディレクター 仕事: 番組の視聴数を最大化することで、 番組の価値を最大化する やりたい事はかなり一般的 畠山 さん

Slide 16

Slide 16 text

畠山 さんの 視聴 ログ データ 日付 再生 回数 視聴者 ID 番組 説明 コスト カテゴリー 番組名 など… Viewer minutes データをここまで整形するのも実は一苦労…

Slide 17

Slide 17 text

3つの分析パターン Viewer minutes 何が起こっているのか? 現状把握 なぜそれが発生したのか? 何の 相関関係があるのか? 次に何をすればいい? そのための 予測は? 統計と機械学習 のアプローチ

Slide 18

Slide 18 text

• 各番組の視聴率は? • 視聴トップ10の中で増えたのは? • 視聴者数と演者の関係は? • テレビとネットでの視聴数に 影響のある要因は? • 視聴者数最低の番組は 何が原因? • 次の四半期の視聴数は どの要因で増やせる? 何を知りたいのか? = 仮説 ビジネス上の知りたい事を考えるのが、難しい 何が起こっているのか? 現状把握 なぜそれが発生したのか? 何の 相関関係があるのか? 次に何をすればいい? そのための 予測は?

Slide 19

Slide 19 text

時系列推移を見たい 国別視聴数データ 1) 現状把握

Slide 20

Slide 20 text

データの構成比を見たい 1) 現状把握

Slide 21

Slide 21 text

データの相関を見たい 2) 相関関係

Slide 22

Slide 22 text

データを正しく使用しないと 間違った結論が出る可能性もあある http://tylervigen.com/spurious-correlations

Slide 23

Slide 23 text

この手のグラフなら Excel にもあるよね

Slide 24

Slide 24 text

Excel でもサクッと出来る! ヒストグラム 散布図なども同様 対象列を選択して [グラフ]-[ヒストグラム] 項目のデータの幅は [軸の書式設定]-[ピンの幅] などで

Slide 25

Slide 25 text

進化し続ける Excel データ分析 データの相関関係など を最適なグラフと共に 自動作成 おすすめグラフ 選択項目について 最適なグラフの提示 標準搭載された高度な分析のための データ分析 予測シート Machine Learning 組み込み済み

Slide 26

Slide 26 text

データ分析の主な作業 取得 保存 加工 可視化

Slide 27

Slide 27 text

Excel の場合 取得 保存 加工 可視化 Power Query 搭載 ファイルとして 関数 データ ツール グラフ Power Query

Slide 28

Slide 28 text

Power BI の場合 取得 保存 加工 可視化 Power Query 搭載 ファイルとして グラフ Power Query

Slide 29

Slide 29 text

レポート作成は 他の会社で任せているんだよね

Slide 30

Slide 30 text

自分たちで作るコトの価値 ビジネス要件は仮説 仮説測定の仮KPI設定 仮KPI測定の為の Proof of Concept 自前であれば、早いし、捨てやすい 記録・データは残す 人に Know-How が蓄積 Feedback を基に 素早く 軌道修正

Slide 31

Slide 31 text

最後に

Slide 32

Slide 32 text

• 何を意味しているのか? • いつ、どこで、取得したのか? • 入手漏れが無いのか? • 項目同士に関連があるのか? • 欠損や例外がどれだけ 含まれているのか? 「ゴミデータからは、 ゴミの結果しか生まれない」

Slide 33

Slide 33 text

• ビジネス上の課題の仮説 • 文章化していること • 例: 一昨年より実施している施策の売り上げ増への効果を知りたい • 生データ • 集計しないもの。計算はツールの方でいくらでも出来る • データの意味・価値の分かる人の参画 • 丸投げできない データの分析に必須な 3つの武器

Slide 34

Slide 34 text

習うより慣れよ

Slide 35

Slide 35 text

https://www.gapminder.org/

Slide 36

Slide 36 text

1 2 3 高品質な17,000のコース (日本語は900コース以上) ビジネス、テクノロジー、クリエイティブなどの多様なカテゴリー から成る学習コースをご提供 データに基づいたコース設計と パーソナライゼーション機能 リンクトインの会員データをもとにコース開発を実施 リンクトインプロフィール情報(スキル、経験等)に 基づいた推奨コースをAI機能を使い受講者に表示 マイクロラーニング 短時間でPC・モバイルからいつでもどこでも受講可能 LinkedIn ラーニング

Slide 37

Slide 37 text

Microsoft Learn Step-by-Step Achievements スムーズな学習環境 ▪ 無料 ▪ 日本語対応 ▪ ブラウザーのみでOK ハンズオン環境も含めて ▪ ダウンロード可能なサンプルコード ▪ Product/Service, 技術レベル, job role, などに応じたガイダンス ▪ Video, チュートリアル, ハンズオン ▪ スキルアップを促す ▪ ユーザー プロファイル毎に カスタマイズ www.microsoft.com/learn

Slide 38

Slide 38 text

今後の予定 + 過去のもの 日本全国 無料セッション動画・資料 Microsoft Event & Seminar www.microsoft.com/ja-jp/events

Slide 39

Slide 39 text

© Copyright Microsoft Corporation. All rights reserved. Invent with purpose.