Upgrade to Pro — share decks privately, control downloads, hide ads and more …

需要予測プロジェクトの進め方とモデルの考え方 / Ideas for conducting demand forecasting project and building ML model

需要予測プロジェクトの進め方とモデルの考え方 / Ideas for conducting demand forecasting project and building ML model

2021年6月4日開催 Women in Data Science Tokyo @ IBM
DATA SCIENTIST TALK#1資料
Speaker: 石田 明日香
マネージャー /データサイエンティスト
コグニティブ・アナリティクス
グローバル・ビジネス・サービス
日本アイ・ビー・エム株式会社

https://widstokyoibm2021.splashthat.com/

8e308462954f8c38cc60dabb8b7bc6a3?s=128

wids-tky-i

June 04, 2021
Tweet

Transcript

  1. © 2021 IBM Corporation 2021年6⽉4⽇ ⽇本アイ・ビー・エム株式会社 ⽯⽥ 明⽇⾹ WiDS2021 需要予測プロジェクトの進め⽅

    とモデルの考え⽅
  2. 本セッションのSNS投稿について SNS投稿︓ 全てOK OK: テキストによる⽂字のみの投稿 OK: スクリーンショットの画像/動画を含んだ投稿 ハッシュタグ: #WiDS2021 #WiDSTokyoIBM

  3. © 2021 IBM Corporation 3 本⽇お話すること… 前提 • 本⽇お話する内容はあくまで経験に基づいた個⼈的⾒解です。 •

    多⾓的に検証できていませんので、優しい⽬で⾒ていただければと思います。 (ご意⾒、アドバイス⼤歓迎です︕) 本⽇お話したいこと • 個⼈的なプロジェクトの進め⽅、失敗経験、アドバイスなど 本⽇お話しないこと • モデルの種類、アルゴリズム
  4. © 2021 IBM Corporation 4 ⾃⼰紹介 nデータ分析を使⽤したコンサルティング部⾨に所属。アナリティクスを活⽤した分析、シス テム開発、施策⽴案などをサポートしております。 <略歴> •

    B2C企業を中⼼に、Analyticsを活⽤したコンサルティングを得意とする • ⼤学等へのデータサイエンス育成講座、講演など実施 <主なプロジェクト経験> • ⼤⼿動画配信 コンテンツレコメンドエンジン開発、サービス構想策定 • ⼤⼿⼩売業 売価最適化 • ⼤⼿重⼯業 倉庫データ分析、⾃動倉庫クレーン回転数削減策⽴案 • ⼤⼿エンタメ 中古機稼働予測、客数予測 • ⼤⼿飲⾷ 来客数予測、出店物件判断 • ⼤⼿保険 道路逆⾛検知分析 • NPO団体 分析に基づく会員活性化⽀援 など多数プロジェクトを経験 ⽇本アイ・ビー・エム グローバルビジネスサービス事業本部 Cognitive & Analytics マネージャー データサイエンティスト ⽯⽥ 明⽇⾹(Asuka Ishida) <公開事例> エイベックス通信放送、アナリティクス 活⽤とSoftLayerの採⽤で、dTV のレコメンド基盤を導⼊ プレスリリース︓https://www- 03.ibm.com/press/jp/ja/pressrelease/48426.wss 動画︓ https://www.youtube.com/watch?v=BIy5isQOXXw 【業界初】テレマティクス技術を活⽤ した事故対応システム 「テレマティク ス損害サービスシステム」の提供 プレスリリース︓https://www- 03.ibm.com/press/jp/ja/pressrelease/55280.wss
  5. © 2021 IBM Corporation 5 1 需要予測プロジェクトの進め⽅ 3分 1-1 構想策定

    5分 1-2 PoC 20分 1-3 モデル改善 5分 1-4 簡易ツール化・実証実験 5分 1-5 システム化 2分 2 まとめ 5分
  6. © 2021 IBM Corporation 6 需要予測プロジェクトの進め⽅ ーフェーズの切り⽅ n 需要予測プロジェクトでは、主に5つのフェーズに区切り段階的に業務改⾰を実現していきます。 構想策定

    PoC (Proof of Concept) モデル改善 簡易ツール化・ 実証実験 システム化 ⽬的 期間(例) フェーズ 企業の課題を洗い出し、ロードマップを作成する。データ 分析でアプローチ可能な課題を特定する モデルの初版を構築し、仮説が成⽴するかを検証 モデルを改善し予測精度を向上 簡易的なツールを作成し、帳票出⼒や実証実験により 実業務に適⽤した際の効果を検証 システムを構築し本格的に業務で使⽤する 1-2カ⽉ 3ヶ⽉ 3ヶ⽉ 1-2カ⽉ 半年程度 (システム規模による)
  7. © 2021 IBM Corporation 7 1 需要予測プロジェクトの進め⽅ 3分 1-1 構想策定

    5分 1-2 PoC 20分 1-3 モデル改善 5分 1-4 簡易ツール化・実証実験 5分 1-5 システム化 2分 2 まとめ 5分
  8. © 2021 IBM Corporation 8 構想策定で⾏うこと n 構想策定で⾏うことを記載します。 # タスク

    概要 1 課題ヒアリング 複数の担当者に業務に関する課題をヒアリング 2 課題の整理 ヒアリング内容を構造化、業務フローのAsIs/ToBeの 記載するなどして、課題を整理 3 データ調査 データ分析を⽤いてアプローチ可能なタスクは、どのよう なデータを利⽤可能か調査 4 アプローチ検討 分析⽅法やモデル構築のアプローチを検討する(使⽤ データや説明変数、予測の⼿順など) 5 課題優先順位の作成 課題の難易度、インパクト、データの有無などを考慮し 取り組み優先順位を作成 6 ロードマップ作成 プロジェクト期間と実現時期を提⽰ 7 期待効果算出 課題を解決できる場合の期待効果を概算する(売上 向上、コスト削減) 分析案件に限らず企業の課題を洗 い出す(戦略コンサルと協業も〇) 業務の課題をモデルで解くべき問題 に落とし込む 超概算でもよいので⾦額を出す 補⾜1 システム 化 構想 策定 PoC モデル 改善 簡易ツール 実証実験 コメント ⽬的 企業の課題を洗い出し、ロードマップを作成する。 データ分析でアプローチ可能な課題を特定する
  9. © 2021 IBM Corporation 9 構想策定 補⾜1︓アプローチ検討例 n 飲⾷店チェーン様 新店出店のための来客数予測

    解くべき課題 あるエリアに飲⾷店を出店したい。物件候補がA、B、Cとあるとき、どの物件 に出店するべきか。 物件C 物件B 物件A <物件A> 賃借料︓150万 広さ︓60平⽶ 駅からの距離︓徒歩1分 <物件B> 賃借料︓80万 広さ︓40平⽶ 駅からの距離︓徒歩7分 <物件C> 賃借料︓60万 広さ︓120平⽶ 駅からの距離︓徒歩15分 ⼀⻑⼀短あり 選びづらい・・・ ⾼い 狭い 遠い 予測来客数 100⼈/⽇ 予測来客数 60⼈/⽇ 予測来客数 90⼈/⽇ 予測利益 30万円/⽇ 予測利益 20万円/⽇ 予測利益 50万円/⽇ 儲かる店舗が 分かる︕ 分析 アプローチ 客数を予測し客当たり単価、原価、光熱費、⼈件費などを考慮し利益を計 算することで、最も利益が⽣まれる店舗を求める 予測利益 = 予測客数×客単価 - (原価+光熱費+⼈件費)
  10. © 2021 IBM Corporation 10 1 需要予測プロジェクトの進め⽅ 3分 1-1 構想策定

    5分 1-2 PoC 20分 1-3 モデル改善 5分 1-4 簡易ツール化・実証実験 5分 1-5 システム化 2分 2 まとめ 5分
  11. © 2021 IBM Corporation 11 PoCで⾏うこと n PoCで⾏うことを記載します。 # タスク

    概要 1 データ受領 モデルに使⽤するデータをお客様に依頼し受領する 2 基礎分析 受領データを様々な⾓度から分析し、理解を深める。 お客様社内の仮説についても検証する。 3 モデル構築 選択した説明変数を元にモデルを構築する。この時、 モデルは1種類、解釈可能なものを使⽤する。 4 精度評価 予測精度の評価を⾏う 5 残課題整理 残課題を整理し次フェーズで精度を改善するための 仮説、アクションを提⽰する 基礎分析を軽視する⼈は多いが個 ⼈的には⼀番⼤事と感じる ⼩さく、基本的なモデルから開始し て徐々に複雑にする 外部データの使⽤も検討。内部デ ータはお客様⾃⾝でやりつくしている ことが多い 補⾜1 補⾜2 補⾜3 システム 化 構想 策定 PoC モデル 改善 簡易ツール 実証実験 コメント ⽬的 モデルの初版を構築し、仮説が成⽴するかを検証
  12. © 2021 IBM Corporation 12 PoC 補⾜1︓基礎分析の重要性 n 基礎分析はモデルを構築する上で最も重要と感じています。 “Factの積み上げ”

    ・データ的に正しいことを積み上げないと、後々⼤どんでん返しが起こる ・モデルの精度向上に⾏き詰ったときに、基礎分析に助けられた経験は数知れない ⼤事にしていること データの把握 のための分析 ⽬的変数との相関 お客様の 仮説の検証 • データを⾊々な⾓度から集計(合計、平均、⽇単位、週単位) • データの背景にある活動にも想像を膨らませて • ⼤事なのは、お客様と同じくらいデータからストーリーが語れるようになること どんなことを⾏うか • ⽬的変数と、関わりが深いと考えられる変数の単相関分析 • 思い込みによる変数選択を排除 • お客様担当者の勘と経験を⾃動化することがモデル化 • お客様⾃⾝が「これは関係がある」というものが、正しいことが多い • 中には都市伝説もあり…。検証するとお客様の認識を変えられる。
  13. © 2021 IBM Corporation 13 PoC 補⾜2︓モデル構築の詳細(1/3) n モデル構築のアプローチと失敗例を⽰します。 サイクル

    原理を考える ⽬的変数はどのような原理が背景にありその 結果になっているのか︖を考える 例)来客数 = 通⾏量×通⾏⼈の質 モデル構築 (初版) シンプルで解釈可能な最低限のモデルを作成 (説明変数は最⼩、線形モデルがおすすめ) 誤差を観察・分析 モデルをよく観察し、誤差を⽣んでいる 箇所の仮説を考える 仮説の簡易検証 仮説と残差の相関分析 (Quick and Dirty) モデル投⼊ 効果が期待できる説明変数を優先度 の⾼いものからモデルに投⼊ 結果確認 結果を⾒る前に「どこに効果があるは ずか︖」を予想し、思った結果が得られ ているかを確認する アプローチ 個⼈的な失敗例 • とりあえずモデルを作ってみたら⽭盾だらけ で説明のつかないモデルに… • 最初から解釈が難しいモデルを使⽤したこ とでモデルの精度向上が⼿詰まりに… • とりあえず全部つっこんで作ったモデルは実 質効果のない説明変数が多かった。いた ずらにお客様に⽤意してもらうデータ数を増 やしてしまった… • やみくもにモデル改善を試していて、何が 良いのか分からなくなり、精度改善できな いままお客様への報告⽇が近づいてきた… (精神汚染) どんなことを⾏うか
  14. © 2021 IBM Corporation 14 モデル改善 補⾜2︓モデル構築の詳細(2/3) n その他、モデル構築で⼤事にしていることを記載します。 ⼤事にしていること

    モデルを変えることで本質的な課題は解決しない 解釈可能な、シンプルなモデルを当⾯は使って精度を上げる 筋の良い仮説*が出せるかどうかが、能⼒の⾼さであり、精度向 上への近道(と思っている) (*)筋の良い仮説︓これまでに積み上げてきた事実に⽴脚し、無理なく現象を説明で きる仮説 モデル(数字)をこねくり回して答えに合わせようとしない 精度が出ない場合には、原理に⽴ち返り、仮説を修正する 安易にモデルを変えない 良い仮説 = 能⼒の⾼さ 原理に⽴ち返る
  15. © 2021 IBM Corporation 15 PoC 補⾜2︓モデル構築の詳細(3/3) n モデル構築の際に重要な”Quick and

    Dirty”の考え⽅について、補⾜します。 “Quick and Dirty” 汚くても良いので簡単に素早く仮説を検証する • 残差との相関はあるか︖(「この部分に効果があるはず」と思う期間を取りだして) • 符号は想定通りか︖(正の相関、負の相関、どちらを期待しているか) → 簡単な検証で⽴証できない説明変数はモデルに⼊れても効果を発揮しない(と思っています) ⼤事にしていること 作り込んできたモデルで、仮説の説明変 数が弱いながらも残差との相関あり。 単独では弱くても、モデルに⼊れると他 の説明変数の誤差が⼩さくなり全体とし て⼤きな改善効果につながることも。 <実際にあった改善の例> どんなことを⾏うか
  16. © 2021 IBM Corporation 16 PoC 補⾜3︓使⽤したことのある外部データ n 外部データを積極的に使⽤することで、お客様にとって新しい価値を提供できると考えます。 ※費⽤が発⽣する外部データを使⽤するには、お客様と注意深く議論する。お客様も合意している強い仮説に基づいており、改善の確度が⾼

    い場合や、データを絞ることで安価に購⼊できる(効果が認められた場合に本格的に購⼊する)場合、購⼊に踏み切る No カテゴリ データ名 概要 公開 データ 取得元 1 ⼈⼝ 昼間⼈⼝・夜間⼈⼝ 市区町村の昼と夜の⼈⼝ 〇 e-Stat 2 企業数 市区町村にある企業数 〇 e-Stat 3 世帯数 市区町村の⼈数別世帯数 〇 e-Stat 4 駅利⽤者数 各駅の利⽤者数 企業より購⼊ 5 ⼈流 主要駅⼈流減少率 GPS情報に基づく駅周辺の⼈⼝減少数 〇 内閣府 6 GPSログデータ 特定エリアのGPSログデータ 企業より購⼊ 7 地理 建物情報と位置情報 建物のカテゴリと緯度経度 企業より購⼊ 8 感染症 インフルエンザ感染者数 週別のインフルエンザの罹患者数 〇 国⽴感染症研究所 9 気象 短期気象予報 IBM気象データ IBMより購⼊ 10 ⻑期気象予報 気象庁の発表する3ヶ⽉予報 〇 気象庁 11 販売 マーケットデータ 商品の消費者販売データ(推計) 企業より購⼊ 12 POSデータ ⼩売店のPOSデータ 企業より購⼊ “外部データを使⽤し、新しい価値を提供する” 外部データと社内データを組み合わせられるのも、データサイエンティストの強み ⼤事にしていること
  17. © 2021 IBM Corporation 17 1 需要予測プロジェクトの進め⽅ 3分 1-1 構想策定

    5分 1-2 PoC 20分 1-3 モデル改善 5分 1-4 簡易ツール化・実証実験 5分 1-5 システム化 2分 2 まとめ 5分
  18. © 2021 IBM Corporation 18 モデル改善で⾏うこと n モデル改善フェーズで⾏うことを記載します。 # タスク

    概要 1 課題の再整理 前フェーズで挙げられた課題や、新たに分 析を経て得られた課題を再整理 2 モデル改善 PoCの同様のアプローチ 3 ベストフィットモデル の特定 説明変数が確定した段階でモデルを複数試 し、ベストフィットモデルを特定する 4 期待効果算出 精度に応じて改善効果が異なる場合、ここ で再度期待効果を⾒積り、簡易的な業務へ の適⽤に向けて判断を仰ぐ お客さんとのディスカッションの中から 改善アイディアを思いつくことも モデルをあれこれ試すのはここで初め て⾏う システム 化 構想 策定 PoC モデル 改善 簡易ツール 実証実験 補⾜1 ⽬的 モデルを改善し予測精度を向上 コメント お客様の業務に沿った期待効果指 標を使うこと ×︓MAPEいくつ 〇︓売上N万円向上
  19. © 2021 IBM Corporation 19 モデル改善 補⾜1︓お客様とのディスカッションにより改善した例 n お客様と⼀緒にデータを眺めることで、⼤きなモデルの改善につながった経験があります。 お客様と⼀緒にデータを眺める

    ちょっとした「なんだろう︖」は思わぬ改善につながる 現象 お客様の回答 対応策 出荷の明細を細かく⾒ると、 ある卸に出荷していた倉庫が変 わっていた。(これまで◦◦倉 庫だったが、ある時期から△△ 倉庫に変わっていた) 出荷する倉庫は頻繁に変わる (倉庫の合計出荷数が同程 度でも、内訳は変わっている) 最新で取引のある倉庫と卸の組合せ を元に、過去データを動的に組み替え、 学習するモデルを作成 →精度向上 ⼤事にしていること ︖ 実際にあった例
  20. © 2021 IBM Corporation 20 1 需要予測プロジェクトの進め⽅ 3分 1-1 構想策定

    5分 1-2 PoC 20分 1-3 モデル改善 5分 1-4 簡易ツール化・実証実験 5分 1-5 システム化 2分 2 まとめ 5分
  21. © 2021 IBM Corporation 21 簡易ツール化・実証実験で⾏うこと n 簡易ツール化・実証実験で⾏うことを記載します。 # タスク

    概要 1 実験計画 対象商品、実験期間を決定。仮説を⽴証する ための評価指標も合意する 1 帳票設計 どのような帳票を出⼒すると使いやすいか、 お客様と検討する 2 設計・開発・テスト 帳票を出⼒するツールを作成する。なるべく 簡素に短期間で実現する 3 業務適⽤、 データ収集 実業務で使⽤を開始。帳票を使⽤した後の業 務を評価するためデータを取集 4 検証 業務適⽤による改善効果を検証 いきなりシステムを作らない Excelなどでレポートを出⼒する テストはちゃんとしよう(システム化 判断に向けて評判を落とさない) 定期的にヒアリングをして使⽤感、 課題感を素直に聞く 効果を検証するためには綿密な計 画が必要 これまでに積み上げてきた仮説が正 しければ、効果が⽣まれているはず システム 化 構想 策定 PoC モデル 改善 簡易ツール 実証実験 ⽬的 簡易的なツールを作成し、帳票出⼒や実証実験により実業務に適 ⽤した際の効果を検証 コメント いきなり⼤きなシステムを作らない 素早く、簡単に、最⼩限の機能で初めて、徐々に⼤きくしていく ⼤事にしていること
  22. © 2021 IBM Corporation 22 1 需要予測プロジェクトの進め⽅ 3分 1-1 構想策定

    5分 1-2 PoC 20分 1-3 モデル改善 5分 1-4 簡易ツール化・実証実験 5分 1-5 システム化 2分 2 まとめ 5分
  23. © 2021 IBM Corporation 23 システム化で⾏うこと n システム化で⾏うことを記載します。 # タスク

    概要 1 構想策定 作成したモデルが他部⾨でも価値を提供できない か、広い範囲でアイディア募集 2 要件定義 構想策定で得られたニーズに対して、業務要件、 機能要件、⾮機能要件などを整理 3 開発 システム開発 4 テスト CD、UT、ITなどのテストを実施 5 リリース システムをリリースし複数部⾨で業務に適⽤ モデルの更新⽅法の検討も忘れず に(古くなる⼀⽅ではNG) 画⾯開発を伴うとき、MOCを作る なるべく多くの活⽤ケースを構想し、 改善効果を波及する システム 化 構想 策定 PoC モデル 改善 簡易ツール 実証実験 ⽬的 システムを構築し本格的に業務で使⽤する コメント システム化で⼤事なことは、 ⼀般的なシステム構築プロジェクトの解説書が詳しいので省略。。。
  24. © 2021 IBM Corporation 24 1 需要予測プロジェクトの進め⽅ 3分 1-1 構想策定

    5分 1-2 PoC 20分 1-3 モデル改善 5分 1-4 簡易ツール化・実証実験 5分 1-5 システム化 2分 2 まとめ 5分
  25. © 2021 IBM Corporation 25 まとめ n これまでに記載してきた中で、特にお伝えしたいことをまとめます。 構想策定 •

    分析に限らず、企業の課題を洗い出す(戦略コンサルと協業も〇) • 企業の課題をモデルで解くべき課題に落とし込む PoC (Proof of Concept) • 基礎分析は“Factの積み上げ”を⾏うため • 良い仮説=能⼒の⾼さ • 迷ったら原理に⽴ち返る • Quick&Dirty、汚くても良いので簡単に素早く検証する • 外部データを使⽤し、新しい価値を提供する モデル改善 • お客様と⼀緒にデータを眺める • モデルを複数試す場合には、説明変数が出そろってから⾏う 簡易ツール化・ 実証実験 • いきなり⼤きなシステムを作らない システム化 • ー
  26. © 2021 IBM Corporation 26 End of File