Upgrade to Pro — share decks privately, control downloads, hide ads and more …

分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47

horihorio
June 27, 2015
10

分析のビジネス展開を考える―状態空間モデルを例に @TokyoWebMining #47

horihorio

June 27, 2015
Tweet

Transcript

  1. 自己紹介 Twitter ID @horihorio お仕事 データ分析コンサルタント 興味 多趣味。その痕跡 → 私の読書リスト

    統計/DB/R/マーケティング/金融/会計 過去の発表 ここ 最近の出来事  分析の仕事に関わるあらゆるお仕事をやっています ただし、実際の分析を除く…  自宅でもEC2でXBRLの前処理、…って何してるの?  相変わらず、3歳児な子どもに大絶賛嫌われ中… 2015/6/27 分析のビジネス展開を考えるー状態空間モデルを例に 1 / 47
  2. 目次 1. はじめに 2. 状態空間モデルの推定方法 3. 分析のビジネス展開を考える ―状態空間モデルを例に 4. まとめ

    ※ 本発表の内容と意見は発表者個人に属するものであり、発表者が所 属する企業の公式見解を示すものではございません 2015/6/27 2 / 47 分析のビジネス展開を考えるー状態空間モデルを例に
  3. 状態空間モデルって 2015/6/27 6 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 中身が見える、分かりやすいモデルの一例 オンラインモールの購買単価 (𝑦𝑡 )

    = 𝑤𝑡 +55 × 𝑆𝐸𝑂 100万 + 48 × リスティング 100万 +13 × アプリ𝐷𝐿数 1000 + 20 × 休日数 ※数字や変数はフィクションです(参考先) 購買単価(𝑦𝑡 ) 𝑇 モデル構築期間 予測期間 予 測 範 囲
  4. データ分析の仕事で思うこと 2015/6/27 9 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 1. データ分析は信用されない、がスタート地点 データください(結構大変)、結果は保証出来ません →

    予算ください、の上申の優先順位は下がりがち 依頼者は分析者より情報劣位な「レモン市場」 → そのままでは「悪貨が良貨を駆逐する」に陥る 2. そんな中、成功例が出るのは嬉しいこと 「データサイエンスブーム」で話がしやすいのは確か 3. ただ、形式的な真似はそこそこ容易に 数式は書籍や論文での公開情報、R/Python等はフリー、 計算資源もAWSなりで簡単に調達、あとは人材だけ
  5. 状態空間モデルとは 2015/6/27 12 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 線型ガウス型とすると、次の式で表現される システムモデル 𝑥𝑡 =

    𝐹𝑡 𝑥𝑡−1 + 𝐺𝑡 𝑣𝑡 , 𝑣𝑡 ∼ MV𝑁(0, 𝑄𝑡 ) 観測モデル 𝑦𝑡 = 𝐻𝑡 𝑥𝑡 + 𝑤𝑡 , 𝑤𝑡 ∼ MV𝑁(0, 𝑅𝑡 ) • 𝑦𝑡 :観測される時系列データ • 𝑥𝑡 :状態ベクトル
  6. 同時確率を分解する 2015/6/27 13 / 47 分析のビジネス展開を考えるー状態空間モデルを例に ベイズの定理 P A, B

    = P A B P(B) を用いると p 𝑥1:𝑇 , 𝑦1:𝑇 = p 𝑦𝑇 |𝑦1:𝑇−1 , 𝑥1:𝑇 p 𝑦1:𝑇−1 , 𝑥1:𝑇 = p 𝑦𝑇 |𝑦1:𝑇−1 , 𝑥1:𝑇 p 𝑥𝑇 |𝑦1:𝑇−1 , 𝑥1:𝑇−1 p 𝑦1:𝑇−1 , 𝑥1:𝑇−1 = ⋯ = p 𝑦𝑇 |𝑦1:𝑡−1 , 𝑥1:𝑡 𝑇 𝑡=1 p 𝑥𝑇 |𝑦1:𝑡−1 , 𝑥1:𝑡−1 システムモデル 観測モデル システム、観測ベクトルが 与えられたときの確率 Notation: 𝑥1:𝑇 = {𝑥1 , 𝑥2 , ⋯ , 𝑥𝑇 }
  7. 2つのマルコフ性 2015/6/27 14 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 同時確率の分解は、マルコフ性を仮定し、計算可能 な形へ変形したといえる 仮定1:𝑥𝑡 の分布は、𝑥𝑡−1

    のみで定まる p 𝑥𝑡 |𝑦1:𝑡−1 , 𝑥1:𝑡−1 ⟹ p 𝑥𝑡 |𝑥𝑡−1 仮定2: 𝑦𝑡 の分布は、𝑥𝑡 のみで定まる p 𝑦𝑡 |𝑦1:𝑡−1 , 𝑥1:𝑡 ⟹ p 𝑦𝑡 |𝑥𝑡
  8. GM表現上での3つの分布の違い 2015/6/27 17 / 47 分析のビジネス展開を考えるー状態空間モデルを例に • 予測分布: p 𝑥𝑡

    |𝑦1:𝑡−1 • フィルタ分布:p 𝑥𝑡 |𝑦1:𝑡 • 平滑化分布: p 𝑥𝑡 |𝑦1:𝑇 𝑥1 𝑦1 𝑥2 𝑦2 𝑥0 𝑥𝑡−1 𝑦𝑡−1 𝑥𝑡 𝑦𝑡 𝑥𝑇 𝑦𝑇
  9. GM表現上での3つの分布の違い 2015/6/27 18 / 47 分析のビジネス展開を考えるー状態空間モデルを例に • 予測分布: p 𝑥𝑡

    |𝑦1:𝑡−1 • フィルタ分布:p 𝑥𝑡 |𝑦1:𝑡 • 平滑化分布: p 𝑥𝑡 |𝑦1:𝑇 𝑥1 𝑦1 𝑥2 𝑦2 𝑥0 𝑥𝑡−1 𝑦𝑡−1 𝑥𝑡 𝑦𝑡 𝑥𝑇 𝑦𝑇
  10. GM表現上での3つの分布の違い 2015/6/27 19 / 47 分析のビジネス展開を考えるー状態空間モデルを例に • 予測分布: p 𝑥𝑡

    |𝑦1:𝑡−1 • フィルタ分布:p 𝑥𝑡 |𝑦1:𝑡 • 平滑化分布: p 𝑥𝑡 |𝑦1:𝑇 𝑥1 𝑦1 𝑥2 𝑦2 𝑥0 𝑥𝑡−1 𝑦𝑡−1 𝑥𝑡 𝑦𝑡 𝑥𝑇 𝑦𝑇
  11. 条件付周辺分布の簡易表記 2015/6/27 20 / 47 分析のビジネス展開を考えるー状態空間モデルを例に (0|0) (1|0) (2|0) (3|0)

    (4|0) (5|0) (0|1) (1|1) (2|1) (3|1) (4|1) (5|1) (0|2) (1|2) (2|2) (3|2) (4|2) (5|2) (0|3) (1|3) (2|3) (3|3) (4|3) (5|3) (0|4) (1|4) (2|4) (3|4) (4|4) (5|4) (0|5) (1|5) (2|5) (3|5) (4|5) (5|5) 状態ベクトルの時刻(𝑗) データ増加(𝑖) 1期先 予測 フィルタ リング 1期前 平滑化 p 𝑥𝑗 |𝑦1:𝑖 ≡ (𝑗|𝑖)
  12. 式で見てみる 2015/6/27 21 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 1期先予測 𝑝 𝑥𝑡 |𝑦1:𝑡−1

    = 𝑝 𝑥𝑡 , 𝑥𝑡−1 |𝑦1:𝑡−1 d𝑥𝑡−1 ∞ −∞ = 𝑝 𝑥𝑡 |𝑥𝑡−1 , 𝑦1:𝑡−1 𝑝 𝑥𝑡−1 |𝑦1:𝑡−1 d𝑥𝑡−1 ∞ −∞ = 𝑝 𝑥𝑡 |𝑥𝑡−1 𝑝 𝑥𝑡−1 |𝑦1:𝑡−1 d𝑥𝑡−1 ∞ −∞ マルコフ 性
  13. 式で見てみる 2015/6/27 22 / 47 分析のビジネス展開を考えるー状態空間モデルを例に フィルタリング 𝑝 𝑥𝑡 |𝑦1:𝑡

    = 𝑝 𝑥𝑡 |𝑦𝑡 , 𝑦1:𝑡−1 = 𝑝 𝑦𝑡 |𝑥𝑡 , 𝑦1:𝑡−1 𝑝 𝑥𝑡 |𝑦1:𝑡−1 𝑝 𝑦𝑡 |𝑦1:𝑡−1 = 𝑝 𝑦𝑡 |𝑥𝑡 𝑝 𝑥𝑡 |𝑦1:𝑡−1 𝑝 𝑦𝑡 |𝑦1:𝑡−1 ただし、分母は1時点尤度であり 𝑝 𝑦𝑡 |𝑦1:𝑡−1 = 𝑝 𝑦𝑡 |𝑥𝑡 𝑝 𝑥𝑡 |𝑦1:𝑡−1 d𝑥𝑡 ∞ −∞
  14. 式で見てみる 2015/6/27 23 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 尤度 𝑝 𝑦1:𝑇 =

    𝑝 𝑦𝑡 |𝑦1:𝑡−1 𝑇 𝑡=1 = 𝑝 𝑦𝑡 |𝑥𝑡 𝑝 𝑥𝑡 |𝑦1:𝑡−1 d𝑥𝑡 ∞ −∞ 𝑇 𝑡=1 実際は、対数尤度を用いる log 𝑝 𝑦1:𝑇 = log 𝑝 𝑦𝑡 |𝑥𝑡 𝑝 𝑥𝑡 |𝑦1:𝑡−1 d𝑥𝑡 ∞ −∞ 𝑇 𝑡=1
  15. 式で見てみる 2015/6/27 24 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 平滑化 𝑝 𝑥𝑡 |𝑦1:𝑇

    = 𝑝 𝑥𝑡 |𝑥𝑡+1 , 𝑦1:𝑡 𝑝 𝑥𝑡+1 |𝑦1:𝑇 d𝑥𝑡+1 ∞ −∞ = 𝑝 𝑥𝑡 , 𝑥𝑡+1 |𝑦1:𝑡 𝑝 𝑥𝑡+1 |𝑦1:𝑡 𝑝 𝑥𝑡+1 |𝑦1:𝑇 d𝑥𝑡+1 ∞ −∞ = 𝑝 𝑥𝑡 |𝑦1:𝑡 𝑝 𝑥𝑡+1 |𝑥𝑡 , 𝑦1:𝑡 𝑝 𝑥𝑡+1 |𝑦1:𝑡 𝑝 𝑥𝑡+1 |𝑦1:𝑇 d𝑥𝑡+1 ∞ −∞ = 𝑝 𝑥𝑡 |𝑦1:𝑡 𝑝 𝑥𝑡+1 |𝑥𝑡 𝑝 𝑥𝑡+1 |𝑦1:𝑡 𝑝 𝑥𝑡+1 |𝑦1:𝑇 d𝑥𝑡+1 ∞ −∞
  16. 状態推定の全体フロー 2015/6/27 25 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 𝜃:静的パラメータ パラメータ最適化 対数尤度 l(𝜃)

    を最大とする 𝜃 を選択 𝜃 に𝜃を固定 パラメータ固定 対数尤度 l(𝜃) を得る for 𝑡 = 1, ⋯ , 𝑇 時間更新 • 1期先予測 • フィルタリング • 1時点尤度計算 • 平滑化(ここでない場合もあり)
  17. 状態空間モデルの見せ方例 2015/6/27 27 / 47 分析のビジネス展開を考えるー状態空間モデルを例に オンラインモールの購買単価 (𝑦𝑡 ) =

    𝑤𝑡 +55 × 𝑆𝐸𝑂 100万 + 48 × リスティング 100万 +13 × アプリ𝐷𝐿数 1000 + 20 × 休日数 ※数字や変数はフィクションです(参考先) 購買単価(𝑦𝑡 ) 𝑇 モデル構築期間 予測期間 予 測 範 囲
  18. ARIMAモデルだと 2015/6/27 28 / 47 分析のビジネス展開を考えるー状態空間モデルを例に オンラインモールの購買単価 (𝑦𝑡 ) =

    𝑤𝑡 +55 × 𝑆𝐸𝑂 100万 + 48 × リスティング 100万 +13 × アプリ𝐷𝐿数 1000 + 20 × 休日数 ※数字や変数はフィクションです(参考先) 購買単価(𝑦𝑡 ) 𝑇 モデル構築期間 予測期間 予 測 範 囲 オンラインモールの購買単価(𝑦𝑡 ) = 0.82𝑦𝑡−1 + 0.61𝑦𝑡−2 + 0.3𝑦𝑡−3 イマイチ 良く分からない…
  19. その1 動的時系列 2015/6/27 35 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 困り事:時間粒度をどうするのか? 短くしたい事情 現場:

    依頼者にありがちな希望(?) モデル:予実差の修正が小さくなるため 長くしたい事情 現場: 計数作成コスト(人間の労力も含む)が高い モデル:計算負荷が大きいため 局所解なのか?の人間チェックを要する場合 も多いため
  20. その1 動的時系列 2015/6/27 36 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 「タカへの対応」は無理 → 変数は「平時」か?

    不規則に行われるキャンペーン 広告ならば、突然のバズ(例:TV番組、雑誌掲載) ひと昔のスマホ普及率の伸び → 突風下ではドローンは飛ばせない データの制約はあるか? 非ネット系は、粗い粒度でしか出ないことも では捨てるか、と言えない影響力がある 時間の間隔(やデータ選定)は、分析前に決めるのが 効率的な進行ですが、相反する事情は結構あります
  21. その2 ベイズ推定 2015/6/27 37 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 1. 色々時間を要することへの理解 「最新データを追加した/変数1つ追加しただけだから、

    すぐ出来るよね」 → データの特性や手法によっては、そうでないことも 2. p値が使えない 「色々効く変数があるのは分かった。では、統計的な 基準に基づく重要度の順序を教えてくれ」 → 重回帰ならば、p値を持ち出すところだが… → 正面突破するなら、各変数の確率分布を見せる。 ただ、普通のビジネスマンに、確率変数を腹落ち して頂くのは、結構難しいし、時間がかかる。
  22. その2 ベイズ推定 2015/6/27 38 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 3. 係数が動的に変わる事への理解・違和感 「データが追加されて係数を変えるのは、後出しジャ

    ンケンだろ。モデルは普遍的事実を表すものだろ」 → よくある話。誰しもが一度は通る道 4. (3. に関連して)予測時のパラメータはどうするか 観測方程式の係数 → 変数は見えるため、判断はしやすい システム方程式の値 → 構造は分かり得ないので、対処は決めうち? → 周期性が明らかならばARIMAモデル等もあり得るが、 それって、階層ベイズモデルでは?
  23. その3 線形回帰 2015/6/27 39 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 時系列だけど「回帰モデル性」を持つ利点 分かりやすい、納得して頂きやすい ノイズ除去後の値と、その要因・内数展開が見える

    時系列だけど「回帰モデル性」を持つ欠点 「よく分かった。では、 ・予算内でKPIを最大にする配分を教えてくれ ・KPIを…にするために必要な予算を教えてくれ」 「もし、6ヶ月前からのアプリDL数が10%増しとした 際のKPIは、DL数を1.1倍して方程式に代入で良い?」 ※光は波動なの?粒子なの?みたいな構図かも まずは、回帰と時系列とでの予測を確認します
  24. その3 線形回帰 2015/6/27 41 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 困ること 過去の変数が変われば、本来は現在の係数も変わる 「変数は固定」と近似して良い?を知るのも大変

    最適化は怖い 係数をいつ時点のものにする?が問題 モデルが複雑なので、最適解の計算が難しい。求まっても、普 通は値域の[min, max]を抜けるか、値域の制約ギリギリを取る 過去のしがらみや政治など抜きに解は求まるので、担当者には 「刺激的な数字」になるのが普通。よって、頭では理解しても、 生理的・政治的に受け入れ難いことも 割り切らず「過去の可視化」だと、分析後の展開が辛い 割り切った場合、そのリスクに見合う価値が出せるか? → 割り切りを伝えないのはダメ。発覚時に大変なことに
  25. 本発表の振り返り 2015/6/27 43 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 第2章 状態空間モデルの推定方法を概観 第3章 状態空間モデルの前提・仮定が、ビジネスの利活

    用に及ぼす影響を見た 数理モデルは、モデルの前提や仮定の下でしか 語れない 前提や仮定は、分析の設計、担当者の説得方法、 モデルの運用方法、などを規定してしまう
  26. 私が考える大切なこと 2015/6/27 44 / 47 分析のビジネス展開を考えるー状態空間モデルを例に 1. 理論やデータに嘘をつかない、騙さない 理論の勉強は、忠実に数理モデルを適用する大前提 困った結果への対応は、嘘やハッタリではなく、お客

    様とのコミュニケーションが鉄則。嘘やハッタリは、 いずれ分かる 困る前に、先に困りポイントを営業や分析設計段階で 見抜き、お客様の合意を取り付けて潰すのが、一番美 しいのだが… 技術面で/相手の状況を見ると/期間・予算的に、等で 「出来ません」と言うべき状況もある
  27. 私が考える大切なこと 2015/6/27 45 / 47 分析のビジネス展開を考えるー状態空間モデルを例に その上で… 2. 出発点の「ビジネスの課題は?」を忘れない ビジネスの興味は、大抵困りことの解消

    簡単な方法で片付くならば、それに越したことは無い 3. 担当者の想いや野心を見抜き、念頭に置く データ分析も、所詮はビジネス上の一つの道具 担当者に役立つならば、データ分析である必要もない (営業の話だけど)担当者がビジネス上のキーマンなのか? の見極めを外すと、どんなに頑張っても報われない