Upgrade to Pro — share decks privately, control downloads, hide ads and more …

APOLLO Meetup LT会 #2_実務の中で良く起こる効果検証の課題とその対処法

APOLLO
February 01, 2024

APOLLO Meetup LT会 #2_実務の中で良く起こる効果検証の課題とその対処法

APOLLO

February 01, 2024
Tweet

More Decks by APOLLO

Other Decks in Business

Transcript

  1. 1 CONFIDENTIAL ファシリテーター兼 登壇者の紹介 アポロ株式会社 DDD Division DS・AI Unit /

    Manager 粟飯原 隆司 経歴 アクセンチュア(2018年8月-2021年06月) • 実ビジネスへのAI導入、モデル構築を担当 • メール・Line等の配信におけるターゲティング最適化モデルの 構築 • コロナ影響を加味した需要予測モデルの構築 • データ分析を基にした、新規キャンペーンの立案・運用 アポロ(2021年7月) コンサルタントとして航空業界などを担当しつつ、HR事業の責任 者を担当 • コンサルタント:航空業界におけるダイナミックプライシングモデ ルの導入・構築等 • HR事業 ➢ 組織改善ツール ilodoliのプロダクトオーナー 兼 プロダク トマネージャー ➢ 某電力会社における人事データ活用PoCの実施 ➢ HR関連のセミナーへの登壇 略歴 • 徳島県徳島市出身 • 早稲田大学 創造理工学部卒業 趣味 • 旅行 • スポーツ(することも、みることも) • 将棋
  2. 2 CONFIDENTIAL 会社概要 社名 設立 代表者 本店所在地 資本金 株主構成 Web

    代表電話 主要顧客 従業員(2023年12月1日時点) アポロ株式会社 / Apollo, Inc. 2020年7月 宮地 謙輔 〒150-0002 東京都渋谷区渋谷1丁目11番1号 COI西青山ビル7階 820万円 役員・従業員のみ https://apol.co.jp/ 050-1742-8593 大手航空、大手不動産、大手流通、大手調査会社 等 51名(業務委託を除く)
  3. 4 CONFIDENTIAL 効果検証とは ➢ ビジネス上のなんらかのアクション(広告展開, セールなど)を実施した際に売り上げなどのKPIに与えた影響を効 果と呼び、その効果量がどの程度なのかを推定することを効果検証と呼ぶ。また、アクションのことを介入という。 ➢ 介入を行ったグループ(Treatment Group。以下TG)と介入を行っていないグループ(Control

    Group。以下CG)の、 介入実施時の効果の差分をセレクションバイアスと言い、セレクションバイアスによる影響を排するために介入を無 作為化した実験をRCT(ランダム化比較試験)という。 メール配信なし (CG) メール配信あり (TG) 本当のメール の効果 メールが無くても 買う量 セレクションバイアス メールが無くても 買う量 目的 メールの配信を行い、そのメールの売上に対する 効果を計測したい
  4. 7 CONFIDENTIAL 実際のビジネスの現場でよく行われるもの(個人的な主観込み) 注意点 「無作為に抽出」することが現実世 界では難しい場合が多い。ただし、そ の前提を加味して、実施することも 多い。 手法 概要

    適用場面 ランダム化比較試験 (RCT) TGとCGを無作為に抽出し、TGのみに 対して介入を行う方法 医薬品の効果検証、教育介入の 効果測定など、無作為に抽出する ことが実現できる場合 傾向スコアマッチング 対象者の特性を基にスコアを計算し、 似ている個体同士でTGとCGを作成し、 比較を行う手法 ランダム化が困難な場面。また既に あるデータの中から、実施した際の効 果を検証するとき。 マッチングする対象のみで実施するた め、効果が減少する。また、あるスコ ア値のみの人で効果を検証すること もありうる。 差分の差分法 (DID) TGとCGの時間をまたぐ変化を比較し、 介入前後の変化(第一の差分)と、 TGとCGの変化(第二の差分)を考 慮して、効果を算出する手法 政策や法律、戦略など大きな意思 決定によって、データポイントが多くな い場合KPIの検証を行う場合 介入以外の要因が両群に異なる影 響を与えることなどを除外し、平行ト レンド仮定がきちんと守られているか を検証する。 CausalImpact 影響を受けていないと思われる共変量 のデータを基に、介入がなかった場合の 反実仮想を作成し、実際の値と反実 仮想の値を比較する手法。 マーケティングキャンペーン等の時系 列でデータが取りやすい場合。また 明確な共変量の選択が難しい中で、 反実仮想を推定したい場合。 平行トレンドが保たれているかどうか をきちんと検証する。 時系列モデル等の 予測手法 介入前の時系列データ等を用いて、そ のモデルで介入後のデータの予測し、予 測値と実際の値の差分を効果とする手 法。 CausalImpactのように共変量を 持ってくることが難しく、ある程度規 則性のある時系列データとなっている キャンペーンなど。 予測精度に依存するため、ランダム 性の高い時系列データなどだとうまく いかない。
  5. 8 CONFIDENTIAL 事例. 傾向スコアマッチング(アポロ事例がなく、Webより抜粋) 背景 CMを見た方がゲームプ レイ時間が短いという 関係があるかどうかを調 査したかった。ただ、そ のまま比較を行うと、セ

    レクションバイアスが大 きい。 実施内容 エリア、職業、年齢、性 別、収入を交絡因子と して傾向スコアを作り、 全ての交絡因子の分 布を等しくしたうえで、 CMとゲームプレイの関 係性を明らかにする。 因果推論の王道テクニック”傾向スコア”を丁寧に考えてみる~RとPythonにて~ 2019-05-05 https://www.medi-08-data-06.work/entry/ps_score 元々の分布 変更後の分布 単回帰分析でCM効果を検証 CMを多く見た方が、 ゲームプレイ時間が短くなる!
  6. 9 CONFIDENTIAL 事例. CausalImpact 実測と 反実仮想の ローデータ比 較 実測ー反実 仮想の時系

    列推移 実測ー反実 仮想の累積 効果 背景 100個の対象エリアの 中から、10個のエリア に対して施策を実施し、 その施策の効果を計 測したい。 実施内容 エリアごと or エリアの合 計値をTG、残りをCG とし、CausalImpact を実施。CGには複数 のエリアを指定して、 CausalImpactが時 系列を自動で組み合 わせるて反実仮想を推 定する。 自動で反実仮想を推定。平 行トレンドがある程度担保さ れているため、妥当な反実仮 想ができていると考える 施策実施における効果 量を推定 施策効果が出ている!
  7. 10 CONFIDENTIAL 事例. 時系列予測 背景 全エリアに対してセール を実施。セールの効果 を計測した。 実施内容 セール前のデータを用

    いて、セール実施後の 効果検証を実施。セー セール後の反応も踏ま えて効果検証を実施。 時系列モデルには Prophetを使用。 (施策定常化後にエリアの分 割等による比較検証ができな い場合に、時系列予測を用 いることが多い) • 青線:予測値 • 黒点:学習データの実測値 • 赤点:セール期間実測値 • 青点:セール後7日間実測値 セール セールの効果が 出ている!
  8. 12 CONFIDENTIAL 効果が誰の目から見ても明らかなときは説明しやすい ➢ あるキャンペーンを実施したときに、反実仮想よりも明らかな上振れがあるとの効果検証はそこまで工夫しなくても 効果量を推定することができます ※ Tipsですが、キャンペーン期間だけでなく、その前後の反応も踏まえて効果検証を行うのは、実務の中でよく実施します。 (単位:100万円) あるマーケティングキャンペーンの検証検証

    キャンペーン期間 日付 実績 予測 実績ー予測 2022/11/22 367 459 -92 2022/11/23 393 421 -28 2022/11/24 324 405 -81 2022/11/25 317 429 -112 2022/11/26 320 360 -40 2022/11/27 335 373 -38 2022/11/28 342 388 -46 2022/11/29 5,179 591 4,588 2022/11/30 2,792 551 2,241 2022/12/1 3,455 533 2,922 2022/12/2 385 349 36 2022/12/3 327 309 18 2022/12/4 378 326 52 買い控え キャンペーン 効果
  9. 13 CONFIDENTIAL ただ、こういう効果が微妙そうなときに説明をどうする? 実測と反実 仮想のロー データ比較 実測ー反実 仮想の時系 列推移 実測ー反実

    仮想の累積 効果 介入後右肩上がりに効果が出ているし、 効果は出ていそう。ただ、信頼区間の 話とかしても伝わりづらいしなあ。。。 介入実施前のずれが大きいことも影響 していそう。⇒ 丁寧に平行トレンドを担 保できるようにチューニングすることは別 途必要
  10. 14 CONFIDENTIAL 帰納的にどの観点から見ても効果があることを述べてみる 介入後右肩上がりに効果が出ているし、効果は出ていそう。 ただ、信頼区間の話とかしても伝わりづらいしなあ。。。 今後同じような施策を実施するかどうかの意思決定を行いたい。 • どのセグメントで切っても一定の効果がある ➢ Who(どんな人でも)

    ➢ What(何の商材でも) ➢ When(いつでも) • どの手法で効果検証を行ったとしても、一定の効果がある(How) ➢ 例. CausalImpactで時系列の推移を見てもプラスになっている & TGとCG で昨年比(DID)で比較してもプラスになっている 100%効果があるとは言えないが、、、
  11. 15 CONFIDENTIAL 事例. セグメントを分けて効果検証を行う エリア 実施エリア 施策実施率 (※1) 効果額 相対効果量

    (※) ※1:各エリアで施策を実行できない日などが あったため、エリアごとに施策の実行比率を算 出。 ※2:エリアごとに反実仮想と実測値の比率 計算したもの 基本的にはどのエリアでもプラ スの効果が出ている マイナスになっているところはそ の原因を掘り下げ、再度検 証を行うことを推奨する
  12. 17 CONFIDENTIAL 事例. 複数の手法で効果検証を行う 時系列予測でも実績が上がっている セグメントで分けて、施策前後で 実測値と反実仮想の差分を見ても効果が出ている (CausalImpact+DID) DIDでも効果は出ている TG

    CG 6,000万円 2022年10月 1億円 2023年10月 1.17億円 7,200万円 +18% +20% 割合 効果2% 介入後右肩上がりに効果が出ているし、効果は出ていそう。 ただ、信頼区間の話とかしても伝わりづらいしなあ。。。 セグメント×タイミング別に分解 補正後効果量: +9.1% PoC期間前: -13.3% PoC期間後: -4.2%
  13. 19 CONFIDENTIAL いかなるときも、データ分析結果として嘘をつくのは絶対ダメ ➢ 嘘をついてデータの改ざんなどを行うと、最終的には会社が不利益を被る結果となります ➢ 自分が間違っていると確信していることを曲げると、自分もあとからしんどくなります クライアントや上司から、 • 「効果があるように見せたい」

    • 「◦◦の結果を示したいかそれを示す結果にしてくれない?」 と言われてしまう • 基データを改ざんする(例. RCTを実施するのに、貢献額が高い顧客と低い顧客 で比較する) • 効果量が出るセグメントだけ取り出して、検証する(例. 効果がプラスに転じたエリ アの累積値で効果を算出し、マイナス部分は0で計算する) ➢ データの選別基準を事前に定めておくことが正しい検証のやり方 • あえて誤った検証方法を用いて、検証を行う(例. CausalImpactでは効果が小 さかったため、昨年比の差分による検証を実施。直近のトレンドは加味できていな い) でも絶対以下のことはやめましょう。どこか で必ず綻びがおきます。
  14. 20 CONFIDENTIAL まとめ • 実際のビジネスの現場で正しく効果検証を行うのは、かなり難しい • きちんと実験計画を立てて、どういった検証方法を定めておくことが一 番大事。計画なしに検証できず。 • 検証方法は複数あるが、その特性をきちんと踏まえておく。無知の人

    はまず「効果検証入門」から読もう。 • 効果が曖昧で意思決定が行いづらいときは、帰納的に検証材料を 作るのも有効 • 何があっても、誤った検証を行うのはダメ。企業にとっても自分にとって もよくない。
  15. 21 CONFIDENTIAL サービス紹介 / APOLLO STAFFING SERVICE ➢ データ分析・AI構築領域に特化した案件の副業・派遣のマッチングサービス ➢

    市場には出回らない非公開案件もご紹介 ➢ 直接受注案件により、高単価を実現 ➢ 今後、正社員マッチングも開始予定