実験デザイン入門

 実験デザイン入門

Repro で社内のイベントで実験デザインについて話した内容の公開版です。
社内向けイベントではこの内容に加えて、実務に近い状況で一通り実験デザインから結果の解釈まで行ったのと、実例を用いて議論を行いました。実例を用いて議論するという点が特に重要だったと感じています。

スライドで紹介している書籍は 生命科学の実験デザイン[第4版] です https://www.amazon.co.jp/dp/481580950X

8fa31051503b09846584c49cd53d2f80?s=128

Asei Sugiyama

June 10, 2020
Tweet

Transcript

  1. 実験デザイン⼊⾨ Asei Sugiyama

  2. ⾃⼰紹介 杉⼭ 阿聖 Software Engineer @ Repro AI Labs TensorFlow

    コントリビューター TFX : Issue ⽴てたり PR ⽴てたり docs-l10n : 翻訳 & レビュー 機械学習図鑑 共著
  3. ⽬的 「統計わからん」という悩みに起因する不安を緩和する

  4. tl;dr 「統計がわからない」というときには、統計処理がわからないというよ りも、データを使ってどのように業務を進めたら良いかわからないとい うケースのほうが多い 実験デザインとは、データ収集・分析の⼿順の設計を⾏い、この実験か ら何が結論できて何が結論できないのかをデータを収集する前に明らか にする⼿法である 実験プロセスをステップに分解し、それぞれのステップで何を⾏うか事 前に検討することが重要 回答がない分野なので経験も⼤事

  5. 実験デザイン⼊⾨ . 実験デザインとは <- . 実験デザインを⾏う上での前提条件 . 実験デザインのステップ . 実験デザインの限界

  6. 1. 実験デザインとは 実験をデザインするとは、とったデータの 解析に使われる統計法の仕組みを知ること だけではない。それ以上に、科学的なもの の考え⽅を学ぶことである。⾃分のデータ に⾃信を持つことである。⾃分が測ってい ると思っているものを本当に測っていると 知っていることである。また、特定のタイ プの実験から何が結論できて、何が結論で

    きないのか知っていることである。 “ “ from ⽣命科学の実験デザイン [第4版]
  7. なぜ実験デザインについて話すのか? 「統計わからん」は様々な原因がある . 統計処理がわからん : 各種検定や信頼区間が難しい . データを扱う業務をどう進めればいいかわからない . 収集したデータをうまく解釈できない

    統計処理は各種ツール (Excel, Spreadsheet) が助けてくれる データを扱う業務の進め⽅については情報がなかなかない A/B テスト: 1 因⼦完全ランダム化デザイン、因果がわかる A/B テストを⾏うまでに何を⾏うのかは⾃分が決める必要がある
  8. 実験デザインとは何を⾏うのか 失敗を未然に防ぐために、実験の計画を⾏う 業務ではレポートのテンプレートを⽤意して埋めていくようにしている

  9. レポートの項⽬例 項⽬ 記述内容 計画時に記述 概要 まとめ、要約 背景 課題の背景、なぜこれを⾏うのかの経緯 ✓ ⽬的

    検証の⽬的、解決したい課題 ✓ 検証内容 計測する指標、成功/失敗のしきい値、仮説 ✓ 結果 得られた結果、グラフ、表 考察 結果の解釈・考察
  10. 実験デザイン⼊⾨ . 実験デザインとは . 実験デザインを⾏う上での前提条件 <- . 実験デザインのステップ . 実験デザインの限界

  11. 2. 実験デザインを⾏う上での前提条件 A/B テストのような状況が必要 スコープ内 スコープ外 これからデータを収集する これまでに収集したデータを分析する データの集め⽅は⾃分で決める データの集め⽅は誰かが決める

    背景になる理論がある 背景になる理論がない (※ ) (※ ) 理論がなくても実施はできるけれど解釈が困難
  12. 収集済みのデータ を分析したい 観察研究という分野 選択バイアスに注意が必要 因果推論ではこの分野を扱う 時系列による影響を除去する 差の差法は抑えておくと良い かも User:CFCFderivarive work:

    タバコはマーダー -
  13. 実験デザイン⼊⾨ . 実験デザインとは . 実験デザインを⾏う上での前提条件 . 実験デザインのステップ <- . 実験デザインの限界

  14. 3. 実験デザインのステップ . 問の定義 . 仮説⽴案 . 検証内容の検討 . 予備実験

    . 実験 データの収集 結果の集計・可視化 . 考察
  15. 1. 問の定義 実験を通じて明らかにしたい問を⽴てる 背景となる理論があると考察が⾏いやすい Lab のテンプレートでは背景と⽬的を記述する 今の採⽤活動ってムダが多いんじゃないか “ “ ⾏動履歴から

    CV を予測できるんじゃないか “ “
  16. 問の記述時の注意 取り組む価値のある問いを⽴てること ⽇本中の鉄道で使われている枕⽊を数えるようなことはしない 背景でスコープを⽰すこと 業務中のどの段階を考えている? サービス利⽤中のどの段階を考えている? ⽬的はできる限り単純なものにすること できる限り⼀度に単⼀の⽬的を検証するようにする 困難な課題については複数の課題に分割し、⼀つづつ段階的に確認を ⾏うこと

  17. 2. 検証内容の検討 計測する指標について定義する 成功したとみなすしきい値について定義する 仮説を⽴てる 作業仮説を⽴てる 収集するデータについて決める 集計⽅法について決める (利⽤する検定の種類を決める)

  18. 作業仮説って? 実際にデータの分析を⾏うにあたり、とりあえず⽴てておく仮説 (理論)仮説 : アプリを利⽤するユーザーの⽅が CV しやすい 作業仮説 : 3⽇以内にアプリを起動した⼈のほうが、アプリを起動して

    いない⼈よりも CVR が⾼い 作業仮説は正しかったときと、正しくなかったときのことを考えておく 検定を⾏った結果、相関があるとは⾔えなかったら追加で何が分かっ ているといいだろうか? 先週末の⾏動が⼤きく影響していないだろうか? 「良い」を「Aの⽅がBより良い」と書き換えておく
  19. 3. 予備実験 ⽴案した実験計画に従って、⼀部のデータを収集してみてテストする データは収集できただろうか? データは予想した形式だっただろうか? 想定外の事象が発⽣して仮説を⾒直す必要はなかっただろうか? 利⽤しようとしていた集計⽅法は適⽤できただろうか? 結果の解釈はできただろうか? データを収集してテストできない場合には、数⼈に試してもらうだけで もやっておくと良い

    (特にアンケート)
  20. 良い問や仮説ってどうやったら⽴てられますか? 背景になる理論に関して情報収集を⾏っておく 最初から良い問や仮説を検証することは難しいので、単純な問や仮説に 分割して、何回も繰り返す 理想的には、仮説が正しくなくても、正しくないと分かったことが成果 となるようにデザインする

  21. 4. 実験 A/B テストを⾏う場合、典型的には次のうちのどちらかになる 仮説検証 : ⽴てた仮説の検証を⾏いたい モニタリング : ⾏っている施策が有効かどうか監視したい

    仮説検証を⾏いたい場合では、最速で結果を出せると良い 例えば、 A:B = 50:50 の割合で実施する 仮説検証フェーズと、施策実施フェーズを明確に分ける モニタリングを⾏いたい場合では、逸失利益のことを考える 例えば Treatment:Control = 90:10 として実施する
  22. 5. 考察 予想通りの結果が得られた場合でも、そうでなかった場合でも、背景と なる理論に⽴ち返る 予想通りの結果が得られた場合には、事前に考えた理論から本当にこの 結果が説明できるのか確認する 予想に反する結果が得られた場合には、事前に考えた理論に加えてどん な事実があるとこの結果を説明できるか考える (有意差が出なかったとき も同じ)

    データの集計とは全く別の頭の使い⽅をするので、別の⽇にやる、別の ⼈がやるといった対応をすると捗る
  23. 実験デザイン⼊⾨ . 実験デザインとは . 実験デザインを⾏う上での前提条件 . 実験デザインのステップ . 実験デザインの限界 <-

  24. 4. 実験デザインの限界 A/B テストできないケースには適⽤できない 全ユーザー向けの施策の効果検証は無理 仕組みそのものを知りたいケースには演繹的なアプローチが必要 あくまでも得られるのは仕組みが動作していると⽰唆する結果 (ある 仕組みが動作していると仮定すると説明できる結果) 現状を説明できるのはこの仮説しか今のところないので、この仮説が

    正しいということにするというのはありえる 実験デザインに正解はない
  25. Recap 「統計がわからない」というときには、統計処理がわからないというよ りも、データを使ってどのように業務を進めたら良いかわからないとい うケースのほうが多い 実験デザインとは、データ収集・分析の⼿順の設計を⾏い、この実験か ら何が結論できて何が結論できないのかをデータを収集する前に明らか にする⼿法である 実験プロセスをステップに分解し、それぞれのステップで何を⾏うか事 前に検討することが重要 回答がない分野なので経験も⼤事