Repro で社内のイベントで実験デザインについて話した内容の公開版です。 社内向けイベントではこの内容に加えて、実務に近い状況で一通り実験デザインから結果の解釈まで行ったのと、実例を用いて議論を行いました。実例を用いて議論するという点が特に重要だったと感じています。
スライドで紹介している書籍は 生命科学の実験デザイン[第4版] です https://www.amazon.co.jp/dp/481580950X
実験デザイン⼊⾨Asei Sugiyama
View Slide
⾃⼰紹介杉⼭ 阿聖Software Engineer @ Repro AI LabsTensorFlow コントリビューターTFX : Issue ⽴てたり PR ⽴てたりdocs-l10n : 翻訳 & レビュー機械学習図鑑 共著
⽬的「統計わからん」という悩みに起因する不安を緩和する
tl;dr「統計がわからない」というときには、統計処理がわからないというよりも、データを使ってどのように業務を進めたら良いかわからないというケースのほうが多い実験デザインとは、データ収集・分析の⼿順の設計を⾏い、この実験から何が結論できて何が結論できないのかをデータを収集する前に明らかにする⼿法である実験プロセスをステップに分解し、それぞれのステップで何を⾏うか事前に検討することが重要回答がない分野なので経験も⼤事
実験デザイン⼊⾨. 実験デザインとは <-. 実験デザインを⾏う上での前提条件. 実験デザインのステップ. 実験デザインの限界
1. 実験デザインとは実験をデザインするとは、とったデータの解析に使われる統計法の仕組みを知ることだけではない。それ以上に、科学的なものの考え⽅を学ぶことである。⾃分のデータに⾃信を持つことである。⾃分が測っていると思っているものを本当に測っていると知っていることである。また、特定のタイプの実験から何が結論できて、何が結論できないのか知っていることである。““from ⽣命科学の実験デザイン [第4版]
なぜ実験デザインについて話すのか?「統計わからん」は様々な原因がある. 統計処理がわからん : 各種検定や信頼区間が難しい. データを扱う業務をどう進めればいいかわからない. 収集したデータをうまく解釈できない統計処理は各種ツール (Excel, Spreadsheet) が助けてくれるデータを扱う業務の進め⽅については情報がなかなかないA/B テスト: 1 因⼦完全ランダム化デザイン、因果がわかるA/B テストを⾏うまでに何を⾏うのかは⾃分が決める必要がある
実験デザインとは何を⾏うのか失敗を未然に防ぐために、実験の計画を⾏う業務ではレポートのテンプレートを⽤意して埋めていくようにしている
レポートの項⽬例項⽬ 記述内容 計画時に記述概要 まとめ、要約背景 課題の背景、なぜこれを⾏うのかの経緯 ✓⽬的 検証の⽬的、解決したい課題 ✓検証内容 計測する指標、成功/失敗のしきい値、仮説 ✓結果 得られた結果、グラフ、表考察 結果の解釈・考察
実験デザイン⼊⾨. 実験デザインとは. 実験デザインを⾏う上での前提条件 <-. 実験デザインのステップ. 実験デザインの限界
2. 実験デザインを⾏う上での前提条件A/B テストのような状況が必要スコープ内 スコープ外これからデータを収集する これまでに収集したデータを分析するデータの集め⽅は⾃分で決める データの集め⽅は誰かが決める背景になる理論がある 背景になる理論がない (※)(※) 理論がなくても実施はできるけれど解釈が困難
収集済みのデータを分析したい観察研究という分野選択バイアスに注意が必要因果推論ではこの分野を扱う時系列による影響を除去する差の差法は抑えておくと良いかもUser:CFCFderivarive work: タバコはマーダー -
実験デザイン⼊⾨. 実験デザインとは. 実験デザインを⾏う上での前提条件. 実験デザインのステップ <-. 実験デザインの限界
3. 実験デザインのステップ. 問の定義. 仮説⽴案. 検証内容の検討. 予備実験. 実験データの収集結果の集計・可視化. 考察
1. 問の定義実験を通じて明らかにしたい問を⽴てる背景となる理論があると考察が⾏いやすいLab のテンプレートでは背景と⽬的を記述する今の採⽤活動ってムダが多いんじゃないか““⾏動履歴から CV を予測できるんじゃないか““
問の記述時の注意取り組む価値のある問いを⽴てること⽇本中の鉄道で使われている枕⽊を数えるようなことはしない背景でスコープを⽰すこと業務中のどの段階を考えている?サービス利⽤中のどの段階を考えている?⽬的はできる限り単純なものにすることできる限り⼀度に単⼀の⽬的を検証するようにする困難な課題については複数の課題に分割し、⼀つづつ段階的に確認を⾏うこと
2. 検証内容の検討計測する指標について定義する成功したとみなすしきい値について定義する仮説を⽴てる作業仮説を⽴てる収集するデータについて決める集計⽅法について決める (利⽤する検定の種類を決める)
作業仮説って?実際にデータの分析を⾏うにあたり、とりあえず⽴てておく仮説(理論)仮説 : アプリを利⽤するユーザーの⽅が CV しやすい作業仮説 : 3⽇以内にアプリを起動した⼈のほうが、アプリを起動していない⼈よりも CVR が⾼い作業仮説は正しかったときと、正しくなかったときのことを考えておく検定を⾏った結果、相関があるとは⾔えなかったら追加で何が分かっているといいだろうか?先週末の⾏動が⼤きく影響していないだろうか?「良い」を「Aの⽅がBより良い」と書き換えておく
3. 予備実験⽴案した実験計画に従って、⼀部のデータを収集してみてテストするデータは収集できただろうか?データは予想した形式だっただろうか?想定外の事象が発⽣して仮説を⾒直す必要はなかっただろうか?利⽤しようとしていた集計⽅法は適⽤できただろうか?結果の解釈はできただろうか?データを収集してテストできない場合には、数⼈に試してもらうだけでもやっておくと良い (特にアンケート)
良い問や仮説ってどうやったら⽴てられますか?背景になる理論に関して情報収集を⾏っておく最初から良い問や仮説を検証することは難しいので、単純な問や仮説に分割して、何回も繰り返す理想的には、仮説が正しくなくても、正しくないと分かったことが成果となるようにデザインする
4. 実験A/B テストを⾏う場合、典型的には次のうちのどちらかになる仮説検証 : ⽴てた仮説の検証を⾏いたいモニタリング : ⾏っている施策が有効かどうか監視したい仮説検証を⾏いたい場合では、最速で結果を出せると良い例えば、 A:B = 50:50 の割合で実施する仮説検証フェーズと、施策実施フェーズを明確に分けるモニタリングを⾏いたい場合では、逸失利益のことを考える例えば Treatment:Control = 90:10 として実施する
5. 考察予想通りの結果が得られた場合でも、そうでなかった場合でも、背景となる理論に⽴ち返る予想通りの結果が得られた場合には、事前に考えた理論から本当にこの結果が説明できるのか確認する予想に反する結果が得られた場合には、事前に考えた理論に加えてどんな事実があるとこの結果を説明できるか考える (有意差が出なかったときも同じ)データの集計とは全く別の頭の使い⽅をするので、別の⽇にやる、別の⼈がやるといった対応をすると捗る
実験デザイン⼊⾨. 実験デザインとは. 実験デザインを⾏う上での前提条件. 実験デザインのステップ. 実験デザインの限界 <-
4. 実験デザインの限界A/B テストできないケースには適⽤できない全ユーザー向けの施策の効果検証は無理仕組みそのものを知りたいケースには演繹的なアプローチが必要あくまでも得られるのは仕組みが動作していると⽰唆する結果 (ある仕組みが動作していると仮定すると説明できる結果)現状を説明できるのはこの仮説しか今のところないので、この仮説が正しいということにするというのはありえる実験デザインに正解はない
Recap「統計がわからない」というときには、統計処理がわからないというよりも、データを使ってどのように業務を進めたら良いかわからないというケースのほうが多い実験デザインとは、データ収集・分析の⼿順の設計を⾏い、この実験から何が結論できて何が結論できないのかをデータを収集する前に明らかにする⼿法である実験プロセスをステップに分解し、それぞれのステップで何を⾏うか事前に検討することが重要回答がない分野なので経験も⼤事