Upgrade to Pro — share decks privately, control downloads, hide ads and more …

最適腕識別@連合大会

MasaKat0
September 05, 2023

 最適腕識別@連合大会

最適腕識別@連合大会

MasaKat0

September 05, 2023
Tweet

More Decks by MasaKat0

Other Decks in Research

Transcript

  1. 最適腕識別:適応的実験計画による方策選択 Best Arm Identification: Adaptive Experimental Design for Policy Choice

    2023年度 統計関連学会連合大会 Masahiro Kato (University of Tokyo), Masaaki Imaizumi (University of Tokyo), Takuya Ishihara (Tohoku University), Toru Kitagawa (Brown University) Kato, Imaizumi, Ishihara, and Kitagawa (2023), “Fixed-Budget Hypothesis Best Arm Identification: On the Information Loss in Experimental Design” Kato, Imaizumi, Ishihara, and Kitagawa (2023), “Asymptotically Optimal Fixed-Budget Best Arm Identification with Variance-Dependent Bounds” 0 Slides:
  2. より良い意思決定のための実験計画 n 処置腕(Treatment arm.分野によってarm,treatment,policyなどとも呼ばれる). 例:投薬の選択肢,広告,経済政策. • 複数の処置腕から一つの処置腕を選ぶ意思決定問題. • それぞれの処置腕を選ぶ(引く)ことで対応するアウトカム(報酬)が得られる. n

    何らかの基準で良い処置腕の選び方を考える. • 実際に処置腕を引いてデータを収集する実験によってデータを集めることができる. • その実験を処置腕の選択のために最適化できる. n 適応的実験計画(adaptive experiment). • 実験の最中に,その実験の過去の観測値を用いて,実験を最適化することができる. 1
  3. 多腕バンディット問題 Ø多腕バンディット問題(Multi-Armed Bandit Problem). • 適応的実験計画・動的意思決定問題の定式化の一つ. n 多腕バンディット問題における2つの問題設定. • 累積報酬最大化(累積リグレット最小化).累積報酬を最大化するように処置腕を選ぶ.

    • 最適腕識別(Best arm identification).実験の最後に最適な腕を高精度で選ぶ. Treatment arms Time series of an adaptive experiment Draw a treatment arm Observe an outcome Decision-maker (experimenter) Maximize rewards during an experiment = cumulative reward maximization Identify the best arm at the end of an experiment = best arm identification. 2
  4. 固定予算設定での最適腕識別 n 最適腕識別:実験の最後に最適な腕(期待報酬最大の腕)を推薦する. cf. Bubeck et al. (2011) and Kaufmann

    et al. (2016). n 固定予算設定での最適腕識別. • 実験の最中に処置腕を引く回数(予算,サンプルサイズ)が事前に固定されている. ↔ 固定信頼度の最適腕識別.処置腕を引く回数が固定されておらず,ある基準を満たすまで腕を引き続けるこ とができる.逐次検定に近い設定. • 決められた回数だけ処置腕を引いて,データを集めることができる. • 実験の最後に,実験で得られた観測値に基づいて,最適腕を推薦(推定). • ゴール:何らかの指標の意味で良い最適腕の推薦を行う. 3
  5. 定式化 n !回処置腕を引くことができる適応的実験計画. ! ≔ {1,2 … , !} n

    )種類の処置腕. ) = {1,2, … , )}. n 潜在アウトカム(,! , ," , … , ,# ) . • それぞれの処置腕. ∈ [)]は潜在アウトカム,$ ∈ ℝを有している. • 例:広告を配信したあとの売上.薬を投与したあとに治癒するかどうか. • (,! , ," , … , ,# )の分布は時間によって変化しない.,! , ," , … , ,#は互いに独立. • (,! , ," , … , ,# )が従う分布を3とする.バンディットモデルと呼ばれる. • 分布3のもとでの期待値を4%[⋅]とする.期待報酬を6$ 3 = 4%[,$ ]とする. n 処置腕.を引くと,対応する潜在アウトカム,$を観測することができる. 4
  6. 定式化 5 n 最適腕(期待報酬が最大の処置腕). 分布3のもとでの最適腕を.∗ (3) = arg max $∈[#]

    6$ (3)とする. n 実験とデータ生成過程(データを生成する分布を3*とする). • 各期< ∈ ! = {1,2, … , !}において, • 処置腕=+ ∈ [)]を引く. • 引かれた腕=+のアウトカム,+ ,!を観測する. • 処置腕を引く試行を< = !で止める. • 最適な腕と考えられる処置腕> .- ∈ [)]を推薦する. • > .-は最適腕.∗ (3*)の推定量. ! " = 1 Draw %! Observe &! "! Decision-maker (algorithm) Arm 1 &! # &! $ &! % ⋮ Arm 2 Arm )
  7. 評価指標 n 最適腕識別で用いられる2つの評価指標. Ø誤識別率 • 最適腕.∗ (3*)ではない腕> .-を誤って推薦する確率ℙ%" (> .-

    ≠ .∗ (3*)). Ø期待単純リグレット. • 最適腕.∗ (3*)の期待報酬と推薦される腕> .-の期待報酬の差分. • 単純リグレットA- 3* = ,$∗ %" − , . $$:最適腕.∗ (3*)と推薦腕> .-の報酬の差分. • 期待単純リグレット4%" A- 3* = 4%" ,$∗ %" − , . $$ . n 誤識別率もしくは期待単純リグレットを最小化するようにアルゴリズムを設計. 6 v v
  8. 未解決問題 n 固定予算最適腕識別の漸近最適性に関する議論には未解決問題が多く存在する. n 既存研究:C = D,かつ,アウトカムが分散既知の正規分布に従う場合にのみ,アルゴリズム の誤識別率に対する理論下限と,その下限を漸近的に達成する最適なアルゴリズムが提案. n 未解決問題.

    • ) ≥ 3の場合の下限と最適なアルゴリズム. • 正規分布以外の分布に対する下限と最適なアルゴリズム. • 期待単純リグレットに対する議論. • 文脈情報(共変量)を扱うアルゴリズム etc. n 私達の研究では,これらの未解決問題に対する新しいアプローチ・手法を提案. 7 *
  9. 8 期待単純リグレット最小化 Expected Simple Regret Minimization Kato, Imaizumi, Ishihara, and

    Kitagawa (2023), “Fixed-Budget Hypothesis Best Arm Identification: On the Information Loss in Experimental Design”
  10. 誤識別率 n 最適腕.∗ (3*)が唯一である分布3*を考える. • 誤識別率ℙ%" > .- ≠ .∗

    (3*) は指数的速さでゼロに収束: ℙ%" > .- ≠ .∗ = exp(−!(⋆)) . (⋆)は適当な定数. Ø(⋆)を以下の指標(複雑度と呼ばれる)によって評価する: lim sup -→0 − 1 ! log ℙ%" > .- ≠ .∗ (3*) . • ℙ%" > .- ≠ .∗ 3* 下限 (上限)はlim sup -→0 − ! - log ℙ%" > .- ≠ .∗ (3*) の上限 (下限). nℙ%" > .- ≠ .∗ (3*) の裾確率の評価. 9 v
  11. 誤識別率に対する下限 n Kaufmann et al. (2016)は一般的なバンディットモデルPのもとでの下限を考察. • 最適腕が唯一に定まるモデル3の集合をQとする. • 3のもとで各腕の報酬が従う分布を3$とする.

    • 「一貫性のある戦略」というアルゴリズムの集合に対して下限を導出. Ø定義:一貫性のある戦略(アルゴリズム). • 一貫性のある戦略とは,任意の3 ∈ Qに対して, ℙ% > .- ≠ .∗ (3) → 1 as ! → ∞となる戦略 10
  12. 誤識別率に対する下限 任意のバンディットモデル3* ∈ Qに対して,任意の一貫性のある戦略は以下を満たす: lim sup -→0 − 1 !

    log ℙ%" > .- ≠ .∗ (3*) ≤ inf 1∈2 max 3 ! ,3 " ,…,3 # ∈(*,!) ∑%∈[(] 3 $ 9! W $∈[#] X(.)KL([$ |3* $ ). • Lai and Robbins (1952)の下限と同様の議論.タイトな下限であると予想される. • − ! - log ℙ%" > .- ≠ .∗ (3*) の上限はℙ%" > .- ≠ .∗ (3*) の下限. • KL [$ , 3* $ は分布[$ と3* $ 間のKLダイバージェンス. • [ ∈ Qは下限の計算のために使われる対立仮説. n 任意の一貫性のある戦略(アルゴリズム)の性能はこの下限以上に改善できない. → この下限を達成できる戦略は漸近最適. 11 下限 (Lemma 1 in Kaufmann et al., 2016) v
  13. 下限に関する問題 n 下限はlim sup -→0 − ! - log ℙ:

    > .- ≠ .∗ ≤ inf1∈2 max 3 ! ,3 " ,…,3 # ∈(*,!) ∑%∈[(] 3 $ 9! ∑$∈[#] X(.)KL([$ |3$ ). Ø漸近最適な(下限を達成可能な)戦略は存在するのか? n X 1 , X 2 , … , X())は戦略(アルゴリズム)が引きたい処置腕の回数の期待値に対応. → 下限の計算上,X(.)が対立仮説[のもとでの期待値41 ! - ∑+9! - 1 =+ = . に対応. • X(.)とデータを生成するモデル3* のもとでの期待値4%" ! - ∑+9! - 1 =+ = . とを紐づけたい. n その他にも様々な技術的な問題がこの下限に生じている. → 現実のアルゴリズムの構成に使えない or この下限を達成するアルゴリズムは存在しない. Cf. Kaufmann (2020), Ariu, Kato, Komiyama, McAlinn, and Qin (2021), Degenne (2023). 12 v
  14. 2腕正規最適腕識別における下限 n ) = 2かつ潜在アウトカムの分布が正規分布に従う場合には下限を導出できる. n 定義:2腕正規バンディットモデルQ;. • 3 ∈

    Q<のもとで,. ∈ {1,2}に対して,,$は正規分布^(6$ (3), _$ " )に従う. • _$ "は潜在アウトカム,$の分散.すべての3 ∈ Q<で同じ値で,既知. 任意のバンディットモデル3* ∈ Q<に対して,任意の一貫性のある戦略は以下を満たす: lim sup -→0 − 1 ! log ℙ: > .- ≠ .∗ ≤ (6! (3*) − 6" (3*))" 2 _! + _" " . 13 2腕正規最適腕識別の下限(Theorem 12 in Kaufmann et al., 2016) v
  15. ターゲット割当比率 n 理想的な処置腕を引く比率(割当比率)を考える. n ターゲット割当比率. • ある戦略のもとで達成されるべき処置腕を引く回数の期待値( 4%" ! -

    ∑+9! - 1 =+ = . ). • もしくはその比率. n 分散既知の場合. → 標準偏差の比率でサンプルを割り当てる戦略が最適(Neyman割当ルール). 14
  16. Neyman割当ルール n Neyman割当ルール(Neyman 1934). • 腕を引く回数の期待値の比率が標準偏差の比率になるように各期に腕を引く戦略 4%" ! - ∑+9!

    - 1 =+ = 1 : 4%" ! - ∑+9! - 1 =+ = 0 = _!: _*. • その比率になるように腕を引いたあと,サンプル平均が一番大きい腕を最適腕として推薦. n 分散 _! "と(_" )が既知の場合,Neyman割当ルールが最適であることが知られている. • 分散のみに依存するため実験中に推定するパラメータは無い(非適応的な実験). n 分散 _! "と(_" )が未知の場合, Neyman割当ルールが最適であるかどうかは分からない. Ø実験の最中に分散 _! "と(_" )を推定し,それに合わせて処置腕の選び方を変えられるとする. Øそのようなアルゴリズムは最適か? 15 v
  17. NA-AIPW戦略 n 提案戦略(アルゴリズム):NA-AIPW戦略. • NA: 実験中の処置腕の引き方.推定された分散を用いるNeyman割当ルールに従う. • AIPW: 最適な処置腕の推薦.Augmented Inverse

    Probability Weighting (AIPW)推定量を用いる. 16 Arm 1 &# &$ Arm 2 Draw arm 1 with probability &! &!'&" Decision-maker Draw arm 2 with probability &" &!'&"
  18. NA-AIPW戦略 ØNA-AIPW戦略の手順. 1. 各期< ∈ [!]において,過去の観測値を用いて _$ "を推定.その推定量を > _+

    $ "とする. 2. 処置腕. ∈ {1,2}を確率c X+(.) = = >! % = >! *?= >! + で引く (Neyman割当ルール). 3. !回の施行が終わったあと,期待報酬6$を以下のAIPW推定量を用いて推定: > 6- @ABC,$ = 1 ! W +9! - 1 =+ = . ,$,+ − > 6+ $ c X+(.) + > 6+ $ . > 6+ $ = ! ∑,-* ! ![,,9$] ∑D9! + 1 =D = . ,D $ は<期までのサンプルを用いる6$ (3)の推定量, 4. > .- @ABC = arg max $∈ !," > 6- @ABC,$ を最適腕として推薦する. 17 v
  19. 漸近最適性 18 • Δ!," 3* ≔ 6! 3* − 6"

    3* とする. 任意の3* ∈ Q<に対して,c X+がX∗に概収束するとき,NA-AIPW戦略の誤識別率は, lim inf -→0 − 1 ! log ℙ%" > .- @ABC ≠ .∗ (3*) ≥ Δ!," 3* " 2 _! + _* " + e Δ!," 3* " , as Δ!," 3* → 0. • Small gap(Δ!," 3* → 0)のもとで,上限(アルゴリズムの性能)が下限(理論限界)に一致. = NA-AIPW戦略はsmall gapのもとで漸近最適. NA-AIPW戦略の誤識別率 v
  20. Small-gapのもとでの漸近最適性 19 ØSmall gapのもとでの漸近最適性. n Small gap (Δ!," 3* →

    0)= 期待値の差が小さいため,最適腕を発見することが難しい. → 最悪ケースにおける最適性. n すべてのバンディットモデルに対する最適性ではなく局所的な最適性. • 任意のモデル3に対して,下限を達成するアルゴリズムは存在しないという議論. • 既存研究の議論と矛盾しない.Cf. Local Bahadur efficiency. n Small gapを考える証明上の理由. • Δ!," 3* を固定していると分散の推定誤差が誤識別率に影響してしまう. n Small gapは分散の推定誤差を誤識別率の無視できる状況とも解釈できる.
  21. 戦略に対する制約 n 定義: 漸近的に不変な戦略. • 戦略が漸近的に不変であるとは,任意の3, [ ∈ Qと. ∈

    [)]に対して以下が成立: 1 ! 4: W +9! - 1 =+ = . |f+ = g − 4E W +9! - 1 =+ = . |f+ = g → 0. • 処置腕の引き方が腕の分布に依存しない. n 戦略を漸近的に不変な戦略に制約すると,inf とmaxを交換できる. lim sup -→0 − 1 ! log ℙ%" > .- ≠ .∗ (3*) ≤ inf 1∈2 max 3 ! ,3 " ,…,3 # ∈ *,! ∑%∈ ( 3 $ 9! W $∈ # X . KL [$ 3* $ ≤ max 3 ! ,3 " ,…,3 # ∈ *,! ∑%∈ ( 3 $ 9! inf 1∈2 W $∈ # X . KL [$ 3* $ . n このとき,Xは3*のもとでの処置腕の割当比率4%" ! - ∑+9! - 1 =+ = . に対応する. 21 v
  22. 多腕かつ一般的な分布に対する下限 n Small gapの状況でしか下限と一致する戦略(アルゴリズム)は存在しない(Degenne, 2023). n Small gapの状況では,KL距離をFisher情報量(おおよそ分散に対応)で近似できる. → 下限のKL距離をgapパラメータh

    Δ(3*) ≔ max$∈[#] 6$∗ %" 3* − 6$ 3* に関して展開. n 処置腕の割当比率が単一の分布3*に依存すると,漸近的に不変な戦略の仮定が破れる. → 3*に対して最悪ケースを考える. Δ$∗ %" ,$ → 0において分散が一意に定まるバンディットモデルのクラスQFを考える. 任意の一貫性があり,漸近的に不変な戦略の誤識別率は, sup (#∈*$ lim + , (# →. lim sup /→0 − 1 ! 1 Δ 3. $ log ℙ(# 7 8/ ≠ 8∗ ≤ max 2 # ,2 $ ,…,2 % ∈ .,# ∑ %∈ ' 2 6 7# min 8∈ % ,6∈ % ∖{8} 1 2Ω6,8(@) . を満たす.ここで, Ω$,G X = >. + 3(G) + >% + 3($) . _$ "はh Δ 3* → 0における分散. 22 多腕かつ一般的な分布に対する下限 v
  23. 多腕かつ一般的な分布に対する戦略 n NA-AIPW戦略におけるNeyman割当ルールを置き換える. n 処置の割当比率を c X+ 1 , c

    X+ 2 , … c X+ ) ≔ max 3 ! ,3 " ,…,3 # ∈ *,! ∑%∈ ( 3 $ 9! min G∈ # ,$∈ # ∖ G 1 2j Ω+ $,G X . として計算する.ここで, j Ω+ $,G X = = >! . + 3(G) + = >! % + 3($) . n ある処置腕を確率c X+ . で引くNA-AIPW戦略を考える. n その戦略の誤識別率はsmall gapのもとで私達が提案している下限と一致する: sup (#∈*$ lim , (# →. lim inf /→0 − 1 ! Δ 3. $ log ℙ(# 7 8/ <=>? ≠ 8∗ (3.) ≥ max 2 # ,2 $ ,…,2 % ∈ .,# ∑ %∈ ' 2 6 7# min 8∈ % ,6∈ % ∖{8} 1 2Ω6,8(@) v 23
  24. AIPW推定量の必要性 n なぜサンプル平均ではなくAIPW推定量を考えるのか. • おそらく理論的性質(誤識別率)は同じ. • 証明がAIPW推定量のほうが容易.Ch Hahn, Hirano, and

    Karlan (2011). n AIPW推定量の特徴. • 推定量内で平均を取っている要素がマルチンゲール階差数列を構成する. • 漸近分散がセミパラメトリック効率下限を達成する. n 同様のテクニックを使っている先行研究. • 平均処置効果の推定(van der Laan 2008, Kato, Ishihara, Honda, and Narita 2020), • 敵対的バンディット(Ito, Honda, and Tsuchiya 2022). 24
  25. 期待単純リグレット最小化 Expected Simple Regret Minimization Kato, Imaizumi, Ishihara, and Kitagawa

    (2023), “Asymptotically Optimal Fixed-Budget Best Arm Identification with Variance-Dependent Bounds” 25
  26. 期待単純リグレット Ø誤識別率と期待単純リグレットの関係. n 単純リグレット: あるバンディットモデル3のもとで,A- 3 = 6$∗(%) 3 −

    6 . $$ 3 . n 期待単純リグレット: 4% A- 3 = 4% 6$∗(%) 3 − 6 . $$ 3 . • 期待単純リグレットの期待値は7 8/のランダムネスに対して取られている. n 処置腕., k ∈ [)]の期待アウトカムのgap: Δ$,G 3 ≔ 6$ 3 − 6G 3 . n Δ$,G 3 = 6$ 3 − 6G 3 を用いると.期待単純リグレットを以下のように分解できる: 4% A- 3 = 4% 6$∗ % (3) − 6 . $$(3) = W G∈ # ∖{$∗(%)} Δ$∗ % ,G (3) ℙ% > .- = k . n ある定数l > 0に対して,4% A-(3) = ∑G∈ # ∖{$∗(%)} Δ$∗ % ,G (3) exp −l! Δ$∗ % ,G (3) " . 26 誤識別率 v
  27. 期待単純リグレット n Δ$∗ % ,G (3) が!に依存してゼロに収束する場合,その速度が 4% A- 3

    のレートにも影響. 1. Δ6∗ ( ,8 (3)が1/ ! よりも遅くゼロに収束→ 適当な!の関数F(!)に対して,G( H/ 3 ≈ exp −F ! . 2. Δ6∗ ( ,8 3 = K#/ ! (K#は適当な定数) → 適当な定数K$ > 0に対して,G( H/ 3 ≈ @" / . 3. Δ6∗ ( ,8 (3)が1/ !よりも早くゼロに収束→ G( H/ 3 ≈ N(1/ !) → 最悪時においては,Δ$∗ % ,G (3)はl!/ !の速度でゼロに収束. üoK∗(L),M P がpから独立 → 4% AN(3) の評価はℙ% > .- = k の評価(指数減衰)とおよそ同一. • Δ$∗ % ,G (3)は4% A- 3 の評価において無視できる. • 最悪時( Δ$∗ % ,G 3 = l!/ !)の分析を考える. 27
  28. 期待単純リグレット n 最悪ケースを考えない(各バンディットモデル3*に関する解析). →誤識別率最小化とほぼ同じ問題に帰着. n 最悪ケースを考える. • Gapが1/ !ぐらいの速さでゼロに収束するバンディットモデルがリグレットを支配. •

    Δ$∗ : ,G q = l!/ ! n ベイズ的な評価を考える. • 最悪時と同様に 1/ ! ぐらいの速さでゼロに収束するバンディットモデルがリグレットを支配. • Komiyama, Ariu, Kato, and Qin (2023) 28
  29. 最悪期待単純リグレット最小化 n 最悪期待単純リグレットの下限. • ) = 2の場合, max %∈2 !4%

    A+ 3 ≥ ! !" _! + _" " + e 1 as ! → ∞. • ) ≥ 3の場合.max %∈2 !4% A+ 3 ≥ ! !" ∑$∈ # _$ " + e(1) as ! → ∞. n ターゲット割当比率(戦略のもとで達成したい処置腕を引く回数の期待値の比率). • ) = 2の場合,各腕.をX∗ (.) = >% >*?>+ + の比率(標準偏差の比率)で引く. Neyman割当ルールと一致. • ) ≥ 3の場合,X∗ (.) = >% + ∑.∈ ( >. +(分散の比率). n 最悪期待単純リグレットの上限(戦略) • 誤識別最小化のために提案したNA-AIPW戦略の割当比率を変える(2腕の場合は同じ) . • 最悪期待単純誤差も下限と一致. 29 v v
  30. まとめ n 最適腕識別. • 実験の最後に最適腕を推薦(推定)する問題設定. n (明確に)解決されている問題は分散既知の2腕正規バンディットのみ. n 分散の推定を含む場合や多腕かつ一般の分布を扱う場合には工夫が必要. →

    本研究では,small gapと最悪ケース分析のもとで,分散依存する下限と戦略(上限)を提案. n 期待単純リグレットの最悪ケース分析では,gapが1/ !でゼロに収束する分布が支配的. ü実用的な知見. • 2腕の場合には標準偏差の比率で処置腕を引く. • 多腕の場合には最適性の基準が複数存在し得るので,慎重な議論が必要. 38
  31. 参考文献 • Adusumilli, K. (2022), “Neyman allocation is minimax optimal

    for best arm identification with two arms.” • Armstrong, T. B. (2022), “Asymptotic Efficiency Bounds for a Class of Experimental Design.” • Audibert, J.-Y., Bubeck, S., and Munos, R. (2010), “Best Arm Identification in Multi-Armed Bandits,” in COLT. • Bang, H. and Robins, J. M. (2005), “Doubly Robust Estimation in Missing Data and Causal Inference Models,” Biometrics, 61, 962–973 • Bubeck, S., Munos, R., and Stoltz, G. (2011), “Pure exploration in finitely-armed and continuous-armed bandits,” Theoretical Computer Science. • Carpentier, A. and Locatelli, A. (2016), “Tight (Lower) Bounds for the Fixed Budget Best Arm Identification Bandit Problem,” in COLT • Chen, C.-H., Lin, J., Yücesan, E., and Chick, S. E (2000). Simulation budget allocation for further enhancing the efficiency of ordinal optimization. Discrete Event Dynamic Systems, 39
  32. 参考文献 • Rémy Degenne. On the existence of a complexity

    in fixed budget bandit identification. In COLT 2023. • Garivier, A. and Kaufmann, E. (2016), “Optimal Best Arm Identification with Fixed Confidence,” in COLT. • Glynn, P. and Juneja, S. (2004), “A large deviations perspective on ordinal optimization,” in Proceedings of the 2004 Winter Simulation Conference, IEEE. • Ito, Taira Tsuchiya, and Junya Honda. Adversarially robust multi-armed bandit algorithm with variance-dependent regret bound, In COLT 2022. • Kaufmann, E., Cappé, O., and Garivier, A. (2016), “On the Complexity of Best-Arm Identification in Multi-Armed Bandit Models,” JMLR. • Kaufmann. Contributions to the Optimal Solution of Several Bandits Problems. (2020). • Lai, T. and Robbins, H. (1985), “Asymptotically efficient adaptive allocation rules,” Advances in Applied Mathematics. 40
  33. 参考文献 • Manski, C. F. (2000), ”Identification problems and decisions

    under ambiguity: Empirical analysis of treatment response and normative analysis of treatment choice,” Journal of Econometrics. - (2002), ”Treatment choice under ambiguity induced by inferential problems,” Journal of Statistical Planning and Inference. - (2004), “Statistical treatment rules for heterogeneous populations,” Econometrica. • Manski, C. F. and Tetenov, A. (2016), “Sufficient trial size to inform clinical practice,” Proceedings of the National Academy of Science. • Neyman, J (1934). “On the two different aspects of the representative method: the method of stratified sampling and the method of purposive selection.” JRSSB • Stoye, J. (2009), “Minimax regret treatment choice with finite samples,” Journal of Econometrics. 41