Larry V. Hedges, Harris Cooper, Ingram Olkin, John E. Hunter, Jacob Cohen, Robert Rosenthal, Frank L. Schmidt, John E. Hunter らの貢献が大きい • 1970年代以降、教育学、心理学、医学、生態学など複数の分野でメタ分析が盛んにおこな われる ➢ Lipsey & Wilson(1993):心理・教育・行動的介入に関する302個のメタ分析の結果 を検討し,効果量の平均が0.50,標準偏差が0.29であったことを示している • 1980年代に入ると、ナラティブレビューに代わり、メタ分析やシステマティックレビュー が主流になってくる。 • 2000年代以降、論文データベースが整理されていく中でより活発にメタ分析が 行われるようになってきている • 2008年には、ジョン・ハッティによる大規模なメタ・メタ分析が実施される • 2010年には、Research Synthesis Methods が発行された
size,” that is, the degree to which the phenomenon exists. (Cohen, 1977 , p.4) ⇒ある現象が存在する程度を表す量 • Cohenの考えは、Neyman-Pearson流の統計的帰無仮説検定の枠組みに依拠していて、効 果量は対立仮説が真である程度(帰無仮説が偽である程度)を量的に表現するものである。 • 効果量の定義に言及した最近の文献では、「効果量とは単に研究者が関心を持つ事柄の大 きさである(原文:An effect size is simply the size of anything that may be of interest.)」 とされている(Cumming, 2012, p. 34)。 • Cohenの定義と異なり、現象の実在性を問題とせず研究者が関心を持つ対象の大きさとし て扱っている点や、NHSTの枠組みに依存していない点が特徴的である。 • また、標準化効果量(e.g., Cohen’s d)だけでなく、非標準化効果量(e.g., 平均値差)など も効果量として扱う広義の定義が推奨されている。 ◆ 効果量の定義に関するその他の議論については、Dragicevic (2020) や Kelley & Preacher (2012) などを参照。
0.2 Small d = 0.5 Medium d = 0.8 Large r 判定 r = 0.1 Small r = 0.3 Medium r = 0.5 Large ⚫ Cohenの規準の問題点 • Cohenの基準は行動科学分野の研究を通してこれまでに得られた効果量を参考にして作成さ れた経験則であり、全ての分野において適応できるものではない • Cohenの基準で小さいとされる効果量も、分野によっては大きな意味を持つ • 研究者は、得られた効果量を現実的な文脈や研究分野ごとの文脈に位置づけることでその実 質的な意味を解釈すべきであり、Cohenの規準のようなベンチマークを機械的に当てはめて 解釈を放棄することは望ましくない
(2009) は、近年のメタ分析によって得られた効果量の値が大きくなっていること を根拠に、Cohenの基準を以下のようにプラスの方向に拡張することを提案している。 d 判定 d 判定 d < 0.1 Tiny 0.8 <= d < 1.2 Large 0.1 <= d < 0.2 Very small 1.2 <= d < 2 Very large 0.2 <= d < 0.5 Small d >= 2 Huge 0.5 <= d < 0.8 Medium
判定 Cohen (1988) Gignac & Szodorai (2016) Very small r < 0.1 r < 0.1 Small 0.1 <= r < 0.3 0.1 <= r < 0.2 Moderate 0.3 <= r < 0.5 0.2 <= r < 0.3 Large r >= 0.5 r >= 0.3 ➢ その他にも、心理学(Funder & Ozer, 2019)や社会心理学(Lovakov & Agadullina, 2021)と いった分野特有の規準が提案されてきた。また、老年学(Brydges, 2019)や教育介入(Kraft, 2020)といったより細かな分野ごとの基準も提案されている。 Funder & Ozer (2019) Lovakov & Agadullina (2021) Kraft (2020) r < 0.05 - Tiny 0.05 <= r < 0.1 - Very small r < 0.12 - Very small 0.1 <= r < 0.2 - Small 0.12 <= r < 0.24 - Small d < 0.05 - Small 0.2 <= r < 0.3 - Medium 0.24 <= r < 0.41 - Moderate 0.05 <= d < 0.2 - Medium 0.3 <= r < 0.4 - Large r >= 0.41 - Large 0.2 <= d - Large r >= 0.4 - Very large
重み Call et al. 0.7091 [ 0.1979; 1.2203] 5.0 ⋮ ⋮ Warnecke et al. 0.6000 [ 0.1120; 1.0880] 5.2 Number of studies combined: k = 18 SMD 95%-CI t p-value Random effects model 0.5771 [0.3782; 0.7760] 6.12 < 0.0001 Quantifying heterogeneity: tau^2 = 0.0820 [0.0295; 0.3533]; tau = 0.2863 [0.1717; 0.5944] I^2 = 62.6% [37.9%; 77.5%]; H = 1.64 [1.27; 2.11] Test of heterogeneity: Q d.f. p-value 45.50 17 0.0002 Details on meta-analytical method: - Inverse variance method 逆分散重み付け - Restricted maximum-likelihood estimator for tau^2 制限付き最尤法 - Q-profile method for confidence interval of tau^2 and tau Qプロファイル法(tau^2の信頼区間の計算を調整) - Hartung-Knapp adjustment for random effects model Hartung-Knappの調整