Upgrade to Pro — share decks privately, control downloads, hide ads and more …

メタ分析講習会@2022

 メタ分析講習会@2022

2022年7月3日
メタ分析講習会(オンライン開催)

4e437713540d4a32369b9c9f1b624e9c?s=128

Daiki Nakamura

July 03, 2022
Tweet

More Decks by Daiki Nakamura

Other Decks in Research

Transcript

  1. メタ分析の理論と実践 中村 大輝(広島大学) 2022年7月3日 @オンライン 全94枚+補 資料ダウンロード https://drive.google.com/drive/folders/1dFUHyg- 1h64SoEmLDXRsPD7gJMedrovO?usp=sharing Meta-Analysis

  2. 自己紹介 2 中村 大輝(Daiki Nakamura) ◼ 所属 広島大学 教育学部 特任学術研究員(数理・データサイエンス・AI教育プログラム担当)

    ◼ 専門 科学教育、理科教育、教育心理学 ◼ 研究テーマ 科学的思考力、教育測定、メタ分析、研究方法論 ◼ 論文 • 中村大輝, 山根悠平, 西内舞, 雲財寛. (2019). 理数科教育におけるテクノロジー活用の効果―メタ分析を 通した研究成果の統合―. 科学教育研究, 43(2), 82-91. 10.14935/jssej.43.82 • 中村大輝・田村智哉・小林誠…・松浦拓也(2020)「理科における授業実践の効果に関するメタ分析- 教育センターの実践報告を対象として-」『科学教育研究』44(4), 215-233. 10.14935/jssej.44.215 • 中村大輝・雲財寛・松浦拓也(2021)「理科における認知欲求尺度の再構成および項目反応理論に基づ く検討」『科学教育研究』45(2), 215-233. 10.14935/jssej.45.215 • 中村大輝・原田勇希・久坂哲也・雲財寛・松浦拓也(2021)「理科教育学における再現性の危機とその 原因」『理科教育学研究』62(1), 3-22. 10.11639/sjst.sp20016 #Twitter @d_nakamuran #E-mail turidaiki@gmail.com #HP https://www.nakamu ra-edu.com/
  3. 諸連絡 3 ⚫ 事前のお願い • RStudioというソフトウェアを使用しますので、あらかじめインストールしておいていただける とスムーズです。 • 欠席者用に録画を行います。録画は欠席者のみに共有し、外部には公開しません。 •

    発表担当者は統計の専門家ではないため、その内容的正確さを保証できません。 • ハラスメント行為など、許容できない迷惑行為が見られた場合には強制的に退出していただく場 合があります。 ⚫ 自己紹介(全体) • お名前、ご所属 • ご専門や研究関心など • 統計の知識 • Rの使用経験
  4. 勉強会の概要 Outline of the workshop 4

  5. 本勉強会の目標とスケジュール 5 ⚫ 2日間を通しての目標 ✓ 効果量の種類と計算法について理解する ✓ メタ分析の基礎を理解する ✓ Rを用いた分析を実行できるようになる

    ⚫ スケジュール(予定) • 午前(9:00-12:00) • メタ分析とは何か • Rと統計学の基礎 • 効果量の種類とその計算法 • 効果量の解釈 • 午後(13:00-17:00) • メタ分析の準備 • メタ分析による統合 • 異質性の評価と外れ値の検出 • その他、演習 ◼ チャットで随時、質問や感想を受け付けます
  6. メタ分析とは何か What is meta-analysis? 6

  7. メタ分析とは何か 7 ⚫ メタ分析の定義 広義:複数の研究の結果を統合し、より高い見地から分析すること 狭義:複数の研究の結果を組み合わせた統計解析のこと ⚫ 類似概念 システマティックレビュー:明示的で体系的なルールに基づき文献を偏りなく探索すること ⚫

    メタ分析の手順 0.研究テーマの決定 どのようなテーマの研究を集めるのかを明確化する(適格性基準の設定) 1.研究の収集 そのテーマに関連する研究を偏りなく集める。集めた研究が適格性基準を満たすか評価する。 2.効果量の抽出 各研究から効果量を算出・抽出する。 3.効果量の統合 各研究の効果量を特定の数理モデルに従って統合する。
  8. 歴史的背景 8 • 1904年、統計学者のカール・ピアソンが腸チフス菌の接種に関する複数の研究からデータ を収集した論文を発表(メタ分析の最初期の例) • 1976年、ジーン・V・グラスによってメタ分析という用語が作られ、分析手法が体系化さ れていく ➢ 特に、

    Larry V. Hedges, Harris Cooper, Ingram Olkin, John E. Hunter, Jacob Cohen, Robert Rosenthal, Frank L. Schmidt, John E. Hunter らの貢献が大きい • 1970年代以降、教育学、心理学、医学、生態学など複数の分野でメタ分析が盛んにおこな われる ➢ Lipsey & Wilson(1993):心理・教育・行動的介入に関する302個のメタ分析の結果 を検討し,効果量の平均が0.50,標準偏差が0.29であったことを示している • 1980年代に入ると、ナラティブレビューに代わり、メタ分析やシステマティックレビュー が主流になってくる。 • 2000年代以降、論文データベースが整理されていく中でより活発にメタ分析が 行われるようになってきている • 2008年には、ジョン・ハッティによる大規模なメタ・メタ分析が実施される • 2010年には、Research Synthesis Methods が発行された
  9. 用語の出現頻度の変化 9 Google Ngram https://books.google.com/ngrams/graph?content=meta- analysis%2C+systematic+review&year_start=1800&year_end=2019&corpus=26&smoothing=3&direct_url=t1%3B%2Cmeta%20- %20analysis%3B%2Cc0%3B.t1%3B%2Csystematic%20review%3B%2Cc0

  10. メタ分析の長所と短所 10 ⚫ メタ分析の長所 • 個別の研究の統合を通してより強いエビデンスを生み出すことが できる。 ➢ 特に、個別の研究のサンプルサイズに制約がある分野などで は重宝される。

    • 真の効果量分布のより良い推定ができる。 • 研究間の効果量のばらつきの原因を探ることができる。 ⚫ メタ分析の短所 • 統合するデータが偏っていると、誤った推定になる ➢ 出版バイアスによって、得られるデータが偏っている場合が ある • 異なる種類の研究を1つに統合することへの批判(リンゴとオレ ンジ問題) • メタ分析を行う上で、多くの選択肢(研究者自由度)があるため、 結論を恣意的に変えられる。 エビデンスピラミッド https://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%BF%E3%82%A2%E3%8 3%8A%E3%83%AA%E3%82%B7%E3%82%B9#/media/%E3%83%95%E3% 82%A1%E3%82%A4%E3%83%AB:Research_design_and_evidence_ja.svg
  11. Rと統計学の基礎 R and Statistics Basics 11

  12. SPSS vs R • 有料ソフトである • ボタンをポチポチして操作(GUI) • 日本語対応 •

    無料ソフトである • コードを入力して操作(CUI) • パッケージ(拡張機能)も8000を超える • Rでしかできない最新手法が多くある • 幅広いコミュニティが形成されている • 基本英語 <
  13. 準備:RとRStudioをインストールしよう ◼ R CRANからbaseをダウンロード&インストール https://cran.ism.ac.jp/ 最新版は、ver. 4.2.1 ◼ RStudio Rstudio社のHPからFree版をダウンロード&インストール

    https://rstudio.com/products/rstudio/download/#do wnload 最新版は、ver. 2022.02.3+492
  14. RStudioについて ⚫ RStudioは、Rをより使いやすくするためのソフト(基本無料) ⚫ この講習会では、すべてRStudioを利用して分析する ⚫ 必ずインストールして欲しい・・・ <便利なところ> • コードの予測変換や引数リストを表示してくれる

    • 変数の管理が容易
  15. RStudioの画面 エディタ (コードを書くところ) コンソール (結果・出力が出るところ) パッケージの管理 図表の出力など ワークスペース (変数の管理)

  16. R Script を作成して保存 ⚫ R Script の作成と保存 新しくフォルダを作成し、R Script を保存する。

    ファイル名には英語を使った方がよい 例)script1, 220703, code_0703 新規の R Script を作成 コードを書いておくメモ帳のようなもの
  17. 四則演算 # 四則演算 3+5 10-3 2*3 100/20 (12+34-56)*78/90 4^2 #

    二乗だよ • エディタに書いて実行 or コンソールに直接入力 ⚫ 実行の方法 • Alt(⌥)+Enterでその行を実行 • Ctr(⌘)+Enterでその行を実行+改行 • 範囲をドラッグで指定してRunをクリック ⚫ コメントアウト(メモ) • #から始めるとそれ以降は読み込まれない • メモやコメントを残せる • コメントの後ろに#を連ねると見出しとして 認識される
  18. 変数と代入 • 代入演算子「<-」「=」を使って、変数にオブジェクトを代入することができる • Ctr(⌥) + - で、<- が入力できる #

    変数と代入 x <- 3+5 y <- 9 z <- x+y z オブジェクト 変数の箱 ※イメージ オブジェクト:データそのもの 変数:オブジェクトを保管する箱 代入:オブジェクトを箱に保管すること スペースは無視して読み込まれる スペースを入れた方が可読性が高い
  19. 関数 アウトプット インプット 処理 関数 2 4 処理 4 sqrt

    # 関数 sqrt(4) # 平方根 exp(1) # 指数関数 ⚫ 平方根を返す関数 sqrt()、指数関数 exp() 関数:何らかのインプットに対して処理を加え、アウトプットを返すもの
  20. 確率変数と確率分布 ⚫ 確率変数 取る値の範囲と取る確率だけがわかっている変数 ➢ 連続確率変数: 例)身長 ➢ 離散確率変数: 例)コインの表裏

    ⚫ 確率分布 確率変数がとる値とその値をとる確率の対応の様子を表すもの コインの出る目の確率分布 コインの表裏 表(=1) 裏(=0) 確率 0.5 0.5 ⇒ ベルヌーイ分布
  21. 確率分布の種類 確率分布 離散型 一様分布 二項分布 ポアソン分布 正規分布 z 分布(標準正規分布) t

    分布 χ2分布 F 分布 連続型 χ2分布 (標準)正規分布 t分布 F分布 二項分布 ポアソン分布 一様分布
  22. 正規分布と確率 ⚫ 正規分布の確率密度関数 𝜇 は平均値(期待値)であり、𝜎2 は分散 𝑓(𝑥) = 1 2𝜋𝜎2

    𝑒− 𝑥−𝜇 2 2𝜎2 面積が確率を表している。 68.27% 95.45% μ σ 2σ -σ -2σ ↑こんな形 確率分布を決定する統計量を母数(parameter)と言う。 正規分布の母数は、平均 𝜇 と 分散 𝜎2 特に、 𝜇 = 0,𝜎2 = 1 であるような正規分布を標準正規分布と呼ぶ。
  23. 正規分布の例 ⚫ 日本人17歳男性の身長分布 𝑓(𝑥) = 1 2𝜋 ∗ 33 𝑒−

    𝑥−170 2 2∗33 日本の成人男性の 身長(確率変数) 170cm 190cm 150cm 存在する確率 (確率密度) 極端に長身や低身の人は滅多にいない
  24. 記述統計学と推測統計学 母集団 記述統計学・・・サンプルの性質の要約 推測統計学 標本統計量の値をもとに, 母数についてできるだけ正確な推測をする。 推測の不確実性を見積もる。 サンプル (標本) サンプリング

    ⚫ 記述統計学と推測統計学 目の前のサンプルに関する ことしか言えない 例)サンプルから母平均 μ を推測したい ⚫ 点推定 母数の推定値を1つの値で示す (ex. 母平均の推定値は8.3cm) ⚫ 区間推定 誤差を考慮して、母数の推定値を区間で示す (ex. 長期的に見て95%の確率で7.8~8.8cm の間に入る)
  25. 標本平均と標本分布 母集団 (テントウムシの体長) 標本 (n=2) 母平均1.0cm (実際は未知) 標本平均0.9cm (実際に観測できる) 標本平均1.1cm

    標本平均1.3cm 標本平均◦.◦cm 標 本 平 均 は 分 布 す る 何度でも 抽出できる 標本平均の標本分布 1.0 繰り返しサンプリングする状況を考え てみよう。複数得られる統計量の分布 をその統計量の標本分布という。
  26. 標本平均のばらつき(標準誤差) 母集団 (テントウムシの体長) 母平均1cm (実際は未知) 標本平均0.9cm 標本平均1.1cm 標本平均0.5cm 何度でも 抽出できる

    nの数によって・・・ 標本平均2.5cm nが大きいと、 標本平均のバラツキ は小さい nが小さいと、 標本平均のバラツキ は大きい 標本分布の標準偏差を標準誤差と呼ぶ nが大きいほど標準誤差は小さくなる Standard Error 標本分布
  27. サンプルサイズと標準誤差 μ 標本平均の標本分布(n=5) 標本平均の標本分布(n=10) 母標準誤差σ/√5 母標準誤差σ/√10 x ➢ 母標準誤差(SE) 𝜎

    ҧ 𝑥 = 𝜎𝑥 𝑛 ➢ 標本標準誤差(se) 𝑆 ҧ 𝑥 = 𝑆𝑥 𝑛 nが大きいほど標準誤差は小さくなる →精度良く母集団の平均値の推定ができる 標本平均の標本分布(n=N)
  28. 母平均の点推定 28 標本(𝑛 = 100)から母平均 𝜇 を点推定する場合、 推定量(estimator)にはどのような指標を用いればよいだろうか? A. 標本平均

    ҧ 𝑥 = 1 𝑛 σ𝑖=1 𝑛 𝑥𝑖 B. 標本平均 − 1 ҧ 𝑥 − 1 = −1 + 1 𝑛 σ𝑖=1 𝑛 𝑥𝑖 C. 標本平均 + 1 ҧ 𝑥 + 1 = 1 + 1 𝑛 σ𝑖=1 𝑛 𝑥𝑖 正解は、A. 標本平均 である。 大数の法則より、標本平均 ҧ 𝑥 はサンプルサイズ 𝑛 が大きくなると母平均 𝜇 に近づ くという一致性を持つからである。 また、標本平均の期待値 𝐸 ҧ 𝑥 = 𝜇 となることから、サンプルサイズ 𝑛 に関係なく 標本平均 ҧ 𝑥 の期待値は母平均 𝜇 に一致するという不偏性を持つ。 よって、標本平均 ҧ 𝑥 は母平均 𝜇 の一致推定量かつ不偏推定量である。 標本分布 μ
  29. シミュレーションによる確認 29 # 標本平均の一致性と不偏性 n = 10 # サンプルサイズ k

    = 1 # シミュレーション回数 m <- NULL # 結果の格納用 set.seed(123) # 乱数の種の固定 for(i in 1:k){ x <- rnorm(n, 5, 1) # 正規分布N(5,1)からn個の乱数を発生 m[i] <- mean(x) # 標本平均の格納 } mean(m) # k個の標本平均の平均 5 - mean(m) # 母平均μとのずれ hist(m) # 標本平均の標本分布 1.k=1でnを増やしていき、母平均と一致するか確認しよう(一致性) 2.kを増やしていき、標本平均の期待値が母平均と一致するか確認しよう(不偏性)
  30. 母分散の点推定 30 標本(𝑛 = 100)から母分散 𝜎2 を点推定する場合、 推定量(estimator)にはどのような指標を用いればよいだろうか? A. 標本分散

    ෢ 𝜎2 = 1 𝑛 σ𝑖=1 𝑛 𝑥𝑖 − ҧ 𝑥 2 B. 不偏分散 𝑠2 = 1 𝑛−1 σ𝑖=1 𝑛 𝑥𝑖 − ҧ 𝑥 2 C. 標準誤差 𝑠 ҧ 𝑥 = 𝑆𝑥 𝑛 正解は、B. 不偏分散 である。 標本分散は一致推定量である者の不偏推定量ではない。n が大きくないときは標本 分散の期待値は母分散𝜎2に一致せず、母分散𝜎2よりも小さくなる。 不偏分散は一致推定量かつ不偏推定量である。
  31. シミュレーションによる確認 31 # 分散の一致性と不偏性 n = 10 # サンプルサイズ k

    = 100000 # シミュレーション回数 sv <- NULL # 標本分散の格納用 uv <- NULL # 不偏分散の格納用 set.seed(123) # 乱数の種の固定 for(i in 1:k){ x <- rnorm(n, 5, 1) # 正規分布N(5,1)からn個の乱数を発生 m <- mean(x) # 標本平均 sv[i] <- sum((x-m)^2)/n # 標本分散の格納 uv[i] <- var(x) # 不偏分散の格納 } 1 - mean(sv) # 母分散と標本分散のずれ 1 - mean(uv) # 母分散と不偏分散のずれ 1.k=1でnを増やしていき、母分散と一致するか確認しよう(一致性) 2.kを増やしていき、期待値が母分散と一致するか確認しよう(不偏性) 3.発展問題 不偏分散の平方根は母標準偏差 の不偏推定量か検討せよ
  32. 区間推定 32 ⚫ 区間推定 中心極限定理より、標本平均の標本分布が正規分布に従うことが分かっているので、 それを利用すれば一定の確率で母数が含まれる区間を構成できる。 例えば、95%信頼区間であれば、正規分布において標準偏差±1.96個分の範囲が 95%になることを利用すればよい 上の式は母数を含んでいるため、標本から直接計算することはできない。 母分散が未知でも

    𝑛 が十分に大きい場合は、標本の標準偏差を 𝜎 に代入して計算す る(一致性があるため)。 𝑛 が小さい場合は、正規分布ではなく、t分布を利用して計算する。
  33. 95%信頼区間の意味 ⚫ 95%信頼区間 95%信頼区間の意味するところは、標本調査を何回も繰り返してその度に95%信頼区間を構成 した場合、95%の確率でそれらの区間内に母数が含まれている区間であるということである。 個々の信頼区間が母数を含むかどうかはTrue/Falseの2択であり、確率的な表現ができているわ けではない。 母平均(真の値) … 95%信頼区間

    失敗 アニメーションによる視覚化 https://rpsychologist.com/d3/ci/
  34. Rによる母平均の区間推定 34 # nが十分に大きい場合 n <- 400 # サンプルサイズ set.seed(123)

    # 乱数の種の固定 x <- rnorm(n, 5, 1) # 正規分布N(5,1)からn個の乱数を発生 m <- mean(x) # 標本平均 s <- sd(x) # 標準偏差 m - 1.96*s/sqrt(n) # 95%信頼区間の下限値 m + 1.96*s/sqrt(n) # 95%信頼区間の上限値 # nが小さい場合(n < 100) n <- 20 # サンプルサイズ set.seed(123) # 乱数の種の固定 x <- rnorm(n, 5, 1) # 正規分布N(5,1)からn個の乱数を発生 m <- mean(x) # 標本平均 s <- sd(x) # 標準偏差 m - qt(0.025, n-1, lower.tail = F)*s/sqrt(n) # 95%信頼区間の下限値 m + qt(0.975, n-1)*s/sqrt(n) # 95%信頼区間の上限値 t.test(x)$conf.int # 既存の関数を利用した場合
  35. 統計的帰無仮説検定:独立した2群のt検定 35 2つの等分散の正規母集団に独立に従う変数 𝐴, 𝐵 の平均値を ҧ 𝐴, ത 𝐵、サンプルサイズを

    m, 𝑛 と表す。以下のような統計量tを考えてみよう。 𝑡 = ҧ 𝐴 − ത 𝐵 𝑠2 1 𝑚 + 1 𝑛 = ҧ 𝐴 − ത 𝐵 𝑠 1 𝑚 + 1 𝑛 ただし、 𝑠2 = 𝑚−1 ∗𝑠𝐴 2+ 𝑛−1 ∗𝑠𝐵 2 𝑚+𝑛−2 この統計量tは、2つの集団の母平均に差が無い(𝜇𝐴 = 𝜇𝐵 )という帰無仮説の下で、 自由度m + 𝑛 − 2 のt分布に従うことが知られている。 例えば、 ҧ 𝐴 = 60, ത 𝐵 = 55、 m = 𝑛 = 100、𝑠𝐴 = 𝑠𝐵 = 10、のとき、 𝑡 = 3.54となる。 自由度198のt分布を見ると、絶対値3.54以上の極端な値を とる確率は、5%以下である。 有意水準5%で帰無仮説は棄却された。 2つの集団の平均には差があると判断する。 ⇒ どれだけの差? 3.54 -3.54 2.5% 2.5% 自由度198のt分布
  36. 練習問題 1. 標本分布とは何か説明せよ 2. 標準偏差(sd)と標準誤差(se)の違いについて述べよ 3. n=100で20代男性のBMIを調べた結果、 平均22.7、標準偏差4.0であった。この場合の標本平均の標準誤差を算出せよ。 4. 標準誤差を半分にするには、サンプルサイズを何倍にすればよいだろうか。

    (ヒント:標準誤差の計算式の分母に注目) 5. 同じ平均値差でもサンプルサイズが大きいと有意になりやすくなる理由につい て考察せよ
  37. 効果量の種類とその計算法 Types of effect sizes and their calculation methods 37

  38. 効果量とは何か 38 • 効果量に関する初期の定義は、効果量という言葉を広めた Jacob Cohen の1977年の著作 に見ることができる The “effect

    size,” that is, the degree to which the phenomenon exists. (Cohen, 1977 , p.4) ⇒ある現象が存在する程度を表す量 • Cohenの考えは、Neyman-Pearson流の統計的帰無仮説検定の枠組みに依拠していて、効 果量は対立仮説が真である程度(帰無仮説が偽である程度)を量的に表現するものである。 • 効果量の定義に言及した最近の文献では、「効果量とは単に研究者が関心を持つ事柄の大 きさである(原文:An effect size is simply the size of anything that may be of interest.)」 とされている(Cumming, 2012, p. 34)。 • Cohenの定義と異なり、現象の実在性を問題とせず研究者が関心を持つ対象の大きさとし て扱っている点や、NHSTの枠組みに依存していない点が特徴的である。 • また、標準化効果量(e.g., Cohen’s d)だけでなく、非標準化効果量(e.g., 平均値差)など も効果量として扱う広義の定義が推奨されている。 ◆ 効果量の定義に関するその他の議論については、Dragicevic (2020) や Kelley & Preacher (2012) などを参照。
  39. 効果量を利用するメリット 39 ⚫ 効果量を利用するメリット(Lakens, 2013) 1. 効果の大きさを定量的に示すことができる 2. 研究間で効果の大きさを比較・統合することができる 3.

    過去の研究の効果量は、新しい研究を行う際の検定力分析に利用することができる • 効果量を利用するメリットの1つは、従来のNHSTにおける帰無仮説が棄却できるかどう かの議論を超えて、どの程度の効果があるのかを定量的に示すことができる点にある。 • このような効果量は、同じ効果を表していて単位が共通であれば研究間で比較・統合す ることができる。例えば、今回得られた効果量が過去の研究と比べて大きいものなのか を比較することが考えられる。また、メタ分析のような効果量を量的統合方法は、母効 果量や効果量の分布に関するより精度の高い推測を可能にする。 • このようにして蓄積された効果量の分布に関する情報は、新たな研究を行う際の検定力 分析やサンプルサイズ設計に活用することができる。
  40. 効果量の種類 40 • 効果量には様々な種類が提案されており、一説によればその数は40を超える(Kirk, 1996, pp. 748–749)。 • Huberty(2002, Fig.

    1)は、効果量の種類と歴史的な登場時期を下図のように整理している。 このように、効果量は長い時間をかけて様々な種類が提案されてきたものであって、一定の時 期にまとめて提案されたものではない。 • この講習会では、2種類の効果量のみを 扱う。 1.標準化平均値差(𝑑𝑠 , g, Δ, 𝑑𝑧 ) 2.相関係数(𝑟)
  41. 独立した2群の標準化平均値差 41 ◆ 独立した2群の標準化平均値差に関する母効果量𝛿は以下の式で定義される。 𝛿 = 𝜇𝐴−𝜇𝑏 𝜎 ここで 𝜇𝐴

    , 𝜇𝑏 はそれぞれ群A, 群Bの母平均、 𝜎 は2群に共通な母標準偏差である。 この母効果量𝛿の推定量にはいくつかの種類がある。 ⚫ 群間で等分散が仮定できる場合 Hedges & Olkin’s 𝑑 ⇒ 今回は扱わないが、これは母効果量の最尤推定量である Cohen’s 𝑑𝑠 ⇒ いわゆるCohenのd。これをgと表記する文献もあるので注意。 Hedges’ 𝑔 ⇒ Cohen’s 𝑑𝑠 に小標本の補正をかけたもの。これが不偏推定量。 ⚫ 群間で等分散が仮定できない場合 Glass’s Δ ⇒ 片方の群の標準偏差を計算に用いる方法。 Glass’s Δadj ⇒ Glass’s Δ に小標本の補正をかけたもの。
  42. Cohen’s 𝑑𝑠 42 Cohen’s 𝑑𝑠 は以下の式で求められる。 𝐶𝑜ℎ𝑒𝑛′𝑠 𝑑𝑠 = ҧ

    𝐴 − ത 𝐵 𝑠 ただし、 s = 𝑚−1 ∗𝑠𝐴 2+ 𝑛−1 ∗𝑠𝐵 2 𝑚+𝑛−2 ここで、 ҧ 𝐴, ത 𝐵 はそれぞれ群A, 群Bの標本平均、𝑚, 𝑛 は群A, 群Bのサンプルサイズ、 𝑠𝐴 2, 𝑠𝐵 2 は群A, 群Bの不偏分散を表す。 誤差分散は以下の式で求められる。誤差分散の平方根を求めれば標準誤差になる。 𝑉𝑑𝑠 = 𝑚 + 𝑛 𝑚𝑛 + 𝑑𝑠 2 2(𝑚 + 𝑛) , 𝑆𝐸𝑑𝑠 = 𝑉𝑑𝑠 標本効果量の標本分布を正規分布で近似すれば、効果量の95%信頼区間は以下のよう に求められる。(※ただしこれは正確ではない。非心t分布を用いた計算がより正確。) 𝑑𝑠 ± 1.96 ∗ 𝑆𝐸𝑑𝑠
  43. 検定統計量tからの変換 43 Cohen’s 𝑑𝑠 は検定統計量tを用いて以下のように計算することもできる。 𝐶𝑜ℎ𝑒𝑛′𝑠 𝑑𝑠 = 𝑡 ∗

    1 𝑚 + 1 𝑛 なぜこのような式になるかは、以下の式がヒントになる。 𝑡 = ҧ 𝐴 − ത 𝐵 𝑠2 1 𝑚 + 1 𝑛 = ҧ 𝐴 − ത 𝐵 𝑠 1 𝑚 + 1 𝑛 𝐶𝑜ℎ𝑒𝑛′𝑠 𝑑𝑠 = ҧ 𝐴 − ത 𝐵 𝑠 s = 𝑚 − 1 ∗ 𝑠𝐴 2 + 𝑛 − 1 ∗ 𝑠𝐵 2 𝑚 + 𝑛 − 2 # convert t to d_s t <- t.test(A, B, var.equal = T)$statistic t * sqrt((1/m)+(1/n))
  44. RによるCohen’s 𝑑𝑠 の計算 44 # 標準化平均値差 ----------------------------------------------------------------- # パッケージの準備 install.packages("easystats",

    repos = "https://easystats.r-universe.dev") # 等分散が仮定できる場合のデータ m <- 100 ; n <- 100 # サンプルサイズ set.seed(123) # 乱数の種の固定 A <- rnorm(m, 60, 10) # 正規分布N(50,100)からm個の乱数を発生 B <- rnorm(n, 50, 10) # 正規分布N(60,100)からn個の乱数を発生 # Cohen's d_s s_pooled <- sqrt(((m-1)*var(A)+(n-1)*var(B))/(m+n-2)) d <- (mean(A)-mean(B))/s_pooled d library(effectsize) cohens_d(A, B) # Cohen's d_s
  45. Hedges’ 𝑔 (小標本の補正) 45 • Cohen’s 𝑑𝑠 には、母効果量を過大に推定するバイアスがあり、特にサンプル サイズが小さい時(n<20)に顕著である。 •

    このバイアスを補正する方法として、標本効果量に以下の補正係数を乗じる 方法が提案されている。 𝐽 ≈ 1 − 3 4 𝑚 + 𝑛 − 2 − 1 𝐻𝑒𝑑𝑔𝑒𝑠′ 𝑔 = 𝐽 ∗ 𝑑𝑠 誤差分散は以下の式で求められる。誤差分散の平方根を求めれば標準誤差になる。 𝑉 𝑔 = 𝐽2 ∗ 𝑉𝑑𝑠 # Hedges' g d * (1-(3/(4*(m+n-2)-1))) library(effectsize) hedges_g(A, B) # Hedges' g
  46. 小標本の補正効果の検証 46 小標本の補正に効果があるのかをシミュレーションによって検証しよう。 シミュレーション回数kを増やしていき、期待値が母分散と一致するか確認しよう(不偏性) # 小標本の補正効果のシミュレーション library(effectsize) ds <- NULL

    # Cohen's d_s の箱 g <- NULL # Hedges'g の箱 n <- 5 # サンプルサイズ k <- 100 # シミュレーション回数 set.seed(123) for(i in 1:k){ A <- rnorm(n, 60, 10) # 正規分布に従う乱数A B <- rnorm(n, 50, 10) # 正規分布に従う乱数B ds[i] <- cohens_d(A, B)$Cohens_d # Cohen's d_s g[i] <- hedges_g(A, B)$Hedges_g # Hedges'g } # bias mean(ds)-1 mean(g)-1
  47. Glass’s Δ 47 Glass’s Δ は以下の式で求められる。 𝑠𝐵 は統制群の標準偏差を指す。 Glass′s Δ

    = ҧ 𝐴 − ത 𝐵 𝑠𝐵 • これは、実験デザインに由来して群間で分散が異なることが想定される場合に有用である。 例えば、実験群にのみ介入を行い、その介入が分散を拡大させると考えられる場合、介入を 行っていない統制群の分散の推定値を効果量の計算に用いる方が適切だと考えられる。 誤差分散は以下の式で求められる。誤差分散の平方根を求めれば標準誤差になる。 𝑉Δ = 𝑚 + 𝑛 𝑚𝑛 + Δ2 2(𝑛 − 1) , 𝑆𝐸𝑉Δ = 𝑉Δ
  48. RによるGlass’s Δ の計算 48 # 等分散が仮定できない場合のデータ m <- 100 ;

    n <- 100 # サンプルサイズ set.seed(123) # 乱数の種の固定 A <- rnorm(m, 60, 15) # 正規分布N(50,100)からm個の乱数を発生 B <- rnorm(n, 50, 10) # 正規分布N(60,100)からn個の乱数を発生 # Glass's Delta (mean(A)-mean(B))/sd(B) # Glass's delta library(effectsize) glass_delta(A, B) # Glass's delta
  49. 対応のある2群の標準化平均値差 49 ◆ 独立した2群の標準化平均値差に関する母効果量𝛿は以下の式で定義される。 𝛿𝑝 = 𝜇𝐷 𝜎𝐷 = 𝜇𝐷

    𝜎 2(1 − 𝜌) ここで 𝜇𝐷 はプレ・ポストの差の期待値、𝜎𝐷 はプレ・ポストの平均値差の母標準偏差、 𝜎 は2群に共通な母標準偏差、𝜌 はプレ・ポストの母相関係数である。 この母効果量𝛿𝑝 の推定量𝑑𝑧 は、以下の式で求められる。 𝐷 = 𝑥𝑝𝑜𝑠𝑡 − 𝑥𝑝𝑟𝑒 𝐶𝑜ℎ𝑒𝑛′𝑠 𝑑𝑧 = 𝐷 𝑠𝐷 = 𝐷 𝑠𝑝𝑟𝑒 2 + 𝑠𝑝𝑜𝑠𝑡 2 − 2 ∗ 𝑐𝑜𝑣(𝑥𝑝𝑟𝑒 , 𝑥𝑝𝑜𝑠𝑡 ) 誤差分散は以下の式で求められる。ここで、r は、プレとポストの相関係数を指す。 𝑉𝑑𝑧 = 2(1 − 𝑟) 𝑛 + 𝑑𝑧 2 2𝑛
  50. RによるCohen’s 𝑑𝑧 の計算 50 # 対応のある2群の標準化平均値差 ----------------------------------------------- # 対応のあるデータの用意 library(mvtnorm)

    set.seed(123) sigma <- matrix(c(100,50,50,100), byrow=TRUE, ncol=2) # 分散共分散行列 mu <- c(50, 60) # 母平均 n <- 100 # サンプルサイズ dat <- data.frame(rmvnorm(n=n, mean=mu, sigma=sigma)) # データ生成 colnames(dat) <- c("pre","post") # ラベル変更 # Cohen's dz mean(dat$post-dat$pre)/sd(dat$post-dat$pre) library(effectsize) cohens_d(dat$post, dat$pre, paired = T) # Cohen's d_z
  51. 相関係数 51 母相関係数 𝜌 の推定量 𝑟 は以下の式で定義される。 𝑟 = 𝑠𝑥𝑦

    𝑠𝑥 𝑠𝑦 = 1 𝑛 σ𝑖=1 𝑛 (𝑥𝑖 − ҧ 𝑥)(𝑦𝑖 − ത 𝑦) 1 𝑛 σ 𝑖=1 𝑛 (𝑥𝑖 − ҧ 𝑥)2 1 𝑛 σ 𝑖=1 𝑛 (𝑦𝑖 − ത 𝑦)2 誤差分散は以下の式で求められる。 𝑉 𝑟 = 1 − 𝑟2 2 𝑛 − 1 相関係数rを以下のように変換したzは、帰無仮説の下で平均0、分散1/n-3 の正規分布に近似的に従う。これもよく使われる。 𝑧 = 0.5 ∗ ln 1 + 𝑟 1 − 𝑟 𝑉 𝑧 = 1 𝑛 − 3 x y ҧ 𝑥 ത 𝑦 𝑥𝑖 − ҧ 𝑥 𝑦𝑖 − ത 𝑦 + + - - ※フィッシャーのz変換
  52. Rによる Pearson’s r の計算 52 # データ生成 library(mvtnorm) set.seed(123) sigma

    <- matrix(c(100,50,50,100), byrow=TRUE, ncol=2) # 分散共分散行列 mu <- c(50, 60) # 母平均 n <- 100 # サンプルサイズ dat <- data.frame(rmvnorm(n=n, mean=mu, sigma=sigma)) # データ生成 colnames(dat) <- c("X","Y") # ラベル変更 # ピアソンの積率相関 library(correlation) r <- correlation(dat) r # フィッシャーのz変換 0.5 * log((1+r$r)/(1-r$r)) install.packages("esc") library(esc) convert_r2z(r$r) #convert z to r
  53. 練習問題 53 1. 日本人17歳の身長分布が、男性はN(170, 33)、女性はN(158, 33)の正規分布に従 うとき、標準化平均値差 𝛿 の大きさを計算せよ。 2.

    新しい指導法を実践したAクラス(n=40)の学力テストは平均70点、標準偏差10 であった。従来の指導法を実践したBクラス(n=40)の学力テストは平均60点、 標準偏差10であった。従来の指導法に対する新しい指導法の効果がどれくらいかを Cohen’s 𝑑𝑠 とHedges’ 𝑔 を用いて表せ。なお、等分散を仮定するものとする。 3. 対応のある2群の平均値差に関して、 Cohen’s 𝑑𝑠 と Cohen’s 𝑑𝑧 の両方を計算する ことを考える。プレとポストの相関係数がr=0.5の時、 2つの指標が一致すること を確認せよ。 4. 相関係数 𝑟 が取り得る値の範囲を示せ
  54. 発展問題 54 ⚫ Glass’ Δ を補正した Glass’s Δadj は以下の式で定義される。 𝐽

    ≈ 1 − 3 4 𝑛 − 1 − 1 Glass′s Δ = ҧ 𝐴 − ത 𝐵 𝑠𝐵 𝐺𝑙𝑎𝑠𝑠′𝑠 Δ𝑎𝑑𝑗 = 𝐽 ∗ Δ Δadj が母効果量𝛿の不偏推定量であるかをモンテカルロシミュレーションによって検討せよ。
  55. 効果量の解釈 Interpretation of effect size 55

  56. 効果量を解釈する4つの方法 56 ⚫ 研究から得られた効果量の値がどのような意味を持つのかを解釈する方法には以下の4つのアプ ローチがある。 1. 共通言語効果量(Common Language Effect Sizes)

    2. Cohenの規準(一般的なベンチマーク) 3. 研究分野ごとの基準(分野固有のベンチマーク) 4. メタ分析の参照
  57. 共通言語効果量(Common Language Effect Sizes) 57 ⚫ 共通言語効果量と呼ばれる一連の指標を用いて確率的に効果量を解釈することが提案され ている(McGraw & Wong,

    1992) 1. 優越率(Probability of Superiority):一方の群の観測値が他方の群の観測値を上回る確率 2. Cohen’s U3:第1グループ(実験群)の平均値より小さい第2グループ(統制群)の割合 3. 被覆度(Overlap):2つの分布の重なる部分の割合 https://rpsychologist.com/cohend/ # 共通言語効果量 set.seed(123) A <- rnorm(100, 60, 10) B <- rnorm(100, 50, 10) library(effectsize) cohens_d(A, B) cles(A, B) # 共通言語効果量
  58. Cohenの規準(一般的なベンチマーク) 58 Cohen (1988) は、標準化効果量を解釈する際の目安となる基準を「小(small)」 「中(medium)」「大(large)」の3段階で示している d 判定 d =

    0.2 Small d = 0.5 Medium d = 0.8 Large r 判定 r = 0.1 Small r = 0.3 Medium r = 0.5 Large ⚫ Cohenの規準の問題点 • Cohenの基準は行動科学分野の研究を通してこれまでに得られた効果量を参考にして作成さ れた経験則であり、全ての分野において適応できるものではない • Cohenの基準で小さいとされる効果量も、分野によっては大きな意味を持つ • 研究者は、得られた効果量を現実的な文脈や研究分野ごとの文脈に位置づけることでその実 質的な意味を解釈すべきであり、Cohenの規準のようなベンチマークを機械的に当てはめて 解釈を放棄することは望ましくない
  59. 分野ごとに細分化された規準 59 • Cohenの規準への批判は、それに代わる新しいベンチマークを生み出すことにつながった。 • 新しいベンチマークの修正の方向性は主に2点にまとめられる。1点目は、Cohenの基準の段階 をより細かくすることである。2点目は、分野を限定し、過去の知見から経験的に段階を設定す ることである。 ➢ Sawilowsky

    (2009) は、近年のメタ分析によって得られた効果量の値が大きくなっていること を根拠に、Cohenの基準を以下のようにプラスの方向に拡張することを提案している。 d 判定 d 判定 d < 0.1 Tiny 0.8 <= d < 1.2 Large 0.1 <= d < 0.2 Very small 1.2 <= d < 2 Very large 0.2 <= d < 0.5 Small d >= 2 Huge 0.5 <= d < 0.8 Medium
  60. 分野ごとに細分化された規準 60 ➢ Gignac & Szodorai (2016) は、心理的な構成概念や行動の相関に関する708件のメタ分析を収 集した結果、この分野の効果量分布はCohenの基準よりもより小さいものであることを明らかに した。そして、相関係数rの判断基準を以下のように修正することを提案した。

    判定 Cohen (1988) Gignac & Szodorai (2016) Very small r < 0.1 r < 0.1 Small 0.1 <= r < 0.3 0.1 <= r < 0.2 Moderate 0.3 <= r < 0.5 0.2 <= r < 0.3 Large r >= 0.5 r >= 0.3 ➢ その他にも、心理学(Funder & Ozer, 2019)や社会心理学(Lovakov & Agadullina, 2021)と いった分野特有の規準が提案されてきた。また、老年学(Brydges, 2019)や教育介入(Kraft, 2020)といったより細かな分野ごとの基準も提案されている。 Funder & Ozer (2019) Lovakov & Agadullina (2021) Kraft (2020) r < 0.05 - Tiny 0.05 <= r < 0.1 - Very small r < 0.12 - Very small 0.1 <= r < 0.2 - Small 0.12 <= r < 0.24 - Small d < 0.05 - Small 0.2 <= r < 0.3 - Medium 0.24 <= r < 0.41 - Moderate 0.05 <= d < 0.2 - Medium 0.3 <= r < 0.4 - Large r >= 0.41 - Large 0.2 <= d - Large r >= 0.4 - Very large
  61. 分野ごとに細分化された規準の課題 61 ⚫ 各分野ごとの経験データから効果量の判断基準が作成されたからといって、それらが適切とは 限らない。 • 第一に、各分野の中でも研究テーマごとに効果量分布が大きく異なる可能性がある。 • 第二に、集められた経験データそのものが歪められている可能性がある。 ➢

    例えば、Schäfer & Schwarz (2019) は心理学分野の研究からランダムに収集した効果量 の分布が事前登録の有無によって異なることを指摘している。 • このように、判断基準の作成に使用されたデータが真の効果量分布を捉えていなければ、そこ から作成された判断基準も誤ったものになる。 "Garbage In, Garbage Out" ⚫ 課題の解決に向けて • これらの課題のうち、1つ目の課題についてはテーマを絞ったメタ分析によって対処できる。 • 2つ目の課題については、メタ分析の際にもデータの偏りに注意する必要がある。
  62. Rを用いた効果量の解釈 62 # Cohen (1988) の基準 interpret_cohens_d(d, rules = "cohen1988")

    # Sawilowsky (2009) の基準 interpret_cohens_d(d, rules = "sawilowsky2009") # Gignac & Szodorai (2016) の基準 interpret_cohens_d(d$Cohens_d, rules = "gignac2016") # Lovakov & Agadullina (2021) の基準 interpret_cohens_d(d, rules = "lovakov2021")
  63. メタ分析の準備 Preparation for Meta-Analysis 63

  64. メタ分析の手順 64 ⚫ メタ分析の手順(再掲) 0.研究テーマの決定 どのようなテーマの研究を集めるのかを明確化する(適格性基準の設定) 1.研究の収集 そのテーマに関連する研究を偏りなく集める。集めた研究が適格性基準を満たすか評価する。 2.効果量の抽出 各研究から効果量を算出・抽出する。

    3.効果量の統合 各研究の効果量を特定の数理モデルに従って統合する。 ⚫ 参考にした情報 今回の資料は、以下の書籍に基づいて作成しています。 Harrer, M., Cuijpers, P., Furukawa, T.A., & Ebert, D.D. (2021). Doing Meta-Analysis with R: A Hands-On Guide. Boca Raton, FL and London: Chapman & Hall/CRC Press. ISBN 978-0-367-61007-4. https://bookdown.org/MathiasHarrer/Doing_Meta_Analysis_in_R/
  65. 研究テーマの決定 65 ⚫ 良いリサーチクエスチョンは、Feasible(実行可能)、Interesting(興味深い)、Novel (新しく独創的)、Ethical(倫理的)、Relevant(切実)である(Cummings et al., 2013) • 既にメタ分析がやられていないかどうか確認

    • テーマが狭すぎると研究数が集まらない。広すぎると結果が解釈できない(リンゴとオレンジ問 題)。 ⚫ どのような研究を対象にするのかの適格性基準を作る。 • 誰が見ても同じ判断ができるよう、客観的で透明性の高い基準 • PICOフレームワーク(Mattos & Ruellas 2015)を使用した適格性基準の設定 • Population(母集団):どのような人々や研究対象者を含む研究が対象となるのか? • Intervention(介入):どのような種類の介入を対象とするのか • Control group(対照群):対照群はどのような処置を受けるのか • Outcome(結果):何を結果変数とするのか。結果変数はどのように測定されるか。 ⚫ 研究計画の事前登録 ・メタ分析には多くの選択肢(研究者自由度)があるため、事前に分析方法を決めて登録し ておき、結果を見た後で方法を変える不正を防ぐ
  66. 適格性基準のカテゴリー例(岡田・小野寺,2018に加筆) 66 カテゴリー 内容 研究のテーマ どのようなテーマの研究を収集するか 対象者 研究の対象者の特徴や母集団 鍵となる変数 どのような変数を扱っている研究が対象か

    変数の測定方法 どのように測定している研究を対象とするか 研究デザイン どのような研究デザインのものを含めるか 介入方法 介入の方法 言語・文化的範囲 どのような言語・文化的範囲を対象にするか。範囲が狭い 場合は、一般化可能性に注意。⇒ WEIRD問題 時間的範囲 どの期間の文献を含めるか。時間的な変化が想定されるか。 対象誌・データベース どのような論文誌、データベースを対象とするか。 公表のタイプ 論文、紀要、プレプリント、プロシーディングス、書籍、 学位論文、その他 著者への問い合わせ 情報が欠落していた場合、著者への問い合わせを行うか 検索キーワード どのような検索キーワードで収集するか 効果量算出上の制約 どのような情報が記載されていれば効果量が算出可能か
  67. データベースを活用した検索 67 ⚫ データベースによってカバーしている論文が異なるため、常に複数のデータベースで 検索を行うべき ⚫ 検索文字列の工夫 – 論理演算子: AND

    OR NOT – ワイルドカード(末): 「sociolog*」→ sociology, sociological, sociologist – ワイルドスピード(途中):「randomi?ed」→ 米 randomized, 英 randomised ⚫ 検索ヒット数の目安 • 検索文字列のヒット数が 3000 件程度であれば、後のステップで管理しやすく、重要 な文献がすべて結果にリストアップされる可能性が高い • 最初の数百件を確認し、少なくともいくつかの文献が研究課題と関係することを確認 しておくと効率的 ⚫ 適格性基準に基づく評価 • タイトルとアブストラクトを読んでのスクリーニングで、90%ほどが除外されること が多い ⇒ 残りは全文を読んで判断 • 多くのガイドラインで、ダブルスクリーニングが推奨されている
  68. データベースの種類と特徴 68 ◆ 領域ごとのデータベース • PubMed: 米国国立医学図書館のオープンアクセスなデータベース。主に生物医学の研究が収録されている。 • PsycInfo:米国心理学会が運営するデータベース。主に心理学、社会科学、行動科学分野の研究を収録。 •

    Cochrane Central Register of Controlled Trials (CENTRAL) :コクラン共同研究体のデータベースで、一般に公開されている。主に健 康関連のトピックをカバー。 • Embase:大手科学出版社 Elsevier が運営する生物医学研究のデータベース。ライセンスが必要。 • ProQuest International Bibliography of the Social Sciences :社会科学研究を収録したデータベース。ライセンスが必要。 • Education Resources Information Center (ERIC) :教育研究に関するオープンアクセスなデータベース。 ◆ 網羅的なデータベース • Web of Science :Clarivate Analytics社が運営する学際的な引用データベース。ライセンスが必要。 • Scopus: Elsevier社が運営する学際的な引用データベース。ライセンスが必要。 • Google Scholar: Googleが運営するオープンアクセス型の引用データベース。検索・文献複写の機能は限定的。 ◆ 学位論文 • ProQuest Dissertations: 学位論文のデータベース。ライセンスが必要 ◆ 研究レジストリ • WHO International Clinical Trials Registry Platform (ICTRP) :世界中の臨床試験の登録情報をオープンにしたデータベース。まだ発表 されていない研究の特定に利用できる。 • OSF Registries :研究登録の学際的なデータベースで、オープンにアクセスできる。未発表の研究を特定するために使用できる。
  69. Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) 69

    https://www.prisma-statement.org//Translations/Translations
  70. 効果量などの抽出 70 ⚫ メタ分析に含める研究が確定したら、各研究から以下のようなデータを抽出する 1. 効果量 2. 研究の特徴に関する情報(調整変数) 3. 研究の質に関する情報

  71. メタ分析のよる統合 Integration through meta-analysis 71

  72. 固定効果モデル 72 ⚫ 固定効果モデル(fixed effect model) 全ての効果量が単一の均質な集団から生じていると仮定するモデル。 ある研究kで観察された効果量 መ 𝜃𝑘

    が母集団における真の効果量𝜃 から外 れる唯一の原因は、誤差𝜖𝑘 のみであると考える。 ෠ 𝜃𝑘 = 𝜃 + 𝜖𝑘 標準誤差が小さい(nが大きい)研究は、標準誤差が大きい研究よりも、 真の全体効果のより良い推定値となるはず(右図参照) ということは、標準誤差の逆数で重み付けて統合してあげればいい。 𝑤𝑘 = 1 𝑠𝑘 2 ただし、 𝑠𝑘 2 は各効果量の誤差分散 𝜃 = σ𝑘=1 𝐾 መ 𝜃𝑘 𝑤𝑘 σ 𝑘=1 𝐾 𝑤𝑘 この方法は、逆分散重み付け、逆分散メタ分析などとも呼ばれる。
  73. Rを用いたメタ分析の準備 73 # パッケージの準備 --------------------------------- install.packages("meta") install.packages("metafor") install.packages("devtools") devtools::install_github("MathiasHarrer/dmetar") #

    データの読み込み ---------------------------------- library(dmetar) data(SuicidePrevention) # データの読み込み 自殺防止プログラムに関する研究のデータ セット。結果変数は、自殺願望の重症度。 効果量がマイナスの場合は介入によって自殺 願望が下がった(改善された)と判断できる。
  74. Rを用いた固定効果モデルの分析 74 # 固定効果モデル ---------------------------------------------------------------- library(dmetar) data(SuicidePrevention) # データの読み込み m.cont

    <- metacont(n.e = n.e, mean.e = mean.e, sd.e = sd.e, n.c = n.c, mean.c = mean.c, sd.c = sd.c, studlab = author, data = SuicidePrevention, sm = "SMD", method.smd = "Hedges", fixed = TRUE, random = FALSE, title = "Suicide Prevention") summary(m.cont)
  75. 変量効果モデル 75 ⚫ 変量効果モデル(random effect model) 各研究条件における真の効果量分布と、研究テーマ全体の真の効果量分布の両方を仮定する。 各研究の効果量 መ 𝜃𝑘

    は、その研究の条件における真の効果量 𝜃𝑘 と測定誤差𝜖𝑘 に分解できる。 መ 𝜃𝑘 = 𝜃𝑘 + 𝜖𝑘 各研究条件における真の効果量𝜃𝑘 も、研究テーマ全体の真の効果量𝜇と誤差に分解できる。 𝜃𝑘 = 𝜇 + 𝜁𝑘 代入すると、1つの式にまとめられる。 መ 𝜃𝑘 = 𝜇 + 𝜁𝑘 + 𝜖𝑘 研究テーマ全体の真の効果量分布の分散を 𝜏2 とすると、 変量効果モデルの重みは以下のように計算できる。 𝑤𝑘 ∗ = 1 𝑠𝑘 2+𝜏2 መ 𝜃 = σ𝑘=1 𝐾 ෡ 𝜃𝑘𝑤𝑘 ∗ σ𝑘=1 𝐾 𝑤𝑘 ∗ 分散 𝜏2
  76. 推定法 76 ⚫ 研究テーマ全体の真の効果量分布の分散 𝜏2 には、いくつかの推定法がある。 1. DerSimonian-Laird ("DL") 推定量

    (DerSimonian and Laird 1986) 2. 制限付き最尤法(”REML”)または最尤法(”ML”) (Viechtbauer 2005) 3. Paule-Mandel ("PM") (Paule and Mandel 1982) 4. Empirical Bayes (“EB”) (Sidik and Jonkman 2019) ※PMと実質的に同じ 5. Sidik-Jonkman (“SJ”) (Sidik and Jonkman 2005) ⚫ どれを使うべきか? • 連続変数の効果量については、まずREMLを使用するべき。 • 2値変数の効果量については、研究間でnに極端なばらつきがなければ、まずPMを試して みるべき。 • サンプル内の効果量の不均一性が非常に大きいと考える根拠があり、偽陽性を避けること が高い優先度を持つ場合はSJも候補。 • R以外でできるだけ正確に結果を再現してもらいたい場合は、DLを使用。
  77. Knapp-Hartung の調整法と結果報告 77 ⚫ Knapp-Hartungの調整法 • 通常、プールされた効果の標本分布には、正規分布(i.e., Wald検定)を仮定する。それに対 して、Knapp-Hartungの調整法ではt分布を仮定する。 •

    Knapp-Hartungの調整は、ランダム効果モデルでのみ使用でき、プールされた効果の信頼区 間がわずかに大きくなる。 • 研究間異質性の持つ不確実性を考慮に入れた調整を行うことになるので、使用した方が良い。 • 特に、研究数が少ない場合、この調整によって偽陽性の可能性を減らすことができる (IntHout, Ioannidis, and Borm 2014; Langan et al. 2019) ⚫ 結果報告 「研究間の異質性が大きいと予想されたため、ランダム効果モデルを使用して効果量を統合した。 異質性分散 𝜏2の算出には、制限付き最尤法(Viechtbauer, 2005)を使用した。統合された効果 量の信頼区間を計算するために、Knapp-Hartung調整(Knapp & Hartung, 2003)を使用し た。」
  78. Rを用いた変量効果モデルの分析 78 # 標準化平均値差(SMD)の統合 library(dmetar) library(meta) data(ThirdWave) m.gen <- metagen(TE

    = TE, seTE = seTE, studlab = Author, data = ThirdWave, sm = "SMD", fixed = FALSE, random = TRUE, method.tau = "REML", hakn = TRUE, title = "Third Wave Psychotherapies") # 変量効果モデル summary(m.gen) forest.meta(m.gen, sortvar = TE, prediction = TRUE, print.tau2 = FALSE, leftlabs = c("Author", "g", "SE")) 第3世代認知行動療法が大学生の知覚 ストレスに及ぼす影響を調査した研究。 ポストテストにおける実験群と統制群 の間の標準化平均差gが記録されてい る。
  79. 結果を眺める 79 Review: Third Wave Psychotherapies SMD 95%-CI % W(random)

    重み Call et al. 0.7091 [ 0.1979; 1.2203] 5.0 ⋮ ⋮ Warnecke et al. 0.6000 [ 0.1120; 1.0880] 5.2 Number of studies combined: k = 18 SMD 95%-CI t p-value Random effects model 0.5771 [0.3782; 0.7760] 6.12 < 0.0001 Quantifying heterogeneity: tau^2 = 0.0820 [0.0295; 0.3533]; tau = 0.2863 [0.1717; 0.5944] I^2 = 62.6% [37.9%; 77.5%]; H = 1.64 [1.27; 2.11] Test of heterogeneity: Q d.f. p-value 45.50 17 0.0002 Details on meta-analytical method: - Inverse variance method 逆分散重み付け - Restricted maximum-likelihood estimator for tau^2 制限付き最尤法 - Q-profile method for confidence interval of tau^2 and tau Qプロファイル法(tau^2の信頼区間の計算を調整) - Hartung-Knapp adjustment for random effects model Hartung-Knappの調整
  80. 相関係数の統合 80 ⚫ 今度は、相関係数を変量効果モデルに基づき統合してみよう。 やり方は先ほどとあまり変わらない。 ✓ 使用データ:HealthWellbeing 健康と幸福の相関を調べた研究を収集したデータセット # 相関係数の統合

    data(HealthWellbeing) m.cor <- metacor(cor = cor, n = n, studlab = author, data = HealthWellbeing, fixed = FALSE, random = TRUE, method.tau = "REML", hakn = TRUE, title = "Health and Wellbeing") summary(m.cor)
  81. 81 forest.meta(m.cor, sortvar = cor, prediction = TRUE, print.tau2 =

    FALSE, leftlabs = c("Author", "cor", "SE"))
  82. 異質性の評価と外れ値の検出 Evaluation of heterogeneity and detection of outliers 82

  83. 異質性の指標 83 メタ分析において、研究間で効果量がどの程度異なるかを異質性(heterogeneity)と呼ぶ。 異質性を定量的に評価するための指標がいくつか存在する。 ⚫ コクランのQ 𝑄 = σ𝑘=1 𝐾

    𝑤𝑘 ෠ 𝜃𝑘 − ෠ 𝜃 2 Qが大きいほど異質性が高い。 Qは自由度K-1のカイ二乗分布に近似的に従うことを利用して検定ができる。 ただし、Qは研究数が多いほど大きくなってしまうという問題がある。 ⚫ Higgins and Thompson の 𝐼2 𝐼2 = 𝑄−(𝐾−1) 𝑄 𝐼2はQを比率に変換しており、研究数に依存しない。0~100%の範囲をとる。 例えば 𝐼2 = 50%のとき、半分は研究間の異質性、もう半分は測定誤差。 異質性が極端に高い場合、外れ値が含まれていないか、調整変数によって異質性を説明できない かを検討していくことが考えられる。 𝐼2 = 25%: 低い異質性 𝐼2 = 50%:中程度の異質性 𝐼2 = 75%: 高い異質性
  84. 予測区間 84 ⚫ 新しく研究を行ったとき、そこから得られる効果量が一定の確率で入る区間(予測区間)を 現在得られている証拠に基づいて構成する。これは、研究間の異質性も反映している。異質 性が高ければ、予測区間も広くなる。 ⚫ 結果報告の記述例 「研究間の異質性分散は 𝜏2

    = 0.08 (95%CI: 0.03-0.35) と推定され、 𝐼2値は63% (95%CI: 38-78%) であった。95%予測区間は g = −0.06-1.21であり、今後の 研究では負の介入効果を否定できないことが示された。」 # 予測区間の追加 m.gen <- update.meta(m.gen, prediction = TRUE) summary(m.gen)
  85. 外れ値の検出方法 85 ⚫ 信頼区間に基づく方法 以下の条件に当てはまる効果量を外れ値と見なす • 効果量の95%CIの上限が統合された効果量の95%CIの下限より低いもの(極端に小さい) • 効果量の95%CIの下限が統合された効果量の95%CIの上限より低いもの(極端に大きい) •

    𝐼2 = 63% から 25% へと大幅に減少している。 𝜏2の信頼区間は0を含むようになり、異質 性のQ検定は有意ではなくなった。 • ごく少数の影響力の強い(nやESが大きい)研究が異質性を高めていたことが分かる。 # 信頼区間に基づく方法 find.outliers(m.gen)
  86. 影響度診断(Influence Analysis) 86 ⚫ 統合された効果量の頑健性に影響を及ぼすのは極端な効果量の外れ値だけとは限らない。 ⚫ Viechtbauer & Cheung(2010)は、leave-one-out法に基づいて、その研究を除外し た時の統合結果への影響を総合的に判断することを提案している。

    (1)外部スチューデント化残差(externally standardized residuals),(2)DFFITS値,(3)クックの距離 (Cook‘s distances),(4)共分散比(covariance ratios),(5)LOO異質性(leave-one-out estimates of the amount of heterogeneity),(6)ハット値(hat values)に基づき,影響の強い研究を検出 # 影響度診断 m.gen.inf <- InfluenceAnalysis(m.gen, random = TRUE) plot(m.gen.inf, "influence") plot(m.gen.inf, "es") plot(m.gen.inf, "i2")
  87. Graphic Display of Heterogeneity (GOSH) Plots 87 ⚫ GOSHプロット(Olkin, Dahabreh,

    & Trikalinos 2012) 全ての可能な効果量統合の組み合わせ 2𝑘−1 通りを総当たりで試していき、機械学習 のクラスタリング技術を用いて影響の強い研究群を見つけ出す方法も提案されている。 提案されてからまだ新しい上に、計算量が多く負荷が高いため、今回は扱わない。
  88. その他の分析 Other Analysis 88

  89. メタ回帰分析 89 # メタ回帰分析 ------------------------------------------------------------------ library(dmetar) data(MVRegressionData) m.qual <- rma(yi

    = yi, sei = sei, data = MVRegressionData, method = "ML", mods = ~ quality, test = "knha") # 単回帰 m.qual.rep <- rma(yi = yi, sei = sei, data = MVRegressionData, method = "ML", mods = ~ quality + reputation, test = "knha") # 重回帰 anova(m.qual, m.qual.rep) # モデル比較
  90. 出版バイアスの検討 90 # 出版バイアスの検討 ----------------------- # 漏斗プロット funnel.meta(m.gen, xlim =

    c(-0.5, 2), studlab = TRUE) # Egger検定 metabias(m.gen, method.bias = "linreg") # Trim & Fill 法 tf <- trimfill(m.gen) summary(tf) funnel.meta(tf, xlim = c(-0.5, 2), studlab = TRUE)
  91. 総合演習 91 ”metadat”パッケージには、過去の様々なメタ分析のデータが収録されている。 https://cran.r-project.org/web/packages/metadat/metadat.pdf 好きなデータセットを1つ選んでメタ分析を行い、結果を解釈せよ。 install.packages("metadat") library(metadat) dat <- dat.bangertdrowns2004

    dat$seTE <- sqrt(dat$vi)
  92. 補足 Supplemental 92

  93. おすすめの文献 93 • Pigott, Terri D, and Joshua R Polanin.

    2020. “Methodological Guidance Paper: High-Quality Meta-Analysis in a Systematic Review.” Review of Educational Research 90 (1): 24–46. • 上岡洋晴. (2021). 「PRISMA 2020 声明: システマティック・レビュー報告のための更新版ガイ ドライン」 の解説と日本語訳. 薬理と治療, 49(6), 831-842.
  94. 終わりに 94 ⚫ メタ分析をすれば自動的に強いエビデンスが得られる訳ではありません。 幅広い研究を含めすぎると平均効果量の意味が解釈しづらくなるし、集め た研究に偏りがあると真の効果量分布を捉えられません。 ⚫ メタ分析を行うのにかかる時間の8割は、研究の収集とコーディング作業で す。人手がかかりますが、その分、得られる成果は大きいです。 ⚫

    今日の講習会をきっかけにメタ分析に興味を持ってくださる方が増えると 嬉しいです。 ⚫ 質問などありましたらいつでもメールで受け付けます。 ⚫ この講習会は完全ボランティアで実施しています。 それでも、コーヒー代を奢ってくださる方がいると嬉しいです(笑)