Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計勉強会2023春@岡山大学

 統計勉強会2023春@岡山大学

統計勉強会2023春@岡山大学
2023年3月9日~10日
岡山大学+オンライン

Daiki Nakamura

March 11, 2023
Tweet

More Decks by Daiki Nakamura

Other Decks in Science

Transcript

  1. 自己紹介 2 中村 大輝(Daiki Nakamura) ◼ 所属 広島大学 教育学部 特任学術研究員(数理データサイエンスAI教育担当)

    ◼ 専門 科学教育、理科教育、教育心理学 ◼ 研究テーマ 科学的思考力、教育測定、メタ分析、研究方法論 ◼ 論文 • 中村大輝・田村智哉・小林誠…・松浦拓也(2020)「理科における授業実践の効果に関するメタ分 析-教育センターの実践報告を対象として-」『科学教育研究』44(4), 215-233. 10.14935/jssej.44.215 • 中村大輝・雲財寛・松浦拓也(2021)「理科における認知欲求尺度の再構成および項目反応理論に 基づく検討」『科学教育研究』45(2), 215-233. 10.14935/jssej.45.215 • 中村大輝・原田勇希・久坂哲也・雲財寛・松浦拓也(2021)「理科教育学における再現性の危機と その原因」『理科教育学研究』62(1), 3-22. 10.11639/sjst.sp20016 • 中村大輝, 堀田晃毅, 西内舞, 雲財寛 (2022). 社会認知的キャリア理論に基づくSTEMキャリア選択の 要因と性差の検討 ―PISA2015データの二次分析を通して―. 日本教育工学会論文誌, 46(2), 303- 312. https://doi.org/10.15077/jjet.45098 #Twitter @d_nakamuran #E-mail [email protected] #HP https://www.nakamu ra-edu.com/
  2. 本勉強会の目標とスケジュール 4 ⚫ 2日間を通しての目標 統計学の基礎と実際の分析方法を習得する • 統計学の基礎に関する講義 • Rを用いた様々な分析の演習 •

    発展的な数理モデルとその応用の体験 ⚫ スケジュール(仮) ◼ 3月9日(木)午前 • Rの準備 • 記述統計学の基礎 • 確率分布 • 推測統計学の基礎 • 統計的帰無仮説検定 • パラメトリック検定 ◼ 3月10日(金)午前 • 介入研究のデザイン • ノンパラメトリック検定 ◼ 3月10日(金)午後 • メタ分析 • 構造方程式モデリング ◼ 3月9日(木)午後 • 線形モデル • 因子分析 • 古典的テスト理論 • 項目反応理論
  3. 諸連絡 5 ⚫ 勉強会の方針 • 数理的な説明は最低限にとどめ、Rを使用して実際に分析することを重視する • 初心者向け8割、中級者向け2割 • 分からないことは放置しない(遠慮なく質問してください)

    ※発表担当者は統計の専門家ではないため、その内容的正確さを保証できません。 ⚫ オンライン参加の方へのお願い • 欠席者用に録画を行います。録画は欠席者のみに共有し、外部には公開しません。 • ハラスメント行為など、許容できない迷惑行為が見られた場合には強制的に退出していた だく場合があります。
  4. SPSS vs R • 有料ソフトである • ボタンをポチポチして操作(GUI) • 日本語対応 •

    無料ソフトである • コードを入力して操作(CUI) • パッケージ(拡張機能)も8000を超える • Rでしかできない最新手法が多くある • 幅広いコミュニティが形成されている • 基本英語 <
  5. R Script を作成して保存 ⚫ R Script の作成と保存 新しくフォルダを作成し、R Script を保存する。

    ファイル名には英語を使った方がよい 例)script1, 220222, code_0223 新規の R Script を作成 コードを書いておくメモ帳のようなもの
  6. 四則演算 # Rの準備 #### # 四則演算 3+5 10-3 2*3 100/20

    (12+34-56)*78/90 4^2 #二乗だよ • エディタに書いて実行 or コンソールに直接入力 ⚫ 実行の方法(3つのうちどれでもOK) • Alt(⌥)+Enterでその行を実行 • Ctr(⌘)+Enterでその行を実行+改行 • 範囲をドラッグで指定してRunをクリック ⚫ コメントアウト(#メモ) • #から始めるとそれ以降は読み込まれない • メモやコメントを残せる • コメントの後ろに#を連ねると見出しとして 認識される
  7. 変数と代入 • 代入演算子「<-」「=」を使って、変数にオブジェクトを代入することができる • Alt(⌥) + - で、<- が入力できる #

    変数と代入 x <- 3+5 y <- 9 z <- x+y z オブジェクト 変数の箱 ※イメージ オブジェクト:データそのもの 変数:オブジェクトを保管する箱 代入:オブジェクトを箱に保管すること スペースは無視して読み込まれる スペースを入れた方が可読性が高い
  8. 関数 アウトプット インプット 処理 関数 2 4 処理 4 sqrt

    # 関数 sqrt(4) #平方根 exp(1) #指数関数 ⚫ 平方根を返す関数 sqrt()、指数関数 exp() ⚫ 関数:何らかのインプットに対して処理を加え、アウトプットを返すもの
  9. 今回使用するデータ 16 ◼ data1.csv:教育測定に関する架空データ • ID :通し番号(1~250) • school :学校名(sakura/kita)

    • grade :学年(5,6) • class :クラス(1, 2) • number :出席番号 • sex :性別(M男、F女) • kokugo1ー3:国語のテスト結果 • sansu1ー3 :算数のテスト結果 • rika1ー3 :理科のテストの結果 • CT1ー7 :批判的思考質問紙 ※ Rは変数名を英語にした方がエラーが出にくい ← まずはデータを眺めて構造を理解しよう。
  10. データの読み込み(csvから) 17 #ワーキングディレクトリの確認 getwd() #データの読み込み setwd(“C:/Users/***/***/2023_03") dat1 <- read.csv("data1.csv") ←

    作業フォルダへのパスの確認 ← ワーキングディレクトリの指定 ← read.csv(“ファイル名”) で、読み込み。 dat1 に格納。 ↓ Session>Set WD>To Source File で、 パスを取得できる 1. ワーキングディレクトリ(作業フォルダ)を変更する 2. csvファイルをRで読み込んでみる ↓ ワーキングディレクトリが変更されていることが確認できる
  11. データの確認 18 • データが正しく読み込まれているか確認しよう # 行列数 dim(dat1) # 先頭6行の表示 head(dat1)

    head(dat1$rika1) # 特定の要素の表示 dat1[3, 5] #3行5列目の要素 ← dim(データ)で、行数・列数の表示 ← head(データ)で、先頭6行を表示 ← データ$変数名で、1つの変数を指定 250行/22列(250人/22変数) データセット 変数
  12. 尺度水準と計算 19 尺度水準 データ型 説明 可能な演算 例 量的変数 比率尺度 integer,

    numeric 0が原点であり、間隔と比率に意味 があるもの +-×÷ 重さ、長さ、 標高 間隔尺度 目盛が等間隔になっているもので、 その間隔に意味があるもの +- 気温、西暦 質的変数 順序尺度 order 順序や大小には意味があるが間隔に は意味がないもの >= 順位 名義尺度 factor, character 他と区別し分類するための記号 度数カウント 血液型、郵便 番号、住所 名義 順序 間隔 比率 平均値 ☓ ☓ ◯ ◯ 中央値 ☓ ◯ ◯ ◯ 最頻値 ◯ ◯ ◯ ◯ 尺度水準によって使える分析や指標が異なる。
  13. 変数の型の確認と変更 20 # 変数の型の確認と変更 str(dat1) dat1$school <- as.factor(dat1$school) dat1$grade <-

    as.ordered(dat1$grade) dat1$sex <- as.factor(dat1$sex) ⚫ 変数の型の確認と変更 ← str(データ) で構造を確認 ← データセット$変数名で特定の変数を指定。 as.factor(変数) で、変数を因子型にする。 • int :整数型(integer)であることを示す • num :実数型(numeric)であることを示す。小数点を含むもの。 • order :順序あり因子型であることを示す。例)学年 • factor:順序なし因子型であることを示す。例)性別 • chr :文字型(character)であることを示す。 変数の型 ◼ サジェスト機能を活用しよう
  14. 記述統計学と推測統計学 母集団 記述統計学・・・ 推測統計学 標本統計量の値をもとに, 母数についてできるだけ正確な推測をする。 推測の不確実性を見積もる。 サンプル (標本) サンプリング

    ⚫ 記述統計学と推測統計学 例)サンプルから母平均 μ を推測したい 得られたデータの特徴や性質を説明・要約する ①数値要約:平均値や標準偏差などの代表値 ②図的要約:ヒストグラム・箱ひげ図・散布図など
  15. 代表値と散布度の種類 23 ⚫ 代表値:データの分布の中心的な位置を表す指標値 ◼ 平均値(mean) ҧ 𝑥 = 1

    𝑛 σ𝑖=1 𝑛 𝑥𝑖 ◼ 中央値(median) データを小さい順に並べた時に中央に位置する値。 データが偶数個の場合は中央の2つの平均。 ◼ 最頻値(mode) 度数の最も多い階級に対する値 ⚫ 散布度:データのばらつきの度合を表す指標値 ◼ 偏差(diviation) 𝑑𝑖 = 𝑥𝑖 − ҧ 𝑥 ◼ 不偏分散(variance) 𝑠2 = 1 𝑛−1 σ𝑖=1 𝑛 𝑥𝑖 − ҧ 𝑥 2 ◼ 標準偏差(standard deviation) 𝑠 = 𝑠2 = 1 𝑛 σ 𝑖=1 𝑛 𝑥𝑖 − ҧ 𝑥 2
  16. 代表値と散布度の算出 24 # 代表値と散布度 mean(dat1$rika1) #平均 median(dat1$rika1 ) #中央値 table(dat1$CT1)

    #最頻値 var(dat1$rika1) #不偏分散 sd(dat1$rika1) #標準偏差 # 要約統計量 summary(dat1) #代表値 install.packages("psych") #初回のみ library(psych) describe(dat1) #基礎集計 追加のパッケージをインストール&読み込むことで、 様々な分析が可能になる。 [最小値、第一四分位、中央値、平均、 第三四分位、最大値] [変数番号、サンプルサイズ、平均、標準偏差、中央値、トリム平均、 中央絶対偏差、最小、最大、レンジ、歪度、尖度、標準誤差]
  17. 新しい変数やデータセットの作成 25 ⚫ 各教科の3回のテストの平均を個人ごとに算出する # 新しい変数の作成 dat1$kokugo_all <- apply(dat1[,7:9], 1,

    mean) dat1$sansu_all <- apply(dat1[,10:12], 1, mean) dat1$rika_all <- apply(dat1[,13:15], 1, mean) # 新しいデータセットの作成 dat_seiseki <- dat1[,c(“kokugo_all”, “sansu_all”, “rika_all”)] ← 国語平均の作成 ← 算数平均の作成 ← 理科平均の作成 ※ 0なら列, 1なら行に対して処理 ← 国算理の平均が入ったデータセット 新しい変数が増えている データ名[行, 列]
  18. 標準化とz得点 26 ⚫ 標準化 データを平均0、標準偏差(分散)1に変換する作業を標準化と呼ぶ。 𝑧 = 𝑥𝑖 − 𝜇𝑥

    𝜎𝑥 変換した後の得点をz得点(標準得点)と呼ぶこともある。 ⚫ 偏差値 偏差値 = 50 + 10 × 𝑧得点 • 平均50、標準偏差10になるように変換 • 受験者全体の分布の中でどれだけ高いかを反映している ⚫ 知能指数(IQ) 𝐼𝑄 = 100 + 15 × 𝑧得点 • 平均100、標準偏差15になるように変換 ※ ただし、いくつかのバージョンがあるのと、フリン効果で分布が変化しつつある
  19. 偏差値の計算 27 理科の3回の平均点について、偏差値を計算する # 偏差値 dat1$rika_hensa <- scale(dat1$rika_all)*10+50 mean(dat1$rika_hensa) sd(dat1$rika_hensa)

    ← scale() で標準化し、偏差値を計算 ← 平均が50であることを確認 ← 標準偏差が10であることを確認
  20. 視覚化 28 ⚫ データの分布を視覚的にとらえる # ヒストグラム hist(dat1$rika_all) # 箱ひげ図 boxplot(dat1$rika_all,

    horizontal = T) boxplot(rika_all ~ sex, data = dat1, horizontal = T) # 散布図 plot(dat1$sansu_all, dat1$rika_all) ← 1変数のヒストグラム ← TRUE=横書き, FALSE=縦書き ← 性別ごとに箱ひげ図をプロット • 画像として保存 • Metafile形式なら、パワポ上で細かくいじれる f m 50 60 70 80 90 rika_all sex ↓Metafile形式で出力して色を付けた例 最小値 中央値 第一四分位/第三四分位 最大値
  21. 確率変数と確率分布 ⚫ 確率変数 取る値の範囲と取る確率だけがわかっている変数 ➢ 連続確率変数: 例)身長 ➢ 離散確率変数: 例)コインの表裏

    ⚫ 確率分布 確率変数がとる値とその値をとる確率の対応の様子 コインの出る目の確率分布 コインの表裏 表(=1) 裏(=0) 確率 0.5 0.5
  22. 確率分布の種類 確率分布 離散型 一様分布 二項分布 ポアソン分布 正規分布 z 分布(標準正規分布) t

    分布 χ2分布 F 分布 連続型 χ2分布 (標準)正規分布 t分布 F分布 二項分布 ポアソン分布 一様分布
  23. 正規分布と確率 ⚫ 正規分布の確率密度関数 μは平均値(期待値)であり、σ²は分散、xはデータの値 𝑓(𝑥) = 1 2𝜋𝜎2 𝑒− 𝑥−𝜇

    2 2𝜎2 面積が確率を表している。 68.27% 95.45% μ σ 2σ -σ -2σ ↑こんな形 確率分布を決定する統計量を母数(parameter) と言う。正規分布の母数は、平均μと分散σ²
  24. 正規分布の例 ⚫ 日本人17歳男性の身長分布 𝑓(𝑥) = 1 2𝜋 ∗ 33 𝑒−

    𝑥−170 2 2∗33 日本の成人男性の 身長(確率変数) 170cm 190cm 150cm 存在する確率 (確率密度) 極端に長身や低身の人は滅多にいない
  25. 標準正規分布 ⚫ 標準正規分布の確率密度関数 μ=0,σ2=1 であるような正規分布を標準正規分布と呼ぶ。 𝑓(𝑥) = 1 2𝜋 𝑒𝑥𝑝

    − 𝑥2 2 68.27% 95.45% 0 1 2 -1 -2 x 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.500 0.496 0.492 0.488 0.484 0.480 0.476 0.472 0.468 0.464 0.1 0.460 0.456 0.452 0.448 0.444 0.440 0.436 0.433 0.429 0.425 0.2 0.421 0.417 0.413 0.409 0.405 0.401 0.397 0.394 0.390 0.386 0.3 0.382 0.378 0.374 0.371 0.367 0.363 0.359 0.356 0.352 0.348 0.4 0.345 0.341 0.337 0.334 0.330 0.326 0.323 0.319 0.316 0.312 0.5 0.309 0.305 0.302 0.298 0.295 0.291 0.288 0.284 0.281 0.278 0.6 0.274 0.271 0.268 0.264 0.261 0.258 0.255 0.251 0.248 0.245 0.7 0.242 0.239 0.236 0.233 0.230 0.227 0.224 0.221 0.218 0.215 0.8 0.212 0.209 0.206 0.203 0.200 0.198 0.195 0.192 0.189 0.187 0.9 0.184 0.181 0.179 0.176 0.174 0.171 0.169 0.166 0.164 0.161 1.0 0.159 0.156 0.154 0.152 0.149 0.147 0.145 0.142 0.140 0.138 1.1 0.136 0.133 0.131 0.129 0.127 0.125 0.123 0.121 0.119 0.117 1.2 0.115 0.113 0.111 0.109 0.107 0.106 0.104 0.102 0.100 0.099 1.3 0.097 0.095 0.093 0.092 0.090 0.089 0.087 0.085 0.084 0.082 1.4 0.081 0.079 0.078 0.076 0.075 0.074 0.072 0.071 0.069 0.068 1.5 0.067 0.066 0.064 0.063 0.062 0.061 0.059 0.058 0.057 0.056 標準正規分布表(上側確率) #正規分布の上側確率 pnorm(1.00, mean=0, sd=1, lower.tail = F)
  26. 偏差値の計算 36 68.27% 95.45% μ σ 2σ -σ -2σ 正規分布

    ⚫ 練習問題 偏差値が平均50, 標準偏差10の正規分布に従う場合、 偏差値60以上は全体の何%であるか。 ※Rを用いて計算してもよい
  27. 記述統計学と推測統計学 母集団 記述統計学・・・サンプルの性質の要約 推測統計学 標本統計量の値をもとに, 母数についてできるだけ正確な推測をする。 推測の不確実性を見積もる。 サンプル (標本) サンプリング

    ⚫ 記述統計学と推測統計学 目の前のサンプルに関する ことしか言えない 例)サンプルから母平均 μ を推測したい ⚫ 点推定 母数の推定値を1つの値で示す (ex. 母平均の推定値は8.3cm) ⚫ 区間推定 誤差を考慮して、母数の推定値を区間で示す (ex. 長期的に見て95%の確率で7.8~8.8cm の間に入る)
  28. 標本平均と標本分布 母集団 (テントウムシの体長) 標本 (n=2) 母平均1.0cm (実際は未知) 標本平均0.9cm (実際に観測できる) 標本平均1.1cm

    標本平均1.3cm 標本平均◦.◦cm 標 本 平 均 は 分 布 す る 何度でも 抽出できる 標本平均の標本分布 1.0 繰り返しサンプリングする状況を考え てみよう。複数得られる統計量の分布 をその統計量の標本分布という。
  29. 標本平均のばらつき(標準誤差) 母集団 (テントウムシの体長) 母平均1cm (実際は未知) 標本平均0.9cm 標本平均1.1cm 標本平均0.5cm 何度でも 抽出できる

    nの数によって・・・ 標本平均2.5cm nが大きいと、 標本平均のバラツキ は小さい nが小さいと、 標本平均のバラツキ は大きい 標本分布の標準偏差を標準誤差と呼ぶ nが大きいほど標準誤差は小さくなる Standard Error 標本分布
  30. サンプルサイズと標準誤差 μ 標本平均の標本分布(n=5) 標本平均の標本分布(n=10) 母標準誤差σ/√5 母標準誤差σ/√10 x ➢ 母標準誤差(SE) 𝜎

    ҧ 𝑥 = 𝜎𝑥 𝑛 ➢ 標本標準誤差(se) 𝑆 ҧ 𝑥 = 𝑆𝑥 𝑛 nが大きいほど標準誤差は小さくなる →精度良く母集団の平均値の推定ができる 標本平均の標本分布(n=N)
  31. 大数の法則と中心極限定理 標本平均の分布(n=1) 標本平均の分布(n=5) 標本平均の分布(n=10) 標本平均の分布 (n=全数N,母平均) x • より大きいサイズの標本から標本平均を求めると、 真の平均に近づく(大数の法則)

    nが大きいほど標準誤差は小さく なる→精度良く母集団の平均値 の推定ができる • 標本の大きさnが大きくなると、抽出元の母集団が正規分布でない 場合も、標本平均は正規分布に従う(中心極限定理)
  32. 母平均の点推定 43 標本(𝑛 = 100)から母平均 𝜇 を点推定する場合、 推定量(estimator)にはどのような指標を用いればよいだろうか? A. 標本平均

    ҧ 𝑥 = 1 𝑛 σ𝑖=1 𝑛 𝑥𝑖 B. 標本平均 − 1 ҧ 𝑥 − 1 = −1 + 1 𝑛 σ𝑖=1 𝑛 𝑥𝑖 C. 標本平均 + 1 ҧ 𝑥 + 1 = 1 + 1 𝑛 σ𝑖=1 𝑛 𝑥𝑖 正解は、A. 標本平均 である。 大数の法則より、標本平均 ҧ 𝑥 はサンプルサイズ 𝑛 が大きくなると母平均 𝜇 に近づ くという一致性を持つからである。 また、標本平均の期待値 𝐸 ҧ 𝑥 = 𝜇 となることから、サンプルサイズ 𝑛 に関係なく 標本平均 ҧ 𝑥 の期待値は母平均 𝜇 に一致するという不偏性を持つ。 よって、標本平均 ҧ 𝑥 は母平均 𝜇 の一致推定量かつ不偏推定量である。 標本分布 μ
  33. シミュレーションによる確認 44 # 標本平均の一致性と不偏性 n = 10 # サンプルサイズ k

    = 1 # シミュレーション回数 m <- NULL # 結果の格納用 set.seed(123) # 乱数の種の固定 for(i in 1:k){ x <- rnorm(n, 5, 1) # 正規分布N(5,1)からn個の乱数を発生 m[i] <- mean(x) # 標本平均の格納 } mean(m) # k個の標本平均の平均 5 - mean(m) # 母平均μとのずれ hist(m) # 標本平均の標本分布 1.k=1でnを増やしていき、母平均と一致するか確認しよう(一致性) 2.kを増やしていき、標本平均の期待値が母平均と一致するか確認しよう(不偏性)
  34. 母分散の点推定 45 標本(𝑛 = 100)から母分散 𝜎2 を点推定する場合、 推定量(estimator)にはどのような指標を用いればよいだろうか? A. 標本分散

    ෢ 𝜎2 = 1 𝑛 σ𝑖=1 𝑛 𝑥𝑖 − ҧ 𝑥 2 B. 不偏分散 𝑠2 = 1 𝑛−1 σ𝑖=1 𝑛 𝑥𝑖 − ҧ 𝑥 2 C. 標準誤差 𝑠 ҧ 𝑥 = 𝑆𝑥 𝑛 正解は、B. 不偏分散 である。 標本分散は一致推定量であるものの不偏推定量ではない。n が大きくないときは標 本分散の期待値は母分散𝜎2に一致せず、母分散𝜎2よりも小さくなる。 不偏分散は一致推定量かつ不偏推定量である。
  35. シミュレーションによる確認 46 # 分散の一致性と不偏性 n = 10 # サンプルサイズ k

    = 100000 # シミュレーション回数 sv <- NULL # 標本分散の格納用 uv <- NULL # 不偏分散の格納用 set.seed(123) # 乱数の種の固定 for(i in 1:k){ x <- rnorm(n, 5, 1) # 正規分布N(5,1)からn個の乱数を発生 m <- mean(x) # 標本平均 sv[i] <- sum((x-m)^2)/n # 標本分散の格納 uv[i] <- var(x) # 不偏分散の格納 } 1 - mean(sv) # 母分散と標本分散のずれ 1 - mean(uv) # 母分散と不偏分散のずれ 1.k=1でnを増やしていき、母分散と一致するか確認しよう(一致性) 2.kを増やしていき、期待値が母分散と一致するか確認しよう(不偏性) 3.発展問題 不偏分散の平方根は母標準偏差 の不偏推定量か検討せよ
  36. Rによる母平均の区間推定 49 # 区間推定 n <- 400 # サンプルサイズ set.seed(123)

    # 乱数の種の固定 x <- rnorm(n, 5, 1) # 正規分布N(5,1)からn個の乱数を発生 m <- mean(x) # 標本平均 s <- sd(x) # 標準偏差 m - 1.96*s/sqrt(n) # 95%信頼区間の下限値 m + 1.96*s/sqrt(n) # 95%信頼区間の上限値
  37. 統計的仮説検定の考え方 ⚫ 統計的仮説検定 標本を使って、母集団に関する判断を下す手法。 仮説を立てて、白黒決着をつけたいというお気持ち。 ⚫ 手順 ① 仮説の設定(ex. AとBには差がある)

    ② 仮説検定に用いる標本統計量の選択 ③ 有意水準の設定 ④ 実際のデータ(標本)から標本統計量を計算 ⑤ 仮説の正誤の判断(→結論) ※ただし、仮説検定は常にギャンブルであることを忘れるな
  38. 仮説の設定 ⚫ 仮説の種類 – 帰無仮説(本来主張したいこととは反対の内容) • AクラスとBクラスの学力には差がない。 – 対立仮説(本来主張したい内容) •

    AクラスとBクラスの学力には差がある。 ⚫ 帰無仮説の棄却 帰無仮説の下では、実際に得られたデータはとても極端な値であり、そんな値が出るのは非 常にまれな確率だとなれば、「帰無仮説が正しい」という前提を疑い、帰無仮説を棄却する。 背理法的な考え方により、対立仮説を採択する。
  39. 標本統計量の選択 ⚫ 検定統計量 – 標本から計算される統計量を標本統計量と呼ぶ(復習) – 仮説検定に用いられる標本統計量を検定統計量と呼ぶ – 帰無仮説から離れるほど大きな値を示す指標である •

    t, Χ2, F など • データから計算する ⚫ 基本コンセプト – 帰無仮説の下での標本分布(数理的に導かれる)をもとに、データから計算した 検定統計量が得られるのは非常にまれな確率(有意水準以下)なのかを検討する。 →慣例的に5% ※標本分布は母集団に対して同じ条件でサンプリングを 繰り返すことを想定していたことに留意せよ
  40. 有意水準の設定 ⚫ リスクをコントロールせよ 真実 帰無仮説は正しい (差がない) 帰無仮説は間違い (差がある) 決定 帰無仮説を棄却

    第1種の誤り 確率はα(有意水準) 5% 正しい決定 確率は1-β(検定力) 棄却しない 正しい決定 確率は1-α 95% 第2種の誤り 確率はβ • 検定力の目安は0.8 • サンプルサイズを大きくすると、 検定力は上がる • 差が大きいと検定力は上がる
  41. 仮説の正誤の判断 ⚫ 仮説検定 p値が有意水準(ex., 5%)を下回った時、検定結果が有意であると判断し、帰無 仮説を棄却する。 ⚫ p値とは何であって何でないのか ◦ 帰無仮説が真であるという仮定の下で、検定統計量がデータから計算された値以

    上に甚だしい値となる確率 × 帰無仮説が真である確率 × 平均に差がないという仮説が正しい確率 × 対立仮説が正しい確率は1-p値 × 帰無仮説が真であるときに、誤って帰無仮説を棄却してしまう確率 × とにかく5%を切ったら嬉しい値
  42. 色々な検定統計量 検定の名前 検定統計量 使用する確率分布 検定の目的 1つの平均値の検定 (標準正規分布を用いた 検定) 𝑍 =

    ത 𝑋−𝜇 𝜎/ 𝑛 標準正規分布 1つの標本平均を母平均 と比較する(母分散既知 の場合) 1つの平均値の検定 (t検定) 𝑡 = ത 𝑋−𝜇 ෝ 𝜎/ 𝑛 t分布 (自由度=Nー1) 1つの標本平均を母平均 と比較する(母分散未知 の場合) 相関係数の検定 𝑡 = 𝑟 𝑛−2 1−𝑟2 t分布 (自由度=N-2) 2つの量的変数の間に統 計的に有意な相関がある かを見る。 適合度の検定 (カイ二乗検定) 𝜒2 = ෍ (観測度数 − 期待度数)2 期待度数 カイ二乗分布(自由度= カテゴリ数ー1) 観測度数と期待度数がど の程度適合しているかを みる。 独立性の検定( カイ二乗検定) 𝜒2 = ෍ (観測度数 − 期待度数)2 期待度数 カイ二乗分布(自由度= (行数ー1)×(列数ー 1) 2つの質的変数の間に統 計的に有意な連関がある かをみる。
  43. 2つの平均値の差の検定 ⚫ 問題 • Aクラス(n=40)のテストは、平均60.0点、不偏分散20であった。 • Bクラス(n=40)のテストは、平均58.0点、不偏分散20であった。 • 2つのクラスの学力に差があるといえるだろうか? 帰無仮説:μ

    A -μ B =0 対立仮説: μ A -μ B >0 𝑡 ҧ 𝑥1− ҧ 𝑥2 = ҧ 𝑥1 − ҧ 𝑥2 𝜎2 1 𝑛1 + 1 𝑛2 = 60 − 58 20 1 40 + 1 40 = 2 p=0.0455 帰無仮説を棄却する →差がないとは言えない(差があると判断する) 68.27% 95.45% 0 1 2 -1 -2
  44. 復習 1. 標本分布の標準偏差を何と呼ぶでしょうか 2. 95%信頼区間について説明せよ 3. [正誤判定問題] ①有意水準αを5%に設定するということは、実際には帰無仮説が正しい(差がない)のに、 誤って帰無仮説を棄却する確率を5%以下に抑えることを意味する。 判定:

    . ②p値とは、帰無仮説が正しい確率であり、低ければ低いほど良い指標である。 判定: . 4. 2群の母平均の差について検討する際に使用する検定を答えよ 5. 有意差の有無だけでなく、効果量も報告する必要があるのはなぜでしょうか?
  45. 対応のないt検定(2群の平均値差) # 性別間比較 tapply(dat1$rika_all, dat1$sex, mean) #性別ごとの平均値 m.rika <- dat1$rika_all[dat1$sex=="m"]

    #第1群の指定 f.rika <- dat1$rika_all[dat1$sex=="f"] #第2群の指定 t.test(m.rika, f.rika, var.equal = F) #F=Welchのt検定 # 効果量 install.packages(“effectsize”) library(effectsize) hedges_g(m.rika, f.rika) # 効果量 * Cohenの基準(dとgに適応できる) d=0.2 小さな効果 d=0.5 中程度の効果 d=0.8 大きな効果 大きな効果 有意 ⚫ 理科の点数に男女間で差はあるだろうか? ◆ どんなに差が小さくても、サンプルサ イズが大きければ有意になってしまう。 効果量も重要。 男子(N = 118)と女子(N = 132)の理科の点数に差があるのかを明らかにするために、Welchのt検定を行った。その結果、男子(M = 76.17, SD = 6.88)と女子(M = 70.36, SD = 7.60)の点数には有意な差が見られた(t(247.96) = 6.35, p < .001, g = 0.80, 95%CI [0.54, 1.05])。
  46. 対応のあるt検定(2群の平均値差) ##対応のあるt検定(プレ・ポスト) t.test(dat1$rika3, dat1$rika1, paired = T) #T=対応あり library(effectsize) hedges_g(dat1$rika3,

    dat1$rika1, paired = T) #paired T=対応あり 無視できる差 有意でない ⚫ 理科の点数の1回目と3回目で差はあるだろうか? <報告例> ◼ 1回目と3回目のテストで児童(N=250)の点数に変化があるかを明らかにするた めに、対応のあるt検定を行った。その結果、1回目(M=72.87, SD=11.07)と3回 目(M=73.50, SD=10.55)の点数には有意な差が見られなかった(t (249) =0.79, p =.433, g =0.05 (95%CI [-0.07, 0.17]))。
  47. 一元配置分散分析(対応なし) # 一元配置分散分析 # 学年と性別を組み合わせた変数を作成 dat1$grade_sex <- paste(dat1$grade, dat1$sex) #1要因4水準の分散分析(対応なし)

    res1 <- lm(dat1$rika_all~dat1$grade_sex) anova(res1) eta_squared(res1, partial = FALSE, alternative = "two.sided") #効果量η^2 ⚫ 4水準の間に全体として差があるか? 5年男子/5年女子/6年男子/6年女子 F値が有意 全体として差がある
  48. 多重比較とp値の補正 ⚫ ボンフェローニの補正法(Bonferroni) • 検定の回数分、p値を大きく補正する。 • 例えば、t検定で得られたp値をp×3(検定の繰り返し数)と補正して、 補正後のp値がp<0.05となれば有意差ありと判断 ID class

    score 1 A 11 2 A 13 3 B 12 4 B 16 5 C 9 6 C 14 ➢ 多群の比較の例 ➢ 多項目の比較の例 ID Q1 Q2 Q3 Q4 Q5 Q6 1 2 3 2 4 4 3 2 6 5 2 5 4 1 3 4 1 6 3 7 5 4 4 5 3 7 7 5 5 3 4 5 4 4 6 6 6 3 5 1 2 3
  49. 多重比較 ⚫ どの水準間に差があるか? 5年女子/5年男子/6年女子/6年男子 #多重比較 tapply(dat1$rika_all, dat1$grade_sex, mean) #性別*学年ごとの平均値 pairwise.t.test(dat1$rika_all,

    dat1$grade_sex, p.adj = "bonf") #ボンフェローニ法 ※検定を繰り返していることになるので、 ボンフェローニ法などでp値を補正する。 多重比較 5年女子 5年男子 6年女子 5年男子 *** 6年女子 *** p=0.63 6年男子 *** *** ** 5年女子 5年男子 6年女子 6年男子 Mean 67.21 72.38 74.38 79.06
  50. 報告例(1元配置分散分析) ◼ 理科の点数を従属変数、性別と学年(5年男子・5年女子・6年男子・6年 女子)を要因とする一元配置分散分析を行った結果、有意差が見られた (F(3, 246)=41.04, p < .001)。ボンフェローニ法による多重比較を行った ところ、6年女子と5年男子の間を除くすべての組み合わせで有意差が見

    られた(ps < 0.01)。 ◼ 小学生を対象とした第1回(M=59.10, SD=7.80)、第2回(M=68.24, SD=8.52)、第3回(M=73.10, SD=7.81)の理科テストデータを用いて反 復測定分散分析を行った。その際、Mauchlyの検定が有意となり (χ2(2)=39.69, p < 0.001)、球面性の仮定が満たされないことが示された ため、Greenhouse-Geisserのε =.87を用いて自由度の修正を行った。結果、 平均値には有意な差が見られた( F(1.74, 249) = 290.41, p < .001, η2 =.34)。 また、ホルム法による多重比較の結果、すべてのテスト間で有意差が見 られた( ps < 0.05)。
  51. 相関係数の種類 ピアソンの積率相関 𝑟 連続量×連続量(間隔・比率) 線形 ポリコリック相関 𝑟𝑝𝑐 順序尺度×順序尺度 線形 ポリシリアル相関

    𝑟𝑝𝑠 順序尺度×連続量 線形 テトラコリック相関 𝑟𝑡𝑐 2値×2値 線形 点双列相関 𝑟𝑝𝑏 2値×連続量 線形 スピアマンの順位相関 𝑟𝑠 順序or連続量の相関 単調 クラメールの連関 𝑉 名義尺度×名義尺度 ー パラメトリック (多変量正規分布) | r | = 0.7~1.0 強い相関 | r | = 0.4~0.7 中程度の相関 | r | = 0.2~0.4 弱い相関 | r | = 0~0.2 ほとんど相関なし ノンパラメトリック ピアソン = +1、スピアマン = +1 ピアソン = +0.851、スピアマン = +1 線形〇 単調〇 線形×(非線形) 単調〇
  52. ピアソンの積率相関係数 ⚫ 共分散(Covariance) 𝑟 = 𝑠𝑥𝑦 𝑠𝑥 𝑠𝑦 = 1

    𝑛 σ 𝑖=1 𝑛 (𝑥𝑖 − ҧ 𝑥)(𝑦𝑖 − ത 𝑦) 1 𝑛 σ 𝑖=1 𝑛 (𝑥𝑖 − ҧ 𝑥)2 1 𝑛 σ 𝑖=1 𝑛 (𝑦𝑖 − ത 𝑦)2 Cov x, y = 𝑠𝑥𝑦 = 1 𝑛 ෍ 𝑖=1 𝑛 (𝑥𝑖 − ҧ 𝑥)(𝑦𝑖 − ത 𝑦) ⚫ 相関(Correlation) =標準化した共分散 帰無仮説は相関が無い( r = 0 )として、検定をかける。 有意であれば、相関があると判断。 x y ҧ 𝑥 ത 𝑦 𝑥𝑖 − ҧ 𝑥 𝑦𝑖 − ത 𝑦 + + - -
  53. 相関分析1 # Pearsonの積率相関 cor(dat1$rika1, dat1$rika2) #2変数の相関 library(psych) corr.test(dat_seiseki) #相関係数の検定 ⚫

    変数間の関連の強さは? すべて有意 *相関係数の目安 | r | = 0.7~1.0 強い相関 | r | = 0.4~0.7 中程度の相関 | r | = 0.2~0.4 弱い相関 | r | = 0~0.2 ほとんど相関なし 相関係数 r
  54. 検定の基礎と例数設計 検定の結果 差がある 差があるとはいえ ない 真実 差がある 正しい判断 (1-α) 第2種の過誤

    (β) 差がない 第1種の過誤 (α) 正しい判断 (1-β) 危険率(α)=0.05 検定力(1-β)=0.8 が推奨されている →効果量さえ仮定すれば、必要な サンプルサイズが見積れる
  55. 例数設計 #例数設計##### #対応のないt検定の事前分析 power=検定力, delta=効果量, sig.level=危険率 power.t.test(power = 0.8, delta

    = 0.2, sig.level = 0.05, type = "two.sample") power.t.test(power = 0.8, delta = 0.5, sig.level = 0.05, type = "two.sample") #対応のあるt検定の事前分析 power.t.test(power = 0.8, delta = 0.2, sig.level = 0.05, type = "paired") power.t.test(power = 0.8, delta = 0.5, sig.level = 0.05, type = "paired") * Cohenの基準 d=0.2 小さな効果 d=0.5 中程度の効果 d=0.8 大きな効果 →各群394名必要 サンプルサイズが、、、 多すぎると差の大きさに関わらず有意になってしまう 少なすぎると差の大きさに関わらず有意にならない
  56. ノンパラメトリック検定の分類 79 ⚫ ノンパラメトリック検定とは、母集団について特定の分布を仮定しない検定法を指す 1条件 1要因 2条件間の比較 3条件以上の比較 対応なし 対応あり

    対応なし 対応あり 名義尺度 2項検定 (2カテゴリの場合) カイ二乗検定 カイ二乗検定 フィッシャー の正確確率検定 マクネマー検定 (2カテゴリの場合) カイ二乗検定 対数線形モデル コクランのQ検定 (2カテゴリの場合) 順序尺度 ー マンホイットニー のU検定(=ウィ ルコクソンの順位 和検定) 符号検定 クラスカルウォリ スの検定 フリードマン検定 • サンプルサイズが少ないからノンパラメトリック検定というのは不正確な解釈なので注意
  57. 1条件の比較 80 ⚫ 成功回数は有意に少ないのか # 2項検定 binom.test(2, 10, 0.5) #正の事例数,試行回数,帰無仮説

    ⚫ 血液型に偏りはあるか # カイ二乗検定(1条件) blood <- rep(c("A", "B", "O", "AB"), times = c(8, 4, 6, 2)) chisq.test(c(8, 4, 6, 2)) A型 B型 O型 AB型 8人 4人 6人 2人
  58. 名義尺度_2条件_対応無し 81 ⚫ 賛成/反対に性差はあるか? # フィッシャーの正確確率検定(2条件_対応無し) fisher.test(matrix(c(3, 1, 2, 4),

    nrow = 2)) 賛成 反対 男性 3 2 女性 1 4 # カイ二乗検定(2条件_対応無し) matrix(c(3, 1, 2, 4), nrow = 2) chisq.test(matrix(c(3, 1, 2, 4), nrow = 2)) • 分割表の各度数が小さい場合は、 フィッシャーの正確確率検定が推奨 される
  59. 名義尺度_ 2条件_対応あり 82 ⚫ 事前-事後で成績は向上したか? # マクネマー検定(2条件対応あり) matrix(c(6, 8, 1,

    5), nrow = 2) mcnemar.test(matrix(c(6, 8, 1, 5), nrow = 2)) 事後合格 事後不合格 事前合格 6 1 事前不合格 8 5
  60. 順序尺度_2条件_対応無し 83 ⚫ PBTとCBTの満足度に差はあるか? # ウィルコクソンの順位和検定 PBT <- rep(1:5, c(4,

    5, 6, 3, 2)) CBT <- rep(1:5, c(1, 4, 3, 6, 6)) wilcox.test(PBT, CBT) 1. 不満 2. 3. 4. 5. 満足 PBT 4 5 6 3 2 CBT 1 4 3 6 6
  61. 線形モデルの種類 分析名 従属変数 独立変数 一般化線 形モデル 一般線形 モデル 単回帰分析 量的データ

    (正規分布) 量的データ(1つ) 重回帰分析 量的データ (正規分布) 量的データ(複数) (t検定) 量的データ (正規分布) 質的データ (群=2) (分散分析) 量的データ (正規分布) 質的データ (群≧3) ロジスティック回帰分析 質的データ (2値) 何でもOK 順序ロジスティック 回帰分析 質的データ (順序尺度) 何でもOK 多項ロジスティック 回帰分析 質的データ (名義尺度) 何でもOK 何でもOK 何でもOK
  62. 単回帰分析の数式表現 数学学力(x) 物理点数(y) ො 𝑦 = 𝑎 + 𝑏𝑥 切片

    回帰係数 従属変数の 予測値 独立変数 回帰係数 1単位 ො 𝑦 = −0.36 + 0.42𝑥 𝑦 = 𝑎 + 𝑏𝑥 + 𝑒 残差(誤差) 残差 回帰係数が大きいほど その変数の影響が強い 従属変数 ◆回帰係数の推定(最小二乗法) 𝑄 = ෍ 𝑖=1 𝑁 𝑒2 𝑖 = ෍ 𝑖=1 𝑁 (𝑦𝑖 − ො 𝑦𝑖 )2 = ෍ 𝑖=1 𝑁 𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖 ) 2 Qを最小化する aとbを求める
  63. 重回帰分析の数式表現 読解力 数学力 物 理 点 数 ො 𝑦 =

    𝑎 + 𝑏1 𝑥1 + ⋯ +𝑏𝑝 𝑥𝑝 偏回帰係数 偏回帰係数=他の独立変数の影響を取り除いたある独立変数の回帰係数 (b) 標準偏回帰係数=標準化した偏回帰係数。測定単位に依存しないので、 (β) 比較が容易。 標準化(すべての変数を平均0、分散1にそろえる)
  64. (標準)偏回帰係数の解釈 ⚫ 偏回帰係数 他の独立変数を一定(同程度)としたとき、 𝑥𝑝 が1単位増えればyが平均的に𝑏𝑝 増える ⚫ 標準偏回帰係数 他の独立変数を一定(同程度)としたとき、

    𝑥𝑝 が1標準偏差増えればyが平均的に𝛽𝑝 標準偏差増える 年収=322.9+1.2*年齢+8.7*勤続年数という重回帰 式から年収(万円)に対する年齢(歳)と勤続年数 (年)の影響はどのように解釈できるでしょうか。 年収=0.07*年齢+0.52*勤続年数という標準偏回帰係 数を用いた重回帰式から年収(万円)に対する年齢 (歳)と勤続年数(年)の影響はどのように解釈でき るでしょうか。また、年齢と勤続年数のどちらが大き な影響をもっているでしょうか。
  65. その他の指標 ⚫ 決定係数(R2) 観測値の散らばりに占める予測値の散らばりの割合 0 ≤ 𝑅2 ≤ 1 回帰モデルで従属変数の𝑅2

    × 100%が説明できた ⚫ 多重共線性の指標(VIF) 独立変数間の相関が強い→回帰係数の推定値の信頼性が低くなる=重回帰分析の使用が不適切 𝑉𝐼𝐹 > 10 →多重共線性発生していると解釈
  66. #重回帰分析 res3 <- lm(rika_all ~ sansu_all + kokugo_all, data =

    dat1) summary(res3) #偏回帰係数 dat_z <- scale(dat_seiseki) #標準化 dat_z <- data.frame(dat_z) res4 <- lm(rika_all ~ sansu_all + kokugo_all, data = dat_z) summary(res4) #標準偏回帰係数 library(car) vif(res4) # VIF>10だと多重共線性に問題あり 重回帰分析 ⚫ 理科の成績を算数と国語の成績で説明(予測)する。 有意 VIF>10だと多重共線性に問題あり。 VIF<2なら問題なし。 ↑どうやって解釈する?
  67. t検定の別表現 92 # t検定の別表現 t.test(rika_all ~ sex, data = dat1,var.equal

    = T) # Studentのt検定(等分散) res5 <- lm(rika_all ~ sex, data = dat1) summary(res5) ⚫ 理科の成績を性別で説明(予測)する。
  68. 一般線形モデル # 一般線形モデル res6 <- lm(rika_all ~ sansu_all + grade

    + sex, data = dat1) summary(res6) ⚫ 理科の成績を算数の成績、学年、性別で説明(予測)する。 有意 決定係数も増加している
  69. 心理尺度の測定法 言葉による質問によって態度や考え方を測るものを心理尺度と呼ぶ ◆様々な測定法がある ★リッカート法(評定総和法) Q1. このマンガについてよく知っている 非 常 に 当

    て は ま る や や 当 て は ま る あ ま り 当 て は ま ら な い ま っ た く 当 て は ま ら な い ど ち ら で も な い ★サーストン法(等現間隔法) そのマンガについて知らないことはない そのマンガを週刊誌で毎週読んでいる そのマンガの単行本が出たら読む そのマンガを読もうと思ったことがある そのマンガの名前も聞いたことが無い 5.12点 4.05点 3.24点 1.93点 1.13点 ※最も近い項目を選ぶ ★ガットマン法(強度分析法) ★SD法(意味微分法) 1 2 3 4 5
  70. 構成概念妥当性 construct validity ⚫ 構成概念妥当性(=測りたいものを測れているか) 1. 内容的な側面 :項目内容が構成概念の定義と比べて適切か(網羅しているか) 2. 本質的な側面

    :反応プロセスが想定通りか 3. 構造的な側面 :内的なまとまり(因子構造)が理論や仮説と一致しているか 4. 一般化可能性の側面(信頼性) :測定誤差が小さいか(繰り返し同じ結果になるか) 5. 外的な側面 :外的変数との間に予測通りの関係(相関)が見られるか
  71. 因子分析の基礎 (factor analysis) • 観測変数の背後にある因子(構成概念, 潜在変数)を探る ★探索的因子分析 (exploratory factor analysis:

    EFA) ★確認的因子分析 (confirmatory factor analysis: CFA) 親しみやすい 人懐っこい 有能な 知的な 温かさ 因子 有能さ 因子 理科 数学 国語 社会 理系 因子 文系 因子 観測変数1 = 𝑎1 ∗ 𝐹1 + 𝑏1 ∗ 𝐹2+誤差e1 𝑎1 𝑎2 𝑎3 𝑎4 𝑏1 𝑏2 𝑏3 𝑏4 𝐹1 𝐹2 … 第1因子の影響 第2因子の影響
  72. 因子負荷量 • 因子負荷量:因子から観測変数への影響力の強さ • 共通性:因子によって説明される要素 • 独自性:各項目が持つ独自の要素(因子によって説明されない部分) 因子 共通性 独自性

    共通性 独自性 共 独自性 共通性 独 ◼ 因子分析の結果の例(1因子・2因子) 項目 因子負荷量 共通性 物理が好き .90 .80 化学が好き .82 .66 生物が好き .74 .53 地学が好き .68 .48 項目 F1 F2 共通性 親しみやすい .68 .29 .55 人懐っこい .79 .15 .65 有能な .20 .81 .69 知的な .22 .88 .82
  73. 因子軸の回転 • 特別な処理をせずに求めた因子負荷量を初期解と呼ぶ • 初期解の解釈が難しい場合、因子軸を回転させる(因子負荷量を変換する)ことで因子が 識別しやすくなる(※2因子以上の時) ★斜交回転 例)プロマックス回転 ★直行回転 例)バリマックス回転

    因子1 因子1 因子2 項目 F1 F2 共 親しみやすい .70 -.24 .55 人懐っこい .69 -.41 .65 有能な .68 .47 .69 知的な .75 .51 .82 項目 F1 F2 共 親しみやすい .68 .29 .55 人懐っこい .79 .15 .65 有能な .20 .81 .69 知的な .22 .88 .82 ◼ 回転前(初期解) ◼ 回転後
  74. 探索的因子分析の手順 1. 因子数のあたりをつける ➢ 平行分析、ガットマン基準、スクリーテスト 2. 候補の因子数で因子分析を行う 3. 複数因子で初期解の解釈が難しい場合は、回転を行う 4.

    因子負荷量が低い項目(0.4以下)などは外し、再度、因子分析を繰り返す 5. 信頼性係数を確認する 6. 因子構造を解釈し、因子名を付ける
  75. 探索的因子分析1 #探索的因子分析##### #データの取り出し dat_CT <- dat1[,c(16:22)] #7~15行目の取り出し ⚫ 批判的思考:何を信じ、何を行うかの決定に焦点を当てた、合理的で省察的な思考(Ennis, 1987)

    ←Q1~Q7(7件法) 1 いつも偏りのない判断をしようとする 2 物事を決めるときには、客観的な態度を心がける 3 できるだけ多くの立場から考えようとする 4 自分が偏った見方をしていないかふり返るように している 5 たとえ意見が合わない人の話にも耳を傾ける 6 自分のと異なる考えの人とも議論する 7 物事を見るときは様々な立場から見る
  76. 探索的因子分析2 # 平行分析 dat_CT <- dat1[,c(16:22)] #7~15行目の取り出し fa.parallel(dat_CT) ⚫ 何因子構造だろう?

    →平行分析/ガットマン基準/スクリーテスト 1因子構造を示唆 1~2の間で線が重なっている→1因子構造 △がFA(Factor Analysis)
  77. 探索的因子分析3 #スクリープロット cor <- cor(dat_CT) #相関 eigen <- eigen(cor)$values #固有値

    Eigen plot(eigen, type="b", main="Scree Plot",xlab="Number", ylab="Eigenvalue") ⚫ ガットマン基準:値が1.0以上の固有値の数を因子数とする ⚫ スクリーテスト:固有値の推移がなだらかになる直前までの固有値の数を因子数とする 2からなだらかになっているので、因子数は1 1因子構造を示唆 1因子を最有力候補として 探索的因子分析を進める。
  78. 探索的因子分析4 #因子数1の検討 fit1 <- factanal(x = dat_CT, factors = 1,

    fm = "ml", rotation = "none") #ml=最尤法 回転なし(初期解) print(fit1, cutoff = 0.35) #因子負荷量0.35以下を非表示 fit2 <- factanal(x = dat_CT, factors = 1, fm = "ml", rotation = "promax") #promax回転 print(fit2, cutoff=0.35) #因子負荷量0.35以下を非表示 ⚫ 因子数1として因子負荷を推定 1因子の場合、回転は不要。 因子間に相関が仮定される場合プロ マックス回転(斜交回転)。 推定方法は最尤法がおすすめ。 ←因子負荷量(0.4以上ならOK) ※本来はこの後、因子名を考えるなどの作業がある。
  79. 探索的因子分析5 #信頼性係数の算出(アルファとオメガ) library(psych) library(GPArotation) alpha(dat_CT) #α係数 omega(nfactors = 1, dat_CT)

    #ω係数 因子数=1 ⚫ 信頼性の確認 ω係数の方がより正確な信頼性の推定値。 ただし、現実にはα係数とほぼ同じ値になる。 両方を報告することを推奨。 0.8以上であれば信頼性が高い ←α係数 ←ω係数
  80. 尺度得点との相関 # 相関の検討 dat1$CT <- rowMeans(dat1[,c(16:22)]) #指定行の平均値を変数として作成 cor(dat1$rika_all, dat1$CT) #理科と批判的思考の相関

    cor(dat1$sansu_all, dat1$CT) #算数と批判的思考の相関 cor(dat1$kokugo_all, dat1$CT) #国語と批判的思考の相関 ⚫ 批判的思考得点の変数を作成し、成績との相関を見てみよう ←算数と理科では弱い相関がみられる *相関係数の目安 | r | = 0.7~1.0 強い相関 | r | = 0.4~0.7 中程度の相関 | r | = 0.2~0.4 弱い相関 | r | = 0~0.2 ほとんど相関なし
  81. 報告例(探索的因子分析) 項 目 因 子 F1 F2 (18) 深く考えなければならないような状況は避けようとする。 .84

    -.04 (15) 考えなければならない時しか考えない方である。 .78 -.03 (16) 深く考えなければ切り抜けられないような事態に対処することは任 されたくない。 .73 .02 (14) 長時間一生懸命考えることは苦手な方である。 .69 .03 (4) 読んだものがよく理解できないとき、それを放り出し忘れてしまう。 .53 .13 (21) 常に頭を使わなければ満足できない。 .48 -.05 (17) 考えることは楽しくない。 .05 .73 (7) 新しい考え方を学ぶことにはあまり興味がない。 -.10 .71 (1) いろいろな問題の新しい解決方法を考えることは楽しい。 -.02 .62 (24) 問題の答えがなぜそうなるのかを理解するよりも、単純に答えだけ を知っている方がよい。 -.08 .57 (8) なぜそうなるのかを理解しようとするよりも、物事をあるがままに 受け取るほうが好きだ。 .06 .51 (19) 自分が人生で何をすべきかについて考えるのは好きではない。 .06 .51 負荷量の平方和 2.87 2.29 Cronbachのα係数 .84 .76 McDonaldのω係数 .88 .82 因子間相関 F2 .46 表に基づき各因子を検討すると、第1因子は、「深く考えなければならないような状況は避けようとする」、「考えな ければならない時しか考えない方である」、「長時間一生懸命考えることは苦手な方である」など、じっくりと考えるこ とを楽しむ思考傾向に関する質問項目で構成されているため、第1因子を「熟慮動機」と解釈した。第2因子は、「考え ることは楽しくない」、「新しい考え方を学ぶことにはあまり興味がない」、「いろいろな問題の新しい解決方法を考え ることは楽しい」など、考えることを楽しむ思考傾向に関する質問項目で構成されているため、第2因子を「思考を楽し む動機」と解釈した。 次に、各因子の信頼性について検討する。表に示すCronbachのα係数およびMcDonaldのω係数が0.76 ~ 0.88となった ことから、内部一貫性が保障されたと考え、十分な信頼性があると判断した。 固有値の減衰状況および平行分析の結果を踏まえ、因子数を2として探索的因子分析(最尤法・プロ マックス回転)を行った結果を表にしめす。
  82. 古典的テスト理論とは何か 111 ⚫ 古典的テスト理論(Classical Test Theory, CTT) 古典的テスト理論とは、複数の項目に対する結果を総合したテスト得点に関する統計的理論 と分析を指す。 ⚫

    古典的の意味 後から開発された現代的テスト理論と比べて古くに開発されたという意味。 古くてまったく使われなくなったという意味ではない。現在でも有用な考え方。 ⚫ 古典的テスト理論のトピック 1. 項目困難度、項目識別力 2. 測定の標準誤差 ☆観測得点=真の得点+測定誤差 3. 信頼性係数 • 測定誤差の平均は0、真の得点と測定誤差は無相関 • 信頼性係数=真の得点の分散/観測得点の分散 ➢ クロンバックのα係数 4.(項目分析)
  83. いくつかの記号の定義 112 テストを構成する個々の問題のことを項目(item)と呼ぶ。 𝑖番目の受験者の項目𝑗への回答を 𝑢𝑖𝑗 と表記する。項目への反応に応じて、 𝑢𝑖𝑗 ൝ 1 正答の時

    0 誤答の時 のように、項目反応を二値データで表現できる。 𝑖番目の受験者の𝐽個すべての項目への反応を、𝐮𝑖 = 𝑢𝑖1 , 𝑢𝑖2 , … , 𝑢𝑖𝐽 のように行ベクトルで表す。 この𝐮𝑖 を項目反応パタンと呼ぶ。 この項目反応パタンの行ベクトル𝐮𝑖 を縦に𝐼人分並べると、𝐼行×𝐽列のサイズの行列で表現できる。 これを𝐔と表記し、項目反応パタン行列と呼ぶ。このうち、𝐔の第𝑗列だけ取り出すと、これは項目𝑗 に対する 𝐼人の項目反応をまとめた列ベクトル𝐮𝑗 ∗となる。 𝐔 = 𝐮1 𝐮2 ⋮ 𝐮𝑖 ⋮ 𝐮𝐼 = 𝑢11 𝑢12 ⋯ 𝑢1𝑗 ⋯ 𝑢1𝐽 𝑢21 𝑢22 ⋯ 𝑢2𝑗 ⋯ 𝑢2𝐽 ⋮ ⋮ ⋮ ⋮ 𝑢𝑖1 𝑢𝑖2 ⋯ 𝑢𝑖𝑗 ⋯ 𝑢𝑖𝐽 ⋮ ⋮ ⋮ ⋮ 𝑢𝐼1 𝑢𝐼2 ⋯ 𝑢𝐼𝑗 ⋯ 𝑢𝐼𝐽 , 𝐮𝑗 ∗ = 𝑢1𝑗 𝑢2𝑗 ⋮ 𝑢𝑖𝑗 ⋮ 𝑢𝐼𝑗
  84. 平均と分散 113 項目反応は0か1の二値データなので、ある項目𝑗の項目反応𝐮𝑗 ∗をすべて足し合わせると、正答者数𝑛𝑗 を 求めることができる。 𝑛𝑗 = ෍ 𝑖=1

    𝐼 𝑢𝑖𝑗 また、𝑖番目の受験者のテスト得点を𝑦𝑖 とすると、これは行ベクトル𝐮𝑖 の要素をすべて足し合わせればよ いので、 𝑦𝑖 = ෍ 𝑖=1 𝐽 𝑢𝑖𝑗 となる。受験者𝑖のテスト得点を𝑦𝑖 とすると、テストの平均𝑦は、 𝑦 = σ𝑖=1 𝐼 𝑦𝑖 𝐼 である。このテスト得点𝑦𝑖 の不偏分散は、以下のように表される。 ො 𝜎𝑦 2 = σ𝑖=1 𝐼 𝑦𝑖 − 𝑦 2 𝐼 − 1
  85. 項目を評価する指標 114 テストを構成する個々の項目の性能を評価する指標として、項目困難度と項目識別力を考える。 これらの指標は、古典的テスト理論と項目反応理論で登場するが、理論間で定義が異なることに注意 が必要である。 CTTにおける項目困難度(item difficulty)とは、項目の正答率𝑝𝑖 として以下のように定義される。 𝑝𝑖 =

    𝑛𝑗 𝐼 = σ𝑖=1 𝐼 𝑢𝑖𝑗 𝐼 これは、その項目に対する正答率であるため、値が小さいほど難しいことを意味する。 通過率と呼ぶこともある。 CTTにおける項目識別力(item discrimination)とは、個々の項目と合計点の点双列相関係数𝑟𝑝𝑏 として 以下のように定義される。 𝑟𝑝𝑏 𝑦, 𝑢𝑗 = 1 𝐼 σ𝑖=1 𝐼 (𝑦𝑖 − 𝑦)(𝑢𝑖𝑗 − 𝑢𝑗 ) 𝑠𝑦 𝑠𝑗 項目識別力が高いほど、テスト全体で測定している能力をより良く反映していることになり、当該能 力を区別する性能が高いことを意味する。0.2を下回る項目は除外対象となる(熊谷・荘島,2015)。
  86. テストの信頼性 115 ある受験者𝑖のテスト得点𝑦𝑖 は、受験者𝑖の真の得点𝑡𝑖 と測定誤差𝑒𝑖 の和として以下のように表現される。 𝑦𝑖 = 𝑡𝑖 +

    𝑒𝑖 ここで、真の得点𝑡𝑖 とは、受験者𝑖に対して測定を無限回繰り返した場合の𝑦𝑗 の期待値である。 𝑡𝑖 = 𝐸 𝑦𝑖 個々の受験者𝑖に対して𝑡𝑖 は定数として存在するが、観測することはできない。実際に観測できるのは、 真の得点𝑡𝑖 に誤差𝑒𝑖 が加わった𝑦𝑖 である。誤差𝑒𝑖 が小さく、テスト得点𝑦𝑖 に含まれる真の得点𝑡𝑖 の割合が 大きいほど、結果が一貫していて信頼性の高い測定が実現していると考えられる。しかし、個々の受験 者に対して無限回の測定を繰り返すことはできないため、ここでは受験者の母集団を考えてみる。 𝑦 = 𝑡 + 𝑒 ここで、誤差𝑒の平均は0であり、真の得点𝑡と誤差𝑒に相関は無いと仮定する。すると、受験者母集団に おけるテスト得点の分散𝜎𝑦 2は、真の得点の分散𝜎𝑡 2と測定誤差の分散𝜎𝑒 2に分解できる。 𝜎𝑦 2 = 𝜎𝑡 2 + 𝜎𝑒 2 このとき、テスト得点の分散𝜎𝑦 2に対する真の得点の分散𝜎𝑡 2の割合をテスト得点𝑦の信頼性係数と呼ぶ。 𝜌 = 𝜎𝑡 2 𝜎𝑦 2 = 𝜎𝑡 2 𝜎𝑡 2 + 𝜎𝑒 2 = 1 − 𝜎𝑒 2 𝜎𝑦 2 信頼性係数𝜌は、0 ≤ 𝜌 ≤ 1であり、1に近いほど測定の信頼性が高いと言える。
  87. クロンバックの𝛼係数 116 信頼性係数の定義式を見ると分かる通り、ギリシャ文字で表現されている部分は母集団における値(母数) であり、実際には観測できない。そこで、再検査法、平行テスト、折半法といった様々な方法で信頼性係数 を推定することになる。 ここでは、信頼性係数の推定値として、クロンバックの𝛼係数を使用する。 𝛼 = 𝐽 𝐽

    − 1 (1 − σ 𝑗=1 𝐽 𝑠𝑗 2 𝑠𝑦 2 ) ここで、 𝑠𝑦 2はテスト得点の分散、 𝑠𝑗 2は各項目の得点の分散を表す。 信頼性係数の推定値として𝛼係数を用いることで、測定の標準誤差(standard error of measurement, SEM)を以下のように計算できる。 𝑆𝐸𝑀 = 𝜎𝑒 = 𝑠𝑦 1 − ො 𝜌 = 𝑠𝑦 1 − 𝛼 これは、そのテスト得点がどれだけの精度を持っているかを意味している。 CTTを用いたテスト構成の目標は、信頼性の高い(SEMの小さい)テストを作ることとなる。 ただし、信頼性係数や測定の標準誤差は、テストを実施する集団が異なれば値も変わることに注意が必要で ある。
  88. Rによる項目特性、信頼性係数の計算 117 データの読み込み # 古典的テスト理論 #### # データの読み込み dat2 <-

    read.csv("data2.csv") dim(dat2) #項目反応パタン行列 ← csvファイルの読み込み ← 行と列の数の表示 1000*10 ⚫ 基礎集計 # 基礎集計 apply(dat2, 2, sum) #正答者数n_j score <- apply(dat2, 1, sum) #テスト得点y_i var(score) #不偏分散 ← 2=列ごとの処理 総和 ← 1=行ごとの処理 総和 ← 不偏分散 variance # 項目特性値と信頼性係数 library(ltm) descript(dat2) ⚫ 項目特性値と信頼性係数 困難度 識別力 𝛼係数
  89. いま、なぜ項目反応理論(IRT)なのか?(再掲) 120 ⚫ 背景 • 項目反応理論の発展とコンピューター性能の向上 – 1950年代に提案、60年代に体系化、80年代に実務での採用が広がる • エビデンスに基づく政策決定(EBPM)の広がり

    • 大規模な学力試験の作成・運用においてグローバルスタンダードになっている(e.g., TOEIC, TOEFL, PISA, TIMSS) ⚫ IRTのメリット(豊田,2012を基に作成) • 問題項目や受験者集団の能力分布に左右されない公平な評価が可能 – 項目に依存しない評価(項目依存性の克服) – 集団に依存しない評価(集団依存性の克服) • 項目特性の詳細な分析が可能(どのような能力集団に対して、弁別性を持つのかなど) • 測定精度を細かく確認できる • 平均点を事前に制御できる • コンピューター適応型テスト(CAT)によって、受験者ごとに最適な問題を出題できるよ うになる
  90. 項目反応理論の特徴 121 ⚫ 項目反応理論(IRT)の特徴 CTTでは正答項目数で受験者の能力を表現していたのに対して、IRTでは潜在特性尺度上に受験者を位置付 けてその受験者の能力を表わす。これによって、標本依存性や項目依存性の問題を克服している。 ⚫ 項目特性曲線 標本や項目によらない測定を実現するため に重要な役割を果たすのが、項目特性曲線

    (item characteristic curve, ICC)である。 これは、横軸の能力パラメタ𝜃が増加するに つれて、縦軸の正答確率が向上することを 表現している。識別力𝑎や困難度𝑏といった パラメタと受験者の能力パラメタ𝜃を分離し て表現することで、前述の問題を克服して いる。能力パラメタ𝜃によって、困難度𝑏が 変わったりしない。
  91. 項目反応モデルの種類 122 ある能力値𝜃の受験者が項目𝑗に正答する確率𝑃𝑗 (𝜃)を以下のように表現する。 ここで、𝑏𝑗 は項目𝑗の困難度、𝑎𝑗 は識別力、𝑐𝑗 は当て推量を表すパラメタである。 Dは尺度因子と呼ばれ、定数として1.0(ロジスティック計量)か1.7(正規計量)を用いる。 1パラメタ・ロジスティックモデル(1PLM)

    ※別名:ラッシュモデル 𝑃𝑗 𝜃 = 1 1 + exp(−𝐷 𝜃 − 𝑏𝑗 ) , −∞ < 𝜃 < ∞ 2パラメタ・ロジスティックモデル(2PLM) 𝑃𝑗 𝜃 = 1 1 + exp(−𝐷𝑎𝑗 𝜃 − 𝑏𝑗 ) , −∞ < 𝜃 < ∞ 3パラメタ・ロジスティックモデル(3PLM) 𝑃𝑗 𝜃 = 𝑐𝑗 + (1 − 𝑐𝑗 ) 1 1 + exp(−𝐷𝑎𝑗 𝜃 − 𝑏𝑗 ) , −∞ < 𝜃 < ∞ このような関数によって、能力が高いほど正答する確率が高まる関係を表現している。
  92. 項目特性曲線(ICC)とその解釈 123 2PLMのICCの関数 𝑃𝑗 𝜃 = 1 1 + exp(−𝐷𝑎𝑗

    𝜃 − 𝑏𝑗 ) ※ここでは、D=1.7とする ⚫ ICCの2通りの解釈(南風原,1991) A) 能力値が𝜃である受験者の正答確率 B) 能力値が𝜃である受験者母集団における正答者の割合
  93. IRT使用の前提 ◼ 以下の条件が仮定できる時のみ、IRT は使用可能 1. 尺度の構成概念が 1 次元(1因子)である → 因子分析の考え方で確認

    2. 局所独立性が保たれている ※局所独立:「能力 θ を固定した時、各項目への反応は互いに独立である」ということ • 能力と関係なく「ある項目に正解できた人は別の項目にも正解しやすい」という傾向 がある場合、局所依存性があるという • よくある例:数学のテストで,問 1 に正解していることが問2を解く上で必要である (項目連鎖)
  94. 2PLに基づく分析 # 2PLモデル library(irtoys) ip1 <- est(resp = dat2, model

    = "2PL", engine = "ltm") ip1 ⚫ 2PLモデルの推定 困難度 識別力 周辺最尤推定法による項目パラメタの推定
  95. 2PLに基づく分析4 # 項目特性曲線(ICC) icc <- irf(ip1$est) plot(icc, label = T,

    co=NA, main = "ICC") ⚫ 項目特性曲線(ICC)のプロット 正答率50%を超える能力値Θの値が困難度
  96. 2PLに基づく分析7 # 項目情報関数 IIF iif <- iif(ip1$est) plot(iif, label=T, co=NA,

    main = “IIF”) # テスト情報関数 TIF tif <- tif(ip1$est) plot(tif, laber=T, co=NA, main = "TIF") ⚫ IIFとTIFのプロット θが高い/低い人に適した問題がある 幅広い能力値θに適応した テストになっている
  97. 2PLに基づく分析8 # 能力値Θの推定 MLres <- mlebme(resp = dat2, ip=ip1$est, method

    = "ML") #ML=最尤法 head(MLres) BMres <- mlebme(resp = dat2, ip=ip1$est, mu=0, sigma=1, method="BM") #MAP推定 head(BMres) EAPres <- eap(resp = dat2,ip=ip1$est, qu=normal.qu()) #EAP推定 head(EAPres) ⚫ 能力値Θの推定 迷ったらEAP推定 1~6番目の被験者の能力値θと標準誤差
  98. コンピューター使用型テスト(CBT)のメリット 133 コンピューター使用型テストのメリット(日本テスト学会,2007) • 即時採点が可能になる。 • テストセットを自動で構成できる。 • マルチメディアを活用して、これまでの筆記テストでは測定することので きなかった特性を測定できるようになる

    • 障害のある受験者に対して高度に対応する機能をもつ(アクセシビリティ) • 回答に至るまでの認知プロセスに関連するデータが得られる(e.g., 所要時 間、注視箇所) • 受験者の能力に応じた最適な項目を出題する コンピューター適応型テスト(CAT)が実現できる
  99. コンピューター適応型テスト 134 受験者の回答パターンに応じて困難度の異なるアイテムを選んで出題することにより、効率的 に測定を行いたい → コンピュータ適応型テスト(computer adaptive test, CAT) ⚫

    前の問題の正誤に合わせて、より最適な困難度の問題を出せば、能力値𝜃の推定の誤差を効 率的に小さくできる。事前に設定した標準誤差を下回ったら、回答を終了する。
  100. コンピューター適応型テストの体験 135 # コンピュータ適応型テスト(CAT) ------------------------------------ library(mirtCAT) options(stringsAsFactors = FALSE) #

    項目パラメータの読み込み pars <- read.csv("para.csv") mod <- generate.mirt_object(pars, '2PL') # IRTモデルの設定 plot(mod, type = 'infoSE', theta_lim=c(-3,3)) # TIF # 計算問題の読み込み dat3 <- read.csv("data3.csv") head(dat3) #CATの実施 res.cat <- mirtCAT(dat3, mod, method = 'EAP', criteria = 'MI', start_item = 'random’, design = list(min_SEM = 0.5), shinyGUI = list(title = "計算問題", authors = "Daiki Nakamura")) # 実行 print(res.cat) # 結果出力 plot(res.cat) summary(res.cat)
  101. 今回使用するデータ 137 ◼ data1.csv:教育測定に関する架空データ • ID :通し番号(1~250) • school :学校名(sakura/kita)

    • grade :学年(5,6) • class :クラス(1, 2) • number :出席番号 • sex :性別(M男、F女) • kokugo1ー3:国語のテスト結果 • sansu1ー3 :算数のテスト結果 • rika1ー3 :理科のテストの結果 • CT1ー7 :批判的思考質問紙 介入前 xxxxxx_1 介入中 xxxxxx_2 介入後 xxxxxx_3 実験群 class = 1 統制群 class = 2 # データの読み込み dat1 <- read.csv("data1.csv")
  102. 1群事前事後テストデザイン 139 ⚫ 1群事前事後テストデザイン 事前テストを実施してから介入を施し、事後テストを実施 事前事後の差が介入の効果 ◼ 問題点 • 事前テストと事後テストの間に起こった、介入以外の何らかの出来事が影響を及ぼしてい

    る可能性(履歴の脅威) • 介入ではなく、事前テストの実施自体が事後テストの成績の変化につながっている可能性 (測定の脅威) • 時間の経過に伴う自然な発達的変化が成績向上の原因である可能性 (成熟の脅威) 南風原(2001)『心理学研究法入門』より # 1群事前事後テストデザイン t.test(dat1$rika3, dat1$rika1, paired=T) library(effectsize) hedges_g(dat1$rika3, dat1$rika1, paired = T)
  103. 不等価2群事後テストデザイン ⚫ 不等価2群事後テストデザイン 実験群と統制群を用意し、介入を施し事後テストを実施 実験群と統制群の差が介入の効果 ◼ 問題点 • ランダム割り当てではないため、実験群と統制群の等価性が保証されない •

    事後テストによって両群間の測定値に差が見られたとしても、その差は元々両群に存在し た可能性があり、必ずしも介入の効果であるとは言えない(内的妥当性に対する「選択の 脅威」) 南風原(2001)『心理学研究法入門』より # 不等価2群事後テストデザイン t.test(rika3~class, data = dat1) library(effectsize) hedges_g(rika3~class, data = dat1)
  104. 不等価2群事前事後テストデザイン ⚫ 不等価2群事前事後テストデザイン 実験群と統制群を用意し、両群に事前テストを実施、実験群に介入を施した後、事後テストで効 果を測定 • 事前テストにより、実験群と統制群がどのくらい等価か判断できる(→選択の脅威に対処) • 実験群では変化が生じたのに対し、統制群は無変化→テスト自体が効果を及ぼしたのではな い(→測定の脅威に対処)

    • 事前テストと事後テストの期間が同じで実験群だけに効果(→成熟の脅威に対処) • 両群が共通して経験する出来事については、それによって群間の変化の差を説明することは 困難(→履歴の脅威に対処) 南風原(2001)『心理学研究法入門』より # 不等価2群事前事後テストデザイン res1 <- lm(rika3 ~ rika1 + class, data = dat1) #共分散分析 summary(res1) eta_squared(res1, partial = F, alternative = "two.sided")
  105. どこまで一般化できるか 母集団 ランダムサンプリング サンプル:指導効果あり 母集団:指導効果があるだろう 推測 しかし、実際のデータはランダム サンプリング出ないことも多い。 例)ある学校の2クラス また、サンプルサイズも小さい。

    サンプルサイズが小さいと誤差が 大きくなる。 効果があっても、有意にならない。 (検定力の低さ、第2種の過誤) 人類 子供 日本人 小学生 6年生 学力A層 ◦◦学校 どこまで一般化できる? 大 小
  106. 効果量を利用するメリット 145 ⚫ 効果量を利用するメリット(Lakens, 2013) 1. 効果の大きさを定量的に示すことができる 2. 研究間で効果の大きさを比較・統合することができる 3.

    過去の研究の効果量は、新しい研究を行う際の検定力分析に利用することができる • 効果量を利用するメリットの1つは、従来のNHSTにおける帰無仮説が棄却できるかどう かの議論を超えて、どの程度の効果があるのかを定量的に示すことができる点にある。 • このような効果量は、同じ効果を表していて単位が共通であれば研究間で比較・統合す ることができる。例えば、今回得られた効果量が過去の研究と比べて大きいものなのか を比較することが考えられる。また、メタ分析のような効果量を量的統合方法は、母効 果量や効果量の分布に関するより精度の高い推測を可能にする。 • このようにして蓄積された効果量の分布に関する情報は、新たな研究を行う際の検定力 分析やサンプルサイズ設計に活用することができる。
  107. 効果量の種類 146 • 効果量には様々な種類が提案されており、一説によればその数は40を超える(Kirk, 1996, pp. 748–749)。 • Huberty(2002, Fig.

    1)は、効果量の種類と歴史的な登場時期を下図のように整理している。 このように、効果量は長い時間をかけて様々な種類が提案されてきたものであって、一定の時 期にまとめて提案されたものではない。 • この講習会では、2種類の効果量のみを 扱う。 1.標準化平均値差(𝑑𝑠 , g, Δ, 𝑑𝑧 ) 2.相関係数(𝑟)
  108. 独立した2群の標準化平均値差 147 ◆ 独立した2群の標準化平均値差に関する母効果量𝛿は以下の式で定義される。 𝛿 = 𝜇𝐴−𝜇𝑏 𝜎 ここで 𝜇𝐴

    , 𝜇𝑏 はそれぞれ群A, 群Bの母平均、 𝜎 は2群に共通な母標準偏差である。 この母効果量𝛿の推定量にはいくつかの種類がある。 ⚫ 群間で等分散が仮定できる場合 Hedges & Olkin’s 𝑑 ⇒ 今回は扱わないが、これは母効果量の最尤推定量である Cohen’s 𝑑𝑠 ⇒ いわゆるCohenのd。これをgと表記する文献もあるので注意。 Hedges’ 𝑔 ⇒ Cohen’s 𝑑𝑠 に小標本の補正をかけたもの。これが不偏推定量。 ⚫ 群間で等分散が仮定できない場合 Glass’s Δ ⇒ 片方の群の標準偏差を計算に用いる方法。 Glass’s Δadj ⇒ Glass’s Δ に小標本の補正をかけたもの。
  109. Cohen’s 𝑑𝑠 148 Cohen’s 𝑑𝑠 は以下の式で求められる。 𝐶𝑜ℎ𝑒𝑛′𝑠 𝑑𝑠 = ҧ

    𝐴 − ത 𝐵 𝑠 ただし、 s = 𝑚−1 ∗𝑠𝐴 2+ 𝑛−1 ∗𝑠𝐵 2 𝑚+𝑛−2 ここで、 ҧ 𝐴, ത 𝐵 はそれぞれ群A, 群Bの標本平均、𝑚, 𝑛 は群A, 群Bのサンプルサイズ、 𝑠𝐴 2, 𝑠𝐵 2 は群A, 群Bの不偏分散を表す。 誤差分散は以下の式で求められる。誤差分散の平方根を求めれば標準誤差になる。 𝑉𝑑𝑠 = 𝑚 + 𝑛 𝑚𝑛 + 𝑑𝑠 2 2(𝑚 + 𝑛) , 𝑆𝐸𝑑𝑠 = 𝑉𝑑𝑠 標本効果量の標本分布を正規分布で近似すれば、効果量の95%信頼区間は以下のよう に求められる。(※ただしこれは正確ではない。非心t分布を用いた計算がより正確。) 𝑑𝑠 ± 1.96 ∗ 𝑆𝐸𝑑𝑠
  110. RによるCohen’s 𝑑𝑠 の計算 149 # 標準化平均値差 ----------------------------------------------------------------- # パッケージの準備 install.packages("easystats”)

    # 等分散が仮定できる場合のデータ m <- 100 ; n <- 100 # サンプルサイズ set.seed(123) # 乱数の種の固定 A <- rnorm(m, 60, 10) # 正規分布N(60,10^2)からm個の乱数を発生 B <- rnorm(n, 50, 10) # 正規分布N(50,10^2)からn個の乱数を発生 # Cohen's d_s s_pooled <- sqrt(((m-1)*var(A)+(n-1)*var(B))/(m+n-2)) d <- (mean(A)-mean(B))/s_pooled d library(effectsize) cohens_d(A, B) # Cohen's d_s
  111. Hedges’ 𝑔 (小標本の補正) 150 • Cohen’s 𝑑𝑠 には、母効果量を過大に推定するバイアスがあり、特にサンプル サイズが小さい時(n<20)に顕著である。 •

    このバイアスを補正する方法として、標本効果量に以下の補正係数を乗じる 方法が提案されている。 𝐽 ≈ 1 − 3 4 𝑚 + 𝑛 − 2 − 1 𝐻𝑒𝑑𝑔𝑒𝑠′ 𝑔 = 𝐽 ∗ 𝑑𝑠 誤差分散は以下の式で求められる。誤差分散の平方根を求めれば標準誤差になる。 𝑉 𝑔 = 𝐽2 ∗ 𝑉𝑑𝑠 # Hedges' g d * (1-(3/(4*(m+n-2)-1))) library(effectsize) hedges_g(A, B) # Hedges' g
  112. Glass’s Δ 151 Glass’s Δ は以下の式で求められる。 𝑠𝐵 は統制群の標準偏差を指す。 Glass′s Δ

    = ҧ 𝐴 − ത 𝐵 𝑠𝐵 • これは、実験デザインに由来して群間で分散が異なることが想定される場合に有用である。 例えば、実験群にのみ介入を行い、その介入が分散を拡大させると考えられる場合、介入を 行っていない統制群の分散の推定値を効果量の計算に用いる方が適切だと考えられる。 誤差分散は以下の式で求められる。誤差分散の平方根を求めれば標準誤差になる。 𝑉Δ = 𝑚 + 𝑛 𝑚𝑛 + Δ2 2(𝑛 − 1) , 𝑆𝐸𝑉Δ = 𝑉Δ
  113. RによるGlass’s Δ の計算 152 # 等分散が仮定できない場合のデータ m <- 100 ;

    n <- 100 # サンプルサイズ set.seed(123) # 乱数の種の固定 A <- rnorm(m, 60, 15) # 正規分布N(60,100)からm個の乱数を発生 B <- rnorm(n, 50, 10) # 正規分布N(50,100)からn個の乱数を発生 # Glass's Delta (mean(A)-mean(B))/sd(B) # Glass's delta library(effectsize) glass_delta(A, B) # Glass's delta
  114. 対応のある2群の標準化平均値差 153 ◆ 対応のある2群の標準化平均値差に関する母効果量𝛿𝑝 は以下の式で定義される。 𝛿𝑝 = 𝜇𝐷 𝜎𝐷 =

    𝜇𝐷 𝜎 2(1 − 𝜌) ここで 𝜇𝐷 はプレ・ポストの差の期待値、𝜎𝐷 はプレ・ポストの平均値差の母標準偏差、 𝜎 は2群に共通な母標準偏差、𝜌 はプレ・ポストの母相関係数である。 この母効果量𝛿𝑝 の推定量𝑑𝑧 は、以下の式で求められる。 𝐷 = 𝑥𝑝𝑜𝑠𝑡 − 𝑥𝑝𝑟𝑒 𝐶𝑜ℎ𝑒𝑛′𝑠 𝑑𝑧 = 𝐷 𝑠𝐷 = 𝐷 𝑠𝑝𝑟𝑒 2 + 𝑠𝑝𝑜𝑠𝑡 2 − 2 ∗ 𝑐𝑜𝑣(𝑥𝑝𝑟𝑒 , 𝑥𝑝𝑜𝑠𝑡 ) 誤差分散は以下の式で求められる。ここで、r は、プレとポストの相関係数を指す。 𝑉𝑑𝑧 = 2(1 − 𝑟) 𝑛 + 𝑑𝑧 2 2𝑛
  115. RによるCohen’s 𝑑𝑧 の計算 154 # 対応のある2群の標準化平均値差 ----------------------------------------------- # 対応のあるデータの用意 library(mvtnorm)

    set.seed(123) sigma <- matrix(c(100,50,50,100), byrow=TRUE, ncol=2) # 分散共分散行列 mu <- c(50, 60) # 母平均 n <- 100 # サンプルサイズ dat <- data.frame(rmvnorm(n=n, mean=mu, sigma=sigma)) # データ生成 colnames(dat) <- c("pre","post") # ラベル変更 # Cohen's dz mean(dat$post-dat$pre)/sd(dat$post-dat$pre) library(effectsize) cohens_d(dat$post, dat$pre, paired = T) # Cohen's d_z
  116. 相関係数 155 母相関係数 𝜌 の推定量 𝑟 は以下の式で定義される。 𝑟 = 𝑠𝑥𝑦

    𝑠𝑥 𝑠𝑦 = 1 𝑛 σ𝑖=1 𝑛 (𝑥𝑖 − ҧ 𝑥)(𝑦𝑖 − ത 𝑦) 1 𝑛 σ 𝑖=1 𝑛 (𝑥𝑖 − ҧ 𝑥)2 1 𝑛 σ 𝑖=1 𝑛 (𝑦𝑖 − ത 𝑦)2 誤差分散は以下の式で求められる。 𝑉 𝑟 = 1 − 𝑟2 2 𝑛 − 1 相関係数rを以下のように変換したzは、帰無仮説の下で平均0、分散1/n-3 の正規分布に近似的に従う。これもよく使われる。 𝑧 = 0.5 ∗ ln 1 + 𝑟 1 − 𝑟 𝑉 𝑧 = 1 𝑛 − 3 x y ҧ 𝑥 ത 𝑦 𝑥𝑖 − ҧ 𝑥 𝑦𝑖 − ത 𝑦 + + - - ※フィッシャーのz変換
  117. Rによる Pearson’s r の計算 156 # データ生成 library(mvtnorm) set.seed(123) sigma

    <- matrix(c(100,50,50,100), byrow=TRUE, ncol=2) # 分散共分散行列 mu <- c(50, 60) # 母平均 n <- 100 # サンプルサイズ dat <- data.frame(rmvnorm(n=n, mean=mu, sigma=sigma)) # データ生成 colnames(dat) <- c("X","Y") # ラベル変更 # ピアソンの積率相関 library(correlation) r <- correlation(dat) r # フィッシャーのz変換 0.5 * log((1+r$r)/(1-r$r))
  118. 練習問題 157 1. 日本人17歳の身長分布が、男性はN(170, 33)、女性はN(158, 33)の正規分布に従 うとき、標準化平均値差 𝛿 の大きさを計算せよ。 2.

    新しい指導法を実践したAクラス(n=40)の学力テストは平均70点、標準偏差10 であった。従来の指導法を実践したBクラス(n=40)の学力テストは平均60点、 標準偏差10であった。従来の指導法に対する新しい指導法の効果がどれくらいかを Cohen’s 𝑑𝑠 とHedges’ 𝑔 を用いて表せ。なお、等分散を仮定するものとする。 3. 対応のある2群の平均値差に関して、 Cohen’s 𝑑𝑠 と Cohen’s 𝑑𝑧 の両方を計算する ことを考える。プレとポストの相関係数がr=0.5の時、 2つの指標が一致すること を確認せよ。 4. 相関係数 𝑟 が取り得る値の範囲を示せ
  119. 共通言語効果量(Common Language Effect Sizes) 160 ⚫ 共通言語効果量と呼ばれる一連の指標を用いて確率的に効果量を解釈することが提案され ている(McGraw & Wong,

    1992) 1. 優越率(Probability of Superiority):一方の群の観測値が他方の群の観測値を上回る確率 2. Cohen’s U3:第1グループ(実験群)の平均値より小さい第2グループ(統制群)の割合 3. 被覆度(Overlap):2つの分布の重なる部分の割合 https://rpsychologist.com/cohend/ # 共通言語効果量 set.seed(123) A <- rnorm(100, 60, 10) B <- rnorm(100, 50, 10) library(effectsize) cohens_d(A, B) cles(A, B) # 共通言語効果量
  120. Cohenの規準(一般的なベンチマーク) 161 Cohen (1988) は、標準化効果量を解釈する際の目安となる基準を「小(small)」 「中(medium)」「大(large)」の3段階で示している d 判定 d =

    0.2 Small d = 0.5 Medium d = 0.8 Large r 判定 r = 0.1 Small r = 0.3 Medium r = 0.5 Large ⚫ Cohenの規準の問題点 • Cohenの基準は行動科学分野の研究を通してこれまでに得られた効果量を参考にして作成さ れた経験則であり、全ての分野において適応できるものではない • Cohenの基準で小さいとされる効果量も、分野によっては大きな意味を持つ • 研究者は、得られた効果量を現実的な文脈や研究分野ごとの文脈に位置づけることでその実 質的な意味を解釈すべきであり、Cohenの規準のようなベンチマークを機械的に当てはめて 解釈を放棄することは望ましくない
  121. 分野ごとに細分化された規準 162 • Cohenの規準への批判は、それに代わる新しいベンチマークを生み出すことにつながった。 • 新しいベンチマークの修正の方向性は主に2点にまとめられる。1点目は、Cohenの基準の段階 をより細かくすることである。2点目は、分野を限定し、過去の知見から経験的に段階を設定す ることである。 ➢ Sawilowsky

    (2009) は、近年のメタ分析によって得られた効果量の値が大きくなっていること を根拠に、Cohenの基準を以下のようにプラスの方向に拡張することを提案している。 d 判定 d 判定 d < 0.1 Tiny 0.8 <= d < 1.2 Large 0.1 <= d < 0.2 Very small 1.2 <= d < 2 Very large 0.2 <= d < 0.5 Small d >= 2 Huge 0.5 <= d < 0.8 Medium
  122. 分野ごとに細分化された規準 163 ➢ Gignac & Szodorai (2016) は、心理的な構成概念や行動の相関に関する708件のメタ分析を収 集した結果、この分野の効果量分布はCohenの基準よりもより小さいものであることを明らかに した。そして、相関係数rの判断基準を以下のように修正することを提案した。

    判定 Cohen (1988) Gignac & Szodorai (2016) Very small r < 0.1 r < 0.1 Small 0.1 <= r < 0.3 0.1 <= r < 0.2 Moderate 0.3 <= r < 0.5 0.2 <= r < 0.3 Large r >= 0.5 r >= 0.3 ➢ その他にも、心理学(Funder & Ozer, 2019)や社会心理学(Lovakov & Agadullina, 2021)と いった分野特有の規準が提案されてきた。また、老年学(Brydges, 2019)や教育介入(Kraft, 2020)といったより細かな分野ごとの基準も提案されている。 Funder & Ozer (2019) Lovakov & Agadullina (2021) Kraft (2020) r < 0.05 - Tiny 0.05 <= r < 0.1 - Very small r < 0.12 - Very small 0.1 <= r < 0.2 - Small 0.12 <= r < 0.24 - Small d < 0.05 - Small 0.2 <= r < 0.3 - Medium 0.24 <= r < 0.41 - Moderate 0.05 <= d < 0.2 - Medium 0.3 <= r < 0.4 - Large r >= 0.41 - Large 0.2 <= d - Large r >= 0.4 - Very large
  123. 分野ごとに細分化された規準の課題 164 ⚫ 各分野ごとの経験データから効果量の判断基準が作成されたからといって、それらが適切とは 限らない。 • 第一に、各分野の中でも研究テーマごとに効果量分布が大きく異なる可能性がある。 • 第二に、集められた経験データそのものが歪められている可能性がある。 ➢

    例えば、Schäfer & Schwarz (2019) は心理学分野の研究からランダムに収集した効果量 の分布が事前登録の有無によって異なることを指摘している。 • このように、判断基準の作成に使用されたデータが真の効果量分布を捉えていなければ、そこ から作成された判断基準も誤ったものになる。 "Garbage In, Garbage Out" ⚫ 課題の解決に向けて • これらの課題のうち、1つ目の課題についてはテーマを絞ったメタ分析によって対処できる。 • 2つ目の課題については、メタ分析の際にもデータの偏りに注意する必要がある。
  124. Rを用いた効果量の解釈 165 # Cohen (1988) の基準 interpret_cohens_d(d, rules = "cohen1988")

    # Sawilowsky (2009) の基準 interpret_cohens_d(d, rules = "sawilowsky2009") # Gignac & Szodorai (2016) の基準 interpret_cohens_d(d$Cohens_d, rules = "gignac2016") # Lovakov & Agadullina (2021) の基準 interpret_cohens_d(d, rules = "lovakov2021")
  125. メタ分析とは何か 167 ⚫ メタ分析の定義 広義:複数の研究の結果を統合し、より高い見地から分析すること 狭義:複数の研究の結果を組み合わせた統計解析のこと ⚫ 類似概念 システマティックレビュー:明示的で体系的なルールに基づき文献を偏りなく探索すること ⚫

    メタ分析の手順 0.研究テーマの決定 どのようなテーマの研究を集めるのかを明確化する(適格性基準の設定) 1.研究の収集 そのテーマに関連する研究を偏りなく集める。集めた研究が適格性基準を満たすか評価する。 2.効果量の抽出 各研究から効果量を算出・抽出する。 3.効果量の統合 各研究の効果量を特定の数理モデルに従って統合する。
  126. 歴史的背景 168 • 1904年、統計学者のカール・ピアソンが腸チフス菌の接種に関する複数の研究からデータ を収集した論文を発表(メタ分析の最初期の例) • 1976年、ジーン・V・グラスによってメタ分析という用語が作られ、分析手法が体系化さ れていく ➢ 特に、

    Larry V. Hedges, Harris Cooper, Ingram Olkin, John E. Hunter, Jacob Cohen, Robert Rosenthal, Frank L. Schmidt, John E. Hunter らの貢献が大きい • 1970年代以降、教育学、心理学、医学、生態学など複数の分野でメタ分析が盛んにおこな われる ➢ Lipsey & Wilson(1993):心理・教育・行動的介入に関する302個のメタ分析の結果 を検討し,効果量の平均が0.50,標準偏差が0.29であったことを示している • 1980年代に入ると、ナラティブレビューに代わり、メタ分析やシステマティックレビュー が主流になってくる。 • 2000年代以降、論文データベースが整理されていく中でより活発にメタ分析が 行われるようになってきている • 2008年には、ジョン・ハッティによる大規模なメタ・メタ分析が実施される • 2010年には、Research Synthesis Methods が発行された
  127. メタ分析の長所と短所 170 ⚫ メタ分析の長所 • 個別の研究の統合を通してより強いエビデンスを生み出すことが できる。 ➢ 特に、個別の研究のサンプルサイズに制約がある分野などで は重宝される。

    • 真の効果量分布のより良い推定ができる。 • 研究間の効果量のばらつきの原因を探ることができる。 ⚫ メタ分析の短所 • 統合するデータが偏っていると、誤った推定になる ➢ 出版バイアスによって、得られるデータが偏っている場合が ある • 異なる種類の研究を1つに統合することへの批判(リンゴとオレ ンジ問題) • メタ分析を行う上で、多くの選択肢(研究者自由度)があるため、 結論を恣意的に変えられる。 エビデンスピラミッド https://ja.wikipedia.org/wiki/%E3%83%A1%E3%82%BF%E3%82%A2%E3%8 3%8A%E3%83%AA%E3%82%B7%E3%82%B9#/media/%E3%83%95%E3% 82%A1%E3%82%A4%E3%83%AB:Research_design_and_evidence_ja.svg
  128. メタ分析の手順 171 ⚫ メタ分析の手順(再掲) 0.研究テーマの決定 どのようなテーマの研究を集めるのかを明確化する(適格性基準の設定) 1.研究の収集 そのテーマに関連する研究を偏りなく集める。集めた研究が適格性基準を満たすか評価する。 2.効果量の抽出 各研究から効果量を算出・抽出する。

    3.効果量の統合 各研究の効果量を特定の数理モデルに従って統合する。 ⚫ 参考にした情報 今回の資料は、以下の書籍に基づいて作成しています。 Harrer, M., Cuijpers, P., Furukawa, T.A., & Ebert, D.D. (2021). Doing Meta-Analysis with R: A Hands-On Guide. Boca Raton, FL and London: Chapman & Hall/CRC Press. ISBN 978-0-367-61007-4. https://bookdown.org/MathiasHarrer/Doing_Meta_Analysis_in_R/
  129. 研究テーマの決定 172 ⚫ 良いリサーチクエスチョンは、Feasible(実行可能)、Interesting(興味深い)、Novel (新しく独創的)、Ethical(倫理的)、Relevant(切実)である(Cummings et al., 2013) • 既にメタ分析がやられていないかどうか確認

    • テーマが狭すぎると研究数が集まらない。広すぎると結果が解釈できない(リンゴとオレンジ問 題)。 ⚫ どのような研究を対象にするのかの適格性基準を作る。 • 誰が見ても同じ判断ができるよう、客観的で透明性の高い基準 • PICOフレームワーク(Mattos & Ruellas 2015)を使用した適格性基準の設定 • Population(母集団):どのような人々や研究対象者を含む研究が対象となるのか? • Intervention(介入):どのような種類の介入を対象とするのか • Control group(対照群):対照群はどのような処置を受けるのか • Outcome(結果):何を結果変数とするのか。結果変数はどのように測定されるか。 ⚫ 研究計画の事前登録 ・メタ分析には多くの選択肢(研究者自由度)があるため、事前に分析方法を決めて登録し ておき、結果を見た後で方法を変える不正を防ぐ
  130. 適格性基準のカテゴリー例(岡田・小野寺,2018に加筆) 173 カテゴリー 内容 研究のテーマ どのようなテーマの研究を収集するか 対象者 研究の対象者の特徴や母集団 鍵となる変数 どのような変数を扱っている研究が対象か

    変数の測定方法 どのように測定している研究を対象とするか 研究デザイン どのような研究デザインのものを含めるか 介入方法 介入の方法 言語・文化的範囲 どのような言語・文化的範囲を対象にするか。範囲が狭い 場合は、一般化可能性に注意。⇒ WEIRD問題 時間的範囲 どの期間の文献を含めるか。時間的な変化が想定されるか。 対象誌・データベース どのような論文誌、データベースを対象とするか。 公表のタイプ 論文、紀要、プレプリント、プロシーディングス、書籍、 学位論文、その他 著者への問い合わせ 情報が欠落していた場合、著者への問い合わせを行うか 検索キーワード どのような検索キーワードで収集するか 効果量算出上の制約 どのような情報が記載されていれば効果量が算出可能か
  131. データベースを活用した検索 174 ⚫ データベースによってカバーしている論文が異なるため、常に複数のデータベースで 検索を行うべき ⚫ 検索文字列の工夫 – 論理演算子: AND

    OR NOT – ワイルドカード(末): 「sociolog*」→ sociology, sociological, sociologist – ワイルドカード(途中):「randomi?ed」→ 米 randomized, 英 randomised ⚫ 検索ヒット数の目安 • 検索文字列のヒット数が 3000 件程度であれば、後のステップで管理しやすく、重要 な文献がすべて結果にリストアップされる可能性が高い • 最初の数百件を確認し、少なくともいくつかの文献が研究課題と関係することを確認 しておくと効率的 ⚫ 適格性基準に基づく評価 • タイトルとアブストラクトを読んでのスクリーニングで、90%ほどが除外されること が多い ⇒ 残りは全文を読んで判断 • 多くのガイドラインで、ダブルスクリーニングが推奨されている
  132. データベースの種類と特徴 175 ◆ 領域ごとのデータベース • PubMed: 米国国立医学図書館のオープンアクセスなデータベース。主に生物医学の研究が収録されている。 • PsycInfo:米国心理学会が運営するデータベース。主に心理学、社会科学、行動科学分野の研究を収録。 •

    Cochrane Central Register of Controlled Trials (CENTRAL) :コクラン共同研究体のデータベースで、一般に公開されている。主に健 康関連のトピックをカバー。 • Embase:大手科学出版社 Elsevier が運営する生物医学研究のデータベース。ライセンスが必要。 • ProQuest International Bibliography of the Social Sciences :社会科学研究を収録したデータベース。ライセンスが必要。 • Education Resources Information Center (ERIC) :教育研究に関するオープンアクセスなデータベース。 ◆ 網羅的なデータベース • Web of Science :Clarivate Analytics社が運営する学際的な引用データベース。ライセンスが必要。 • Scopus: Elsevier社が運営する学際的な引用データベース。ライセンスが必要。 • Google Scholar: Googleが運営するオープンアクセス型の引用データベース。検索・文献複写の機能は限定的。 ◆ 学位論文 • ProQuest Dissertations: 学位論文のデータベース。ライセンスが必要 ◆ 研究レジストリ • WHO International Clinical Trials Registry Platform (ICTRP) :世界中の臨床試験の登録情報をオープンにしたデータベース。まだ発表 されていない研究の特定に利用できる。 • OSF Registries :研究登録の学際的なデータベースで、オープンにアクセスできる。未発表の研究を特定するために使用できる。
  133. Preferred Reporting Items for Systematic Reviews and Meta-Analyses (PRISMA) 176

    https://www.prisma-statement.org//Translations/Translations
  134. 固定効果モデル 179 ⚫ 固定効果モデル(fixed effect model) 全ての効果量が単一の均質な集団から生じていると仮定するモデル。 ある研究kで観察された効果量 መ 𝜃𝑘

    が母集団における真の効果量𝜃 から外 れる唯一の原因は、誤差𝜖𝑘 のみであると考える。 ෠ 𝜃𝑘 = 𝜃 + 𝜖𝑘 標準誤差が小さい(nが大きい)研究は、標準誤差が大きい研究よりも、 真の全体効果のより良い推定値となるはず(右図参照) ということは、標準誤差の逆数で重み付けて統合してあげればいい。 𝑤𝑘 = 1 𝑠𝑘 2 ただし、 𝑠𝑘 2 は各効果量の誤差分散 𝜃 = σ𝑘=1 𝐾 መ 𝜃𝑘 𝑤𝑘 σ 𝑘=1 𝐾 𝑤𝑘 この方法は、逆分散重み付け、逆分散メタ分析などとも呼ばれる。
  135. Rを用いたメタ分析の準備 180 # パッケージの準備 --------------------------------- install.packages("meta") install.packages("metafor") install.packages("devtools") devtools::install_github("MathiasHarrer/dmetar") #

    データの読み込み ---------------------------------- library(dmetar) data(SuicidePrevention) # データの読み込み 自殺防止プログラムに関する研究のデータ セット。結果変数は、自殺願望の重症度。 効果量がマイナスの場合は介入によって自殺 願望が下がった(改善された)と判断できる。
  136. Rを用いた固定効果モデルの分析 181 # 固定効果モデル ---------------------------------------------------------------- m.cont <- metacont(n.e = n.e,

    mean.e = mean.e, sd.e = sd.e, n.c = n.c, mean.c = mean.c, sd.c = sd.c, studlab = author, data = SuicidePrevention, sm = "SMD", method.smd = "Hedges", fixed = TRUE, random = FALSE, title = "Suicide Prevention") summary(m.cont)
  137. 変量効果モデル 182 ⚫ 変量効果モデル(random effect model) 各研究条件における真の効果量分布と、研究テーマ全体の真の効果量分布の両方を仮定する。 各研究の効果量 መ 𝜃𝑘

    は、その研究の条件における真の効果量 𝜃𝑘 と誤差𝜖𝑘 に分解できる。 መ 𝜃𝑘 = 𝜃𝑘 + 𝜖𝑘 各研究条件における真の効果量𝜃𝑘 も、研究テーマ全体の真の効果量𝜇と誤差に分解できる。 𝜃𝑘 = 𝜇 + 𝜁𝑘 代入すると、1つの式にまとめられる。 መ 𝜃𝑘 = 𝜇 + 𝜁𝑘 + 𝜖𝑘 研究テーマ全体の真の効果量分布の分散を 𝜏2 とすると、 変量効果モデルの重みは以下のように計算できる。 𝑤𝑘 ∗ = 1 𝑠𝑘 2+𝜏2 መ 𝜃 = σ𝑘=1 𝐾 ෡ 𝜃𝑘𝑤𝑘 ∗ σ𝑘=1 𝐾 𝑤𝑘 ∗ 分散 𝜏2
  138. 推定法 183 ⚫ 研究テーマ全体の真の効果量分布の分散 𝜏2 には、いくつかの推定法がある。 1. DerSimonian-Laird ("DL") 推定量

    (DerSimonian and Laird 1986) 2. 制限付き最尤法(”REML”)または最尤法(”ML”) (Viechtbauer 2005) 3. Paule-Mandel ("PM") (Paule and Mandel 1982) 4. Empirical Bayes (“EB”) (Sidik and Jonkman 2019) ※PMと実質的に同じ 5. Sidik-Jonkman (“SJ”) (Sidik and Jonkman 2005) ⚫ どれを使うべきか? • 連続変数の効果量については、まずREMLを使用するべき。 • 2値変数の効果量については、研究間でnに極端なばらつきがなければ、まずPMを試して みるべき。 • サンプル内の効果量の不均一性が非常に大きいと考える根拠があり、偽陽性を避けること が高い優先度を持つ場合はSJも候補。 • R以外でできるだけ正確に結果を再現してもらいたい場合は、DLを使用。
  139. Knapp-Hartung の調整法と結果報告 184 ⚫ Knapp-Hartungの調整法 • 通常、プールされた効果の標本分布には、正規分布(i.e., Wald検定)を仮定する。それに対 して、Knapp-Hartungの調整法ではt分布を仮定する。 •

    Knapp-Hartungの調整は、ランダム効果モデルでのみ使用でき、プールされた効果の信頼区 間がわずかに大きくなる。 • 研究間異質性の持つ不確実性を考慮に入れた調整を行うことになるので、使用した方が良い。 • 特に、研究数が少ない場合、この調整によって偽陽性の可能性を減らすことができる (IntHout, Ioannidis, and Borm 2014; Langan et al. 2019) ⚫ 研究方法の記述例 「研究間の異質性が大きいと予想されたため、ランダム効果モデルを使用して効果量を統合した。 異質性分散 𝜏2の算出には、制限付き最尤法(Viechtbauer, 2005)を使用した。統合された効果 量の信頼区間を計算するために、Knapp-Hartung調整(Knapp & Hartung, 2003)を使用し た。」
  140. Rを用いた変量効果モデルの分析 185 # 標準化平均値差(SMD)の統合 library(dmetar) library(meta) data(ThirdWave) m.gen <- metagen(TE

    = TE, seTE = seTE, studlab = Author, data = ThirdWave, sm = "SMD", fixed = FALSE, random = TRUE, method.tau = "REML", hakn = TRUE, title = "Third Wave Psychotherapies") # 変量効果モデル summary(m.gen) forest.meta(m.gen, sortvar = TE, prediction = TRUE, print.tau2 = FALSE, leftlabs = c("Author", "g", "SE")) 第3世代認知行動療法が大学生の知覚 ストレスに及ぼす影響を調査した研究。 ポストテストにおける実験群と統制群 の間の標準化平均差gが記録されてい る。
  141. 結果を眺める 186 Review: Third Wave Psychotherapies SMD 95%-CI % W(random)

    重み Call et al. 0.7091 [ 0.1979; 1.2203] 5.0 ⋮ ⋮ Warnecke et al. 0.6000 [ 0.1120; 1.0880] 5.2 Number of studies combined: k = 18 SMD 95%-CI t p-value Random effects model 0.5771 [0.3782; 0.7760] 6.12 < 0.0001 Quantifying heterogeneity: tau^2 = 0.0820 [0.0295; 0.3533]; tau = 0.2863 [0.1717; 0.5944] I^2 = 62.6% [37.9%; 77.5%]; H = 1.64 [1.27; 2.11] Test of heterogeneity: Q d.f. p-value 45.50 17 0.0002 Details on meta-analytical method: - Inverse variance method 逆分散重み付け - Restricted maximum-likelihood estimator for tau^2 制限付き最尤法 - Q-profile method for confidence interval of tau^2 and tau Qプロファイル法(tau^2の信頼区間の計算を調整) - Hartung-Knapp adjustment for random effects model Hartung-Knappの調整
  142. 相関係数の統合 187 ⚫ 今度は、相関係数を変量効果モデルに基づき統合してみよう。 やり方は先ほどとあまり変わらない。 ✓ 使用データ:HealthWellbeing 健康と幸福の相関を調べた研究を収集したデータセット # 相関係数の統合

    data(HealthWellbeing) m.cor <- metacor(cor = cor, n = n, studlab = author, data = HealthWellbeing, fixed = FALSE, random = TRUE, method.tau = "REML", hakn = TRUE, title = "Health and Wellbeing") summary(m.cor)
  143. 188 forest.meta(m.cor, sortvar = cor, prediction = TRUE, print.tau2 =

    FALSE, leftlabs = c("Author", "cor", "SE"))
  144. 構造方程式モデリング(SEM)のアプローチ ① 複数の変数間の関連性について、特定の仮説モデルを設定 ② その仮説モデルの妥当性を検証 ③ モデルが正しいとした場合の変数間の定量的な関連性を推定 仮説モデル: 変数間にどのような因果関係や相関関係があるかという理論的な仮説 を表現したモデル。パス図という図で視覚的に表現する。

    仮説モデルの妥当性: 適合度という概念で検証する。適合度とは、解析に使用したデータと、 仮定されたモデルの間の一致度を意味し、適合度が高いほど、モデル の妥当性が高いことが示唆される。 定量的な関連性: パス係数(パラメータ推定値)と呼ばれる値で表現。仮定したモデルのも とでの変数間の因果関係や相関関係の強さに関する推定値を意味する。
  145. 補足:パス図 観測変数 潜在変数 観測変数とは、直接測定されている変数のこと。 解析に使用するデータセットを構成しているもの。 潜在変数(因子)とは、直接は測定されず、複数 の観測変数を介して測定される(c.f. 構成概念) X1 Y1

    X2 Y2 単方向の矢印は、因果関係を表す。 両方向の矢印は、相関関係を表す。 外生変数(独立変数):どの変数からも単方向の矢印を受けない変数 内生変数(従属変数):1つ以上の変数から単方向の矢印を受ける変数
  146. 構造モデルと測定モデル F1 F3 F2 <構造モデル> 複数の概念感の因果関係に関する仮説を表すもの。 因果関係に関する仮説は、先行研究の知見や理論 的な検討によって、先験的に設定される必要があ る。 F

    X1 X2 X3 <測定モデル> 直接観測できない構成概念を、潜在変数(因子) として複数の観測変数を通して定量化するもの。 (≒確認的因子分析) + = <フルSEMモデル> 構造モデルと測定モデルを組み合わせたもの。
  147. 練習問題 F1 友人関係 F3 抑うつ F2 家族関係 X1 X2 X3

    X4 X5 X6 X7 X8 d1 e1 e2 e3 e4 e5 e6 e7 e8 e1~e8, d1 : 誤差変数 内生変数には、他の変数 によって説明されない成 分(残差)が仮定され、 誤差変数と呼ばれる。 Q1 潜在変数はいくつあるか。 Q2 どの変数間に、相関関係が仮定されているか。 Q3 外生変数をすべて挙げよ。 Q4 このパス図が示す、仮説モデルを説明せよ。
  148. 補足:適合度1 ⚫ 仮説モデルのもとでの分散・共分散行列と、実際の分散・共分散行列のズレを評価 指標 説明 範囲 良好 悪い χ2値 因果モデル全体が正し

    いかどうかの指標。 χ2≧0 有意でなければ OK p>0.05 SRMR モデルとのズレの残差 に関する指標。 SRMR≧0 .08以下(良い) .10以下(許容) 0.1以上 RMSEA モデルの分布と真の分 布の乖離を1自由度あ たりの量として表現し た指標。 RMSEA≧ 0 0.05未満 0.1以上 AIC 複数のモデルを比較す る際に、モデルの相対 的な良さを評価する指 標。 - 想定的に低いほど、予測力 の高いモデル BIC 表1 小さい方が良い指標
  149. 補足:適合度2 ⚫ 仮説モデルのもとでの分散・共分散行列と、実際の分散・共分散行列のズレを評価 指標 説明 範囲 良好 悪い GFI モデルの説明力の指標。

    GFI≦1 0.95以上 0.9未満 AGFI GFIの自由度を調整した 指標。 AGFI≦GF I 0.95以上 0.9未満 CFI 独立モデル(すべての 変数が無相関)を基準 とした場合のモデル適 合を評価する指標。 0~1 0.90以上 (0.95以上) 0.9未満 表2 大きい方が良い指標 ※ただし、適合度の高いモデルは、多数存在する「ありうるモデル」の中の 1つにすぎない。 →十分な理論的根拠に基づく判断が必要 ◆ 適合度が悪かったら、モデルを改善して、再度推定してみる。
  150. 構造方程式と共分散構造 X 1 友人関係 X 2 家族関係 Y 1 抑うつ

    d 1 φ 12 γ 11 γ 12 <推定したい値> パス係数=γ 11, γ 12 誤差分散(d 1 )=θ 1 分散( X 1 )=φ 11, 分散( X 2 )=φ 22 共分散(X 1, X 2 )= φ 12 γ ◯△ ◯=従属変数の番号 △=独立変数の番号 共分散の値を、両変数の標準偏差の積で 割って標準化したものが相関係数 *パス係数 回帰分析における回帰係数(or偏回帰 係数)と数学的に同一。独立変数が1 単位上昇したときの充足変数の変化の 期待値を意味する。 方程式(構造方程式)で表すと・・・ 𝑌1 = 𝛾11 𝑋1 + 𝛾12 𝑋2 + 𝑑1 <得られている値> 観測変数=X 1 , X 2 , Y 1 X 1 X 2 Y 1 X 1 φ 11 X 2 φ 12 φ 22 Y 1 𝛾11 𝜑11 + 𝛾12 𝜑22 𝛾11 𝜑12 + 𝛾12 𝜑22 𝛾2 11 𝜑11 + 2𝛾11 𝛾12 𝜑12 + 𝛾2 12 𝜑22 + 𝜃1 構造モデルの共分散構造 ←対角成分は、分散 その他の成分は、共分散 6個のパラメータ
  151. 具体例(構造モデル) X 1 X 2 Y 1 X 1 1.526

    X 2 0.912 3.225 Y 1 1.666 2.310 9.749 サンプルの分散・共分散行列 φ 11 = 1.526 φ 12 = 0.912 φ 22 = 3.225 𝛾11 𝜑11 + 𝛾12 𝜑22 = 1.666 𝛾11 𝜑12 + 𝛾12 𝜑22 = 2.310 𝛾2 11 𝜑11 + 2𝛾11 𝛾12 𝜑12 + 𝛾2 12 𝜑22 + 𝜃1 = 9.749 6個の連立方程式から、 残りのパラメータを算出 𝛾12 = 0.490 𝛾11 = 0.799 𝜃1 = 7.286 自由度=連立方程式の数- 推定されるパラメータの数 が、0以上でないと推定できない。
  152. 測定方程式と共分散構造 <推定したい値> 負荷量=λ 11~ λ 41 誤差分散(d 1 )=θ 1

    分散( e )=θ 1 ~ θ 4 *分散( F 1 )=φ 1, 方程式(測定方程式)で表すと・・・ 𝑋1 = 𝜆11 𝐹1 + 𝑒1 <得られている値> 観測変数=X 1 , ~ X 4 X 1 X 2 X 3 X 4 X 1 𝜆2 11 𝜑1 + 𝜃1 X 2 𝜆11 𝜆21 𝜑1 𝜆2 21 𝜑1 + 𝜃2 X 3 𝜆11 𝜆31 𝜑1 𝜆21 𝜆31 𝜑1 𝜆2 31 𝜑1 + 𝜃3 X 4 𝜆11 𝜆41 𝜑1 𝜆21 𝜆41 𝜑1 𝜆31 𝜆41 𝜑1 𝜆2 41 𝜑1 + 𝜃4 表 測定モデルの共分散構造 10個のパラメータ F 1 X 1 X 2 X 3 X 4 e 1 e 2 e 3 e 4 𝑋2 = 𝜆21 𝐹1 + 𝑒2 𝑋3 = 𝜆31 𝐹1 + 𝑒3 𝑋4 = 𝜆41 𝐹1 + 𝑒4 𝜆11 𝜆21 𝜆31 𝜆41 ↑どんな値も取りうるから厄介
  153. 補足:lavaan記法の基礎 ◼ lavaan記法の基礎 メタ認知 学力 朝食 成績 CT Q1 Q5

    Q7 model=" CT=~Q1+Q5+Q7 " model=" 学力~メタ認知 " model=" 朝食~~成績 "
  154. 確認的因子分析1 # 確認的因子分析 ------- library(lavaan) model1=" F1=~CT1+CT2+CT3+CT4+CT5+CT6+CT7 " fit1 <-

    cfa(model1, data=dat1[,16:22]) #確認的因子分析 summary(fit1, standardized=T, fit.measures=T) modificationIndices(fit1, minimum.value = 100) #修正指標 ⚫ 構造方程式モデリングの枠組みで、確認的因子分析を行う。 ML=最尤法で推定 250人のデータ ←標準化した係数=T 適合度表示=T
  155. 報告例2(確認的因子分析) 3つの因子構造モデルおよび神山・藤原(1991)による1因子モデルについ て、確認的因子分析(CFA)による比較を行うことにした。4つのモデルにおけ る適合度指標および情報量基準を表に示す。 指標 4因子モデル 2因子モデル 修正版2因子モデル 1因子モデル (神山・藤原,1991)

    CFI 0.83 0.83 0.98 0.63 TLI 0.80 0.80 0.98 0.57 RMSEA [90%CI] (p値※) 0.09 [0.08, 0.10] (0.00) 0.10 [0.08, 0.11] (0.00) 0.03 [0.00, 0.07] (0.72) 0.13 [0.11, 0.15] (0.00) SRMR 0.08 0.08 0.05 0.10 AIC 6544.02 5877.17 4168.24 5422.28 BIC 6523.04 5971.37 4235.52 5503.02 表 適合度指標および情報量基準 良好な適合度指標値の範囲として小島(2005)は、「CFI≧0.95、RMSEA <0.05、SRMR<0.05」という基準を提案している。小島(2005)による提 案に基づき表を解釈した結果、適合度が基準を満たし、相対的に予測力が高 い修正版2因子モデルを採択することにした。
  156. 構造方程式モデリング1 #構造方程式モデリング##### library(lavaan) model2=" ct=~CT1+CT2+CT3+CT4+CT5+CT6+CT7 rika_all~ct " fit2 <- sem(model

    = model2,data = dat1) summary(fit2, standardized=T, fit.measures=T) ⚫ 理科の成績を批判的思考態度で説明(予測)する。 *適合度 CFI=.993, TLI=.990, RMSEA=.026, SRMR=.032 有意 標準化係数
  157. 構造方程式モデリング2 #sem model3=" ct=~CT1+CT2+CT3+CT4+CT5+CT6+CT7 risu=~sansu1+sansu2+sansu3+rika1+rika2+rika3 risu~ct " fit3 <- sem(model

    = model3,data = dat1) summary(fit3, standardized=T, fit.measures=T) lavInspect(fit3, “rsquare”) #決定係数 #SEM図のプロット library(semPlot) semPaths(fit3, "std", rotation = 2, edge.label.cex = 1.2, style="lisrel",fade=F,theme='gray',label.cex=1.2,sizeMan = 9) ⚫ 理数能力を批判的思考態度で説明(予測)する。 *適合度 CFI=.979, TLI=.975, RMSEA=.033, SRMR=.050 理数の説明率=17.9%
  158. 補足:SEMのサンプルサイズ ✓ 結論:最低でも150、できれば200以上 • N=100~150が目安(Tinsley & Tinsley, 1987; Ding, Velicer

    & Harlow, 1995) • N=200が目安(Kline, 2005) • 確認的因子分析では、N=150が合理的(Muthen & Muthen, 2002) • 多母集団分析では、各集団につき100のケースが必要(Kline,2005) • 観測変数の10倍のデータが最低限必要(Nunnally, 1967) • 自由パラメータの10~20倍(Kline, 1998)