Upgrade to Pro — share decks privately, control downloads, hide ads and more …

教育研究におけるQRPsの実態と解決策

Daiki Nakamura
September 12, 2021

 教育研究におけるQRPsの実態と解決策

外国語教育研究の再現可能性2021
オンライン開催
2021年9月12日

Daiki Nakamura

September 12, 2021
Tweet

More Decks by Daiki Nakamura

Other Decks in Education

Transcript

  1. 自己紹介 2 中村 大輝(Daiki Nakamura) ◼ 所属 広島大学大学院 教育学研究科 博士課程後期

    D3 ◼ 専門 科学教育、理科教育、教育心理学 ◼ 研究テーマ 科学的思考力、教育測定、メタ分析、研究方法論 ◼ 論文 • 中村大輝・田村智哉・小林誠…・松浦拓也(2020)「理科における授業実践の効果に関するメタ 分析-教育センターの実践報告を対象として-」『科学教育研究』44(4), 215-233. 10.14935/jssej.44.215 • 中村大輝・雲財寛・松浦拓也(2021)「理科における認知欲求尺度の再構成および項目反応理論 に基づく検討」『科学教育研究』45(2), 215-233. 10.14935/jssej.45.215 • 中村大輝・原田勇希・久坂哲也・雲財寛・松浦拓也(2021)「理科教育学における再現性の危機 とその原因」『理科教育学研究』62(1), 3-22. 10.11639/sjst.sp20016 #Twitter @d_nakamuran #E-mail [email protected] #HP https://researchmap. jp/daikin/
  2. 再生性、頑健性、再現性の区別 5 ◼ 再生性(Reproducibility) 同じデータと同じ分析方法を用いて、 事前に得られた知見の信頼性を検証する(再解析) ◼ 再現性(Replicability) 異なるデータ、同じ分析方法を用いて、 過去に得られた知見の信頼性を検証する(追試)

    ◼ 頑健性(Robustness) 同じデータ、異なる分析方法を用いて、 過去に得られた知見の信頼性を検証する(探索) ⚫ 3つの用語の定義(National Academies of Sciences, 2019) ▼ 再生性の危機 データやコードが手に入らず、 分析が再現できない。再解析する と、論文と結果が異なる。 ▼ 頑健性の危機 含める変数や共変量によって結果 が変わる。 ▼ 再現性の危機 過去の研究知見と結果が異なる。
  3. 再生性(Reproducibility) 6 ⚫ 再生性テストが失敗する理由 1. 手続きの再生の失敗 データ、コード、コードを再現するための分析に関する情報、必要なソフトウェアやツールが 入手できない、元の分析を繰り返すことができない場合 →単に検証できないことを示している 2.

    結果の再生の失敗 再解析の結果、当初報告されたものとは異なる結果が得られた場合 →元の結果が間違っている可能性を示唆 ⚫ 再生性をテストする多くの取り組み (Bakker & Wicherts, 2011; Hardwicke et al., 2018, 2021; Maassen et al., 2020; Nuijten et al., 2016 ) ➢ Artner et al.(2020): 232件の知見のうち、70%しか再生に成功していない ⚫ 再生性を向上させるための取り組み • データとコードを共有(Hardwicke et al., 2018, 2021; Kidwell et al., 2016; Wicherts et al., 2011) • データやコードの可読性を高める(Wickham, 2014) ⚫ 前提 同じデータに同じ分析を適用すれば、同じ結果が再現されるはず →原則として、報告されたすべてのエビデンスは再生可能であるべき
  4. 頑健性(Robustness) 7 ⚫ 頑健性が低い研究 • どの変数や共変量を含めるかの決定によって結果が左右されるような脆弱な研究が存在 ◼ Silberzahn et al.(2018)

    • 29の分析チームに同じ問い・データを与えたところ、 分析結果にかなりのばらつきがあった →条件設定によって結果が変わる脆弱さ • 分析計画に事前に登録していない場合、p-hacking や overfitting に関する懸念を 増幅させる可能性がある(Simonsohn et al., 2020; Steegen et al., 2016) Cf. Specification curve analysis (Masur, 2020; Simonsohn et al., 2020)
  5. 再現性(Replicability) 8 ⚫ 前提 • 科学的知見の信頼性は、裏付けとなる証拠の再現性にも左右される。 • 再現性は科学的な発見の必須条件(Schmidt, 2009) ⚫

    再現性の検証 • 同じ研究を再度行い、同じ結果が得られるかどうかを確認すること • 何をもって「同じ研究」や「同じ結果」とするかを決めるのは容易ではない ⚫ どうやって同じ研究をするのか? • 類似した研究デザインであっても、サンプル、設定、介入法など、無数の違い がある(Shadish et al., 2002) • 追試を理論的なコミットメントとして理解する(Nosek & Errington, 2020; Zwaan et al., 2018) • 元の研究との無数の違いが、同じ知見に関する証拠を得るためには無関係である と理論的に考えられる場合、その研究は追試だと言える • この枠組みを適用するならば、直接的/概念的な追試の区別は不要(Machery, 2020; Nosek & Errington, 2020)
  6. 再現性の評価 9 ⚫ 同じ結果が得られたかを、どのように判断するか ◼ 二項対立的な評価(問題あり) • 追試が元の研究と同じ方向に帰無仮説(p<0.05)を棄却するか(Camerer et al.2018;

    Open Science Collaboration, 2015) • 元の研究または追試の知見の信頼区間or予測区間を計算し、 他の推定値が区間内にあるか(Open Science Collaboration, 2015; Patil et al, 2016) • 追試結果が元の研究で検出できたであろう効果量と一致するか(Simonsohn, 2015) • 知見が類似しているか(Open Science Collaboration, 2015) ◼ 連続的な尺度による評価 • オリジナルと追試の知見を比較するベイズファクター(Etz & Vandekerckhove, 2016) • オリジナル研究のヌル分布と事後分布のベイズ的な比較(Verhagen & Wagenmakers, 2014) →結局、二項対立的な判断に変換されてしまう ◼ より成熟した評価方法 • 個々の研究に重点を置くのではなく、メタ分析によって研究を統合することで、効果の 大きさや累積的な証拠に重点を置くようになる(Mathur & VanderWeele, 2020) • 異質性が高い場合、不確実性のある領域として更なる追試が行われていく ➢ 証拠の追加→統合→理解の補強・再構成 のサイクルを繰り返す営み
  7. 再現性の危機(Replicability Crisis) 11 52% 大いに危機的 状況にある 38% やや危機的 状況にある 3%

    危機的状況 にはない 1576人 の研究者が回答 7% 分からない ⚫ Baker(2016) Nature ダイジェスト Vol. 13 No. 8 doi: 10.1038/ndigest.2016.160822 を基に作成 ⚫ Makel & Plucker(2014) ⚫ Gordon et al.(2020) 教育分野の高IF雑誌に掲載の追試論文を分析 ・再現に成功した追試 → 70% ・異なる著者が追試した場合 → 54% 「再現性の危機はありますか?」 教育分野の 再現成功率は 42% と予測されている Fig.1 (b)
  8. 再現性の危機の原因 12 1. 問題のある研究実践(Questionable research practices, QRPs) • p-hacking :

    サンプルの不正な追加・除去によって有意にする • cherry picking : 有意になった項目だけ報告 • 誤った多重比較 : 補正のない検定の繰り返し →危険率αのインフレ • HARKing : 結果が分かった後で仮説を設定 • 偏った成果報告 : 有意であった場合のみ成果報告 →出版バイアス ⚫ Makel, Hodges, Cook, & Plucker(2021) 1488名の教育学者を対象にQRPsやデータ公開の経験を調査 • 有意にならなかった研究や変数を報告しなかった経験がある → 61.69% • 有意な結果が得られるよう複数の統計分析法を試した経験がある → 49.75% • データをオンラインでオープンに公開したことがある → 45.61% • コードやマテリアルをオンラインでオープンに公開したことがある → 58.94% 2. 透明性の低さ 多くの論文で研究の生データが公開されておらず,著者に問い合わせてもデータ提供が拒否され ることが多い(Minocher et al., 2020; Wicherts et al., 2006)→研究手続きの適切さが検証できない。 QRPs オープン サイエンス
  9. 国内の理科教育分野におけるQRPsの調査 14 中村大輝・原田勇希・久坂哲也・雲財寛・松浦拓也(2021)「理科教育学における再現性の危機とその原因」 『理科教育学研究』62(1), 3-22. 10.11639/sjst.sp20016 研究仮説 サンプ リング 測定

    量的分析 報告 統計的 推論 妥当性の確認不足 母集団の未定義 出版バイアス p-hacking 検定力不足 HARKing 過度の一般化 記載情報の不足 理科教育学研究 h5-index は 8点 国内の教育系で3位 国内の理科教育系で1位 → 過去4年間の論文のQRPsを調査 ⚫ 検証的研究の過程とQRPs ◼ 調査対象誌
  10. HARKing 15 ⚫ HARKing : 結果が分かった後で仮説を設定 CHARKing(C: Constructing):結果が分かった後で、仮説を設定する RHARKing(R: Retrieving)

    :結果が分かった後で、先行研究を探索し、仮説を構成する SHARKing(S: Suppressing):結果が分かった後で、不都合な仮説を考えていなかったことにする ◼ HARKingの種類(Rubin, 2017) ⚫ 対象誌においてHARKingが疑われる事例 • HARKingは再現性を低下させる要因となり得る(Walleczek & von Stillfried, 2019) • 複数の検定を試して有意になった結果を選び、はじめから考えていた仮説として論文に記 載した場合、実際の危険率αは検定を繰り返した分だけ増大しているので、第一種の過誤 を犯す確率を読者が誤認することになる ◼ 西村(2018)視点移動能力に関する実践研究 ➢ 授業実践日:2015年2月 ➢ 論文投稿日:2017年8月 ➢ 論文受理日:2018年2月 • 論文中では、栗原ら(2016)に基づき授業を設計した と述べられている → CHARKing や RHARKing が疑われる 研究仮説 HARKing Illustration by Dirk-Jan Hoek, CC-BY.
  11. 母集団の未定義と過度の一般化 16 ⚫ 母集団の未定義 ⚫ 過度の一般化 ✓ 無作為抽出(random sampling) :

    0件 ✓ 有意抽出(purposive selection) :76件 • 無作為抽出でないと、標本誤差の推定や確率モデルの適用ができないのでは? ➢ 得られたサンプルから母集団を仮定し、便宜的な無作為抽出とみなすことで、 統計的推測の理論を適用し、より妥当な結論の導出を目指す(南風原,2002) ➢ 実際のサンプルから結果を一般化しても無理のないと思われる母集団を限定す る作業が必要となる(南風原,2002; Tipton & Olsen, 2018) ◼ 対象誌において、調査対象者の特徴を述べていた研究は35件(46.1%) ◼ 66本の授業実践研究のうち、授業実施者の特徴を述べていた研究は7件(10.6%) • 得られた結論を一般化できるのは定義された母集団においてのみであり、結論の 過度な一般化は結果の再現性を低下させる要因となる • すべての一次研究で、母集団と一般化可能性の制約に関する記述(constraints on generality statement)を明記する必要がある(Simons et al., 2017) ◼ 対象誌において、一般化可能性の制約に言及していた研究は33件(43.4%) サンプ リング 母集団の未定義 統計的 推論 過度の一般化
  12. 妥当性の確認不足 17 構成概念 妥当性 内容的な側面の証拠 測定指標が構成概念を十分に代表しているか。旧来 の内容的妥当性もここに含まれる。 本質的な側面の証拠 測定指標(反応時間など)への反応プロセスが心理 学的に説明できるか。

    構造的な側面の証拠 測定指標の内的な構造(因子構造など)が仮説・理 論に合致しているか。 一般化可能性の側面の証拠 測定結果が他の実施時期,被験者集団,項目セットな どに一般化できるか。旧来の信頼性の概念も含む。 外的な側面の証拠 外的変数との間に,理論から予測されるパターンの 関係がみられるか。旧来の基準連関妥当性も含む。 ・ ・ ◼ 検討した側面の数 43 15 5 8 3 2 0 20 40 60 0 1 2 3 4 5 側面 検討 未検討 内容的な側面 31 (40.79%) 45 (59.21%) 本質的な側面 4 (5.26%) 72 (94.74%) 構造的な側面 14 (18.42%) 62 (81.58%) 一般化可能性の側面 17 (22.37%) 59 (77.63%) 外的な側面 5 (6.58%) 71 (93.42%) 検討数 論文数 測定 妥当性の確認不足 ◼ 側面別の集計結果(n=76) ⚫ 構成概念妥当性の証拠(Messick, 1995; 村山,2012) ⚫ 妥当性と妥当化 妥当性(validity):測りたいものが測れているかどうか(Borsboom et al., 2004) 妥当化(validation):得点の解釈に必要な証拠を集める(Messick, 1995)
  13. p-hacking・検定力 18 量的分析 p-hacking 検定力不足 [真実] 帰無仮説が正しい 対立仮説が正しい 検定の結果 帰

    無 仮 説 を 棄 却 しない (n.s.) 正しい (1 − 𝛼) 第2種の 過誤(𝛽) 帰 無 仮 説 を 棄 却 する (p < .05) 第1種の 過誤(𝜶) 正しい (𝟏 − 𝜷) ⚫ 帰無仮説検定と2種類の過誤 ◼ 対象誌の p-curve ◼ 問題のある多重比較 ◼ 検定力の分布 2 3 2 0 1 2 1 3 4 19 0 5 10 15 20 25 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 階級 階級値 度数 ത 𝛼 2~4 3 6 0.14 5~7 6 3 0.26 8~10 9 6 0.37 11~13 12 3 0.46 14~16 15 2 0.54 17~19 18 0 0.60 20~22 21 1 0.66 ത 𝛼 = 1 − 1 − 𝛼 𝑛 ➢ 多項目検定の多重性の問題が多い ➢ 検定力の不足した研究も多い 平均値 0.745 中央値 0.914
  14. 再現性の向上に向けた取り組み 20 ⚫ 科学教育分野で優先的に取り組むべき内容(中村ら,2021; Taylor et al., 2016) 1. 追試の積極的な実施

    2. 適切な研究方法の普及 3. 事前登録制度の導入 4. オープンサイエンスの推進 ◼ 研究手法の強度を高める 観察回数を増やす、適切な操作、妥当性検証 ◼ 誤った発見を減らす より厳しい推論基準、事前登録と透明性の確保(p-hacking、HARKing、選択的報告に対する予防)、 頑健性の確認、クロスバリデーション ◼ 報告事項 証拠に対応した結論、一般化可能性の制約、 データの事前観察やオーバーフィッティングの影響可能性 ◼ 研究プロセスの透明性 方法・材料・手順・データの共有、 意思決定や分析におけるデータ依存性・隠れた知識・利益相反の明示 ◼ 構造的な転換 より厳密な研究手法を報酬・評価システムに組み込む、査読付き事前登録制度、敵対的な共同研究、 問題点を発見して公表する人たちの仕事を支援、「出版されること」よりも「正しいことをすること」に価値を置く文化 ⚫ 再現性向上に向けて取り組むべきこと( Nosek et al., 2021 )
  15. 教育研究のガイドラインとオープンサイエンスの推進 23 ⚫ NSF & IES (2018) “Companion Guidelines on

    Replication & Reproducibility in Education Research” (訳:教育研究における複製可能性と再現可能性の共通ガイドライン) B-9:同意書と治験審査委員会(IRB)の承認書には、可能な限り、 将来のデータ公開に言及し、被験者のプライバシーを保護するた めの条件を明記すべきである。 ⚫ 研究データマネジメントについて(日本学術振興会,2021) 令和6(2024)年度の科研費以降、採択された研究課題の研究代表者に対し、 交付申請時に、当該研究課題における研究成果や研究データの保存・管理等 に関するデータマネジメントプラン(DMP)の提出を求める予定 ⚫ 公的資金による研究データの管理・利活用に関する基本的な考え方(統合イノベーション戦略推進会議,2021) 公的資金による論文のエビデンスとしての研究データは原則公開とし、 その他研究開発の成果としての研究データについても可能な範囲で公開することが望ましい。
  16. まとめ 24 研究仮説 サンプ リング 測定 量的分析 報告 統計的 推論

    妥当性の確認不足 母集団の未定義 出版バイアス p-hacking 検定力不足 HARKing 過度の一般化 記載情報の不足 ◼ 再現性向上に向けた取り組み 1. 追試の積極的な実施 2. 適切な研究方法の普及 3. 事前登録制度の導入 4. オープンサイエンスの推進 ◼ 再現性(Replicability)とは? 異なるデータ、同じ分析方法を用いて、 過去に得られた知見の信頼性を検証する(追試) ▼ 再現性の危機 過去の研究知見と結果が異なる。 教育分野の研究は半数程度しか再現できない (Makel & Plucker, 2014) ◼ 再現性の危機の原因 • 問題のある研究実践(QRPs) • 透明性の低い研究 • 分析の自由度(Garden of forking paths) • その他
  17. 理論の危機(theory crisis) 26 ⚫ 理論の基盤が揺らいでいる(Eronen & Bringmann, 2021) • 理論の質の低さの問題(e.g.,

    Fiedler, 2017; van Rooij, 2019) • 再現性の危機よりももっと根本的な「理論の危機」に直面している • 単に統計的な手法や習慣を改善するだけではなく、 よりよい理論の開発に焦点を移すべき ⚫ Paul Meehl によるかつての指摘(Meehl, 1967, 1978, 1990) • 心理学者は新しい理論を開発するのが好きだが、理論の累積的な進歩をもたら すのではない • 理論は決定的に反論されることもなく、確立された知識として受け入れられる こともなく、放棄されるか忘れ去られるまで漂っている ⚫ ABC of Behavior Change Theories(Michie et al., 2014) • 心理学の行動変容分野における83の理論が掲載 • 普遍的に受け入れられたり、決定的に反論されたりするものは1つもない ⚫ 理論の危機(theory crisis)の特集号 Perspectives on Psychological Science. Volume 16 Issue 4, July 2021 Paul E. Meehl [1920-2003] 26 https://twitter.com/chbergma/status/928960816589746182
  18. 改竄の危機(falsification crisis) 27 ⚫ 白楽(2015):ねつ造・改ざん・盗用の位置づけ https://twitter.com/chbergma/status/928960816589746182 • データがきれいすぎる • 不自然な規則性

    • 怪しいグラフ • Photoshopで加工された画像 • おや、ここだけフォントの種類が違うぞ? • 剽窃チェックのソフトを使うと・・・
  19. 測定の危機(measurement crisis) 28 https://twitter.com/chbergma/status/928960816589746182 はたして、教育学の Golden Age はやってくるのか? ⚫ 問題のある測定法(Questionable

    Measurement Practices: QMPs) • 多くの分野で、妥当性の証拠を示すことなく尺度を使用することが常態化 ➢ Social Psychology (Flake et al., 2017) ➢ Health Education (Barry et al., 2014) ➢ Science Education (Blalock et al., 2018; 中村ら,2021) ➢ Emotions (Weidman et al., 2017) • 尺度の柔軟な使用や改変も行われている(Barry et al., 2014; Flake et al., 2017; Weidman et al., 2017) ➢ 約10%から30%の尺度が改変して使用されていると推定される ➢ そこには妥当性の証拠が示されていない ➢ “casual scale usage” (Weidman et al., 2017) • 妥当性を裏付ける証拠が報告されないことで、測定値の解釈や使用の有効性を評価する ことができなくなる(Flake, 2021) • ジングル・ジャングル誤謬(Jingle-jangle fallacies)の問題が発生 ➢ ジングル誤謬:2つの異なるものが、同じ名前を持つために同じであると判断する誤り ➢ ジャングル誤謬:2つの同一のものが、異なるラベルを付けられているために異なると判断する 誤り(e.g., Crede et al., 2017, Grit ⇔ Conscientiousnes) • 研究に合わせて既存の尺度を組み合わせたり分解したりして使用される (e.g., Orden & Przybylski, 2019) → “measurement morass”(測定沼) • 構成概念に対する知見の蓄積や理論的な連続性に疑問を投げかける • 将来的なメタ分析による統合を制限している(cf. Apples and oranges problem)
  20. 再現性問題を勉強するための資料紹介 30 ◼ おすすめの書籍 ◼ おすすめの論文 ◼ おすすめのサイト The Framework

    for Open and Reproducible Research Training (FORRT) Glossary →再現性関連の用語集 https://forrt.org/glossary/ • 池田功毅・平石界 (2016). 心理学における再現可能性危機: 問題の構造と解決策. 心理学評論, 59(1), 3-14. https://doi.org/10.24602/sjpr.59.1_3 • Nosek, B. A., Hardwicke, T. E., Moshontz, H., Allard, A., Corker, K. S., Dreber, A., … Vazire, S. (2021, February 9). Replicability, Robustness, and Reproducibility in Psychological Science. In press at the Annual Review of Psychology. https://doi.org/10.31234/osf.io/ksfvq クリス・チェインバーズ (著), 大塚 紳一郎 (翻訳)(2019) 「心理学の7つの大罪:真の科学であるために私たちがすべきこと」みすず書房.
  21. 再現性向上のためのソリューション 31 ◼ 事前登録や共有のツール • Open Science Framework(OSF; Soderberg, 2018)

    • AsPredicted ◼ 草の根コミュニティ • statcheck (Epskamp & Nuijten, 2018) • GRIM(Granularity Related Inconsistent Means; Brown & Heathers, 2017) • Society for Improving Psychological Science • Open Science Communities (Armeni et al., 2020) • National reproducibility networks (Munafò et al., 2020) • ReproducibiliTea Tokyo (@repTeaTokyo) • Japanese Community for Open and Reproducible Science ◼ 行動の可視性 • Psychological Science Accelerator (Moshontz et al., 2018) • ManyBabies (Byers-Heinlein et al, 2020) • オープンプラクティス・バッジ(Kidwell et al., 2016) ◼ 出版社、資金提供者、機関のポリシー変更 • Registered Reports(Chambers, 2019; Scheel et al., 2020) • TOP Guidelines(Nosek et al., 2015)
  22. 再現可能性の予測方法( Nosek et al., 2021 ) 32 ⚫ 再現可能性の予測方法 手間のかかる再現実験を行う前に、再現可能性を予測できれば便利だよね

    • アンケート調査(Survey):再現が成功する可能性について個人の推定値を平均化 • 構造化された調査(Elicitations):個人判断→グループで共有→再度個人判断 • 予測市場(Prediction Market):研究が再現されるかどうかお金を賭けてもらう • いずれの方法でも、予測値と観測され た再現成功率には正の相関があった (r's = 0.52 [prediction markets]、 0.48 [survey]、0.75 [elicitations]) • 論文中の統計量や本文から機械学習に よって再現成功率を予測する試みも行 われている(Altmejd et al., 2019; Yang et al., 2020)
  23. 量的研究の未来(Nosek et al., 2021 を参考に著者作成) 33 妥当な測定器の開発 適切にデザインされた実証研究 理論や問いの明確化 現象の予測と手続きの事前登録

    反証 質的研究や探索的研究による理論形成 ◼ 量的研究を支える環境 メタ分析による量的な統合 追試による知見の蓄積 確証 オープンサイエンス・プラットフォーム 追試の積極的な支援 エビデンスの確立 教育政策や実践への提言 低い異質性 一貫した結果(再現性) QRPs防止の制度的な取り組み 導出 固定 高い異質性 →理論の精緻化 (境界条件の探索) 統合 アウトリーチ活動の支援 ◼ 研究知見の蓄積とエビデンスの確立プロセス
  24. データ公開の問題点 34 ⚫ データ公開と研究倫理問題 • 個人情報に配慮した適切なデータ公開のあり方 ➢ オリジナルのデータと同様の統計的特性をもつ疑似データを生成し,それらを公開 する手法も提案されている(Nowok, Raab,

    & Dibben, 2016; Quintana, 2020) • データ公開に関する議論やガイドラインの不足 • スモールデータの集積と、将来的な統合に向けたデータ管理計画 ⚫ データの標準化 • 可読性の高い整然データ • データ規格の統一(cf. 文部科学省 教育データ標準) • 質的研究のデータの適切な公開方法に関する議論(Aguinis & Solarino, 2019; Chauvette, Schick-Makaroff, & Molzahn, 2019) ⚫ インセンティブの問題 • 公開して得られるメリットよりデメリットの方が多いように感じる? ⚫ 研究者育成の問題 • オープンサイエンスに関する指導を受けてきていない
  25. 心理学と理科教育における研究方法論改革の歴史 35 帰無仮説検定(NHST)の技術的問題 出版バイアスの指摘 心理学分野の取り組み(Fidler, 2019) 1950- 1960- 1970- より幅広いNHST批判

    検定力の低さへの批判 (by Cohen) メタ分析の登場 1980- 2010- 1990- 2000- NHST論争の収束宣言(by Paul Meehl) 検定力は依然として改善せず 編集委員会の小規模な改革 APA Task Force on Statistical Inference (TFSI) TFSIの成果に基づき APA Publication Manual 改訂 有意でない論文の掲載 ベイズ統計の興隆 再現性やオープンサイエンスに関するプロジェクト プレレジ等の取り組み 理科教育分野の取り組み メタ分析の積極的な実施 質的アプローチが主流になる 項目反応理論の導入(e.g., TIMSS1995) デザイン実験アプローチ 国際大規模調査の拡大(e.g., PISA) 混合研究法の普及 ラッシュモデルの普及 サンプリングに関する議論(cRCT) マルチレベルモデル 測定領域の拡大(e.g., 知識、思考、態度) 臨床面接法 サンプルサイズの増加(2桁→3桁) 古典的テスト理論に基づく学力測定 カリキュラム目標に対応した到達度測定
  26. 理論の制約条件としての現象 36 十分な制約を与えるに足るロバスト な現象に関する知識がない 自然科学 教育学・心理学 △ 理論と現象の関係 理論 →

    現象 現象 → 理論 説明 予測 〇 〇 制約 限定 △ 理論が非常に曖昧に定式化されてい るため、現象に関する正確な予測が できない(e.g., Oberauer & Lewandowsky, 2019) ★進化論の例 ダーウィンの膨大な観察に基づく証拠とロバスト な現象が存在(特定の観察方法に依存せず、複数 の方法で検証可能) このような現象の存在が、採択可能な理論空間に 強い制約を与えていた ★天体の運動に関する例 何世紀にもわたる天体の動きのパターンに関する データが、理論生成に強い制約を与えていた データ量は増えているものの、質的に問題のある ものが多く、生物学や物理学に匹敵するような強 固な現象の大規模な蓄積がない 教育学・心理学の多くの領域では、理論に強い制 約を与えるようなロバストな現象が幅広く存在し ていない このように考えると,頑健な現象が比較的少ない 当該分野で理論的な進歩がほとんど見られないの は当然のこと ◼ Eronen & Bringmann (2021) をもとに整理