Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ReproducibiliTea material on Flake (2021)

ReproducibiliTea material on Flake (2021)

ReproducibiliTea Tokyo
2021.6.17.

Daiki Nakamura

June 17, 2021
Tweet

More Decks by Daiki Nakamura

Other Decks in Education

Transcript

  1. Strengthening the foundation of educational psychology by integrating construct validation

    into open science reform Presentation by Daiki Nakamura @ReproducibiliTea Tokyo ☕ June 17, 2021 Flake, J. K. (2021). Strengthening the foundation of educational psychology by integrating construct validation into open science reform. Educational Psychologist, 56(2), 132-141. https://doi.org/10.1080/00461520.2021.1898962 Educational Psychologist Volume 56, 2021 -Issue 2: Educational Psychology in the Open Science Era
  2. 2 About the Author Jessica K. Flake 2010 BS in

    Psychology from Northern Kentucky University 2012 MA in Quantitative Psychology from James Madison University 2015 PhD in Measurement, Evaluation, and Assessment from the University of Connecticut 2015- Postdoctoral researcher in quantitative psychology at York University and educational psychology at the University of Virginia. 2018 Started lab in the Quantitative Psychology area of the Department of Psychology at McGill University • Assistant Director for Methods at the Psychological Science Accelerator • Member of the Technical Advisory Panel of the Enrollment Management Association 研究テーマは、教育心理学や社会心理学の研究に用いる潜在変数モデルの開発と応用、 心理学における測定方法の改善。 @JkayFlake https://www.jessicakayflake.com/
  3. Introduction 3 ⚫ 再現性の危機とこれまでの改革の取り組み • 多くの分野で再現性の危機が問題視される(Baker, 2016) • 心理学における再現性に関する議論(Gilbert et

    al., 2016; Open Science Collaboration, 2015) • プレレジの推進(Nosek et al., 2018, “The preregistration revolution”) • 研究方法論や研究慣習の改革が進行中 ⚫ この論文で扱う2つの問題点 1. 測定における透明性と厳密性の不足 2. 1.に起因する追試の困難さ
  4. Methodological reform and open science movement 4 1. Increasing analytic

    transparency and direct replication research ⚫ 透明性をサポートするインフラの進歩 • Open Science Framework • Research Box with AsPredicted • Society for Research on Educational Effectiveness • Inter-university Consortium for Political and Social Research ⚫ ジャーナルの取り組み • オープンサイエンス・バッジ • レジレポ(registered report) ⚫ 研究者の取り組み • 年々、多くの研究者がプレレジ(preregistration)を実施するように ⚫ 直接的追試 • ManyLabsプロジェクト(e.g., Ebersole et al., 2020) • Psychological Science Accelerator(Moshontz et al., 2018) • レジレポ+直接的追試を受け入れているジャーナルの例 ➢ Advances in Methods and Practices in Psychological Science
  5. Methodological reform and open science movement 5 2. Extending analytic

    transparency and direct replication to measurement ⚫ 透明性を高めるための改革の多くは、統計やデータ分析の実践に焦点を当ててきた (Shrout & Rodgers, 2018) • 問題のある実践と対策 ➢ p-hacking, QRPs, researcher degrees of freedom, exploring the garden of forking paths ✓ プレレジやレジレポといった対策。公表されていない分析上の柔軟性を制約。 ⚫ 妥当な結論を支える研究プロセスの階層 • Foundation のところに問題があれば、結論の妥当性も損ねる ➢ Research Design: 実験操作の失敗 ➢ Measurement: invalid な測定 ➢ Substantive Theory: 理論的に重要な交絡因子を省略 • このような問題は、分析方法を事前に登録するだけでは解消 されない • Open science や methodological reform とあわせて、 測定プロセスの透明性の問題にも取り組むべき (Flake & Fried, 2020; Slaney, 2017)
  6. The first problem: Transparency of measure development and use 6

    1. Construct validity: A primer • 教育心理学者が研究したい対象は直接観測できないことが多い →構成概念(e.g., Motivation) • Construct validation: 得られたスコアの解釈を裏付ける証拠を集める ✓ 内容的な側面: 専門家による項目内容の吟味(明確性、関連性、代表性など) ✓ 本質的な側面: 発話思考法、反応時間 ✓ 構造的な側面: 因子分析 ✓ 一般化可能性: 信頼性分析 ✓ 外的な側面 : 他の構成要素との関連性、予測力 • 構成概念妥当性の検証は継続的なプロセス • ある年に英語圏の大学でモチベーション測定法を確立したとしても、5年後にオランダの 中学校でその測定法が妥当だとは限らない(i.e., measurement invariance) • 構成概念妥当性を検証し尺度を開発する方法論、ツール、理論は十分に足りている。 問題なのは、測定プロセスの透明性が不足していること。 →本当に? • 透明性を高めるための改革を測定プロセスにも拡大する必要がある • 測定に関するリーディングリスト by Eiko Fried https://osf.io/zrkd4/
  7. The first problem: Transparency of measure development and use 7

    2. How do researchers know there is a problem with transparency in measurement? • 多くの分野で、妥当性の証拠を示すことなく尺度を使用することが常態化している ➢ Social Psychology (Flake et al., 2017), Health Education (Barry et al., 2014), Emotions (Weidman et al., 2017) • 尺度の柔軟な使用や改変も行われている(Barry et al., 2014; Flake et al., 2017; Weidman et al., 2017) • 約10%から30%の尺度が改変して使用されていると推定される • そこには妥当性の証拠が示されていない • “casual scale usage” (Weidman et al., 2017)
  8. The first problem: Transparency of measure development and use 8

    3. Why is a lack of transparency a problem? • 妥当性を裏付ける証拠が報告されないことで、測定値の解釈や使用の有効性を評価する ことができなくなる • ジングル・ジャングル誤謬(Jingle-jangle fallacies)の問題が発生 ➢ ジングル誤謬:2つの異なるものが、同じ名前を持つために同じであると判断する誤り ➢ ジャングル誤謬:2つの同一のものが、異なるラベルを付けられているために異なる と判断する誤り(e.g., Crede et al., 2017, Grit ⇔ Conscientiousnes) • 研究に合わせて既存の尺度を組み合わせたり分解したりして使用される(e.g., Orden & Przybylski, 2019) → “measurement morass”(測定沼) • 構成概念に対する知見の蓄積をや理論的な連続性に疑問を投げかける • 将来的なメタ分析による統合を制限している(cf. Apples and oranges problem) ⚫ 著者が査読で経験した測定に関する透明性の欠如 • 同じ構成概念の研究で、測定法が変更される • 項目の除去や追加が行われる • 類似した構成概念を組み合わせたり作成したりする自由度が無限にある ◆ Questionable Measurement Practices (QMPs: Flake & Fried, 2020) • QMPsは構成概念妥当性の検証プロセスを妨げ、研究の再現を難しくする
  9. The second problem: A lack of construct validity evidence stymies

    replication research 9 ⚫ 大規模追試プロジェクトの例 • The Reproducibility Project: Psychology (RPP: Open Science Collaboration, 2015) • ManyLabs 2 (ML2: Klein et al., 2014) ⚫ オリジナルの研究における測定法の透明性と妥当性の証拠の欠如は、再現研究にどの ように影響するか? • オリジナルの研究のQMPsは、関連する再現研究に引き継がれる • 追試において妥当性を支持する結果が得られない →追試におけるスコアの使用と解釈が困難 • オリジナルの研究で報告されていないだけで、本当は妥当性の証拠があるのか? • オリジナルの研究で妥当性の証拠が限られていた測定法は、再現研究で良い心理測定 特性を示さなかった(Shaw et al., 2020) ⚫ 追試において、なぜ測定が問題になるのか • 追試研究では、測りたいものが正しく測れていることを暗黙の前提としている • しかし、測定の妥当性が担保されなければ、追試研究で得られた効果の意味が曖昧に なってしまう • 信頼性の低い変数が測定された追試で再現に失敗した場合、それは理論が誤っていた のか真の効果を検出できなかったのかが不明
  10. Solutions for educational psychologists to consider 10 ⚫ Solution one:

    Listen to the meta-science and do more of it • メタ研究に取り組み、教育心理学における測定方法を考え直そう • メタ研究の実施と出版を支援していこう • Campbell Collaboration では、方法論研究のシステマティックレビューに資金を 提供している。 • Advances in Methods and Practices in Psychological Science では、メタ研究の 重要性が明記されている ⚫ Solution two: Use transparency to eliminate QRPs and QMPs • 研究者、査読者、編集者がQMPsを明確に認識し、その防止に努めることで、 測定結果に疑問が残らないようにする • Flake & Fried(2020)によるQMPの質問リスト 1. 構成概念は何か、どのように定義されているか? 2. どのように運用されているか? 3. なぜその測定法が選ばれたのか? 4. その測定法はどのようにして定量化されたか? 5. その測定法は修正されましたか。修正された場合、その方法は? 6. 測定法はその場で作られたものですか? • 測定においてどのような決定がなされたかを明確に報告していこう
  11. Solutions for educational psychologists to consider 11 ⚫ Solution three:

    Plan replication research with measurement in mind • 追試対象の研究では、使用された測定法の厳密な妥当性の証拠が無いことが多い • 追試研究の中に妥当性の検証を加える必要性 • 構成概念の妥当性の証拠が乏しい測定法を使用すると、その証拠の乏しさが追試結果と交絡 • 追試プロセスの一環として継続的に構成概念の妥当性を検証することで、測定法が持つ妥当性の 脅威を取り除くことができる • 大規模な追試プロジェクトでは、翻訳や研究手順に関する問題が発生し得る • 追試プロジェクトの最初の段階で測定値の妥当性の証拠を集め、報告書に構成概念の妥当性のセ クションを設ける • 妥当性が認められなかった場合でも、測定法に関する重要な知識が得られ、再現可能なものと不 可能なものを理解するという大きな目標が達成されたことになる
  12. そもそも、構成概念って何なのさ 仲嶺先生のBlogより 14 ◆ 心理学的構成概念の起源について ⚫ バートランド・ラッセル(Russell, 1917)「論理的構成」 ➢ 「ある現象(群)に関して定式化された(=構成された)(一連の)見解」

    ➢ あくまで論理的に構成された「虚構」 ⚫ MacCorqudal & Meehl(1948)介入変数と仮説的構成概念の区別 • 介入変数:刺激と反応とを媒介する関数。観察不可能な原因/相関である理論的概念 • 仮説的構成概念:実在するが現在は観測不可能な仮説的な実体 ⚫ APA(1954)”Technical recommendations” 「構成概念妥当性」 • テストパフォーマンスに反映される「特性あるいは特質」 • 観測変数の集合を要約するために使用される「理論的な構成物」 ⚫ Cronbach & Meehl(1955)「構成概念」 1. 心理学研究において研究される実在するが観察できない対象 2. 観測対象の潜在的な大きな集合を要約し,研究者コミュニティ内のメンバー同士で のコミュニケーションを容易にするための機能を果たす理論的直観(ヒューリス ティック) 3. 焦点となっている現象(=研究対象)についての知識群の現状 https://shinchology.net/2021/05/16/psychological-constructs-origin/ ◼ このような内容がいびつに絡み合ったまま、現代の(心理学的な)構成概念の使用にいきつき、 概念的な混乱を助長する原因にもなっている