Upgrade to Pro — share decks privately, control downloads, hide ads and more …

測定の妥当性を検証するアプローチの明確化

4e437713540d4a32369b9c9f1b624e9c?s=47 Nakamura Daiki
September 19, 2021

 測定の妥当性を検証するアプローチの明確化

2021年9月19日
日本理科教育学会全国大会
課題研究発表8

4e437713540d4a32369b9c9f1b624e9c?s=128

Nakamura Daiki

September 19, 2021
Tweet

Transcript

  1. 測定の妥当性を検証するアプローチの明確化 1 中村 大輝 (広島大学大学院) 2021年9月19日 理科教育学会全国大会 課題研究発表8

  2. 教育測定とは何か 2 ◼ 教育測定 教育の効果を数量的、客観的に測定すること → 個人の感覚に依存しない → 同一尺度上での比較が可能 ⚫

    観測可能なもの 人間 機器 観察 面接 質問紙 テスト ⚫ 得られた得点 数量化 ◼ 私たちが測りたいもの • 知識、理解、技能、思考力、態度など… → 直接観測できるものではない → 観測可能なものから観測できない学力を 間接的に測定する ID 学年 番号 Q1 Q2 Q3 1 5 1 43.2 50.8 46.8 2 5 2 41.8 51.2 48.0 3 5 3 64.1 69.5 58.2 4 5 4 69.4 72.6 67.7 5 5 5 50.1 54.0 54.8 ➢ 測りたいものは測れているか? ➢ 得られた得点をどう解釈すればよいか?
  3. 妥当性とは何か 3 ⚫ 妥当性と妥当化 • 妥当性(validity):測りたいものが測れているかどうか(Borsboom et al., 2004) •

    妥当化(validation):得点の解釈に必要な証拠を集める(Messick, 1995) 構成概念 妥当性 内容的な側面の証拠 本質的な側面の証拠 構造的な側面の証拠 一般化可能性の側面の証拠 外的な側面の証拠 ⚫ 妥当性の証拠(Messick, 1995; 村山,2012) 項目の内容が目的とした領域を十分に代表しているかの証拠 項目への反応プロセスに関する理論的・実証的証拠 項目間の関係が理論的な構造に一致しているかの証拠 他の指標との間に予測通りの相関関係が示されるかの証拠 測定がどの程度新しい状況に一般化できるかの証拠 結果的な側面の証拠 その測定を利用した結果として、悪影響が生じないかの証拠
  4. 妥当性の確認不足 4 ✓ 検討した側面の数 43 15 5 8 3 2

    0 20 40 60 0 1 2 3 4 5 側面 検討 未検討 内容的な側面 31 (40.79%) 45 (59.21%) 本質的な側面 4 (5.26%) 72 (94.74%) 構造的な側面 14 (18.42%) 62 (81.58%) 一般化可能性の側面 17 (22.37%) 59 (77.63%) 外的な側面 5 (6.58%) 71 (93.42%) 検討数 論文数 ✓ 側面別の集計結果(n=76) ➢ 妥当性を裏付ける証拠が報告されないことで、測定値の解釈や使用の有効性を評価することが できなくなる(Flake, 2021) ⚫ Blalock et al. (2008) ほとんどの測定方法は単一の研究でのみ使用されており、 妥当性の証拠も示されていないことが多い ⚫ 中村大輝・原田勇希・久坂哲也・雲財寛・松浦拓也(2021) ◼ 本発表の目的 理科教育の研究において測定の妥当性をどのように検証していくかのアプローチを明確化すること
  5. 内容的な側面の証拠|領域の代表性 5 ◼ 構成概念の定義の明確化 • どのような学力を測定しようとしているのかを分析し、定義を明確化する • カリキュラム分析・授業観察 ➢ 〇〇力とは?下位能力は?

    ➢ 〇〇力が高い学習者の姿は? ➢ 既存の理論との関係性は? ◆ 内容的な側面の証拠 項目の内容が目的とした領域を十分に代表しているかの証拠 Q1 Q5 Q6 Q3 Q2 Q4 Q1 Q5 Q6 Q3 Q2 Q4 良い例 悪い例 Q1 悪い例 ◼ 領域を代表した項目の作成 • 目的とした領域を十分に代表できるような項目群を作成する 例)理科における〇〇能力の問題の題材 Q1: 力と運動 Q5: 動物 Q2: 電磁気 Q6: 植物 Q3: 無機化学 Q7: 地質 Q4: 有機化学 Q8: 天体
  6. 内容的な側面の証拠|定義の明確化 6 ◼ 文章表現の難易度 • 発達段階に応じた文章表現 • 使用する漢字 ◼ 項目作成時の留意点

    ➢ 系統誤差を減らすことが重要 ⚫ 質問紙の場合 • 局所的な項目の類似性 • ダブルバーレル質問 • 曖昧な表現 • 社会的望ましさバイアス ⚫ テストの場合 • 局所的な項目の依存性 • 測りたい学力以外の要因の影響 • 回答形式 ◼ 複数の立場の専門家(研究者/教師)で項目を吟味 ◆ 問題のある質問項目の例 ➢ 理科好き尺度(仮) Q1: 物理の実験が好き Q2: 化学の実験が好き Q3: 生物の授業の観察や考察が好き Q4: 1日1時間以上理科の勉強をしている ◆ 問題のあるテスト項目の例 Q1. ヒトの肺胞での酸素濃度は相対値100、二酸化炭素 濃度は相対値40である。図に示す酸素解離曲線をもとに、 肺胞の血液における Oxyhämoglobin の割合を求めよ。 Q2. Q1の結果をもとに、次の選択肢の中から正しいもの をすべて選べ。 ◆ 文章の難易度を評価するアプリケーション • 帯3(佐藤,2008) • jreadability(李,2016)
  7. 本質的な側面の証拠 7 ◆ 本質的な側面の証拠 項目への反応プロセスに関する理論的・実証的証拠 → 学習者から見て妥当かどうか ◼ 反応プロセスの検討(予備調査) •

    発話思考法(think-aloud)を用いた検討 考えていることを話しながら項目に回答してもらう → 研究者の想定(理論)通りのプロセスを経て回答しているか • 反応時間の分析 → 難易度が高い問題ほど時間がかかりやすい ◼ 本当にあった怖い話(Lederman & O'Malley, 1990) 科学の本質(NOS)の理解度を測る質問紙 「科学の見解は暫定的なものである」 はい/いいえ 暫定的ってどういう意味ですか?
  8. 構造的な側面の証拠 8 ◆ 構造的な側面の証拠 項目間の関係が理論的な構造に一致しているかの証拠 ⚫ 因子構造の検討 • 探索的因子分析(EFA) ➢

    因子数について明確な想定がない場合 • 確認的因子分析(CFA) ➢ 因子数について明確な想定がある場合 物理 化学 数学 国語 社会 倫理 理系能力 文系能力 • ネットワーク分析(Bork et al., 2019) ➢ 潜在変数を仮定しない場合
  9. 一般化可能性の側面の証拠 9 ◆ 一般化可能性の側面の証拠 測定がどの程度新しい状況(異なる場面、集団など)に一般化できるかの証拠 ⚫ 信頼性の検討 ➢ 信頼性とは? 測定値

    = 真値 + 測定誤差 信頼性 = 真値の分散/測定値の分散 • 再テスト法:同じ人に2度の測定を行った際の相関 • Cronbachのα係数 • McDonaldのω係数 • 一般化可能性係数 信頼性 高 真値の分散 測定誤差 の分散 信頼性 低 真値の分散 測定誤差の分散 測定値の分散 ⚫ 測定不変性(measurement invariance)の検討 • 多母集団同時分析、アライメント法 集団(学校種や性別など)が異なっても同様の測定が成立しているかを分析 因子構造、因子負荷、切片などに制約をかけて、集団間での同一性を検討する
  10. 外的な側面の証拠 10 ◆ 外的な側面の証拠 他の指標との間に予測通りの相関関係が示されるかの証拠 ⚫ 相関分析 • 理論的に予測される相関関係が見られたか(後付けの解釈はNG) 例)新しく開発した理科テストは既存のTIMSS調査の問題と強い正の相関、

    国語のテストと弱い相関を示すだろう。 • SEMを用いた相関の希薄化への対処 ⚫ 多特性・多方法行列(MTMM) • 複数の学力(特性)を複数の方法で測定する ➢ 収束的証拠: 同じ学力を測定していれば相関は高くなるはず ➢ 弁別的証拠: 異なる学力を測定していれば相関は低くなるはず https://conjointly.com/kb/multitrait-multimethod-matrix/
  11. 常に新しい測定法を開発するべきか? 11 ◼ 問題点 • 妥当性の検証にはコストがかかる • 毎回、新しい尺度を開発していたら比較可能な知見が蓄積されない → 既存の尺度を有効活用しよう

    ◼ 既存の尺度の探し方 心理測定尺度集〈1~6〉 サイエンス社. ➢ 心理学分野の尺度が紹介されている Liu, X. (2020). Using and developing measurement instruments in science education: A Rasch modeling approach (2nd ed.). IAP Information Age Publishing. ➢ 理科教育分野の質問紙や調査問題が紹介されている
  12. 既存の尺度を利用する際の注意点 12 • 自分が測りたい学力と一致しているかを吟味しよう • 類似した概念の違いに注意しよう ➢ ジングル誤謬:2つの異なるものが、同じ名前を持つために同じであると判断する誤り ➢ ジャングル誤謬:2つの同一のものが、異なるラベルを付けられているために異なる

    と判断する誤り • 妥当性の証拠が示されているか確認しよう • 既存の尺度を組み合わせたり分解したりして使用することは避けよう • 尺度の柔軟な使用や改変はやめよう ➢ 約10%から30%の尺度が改変して使用されているという報告も(Barry et al., 2014; Flake et al., 2017; Weidman et al., 2017) • 異なる集団でも同じような測定が可能か(測定不変性)を検討しよう ➢ 中学生を対象に開発された尺度を小学生に使うなどの場合は注意が必要 • 翻訳して使用する場合は、翻訳の許可や妥当性の再確認が必要
  13. まとめ 13 ◼ これまでの理科教育研究 • 測定の妥当性が確認されていない • 1回きりのオリジナルの測定方法 • 既存の尺度の誤った利用

    ◼ おわりに 「構成概念妥当性を支える証拠を探っていくことは,それ自体がクリエイティブな プロセスであり,永続的な作業である(村山,2012)」 ◼ これからの理科教育研究 • 測りたいものが測れているか(妥当性)を問い続けよう • 妥当性の証拠を示そう • 既存の尺度を有効に活用して、知見を蓄積しよう • 妥当性の高いテストや質問紙は、みんなの共有財産
  14. 引用文献 14 • Barry, A. E., Chaney, B., Piazza-Gardner, A.

    K., & Chavarria, E. A. (2014). Validity and Reliability Reporting Practices in the Field of Health Education and Behavior: A Review of Seven Journals. Health Education & Behavior, 41(1), 12–18. • Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The Concept of Validity. Psychological Review, 111(4), 1061–1071. • Blalock, C., Lichtenstein, M., Owen, S., Pruski, L.A., Marshall, C.E., & Toepperwein, M.A. (2008). In pursuit of validity: A comprehensive review of science attitude instruments 1935–2005. International Journal of Science Education, 30(7), 961–977. • Flake, J. K. (2021). Strengthening the foundation of educational psychology by integrating construct validation into open science reform. Educational Psychologist, 56(2), 132-141. • Flake, J. K., Pek, J., & Hehman, E. (2017). Construct Validation in Social and Personality Research: Current Practice and Recommendations. Social Psychological and Personality Science, 8(4), 370–378. • Lederman, N. G., & O’Malley, M. (1990). Students’ perceptions of tentativeness in science: Development, use, and sources of change. Science Education, 74, 225–239. • 李在鎬(2016)「日本語教育のための文章難易度研究」『早稲田日本語教育学』Vol. 21, pp.1-16. • Messick, S. (1995). Validity of psychological assessment: Validation of inferences from persons' responses and performances as scientific inquiry into score meaning. American Psychologist, 50(9), 741–749. • 村山航(2012)「妥当性概念の歴史的変遷と心理測定学的観点からの考察」『教育心理学年報』第51巻,118-130. • 中村大輝・原田勇希・久坂哲也・雲財寛・松浦拓也(2021)「理科教育学における再現性の危機とその原因」『理科教育学研 究』62(1), 3-22. • Riet van Bork, Mijke Rhemtulla, Lourens J. Waldorp, Joost Kruis, Shirin Rezvanifar & Denny Borsboom (2021) Latent Variable Models and Networks: Statistical Equivalence and Testability, Multivariate Behavioral Research, 56:2, 175- 198. • 佐藤理史 (2008)「日本語テキストの難易度判定ツール 『帯』」『Japio YEAR BOOK 2008』52-57. • Weidman, A. C., Steckler, C. M., & Tracy, J. L. (2017). The jingle and jangle of emotion assessment: Imprecise measurement, casual scale usage, and conceptual fuzziness in emotion research. Emotion, 17(2), 267–295.