Upgrade to Pro — share decks privately, control downloads, hide ads and more …

再現性の危機とどう向き合うか

Daiki Nakamura
November 09, 2019

 再現性の危機とどう向き合うか

理科教育学における研究方法論の再検討 2019年11月9日

Daiki Nakamura

November 09, 2019
Tweet

More Decks by Daiki Nakamura

Other Decks in Education

Transcript

  1. 1 自己紹介 中村 大輝(Daiki Nakamura) 1992- 東京都世田谷区出身 2015-2017 広島大学大学院 修士課程

    2017-2019 町田市小学校教員 2019-現在 広島大学大学院 博士課程 科学教育 方法学 *研究関心 自然認識 EBE 認知 欲求 非認知 能力 科学哲学 仮説 設定 問題解決 科学的 思考力 メタ分析 研究 方法論 評価論 科学的 推論 ベイズ 推定 ICT
  2. 2 再現性とは何か 再現性: ある現象が成立する条件を整えることができれば,その現 象が繰り返し生じること(国里,in press) Peng, Dominici, & Zeger

    (2006) 国里(in press) Goodman, Fanelli, & Ioannidis (2016) Reproducibility 再解析による再生可能性 ☆再解析 同じデータ + 同じ方法 = 同じ結果 Methods reproducibility 方法の再現可能性 Replication 追試による再現可能性 ☆直接的追試 新たなデータ + 同じ方法 = 同じ結果 Results reproducibility 結果の再現可能性 ☆概念的追試 新たなデータ + 違う方法 = 同じ結果 Inferential reproducibility 推論の再現可能性 再現性の分類
  3. 5 実験結果を再現できなかったことがありますか? Nature ダイジェスト Vol. 13 No. 8 | doi

    : 10.1038/ndigest.2016.160822 を基に作成 化学 生物学 物理学 /工学 医学 地球科学 /環境学 その他 他人の論文 自分の論文 0 100% 80 60 40 20
  4. 6 “再現性の危機”はありますか? Nature ダイジェスト Vol. 13 No. 8 | doi

    : 10.1038/ndigest.2016.160822 を基に作成 52% 大いに危機的 状況にある 38% やや危機的状況 にある 3% 危機的状況 にはない 1576人 の研究者が回答 7% 分からない
  5. 8 心理学における再現性問題の事例 Bem, D. J. (2011). Feeling the future: experimental

    evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100, 407-425. 「人間には予知能⼒がある」 Galak, Jeff and LeBoeuf, Robyn A. and Nelson, Leif D. and Simmons, Joseph P., Correcting the Past: Failures to Replicate Psi (June 19, 2012). Forthcoming, Journal of Personality and Social Psychology. Available at SSRN: https://ssrn.com/abstract=2001721 再現性検証論文 「再現されなかった」 追試による再現性検証論⽂(再現失 敗)が「追試は掲載しない」という 理由でリジェクトされ物議を醸す データの捏造・改ざんと いった研究不正の発覚 きっかけとなった論文
  6. 9 これまでの取り組み(心理) Fidler, F. (2019.3.7) Tweetより 1950S~ 技術的な問題としての 帰無仮説検定批判 出版バイアスの指摘

    1960S~ より幅広い帰無仮説検定批判 検定力の調査 (by Cohen) 1970S~ メタ分析の登場 1980S~ 検定力は依然、改善せず 1990S~ 編集委員会の改革(影響小) 2000S~ 有意でない論⽂の掲載 ベイズ統計の興隆 2010S~ 再現性に関するプロジェクト プレレジ等の取り組み
  7. 11 エビデンスに基づく教育の出発点 ⚫ Hargreaves(1996)の講演 • 教育と医療を比較し、教育学研究と教育政策・実践の望ま し関係について論じた。 • 医療:自然科学のアカデミックな蓄積を基盤とする。 •

    教育:教育学研究が蓄積的でない。少数の事例調査から結 論を導いており、体系的な仕方で検証・発展され、具体的 な⽂脈へと置き換えられるような知見は得られない。その 結果、教育研究は教育実践に寄与していない。 • 教育研究者は、自分の研究を理解しない教師を責める傾向 • 教師は、自分の試行錯誤から得られた経験や、教員⽂化の 中で先輩教員から得た技術に依拠している。 • 客観的で検証可能なエビデンスに基づく教育研究・実践が 展開されなければならない。 杉田(2019)解説を基に作成
  8. 12 諸外国における変遷 2007年 2011年 1996年 1999年 2001年 Hargreavesの講演「研究に基づく専門職としての教職」 Davies “What

    is Evidence Based Education?” 出版 OECD “Evidence in Education: Linking Research and Policy” 出版 米国 NLCB法(落ちこぼれ防止法)施行 What Works Clearinghouse (WWC) 設立(USA) 2002年 Campbell Collaboration (キャンベル共同計画) 設立 2000年 Education Endowment Foundation (EEF) 設立(UK) Iterative Best Evidence Synthesis (BES) Program 設立(NZ) 2009年 *エビデンスのデータベースの整備まで進みつつある。
  9. 13 日本における近年の状況 「諸外国における客観的根拠に基づく教育政策の推進に関す る状況調査報告書」(⽂部科学省) 2017年 「Society5.0に向けた人材育成」(⽂部科学省) ― エビデンスに基づいた政策づくり (Evidence-Based policy

    Making; EBPM) 2018年 OECD教育研究革新センター『教育とエビデンス』 訳本出版 2010年 国立教育政策研究所『教育研究とエビデンス』 出版 2012年 日本教育学会『教育学研究』82(2) 特集号「教育研究にとってのエビデンス」 2015年 John Hattie 『教育の効果』 訳本出版 OECD TALIS初期教員準備調査に関するナショナルシンポジウム 「教師教育政策を支えるエビデンス構築の取り組み」
  10. 14 エビデンスに基づかない権利 ⚫ Biesta(2007) • 「(教育政策の効果検証では)何を『効果的』とするのか は何が教育的に望ましいのかということに決定的に依存し ているということが忘れられている」 ➢ 何を学んだかの測定に傾倒し、何を目的とすべきかが問われなく

    なってきている。 • 「(教師は)『何が有効か』に沿った行為を教育的に望ま しくないと判断したときに、エビデンスに従って行為しな いという権利を奪われている」 ➢ 教育をすることができる権利/教育をしないことができる権利 杉田(2019)の訳を基に作成 ※括弧内は発表者が補足 Biesta, G. (2007). Why “What Works” Won't Work Evidence- Based Practice and the Democratic Deficit in Educational Research. Educational Theory, 57, 1-22.
  11. 15 EBEに関する批判(原田,2015) 1. エビデンスで人の心はわからない。 2. 教育は科学ではない。 3. エビデンスによって特定の指導方法を批判するべ きではない。 4.

    エビデンスは統計的多数者を重視し,少数を切り 捨てるものではないか。 5. EBEは指導方法の画一化を招くのではないか。 6. ランダム化比較試験は非倫理的ではないか。 7. EBEやRCTは教育の医療化をいたずらに推し 進めるものではないか。 8. エビデンスは大事だが,それだけではいけない。 原田隆之(2015)『心理職のためのエビデンス・ベイスト・プラクティス入門 エビデンスを「まなぶ」「つくる」「つかう」』金剛出版.
  12. 16 エビデンスに関する議論のズレ ⚫ 今井(2015) • 擁護者:その証拠能力に即してエビデンスを論じようとし ている • 批判者:エビデンスの政治的・レトリック的な効果につい て論じている

    • 議論がかみ合っていない • 本来、専門職者(教師)の応答責任(実践)を支えるもの として構想されたエビデンスが、いつのまにか(教育政策 の)説明責任の方向へと横滑りしている。 • 両立場とも、エビデンスと応答責任(実践)との関係をほ とんど真剣に受け取ることのない状態に陥っている。 ※括弧内は発表者が補足 今井康雄(2015)「教育にとってエビデンスとは何か」『教育学研究』82(2), 188-201
  13. 17 エビデンスの種類 ランダム化比較試験 実験研究 観察研究 準実験研究 ビッグデータ分析 (標本抽出ではない大 量のデータ) 「ある介入が効果的か否か」

    相関関係やパターン認識 厳密な因果関係を特定することは想定 されていない。 ▲ビッグデータやAIによるデータ分析は、確率論 的に現実の複雑性を縮減しているのであって、 そこで発見された相関関係が必ず正しいとは言え ない(西垣,2016) ▲実験の場を極力コントロールするが故に、現場 との乖離が起きる可能性がある(岩崎,2014)。 ▲マクロなエビデンスがミクロな学級では有効で ないとの批判が広まってきている(特に、英米) ▲どこまで一般化できるのかが不明 ▲観察されていない共変量があまりにも多い。 狭義のエビデンス 政策立案者の考える エビデンス
  14. 18 エビデンスの強さ ⚫ エビデンスピラミッド ⚫ NRC(2002) • 多くの科学的主張にはある程度の不確実性が伴い、確率 的なものである。 •

    現在の社会科学的知見に関連する精度の程度は、物理学 や生命科学における精度よりも低い傾向にある。 National Research Council. 2002. Scientific Research in Education. Washington, DC: The National Academies Press. https://doi.org/10.17226/10236. メタ分析 無作為化比較 試験(RCT) 比較実践研究 要因対照研究 実践報告 専門家の意見 個人の意見(体験談) 高 低
  15. 19 政策決定におけるエビデンスの問題 ⚫ 佐藤(2019) • 政策決定にはエビデンス以外にも様々な政治的要素が含ま れる • エビデンスは政策決定の一要素に過ぎない •

    同じエビデンスでも、政治的立場によって解釈が異なる • どのエビデンスを選択するかに政治性がある ➢ 何を示すエビデンスかを研究者が明確化することが重要 • 政策策定者と研究者の距離の問題(cf. 研究倫理、誠実性、 利益相反) 佐藤仁(2019)「教育政策においてエビデンスを「つかう」とはどう いうことか」『「エビデンスに基づく教育」の閾を探る』春風社.
  16. 20 エビデンスを受け入れる土壌 ⚫ ラトゥールのアクターネットワーク理論 • 科学の真実性が受け入れられたのは、実験の結果よりも、 それを取り巻く様々な言説やモノの変化があったからであ る。 ⚫ 杉田(2019)

    • 学力調査等のエビデンスは、それ自体が客観的・中立的な 事実を反映しているからそれが正しいものとして受け入れ られるのではない。 • それを受け入れる土壌がすでに整っているから、学力調査 (エビデンス)が意味あるものとして実践を規定するので ある。 杉田浩崇(2019)「「エビデンスに基づく教育」という問題圏」 『「エビデンスに基づく教育」の閾を探る』春風社.
  17. 21 EBEの実践例 ⚫ 事例:中学生男子生徒Aに対する担任の指導(森,2019) ◆ 男子生徒Aの状況 • 中学1年生の男子生徒 • 小学校からの引継ぎで「引っ込み思案で配慮が必要」と記載あり

    • 4月からの授業中、一度も挙手がない • 学力は低くないが、教員や友達と声に出して会話をすることができな い。音読もできない。 • 全く話ができない状況に担任は困っている ◆ 先輩教員との相談 • 先輩教員B「話をしなければいけない場面を意図的に作って、無理やり にでも話を指せるようにしないといけないのではないかな。」 • 先輩教員C「できないことをいきなり無理やりやらせてもだめじゃない かな。今はそっとしておけば?」
  18. 22 EBEの実践例 ⚫ 事例:中学生男子生徒Aに対する担任の指導(森,2019) ◆ 問題の定式化 • 話せないことで学習面への悪影響(特に国語の読み)と対人関係面 が問題 ◆

    エビデンスの検索1(読みの指導) • 英国のエビデンス仲介機関EEFのサイトにアクセス • EEFのTeaching and Learning Toolkitで”Reading comprehension strategies”を検索 • 「読みの指導には、要約といった指導が効果的で、声に出して話を することは必ずしも重要ではない」ということが分かった。 • この地検は、複数のRCTのメタ分析によるもので、効果量も高かっ た。 • 学習という点では、無理やり話をさせる必要はないと判断した。
  19. 23 EBEの実践例 ⚫ 事例:中学生男子生徒Aに対する担任の指導(森,2019) ◆ エビデンスの検索2(対人関係) • EEFやキャンベル共同計画のサイトではヒットせず • 場面緘黙で検索したところ、「かんもくネット」というサイトが、

    アメリカの研究機関のRCTを参考にした情報を提供していた。 • さらに、具体的な指導方法が記述されている資料も手に入った。 • 示されている内容と生徒Aの状況が似ており、同年齢を対象とした 指導が一定の効果を上げていることが分かった。 • 「まず、子供とともに話すことへの不安の解消に取り組むことが大 切である」とある。 • 生徒Aには、筆談やジェスチャーでのやりとりをして、無理に話さ せなくてもコミュニケーションが取れるよう配慮することにした。 • 生徒Aとのコミュニケーションを通して、これまでずっと話すこと への不安を抱いていたことが明らかになってきた。
  20. 24 EBEの実践例 ⚫ 事例:中学生男子生徒Aに対する担任の指導(森,2019) ◆ その後の経過 • 好きなゲームの話などで自分から担任と話ができるようになって いった •

    1年後には、100人以上の他の生徒の前で自分の考えを発表すること ができるようになった。 ⚫ SICOによる定式化 Student どんな生徒に 話をすることができない中学校1年生の生徒 に対して Intervention 何をすると 無理やり話をさせる指導と比べて Comparison 何と比べて しばらく待って様子を見る指導では Outcome どれだけ成果が あったか 国語の学力を高めたり、友達とのコミュニ ケーションが取れたりするようになるか。
  21. 26 直接的追試の事例 川﨑弘作・角屋重樹・木下博義・石井雅幸・後藤顕一(2015)「初 等教育教員養成課程学生の理科における問題解決能力の実態に関す る研究―小学5,6年生・大学1年生の比較を通して―」『理科教育 学研究』第56巻,2号,151-159. 元 追 古屋光一・安達正敏(2018)「小学生,中学生,大学生の理科にお ける問題解決能力の比較」『北海道教育大学紀要(教育科学編)』

    68(2), 323-336. 大学1年生は, 小学5, 6年生よりも問題解決能力が低い ことが明らかになった 大学生は小学生,中学生に比べて問題解決能力が高い が,小学生と中学生の問題解決能力に差は認められな いことが明らかとなった 再現されなかった 直接的追試:新たなデータ + 同じ方法 = 同じ結果
  22. 27 概念的追試の事例 概念的追試:新たなデータ + 違う方法 = 同じ結果 中村大輝・松浦拓也(2018)「仮説設定における思考過程とその合 理性に関する基礎的研究」『理科教育学研究』第58巻,3号,279- 292.

    元 追 菅原実(2019)「予想・仮説を伴った実験方法の構想場面における 子どもの思考過程の実態に関する分析的検討」『日本理科教育学会 全国大会発表論⽂集』17, 317. 学習者は自身の仮説を批判的に検討しようとはしない 学習者は自身の仮説を批判的に検討しようとはしない 再現された
  23. 28 状況の比較 ⚫ 人を対象とした研究では測定誤差が大きく、単一の追試に よって、その結果の再現性を問うことには限界がある(国 里,in press) ⚫ 他領域の再現性問題は、RCTや実験室デザインの研究につ いてのもの

    ⚫ 一方、理科教育の研究では、準実験デザインや観察研究が ほとんど ➢ バイアスが回避できない(偏ったサンプリング、学校状況の違い) ➢ 偏ったサンプリングにもかかわらず、ランダムサンプリングとみな していることの問題は? ⚫ 再現性の危機があるとしたら、QRPsや分析手法の問題だ けでなく、研究デザインの問題が含まれる
  24. 29 偏ったサンプリング 母集団 サンプル ⚫ 調査協力を受け入れてくれる学校・先生 学校が落ち着いている ある程度の学力 複式学級・過疎地域の除外 私立学校の除外

    高等学校・大学→選抜効果 教師に余裕がある 経験の豊富な教師 理科が好き・得意な先生 男性の教師が多い ⚫ 調査に参加できない子供の排除 不登校 病気がち 学習障害 ⚫ その他 実践される単元・時期(4月・2月が少ない) サンプリング
  25. 32 傾向スコアマッチング ⚫ Rubinの反実仮想モデル 介入した場合の結果 例)通塾ありの場合 介入しない場合の結果 例)通塾なしの場合 介入群 例)通塾あり

    観測される値 欠測(反実仮想の値) 統制群 例)通塾なし 欠測(反実仮想の値) 観測される値 長谷川(2019)表1を基に作成 • 同一人物の異なるパターンの処置の観察は不可能。 • 次善策として,通塾した人とそうでない人とで非常に似た性質の人(家 庭状況など)を探してマッチングし,両者の間で成果(成績や進学の有 無,進学先など)を比較する ➢ 例:科学館プログラムの効果 • 全国学調査の質問紙部分を共変量として用いることができる可能性
  26. 35 それでも残り続ける問題1 研究者としての マインド 教育者としての マインド 母集団の実態に興味 より一般化可能な知見を求める エビデンスや⽂献を重視 ロジックのためのエビデンス利用

    数字で捉えることを採用 目の前の子供たちに興味 目の前で有用な知見を求める 経験を重視 自分の実践の肯定のためのエビデンス利用 数字で捉えることに抵抗感 ⚫ 2つのマインドとそこから生じる歪み
  27. 36 教員による実践報告のメタ分析 論⽂ 抽出 実践報告 2000-2018 ・小~高校生を対象とした理科の実践研究 ・通常級での1つの単元での実践 ・資質・能力を測定している ・効果量が算出可能

    教育センターのHPに記載の実践報告 <学校種・学年・領域・測定項目>などの情報も記録 97実践 研究紀要 成果報告 実践報告 長期研修報告 など
  28. 37 効果量の統合 実践研究 測定項目 効果量 [95%信頼区間] Ntotal = 5426人 実践

    3 南富良野町立M中学校 項目11 実践 3 南富良野町立M中学校 項目10 実践 2 江別市立E小学校 項目9 実践 2 江別市立E小学校 項目8 実践 2 江別市立E小学校 項目7 実践 2 江別市立E小学校 項目6 実践 1 北海道C高等学校 項目5 実践 1 北海道C高等学校 項目4 実践 1 北海道C高等学校 項目3 実践 1 北海道C高等学校 項目2 実践 1 北海道C高等学校 項目1 1.384 [ 0.855, 1.914] 1.471 [ 0.925, 2.018] 2.271 [ 1.594, 2.947] 1.605 [ 1.141, 2.069] 2.212 [ 1.705, 2.718] 1.817 [ 1.145, 2.489] 1.806 [ 0.694, 2.917] 0.867 [ 0.567, 1.167] 0.772 [ 0.464, 1.079] 1.082 [ 0.762, 1.402] 1.103 [ 0.768, 1.438] 実践97 横須賀市立I中学校 項目381 0.593 [ 0.054, 1.133] … … … 97実践 381項目 381個
  29. 39 平均効果量の解釈 平均効果量 g=0.716 Cohen基準:中~大程度の大きさ • Lipsey & Wilson(1993):心理・教育分野 <0.50>

    • Hattie(2009) :指導法全体 <0.40> • 中村(2018) :教科教育学研究 <0.44> • 中村ら(2019) :ICTを用いた理数授業<0.40> ◆先行研究との比較 →理科教育の実践に期待できる平均的な効果の大きさ →先行研究に比べてかなり高い値 ・出版バイアスの可能性の検討 研究者 学校教員
  30. 40 出版バイアスの検討 平均効果量 g=0.716 効果量 標準誤差 1.101 0.826 0.55 0.275

    0 -2 -1 0 1 2 3 4 5 非対称傾向 →サンプルサイズが少なく効果が小さかった研究が 隠されている可能性がある 出版バイアスの 傾向あり (p < .0001) 非対称傾向
  31. 41 それでも残り続ける問題2 ⚫ 量的分析であっても、質的研究と同じように研究者の主観 がデータに入り込む ⚫ データの階層性と適応範囲(cf. Simpson‘s paradox, Ecological

    Fallacy) ➢ 都道府県レベルの相関は、個人レベルには適応されない ➢ 国レベルでは,労働時間が増えるほど知的好奇心は減る。個人レベ ルでは,労働時間が増えるほど知的好奇心は増える。(奥村, 2019) ⚫ 人間の持つバイアス ➢ 確証バイアス ➢ 後知恵バイアス ⚫ 研究者は実践に寄与しない?
  32. 42 実践に貢献する研究者のあり方 ⚫ 酒井(2014)3つのレベル 1.ミクロレベル ―書記としての研究者 児童生徒の状況を基礎統計量やグラフで分かりやす く示す。 2.マクロレベル ―批評家としての研究者

    因果推論の手法を用いた教育研究の推進。 実践者の視野に入っていない諸事実を指摘する。 3.メゾレベル ―提案者としての研究者 教師にとって魅力的な物語の提案。 研究の意義を実感できる成果報告。
  33. 43 まとめ:問題の基本構造 データ エビデンス 政策(EBPM) 実践(EBE) 母集団 統計学 × イデオロギー

    再現性 予測力 サンプリング問題 研究不正(p-hacking等) 研究デザイン上の限界 再現性の危機 政治的立場に基づく解釈 エビデンスは一要素にすぎない 研究者のマインド 業績主義のゆがみ 教育者のマインド 自身の経験の重視 一般化の範囲 積み重ねがない