Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
量的研究の魅力
Search
Daiki Nakamura
August 20, 2021
Education
0
290
量的研究の魅力
日本科学教育学会 第45回年会 若手活性化委員会チュートリアル
2021年8月20日
Daiki Nakamura
August 20, 2021
Tweet
Share
More Decks by Daiki Nakamura
See All by Daiki Nakamura
適切な回帰推定量の使用が学力調査の推定精度を向上させる効果の検討
arumakan
0
17
Developing a Diverse Interests Scale for STEM Learners: Based on the ROSES Survey in Japan
arumakan
0
17
条件制御能力を測定するコンピュータ適応型テストの開発
arumakan
0
170
科学教育の読書会を中心とした新しい研究活動の展開
arumakan
0
180
The Value of Science Education in an Age of Misinformation
arumakan
1
190
教育研究における研究倫理問題の論点整理
arumakan
0
550
TIMSS 2019 環境認識尺度に関する日本人学習者の特徴
arumakan
0
220
統計勉強会2023春@岡山大学
arumakan
0
940
Materials for ReproducibiliTea session on Pownall et al. 2022
arumakan
0
170
Other Decks in Education
See All in Education
Image compression
hachama
0
280
CSS3 and Responsive Web Design - Lecture 5 - Web Technologies (1019888BNR)
signer
PRO
1
2.5k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
2.6k
新人研修の課題と未来を考える
natsukokanda1225
0
190
子どものためのプログラミング道場『CoderDojo』〜法人提携例〜 / Partnership with CoderDojo Japan
coderdojojapan
4
15k
Carving the Way to Ruby Engineering
koic
3
580
Comezando coas redes
irocho
0
410
認知情報科学科_キャリアデザイン_大学院の紹介
yuyakurodou
0
150
Ilman kirjautumista toimivia sovelluksia
matleenalaakso
1
20k
20241004_Microsoft認定資格のFundamentals全部取ってみた
ponponmikankan
2
390
Human Perception and Cognition - Lecture 4 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
790
HyRead2425
cbtlibrary
0
100
Featured
See All Featured
Scaling GitHub
holman
459
140k
No one is an island. Learnings from fostering a developers community.
thoeni
19
3.1k
Speed Design
sergeychernyshev
25
720
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
44
9.3k
Side Projects
sachag
452
42k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
29
940
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
29
2k
YesSQL, Process and Tooling at Scale
rocio
170
14k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
2
160
Transcript
量的研究の魅力 中村 大輝(広島大学大学院) 日本科学教育学会第45回年会 若手活性化委員会:チュートリアル 2021年8月20日 オンライン開催 全26枚+補
自己紹介 2 中村 大輝(Daiki Nakamura) ◼ 所属 広島大学大学院 教育学研究科 博士課程後期
◼ 専門 科学教育、理科教育、教育心理学 ◼ 研究テーマ 科学的思考力、教育測定、メタ分析、研究方法論 ◼ 論文 • 中村大輝・山根悠平・西内舞・雲財寛(2019)「理数科教育におけるテクノロジー活用の効果 ― メタ分析を通した研究成果の統合― 」『科学教育研究』43(2), 82-91. 10.14935/jssej.43.82 • 中村大輝・田村智哉・小林誠…・松浦拓也(2020)「理科における授業実践の効果に関するメタ 分析-教育センターの実践報告を対象として-」『科学教育研究』44(4), 215-233. 10.14935/jssej.44.215 • 中村大輝・雲財寛・松浦拓也(2021)「理科における認知欲求尺度の再構成および項目反応理論 に基づく検討」『科学教育研究』45(2), 215-233. 10.14935/jssej.45.215 • 中村大輝・原田勇希・久坂哲也・雲財寛・松浦拓也(2021)「理科教育学における再現性の危機 とその原因」『理科教育学研究』62(1), 3-22. 10.11639/sjst.sp20016 #Twitter @d_nakamuran #E-mail
[email protected]
#HP https://nakamura.lab by.jp/
本日の内容(約30分) 3 1. 量的研究と質的研究の比較 2. 量的研究の手順 3. 研究デザインの具体化 4. 量的研究の課題と未来
5. 質的研究への質問
量的研究と質的研究の比較 4
科学教育研究の目標とアプローチ 5 ⚫ 科学教育研究とは?(小川,2017) 現代を生きる人間と社会の中の科学との界面に生じる 多様な課題・問題を「教育」というレンズで読み解き、 人間と科学とのよりよい関係のあり方をデザイン・実践・評価することをめざす研究領域 ⚫ 多様なテーマ •
科学教育論 • 科学教育各論 • 科学教育の現代的課題 • 国際比較・国際貢献(国際支援) • 科学教育課程 • 科学的学力・能力 • 科学認識 • 教育実践・科学授業開発 • 教材開発 • IT・メディア利用の科学教育システム • 科学教育連携システム • 教育方法と評価 • 科学教育人材養成 ⚫ 多様な研究アプローチ 質問紙 実験研究 縦断研究 横断研究 談話分析 歴史分析 観察法 事例研究 数理モデリング シミュレーション GTA エスノグラフィー フォーカスグループインタビュー インタビュー ナラティブ トライアンギュレーション システマティックレビュー メタ分析 比較教育 文書分析 RCT デザイン研究 アクションリサーチ ビデオ分析 教材開発 談話分析 制度比較 生体指標 フィールドワーク バイオグラフィー
量的研究と質的研究 6 ⚫ 量的研究と質的研究の比較(抱井,2015 を基に作成) 量的研究 質的研究 特徴 客観的な測定と統計分析 研究者の主観的で深い意味解釈
目的 主として、理論や仮説の検証 主として、理論や仮説の生成 データの種類 数量データ 記述データ データ取得方法 調査、実験など 観察、面接など サンプリング 確率的なサンプリング 意図的なサンプリング サンプルサイズ 相対的に多い 相対的に少ない 分析 統計分析 要約・分類・解釈 要約 数値・グラフ・表 言葉 質の評価 妥当性/一般化可能性/再現性 信用性/真実性/転用可能性 関連する 哲学的基盤 ポスト実証主義 (客観的な方法によって、単一の特定 できる真実に近づくことができる) 構成主義 (人によって異なる意味の構成がある)
『科学教育研究』における研究手法とテーマ 7 全研究 n=165 理論研究 n=41 実証研究 n=124 量的研究 n=86
質的研究 n=49 ⚫ 41巻~44巻(2017-2020年)に掲載の論文
量的研究の手順 8
量的研究のプロセス 9 科 学 教 育 の 現 象 人間
機器 反 応 ・ 行 動 デ ー タ 数 量 デ ー タ 観察 面接 実験 質問紙 テスト 測定 働きかけ 数量化 (尺度) 理 論 ・ 研 究 の 問 い 分 析 結 果 考 察 ・ 報 告 書 ◼ 測定の方法 統計分析 解釈 ◼ 妥当性の証拠の種類(Messick, 1995) • 測りたいものを測れているか? • データの解釈に必要な証拠を集める 1. 内容的側面:項目の内容が目的とした領域を十分に代表しているかの証拠 2. 本質的側面:項目への反応プロセスに関する理論的・実証的証拠 3. 構造的側面:項目間の関係が理論的な構造に一致しているかの証拠 4. 外的側面 :他の指標との間に予測通りの相関関係が示されるかの証拠 5. 一般化側面:測定がどの程度新しい状況(異なる時間、場所、集団など)に 一般化できるかの証拠。信頼性を含む。 6. 結果的側面:その測定法を利用した結果として、悪影響が生じないかの証拠
記述統計と推測統計 10 母集団 記述統計・・・サンプルの性質の要約 推測統計 標本統計量の値をもとに, 母数についてできるだけ 正確な推測をする サンプル (標本)
サンプリング 目の前のサンプルに関する ことしか言えない ◼ 点推定 母数の推定値を1つの値で示す 例)母平均の点推定値は8.3cm ◼ 区間推定 誤差を考慮して、母数の推定値を 区間で示す 例)95% CI [7.9, 8.7] ◼ 数値要約 平均値や標準偏差などの代表値 ◼ 図的要約 ヒストグラム・箱ひげ図・散布図 など
帰無仮説検定 11 ⚫ 帰無仮説検定とは(総務省統計局,n.d.) 母集団に関する仮説が統計学的に成り立つか否かを、 標本データを用いて判断すること ⚫ 仮説検定の手順 ① 仮説を設定する
対立仮説:実験群と統制群の平均点には差がある 帰無仮説:実験群は統制群の平均点には差がない ② 有意水準を決定する 誤った判断(偽陽性)を許容する確率 → 0.05 (5%) が一般的 ③ 検定統計量を算出して検証する ④ 背理法を用いて結論を導く p < .05 : 帰無仮説を棄却して対立仮説を採択(差があると判断) p > .05 : 帰無仮説を棄却しない(差があるとは判断できない≠差が無い) 𝑡 = 𝑥1 − 𝑥2 𝑠 1 𝑛1 + 1 𝑛2 = 75 − 70 10 1 50 + 1 50 = 2.5 実験群(n=50): 平均75点, 標準偏差10 統制群(n=50): 平均70点, 標準偏差10 p = 0.014
研究デザインの具体化 12
仮想事例の検討(レベル1) 13 南風原(2001)より 問題意識:ある指導介入Aが内容理解に効果的かを検証したい ⚫ 1群事後テストデザイン 事後テスト 指導介入A ◆問題点 •
比較対象がないため、効果があったと判断する根拠が希薄 ➢ 指導前から理解していたのでは? • 指導以外の何らかの出来事が影響を及ぼしている可能性(履歴の脅威) ➢ 指導期間中で塾で習ったことが影響したのでは? ✓ 事後テストの点数が高く、目標点に達していれば効果的であったと判断 指導の効果=事後テストの点数
仮想事例の検討(レベル2) 14 問題意識:ある指導介入Aが内容理解に効果的かを検証したい ⚫ 1群事前・事後テストデザイン 事後テスト ◆問題点 • 事前テストと事後テストの間に起こった、指導以外の何らかの出来事が影響を及ぼ している可能性(履歴の脅威)
➢ 指導期間中で塾で習ったことが影響したのでは? • 指導ではなく、事前テストの実施自体が事後テストの成績の変化につながっている 可能性(測定の脅威) • 時間の経過に伴う自然な発達的変化が成績向上の原因である可能性(成熟の脅威) ✓ 事前テストと事後テストを比較して、向上が見られれば効果的であったと判断 (対応のあるt検定など) 事前テスト 指導介入A 指導の効果=事後テストー事前テスト 南風原(2001)より
仮想事例の検討(レベル3) 15 問題意識:ある指導介入Aが内容理解に効果的かを検証したい ⚫ 不等価2群事後テストデザイン 事後テスト ◆問題点 • ランダム割り当てではないため、実験群と統制群の等価性が保証されない •
群間の点数に差が見られたとしても、その差は元々両群に存在した可能性があり、 必ずしも指導の効果であるとは言えない(選択の脅威) ➢ 実験群の方が最初から理解度が高かったのでは? ✓ 実験群と統制群の事後テストを比較して、実験群の方が高ければ、 相対的に効果が高かったと判断(t検定など) 指導介入A 指導の効果= 実験群事後テストー統制群事後テスト 指導介入B 事後テスト 実験群 統制群 南風原(2001)より
仮想事例の検討(レベル4) 16 問題意識:ある指導介入Aが内容理解に効果的かを検証したい ⚫ 不等価2群事前・事後テストデザイン 事後テスト ◆改善点 • 事前テストにより、実験群と統制群がどのくらい等価か判断できる(→選択の脅威に対処) •
テストへの慣れの効果が打ち消されている(→測定の脅威に対処) • 時間の経過に伴う自然な発達の効果が打ち消されている(→成熟の脅威に対処) • 両群が共通して経験する出来事の効果が打ち消されている(→履歴の脅威に対処) ✓ 実験群と統制群の得点変化を比較し、実験群の方が高ければ、 相対的に効果が高かったと判断(t検定、共分散分析など) 指導介入A 指導の効果= 実験群の得点変化ー統制群の得点変化 事後テスト 実験群 統制群 事前テスト 事前テスト 指導介入B 南風原(2001)より
教室文脈における研究の難しさ 17 ◼ サンプリング • ランダムサンプリングの実施が難しい →得られたサンプルから母集団を定義する ◼ サンプルサイズ •
サンプルサイズを大きくすることが難しい(誤差が大きい) • 検定力が低い(偽陰性の可能性) →1つの実証研究で結論を出さず、複数の研究の効果量を 蓄積・統合する中で結論を導く ◼ データの階層性 • 学習者は、学級や学校に所属する入れ子構造になっている →マルチレベルモデルの導入(データの階層性を考慮した分析) ◼ 影響要因の多さ・複雑さ • 様々な要因が複雑に絡み合って学習成果に影響している →共変量を統制した研究デザイン 学習成果 動機づけ 性格 設備 室温 メタ認知 両親学歴 WM PK PCK CK SES 性別 個人要因 家庭要因 環境要因 教師要因 指導法 地域資源 ◆ 仮想的な因果モデル
量的研究の課題と未来 18
再現性の危機(Reproducibility Crisis) 19 52% 大いに危機的 状況にある 38% やや危機的 状況にある 3%
危機的状況 にはない 1576人 の研究者が回答 7% 分からない ⚫ Baker(2016) Nature ダイジェスト Vol. 13 No. 8 doi: 10.1038/ndigest.2016.160822 を基に作成 ⚫ Makel & Plucker(2014) ⚫ Gordon et al.(2020) 教育分野の高IF雑誌に掲載の追試論文を分析 ・再現に成功した追試 → 70% ・異なる著者が追試した場合 → 54% 「再現性の危機はありますか?」 教育分野の 再現成功率は 42% と予測されている Fig.1 (b)
再現性の危機の原因 20 1. 問題のある研究実践(Questionable research practices, QRPs) p-hacking : サンプルの不正な追加・除去によって有意にする
cherry picking : 有意になった項目だけ報告 誤った多重比較 : 補正のない検定の繰り返し →危険率αのインフレ HARKing : 結果を見た後で仮説を設定 偏った成果報告 : 有意であった場合のみ成果報告 →出版バイアス ⚫ Makel, Hodges, Cook, & Plucker(2021) 1488名の教育学者を対象にQRPsやデータ公開の経験を調査 • 有意にならなかった研究や変数を報告しなかった経験がある → 61.69% • 有意な結果が得られるよう複数の統計分析法を試した経験がある → 49.75% • データをオンラインでオープンに公開したことがある → 45.61% • コードやマテリアルをオンラインでオープンに公開したことがある → 58.94% 2. 透明性の低さ 多くの論文で研究の生データが公開されておらず,著者に問い合わせてもデータ提供が拒否され ることが多い(Minocher et al., 2020; Wicherts et al., 2006)→研究手続きの適切さが検証できない。 QRPs オープン サイエンス
再現性の向上に向けた取り組み 21 ⚫ 科学教育分野で優先的に取り組むべき内容(中村ら,2021; Taylor et al., 2016) 1. 追試の積極的な実施
2. 適切な研究方法の普及 3. 事前登録制度の導入 4. オープンサイエンスの実施 ◼ 研究手法の強度を高める 観察回数を増やす、適切な操作、妥当性検証 ◼ 誤った発見を減らす より厳しい推論基準、事前登録と透明性の確保(p-hacking、HARKing、選択的報告に対する予防)、 頑健性の確認、クロスバリデーション ◼ 報告事項 証拠に対応した結論、一般化可能性の制約、 データの事前観察やオーバーフィッティングの影響可能性 ◼ 研究プロセスの透明性 方法・材料・手順・データの共有、 意思決定や分析におけるデータ依存性・隠れた知識・利益相反の明示 ◼ 構造的な転換 より厳密な研究手法を報酬・評価システムに組み込む、査読付き事前登録制度、敵対的な共同研究、 問題点を発見して公表する人たちの仕事を支援、「出版されること」よりも「正しいことをすること」に価値を置く文化 ⚫ 再現性向上に向けて取り組むべきこと( Nosek et al., 2021 )
教育研究のガイドラインとオープンサイエンスの推進 22 ⚫ NSF & IES (2018) “Companion Guidelines on
Replication & Reproducibility in Education Research” (訳:教育研究における複製可能性と再現可能性の共通ガイドライン) B-9:同意書と治験審査委員会(IRB)の承認書には、 可能な限り、将来のデータ公開に言及し、被験者のプ ライバシーを保護するための条件を明記すべきである。 ⚫ 研究データマネジメントについて(日本学術振興会,2021) 令和6(2024)年度の科研費以降、採択された研究課題の研究代表者に対し、 交付申請時に、当該研究課題における研究成果や研究データの保存・管理等 に関するデータマネジメントプラン(DMP)の提出を求める予定 ⚫ 公的資金による研究データの管理・利活用に関する基本的な考え方(統合イノベーション戦略推進会議,2021) 公的資金による論文のエビデンスとしての研究データは原則公開とし、 その他研究開発の成果としての研究データについても可能な範囲で公開することが望ましい。
データやコードの公開への取り組み 23 ⚫ OSF (Open Science Framework) ⚫ J-STAGE 電子付録
1プロジェクト 50GBまで 1ファイル 50MBまで ⚫ 出版社のサーバー
データ公開の事例 24 川崎ら(2020)「小学校理科における認知欲求の育成に 関する研究―「理論」の構築過程に基づく学習指導に着 目して―」理科教育学研究, 61(2), 241-249. 10.11639/sjst.20038 中村ら(2020)「理科における授業実践の効果に関す るメタ分析―教育センターの実践報告を対象として―」
科学教育研究, 44(4), 215-233. 10.14935/jssej.44.215
量的研究の未来(Nosek et al., 2021 を参考に著者作成) 25 妥当な測定器の開発 適切にデザインされた実証研究 理論や問いの明確化 現象の予測と手続きの事前登録
反証 質的研究や探索的研究による理論形成 ◼ 量的研究を支える環境 メタ分析による量的な統合 追試による知見の蓄積 確証 オープンサイエンス・プラットフォーム 追試の積極的な支援 エビデンスの確立 教育政策や実践への提言 低い異質性 一貫した結果(再現性) QRPs防止の制度的な取り組み 導出 固定 高い異質性 →理論の精緻化 (境界条件の探索) 統合 アウトリーチ活動の支援 ◼ 研究知見の蓄積とエビデンスの確立プロセス
質的研究への質問 26
質的研究への質問 27 1. 良い質的研究とはどのようなものか • 信用性、真実性、転用可能性、厚い記述とは…? 2. 著者の主観的意味世界を(査)読者はどう解釈すればよいのか • 著者の解釈と読者の解釈は一致する?
3. あるテーマについて、質的研究はどのように知見を蓄積・ 発展させていくのか。理論の発展にどう寄与するか。 4. 質的研究法を勉強するとは、何をすることか
補足資料 28
おすすめの書籍 29 Cohen, L., Manion, L., & Morrison, K. (2018).
Research methods in education (8th ed.). Routledge. ➢ 教育研究における研究方法を網羅的に解説 ➢ 混合研究法に関する解説もある 山田剛史・村井潤一郎(2004)『よくわかる心理統計』ミネルヴァ書房. ➢ 統計の学習の第一歩としておすすめ ➢ 効果量、検定力、サンプルサイズ設計に関する解説もある 江崎貴裕(2020)『分析者のためのデータ解釈学入門 データの本質を とらえる技術』ソシム. ➢ データを解釈するのに重要な知識を分かりやすく解説
既存の尺度の探し方 30 心理測定尺度集〈1~6〉 サイエンス社. ➢ 心理学分野の尺度が紹介されている Liu, X. (2020). Using
and developing measurement instruments in science education: A Rasch modeling approach (2nd ed.). IAP Information Age Publishing. ➢ 理科教育分野の質問紙や調査問題が紹介されている ←キーワード検索
理論の制約条件としての現象 31 十分な制約を与えるに足るロバスト な現象に関する知識がない 自然科学 教育学・心理学 △ 理論と現象の関係 理論 →
現象 現象 → 理論 説明 予測 〇 〇 制約 限定 △ 理論が非常に曖昧に定式化されてい るため、現象に関する正確な予測が できない(e.g., Oberauer & Lewandowsky, 2019) ★進化論の例 ダーウィンの膨大な観察に基づく証拠とロバスト な現象が存在(特定の観察方法に依存せず、複数 の方法で検証可能) このような現象の存在が、採択可能な理論空間に 強い制約を与えていた ★天体の運動に関する例 何世紀にもわたる天体の動きのパターンに関する データが、理論生成に強い制約を与えていた データ量は増えているものの、質的に問題のある ものが多く、生物学や物理学に匹敵するような強 固な現象の大規模な蓄積がない 教育学・心理学の多くの領域では、理論に強い制 約を与えるようなロバストな現象が幅広く存在し ていない このように考えると,頑健な現象が比較的少ない 当該分野で理論的な進歩がほとんど見られないの は当然のこと ◼ Eronen & Bringmann (2021) をもとに整理
心理学と理科教育における研究方法論改革の歴史 32 帰無仮説検定(NHST)の技術的問題 出版バイアスの指摘 心理学分野の取り組み(Fidler, 2019) 1950- 1960- 1970- より幅広いNHST批判
検定力の低さへの批判 (by Cohen) メタ分析の登場 1980- 2010- 1990- 2000- NHST論争の収束宣言(by Paul Meehl) 検定力は依然として改善せず 編集委員会の小規模な改革 APA Task Force on Statistical Inference (TFSI) TFSIの成果に基づき APA Publication Manual 改訂 有意でない論文の掲載 ベイズ統計の興隆 再現性やオープンサイエンスに関するプロジェクト プレレジ等の取り組み 理科教育分野の取り組み メタ分析の積極的な実施 質的アプローチが主流になる 項目反応理論の導入(e.g., TIMSS1995) デザイン実験アプローチ 国際大規模調査の拡大(e.g., PISA) 混合研究法の普及 ラッシュモデルの普及 サンプリングに関する議論(cRCT) マルチレベルモデル 測定領域の拡大(e.g., 知識、思考、態度) 臨床面接法 サンプルサイズの増加(2桁→3桁) 古典的テスト理論に基づく学力測定 カリキュラム目標に対応した到達度測定
仮想事例の検討(レベルX) 33 問題意識:ある指導介入Aが内容理解に効果的かを検証したい ◆ 1群事前・事後テストデザイン ➢ 対応のあるt検定 ◆ 1群事後テストデザイン ◆
不等価2群事前・事後テストデザイン ➢ t検定、共分散分析 ◆ 不等価2群事後テストデザイン ➢ t検定 ◆ ランダム化比較試験 ◆ 傾向スコアによる調整 ➢ 傾向スコア分析 ◆ 縦断研究 ➢ 交差遅延モデル、 潜在曲線モデル 準実験研究 共 変 量 の 統 制 介入が困難な場合 観察研究 ◆ クロスオーバー試験 ランダムな割り当てが 可能な場合 実験研究
論文での報告事項 34 ◼ イントロダクション(Introduction) ⚫ 課題 ⚫ 先行研究のレビュー ⚫ 仮説、目的、主題
◼ 研究の方法(Method) ⚫ 対象者と除外基準 ⚫ 参加者の特徴 ⚫ サンプリング手続き ⚫ サンプルサイズ、検定力、精度 ⚫ 測定指標と共変量 ⚫ データ収集方法 ⚫ 測定の質、測定器の特性 ⚫ 盲検化 ⚫ 測定の数値的特性 ⚫ 研究デザイン ⚫ データ診断 ⚫ 分析計画 ◆ 量的研究における報告事項(APA, 2020) ◼ 結果(Results) ⚫ 参加者数の推移 ⚫ 基礎集計とデータ分析 ◼ 考察(Discussion) ⚫ 仮説の支持 ⚫ 結果の類似性 ⚫ 結果の解釈 ⚫ 一般化可能性 ⚫ 研究の示唆
再生性、頑健性、再現性の区別 35 ◼ 再生性(Reproducibility) 同じデータと同じ分析方法を用いて、 事前に得られた知見の信頼性を検証する(再解析) ◼ 再現性(Replicability) 過去に得られた知見の信頼性を異なるデータで検証する(追試) 直接的追試:同じ方法
概念的追試:異なる方法 ◼ 頑健性(Robustness) 同じデータ、異なる分析方法を用いて、 過去に得られた知見の信頼性を検証する ⚫ 3つの用語の定義(National Academies of Sciences, 2019)
再生性 36 ⚫ 再生性テストが失敗する理由 1. 手続きの再生の失敗 データ、コード、コードを再現するための分析に関する情報、必要なソフトウェアやツー ルが入手できない、元の分析を繰り返すことができない場合 →単に検証できないことを示している 2.
結果の再生の失敗 再解析の結果、当初報告されたものとは異なる結果が得られた場合 →元の結果が間違っている可能性を示唆 ⚫ 再生性をテストする多くの取り組み (Bakker & Wicherts, 2011; Hardwicke et al., 2018, 2021; Maassen et al., 2020; Nuijten et al., 2016 ) ➢ Artner et al.(2020): 232件の知見のうち、70%しか再生に成功していない ⚫ 再生性を向上させるための取り組み • データとコードを共有(Hardwicke et al., 2018, 2021; Kidwell et al., 2016; Wicherts et al., 2011) ⚫ 前提 同じデータに同じ分析を適用すれば、同じ結果が再現されるはず →原則として、報告されたすべてのエビデンスは再生可能であるべき
頑健性 37 ⚫ 頑健性が低い研究 • どの変数や共変量を含めるかの決定によって結果が左右されるような脆弱な研究が存在 ◼ Silberzahn et al.(2018)
• 29の分析チームに同じ問い・データを与えたところ、分析結果にかなりのばらつきが あった • 分析計画に事前に登録していない場合、p-hackingやoverfittingに関する懸念を増幅 させる可能性がある(Simonsohn et al., 2020; Steegen et al., 2016) Cf. specification curve analysis
再現性 38 ⚫ 前提 • 科学的知見の信頼性は、裏付けとなる証拠の再現性にも左右される。 • 再現性は科学的な発見の必須条件(Schmidt, 2009) ⚫
再現性の検証 • 同じ研究を再度行い、同じ結果が得られるかどうかを確認すること • 何をもって「同じ研究」や「同じ結果」とするかを決めるのは容易ではない ⚫ どうやって同じ研究をするのか? • 類似した研究デザインであっても、サンプル、設定、介入法など、無数の違 いがある(Shadish et al.2002) • 追試を理論的なコミットメントとして理解する(Nosek & Errington, 2020; Zwaan et al., 2018) • 元の研究との無数の違いが、同じ知見に関する証拠を得るためには無関係で あると理論的に考えられる場合、その研究は追試だと言える • この枠組みを適用するならば、直接的/概念的な再現性の区別は不要 (Machery, 2020; Nosek & Errington, 2020)
再現性の評価 39 ⚫ 同じ結果が得られたかを、どのように判断するか ◼ 二項対立的な評価(問題あり) • 追試が元の研究と同じ方向に帰無仮説(p<0.05)を棄却するか(Camerer et al.2018;
Open Science Collaboration, 2015) • 元の研究または追試の知見の信頼区間or予測区間を計算し、 他の推定値が区間内にあるか(Open Science Collaboration, 2015; Patil et al, 2016) • 追試結果が元の研究で検出できたであろう効果量と一致するか(Simonsohn, 2015) • 知見が類似しているか(Open Science Collaboration, 2015) ◼ 連続的な尺度による評価 • オリジナルと追試の知見を比較するベイズファクター(Etz & Vandekerckhove, 2016) • オリジナル研究のヌル分布と事後分布のベイズ的な比較(Verhagen & Wagenmakers, 2014) →結局、二項対立的な判断に変換されてしまう ◼ より成熟した評価方法 • 個々の研究に重点を置くのではなく、メタ分析によって研究を統合することで、効果の大 きさや累積的な証拠に重点を置くようになります(Mathur & VanderWeele, 2020) • 異質性が高い場合、不確実性のある領域として更なる追試が行われていく ➢ 証拠の追加→統合→理解の補強・再構成 のサイクルを繰り返す営み
データ公開の問題点 40 ⚫ データ公開と研究倫理問題 • 個人情報に配慮した適切なデータ公開のあり方 ➢ オリジナルのデータと同様の統計的特性をもつ疑似データを生成し,それらを公開 する手法も提案されている(Nowok, Raab,
& Dibben, 2016; Quintana, 2020) • データ公開に関する議論やガイドラインの不足 • スモールデータの集積と、将来的な統合に向けたデータ管理計画 ⚫ データの標準化 • 可読性の高い整然データ • データ規格の統一(cf. 文部科学省 教育データ標準) • 質的研究のデータの適切な公開方法に関する議論(Aguinis & Solarino, 2019; Chauvette, Schick-Makaroff, & Molzahn, 2019) ⚫ インセンティブの問題 • 公開して得られるメリットよりデメリットの方が多いように感じる? ⚫ 研究者育成の問題 • オープンサイエンスに関する指導を受けてきていない