Slide 1

Slide 1 text

EBPのための論文の読み方 2019.08版 定量分析系 ※ EBP:Evidence Based Planning

Slide 2

Slide 2 text

はじめに n 対象 u これまで定量分析系の論文を読んだ経験がない社会人 n 定量分析系の論文? u この資料の作成に当たって便宜的に,勝手に作った用語 u 定量的な分析を主体とする論文 p ここでの「定量的な分析」は,統計的検定を想定 • 数学的な何らかの証明や,質的観点のみのケーススタディ, 哲学的な論考,などの論文は含まない • EBM※関連の論文や,実験心理学系の論文,などを想定 2 ※ EBM:Evidence Based Medicine ← 正確性よりわかりやすさ重視

Slide 3

Slide 3 text

つまり,こんなの。 n 暗記力が高まる薬品の開発 u 暗記力を高める薬品を作った u 被験者を80人あつめて, p 40人には開発した薬 p 40人にはただのジュース …を,飲ませた u その後,辞典の内容を暗記させ, どれだけ書き出せるかテストした u 薬品を飲んだグループは, 有意にテストの点が高かった u この薬はいいやつ。 3

Slide 4

Slide 4 text

つまり,こんなの。 n 理解力が高まる教育法の開発 u 理解力が高まる教え方を考えた u 被験者を80人あつめて, p 40人には開発した教え方 p 40人には従来通りの教え方 …で,授業した u その後,授業内容の理解度について, テストした u 開発した方法の授業を受けたグルー プは,有意にテストの点が高かった u この方法はいいやつ。 4

Slide 5

Slide 5 text

つまり,こんなの。 n 政策介入効果の検証 u カエルはウサギよりカワイイとい う正しい認識を適切に広めるため, 政策介入をおこなった u ラジオ,テレビ,ネットの3つで それぞれ異なる介入を行った u 介入効果を検証するため,選挙人 名簿を用いた層化2段階無作為抽出 で電話による聞き取りを行った u 普段ネットをよく使う人のみ,介 入後のカエルがカワイイ派が40% 増加していた u カエルはウサギよりカワイイし, 政策介入するならネットがよい。 5

Slide 6

Slide 6 text

目標 n 実務者観点で,論文を斜め読みするコツをつかむ n 概ね信頼できそうかどうかを 大まかに判断するポイントをつかむ 6

Slide 7

Slide 7 text

論文の種類 n 「論文」にもいろいろ u 原著論文・ジャーナル論文 u (国際会議の)プロシーディング u オープンアクセスジャーナル(?) u レター u 予稿・紀要 7 信頼度/価値:高 信頼度/価値:低

Slide 8

Slide 8 text

論文の種類と価値 n 前掲の区分けで行くと,「査読」の有無がポイント n 査読がある方が信頼性・価値が高い n 査読が厳しいほど信頼性・価値が高い n 査読:peer review u 一種の第三者評価 u 原著論文や国際会議は基本的に査読あり p 査読を通過しないと,掲載されない 8 論文の穴は どこかな〜

Slide 9

Slide 9 text

オープンアクセスジャーナル(OA) n オープンアクセスジャーナルは,玉石混淆度が高い n 査読がちゃんとしているかどうか,内容は信頼に足 るかどうか,など,慎重な検討が必要 9

Slide 10

Slide 10 text

定量分析系論文の中身 n なにかの仮説・提案があって n それが正しい・良いかどうか確かめたい n そこで,実験などでデータを集めて仮説を検証 n 検証結果がどうだったか議論 10 残念ながら多くの場合,仮説が正しかったら 論文になる(執筆&採録される)ことが多い ここが定量!

Slide 11

Slide 11 text

定量分析系論文の構造 n 中身は難解ですが,構造は単純 n 仮説 u XXXはXXXでは? u AよりBの方がよいのでは? n 作業 u 関連する既存研究を整理 u 仮説が新手法などを提案の場 合は,ここにレシピも u 本資料の読者は読み飛ばして もOK n 検証(実験) u 仮説の検証を行う u 基本はデータを集めて比較 n 考察 u 検証の結果はどうだったか n まとめ u まとめ 11

Slide 12

Slide 12 text

هड़͍͋·͍ࡑͰ ୁั͢Δʂ どこ・何を読むか:Step0 n 心構え u 論文を読むときは「推定有罪」の原則 p 基本,信用しない,疑ってかかる • きちんと査読を経た論文であっても,意外とミスはあります p 詳細が不明なときは,詳細として想定されうる 最も悪い・ダメなケースとして取り扱う 12

Slide 13

Slide 13 text

再現性の危機 n レシピや評価の詳細を記載するのは, 第三者の検証を担保する側面も n 近年,年間に1人の人間が読めないほどの論文が… n 成果主義や任期制と相まって論文数ゲームも過熱 n 再現性のない(内容が再現できない)論文も多数… u Natureの1500人調査で70%は再現性なし (2016年7月) u 心理学の論文100本中,追試で有意差アリは36% (2015年8月) u などなど 13 参考: https://junkato.jp/ja/blog/2017/07/05/artifact-review- for-replicability/ ※ 再現性の有無と,悪意の有無は別問題

Slide 14

Slide 14 text

どこ・何を読むか:Step1 n ポイント u なにが目的で u なにをどうして u なにがわかったか? 14 ちゃんとした論文であれば 概要にこれらの要素が 書いてある 概要だけで結論を信用してはダメ。 この時点では「これはパス」 「これは保留」の判断まで。

Slide 15

Slide 15 text

どこ・何を読むか:Step2 n保留にした論文の中身を読む u 実務者&EBPの観点であれば,斜め読みでOK nポイント u ロジックは適切か? u 目的に対して検証方法は適切か? p 対象,手続き,手法,などなど u 結論のリミテーションは? p どこまで一般化できるか 15

Slide 16

Slide 16 text

ロジックの適切さ n バリエーションが多すぎるので割愛 16 連言錯誤 後件肯定 前件否定 選言肯定 4個概念の誤謬 媒概念不周延の誤謬 公正世界誤謬 早まった一般化 誤った二分法 間違った類推 例外の撲滅 偏りのある標本 前後即因果の誤謬 因果関係の逆転 論点先取 曖昧語法 連続性の虚偽 多義語の誤謬 多重質問の誤謬

Slide 17

Slide 17 text

検証方法の適切さ n この方法でやりたいこと(目的)は評価できるか? u 被験者などは目的に合致しているか? u 被験者集団のサイズは十分か? u 実験のデザインは目的に合致しているか? u 統計的検定を行う場合,適切な手法が選ばれているか? 17 後のスライドで別途解説

Slide 18

Slide 18 text

リミテーション n 定量分析系論文は基本的に「ある条件下で…した場合, XXが成り立つ/XXになる確率が高い(…かも?)」と主張 n 「ある条件」が変わったときにも成立するかは不明 u 「ある条件」の自由度の高さ=一般化可能性 n リミテーション u 論文で得た結論はどういう時に通用するか,もしくは通用しないか, という適用範囲 u リミテーションがはっきりしない論文は怪しい… u 「何にでも使える」「いつでも成り立つ」はかなり不審 p こういう発明・発見は滅多にないし,検証も困難 p だからこそ,そうした理論を作れたら/見つけられたらスゴイ! 18

Slide 19

Slide 19 text

n ロジックや検証方法が適切で,リミテーションも 明確であればエビデンスとして採用してもよい u ただし,同等にエビデンスとして採用するに足る 対立する見解が存在する場合も…? p 一つだけ見つけて満足するのは危ないかも 19 青信号は「進め」ではなく, 「進んでも良い」

Slide 20

Slide 20 text

検証の適切さ n ドリル形式でポイントだけを見ていきます n より詳しい内容は他の書籍で 20

Slide 21

Slide 21 text

1問目 21 n 暗記力が高まる薬品の開発 u 児童の暗記力を高める薬品を作った u 被験者に大学生を20人あつめて, 開発した薬を飲ませた u その後,計算ドリルを解かせる テストを実施した u 平均80点と高い点数だった u この薬はいいやつ。 問題点は? (少なくとも3つ)

Slide 22

Slide 22 text

1問目 22 n 暗記力が高まる薬品の開発 u 児童の暗記力を高める薬品を作った u 被験者に大学生を20人あつめて, 開発した薬を飲ませた u その後,計算ドリルを解かせる テストを実施した u 平均80点と高い点数だった u この薬はいいやつ。 児童が対象なのに, 実験は大学生で実施 暗記力を試すのに, 計算のテストを実施 比較対象もないのに, 高いかどうかはわからない

Slide 23

Slide 23 text

2問目 23 n 暗記力が高まる薬品の開発 u 児童の暗記力を高める薬品を作った u 被験者に小学生を20人あつめた u その後,薬を飲む前と後で1回ずつ 辞書を読んで覚えている内容を 書き出すテストを実施した u 薬を飲んだ後のテストの点数は 飲む前に比べて有意に高かった u この薬はいいやつ。 問題点は? (少なくとも1つ)

Slide 24

Slide 24 text

2問目 24 n 暗記力が高まる薬品の開発 u 児童の暗記力を高める薬品を作った u 被験者に小学生を20人あつめた u その後,薬を飲む前と後で1回ずつ 辞書を読んで覚えている内容を 書き出すテストを実施した u 薬を飲んだ後のテストの点数は 飲む前に比べて有意に高かった u この薬はいいやつ。 暗記ものなのに,同じ辞書 を覚えて書き出す…だと, 2回目の方が成績が上がる 薬の効果か,学習効果か, よくわからない ABテストと呼ばれる実験デザ インです

Slide 25

Slide 25 text

3問目 25 n 暗記力が高まる薬品の開発 u 児童の暗記力を高める薬品を作った u 被験者として,ある小学校から 2クラスの協力を得て p 1クラスには開発した薬 p もう1クラスにはただのジュース …を,飲ませた u その後,辞書を暗記して覚えている 内容を書き出すテストを実施した u 薬を飲んだクラスのテストの点数は 他方に比べて有意に高かった u この薬はいいやつ。 問題点は? (気になる点が1つ)

Slide 26

Slide 26 text

3問目 26 n 暗記力が高まる薬品の開発 u 児童の暗記力を高める薬品を作った u 被験者として,ある小学校から 2クラスの協力を得て p 1クラスには開発した薬 p もう1クラスにはただのジュース …を,飲ませた u その後,辞書を暗記して覚えている 内容を書き出すテストを実施した u 薬を飲んだクラスのテストの点数は 他方に比べて有意に高かった u この薬はいいやつ。 もともと片方のクラスの方 が点数が高かった可能性も (バイアスの存在) 比較対照実験と呼ばれる実験デ ザインです

Slide 27

Slide 27 text

4問目 27 n 暗記力が高まる薬品の開発 u 児童の暗記力を高める薬品を作った u 被験者に2万人の小学生を集め ランダムに2群に割り付けし… p 1万人には開発した薬 p 1万人にはただのジュース …を,飲ませた u その後,辞書を暗記して覚えている 内容を書き出すテストを実施した u 薬を飲んだ群のテストの点数は 他方に比べて有意に高かった u この薬はいいやつ。 問題点は? (微妙に気になる点が1つ)

Slide 28

Slide 28 text

4問目 28 一般的な統計手法では, サンプル数が大きいと, わずかな差でも有意差が! もしかすると,点数の差は 100点満点で0.1点かも? ランダム化比較対照実験(RCT) と呼ばれる実験デザインです n 暗記力が高まる薬品の開発 u 児童の暗記力を高める薬品を作った u 被験者に2万人の小学生を集め ランダムに2群に割り付けし… p 1万人には開発した薬 p 1万人にはただのジュース …を,飲ませた u その後,辞書を暗記して覚えている 内容を書き出すテストを実施した u 薬を飲んだ群のテストの点数は 他方に比べて有意に高かった u この薬はいいやつ。 (もちろんサンプルが少ないのもダメ)

Slide 29

Slide 29 text

5問目? 29 n 暗記力が高まる薬品の開発 u 児童の暗記力を高める薬品を作った u 被験者に100人の小学生を集め ランダムに2群に割り付け… p 50人には開発した薬 p 50人にはただのジュース …を,飲ませた u その後,辞書を暗記して覚えている 内容を書き出すテストを実施した u 薬を飲んだ群のテストの点数は 他方に比べて2割高く,有意差も 認められた u この薬はいいやつ。 注意点は? (?)

Slide 30

Slide 30 text

5問目 n 基本的には良さそう u 論文査読ではここから, 正しい統計手法が使われていそうか, 差を生み出す隠れた要因がなさそうか,など調査 u 小学生だと年齢,学年や男女差が成績に大きく影響する可能性 そのあたりの条件がどうなっているかは要注意 n 政策や経営に活用の場合は,この薬の製造コストや 適用することの倫理性,副作用,長期作用などなど検討 30

Slide 31

Slide 31 text

より望ましいデザイン 31 n 暗記力が高まる薬品の開発 u 児童の暗記力を高める薬品を作った u 被験者に100人の小学生を集めて※1 ランダムに2群に割り付け… p 50人には開発した薬 p 50人にはただのジュース …を,飲ませることにした u その後,両群とも薬・ジュースを飲む 前と後で,テスト用紙※2に記載された 単語を5分暗記して,10分後に覚えて いる内容を書き出すテストを実施した u 薬を飲む前は両群で点数に有意差は なかったが,事後では薬を飲んだ群は 他方に比べて点数が2割高く,有意差も 認められた u この薬はいいやつ。 ※2: 前後でそれぞれ問題は異なるものとする 事前 事後 薬 ジュース 点数 ※1: 群ごとの学年,性別比などは別途記載とする

Slide 32

Slide 32 text

誤差とバイアス 32 真値(上図だと中心)からの バラツキ 真値からの系統的なズレ 誤差 (Error) バイアス (Bias)

Slide 33

Slide 33 text

誤差とバイアス 33 誤差 :大 バイアス:大 誤差 :小 バイアス:大 誤差 :小 バイアス:小 誤差 :大 バイアス:小 実際には,誤差の程度はわかるが, バイアスの程度はわからない (現実は十字マークがない状態)

Slide 34

Slide 34 text

誤差とバイアス n バイアスは誤差の一種 u バイアス = 系統誤差 n 誤差については,特に実験物理学などで “誤差論”として,系統的に整理 n この資料ではわかりやすさ優先で,あいまいに 34

Slide 35

Slide 35 text

バイアス n 選択バイアス u 標本を抽出する際に発生するバイアス p インターネットで被験者を募る場合, そもそもインターネットをよく利用する人で, 被験者募集のページを見るようなタイプの人しか来ない • 20代,30代だと特殊ではないかもしれないが, 70代の応募者となると,かなり特殊なプロファイルの可能性 p 暗記力を向上させる薬の被験者を募る場合,自由応募で来る人は, そもそも暗記力に不安がある可能性 p 霞ヶ関で働く人の考える世間は,地方で契約社員として 働いている人の考える世間とは違っている可能性 35

Slide 36

Slide 36 text

イドラ n 種族のイドラ(生物) u 人間の生物的制約から生じるバイアス n 洞窟のイドラ(個人経験) u 個人の経験から生じるバイアス n 市場のイドラ(伝聞) u 言葉や思考から生じるバイアス n 劇場のイドラ(権威) u 権威や伝統に無批判に従うことで生じる誤り 36

Slide 37

Slide 37 text

相関 n 線形相関 u 一般的に「相関」という時は線形相関 u 2つの変数の間に線形の関係があるかどうか p Xが大きい/小さいとき,Yが大きい/小さい。 37 このタイプの関係はわかる このタイプの関係はわからない

Slide 38

Slide 38 text

因果と相関 n 因果と相関は関係するけど要注意! u 相関は因果の方向性について言及していない p ex. 歩行速度と心拍数は相関 • 歩行速度が速いと,心拍数が高くなる ← ただしい • 心拍数が高いと,歩行速度が速くなる ← まちがい • この例だとわかりやすいので,間違っているとわかるが, 相関から都合の良い因果を導くことはよくある 38

Slide 39

Slide 39 text

相関・因果の注意点 n 見えていない要素が影響していることも 39 Latent X Y Latent X Y X Y 関係を見誤ると,操作しても 無意味・非効率

Slide 40

Slide 40 text

問題 40 n 世帯年収と子供の成績 u 子供の成績に関連しそうな指標を いろいろ調べて見た u 世帯年収と成績は相関している u 子供の成績が上がれば, 世帯収入UPで,景気も向上!! 問題点は? (少なくとも2つ)

Slide 41

Slide 41 text

解答例 41 手当たり次第に比較すると, 疑似相関の可能性UP 「そうはならんやろ。」 因果の方向が違うのでは… n 世帯年収と子供の成績 u 子供の成績に関連しそうな指標を いろいろ調べて見た u 世帯年収と成績は相関している u 子供の成績が上がれば, 世帯収入UPで,景気も向上!! 相関はあるかもしれないが, 隠れた要因があるかも?

Slide 42

Slide 42 text

疑似相関 n 計算上,相関はあるが実際は無関係なこと n 例えば… u ニコラス・ケイジの映画出演数と, プールの水難事故発生件数は相関がある p ニコラス・ケイジが暇だと,水難事故は発生しない? p 水難事故を起こせば,ニコラスの映画が増える? u アメリカでは,商店街の総収入と, 計算機科学の博士号取得者数は相関がある p 最先端の計算機科学は商店街の活性化に直接役立つ?? p 商店街で儲かった人たちは計算機科学の博士号を取りに行く? 42 cf. 偽陽性

Slide 43

Slide 43 text

隠れた要因 n 世帯年収と成績は相関している u データ上は確かにそうかも…でも… u 世帯年収が高いと… p 保護者が学習の重要性をよく認識している p さらに学習塾に通わせるなど,教育にコストをかけられる p 上記のプロファイルが似通った層で付き合うので, 子供も勉強するのが当たり前と認識している u …と言った確率が上がって,成績が上がるのかも? p つまり,本当は保護者の学習の重要性の認識が最重要で, それが世帯年収と相関していたのかも?? • 「景気が良くなって世帯年収が上がれば,成績UP!」にはならない 43

Slide 44

Slide 44 text

さらに勉強するために n 大野木,中沢:心理学マニュアル 研究法レッスン,北大路書房,2002 http://www.kitaohji.com/books/2264_7.html n 数理社会学会:社会の見方、測り方―計量社会学への招待,勁草書房,2006 http://www.keisoshobo.co.jp/book/b26175.html n メルツォフ:クリティカルシンキング 研究論文篇: 心理学と関連領域,北大路書房,2005 http://www.kitaohji.com/books/2459_3.html n 山田,村井:よくわかる心理統計(やわらかアカデミズム・わかるシリーズ),ミネルヴァ書房,2004 http://www.minervashobo.co.jp/book/b48724.html n アメリカ心理学会:APA論文作成マニュアル 第2版,医学書院,2011 http://www.igaku-shoin.co.jp/bookDetail.do?book=81317 n エヴェラ:政治学のリサーチ・メソッド,勁草書房,2009 http://www.keisoshobo.co.jp/book/b35050.html n S.B Hulley, et al.:医学的研究のデザイン 第4版 - 研究の質を高める疫学的アプローチ -, メディカルサイエンスインターナショナル,2014 https://www.medsi.co.jp/books/products/detail.php?product_id=3400 44

Slide 45

Slide 45 text

演習 n 政策介入効果の検証 u カエルはウサギよりカワイイという 正しい認識を適切に広めるため, 政策介入をおこなった u ラジオ,テレビ,ネットの3つで それぞれ異なる介入を行った u 介入効果を検証するため,選挙人名 簿を用いた層化2段階無作為抽出で 電話による聞き取りを行った u 普段ネットをよく使う人のみ,介入 後のカエルがカワイイ派が40%増 加していた u カエルはウサギよりカワイイし, 政策介入するならネットがよい。 45 大小様々なレベルで 様々な問題のある内容です 問題を列挙,整理し, 修正案を考えましょう ※ こんな論文が採録される可能性はほぼゼロです J

Slide 46

Slide 46 text

演習 n 実際の論文も読んでみましょう。 u MOOCにおける英語・日本語字幕の学習効果 DOI https://doi.org/10.24458/jaems.23.1_1 u 模擬授業を取り入れた教科教育法における受講者のICT活 用指導力の分析 DOI https://doi.org/10.24458/jaems.22.2_21 u 初等中等教育におけるeラーニング活用教育モデルの構築 と検証 DOI https://doi.org/10.14926/jsise.29.76 u eラーニング・対面講義・グループワークに対する学習者 の認知と成績との関連性 DOI https://doi.org/10.14926/jsise.28.247 46 ※ J-Stage で 適当に選んだものです

Slide 47

Slide 47 text

責任者はどこか… n 論文の内容に関しては当然著者 u 明らかに大きなミスがあるのに査読を通っていれば,査読者にも 少しは責任がある…かも。 n 論文の内容を採用するか,採用して何に使うか, 採用した結果どうなったか,は採用側の責任 u 誤った論文の主張を採用してしまい,好ましくない結果が起きた… u この場合,第1責任者は基本的に採用した側に p データがねつ造されたものだったりした場合だけは例外 47

Slide 48

Slide 48 text

データは真実を語るか? n 当然,語らないときもある u 測定対象や粒度など“もと”が間違っていたら当然ダメ u データは正しくても,読み取りを間違っていたらダメ …などなど n 数値データが無いからエビデンスにならない! …ということも,当然ない u 十分データが取れないこと,検証のしようがないこと, まだ誰も考えてないこと,なども,世の中には沢山あったりする u エスノメソドロジーなど,質的分析も当然大事 n 結局,“信じるか信じないかはあなた次第” u データがある方が「より合理性が高そう」だし, 検証/議論の可能性は高そう 48 ← この辺りは社会学の先生とかに聞いてみよう

Slide 49

Slide 49 text

実社会におけるRCTのむつかしさ n “社会現象”はそもそも統制することが困難 u 「XXという手法が上手くいった!」 p 景気動向がよかったからじゃないの? p XXX国のXXXX地域だったからじゃないの? p 数年前にXXXという政策を導入していたからじゃないの? n 社会は基本的に不可逆 u 「XXXはダメだったか,今度はYYYYを試してみるか」 p XXXによって既に,YYYYには耐えられない社会状況になっている可能性 p XXXの失敗経験により,社会が次の実験を受容しない可能性 n 倫理の問題も… u 「学力がすごく上がるかもしれないXXXを試したい!」 p A学校にはXXX,B学校は従来手法…もし,XXXが効果がある場合, B学校の人は機会損失,もしXXXが悪影響ならA学校の人が機会損失 49 RCTが何にでも適用可能・すべき…なわけではない,特に実社会問題には適用困難

Slide 50

Slide 50 text

説明原理と設計原理 n 説明原理(仮説的構成概念?) u こう考えたら,説明・理解できる/しやすいよね。的な? n 設計原理 u こうやったら,これこれが出来るよ。というレシピ的な? n 理解をするための枠組と,作るための枠組みは,独立かも u 理解するために行った研究の論文は,直接は設計に活かせない… と,いうようなことも u 論文の方向性がどちらなのかを考えてみることも大事かも? 50

Slide 51

Slide 51 text

免責&License n 免責 u 内容その他について,完全無保証です n License u クリップアートや,一部の画像 p 別に著者が存在しますので,改変等の際には, それぞれのライセンスに準じてご利用ください p クリップアートのライセンス • http://www.chojugiga.com/terms/ • http://icooon-mono.com/license/ u その他の部分(文字部分のほとんど) p 著作権の放棄はしませんが,再配布,改変,配信等ご自由に! 51