Basic of Classical Statistics for Practical Users

Slide 1

Slide 1 text

実務のための統計入門 2020.03版主に検定手法と，相関係数の選び方（2020.04.11微修正）

Slide 2

Slide 2 text

はじめに n 対象 u とにかく，統計を使って分析しないといけない実務家 n なんか目的と手段の関係がおかしくない？ u おかしいです J u とはいえ，「やれって言われたので検定しなきゃ…」みたいな感じで作業をする方も現実にはいるので，そういう場面で，とりあえず間違ってはいないかな？という最低限のレベルを満たすことを目指します 2 ← 正確性よりわかりやすさ重視

Slide 3

Slide 3 text

そもそもなんで統計か？ n 沢山データがあったときに… u その特徴をうまく要約して伝えたり p 例：「このクラスのテストの平均値は36点でした」 u グループに違いがあるのかどうかを明らかにしたり p 例：「1組と2組を比べると，1組の平均点は有意に5点高い」 …したい・できると便利 3 統計をつかうとできる！

Slide 4

Slide 4 text

違いがあるかどうか？？ n 「1組と2組を比べると，1組の平均点は5点高い」 u 5点も差があるから，1組と2組は違う！ n 測定には“誤差”がつきもの u 単純に「平均値が違うから違う！」とはならない p 2つのサイコロを各3回振って平均が1違った…2つは違う？ n 何かの差があったときに，それが誤差の範囲かどうか…を調べる方法 4 とは，実は言えないそれが統計的検定

Slide 5

Slide 5 text

5 いろいろな統計手法

Slide 6

Slide 6 text

統計手法いろいろ 6 ベイズ統計パラメトリックノンパラメトリック少数サンプルから全体を推定あるものがすべて/ 場合によりデータ生成も推計統計 “もともとの母集団は正規分布に従う” という仮定を置くことで，精度良く分析母集団についての仮定は置かない正規分布でないものでも使えるコンピューターの力で，いろいろ便利な機能を（無理矢理）実現！推計統計の方が古い．昔はデータも取りにくく，計算も手作業なので，少ないデータから少ない手数で精度良く，全体を俯瞰したかった今は機械の力でいろいろできるベイズ統計に脚光（機械学習などに不可欠）

Slide 7

Slide 7 text

ベイズ統計の基本的な考え方 n 観測データが増えるほど，より正確な分布を取得できる u 分布の修正には多重積分を行う必要が… u 解析的に解くのでは無く，モンテカルロシミュレーションなどでおおまかに解くことが可能になり使えるように p ものすごい回数の計算が必要になるため，手計算では実現不可能だった 7 適当な分布を設定観測データで分布を修正ここの計算が大変 MCMCなどで無理矢理解く

Slide 8

Slide 8 text

この資料で扱う範囲 n 古典統計（記述統計・推計統計） u 具体的には… n ベイズ統計はもちろん，因果推論，因子分析，などの話題もこの資料では扱わない u 基本的には，統計的検定と線形相関を扱いたい 8 パラメトリックノンパラメトリック

Slide 9

Slide 9 text

記述統計 n 前のスライドでいきなり出てきた謎ワード u 合計や平均，分散などを計算する…みたいな意味 p 合計や平均を「記述統計量※」と，呼ぶことも 9 要するに Excel でパパッと計算して出せそうなヤツ ※ 後述する確率分布の分布形状を上手く表現する指標群

Slide 10

Slide 10 text

10 いろいろな尺度

Slide 11

Slide 11 text

尺度いろいろ 11 n “数値データ”にも色んな種類が u 種類毎にできること・していいことの範囲が違います u 基本の種類（尺度）は4種類分類尺度（名義尺度）順序尺度間隔尺度比尺度単に区分けのためだけに数値化したもの例：電話番号，「女性は1，男性は2 と記入」大小関係についてのみ意味を持つもの例：マラソンの入賞順位順序に加えて，その間隔が定まっているもの例：摂氏温度間隔尺度に加えて，原点が一意に定まり比を求められるもの例：距離，水の量（殆どの物理量）

Slide 12

Slide 12 text

12 分類尺度（名義尺度）単に区分けのためだけに数値化したもの例：電話番号，「女性は1，男性は2 と記入」 n できること u 基本的には，分類ごとに数を数えて量を比べる p 「分類」なので，他の計算の分類軸にする • 分類間のオッズ比を求めたり，分類間の代表値の差の検定をしたり n やってはいけないこと u 名義尺度そのものの数値計算全般 n ダメなアンケートの解析 u 性別欄に女性は1，男性は2 と記入してもらった u 性別欄のデータの合計が1421，平均が1.45 だった性別が 1421，1.45 とは？性別って足したり，割ったりできるの？＆たまたま女性を1にしただけで，女性が9999，男性が3，でもよかった

Slide 13

Slide 13 text

13 n できること u 厳密には，分類尺度に加えて大小比較 n やってはいけないこと u それ以外順序尺度大小関係についてのみ意味を持つもの例：マラソンの入賞順位 Goal 1位 2位 3位順序尺度のイメージ 1位がゴールした後，0.1秒後にゴールしても，2時間後にゴールしても2位とにかく，前か後か，大きいか小さいかだけが問題

Slide 14

Slide 14 text

基準1：基準2： 14 n できること u 分類尺度に加えて，足し引き n やってはいけないこと u 割り算，かけ算※ 間隔尺度は原点を自由に決められるため，比率を出すと変なことに… 基準1では… Aが1，Bが3 なので， B は A の 3倍基準2では… Aが-1，Bが1 なので， B は A の -1倍間隔尺度順序に加えて，その間隔が定まっているもの例：摂氏温度，日付 3 4 -2 -1 0 B A 1 2 0 1 2 !? 基準の取り方で，比率が全く異なるため，意味をなさないたとえば，摂氏温度・華氏温度は「温度」と言うものについてそれぞれ任意に基準を与えているしたがって，これらは間隔尺度（40度のお湯は20度の二倍の熱さ！…ではない） ※ 平均算出は値同士の直接の乗除算ではなく，合計値を個数で割っているのでやってもOK

Slide 15

Slide 15 text

15 n できること u 分類尺度に加えて，乗除算（＝四則演算全部） n やってはいけないこと u 四則演算は全部できるので，計算面では制約はない比尺度間隔尺度に加えて，原点が一意に定まり比を求められるもの例：距離，水の量（殆どの物理量） 3 4 B A 1 2 0 3m は 1m の3倍だし， 2kg は 4kg の 0.5倍ある・ないがはっきりしていて，数える・計れるものは大抵比尺度（摂氏0度は温度が無いわけでは無い，時間も存在しないという状態はない）

Slide 16

Slide 16 text

イメージをつかもう 16 分類尺度（名義尺度）順序尺度間隔尺度比尺度 1 3 104 52 9 1 2 3 4 5 1 2 3 -1 0 1 2 3 -1 0 1 2 -1 0 -2 1 -3 -1 0 -2 … … … … … フリーダム！順番はあるが，間隔はバラバラ間隔は一定だが，原点は自由間隔は一定で，原点も固定

Slide 17

Slide 17 text

尺度とできること 17 分類尺度（名義尺度）順序尺度間隔尺度比尺度大きさ比較差比

Slide 18

Slide 18 text

尺度と情報量（解像度） n 当然ながら… u 情報量が多いものを削減することは可能 p 比尺度を間隔尺度に，間隔尺度を順序尺度にすることは可能 p 順序尺度を間隔尺度に…は不可能 18 分類尺度（名義尺度）順序尺度間隔尺度比尺度 < < <

Slide 19

Slide 19 text

19 n 実は多くのアンケートの尺度は「順序尺度」 u 本当は平均を取ったりしてはいけない p 平均などを算出できるのは間隔尺度から u アンケートなどでは，順序尺度を間隔尺度と見なす p 間隔尺度に見なせるように設定する必要がある順序尺度間隔尺度と ─ 理論と実務の間 ─ 1/3 例：この資料はわかりやすいですか？とてもわかりやすいわかりやすいわかりにくいとてもわかりにくいどちらでもない「とてもわかりやすい」と「わかりやすい」の間の間隔と，「わかりやすい」「どちらでもない」の間隔が同じかどうかは不明…

Slide 20

Slide 20 text

20 順序尺度間隔尺度ととてもわかりやすいわかりやすいわかりにくいとてもわかりにくいどちらでもない「とてもわかりやすい」と「わかりやすい」の間の間隔と，「わかりやすい」「どちらでもない」の間隔が同じ …かどうかは不明だが，まあ，同じとみなせば間隔尺度としていける（みなし間隔尺度） 2 1 0 -1 -2 許せそうなケース ○ ─ 理論と実務の間 ─ 2/3

Slide 21

Slide 21 text

21 順序尺度間隔尺度ととてもわかりやすいわかりやすいややわかりにくい全くわからないどちらでもないぱっと見た感じでは良さそうだが，文言のバランスが違うため，これも「みなし間隔尺度」として扱うのは厳しい… 2 1 0 -1 -2 とてもわかりやすいわかりやすいわかりにくいとてもわかりにくい 2 1 -1 -2 「わかりやすい」と「わかりにくい」の間隔が2，他が1なので，これはさすがに「みなし間隔尺度」として扱うのは厳しい… 許せないケース × ─ 理論と実務の間 ─ 3/3 許せないケース ×

Slide 22

Slide 22 text

22 いろいろな分布

Slide 23

Slide 23 text

確率分布 n 物事が起きる確率の分布 u どの事象も同じ割合で起きる：一様分布 p サイコロは特定の目だけ良く出る…ということはない • 無限回試行したら，1/6 になる u ある平均値の周りのものは良くおきる：正規分布 p 身長は150-180cmまで均等…ということはない • 170cm位が平均であれば，その辺りが一番多く，極端な値は少ない 23

Slide 24

Slide 24 text

確率分布 n 世の中にはいろいろな分布が… u 代表的なものが「正規分布（ガウス分布）」 24 出典：wikipedia

Slide 25

Slide 25 text

正規分布（ガウス分布） n 平均値をピークとして，左右対象に確率が減少していくような，釣り鐘型の分布 u “偶然誤差”は正規分布に従うことが知られている u 身長や体重も正規分布によく従うことが知られている 25 平均値正規分布の分布形状

Slide 26

Slide 26 text

いろんな分布の例 26 正規分布べき分布正規分布は代表的な分布ではあるが，それ以外の分布も多数あり，あらゆるデータが正規分布するわけではないことに注意ハンマーを持つと，あらゆるものがクギにみえる

Slide 27

Slide 27 text

正規分布に従わない事象の例 n 企業の時価総額 u 企業は沢山あるが，時価総額は正規分布していない n Instagram のフォロワー数 u 有名人などはものすごい数のフォロワーがいるが，多くの人はせいぜい2桁どまり n YouTube の再生回数 u YouTuberとして成功している人は意外と少ない多くの動画は100回も再生されていなかったりする n ほかにもいろいろ 27 あるいは，少数の持つモノと，多数の持たざるモノの例

Slide 28

Slide 28 text

論文の被引用件数 28 arXiv から収集した論文のうち，引用数が99件までの論文数期間： 2014〜2018年対象論文数： 572,898件データなし： 2,103件引用0〜99件： 566,817件引用件数最大は 9,999回 2020.01.22時点での収集データ．被引用データは Semantic Scholar を通じて取得

Slide 29

Slide 29 text

29 いろいろな代表値

Slide 30

Slide 30 text

代表値 n つまり平均値とか，そういうやつ。 u その集団の性質を一つで上手く表現できるような数値 p 平均値，中央値，最頻値など p 平均値もいろいろ • 算術平均：一般的に「平均」といったらコレ • 幾何平均：変化率の平均を取るなら • 調和平均：時速などの計算をするなら • …など u 理想的な正規分布では，平均値，中央値，最頻値が一致 p そうでない場合は，色々と注意が必要！！！ 30

Slide 31

Slide 31 text

さまざまな代表値 n 平均値（算術平均） u 観測値の総和を，観測点数でわったもの u 一種の重心的なモノ n 中央値 u データを大きさ順に並べたときの真ん中の値 u データが偶数の時はちょっと調整したりする n 最頻値 u 一番よく出てくる値 31 cf. 四分位値代表値毎に表しているもの・意味するものは異なる

Slide 32

Slide 32 text

0 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 出席番号点数 1 1 2 13 3 14 4 13 5 10 6 12 7 13 8 11 9 13 10 16 たとえばこんな 32 人数平均値： 11.6点中央値，最頻値：13点タカシ君は平均11.6点のテストで1点を取りました。先生はタカシ君に指導をすべきでしょうか？点数

Slide 33

Slide 33 text

たとえばこんな 33 人数出席番号点数 1 1 2 2 3 1 4 1 5 2 6 1 7 2 8 3 9 3 10 100 0 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 平均値： 11.6点最頻値：1点中央値：2点タカシ君は平均11.6点のテストで1点を取りました。先生はタカシ君に指導をすべきでしょうか？点数

Slide 34

Slide 34 text

我が国における世帯所得 34 厚生労働省：平成 29 年国民生活基礎調査の概況景気対策に 100億円を配布するとして，閾値には何を使うべき？閾値無しで全世帯に均等割？平均以下で均等割？中央値？最頻値？

Slide 35

Slide 35 text

35 正規分布のいろいろ

Slide 36

Slide 36 text

正規分布の位置・形状を決めるもの n 平均値と分散（標準偏差）の2つ u 平均値：山の中心位置を決める u 標準偏差：裾野の広さ（山の傾斜）を決める 36 stdv = 5.0 stdv : Standard Division（標準偏差） stdv = 10.0 stdv = 20.0 平均値は左右にシフトするだけだが，標準偏差が変わると印象は大きく変わる

Slide 37

Slide 37 text

正規分布の形状を決めるもの n 標準偏差はおなじで，平均値が違う例 37

Slide 38

Slide 38 text

分散？標準偏差？ n 先ほどの図でいうと，山の裾野の広さのこと u 学生1000人，平均点50点のテストがあったとして… p 最低 0点，最高 100点 p 最低 30点，最高 70点 p 最低 40点，最高 60点 p 最低 50点，最高 50点 …など，いろんなパタンがあり得て，それぞれ意味が違いそう 38 これらは平均値だけではわからないのでバラツキの程度＝分散も見ることがとても大事

Slide 39

Slide 39 text

もう少しちゃんとした分散 n 分散 u 各標本の平均値からのズレの程度の平均 n 標準偏差 u 分散の平方根 39 3 4 B A 1 2 0 ざっくりしすぎ？とは言え，数式を嫌がる人も多そうなので… 以下のような2点しかないデータでイメージ平均値 ※ホントは母集団の…と，標本の…で違いがあります．これは母集団の．

Slide 40

Slide 40 text

分散のイメージ 40 3 4 B A 1 2 0 平均値分散は平均値からのズレの程度なので，どの位離れているかを知りたい平均値から標本値（AとかBの値）を引いたらいいんじゃない？ Aのズレ＝平均2 − 1 ＝ 1 Bのズレ＝平均2 − 3 ＝ -1 とりあえず2乗したら，全部正の値になるからいいんじゃない？ Aのズレ＝（平均2 − 1）の2乗＝ 1 Bのズレ＝（平均2 − 3）の2乗＝ 1 !? ズレの程度は同じ 1 のハズなのに，符号が違ってしまっている 1/2 符号がそろった！ ※ホントは母集団の…と，標本の…で違いがあります．これは母集団の．

Slide 41

Slide 41 text

分散のイメージ 41 3 4 B A 1 2 0 平均値分散は平均値からのズレの程度なので，どの位離れているかを知りたい 2/2 ここまででA, B それぞれのズレの程度は分かったでも，今知りたいのは全体のヤツ全体って言うことなら，そのズレの平均取ったらいいんじゃない？というわけで，やってみた（Aのズレ＋ Bのズレ）/ 2 ＝ 1 これが分散 ※ホントは母集団の…と，標本の…で違いがあります．これは母集団の．

Slide 42

Slide 42 text

分散から標準偏差へ n 標準偏差は分散の平方根と定義していた u なんで？？？ u さっき，A, B のズレの程度を計算するときに2乗したから p 世の中には細かいことを気にする人がいて… • 「さっき2乗したから単位がズレてるじゃん！」とか言いにくる p はいはい，わかりましたー。2乗したのが嫌だっていうんなら，平方根を取ってもとに戻せばいいんでしょ！！ 42 これが標準偏差 ※ホントは母集団の…と，標本の…で違いがあります．これは母集団の．

Slide 43

Slide 43 text

分散のイメージ 43 平均値このズレの程度の（2乗したヤツの）平均分散（標準偏差）ここまできたら怖くないと思うので，いつの日にか，数式も眺めてみてください ※ホントは母集団の…と，標本の…で違いがあります．これは母集団の．

Slide 44

Slide 44 text

理想的な分散とは？ n そんなものは存在しない u テストであれば，0点から 100点まで広がってほしい p その方が弁別力（区分けのしやすさ）が高まる u 何かの機能の評価であれば，小さくなってほしい p 誰がどうやっても，同じ感じになってほしい p 例 • 平均点10で，分散がとても大きい：人によって0，20などばらつく • 平均点 6で，分散はとても小さい：だれがやっても 6前後をとれる 44 目的や比較対象に照らして，適時意味を読み取るしかない

Slide 45

Slide 45 text

45 統計的検定の考え方

Slide 46

Slide 46 text

統計的検定とは？ n グループ間に差があるのかどうか調べるような方法 u 測定には誤差がつきもの p 2つのサイコロA, Bを用意して，それぞれ10回ずつ振る p Aのサイコロの目の合計と，Bのサイコロの目の合計は一致する？ p 多くの場合に一致しないハズ • 気になる場合は実際に何度か試してみましょう J • もっと単純に，1回ずつ振って同じ目が出るか考えてもよいです u グループ間で平均値や代表値に違いがあったとして，それは誤差の範囲で起きうることか，そうでないか… が，ワカラナイと判断がつかない 46 判断する方法＝統計的検定

Slide 47

Slide 47 text

たとえばこんな n Aという画期的な方法を考えました！テストの結果，これまでの方法Bに比べて，なんと得点が5点も高く，すばらしい方法だとわかりました 47 ほんとに〜？偶然じゃないの〜？統計的検定をおこなってあれば，「偶然では無さそう」ということが示せる

Slide 48

Slide 48 text

統計的検定はなにをしているか？ n “差がない”…なんてことはない。ことを調べる u “差がある” を直接調べるのは難しい p 数値的に「差がある」とは，「ゼロ以外」なので， “差がある”という状態は無数にありうる p 無数に候補があるので，全部調べるのは無理… u “差がない”を調べるのは簡単 p 「差がない」とは「差がゼロ」というひとつの状態 p 簡単に調べられる！！「差がないことはない」＝「差がある」 48 ？？差があるかどうか調べたかったのでは？？

Slide 49

Slide 49 text

どんな風なことを考えているか？ n 大まかには以下の通り u 差がない＝おなじ確率分布からデータがでてきてる p …と，信じて分析をはじめる u 実際に出てきた2つのグループのデータを比較し，想定した確率分布からそんな分布がでてくるか考える p おなじ確率分布なのに片方は1ばっかり，片方は3ばっかりでる… なんていうコトは起きえるのか？？？ u 「差がない場合こんなデータができる確率はX%」と，計算できるので，Xの値が小さかったら差があるとする 49

Slide 50

Slide 50 text

統計的検定でよく出る記号 p値，α値 n p値：有意確率 u 前頁の最後 X% のこと u 比較しているグループの値が同じ確率分布にしたがって生成されたものとした場合に，こんな違いが出る確率は X% です。ということを示す n α：有意水準 u 前頁の最後「小さかったら」の小さいの基準値 u 分野によって違うが概ね 5%，1%，0.1% のどれか p 昔の人が感覚的に決めたもので，特に意味はない • 「α=5%で有意」と言われたら「p値は5%以下でした」の意味 • “2つが同じである確率は5%より小さいです”という意味でもある 50

Slide 51

Slide 51 text

検定というのはどうやったらできるのか？ n Googleとかで，「R 検定」とかで調べて，出てきたヤツを参考に何とかします u “R” は無料で使える統計ソフト…だと思ってください p Amazonなどで検索すると，入門書・参考書が沢山出てきます p 「R 入門」とかで検索すると，参考サイトも沢山でてきます n 気をつけるべきポイント u 「統計的検定」には実は沢山の種類が… u データの尺度や，正規性の有無，後述する“対応の有無”など，目的や条件によって，使うべき手法が異なります p 間違った手法を選ぶと，検定の意味がなくなります 51 「おまけ」のセクションにあるチャートを使って適切な検定を選びましょう

Slide 52

Slide 52 text

対応の有無 n 統計的検定を行う上で， “対応の有無”が手法選択の分岐点 u おおまかには，AとBを比較するときに… p 同じ人にAとBをそれぞれ試してもらって比較する p Aを試したグループと，Bを試したグループを比較する 52 対応がある対応がない

Slide 53

Slide 53 text

53 相関のいろいろ

Slide 54

Slide 54 text

相関とは？ n A と B の間には関係がありそうなんだけど… どのくらい強く関係してるか言いたい n 基本的には「線形相関」のみ計算可能 u 直線的に比例・反比例している度合いのみを測る u 2変数間の関係のみを測る 54 相関係数

Slide 55

Slide 55 text

どうすれば相関がありそうか分かるか？ n 感覚的には散布図を書けばOK 55 ぼやーっと広がっていて関係が無さそう何となく線が見えるので関係がありそう

Slide 56

Slide 56 text

とはいうものの 56 n この場合では，どちらの方が関係が強そう？ u 数値的に関係の度合いを示したい＝相関係数の算出 u 相関係数は 0 から ±1 の間の値を取り， 0 なら関係なし， 0.4 あたりから相関あり，1で強い相関 ※ 実データで相関係数0.8以上出てくるとなにか怪しい（計算ミスか，計算するまでもなく当然関係があるものか）

Slide 57

Slide 57 text

相関というのはどうやったら計算できるのか？ n Googleとかで，「R 相関計算」とかで調べて，出てきたヤツを参考に何とかします u “R” は無料で使える統計ソフト…だと思ってください p Amazonなどで検索すると，入門書・参考書が沢山出てきます p 「R 入門」とかで検索すると，参考サイトも沢山でてきます n 気をつけるべきポイント u 「相関係数」にも，いくつかの種類が… u データの尺度によって，使うべき手法が異なります p 間違った手法を選ぶと，相関の意味がなくなります 57 「おまけ」のセクションにあるチャートを使って適切な手法を選びましょう

Slide 58

Slide 58 text

相関にも検定が n 相関係数がでた！ 0.7もある！！ u 相関係数だけ見て，喜ぶのはまだ早い u 相関係数が同じでも，左右の図で意味は違いそう p 左の方が，より確実に相関していそう 58 無相関検定という手法でチェック可能

Slide 59

Slide 59 text

59 おまけ

Slide 60

Slide 60 text

統計処理早見表 60 データはたくさん（1000件以上）ある？ベイズ統計（他の資料へ）正規分布してそう？分散もおなじそう？間隔尺度以上？ No Yes パラメトリックノンパラメトリック No Yes ※なにかのデータ間で（主に代表値に）差があると言いたいとした場合に，何を使うか？データが少なくてもベイズは使えるが，現状では古典統計の方が入門書籍も多く，調べたり聞いたりしやすいので

Slide 61

Slide 61 text

代表値の差の検定 61 比べる群は2つ？パラメトリック対応のあるt検定 t検定一元配置分散分析 One-way ANOVA 対応はある？同じ被験者が，違う条件で試行？ Yes Yes No (平均値) No 対応はある？同じ被験者が，違う条件で試行？ Yes No 反復測定分散分析

Slide 62

Slide 62 text

代表値の差の検定 62 ノンパラメトリックマンホイットニーのU検定（順位和検定）ウィルコクスン検定（符号順位和検定）比べる群は2つ？クラスカル・ウォリス検定対応はある？同じ被験者が，違う条件で試行？ No Yes Yes No フリードマン検定対応はある？同じ被験者が，違う条件で試行？ Yes No

Slide 63

Slide 63 text

その他の注意点 n 多重検定には要注意 u 多数の群を比較したいときに，単純に2つずつ比較はダメ p A, B, C の 3つを比較するのに，AとB，AとC，BとC にそれぞれ検定を行えば良いような気がする… p が，やってはいけない p 多群間の比較で，差があることを確認した後，たとえばシェッフェの方法などで対比較していく 63 直感的には2つずつ比較で良さそうに思えるが，数学トリック・錯覚があって，本当は差がないのに「ある」となる可能性

Slide 64

Slide 64 text

イメージでつかむパラ・ノンパラ n パラメトリックが使えるのは正規分布でかつ分散がおなじ（違うのは平均値だけ）という前提を満たすグループの比較 n つまりこういうこと 64 正規分布で分散も同じなのでパラでOK 正規分布だが分散が違うのでパラはNG，ノンパラで分析※ （※ と，言いつつ，まぁ実用上は正規分布してればそこそこOK）

Slide 65

Slide 65 text

パラの使い勝手わるそう n なぜ，統計の入門書などではパラの説明ばかりでノンパラの記載が余りされていないのか？？？ u 正規分布で，分散も等しくないと使えないなんて，使える場面が少なさそうなのに…？？ u 制約がいろいろある故に，はまった場合は精度が高い p ノンパラはいろいろ使えるので精度が低い p 手計算の時代に考えたので，別の分布をいろいろやるのはちょっとあんまり現実的ではなかったし，正規分布にしたがうものは多く，基礎としても大事 65

Slide 66

Slide 66 text

相関係数早見表 66 尺度は…？線形相関？ MIC Maximum Information Coefficient ピアソンの積率相関 HSIC Hilbert-Schmidt Independence Criterion Yes No ＆間隔/比尺度ケンドルの順位相関スピアマンの順位相関ペアワイズ相関クラメールの連関係数その他の相関分類順序間隔・比ポリシリアル相関ポリコリック相関間隔尺度っぽい順序尺度

Slide 67

Slide 67 text

FAQ n 最低どの位データが要りますか？ u とりあえず，各群で6件位あればパラ，ノンパラ共にOKです u でも，差が出ないか，検定するまでもなく差があるか…です n 最高どの位データを取れば良いですか？ u 検出力の問題があるので，データの取り過ぎもよくないです u 計算式がありますが，まぁ Max 1000件でしょうか？ n 正規分布かどうか，分散が同じかわかりません u 「正規性の検定」と言うのがあるので，使ってみてください u 分散は「等分散性の検定」と言うのがあるので，そちらで n p値は小さい方が偉い・強い・格好いい・モテるんですか？ u まあ，とりあえず 5% を下回っているかどうかだけを見ておけば最低限はOKでしょうか u あとは0.1%でも4.9%でも一緒…くらいの気分がオススメです 67

Slide 68

Slide 68 text

さらに勉強するために n 大野木，中澤：心理学マニュアル研究法レッスン，北大路書房，2002 http://www.kitaohji.com/books/2264_7.html n 数理社会学会：社会の見方、測り方―計量社会学への招待，勁草書房，2006 http://www.keisoshobo.co.jp/book/b26175.html n 山田，村井：よくわかる心理統計（やわらかアカデミズム・わかるシリーズ），ミネルヴァ書房，2004 http://www.minervashobo.co.jp/book/b48724.html n S.B Hulley, et al.：医学的研究のデザイン第4版－研究の質を高める疫学的アプローチ－，メディカルサイエンスインターナショナル，2014 https://www.medsi.co.jp/books/products/detail.php?product_id=3400 n 統計学自習ノート（Webサイト） http://aoki2.si.gunma-u.ac.jp/lecture/tests.html u どんなときに，どの統計手法を使うか？ u どういう数学的背景か？ u Rのコマンドは？ …などの情報がまとまっていて便利です 68

Slide 69

Slide 69 text

69 おまけ Rで検定＆相関算出

Slide 70

Slide 70 text

R を使った検定・相関の算出 n 手順はとっても単純 3ステップ u Excel で元データを作り，csv で保存 u R にデータを読み込み u 手法を選んで実行 …これだけ！！ 70

Slide 71

Slide 71 text

計算の手続き n Excel でデータを作る 71 グループ（群）ごとに縦に測定値を記入 1行目にはグループ名をできれば英語で記入 (“A”,”B” などでOKです)

Slide 72

Slide 72 text

計算の手続き n csv で保存 72 この例ではデスクトップに sample.csv が，保存される

Slide 73

Slide 73 text

計算の手続き n R を起動 73

Slide 74

Slide 74 text

計算の手続き n データの読み込み 74

Slide 75

Slide 75 text

計算の手続き n t検定の例; p値は 0.9551 で差は無い 75

Slide 76

Slide 76 text

計算の手続き n 積率相関の例; 相関係数は -0.34 でとても弱い逆相関？（p値を見るとそもそも意味なし） 76

Slide 77

Slide 77 text

免責＆License n 免責 u 内容その他について，完全無保証です n License u クリップアートや，一部の画像 p 別に著者が存在しますので，改変等の際には，それぞれのライセンスに準じてご利用ください p クリップアートのライセンス • http://www.chojugiga.com/terms/ • http://icooon-mono.com/license/ u その他の部分（文字部分のほとんど） p 著作権の放棄はしませんが，再配布，改変，配信等ご自由に！ 77