Slide 1

Slide 1 text

統計の基礎 シリーズAI入門 記述統計・分散・相関 © FSCjJh3NeB 2021 (※ 但し画像を除く) 2021.04.20版

Slide 2

Slide 2 text

n 機械学習を使う上で統計の知識は必須 u 少なくとも,与えるデータの性質や, 正解とのズレの程度の測り方,は覚える必要 p 長さ と 重さ は足し算できないね,とか p 平均ってどうやって計算するでしょう? とか p …そのレベルなので,怖くはないです J n というわけで,今回は統計の簡単な復習を 2

Slide 3

Slide 3 text

3 いろいろな尺度

Slide 4

Slide 4 text

尺度いろいろ 4 n “数値データ”にも色んな種類が u 種類毎にできること・していいことの範囲が違います u 基本の種類(尺度)は4種類 分類尺度 (名義尺度) 順序尺度 間隔尺度 比尺度 単に区分けのためだけに数値化したもの 例:電話番号,「女性は1,男性は2 と記入」 大小関係についてのみ意味を持つもの 例:マラソンの入賞順位 順序に加えて,その間隔が定まっているもの 例:摂氏温度 間隔尺度に加えて,原点が一意に定まり比を求められるもの 例:距離,水の量(殆どの物理量)

Slide 5

Slide 5 text

5 分類尺度 (名義尺度) 単に区分けのためだけに数値化したもの 例:電話番号,「女性は1,男性は2 と記入」 n できること u 基本的には,分類ごとに数を数えて量を比べる p 「分類」なので,他の計算の分類軸にする • 分類間のオッズ比を求めたり,分類間の代表値の差の検定をしたり n やってはいけないこと u 名義尺度そのものの数値計算全般 n ダメなアンケートの解析 u 性別欄に女性は1,男性は2 と記入してもらった u 性別欄のデータの 合計が1421,平均が1.45 だった 性別が 1421,1.45 とは? 性別って足したり,割ったりできるの? & たまたま女性を1にしただけで,女性が9999,男性が3,でもよかった

Slide 6

Slide 6 text

6 n できること u 厳密には,分類尺度に加えて大小比較 n やってはいけないこと u それ以外 順序尺度 大小関係についてのみ意味を持つもの 例:マラソンの入賞順位 Goal 1位 2位 3位 順序尺度のイメージ 1位がゴールした後,0.1秒後にゴールしても,2時間後にゴールしても2位 とにかく,前か後か,大きいか小さいかだけが問題

Slide 7

Slide 7 text

基準1: 基準2: 7 n できること u 分類尺度に加えて,足し引き n やってはいけないこと u 割り算,かけ算※ 間隔尺度は原点を自由に決められるため,比率を出すと変なことに… 基準1では… Aが1,Bが3 なので, B は A の 3倍 基準2では… Aが-1,Bが1 なので, B は A の -1倍 間隔尺度 順序に加えて,その間隔が定まっているもの 例:摂氏温度,日付 3 4 -2 -1 0 B A 1 2 0 1 2 !? 基準の取り方で,比率が全く異なるため,意味をなさない たとえば,摂氏温度・華氏温度は 「温度」と言うものについて それぞれ任意に基準を与えている したがって,これらは間隔尺度 (40度のお湯は20度の二倍の熱さ!…ではない) ※ 平均算出は値同士の直接の乗除算ではなく,合計値を個数で割っているのでやってもOK

Slide 8

Slide 8 text

8 n できること u 分類尺度に加えて,乗除算(=四則演算全部) n やってはいけないこと u 四則演算は全部できるので,計算面では制約はない 比尺度 間隔尺度に加えて,原点が一意に定まり比を求められるもの 例:距離,水の量(殆どの物理量) 3 4 B A 1 2 0 3m は 1m の3倍だし, 2kg は 4kg の 0.5倍 ある・ない がはっきりしていて,数える・計れるものは大抵比尺度 (摂氏0度は温度が無いわけでは無い,時間も存在しないという状態はない)

Slide 9

Slide 9 text

イメージをつかもう 9 分類尺度 (名義尺度) 順序尺度 間隔尺度 比尺度 1 3 104 52 9 1 2 3 4 5 1 2 3 -1 0 1 2 3 -1 0 1 2 -1 0 -2 1 -3 -1 0 -2 … … … … … フリーダム! 順番はあるが, 間隔はバラバラ 間隔は一定だが, 原点は自由 間隔は一定で, 原点も固定

Slide 10

Slide 10 text

尺度とできること 10 分類尺度 (名義尺度) 順序尺度 間隔尺度 比尺度 大きさ比較 差 比

Slide 11

Slide 11 text

尺度と情報量(解像度) n 当然ながら… u 情報量が多いものを削減することは可能 p 比尺度を間隔尺度に,間隔尺度を順序尺度にすることは可能 p 順序尺度を間隔尺度に…は不可能 11 分類尺度 (名義尺度) 順序尺度 間隔尺度 比尺度 < < <

Slide 12

Slide 12 text

12 いろいろな分布

Slide 13

Slide 13 text

確率分布 n 物事が起きる確率の分布 u どの事象も同じ割合で起きる:一様分布 p サイコロは特定の目だけ良く出る…ということはない • 無限回 試行したら,1/6 になる u ある平均値の周りのものは良くおきる:正規分布 p 身長は150-180cmまで均等…ということはない • 170cm位が平均であれば,その辺りが一番多く,極端な値は少ない 13

Slide 14

Slide 14 text

確率分布 n 世の中にはいろいろな分布が… u 代表的なものが「正規分布(ガウス分布)」 14 出典:wikipedia

Slide 15

Slide 15 text

正規分布(ガウス分布) n 平均値をピークとして,左右対象に確率が減少していく ような,釣り鐘型の分布 u “偶然誤差”は正規分布に従うことが知られている u 身長や体重も正規分布によく従うことが知られている 15 平均値 正規分布の分布形状

Slide 16

Slide 16 text

いろんな分布の例 16 正規分布 べき分布 正規分布は代表的な分布ではあるが,それ以外の分布も多数あり, あらゆるデータが正規分布するわけではないことに注意 ハンマーを持つと,あらゆるものがクギにみえる ※ こういう確率分布を描くための関数を 確率密度関数 という

Slide 17

Slide 17 text

正規分布に従わない事象の例 n 企業の時価総額 u 企業は沢山あるが,時価総額は正規分布していない n Instagram の フォロワー数 u 有名人などはものすごい数のフォロワーがいるが, 多くの人はせいぜい2桁どまり n YouTube の 再生回数 u YouTuberとして成功している人は意外と少ない 多くの動画は100回も再生されていなかったりする n ほかにもいろいろ 17 あるいは,少数の持つモノと,多数の持たざるモノの例

Slide 18

Slide 18 text

論文(プレプリント)の被引用件数 18 arXiv から収集した論文のうち,引用数が99件までの論文数 期間: 2014〜2018年 対象論文数: 572,898件 データなし: 2,103件 引用0〜99件: 566,817件 引用件数最大は 9,999回 2020.01.22時点での収集データ.被引用データは Semantic Scholar を通じて取得

Slide 19

Slide 19 text

19 いろいろな代表値

Slide 20

Slide 20 text

代表値 n つまり平均値とか,そういうやつ。 u その集団の性質を一つで上手く表現できるような数値 p 平均値,中央値,最頻値など p 平均値もいろいろ • 算術平均 :一般的に「平均」といったらコレ • 幾何平均 :変化率の平均を取るなら • 調和平均 :時速などの計算をするなら • …など u 理想的な正規分布では,平均値,中央値,最頻値が一致 p そうでない場合は,色々と注意が必要!!! 20

Slide 21

Slide 21 text

さまざまな代表値 n 平均値(算術平均) u 観測値の総和を,観測点数でわったもの u 一種の重心的なモノ n 中央値 u データを大きさ順に並べたときの真ん中の値 u データが偶数の時はちょっと調整したりする n 最頻値 u 一番よく出てくる値 21 cf. 四分位値 代表値毎に表しているもの・意味するものは異なる

Slide 22

Slide 22 text

0 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 出席番号 点数 1 1 2 13 3 14 4 13 5 10 6 12 7 13 8 11 9 13 10 16 たとえばこんな 22 人数 平均値: 11.6点 中央値,最頻値:13点 タカシ君は平均11.6点のテストで1点を取りました。 先生はタカシ君に指導をすべきでしょうか? 点数

Slide 23

Slide 23 text

たとえばこんな 23 人数 出席番号 点数 1 1 2 2 3 1 4 1 5 2 6 1 7 2 8 3 9 3 10 100 0 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 平均値: 11.6点 最頻値:1点 中央値:2点 タカシ君は平均11.6点のテストで1点を取りました。 先生はタカシ君に指導をすべきでしょうか? 点数

Slide 24

Slide 24 text

我が国における世帯所得 24 厚生労働省:平成 29 年 国民生活基礎調査の概況 景気対策に 100億円 を配布するとして, 閾値には何を使うべき? 閾値無しで全世帯に均等割? 平均以下で均等割? 中央値?最頻値?

Slide 25

Slide 25 text

25 正規分布のいろいろ

Slide 26

Slide 26 text

正規分布の位置・形状を決めるもの n 平均値と分散(標準偏差)の2つ u 平均値 : 山の中心位置を決める u 標準偏差: 裾野の広さ(山の傾斜)を決める 26 stdv = 5.0 stdv : Standard Division(標準偏差) stdv = 10.0 stdv = 20.0 平均値は左右にシフトするだけだが,標準偏差が変わると印象は大きく変わる

Slide 27

Slide 27 text

正規分布の形状を決めるもの n 標準偏差はおなじで,平均値が違う例 27

Slide 28

Slide 28 text

分散?標準偏差? n 先ほどの図でいうと,山の裾野の広さのこと u 学生1000人,平均点50点のテストがあったとして… p 最低 0点,最高 100点 p 最低 30点,最高 70点 p 最低 40点,最高 60点 p 最低 50点,最高 50点 …など,いろんなパタンがあり得て,それぞれ意味が違いそう 28 これらは平均値だけではわからないので バラツキの程度=分散 も見ることがとても大事

Slide 29

Slide 29 text

もう少しちゃんとした分散 n 分散 u 各標本の平均値からのズレの程度の平均 n 標準偏差 u 分散の平方根 29 3 4 B A 1 2 0 ざっくりしすぎ?とは言え,数式を嫌がる人も多そうなので… 以下のような2点しかないデータでイメージ 平均値 ※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.

Slide 30

Slide 30 text

分散のイメージ 30 3 4 B A 1 2 0 平均値 分散は 平均値からのズレの程度 なので,どの位離れているかを知りたい 平均値から標本値(AとかBの値)を引いたらいいんじゃない? Aのズレ = 平均2 − 1 = 1 Bのズレ = 平均2 − 3 = -1 とりあえず2乗したら,全部正の値になるからいいんじゃない? Aのズレ =(平均2 − 1)の2乗 = 1 Bのズレ =(平均2 − 3)の2乗 = 1 !? ズレの程度は同じ 1 のハズなのに, 符号が違ってしまっている 1/2 符号がそろった! ※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.

Slide 31

Slide 31 text

分散のイメージ 31 3 4 B A 1 2 0 平均値 分散は 平均値からのズレの程度 なので,どの位離れているかを知りたい 2/2 ここまででA, B それぞれのズレの程度は分かった でも,今知りたいのは全体のヤツ 全体って言うことなら,そのズレの平均取ったらいいんじゃない? というわけで,やってみた (Aのズレ + Bのズレ)/ 2 = 1 これが分散 ※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.

Slide 32

Slide 32 text

分散から標準偏差へ n 標準偏差は 分散の平方根 と定義していた u なんで??? u さっき,A, B のズレの程度を計算するときに2乗したから p 世の中には細かいことを気にする人がいて… • 「さっき2乗したから単位がズレてるじゃん!」 とか言いにくる p はいはい,わかりましたー。2乗したのが嫌だっていうんなら, 平方根を取ってもとに戻せばいいんでしょ!! 32 これが標準偏差 ※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.

Slide 33

Slide 33 text

分散のイメージ 33 平均値 このズレの程度の(2乗したヤツの)平均 分散(標準偏差) ここまできたら怖くないと思うので, いつの日にか,数式も眺めてみてください ※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.

Slide 34

Slide 34 text

理想的な分散とは? n そんなものは存在しない u テストであれば,0点 から 100点 まで広がってほしい p その方が弁別力(区分けのしやすさ)が高まる u 何かの機能の評価であれば,小さくなってほしい p 誰がどうやっても,同じ感じになってほしい p 例 • 平均点10で,分散がとても大きい:人によって0,20などばらつく • 平均点 6で,分散はとても小さい:だれがやっても 6前後 をとれる 34 目的や比較対象に照らして,適時意味を読み取るしかない

Slide 35

Slide 35 text

人工知能に関する講義のはずだったのに, なんで統計基礎的な話に…?? この後出てくる 機械学習 などを未定行く上で, 尺度のことや,確率分布,分散の知識が必要 35

Slide 36

Slide 36 text

分散から平均二乗誤差へ n 分散の考え方は機械学習の精度検証で用いる u “教師あり学習” では,既存の正解データを元に, 未知のデータの分類などを行う p 正解データと同じデータを渡したときに, どのくらい正しく分類できているか…がポイント p この “分類の正しさ” を測る尺度のひとつ 平均二乗誤差 (MSE) MSE: Mean Squared Error 36

Slide 37

Slide 37 text

分散から平均二乗誤差へ n 分散では平均値からのズレの程度を見た n 同じ発想で,正解値と実際の値のズレを出す u うまく分類していたら,ズレはゼロになる T1 R1 T2 T3 T4 R2 R3 R4 正解データ 推定結果 正解データと結果の距離をだし, その2乗値を平均したもの 平均二乗誤差 37

Slide 38

Slide 38 text

38 相関のいろいろ

Slide 39

Slide 39 text

相関とは? n A と B の間には関係がありそうなんだけど… どのくらい強く関係してるか言いたい n 基本的には「線形相関」のみ計算可能 u 直線的に比例・反比例している度合いのみを測る u 2変数間の関係のみを測る 39 相関係数

Slide 40

Slide 40 text

どうすれば相関がありそうか分かるか? n 感覚的には散布図を書けばOK 40 ぼやーっと広がっていて 関係が無さそう 何となく線が見えるので 関係がありそう

Slide 41

Slide 41 text

とはいうものの 41 n この場合では,どちらの方が関係が強そう? u 数値的に関係の度合いを示したい = 相関係数の算出 u 相関係数は 0 から ±1 の間の値を取り, 0 なら関係なし, 0.4 あたりから相関あり,1で強い相関 ※ 実データで相関係数0.8以上出てくるとなにか怪しい(計算ミスか,計算するまでもなく当然関係があるものか)

Slide 42

Slide 42 text

相関というのはどうやったら計算できるのか? n Googleとかで,「R 相関 計算」とかで調べて, 出てきたヤツを参考に何とかします u “R” は 無料で使える統計ソフト…だと思ってください p Amazonなどで検索すると,入門書・参考書が沢山出てきます p 「R 入門」とかで検索すると,参考サイトも沢山でてきます n 気をつけるべきポイント u 「相関係数」にも,いくつかの種類が… u データの尺度によって,使うべき手法が異なります p 間違った手法を選ぶと,相関の意味がなくなります 42 「おまけ」のセクションにある チャートを使って適切な手法を選びましょう

Slide 43

Slide 43 text

相関にも検定が n 相関係数がでた! 0.7もある!! u 相関係数だけ見て,喜ぶのはまだ早い u 相関係数が同じでも,左右の図で意味は違いそう p 左の方が,より確実に相関していそう 43 無相関検定 という手法でチェック可能

Slide 44

Slide 44 text

おまけ:相関係数早見表 44 尺度は…? 線形相関? MIC Maximum Information Coefficient ピアソンの 積率相関 HSIC Hilbert-Schmidt Independence Criterion Yes No & 間隔/比尺度 ケンドルの 順位相関 スピアマンの 順位相関 ペアワイズ相関 クラメールの 連関係数 その他の相関 分類 順序 間隔・比 ポリシリアル相関 ポリコリック相関 間隔尺度っぽい順序尺度

Slide 45

Slide 45 text

補足 n データ分析のための統計学入門 ─"OpenIntro Statistics, 4th Edition" ─ u D.Diez, M.Cetinkaya-Rundel and C.Barr u 訳:国友直人,小暮厚之,吉田靖 さらにきちんと勉強するには以下のPDFが便利です 45 http://www.kunitomo-lab.sakura.ne.jp/2021-3-3Open(S).pdf