n 機械学習を使う上で統計の知識は必須
u 少なくとも,与えるデータの性質や,
正解とのズレの程度の測り方,は覚える必要
p 長さ と 重さ は足し算できないね,とか
p 平均ってどうやって計算するでしょう? とか
p …そのレベルなので,怖くはないです J
n というわけで,今回は統計の簡単な復習を
2
Slide 3
Slide 3 text
3
いろいろな尺度
Slide 4
Slide 4 text
尺度いろいろ
4
n “数値データ”にも色んな種類が
u 種類毎にできること・していいことの範囲が違います
u 基本の種類(尺度)は4種類
分類尺度
(名義尺度)
順序尺度
間隔尺度
比尺度
単に区分けのためだけに数値化したもの
例:電話番号,「女性は1,男性は2 と記入」
大小関係についてのみ意味を持つもの
例:マラソンの入賞順位
順序に加えて,その間隔が定まっているもの
例:摂氏温度
間隔尺度に加えて,原点が一意に定まり比を求められるもの
例:距離,水の量(殆どの物理量)
Slide 5
Slide 5 text
5
分類尺度
(名義尺度)
単に区分けのためだけに数値化したもの
例:電話番号,「女性は1,男性は2 と記入」
n できること
u 基本的には,分類ごとに数を数えて量を比べる
p 「分類」なので,他の計算の分類軸にする
• 分類間のオッズ比を求めたり,分類間の代表値の差の検定をしたり
n やってはいけないこと
u 名義尺度そのものの数値計算全般
n ダメなアンケートの解析
u 性別欄に女性は1,男性は2 と記入してもらった
u 性別欄のデータの 合計が1421,平均が1.45 だった
性別が 1421,1.45 とは? 性別って足したり,割ったりできるの?
& たまたま女性を1にしただけで,女性が9999,男性が3,でもよかった
Slide 6
Slide 6 text
6
n できること
u 厳密には,分類尺度に加えて大小比較
n やってはいけないこと
u それ以外
順序尺度 大小関係についてのみ意味を持つもの
例:マラソンの入賞順位
Goal
1位
2位
3位
順序尺度のイメージ
1位がゴールした後,0.1秒後にゴールしても,2時間後にゴールしても2位
とにかく,前か後か,大きいか小さいかだけが問題
Slide 7
Slide 7 text
基準1:
基準2:
7
n できること
u 分類尺度に加えて,足し引き
n やってはいけないこと
u 割り算,かけ算※
間隔尺度は原点を自由に決められるため,比率を出すと変なことに…
基準1では… Aが1,Bが3 なので, B は A の 3倍
基準2では… Aが-1,Bが1 なので, B は A の -1倍
間隔尺度 順序に加えて,その間隔が定まっているもの
例:摂氏温度,日付
3 4
-2 -1 0
B
A
1 2
0
1 2
!?
基準の取り方で,比率が全く異なるため,意味をなさない
たとえば,摂氏温度・華氏温度は
「温度」と言うものについて
それぞれ任意に基準を与えている
したがって,これらは間隔尺度
(40度のお湯は20度の二倍の熱さ!…ではない)
※ 平均算出は値同士の直接の乗除算ではなく,合計値を個数で割っているのでやってもOK
Slide 8
Slide 8 text
8
n できること
u 分類尺度に加えて,乗除算(=四則演算全部)
n やってはいけないこと
u 四則演算は全部できるので,計算面では制約はない
比尺度 間隔尺度に加えて,原点が一意に定まり比を求められるもの
例:距離,水の量(殆どの物理量)
3 4
B
A
1 2
0
3m は 1m の3倍だし, 2kg は 4kg の 0.5倍
ある・ない がはっきりしていて,数える・計れるものは大抵比尺度
(摂氏0度は温度が無いわけでは無い,時間も存在しないという状態はない)
尺度と情報量(解像度)
n 当然ながら…
u 情報量が多いものを削減することは可能
p 比尺度を間隔尺度に,間隔尺度を順序尺度にすることは可能
p 順序尺度を間隔尺度に…は不可能
11
分類尺度
(名義尺度)
順序尺度 間隔尺度 比尺度
< < <
Slide 12
Slide 12 text
12
いろいろな分布
Slide 13
Slide 13 text
確率分布
n 物事が起きる確率の分布
u どの事象も同じ割合で起きる:一様分布
p サイコロは特定の目だけ良く出る…ということはない
• 無限回 試行したら,1/6 になる
u ある平均値の周りのものは良くおきる:正規分布
p 身長は150-180cmまで均等…ということはない
• 170cm位が平均であれば,その辺りが一番多く,極端な値は少ない
13
Slide 14
Slide 14 text
確率分布
n 世の中にはいろいろな分布が…
u 代表的なものが「正規分布(ガウス分布)」
14
出典:wikipedia
Slide 15
Slide 15 text
正規分布(ガウス分布)
n 平均値をピークとして,左右対象に確率が減少していく
ような,釣り鐘型の分布
u “偶然誤差”は正規分布に従うことが知られている
u 身長や体重も正規分布によく従うことが知られている
15
平均値
正規分布の分布形状
正規分布に従わない事象の例
n 企業の時価総額
u 企業は沢山あるが,時価総額は正規分布していない
n Instagram の フォロワー数
u 有名人などはものすごい数のフォロワーがいるが,
多くの人はせいぜい2桁どまり
n YouTube の 再生回数
u YouTuberとして成功している人は意外と少ない
多くの動画は100回も再生されていなかったりする
n ほかにもいろいろ
17
あるいは,少数の持つモノと,多数の持たざるモノの例
代表値
n つまり平均値とか,そういうやつ。
u その集団の性質を一つで上手く表現できるような数値
p 平均値,中央値,最頻値など
p 平均値もいろいろ
• 算術平均 :一般的に「平均」といったらコレ
• 幾何平均 :変化率の平均を取るなら
• 調和平均 :時速などの計算をするなら
• …など
u 理想的な正規分布では,平均値,中央値,最頻値が一致
p そうでない場合は,色々と注意が必要!!!
20
Slide 21
Slide 21 text
さまざまな代表値
n 平均値(算術平均)
u 観測値の総和を,観測点数でわったもの
u 一種の重心的なモノ
n 中央値
u データを大きさ順に並べたときの真ん中の値
u データが偶数の時はちょっと調整したりする
n 最頻値
u 一番よく出てくる値
21
cf. 四分位値
代表値毎に表しているもの・意味するものは異なる
正規分布の位置・形状を決めるもの
n 平均値と分散(標準偏差)の2つ
u 平均値 : 山の中心位置を決める
u 標準偏差: 裾野の広さ(山の傾斜)を決める
26
stdv = 5.0
stdv : Standard Division(標準偏差)
stdv = 10.0
stdv = 20.0
平均値は左右にシフトするだけだが,標準偏差が変わると印象は大きく変わる
Slide 27
Slide 27 text
正規分布の形状を決めるもの
n 標準偏差はおなじで,平均値が違う例
27
Slide 28
Slide 28 text
分散?標準偏差?
n 先ほどの図でいうと,山の裾野の広さのこと
u 学生1000人,平均点50点のテストがあったとして…
p 最低 0点,最高 100点
p 最低 30点,最高 70点
p 最低 40点,最高 60点
p 最低 50点,最高 50点
…など,いろんなパタンがあり得て,それぞれ意味が違いそう
28
これらは平均値だけではわからないので
バラツキの程度=分散 も見ることがとても大事
Slide 29
Slide 29 text
もう少しちゃんとした分散
n 分散
u 各標本の平均値からのズレの程度の平均
n 標準偏差
u 分散の平方根
29
3 4
B
A
1 2
0
ざっくりしすぎ?とは言え,数式を嫌がる人も多そうなので…
以下のような2点しかないデータでイメージ
平均値
※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.
分散のイメージ
31
3 4
B
A
1 2
0
平均値
分散は 平均値からのズレの程度 なので,どの位離れているかを知りたい
2/2
ここまででA, B それぞれのズレの程度は分かった
でも,今知りたいのは全体のヤツ
全体って言うことなら,そのズレの平均取ったらいいんじゃない?
というわけで,やってみた
(Aのズレ + Bのズレ)/ 2 = 1 これが分散
※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.
Slide 32
Slide 32 text
分散から標準偏差へ
n 標準偏差は 分散の平方根 と定義していた
u なんで???
u さっき,A, B のズレの程度を計算するときに2乗したから
p 世の中には細かいことを気にする人がいて…
• 「さっき2乗したから単位がズレてるじゃん!」 とか言いにくる
p はいはい,わかりましたー。2乗したのが嫌だっていうんなら,
平方根を取ってもとに戻せばいいんでしょ!!
32
これが標準偏差
※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.
理想的な分散とは?
n そんなものは存在しない
u テストであれば,0点 から 100点 まで広がってほしい
p その方が弁別力(区分けのしやすさ)が高まる
u 何かの機能の評価であれば,小さくなってほしい
p 誰がどうやっても,同じ感じになってほしい
p 例
• 平均点10で,分散がとても大きい:人によって0,20などばらつく
• 平均点 6で,分散はとても小さい:だれがやっても 6前後 をとれる
34
目的や比較対象に照らして,適時意味を読み取るしかない
分散から平均二乗誤差へ
n 分散の考え方は機械学習の精度検証で用いる
u “教師あり学習” では,既存の正解データを元に,
未知のデータの分類などを行う
p 正解データと同じデータを渡したときに,
どのくらい正しく分類できているか…がポイント
p この “分類の正しさ” を測る尺度のひとつ
平均二乗誤差 (MSE)
MSE: Mean Squared Error
36
Slide 37
Slide 37 text
分散から平均二乗誤差へ
n 分散では平均値からのズレの程度を見た
n 同じ発想で,正解値と実際の値のズレを出す
u うまく分類していたら,ズレはゼロになる
T1
R1
T2 T3 T4
R2
R3
R4
正解データ
推定結果
正解データと結果の距離をだし,
その2乗値を平均したもの
平均二乗誤差
37
Slide 38
Slide 38 text
38
相関のいろいろ
Slide 39
Slide 39 text
相関とは?
n A と B の間には関係がありそうなんだけど…
どのくらい強く関係してるか言いたい
n 基本的には「線形相関」のみ計算可能
u 直線的に比例・反比例している度合いのみを測る
u 2変数間の関係のみを測る
39
相関係数
Slide 40
Slide 40 text
どうすれば相関がありそうか分かるか?
n 感覚的には散布図を書けばOK
40
ぼやーっと広がっていて
関係が無さそう
何となく線が見えるので
関係がありそう
Slide 41
Slide 41 text
とはいうものの
41
n この場合では,どちらの方が関係が強そう?
u 数値的に関係の度合いを示したい = 相関係数の算出
u 相関係数は 0 から ±1 の間の値を取り,
0 なら関係なし, 0.4 あたりから相関あり,1で強い相関
※ 実データで相関係数0.8以上出てくるとなにか怪しい(計算ミスか,計算するまでもなく当然関係があるものか)
Slide 42
Slide 42 text
相関というのはどうやったら計算できるのか?
n Googleとかで,「R 相関 計算」とかで調べて,
出てきたヤツを参考に何とかします
u “R” は 無料で使える統計ソフト…だと思ってください
p Amazonなどで検索すると,入門書・参考書が沢山出てきます
p 「R 入門」とかで検索すると,参考サイトも沢山でてきます
n 気をつけるべきポイント
u 「相関係数」にも,いくつかの種類が…
u データの尺度によって,使うべき手法が異なります
p 間違った手法を選ぶと,相関の意味がなくなります
42
「おまけ」のセクションにある
チャートを使って適切な手法を選びましょう
Slide 43
Slide 43 text
相関にも検定が
n 相関係数がでた! 0.7もある!!
u 相関係数だけ見て,喜ぶのはまだ早い
u 相関係数が同じでも,左右の図で意味は違いそう
p 左の方が,より確実に相関していそう
43
無相関検定 という手法でチェック可能
Slide 44
Slide 44 text
おまけ:相関係数早見表
44
尺度は…?
線形相関?
MIC
Maximum Information
Coefficient
ピアソンの
積率相関
HSIC
Hilbert-Schmidt
Independence Criterion
Yes
No & 間隔/比尺度
ケンドルの
順位相関
スピアマンの
順位相関
ペアワイズ相関
クラメールの
連関係数
その他の相関
分類 順序 間隔・比
ポリシリアル相関
ポリコリック相関
間隔尺度っぽい順序尺度
Slide 45
Slide 45 text
補足
n データ分析のための統計学入門
─"OpenIntro Statistics, 4th Edition" ─
u D.Diez, M.Cetinkaya-Rundel and
C.Barr
u 訳:国友直人,小暮厚之,吉田靖
さらにきちんと勉強するには以下のPDFが便利です
45
http://www.kunitomo-lab.sakura.ne.jp/2021-3-3Open(S).pdf