Upgrade to Pro — share decks privately, control downloads, hide ads and more …

シリーズAI入門:9. 統計入門

FSCjJh3NeB
February 03, 2021

シリーズAI入門:9. 統計入門

AIからちょっと離れて基礎的な統計の知識を復習します。

FSCjJh3NeB

February 03, 2021
Tweet

More Decks by FSCjJh3NeB

Other Decks in Education

Transcript

  1. n 機械学習を使う上で統計の知識は必須 u 少なくとも,与えるデータの性質や, 正解とのズレの程度の測り方,は覚える必要 p 長さ と 重さ は足し算できないね,とか

    p 平均ってどうやって計算するでしょう? とか p …そのレベルなので,怖くはないです J n というわけで,今回は統計の簡単な復習を 2
  2. 尺度いろいろ 4 n “数値データ”にも色んな種類が u 種類毎にできること・していいことの範囲が違います u 基本の種類(尺度)は4種類 分類尺度 (名義尺度)

    順序尺度 間隔尺度 比尺度 単に区分けのためだけに数値化したもの 例:電話番号,「女性は1,男性は2 と記入」 大小関係についてのみ意味を持つもの 例:マラソンの入賞順位 順序に加えて,その間隔が定まっているもの 例:摂氏温度 間隔尺度に加えて,原点が一意に定まり比を求められるもの 例:距離,水の量(殆どの物理量)
  3. 5 分類尺度 (名義尺度) 単に区分けのためだけに数値化したもの 例:電話番号,「女性は1,男性は2 と記入」 n できること u 基本的には,分類ごとに数を数えて量を比べる

    p 「分類」なので,他の計算の分類軸にする • 分類間のオッズ比を求めたり,分類間の代表値の差の検定をしたり n やってはいけないこと u 名義尺度そのものの数値計算全般 n ダメなアンケートの解析 u 性別欄に女性は1,男性は2 と記入してもらった u 性別欄のデータの 合計が1421,平均が1.45 だった 性別が 1421,1.45 とは? 性別って足したり,割ったりできるの? & たまたま女性を1にしただけで,女性が9999,男性が3,でもよかった
  4. 6 n できること u 厳密には,分類尺度に加えて大小比較 n やってはいけないこと u それ以外 順序尺度

    大小関係についてのみ意味を持つもの 例:マラソンの入賞順位 Goal 1位 2位 3位 順序尺度のイメージ 1位がゴールした後,0.1秒後にゴールしても,2時間後にゴールしても2位 とにかく,前か後か,大きいか小さいかだけが問題
  5. 基準1: 基準2: 7 n できること u 分類尺度に加えて,足し引き n やってはいけないこと u

    割り算,かけ算※ 間隔尺度は原点を自由に決められるため,比率を出すと変なことに… 基準1では… Aが1,Bが3 なので, B は A の 3倍 基準2では… Aが-1,Bが1 なので, B は A の -1倍 間隔尺度 順序に加えて,その間隔が定まっているもの 例:摂氏温度,日付 3 4 -2 -1 0 B A 1 2 0 1 2 !? 基準の取り方で,比率が全く異なるため,意味をなさない たとえば,摂氏温度・華氏温度は 「温度」と言うものについて それぞれ任意に基準を与えている したがって,これらは間隔尺度 (40度のお湯は20度の二倍の熱さ!…ではない) ※ 平均算出は値同士の直接の乗除算ではなく,合計値を個数で割っているのでやってもOK
  6. 8 n できること u 分類尺度に加えて,乗除算(=四則演算全部) n やってはいけないこと u 四則演算は全部できるので,計算面では制約はない 比尺度

    間隔尺度に加えて,原点が一意に定まり比を求められるもの 例:距離,水の量(殆どの物理量) 3 4 B A 1 2 0 3m は 1m の3倍だし, 2kg は 4kg の 0.5倍 ある・ない がはっきりしていて,数える・計れるものは大抵比尺度 (摂氏0度は温度が無いわけでは無い,時間も存在しないという状態はない)
  7. イメージをつかもう 9 分類尺度 (名義尺度) 順序尺度 間隔尺度 比尺度 1 3 104

    52 9 1 2 3 4 5 1 2 3 -1 0 1 2 3 -1 0 1 2 -1 0 -2 1 -3 -1 0 -2 … … … … … フリーダム! 順番はあるが, 間隔はバラバラ 間隔は一定だが, 原点は自由 間隔は一定で, 原点も固定
  8. 確率分布 n 物事が起きる確率の分布 u どの事象も同じ割合で起きる:一様分布 p サイコロは特定の目だけ良く出る…ということはない • 無限回 試行したら,1/6

    になる u ある平均値の周りのものは良くおきる:正規分布 p 身長は150-180cmまで均等…ということはない • 170cm位が平均であれば,その辺りが一番多く,極端な値は少ない 13
  9. 正規分布に従わない事象の例 n 企業の時価総額 u 企業は沢山あるが,時価総額は正規分布していない n Instagram の フォロワー数 u

    有名人などはものすごい数のフォロワーがいるが, 多くの人はせいぜい2桁どまり n YouTube の 再生回数 u YouTuberとして成功している人は意外と少ない 多くの動画は100回も再生されていなかったりする n ほかにもいろいろ 17 あるいは,少数の持つモノと,多数の持たざるモノの例
  10. 論文(プレプリント)の被引用件数 18 arXiv から収集した論文のうち,引用数が99件までの論文数 期間: 2014〜2018年 対象論文数: 572,898件 データなし: 2,103件

    引用0〜99件: 566,817件 引用件数最大は 9,999回 2020.01.22時点での収集データ.被引用データは Semantic Scholar を通じて取得
  11. 代表値 n つまり平均値とか,そういうやつ。 u その集団の性質を一つで上手く表現できるような数値 p 平均値,中央値,最頻値など p 平均値もいろいろ •

    算術平均 :一般的に「平均」といったらコレ • 幾何平均 :変化率の平均を取るなら • 調和平均 :時速などの計算をするなら • …など u 理想的な正規分布では,平均値,中央値,最頻値が一致 p そうでない場合は,色々と注意が必要!!! 20
  12. さまざまな代表値 n 平均値(算術平均) u 観測値の総和を,観測点数でわったもの u 一種の重心的なモノ n 中央値 u

    データを大きさ順に並べたときの真ん中の値 u データが偶数の時はちょっと調整したりする n 最頻値 u 一番よく出てくる値 21 cf. 四分位値 代表値毎に表しているもの・意味するものは異なる
  13. 0 1 2 3 4 5 0 5 10 15

    20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 出席番号 点数 1 1 2 13 3 14 4 13 5 10 6 12 7 13 8 11 9 13 10 16 たとえばこんな 22 人数 平均値: 11.6点 中央値,最頻値:13点 タカシ君は平均11.6点のテストで1点を取りました。 先生はタカシ君に指導をすべきでしょうか? 点数
  14. たとえばこんな 23 人数 出席番号 点数 1 1 2 2 3

    1 4 1 5 2 6 1 7 2 8 3 9 3 10 100 0 1 2 3 4 5 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 平均値: 11.6点 最頻値:1点 中央値:2点 タカシ君は平均11.6点のテストで1点を取りました。 先生はタカシ君に指導をすべきでしょうか? 点数
  15. 正規分布の位置・形状を決めるもの n 平均値と分散(標準偏差)の2つ u 平均値 : 山の中心位置を決める u 標準偏差: 裾野の広さ(山の傾斜)を決める

    26 stdv = 5.0 stdv : Standard Division(標準偏差) stdv = 10.0 stdv = 20.0 平均値は左右にシフトするだけだが,標準偏差が変わると印象は大きく変わる
  16. 分散?標準偏差? n 先ほどの図でいうと,山の裾野の広さのこと u 学生1000人,平均点50点のテストがあったとして… p 最低 0点,最高 100点 p

    最低 30点,最高 70点 p 最低 40点,最高 60点 p 最低 50点,最高 50点 …など,いろんなパタンがあり得て,それぞれ意味が違いそう 28 これらは平均値だけではわからないので バラツキの程度=分散 も見ることがとても大事
  17. もう少しちゃんとした分散 n 分散 u 各標本の平均値からのズレの程度の平均 n 標準偏差 u 分散の平方根 29

    3 4 B A 1 2 0 ざっくりしすぎ?とは言え,数式を嫌がる人も多そうなので… 以下のような2点しかないデータでイメージ 平均値 ※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.
  18. 分散のイメージ 30 3 4 B A 1 2 0 平均値

    分散は 平均値からのズレの程度 なので,どの位離れているかを知りたい 平均値から標本値(AとかBの値)を引いたらいいんじゃない? Aのズレ = 平均2 − 1 = 1 Bのズレ = 平均2 − 3 = -1 とりあえず2乗したら,全部正の値になるからいいんじゃない? Aのズレ =(平均2 − 1)の2乗 = 1 Bのズレ =(平均2 − 3)の2乗 = 1 !? ズレの程度は同じ 1 のハズなのに, 符号が違ってしまっている 1/2 符号がそろった! ※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.
  19. 分散のイメージ 31 3 4 B A 1 2 0 平均値

    分散は 平均値からのズレの程度 なので,どの位離れているかを知りたい 2/2 ここまででA, B それぞれのズレの程度は分かった でも,今知りたいのは全体のヤツ 全体って言うことなら,そのズレの平均取ったらいいんじゃない? というわけで,やってみた (Aのズレ + Bのズレ)/ 2 = 1 これが分散 ※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.
  20. 分散から標準偏差へ n 標準偏差は 分散の平方根 と定義していた u なんで??? u さっき,A, B

    のズレの程度を計算するときに2乗したから p 世の中には細かいことを気にする人がいて… • 「さっき2乗したから単位がズレてるじゃん!」 とか言いにくる p はいはい,わかりましたー。2乗したのが嫌だっていうんなら, 平方根を取ってもとに戻せばいいんでしょ!! 32 これが標準偏差 ※ホントは母集団の…と,標本の…で違いがあります.これは母集団の.
  21. 理想的な分散とは? n そんなものは存在しない u テストであれば,0点 から 100点 まで広がってほしい p その方が弁別力(区分けのしやすさ)が高まる

    u 何かの機能の評価であれば,小さくなってほしい p 誰がどうやっても,同じ感じになってほしい p 例 • 平均点10で,分散がとても大きい:人によって0,20などばらつく • 平均点 6で,分散はとても小さい:だれがやっても 6前後 をとれる 34 目的や比較対象に照らして,適時意味を読み取るしかない
  22. 分散から平均二乗誤差へ n 分散では平均値からのズレの程度を見た n 同じ発想で,正解値と実際の値のズレを出す u うまく分類していたら,ズレはゼロになる T1 R1 T2

    T3 T4 R2 R3 R4 正解データ 推定結果 正解データと結果の距離をだし, その2乗値を平均したもの 平均二乗誤差 37
  23. とはいうものの 41 n この場合では,どちらの方が関係が強そう? u 数値的に関係の度合いを示したい = 相関係数の算出 u 相関係数は

    0 から ±1 の間の値を取り, 0 なら関係なし, 0.4 あたりから相関あり,1で強い相関 ※ 実データで相関係数0.8以上出てくるとなにか怪しい(計算ミスか,計算するまでもなく当然関係があるものか)
  24. 相関というのはどうやったら計算できるのか? n Googleとかで,「R 相関 計算」とかで調べて, 出てきたヤツを参考に何とかします u “R” は 無料で使える統計ソフト…だと思ってください

    p Amazonなどで検索すると,入門書・参考書が沢山出てきます p 「R 入門」とかで検索すると,参考サイトも沢山でてきます n 気をつけるべきポイント u 「相関係数」にも,いくつかの種類が… u データの尺度によって,使うべき手法が異なります p 間違った手法を選ぶと,相関の意味がなくなります 42 「おまけ」のセクションにある チャートを使って適切な手法を選びましょう
  25. おまけ:相関係数早見表 44 尺度は…? 線形相関? MIC Maximum Information Coefficient ピアソンの 積率相関

    HSIC Hilbert-Schmidt Independence Criterion Yes No & 間隔/比尺度 ケンドルの 順位相関 スピアマンの 順位相関 ペアワイズ相関 クラメールの 連関係数 その他の相関 分類 順序 間隔・比 ポリシリアル相関 ポリコリック相関 間隔尺度っぽい順序尺度
  26. 補足 n データ分析のための統計学入門 ─"OpenIntro Statistics, 4th Edition" ─ u D.Diez,

    M.Cetinkaya-Rundel and C.Barr u 訳:国友直人,小暮厚之,吉田靖 さらにきちんと勉強するには以下のPDFが便利です 45 http://www.kunitomo-lab.sakura.ne.jp/2021-3-3Open(S).pdf