社内勉強会にて簡単に統計学について話しました。 統計学を身近に感じてもらいたかった資料です。
Webサービス開発に必要な統計学⼊⾨HRBrain社内勉強会(15min)
View Slide
⾃⼰紹介• @yudppp• 株式会社HRBrain CTO• 好きな⾔葉: 冪等性• Go / React / TypeScript• ○△□ - https://blog.yudppp.com/
アジェンダ• なぜ統計学が必要か• 尺度• 正規分布• データの代表値• ペーパーテスト• 丸つけ / 解説
なぜ統計学が必要か• 選挙の当確を早く出せる• ⽐例代表が当確が遅いのはなぜか(政治学科卒の⽅に聞く)• 開票率1%で当選確実を出している• 1%て少なくないか
スープの味⾒をするときにどのくらい飲みますか?
私はしっかり混ぜてから⼀⼝分飲みます
統計学的にもしっかり混ぜてから飲むのが⼤事(無作為抽出?)
前置きは以上で本題
尺度
最近仕事中にたくさん使ってます。
尺度(scale)• 尺度には4つの種類があります。• 名義尺度• 順序尺度• 間隔尺度• ⽐例尺度
尺度(scale)• 尺度には4つの種類があります。• 名義尺度• 順序尺度• 間隔尺度• ⽐例尺度࣭తσʔλྔతσʔλ
尺度(scale)• 尺度には4つの種類があります。• 名義尺度• 順序尺度• 間隔尺度• ⽐例尺度ঃʑʹৄࡉ͕૿͍͖ͯ͠·͢
名義尺度(nominal scale)• 単に他と区別された分類• 例• 職種(Sales/CustomerSuccess/Engineer)• ⾎液型(A型/B型/O型AB型)
順序尺度(ordinal scale)• 順序をもつ尺度• 例• 職種(Assistant Producer/Producer/Executive Producer)• 評価(S評価/A評価/B評価/C評価/D評価)• グレード(P1/P2/P3/P4/P5)• 順位(1位/2位/3位)
間隔尺度(interval scale)• ⽬盛りが等間隔になっている尺度• 例• 評価(10点満点)• PageSpeed Insightsのスコア• 摂⽒温度• ⻄暦
⽐例尺度(ratio scale)• ゼロを基点に間隔や⽐率にも意味がある尺度• 例• ⾝⻑• 年齢• レスポンス時間
よくある間違い• 間隔尺度と⽐例尺度を間違う• ◯倍するみたいなことができたら⽐例尺度• 20℃は10℃の2倍暑いと⾔えるか• 順序尺度と間隔尺度を間違う• 間隔が等しいかを考える
なぜ尺度が有⽤か• 尺度の種類によってどんなグラフにすべきかが決まる。• 尺度によって使える代表値が変わる。(代表値については後で)
正規分布
突然なのですが私は中学⽣の時に英語の偏差値が50でした。
偏差値が50の時は100⼈中上から何番⽬でしょうか?
50番⽬か51番⽬です。
そして国語の偏差値が40でした。
偏差値が40の時は100⼈中下から何番⽬でしょうか?
15番⽬か16番⽬です。
偏差値20 30 40 50 60 70 80
偏差値は平均値が50標準偏差が10の正規分布
正規分布(normal distribution)
使われ⽅• 検定していくのに必要• JMeterのタイマーとかに正規分布使われている• https://jmeter.apache.org/usermanual/component_reference.html#timers
データの代表値
データを代表する値というのがあります
例えば最⼩値・最⼤値・平均値?
平均値(mean)• データの総和をデータ件数で割った値• [1, 1, 2, 3, 5] => (1 + 1 + 2 + 3 + 5) / 5 = 2.4
中央値(median)• データを昇順(降順)に並べた時に中央にくる値• 奇数の時• [1, 1, 2, 3, 5] => 2• 偶数の時• [1, 1, 2, 3, 5, 8] => (2 + 3) / 2
最頻値(mode)• 最も頻繁に出現した値• [1, 1, 2, 3, 5] => 1• 複数の時もある。• [1, 1, 2, 2, 5] => 1, 2
正規分布は平均値=中央値=最頻値となる
代表値と尺度の関係• 質的データ(名義尺度,順序尺度)は最頻値しか取れない• 量的データ(間隔尺度,⽐例尺度)は最頻値、平均値、中央値が取れる
まとめ• 今回話した話は統計学の⼊⾨者向けの参考書の⼀章と⼆章にあたるような内容です。• この先の検定⼿法については個⼈的に調べるか聞いてください。
参考資料• https://science.sciencemag.org/content/103/2684/677