Webサービス開発に必要な統計学入門 / study of statistics for web developers

D68ec2463959a924ada156a278743228?s=47 yudppp
July 26, 2019

Webサービス開発に必要な統計学入門 / study of statistics for web developers

社内勉強会にて簡単に統計学について話しました。
統計学を身近に感じてもらいたかった資料です。

D68ec2463959a924ada156a278743228?s=128

yudppp

July 26, 2019
Tweet

Transcript

  1. Webサービス開発に 必要な統計学⼊⾨ HRBrain社内勉強会(15min)

  2. ⾃⼰紹介 • @yudppp • 株式会社HRBrain CTO • 好きな⾔葉: 冪等性 •

    Go / React / TypeScript • ◦△□ - https://blog.yudppp.com/
  3. アジェンダ • なぜ統計学が必要か • 尺度 • 正規分布 • データの代表値 •

    ペーパーテスト • 丸つけ / 解説
  4. なぜ統計学が必要か • 選挙の当確を早く出せる • ⽐例代表が当確が遅いのはなぜか(政治学科 卒の⽅に聞く) • 開票率1%で当選確実を出している • 1%て少なくないか

  5. スープの味⾒をするときに どのくらい飲みますか?

  6. 私は しっかり混ぜてから ⼀⼝分飲みます

  7. 統計学的にも しっかり混ぜてから 飲むのが⼤事 (無作為抽出?)

  8. 前置きは以上で本題

  9. 尺度

  10. None
  11. 最近仕事中にたくさん使って ます。

  12. 尺度(scale) • 尺度には4つの種類があります。 • 名義尺度 • 順序尺度 • 間隔尺度 •

    ⽐例尺度
  13. 尺度(scale) • 尺度には4つの種類があります。 • 名義尺度 • 順序尺度 • 間隔尺度 •

    ⽐例尺度 ࣭తσʔλ ྔతσʔλ
  14. 尺度(scale) • 尺度には4つの種類があります。 • 名義尺度 • 順序尺度 • 間隔尺度 •

    ⽐例尺度 ঃʑʹৄࡉ౓͕૿͍͖ͯ͠·͢
  15. 名義尺度(nominal scale) • 単に他と区別された分類 • 例 • 職種(Sales/CustomerSuccess/Engineer) • ⾎液型(A型/B型/O型AB型)

  16. 順序尺度(ordinal scale) • 順序をもつ尺度 • 例 • 職種(Assistant Producer/Producer/Executive Producer)

    • 評価(S評価/A評価/B評価/C評価/D評価) • グレード(P1/P2/P3/P4/P5) • 順位(1位/2位/3位)
  17. 間隔尺度(interval scale) • ⽬盛りが等間隔になっている尺度 • 例 • 評価(10点満点) • PageSpeed

    Insightsのスコア • 摂⽒温度 • ⻄暦
  18. ⽐例尺度(ratio scale) • ゼロを基点に間隔や⽐率にも意味がある尺度 • 例 • ⾝⻑ • 年齢

    • レスポンス時間
  19. よくある間違い • 間隔尺度と⽐例尺度を間違う • ◯倍するみたいなことができたら⽐例尺度 • 20℃は10℃の2倍暑いと⾔えるか • 順序尺度と間隔尺度を間違う •

    間隔が等しいかを考える
  20. なぜ尺度が有⽤か • 尺度の種類によってどんなグラフにすべきか が決まる。 • 尺度によって使える代表値が変わる。(代表値 については後で)

  21. 正規分布

  22. 突然なのですが 私は中学⽣の時に 英語の偏差値が50でした。

  23. 偏差値が50の時は 100⼈中 上から何番⽬でしょうか?

  24. 50番⽬か51番⽬です。

  25. そして 国語の偏差値が40でした。

  26. 偏差値が40の時は 100⼈中 下から何番⽬でしょうか?

  27. 15番⽬か16番⽬です。

  28. 偏差値 20 30 40 50 60 70 80

  29. 偏差値は 平均値が50 標準偏差が10 の正規分布

  30. 正規分布(normal distribution)

  31. 使われ⽅ • 検定していくのに必要 • JMeterのタイマーとかに正規分布使われてい る • https://jmeter.apache.org/usermanual/ component_reference.html#timers

  32. データの代表値

  33. データを代表する値 というのがあります

  34. 例えば 最⼩値・最⼤値・平均値?

  35. 平均値(mean) • データの総和をデータ件数で割った値 • [1, 1, 2, 3, 5] =>

    (1 + 1 + 2 + 3 + 5) / 5 = 2.4
  36. 中央値(median) • データを昇順(降順)に並べた時に中央にくる値 • 奇数の時 • [1, 1, 2, 3,

    5] => 2 • 偶数の時 • [1, 1, 2, 3, 5, 8] => (2 + 3) / 2
  37. 最頻値(mode) • 最も頻繁に出現した値 • [1, 1, 2, 3, 5] =>

    1 • 複数の時もある。 • [1, 1, 2, 2, 5] => 1, 2
  38. 正規分布は 平均値=中央値=最頻値 となる

  39. 代表値と尺度の関係 • 質的データ(名義尺度,順序尺度)は最頻値しか 取れない • 量的データ(間隔尺度,⽐例尺度)は最頻値、平 均値、中央値が取れる

  40. まとめ • 今回話した話は統計学の⼊⾨者向けの参考書 の⼀章と⼆章にあたるような内容です。 • この先の検定⼿法については個⼈的に調べる か聞いてください。

  41. 参考資料 • https://science.sciencemag.org/content/103/2684/677