Slide 1

Slide 1 text

Webサービス開発に 必要な統計学⼊⾨ HRBrain社内勉強会(15min)

Slide 2

Slide 2 text

⾃⼰紹介 • @yudppp • 株式会社HRBrain CTO • 好きな⾔葉: 冪等性 • Go / React / TypeScript • ○△□ - https://blog.yudppp.com/

Slide 3

Slide 3 text

アジェンダ • なぜ統計学が必要か • 尺度 • 正規分布 • データの代表値 • ペーパーテスト • 丸つけ / 解説

Slide 4

Slide 4 text

なぜ統計学が必要か • 選挙の当確を早く出せる • ⽐例代表が当確が遅いのはなぜか(政治学科 卒の⽅に聞く) • 開票率1%で当選確実を出している • 1%て少なくないか

Slide 5

Slide 5 text

スープの味⾒をするときに どのくらい飲みますか?

Slide 6

Slide 6 text

私は しっかり混ぜてから ⼀⼝分飲みます

Slide 7

Slide 7 text

統計学的にも しっかり混ぜてから 飲むのが⼤事 (無作為抽出?)

Slide 8

Slide 8 text

前置きは以上で本題

Slide 9

Slide 9 text

尺度

Slide 10

Slide 10 text

No content

Slide 11

Slide 11 text

最近仕事中にたくさん使って ます。

Slide 12

Slide 12 text

尺度(scale) • 尺度には4つの種類があります。 • 名義尺度 • 順序尺度 • 間隔尺度 • ⽐例尺度

Slide 13

Slide 13 text

尺度(scale) • 尺度には4つの種類があります。 • 名義尺度 • 順序尺度 • 間隔尺度 • ⽐例尺度 ࣭తσʔλ ྔతσʔλ

Slide 14

Slide 14 text

尺度(scale) • 尺度には4つの種類があります。 • 名義尺度 • 順序尺度 • 間隔尺度 • ⽐例尺度 ঃʑʹৄࡉ౓͕૿͍͖ͯ͠·͢

Slide 15

Slide 15 text

名義尺度(nominal scale) • 単に他と区別された分類 • 例 • 職種(Sales/CustomerSuccess/Engineer) • ⾎液型(A型/B型/O型AB型)

Slide 16

Slide 16 text

順序尺度(ordinal scale) • 順序をもつ尺度 • 例 • 職種(Assistant Producer/Producer/Executive Producer) • 評価(S評価/A評価/B評価/C評価/D評価) • グレード(P1/P2/P3/P4/P5) • 順位(1位/2位/3位)

Slide 17

Slide 17 text

間隔尺度(interval scale) • ⽬盛りが等間隔になっている尺度 • 例 • 評価(10点満点) • PageSpeed Insightsのスコア • 摂⽒温度 • ⻄暦

Slide 18

Slide 18 text

⽐例尺度(ratio scale) • ゼロを基点に間隔や⽐率にも意味がある尺度 • 例 • ⾝⻑ • 年齢 • レスポンス時間

Slide 19

Slide 19 text

よくある間違い • 間隔尺度と⽐例尺度を間違う • ◯倍するみたいなことができたら⽐例尺度 • 20℃は10℃の2倍暑いと⾔えるか • 順序尺度と間隔尺度を間違う • 間隔が等しいかを考える

Slide 20

Slide 20 text

なぜ尺度が有⽤か • 尺度の種類によってどんなグラフにすべきか が決まる。 • 尺度によって使える代表値が変わる。(代表値 については後で)

Slide 21

Slide 21 text

正規分布

Slide 22

Slide 22 text

突然なのですが 私は中学⽣の時に 英語の偏差値が50でした。

Slide 23

Slide 23 text

偏差値が50の時は 100⼈中 上から何番⽬でしょうか?

Slide 24

Slide 24 text

50番⽬か51番⽬です。

Slide 25

Slide 25 text

そして 国語の偏差値が40でした。

Slide 26

Slide 26 text

偏差値が40の時は 100⼈中 下から何番⽬でしょうか?

Slide 27

Slide 27 text

15番⽬か16番⽬です。

Slide 28

Slide 28 text

偏差値 20 30 40 50 60 70 80

Slide 29

Slide 29 text

偏差値は 平均値が50 標準偏差が10 の正規分布

Slide 30

Slide 30 text

正規分布(normal distribution)

Slide 31

Slide 31 text

使われ⽅ • 検定していくのに必要 • JMeterのタイマーとかに正規分布使われてい る • https://jmeter.apache.org/usermanual/ component_reference.html#timers

Slide 32

Slide 32 text

データの代表値

Slide 33

Slide 33 text

データを代表する値 というのがあります

Slide 34

Slide 34 text

例えば 最⼩値・最⼤値・平均値?

Slide 35

Slide 35 text

平均値(mean) • データの総和をデータ件数で割った値 • [1, 1, 2, 3, 5] => (1 + 1 + 2 + 3 + 5) / 5 = 2.4

Slide 36

Slide 36 text

中央値(median) • データを昇順(降順)に並べた時に中央にくる値 • 奇数の時 • [1, 1, 2, 3, 5] => 2 • 偶数の時 • [1, 1, 2, 3, 5, 8] => (2 + 3) / 2

Slide 37

Slide 37 text

最頻値(mode) • 最も頻繁に出現した値 • [1, 1, 2, 3, 5] => 1 • 複数の時もある。 • [1, 1, 2, 2, 5] => 1, 2

Slide 38

Slide 38 text

正規分布は 平均値=中央値=最頻値 となる

Slide 39

Slide 39 text

代表値と尺度の関係 • 質的データ(名義尺度,順序尺度)は最頻値しか 取れない • 量的データ(間隔尺度,⽐例尺度)は最頻値、平 均値、中央値が取れる

Slide 40

Slide 40 text

まとめ • 今回話した話は統計学の⼊⾨者向けの参考書 の⼀章と⼆章にあたるような内容です。 • この先の検定⼿法については個⼈的に調べる か聞いてください。

Slide 41

Slide 41 text

参考資料 • https://science.sciencemag.org/content/103/2684/677