Slide 1

Slide 1 text

データ分析キホンのキ  - 初心者が陥りやすい5つの罠 - 2016/03/08  silvers

Slide 2

Slide 2 text

概要 • よくある罠 • 周りではまってるのを見た罠 • 自分がはまりそうだった罠

Slide 3

Slide 3 text

5つの罠 • Trap1 無意味な統計 • Trap2 少ない標本 • Trap3 基準率の錯誤 • Trap4 隠された条件 • Trap5 分布を見ない

Slide 4

Slide 4 text

無意味な統計 Trap1

Slide 5

Slide 5 text

犯罪者のおよそ98% 2% 98% X Y

Slide 6

Slide 6 text

犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある

Slide 7

Slide 7 text

犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある 出典:パンは危険な食べ物

Slide 8

Slide 8 text

無意味にしないために • 対象でない群との比較をする必要がある • 犯罪者でない人のパンを食べる割合は? • それらの差を見る

Slide 9

Slide 9 text

少ない標本 Trap2

Slide 10

Slide 10 text

2面サイコロ(コイン)を 投げてみましょう

Slide 11

Slide 11 text

2面サイコロ(コイン)を 投げてみましょう

Slide 12

Slide 12 text

2面サイコロ(コイン)を 投げてみましょう

Slide 13

Slide 13 text

2面サイコロ(コイン)を 投げてみましょう

Slide 14

Slide 14 text

2面サイコロ(コイン)を 投げてみましょう

Slide 15

Slide 15 text

2面サイコロ(コイン)を 投げてみましょう

Slide 16

Slide 16 text

2面サイコロ(コイン)を 投げてみましょう

Slide 17

Slide 17 text

2面サイコロ(コイン)を 投げてみましょう

Slide 18

Slide 18 text

2面サイコロ(コイン)を 投げてみましょう

Slide 19

Slide 19 text

2面サイコロ(コイン)を 投げてみましょう

Slide 20

Slide 20 text

2面サイコロ(コイン)を 投げてみましょう

Slide 21

Slide 21 text

2面サイコロ(コイン)を 投げてみましょう • 1が出やすい!

Slide 22

Slide 22 text

2面サイコロ(コイン)を 投げてみましょう • 1が出やすい! • …と言えるのかどうか

Slide 23

Slide 23 text

問1:効果あった? • ある施策を入れたら… • CASE1: 継続率が50%から90%になった! • CASE2: 継続率が50%から51%になった

Slide 24

Slide 24 text

問1:効果あった? • ある施策を入れたら… • CASE1: 10人中5人が10人中9人になった • CASE2: 10000人中5000人が10000人中5100人 になった

Slide 25

Slide 25 text

統計量検定 • 実験結果 • 10回中7回1が出た • 帰無仮説 • サイコロに偏りはない • 有意水準(危険率) • 5%(0.05) 0.00 0.08 0.15 0.23 0.30 0 1 2 3 4 5 6 7 8 9 10 ֬཰

Slide 26

Slide 26 text

問1のヒント • 対応のない2郡の母比率の差 • 帰無仮説:2郡に差がない!

Slide 27

Slide 27 text

基準率の錯誤 Trap3

Slide 28

Slide 28 text

問2: 架空のテロリスト判別装置 • 99%の精度で正しい判断が下せる • テロリストを「テロリストである」と判別できる • テロリストでない人を「テロリストでない」と判 別できる • ある人物が「テロリストである」と判別されたとき どれぐらい信じられる?

Slide 29

Slide 29 text

問2のヒント

Slide 30

Slide 30 text

問2のヒント • 人口100万人中、テロリストは100人いる

Slide 31

Slide 31 text

問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する

Slide 32

Slide 32 text

問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する

Slide 33

Slide 33 text

問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する • 10,098人中99人が正しいテロリスト

Slide 34

Slide 34 text

基準率 • 調査対象となっているもののうち、真に有効であるも のの割合 • テロリストが真になる可能性は、検定された仮説が真 である比率に依存する • 有意水準よりも偽陽性が多いことがある

Slide 35

Slide 35 text

隠された条件 Trap4

Slide 36

Slide 36 text

ありがとうの効果 • ビニールハウスを借りて、育て方の違いで成長に差が あるかを調べた • 右半分の棟には「ありがとう」と言って育て • 左半分の棟には「このやろう」と言って育てた • ありがとうのほうがおいしく育った • 「ありがとう」に効果はあったか?

Slide 37

Slide 37 text

隠された条件 • 右側で育てた場合と左側で育てた場合 • 右半分のほうがおいしく育った

Slide 38

Slide 38 text

擬似反復 • 1000人から1000のデータを集める • 100人から10回ずつ1000のデータを集める • 個体差 • 同じデータを何度もとっているだけかもしれない

Slide 39

Slide 39 text

分布を見ない Trap5

Slide 40

Slide 40 text

所得の平均

Slide 41

Slide 41 text

所得の平均 556万円

Slide 42

Slide 42 text

所得の平均 556万円 意外と高い!

Slide 43

Slide 43 text

所得の分布 ग़యɿްੜ࿑ಇল ฏ੒20೥ࠃຽੜ׆جૅௐࠪͷ֓گ

Slide 44

Slide 44 text

分布を見る • 分布を見るのが一番良いが、 • いくつかの値を見るだけでも、だいたいの全体像が 見える • 平均値(算術平均):合計値を数で割った値 • 中央値:順番に並べたときの真ん中の値 • 最頻値:一番多い値

Slide 45

Slide 45 text

おわり まだ見ぬ罠があなたを待っている――