Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - 2016/03/08 silvers
Slide 2
Slide 2 text
概要 • よくある罠 • 周りではまってるのを見た罠 • 自分がはまりそうだった罠
Slide 3
Slide 3 text
5つの罠 • Trap1 無意味な統計 • Trap2 少ない標本 • Trap3 基準率の錯誤 • Trap4 隠された条件 • Trap5 分布を見ない
Slide 4
Slide 4 text
無意味な統計 Trap1
Slide 5
Slide 5 text
犯罪者のおよそ98% 2% 98% X Y
Slide 6
Slide 6 text
犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある
Slide 7
Slide 7 text
犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある 出典:パンは危険な食べ物
Slide 8
Slide 8 text
無意味にしないために • 対象でない群との比較をする必要がある • 犯罪者でない人のパンを食べる割合は? • それらの差を見る
Slide 9
Slide 9 text
少ない標本 Trap2
Slide 10
Slide 10 text
2面サイコロ(コイン)を 投げてみましょう
Slide 11
Slide 11 text
2面サイコロ(コイン)を 投げてみましょう
Slide 12
Slide 12 text
2面サイコロ(コイン)を 投げてみましょう
Slide 13
Slide 13 text
2面サイコロ(コイン)を 投げてみましょう
Slide 14
Slide 14 text
2面サイコロ(コイン)を 投げてみましょう
Slide 15
Slide 15 text
2面サイコロ(コイン)を 投げてみましょう
Slide 16
Slide 16 text
2面サイコロ(コイン)を 投げてみましょう
Slide 17
Slide 17 text
2面サイコロ(コイン)を 投げてみましょう
Slide 18
Slide 18 text
2面サイコロ(コイン)を 投げてみましょう
Slide 19
Slide 19 text
2面サイコロ(コイン)を 投げてみましょう
Slide 20
Slide 20 text
2面サイコロ(コイン)を 投げてみましょう
Slide 21
Slide 21 text
2面サイコロ(コイン)を 投げてみましょう • 1が出やすい!
Slide 22
Slide 22 text
2面サイコロ(コイン)を 投げてみましょう • 1が出やすい! • …と言えるのかどうか
Slide 23
Slide 23 text
問1:効果あった? • ある施策を入れたら… • CASE1: 継続率が50%から90%になった! • CASE2: 継続率が50%から51%になった
Slide 24
Slide 24 text
問1:効果あった? • ある施策を入れたら… • CASE1: 10人中5人が10人中9人になった • CASE2: 10000人中5000人が10000人中5100人 になった
Slide 25
Slide 25 text
統計量検定 • 実験結果 • 10回中7回1が出た • 帰無仮説 • サイコロに偏りはない • 有意水準(危険率) • 5%(0.05) 0.00 0.08 0.15 0.23 0.30 0 1 2 3 4 5 6 7 8 9 10 ֬
Slide 26
Slide 26 text
問1のヒント • 対応のない2郡の母比率の差 • 帰無仮説:2郡に差がない!
Slide 27
Slide 27 text
基準率の錯誤 Trap3
Slide 28
Slide 28 text
問2: 架空のテロリスト判別装置 • 99%の精度で正しい判断が下せる • テロリストを「テロリストである」と判別できる • テロリストでない人を「テロリストでない」と判 別できる • ある人物が「テロリストである」と判別されたとき どれぐらい信じられる?
Slide 29
Slide 29 text
問2のヒント
Slide 30
Slide 30 text
問2のヒント • 人口100万人中、テロリストは100人いる
Slide 31
Slide 31 text
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する
Slide 32
Slide 32 text
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する
Slide 33
Slide 33 text
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する • 10,098人中99人が正しいテロリスト
Slide 34
Slide 34 text
基準率 • 調査対象となっているもののうち、真に有効であるも のの割合 • テロリストが真になる可能性は、検定された仮説が真 である比率に依存する • 有意水準よりも偽陽性が多いことがある
Slide 35
Slide 35 text
隠された条件 Trap4
Slide 36
Slide 36 text
ありがとうの効果 • ビニールハウスを借りて、育て方の違いで成長に差が あるかを調べた • 右半分の棟には「ありがとう」と言って育て • 左半分の棟には「このやろう」と言って育てた • ありがとうのほうがおいしく育った • 「ありがとう」に効果はあったか?
Slide 37
Slide 37 text
隠された条件 • 右側で育てた場合と左側で育てた場合 • 右半分のほうがおいしく育った
Slide 38
Slide 38 text
擬似反復 • 1000人から1000のデータを集める • 100人から10回ずつ1000のデータを集める • 個体差 • 同じデータを何度もとっているだけかもしれない
Slide 39
Slide 39 text
分布を見ない Trap5
Slide 40
Slide 40 text
所得の平均
Slide 41
Slide 41 text
所得の平均 556万円
Slide 42
Slide 42 text
所得の平均 556万円 意外と高い!
Slide 43
Slide 43 text
所得の分布 ग़యɿްੜ࿑ಇল ฏ20ࠃຽੜ׆جૅௐࠪͷ֓گ
Slide 44
Slide 44 text
分布を見る • 分布を見るのが一番良いが、 • いくつかの値を見るだけでも、だいたいの全体像が 見える • 平均値(算術平均):合計値を数で割った値 • 中央値:順番に並べたときの真ん中の値 • 最頻値:一番多い値
Slide 45
Slide 45 text
おわり まだ見ぬ罠があなたを待っている――