Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - / 5trap
Search
silvers
March 08, 2016
Business
1
720
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - / 5trap
2013年に社内向けに作った資料。
発表し忘れていたので日付だけ修正して発表した。
silvers
March 08, 2016
Tweet
Share
More Decks by silvers
See All by silvers
"ふりかえり会" の第一歩 / The first step to retrospective.
silvers
4
1.7k
とある企業のプロダクトマネジメント教室 / pmjp-5
silvers
4
2.4k
エンジニアの育成について / engineer training
silvers
0
170
こんなチームになると良いなあ
silvers
34
3.5k
Other Decks in Business
See All in Business
数字で見る松岡会計事務所
wf714201
0
550
成功に役立つ行動経済学のインサイト
masayamoriofficial
0
150
イークラウド会社紹介 ~挑戦で、つながる社会へ~
ecrowd
1
3.6k
「みんな、笑顔になぁれ」を実現する 職種混合開発組織の目標設定・評価の改善事例
daitasu
0
180
株式会社ボスコ・テクノロジーズ 採用ピッチ資料
boscotechrecruit
0
1.4k
UXwriter_intro_202508
uxw
1
4.6k
【DearOne】Dear Newest Member
hrm
2
11k
yayoi_company_deck.pdf
yayoi_hr
0
3.2k
物流の専門家がお客様に伴走するサブスク型コンサルティング
mclogi
0
200
操電会社紹介資料 / Soden Company Deck
soden
0
220
AIで変わるPdMの役割──思考する力が武器になる
itsukikacky
18
13k
Rakus Career Introduction
rakus_career
0
390k
Featured
See All Featured
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
9
790
Building Adaptive Systems
keathley
43
2.7k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
The Invisible Side of Design
smashingmag
301
51k
Being A Developer After 40
akosma
90
590k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Building an army of robots
kneath
306
46k
How STYLIGHT went responsive
nonsquared
100
5.8k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Git: the NoSQL Database
bkeepers
PRO
431
65k
Transcript
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - 2016/03/08 silvers
概要 • よくある罠 • 周りではまってるのを見た罠 • 自分がはまりそうだった罠
5つの罠 • Trap1 無意味な統計 • Trap2 少ない標本 • Trap3 基準率の錯誤
• Trap4 隠された条件 • Trap5 分布を見ない
無意味な統計 Trap1
犯罪者のおよそ98% 2% 98% X Y
犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある
犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある 出典:パンは危険な食べ物
無意味にしないために • 対象でない群との比較をする必要がある • 犯罪者でない人のパンを食べる割合は? • それらの差を見る
少ない標本 Trap2
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう • 1が出やすい!
2面サイコロ(コイン)を 投げてみましょう • 1が出やすい! • …と言えるのかどうか
問1:効果あった? • ある施策を入れたら… • CASE1: 継続率が50%から90%になった! • CASE2: 継続率が50%から51%になった
問1:効果あった? • ある施策を入れたら… • CASE1: 10人中5人が10人中9人になった • CASE2: 10000人中5000人が10000人中5100人 になった
統計量検定 • 実験結果 • 10回中7回1が出た • 帰無仮説 • サイコロに偏りはない •
有意水準(危険率) • 5%(0.05) 0.00 0.08 0.15 0.23 0.30 0 1 2 3 4 5 6 7 8 9 10 ֬
問1のヒント • 対応のない2郡の母比率の差 • 帰無仮説:2郡に差がない!
基準率の錯誤 Trap3
問2: 架空のテロリスト判別装置 • 99%の精度で正しい判断が下せる • テロリストを「テロリストである」と判別できる • テロリストでない人を「テロリストでない」と判 別できる •
ある人物が「テロリストである」と判別されたとき どれぐらい信じられる?
問2のヒント
問2のヒント • 人口100万人中、テロリストは100人いる
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する • 10,098人中99人が正しいテロリスト
基準率 • 調査対象となっているもののうち、真に有効であるも のの割合 • テロリストが真になる可能性は、検定された仮説が真 である比率に依存する • 有意水準よりも偽陽性が多いことがある
隠された条件 Trap4
ありがとうの効果 • ビニールハウスを借りて、育て方の違いで成長に差が あるかを調べた • 右半分の棟には「ありがとう」と言って育て • 左半分の棟には「このやろう」と言って育てた • ありがとうのほうがおいしく育った
• 「ありがとう」に効果はあったか?
隠された条件 • 右側で育てた場合と左側で育てた場合 • 右半分のほうがおいしく育った
擬似反復 • 1000人から1000のデータを集める • 100人から10回ずつ1000のデータを集める • 個体差 • 同じデータを何度もとっているだけかもしれない
分布を見ない Trap5
所得の平均
所得の平均 556万円
所得の平均 556万円 意外と高い!
所得の分布 ग़యɿްੜ࿑ಇল ฏ20ࠃຽੜ׆جૅௐࠪͷ֓گ
分布を見る • 分布を見るのが一番良いが、 • いくつかの値を見るだけでも、だいたいの全体像が 見える • 平均値(算術平均):合計値を数で割った値 • 中央値:順番に並べたときの真ん中の値
• 最頻値:一番多い値
おわり まだ見ぬ罠があなたを待っている――