Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - / 5trap
Search
silvers
March 08, 2016
Business
1
660
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - / 5trap
2013年に社内向けに作った資料。
発表し忘れていたので日付だけ修正して発表した。
silvers
March 08, 2016
Tweet
Share
More Decks by silvers
See All by silvers
"ふりかえり会" の第一歩 / The first step to retrospective.
silvers
4
1.6k
とある企業のプロダクトマネジメント教室 / pmjp-5
silvers
4
2.3k
エンジニアの育成について / engineer training
silvers
0
140
こんなチームになると良いなあ
silvers
34
3.4k
Other Decks in Business
See All in Business
【エンジニア職】中途採用向け会社説明資料(テックファーム株式会社)
techfirm
0
4.2k
ネクストビートコーポレートガイド/corporate-guide
nextbeat
3
77k
GA technologies Co.,Ltd. Corporate Story
gatechnologies
2
910
なぜ施策優先度を意思決定しなければならないのか? 経験から得た要因と対策
mkitahara01985
2
200
ドローンを活用した汚泥焼却炉内点検のDX
tokyo_metropolitan_gov_digital_hr
0
320
ストーリーテリングでチームに”熱"を伝える🔥
inagakikay
1
10k
東京都教育委員会 情報共有掲示板
tokyo_metropolitan_gov_digital_hr
0
280
freee + Product Design FY24 Q2
freee
4
9.4k
ログラス会社紹介資料 / Loglass Company Deck
loglass2019
7
250k
署内デジタルインフォボードの開発
tokyo_metropolitan_gov_digital_hr
0
310
合議で決めたいわけではないけれど、 集合知で助けてほしい。_pmconf_2024
tomosooon
1
5.1k
ドコドア_採用ピッチ資料_20241205
docodoor_hr
3
7.6k
Featured
See All Featured
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
Become a Pro
speakerdeck
PRO
26
5k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
32
2.7k
Done Done
chrislema
181
16k
Unsuck your backbone
ammeep
669
57k
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
KATA
mclloyd
29
14k
Imperfection Machines: The Place of Print at Facebook
scottboms
266
13k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
330
21k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
Transcript
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - 2016/03/08 silvers
概要 • よくある罠 • 周りではまってるのを見た罠 • 自分がはまりそうだった罠
5つの罠 • Trap1 無意味な統計 • Trap2 少ない標本 • Trap3 基準率の錯誤
• Trap4 隠された条件 • Trap5 分布を見ない
無意味な統計 Trap1
犯罪者のおよそ98% 2% 98% X Y
犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある
犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある 出典:パンは危険な食べ物
無意味にしないために • 対象でない群との比較をする必要がある • 犯罪者でない人のパンを食べる割合は? • それらの差を見る
少ない標本 Trap2
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう • 1が出やすい!
2面サイコロ(コイン)を 投げてみましょう • 1が出やすい! • …と言えるのかどうか
問1:効果あった? • ある施策を入れたら… • CASE1: 継続率が50%から90%になった! • CASE2: 継続率が50%から51%になった
問1:効果あった? • ある施策を入れたら… • CASE1: 10人中5人が10人中9人になった • CASE2: 10000人中5000人が10000人中5100人 になった
統計量検定 • 実験結果 • 10回中7回1が出た • 帰無仮説 • サイコロに偏りはない •
有意水準(危険率) • 5%(0.05) 0.00 0.08 0.15 0.23 0.30 0 1 2 3 4 5 6 7 8 9 10 ֬
問1のヒント • 対応のない2郡の母比率の差 • 帰無仮説:2郡に差がない!
基準率の錯誤 Trap3
問2: 架空のテロリスト判別装置 • 99%の精度で正しい判断が下せる • テロリストを「テロリストである」と判別できる • テロリストでない人を「テロリストでない」と判 別できる •
ある人物が「テロリストである」と判別されたとき どれぐらい信じられる?
問2のヒント
問2のヒント • 人口100万人中、テロリストは100人いる
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する • 10,098人中99人が正しいテロリスト
基準率 • 調査対象となっているもののうち、真に有効であるも のの割合 • テロリストが真になる可能性は、検定された仮説が真 である比率に依存する • 有意水準よりも偽陽性が多いことがある
隠された条件 Trap4
ありがとうの効果 • ビニールハウスを借りて、育て方の違いで成長に差が あるかを調べた • 右半分の棟には「ありがとう」と言って育て • 左半分の棟には「このやろう」と言って育てた • ありがとうのほうがおいしく育った
• 「ありがとう」に効果はあったか?
隠された条件 • 右側で育てた場合と左側で育てた場合 • 右半分のほうがおいしく育った
擬似反復 • 1000人から1000のデータを集める • 100人から10回ずつ1000のデータを集める • 個体差 • 同じデータを何度もとっているだけかもしれない
分布を見ない Trap5
所得の平均
所得の平均 556万円
所得の平均 556万円 意外と高い!
所得の分布 ग़యɿްੜ࿑ಇল ฏ20ࠃຽੜ׆جૅௐࠪͷ֓گ
分布を見る • 分布を見るのが一番良いが、 • いくつかの値を見るだけでも、だいたいの全体像が 見える • 平均値(算術平均):合計値を数で割った値 • 中央値:順番に並べたときの真ん中の値
• 最頻値:一番多い値
おわり まだ見ぬ罠があなたを待っている――