Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - / 5trap
Search
silvers
March 08, 2016
Business
1
650
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - / 5trap
2013年に社内向けに作った資料。
発表し忘れていたので日付だけ修正して発表した。
silvers
March 08, 2016
Tweet
Share
More Decks by silvers
See All by silvers
"ふりかえり会" の第一歩 / The first step to retrospective.
silvers
4
1.6k
とある企業のプロダクトマネジメント教室 / pmjp-5
silvers
4
2.3k
エンジニアの育成について / engineer training
silvers
0
140
こんなチームになると良いなあ
silvers
34
3.4k
Other Decks in Business
See All in Business
経営組織論〜ソニックガーデンの場合(2024/11版)
kuranuki
0
470
M&A Cloud Advisory Partners 採用ピッチブック
macloud
1
13k
これを使用
ehealthcare2004
0
290
サスメド株式会社 Culture Deck
susmed
0
36k
マネージャーとエンジニアが効果的に協力するために意識した方が良い事
kotominaga
2
220
merpay-Overview
mercari_inc
7
160k
東京都ツキノワグマ目撃等情報マップ
tokyo_metropolitan_gov_digital_hr
0
270
【Otegami】「月経期間のパートナーとのすれ違いを軽減する」
hinalin
0
630
不感対策ソリューション 詳細資料
jtes
0
150
HireRoo Culture Deck(日本語)
kkosukeee
1
24k
パレットクラウド株式会社 採用ピッチ資料 エンジニア編
palettecloud
0
4.3k
Startup CTO of the year 2024 株式会社ハイヤールー
kkosukeee
0
3.5k
Featured
See All Featured
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
126
18k
YesSQL, Process and Tooling at Scale
rocio
169
14k
Teambox: Starting and Learning
jrom
133
8.8k
How to Think Like a Performance Engineer
csswizardry
20
1.1k
Building Your Own Lightsaber
phodgson
103
6.1k
Code Review Best Practice
trishagee
64
17k
Embracing the Ebb and Flow
colly
84
4.5k
We Have a Design System, Now What?
morganepeng
50
7.2k
Being A Developer After 40
akosma
86
590k
Docker and Python
trallard
40
3.1k
Practical Orchestrator
shlominoach
186
10k
Transcript
データ分析キホンのキ - 初心者が陥りやすい5つの罠 - 2016/03/08 silvers
概要 • よくある罠 • 周りではまってるのを見た罠 • 自分がはまりそうだった罠
5つの罠 • Trap1 無意味な統計 • Trap2 少ない標本 • Trap3 基準率の錯誤
• Trap4 隠された条件 • Trap5 分布を見ない
無意味な統計 Trap1
犯罪者のおよそ98% 2% 98% X Y
犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある
犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある 出典:パンは危険な食べ物
無意味にしないために • 対象でない群との比較をする必要がある • 犯罪者でない人のパンを食べる割合は? • それらの差を見る
少ない標本 Trap2
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう
2面サイコロ(コイン)を 投げてみましょう • 1が出やすい!
2面サイコロ(コイン)を 投げてみましょう • 1が出やすい! • …と言えるのかどうか
問1:効果あった? • ある施策を入れたら… • CASE1: 継続率が50%から90%になった! • CASE2: 継続率が50%から51%になった
問1:効果あった? • ある施策を入れたら… • CASE1: 10人中5人が10人中9人になった • CASE2: 10000人中5000人が10000人中5100人 になった
統計量検定 • 実験結果 • 10回中7回1が出た • 帰無仮説 • サイコロに偏りはない •
有意水準(危険率) • 5%(0.05) 0.00 0.08 0.15 0.23 0.30 0 1 2 3 4 5 6 7 8 9 10 ֬
問1のヒント • 対応のない2郡の母比率の差 • 帰無仮説:2郡に差がない!
基準率の錯誤 Trap3
問2: 架空のテロリスト判別装置 • 99%の精度で正しい判断が下せる • テロリストを「テロリストである」と判別できる • テロリストでない人を「テロリストでない」と判 別できる •
ある人物が「テロリストである」と判別されたとき どれぐらい信じられる?
問2のヒント
問2のヒント • 人口100万人中、テロリストは100人いる
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する
問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する • 10,098人中99人が正しいテロリスト
基準率 • 調査対象となっているもののうち、真に有効であるも のの割合 • テロリストが真になる可能性は、検定された仮説が真 である比率に依存する • 有意水準よりも偽陽性が多いことがある
隠された条件 Trap4
ありがとうの効果 • ビニールハウスを借りて、育て方の違いで成長に差が あるかを調べた • 右半分の棟には「ありがとう」と言って育て • 左半分の棟には「このやろう」と言って育てた • ありがとうのほうがおいしく育った
• 「ありがとう」に効果はあったか?
隠された条件 • 右側で育てた場合と左側で育てた場合 • 右半分のほうがおいしく育った
擬似反復 • 1000人から1000のデータを集める • 100人から10回ずつ1000のデータを集める • 個体差 • 同じデータを何度もとっているだけかもしれない
分布を見ない Trap5
所得の平均
所得の平均 556万円
所得の平均 556万円 意外と高い!
所得の分布 ग़యɿްੜ࿑ಇল ฏ20ࠃຽੜ׆جૅௐࠪͷ֓گ
分布を見る • 分布を見るのが一番良いが、 • いくつかの値を見るだけでも、だいたいの全体像が 見える • 平均値(算術平均):合計値を数で割った値 • 中央値:順番に並べたときの真ん中の値
• 最頻値:一番多い値
おわり まだ見ぬ罠があなたを待っている――