Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データ分析キホンのキ - 初心者が陥りやすい5つの罠 - / 5trap

B855677a39e9529c7900aed5da3be527?s=47 silvers
March 08, 2016

データ分析キホンのキ - 初心者が陥りやすい5つの罠 - / 5trap

2013年に社内向けに作った資料。
発表し忘れていたので日付だけ修正して発表した。

B855677a39e9529c7900aed5da3be527?s=128

silvers

March 08, 2016
Tweet

Transcript

  1. データ分析キホンのキ  - 初心者が陥りやすい5つの罠 - 2016/03/08  silvers

  2. 概要 • よくある罠 • 周りではまってるのを見た罠 • 自分がはまりそうだった罠

  3. 5つの罠 • Trap1 無意味な統計 • Trap2 少ない標本 • Trap3 基準率の錯誤

    • Trap4 隠された条件 • Trap5 分布を見ない
  4. 無意味な統計 Trap1

  5. 犯罪者のおよそ98% 2% 98% X Y

  6. 犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある

  7. 犯罪者のおよそ98% 2% 98% X Y パンを食べたことがある 出典:パンは危険な食べ物

  8. 無意味にしないために • 対象でない群との比較をする必要がある • 犯罪者でない人のパンを食べる割合は? • それらの差を見る

  9. 少ない標本 Trap2

  10. 2面サイコロ(コイン)を 投げてみましょう

  11. 2面サイコロ(コイン)を 投げてみましょう

  12. 2面サイコロ(コイン)を 投げてみましょう

  13. 2面サイコロ(コイン)を 投げてみましょう

  14. 2面サイコロ(コイン)を 投げてみましょう

  15. 2面サイコロ(コイン)を 投げてみましょう

  16. 2面サイコロ(コイン)を 投げてみましょう

  17. 2面サイコロ(コイン)を 投げてみましょう

  18. 2面サイコロ(コイン)を 投げてみましょう

  19. 2面サイコロ(コイン)を 投げてみましょう

  20. 2面サイコロ(コイン)を 投げてみましょう

  21. 2面サイコロ(コイン)を 投げてみましょう • 1が出やすい!

  22. 2面サイコロ(コイン)を 投げてみましょう • 1が出やすい! • …と言えるのかどうか

  23. 問1:効果あった? • ある施策を入れたら… • CASE1: 継続率が50%から90%になった! • CASE2: 継続率が50%から51%になった

  24. 問1:効果あった? • ある施策を入れたら… • CASE1: 10人中5人が10人中9人になった • CASE2: 10000人中5000人が10000人中5100人 になった

  25. 統計量検定 • 実験結果 • 10回中7回1が出た • 帰無仮説 • サイコロに偏りはない •

    有意水準(危険率) • 5%(0.05) 0.00 0.08 0.15 0.23 0.30 0 1 2 3 4 5 6 7 8 9 10 ֬཰
  26. 問1のヒント • 対応のない2郡の母比率の差 • 帰無仮説:2郡に差がない!

  27. 基準率の錯誤 Trap3

  28. 問2: 架空のテロリスト判別装置 • 99%の精度で正しい判断が下せる • テロリストを「テロリストである」と判別できる • テロリストでない人を「テロリストでない」と判 別できる •

    ある人物が「テロリストである」と判別されたとき どれぐらい信じられる?
  29. 問2のヒント

  30. 問2のヒント • 人口100万人中、テロリストは100人いる

  31. 問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する

  32. 問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する

  33. 問2のヒント • 人口100万人中、テロリストは100人いる • 100人のうち99人をテロリストと判断する • 999,900人のうち、9,999人をテロリストとして判断 する • 10,098人中99人が正しいテロリスト

  34. 基準率 • 調査対象となっているもののうち、真に有効であるも のの割合 • テロリストが真になる可能性は、検定された仮説が真 である比率に依存する • 有意水準よりも偽陽性が多いことがある

  35. 隠された条件 Trap4

  36. ありがとうの効果 • ビニールハウスを借りて、育て方の違いで成長に差が あるかを調べた • 右半分の棟には「ありがとう」と言って育て • 左半分の棟には「このやろう」と言って育てた • ありがとうのほうがおいしく育った

    • 「ありがとう」に効果はあったか?
  37. 隠された条件 • 右側で育てた場合と左側で育てた場合 • 右半分のほうがおいしく育った

  38. 擬似反復 • 1000人から1000のデータを集める • 100人から10回ずつ1000のデータを集める • 個体差 • 同じデータを何度もとっているだけかもしれない

  39. 分布を見ない Trap5

  40. 所得の平均

  41. 所得の平均 556万円

  42. 所得の平均 556万円 意外と高い!

  43. 所得の分布 ग़యɿްੜ࿑ಇল ฏ੒20೥ࠃຽੜ׆جૅௐࠪͷ֓گ

  44. 分布を見る • 分布を見るのが一番良いが、 • いくつかの値を見るだけでも、だいたいの全体像が 見える • 平均値(算術平均):合計値を数で割った値 • 中央値:順番に並べたときの真ん中の値

    • 最頻値:一番多い値
  45. おわり まだ見ぬ罠があなたを待っている――