Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析の不都合な真実 / inconvenient truth on data analy...
Search
Yusuke Komatsu
March 15, 2019
Technology
0
590
データ分析の不都合な真実 / inconvenient truth on data analytics
社内勉強会 ( PERSOL Group Tech Talk #4 ) の発表資料
Yusuke Komatsu
March 15, 2019
Tweet
Share
More Decks by Yusuke Komatsu
See All by Yusuke Komatsu
Create shell manager with golang
usk81
0
240
そろそろ Privacy の話をしないか? / Let's talk about privacy!!
usk81
0
72
Goとjsonで履歴書を管理できるようにしてみた / manage resumes with Go and json
usk81
3
910
とあるgopherが OpenCVをさわってみた話 / Introduction about OpenCV for gophers
usk81
0
250
Other Decks in Technology
See All in Technology
Lexical Analysis
shigashiyama
1
130
SREによる隣接領域への越境とその先の信頼性
shonansurvivors
1
400
AI機能の開発運用のリアルと今後のリアル
akiroom
0
250
2024年グライダー曲技世界選手権参加報告/2024 WGAC report
jscseminar
0
200
SREの前に
nwiizo
11
2.7k
AIチャットボット開発への生成AI活用
ryomrt
0
140
Microsoft MVPになる前、なってから/Fukuoka_Tech_Women_Community_1_baba
nina01
0
170
サイバーセキュリティと認知バイアス:対策の隙を埋める心理学的アプローチ
shumei_ito
0
200
GraphRAGを用いたLLMによるパーソナライズド推薦の生成
naveed92
0
190
FOSS4G 2024 Japan コアデイ 一般発表25 PythonでPLATEAUのデータを手軽に扱ってみる
ra0kley
1
130
Terraform未経験の御様に対してどの ように導⼊を進めていったか
tkikuchi
1
260
Mini Tokyo 3D × PLATEAU - 公共交通デジタルツインにリアルな風景を
nagix
1
230
Featured
See All Featured
GraphQLとの向き合い方2022年版
quramy
43
13k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
The Language of Interfaces
destraynor
154
24k
The MySQL Ecosystem @ GitHub 2015
samlambert
250
12k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
Code Reviewing Like a Champion
maltzj
520
39k
Learning to Love Humans: Emotional Interface Design
aarron
273
40k
Building an army of robots
kneath
302
42k
Designing for humans not robots
tammielis
249
25k
Faster Mobile Websites
deanohume
305
30k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Transcript
データ分析 の 不都合な真実 Yusuke.Komatsu@usk81 Photo by Adeboro Odunlami on Unsplash
データ分析 の 不都合な真実 Yusuke.Komatsu@usk81 Photo by Adeboro Odunlami on Unsplash
β version
⾃⼰紹介 { "basics": { "name": "Yusuke Komatsu" }, "skills": [
{"name": "Web Development"}, {"name": "Data Analyst"} ], "interests": [ {"name": "Coffee"}, {"name": "Fortnite"}, {"name": "Machine Larning"} ] }
結論 ・データ分析も、開発の仕様と同様に事前・事後の認識合わせは キチンと⾏いましょう ・⼀⾒、有⽤に⾒えたとしてもバックグラウンドのわからない データは使わない ・科学的に⽴証できない予測は予測ではなくて仮説 ・機械学習は魔法の杖じゃない。使い⽅を間違えないように
おすすめ(Exploratory)
おすすめ(書籍)
–Nate Silver “私たちはシグナルを探そうとしてノイズを集めている”
ウォーミングアップ
AI作って くれない? Photo by Mathew Schwartz on Unsplash AIでなんとか なるでしょ!?
A. はいわかりました!!
ルールベースでプログラム書くだけでもAI
ルールベースでプログラム書くだけでもAI ʙʹྲྀߦͬͨɻʹཱͨͳ͔ͬͨ
訂正) Q. 機械学習でなんとかなりませんか?
A. 無理ですね。
ジョークですよ
ここからまじめ(?)にいきます
仮説と予測 Photo by Lukas Blazek on Unsplash
予測とは ・つまりは!! ・何かしらの根拠(科学的裏付け)がある ・検証が可能である ・予測モデルの作成・予測結果が再現可能である ・予測 ≒仮説(予想)+ 根拠(正当性) 将来の出来事や有様を何らかの根拠に⽴って推し測ること
仮説とは ・これ全部仮説。 ・根拠のない結論 ・検証が不可能 ・予測結果が再現不可能 現象を説明しあるいは法則を⾒出すために、設けられる基本的な仮定
予測… できてました?
あなたが思っている 確率の算出は おそらく間違っている
あなたが思っている確率の算出はおそらく間違っている 例)降⽔確率10%ってどういう意味?
☓ ⾬の⽇が10⽇あったら1回は⾬が降る
◦ 同じ気象条件の⽇が10⽇あったら1回は⾬が降る
分析前に定義を明確にする
予測精度100%はありえない
A. 所持しているデータはサンプルにすぎない 検証・予測したいデータをすべて (今保持していないものも含む) ⺟集団
A. 所持しているデータはサンプルにすぎない ⺟集団 サンプル ⺟集団から無作為に 抽出したάルーϓ
A. 所持しているデータはサンプルにすぎない ⺟集団 サンプルは⺟集団と 異なる属性を⺬すかもしれない サンプルA サンプルB サンプルC
でも予測精度100%はおこりうる
過去に出会った予測精度100% 正答率 100% 原因はデータの偏り ↓ 予測モデルがカンニングし てるような状態
80%位でも⼤変なんだよ
単純な定量分析は 正しいとは限らない Photo by Mathew Schwartz on Unsplash
単純な定量分析が正しいとは限らない よく⾒る定量分析のグラフ です。 アイスクリームの売上と⽐ 例して、何かが増加してい ることを⺬しています。
単純な定量分析が正しいとは限らない アイスクリームの売上が上がると、 サメに襲われる件数が増える
単純な定量分析が正しいとは限らない アイスクリームの売上が上がると、 サメに襲われる件数が増える
単純な定量分析が正しいとは限らない 気温が上がる アイスが売れる サメに襲われる 海に⾏く⼈が増える 冷たいものが⾷べたい 相関 相関 独⽴
関係性があるように⾒えても⼤抵は無関係!!
Photo by Christian Erfurt on Unsplash データの背景を 知らないと結論を誤る
データの背景を知らないと結論を誤る 訳) これは私のお気に⼊りの インフォグラフィックの ひとつです。 過去2世紀の間にどれだけ の⽣活が改善されたかを 過⼩評価している⼈は多 くいます
データの背景を知らないと結論を誤る 訳) これは私のお気に⼊りの インフォグラフィックの ひとつです。 過去2世紀の間にどれだけ の⽣活が改善されたかを 過⼩評価している⼈は多 くいます
データの背景を知らないと結論を誤る w ۃͷශࠔʢ໌ࢮ͵͔͠Εͳ͍ʣਓͨͪͷਪҠΛදͨ͠ͷ w ශࠔશମΛදͨ͠ͷͰͳ͍ w ͗Γ͗ΓೖΒͳ͔ͬͨਓ͕Ͳͷ͘Β͍͍Δ͔Θ͔Βͳ͍ w Ή͠Ζ૿͑ͯΔ͔͠Εͳ͍ w
σʔλιʔε͕֤ੈͰόϥόϥ w ՟ฎՁ͕ݻఆ͞Ε͍ͯΔ なにがよくなかったか?
背景のわからないデータを安易に信じない!!
⽣のデータなんて 存在しない Photo by Mark Basarab on Unsplash
⽣のデータなんて存在しない ref. https://www.thenewatlantis.com/publications/why-data-is-never-raw
⽣のデータなんて存在しない データ リソース ⼈間が 理解できる 理解できない プログラムが 処理できる 処理できない 型定義が
ある ない 作成者の主観が ⼊っている ない (⼊る前の状態) ロジックが 紛れている (グルーピングなど) ない ˞͜͜Ͱɺศ্ٓσʔλԽ͞ΕΔલͷऔಘݩ͕࣋ͭใΛ ɹϦιʔεͱఆٛ͠·͢
データは取得時すでに加⼯済み
Raw data = 作成直後のデータ