Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析の不都合な真実 / inconvenient truth on data analy...
Search
Yusuke Komatsu
March 15, 2019
Technology
0
600
データ分析の不都合な真実 / inconvenient truth on data analytics
社内勉強会 ( PERSOL Group Tech Talk #4 ) の発表資料
Yusuke Komatsu
March 15, 2019
Tweet
Share
More Decks by Yusuke Komatsu
See All by Yusuke Komatsu
Create shell manager with golang
usk81
0
260
そろそろ Privacy の話をしないか? / Let's talk about privacy!!
usk81
0
78
Goとjsonで履歴書を管理できるようにしてみた / manage resumes with Go and json
usk81
3
970
とあるgopherが OpenCVをさわってみた話 / Introduction about OpenCV for gophers
usk81
0
300
Other Decks in Technology
See All in Technology
AWS DMS で SQL Server を移行してみた/aws-dms-sql-server-migration
emiki
0
260
AI時代、“平均値”ではいられない
uhyo
8
2.7k
デザインとエンジニアリングの架け橋を目指す OPTiMのデザインシステム「nucleus」の軌跡と広げ方
optim
0
120
ViteとTypeScriptのProject Referencesで 大規模モノレポのUIカタログのリリースサイクルを高速化する
shuta13
3
230
abema-trace-sampling-observability-cost-optimization
tetsuya28
0
370
もう外には出ない。より快適なフルリモート環境を目指して
mottyzzz
14
11k
データとAIで明らかになる、私たちの課題 ~Snowflake MCP,Salesforce MCPに触れて~ / Data and AI Insights
kaonavi
0
140
SRE × マネジメントレイヤーが挑戦した組織・会社のオブザーバビリティ改革 ― ビジネス価値と信頼性を両立するリアルな挑戦
coconala_engineer
0
300
AI機能プロジェクト炎上の 3つのしくじりと学び
nakawai
0
150
How Fast Is Fast Enough? [PerfNow 2025]
tammyeverts
2
140
生成AI時代のPythonセキュリティとガバナンス
abenben
0
150
RemoteFunctionを使ったコロケーション
mkazutaka
1
140
Featured
See All Featured
Agile that works and the tools we love
rasmusluckow
331
21k
Mobile First: as difficult as doing things right
swwweet
225
10k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
10
620
Faster Mobile Websites
deanohume
310
31k
Six Lessons from altMBA
skipperchong
29
4k
Typedesign – Prime Four
hannesfritz
42
2.8k
Unsuck your backbone
ammeep
671
58k
Fireside Chat
paigeccino
41
3.7k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
140
34k
Facilitating Awesome Meetings
lara
57
6.6k
The Language of Interfaces
destraynor
162
25k
4 Signs Your Business is Dying
shpigford
186
22k
Transcript
データ分析 の 不都合な真実 Yusuke.Komatsu@usk81 Photo by Adeboro Odunlami on Unsplash
データ分析 の 不都合な真実 Yusuke.Komatsu@usk81 Photo by Adeboro Odunlami on Unsplash
β version
⾃⼰紹介 { "basics": { "name": "Yusuke Komatsu" }, "skills": [
{"name": "Web Development"}, {"name": "Data Analyst"} ], "interests": [ {"name": "Coffee"}, {"name": "Fortnite"}, {"name": "Machine Larning"} ] }
結論 ・データ分析も、開発の仕様と同様に事前・事後の認識合わせは キチンと⾏いましょう ・⼀⾒、有⽤に⾒えたとしてもバックグラウンドのわからない データは使わない ・科学的に⽴証できない予測は予測ではなくて仮説 ・機械学習は魔法の杖じゃない。使い⽅を間違えないように
おすすめ(Exploratory)
おすすめ(書籍)
–Nate Silver “私たちはシグナルを探そうとしてノイズを集めている”
ウォーミングアップ
AI作って くれない? Photo by Mathew Schwartz on Unsplash AIでなんとか なるでしょ!?
A. はいわかりました!!
ルールベースでプログラム書くだけでもAI
ルールベースでプログラム書くだけでもAI ʙʹྲྀߦͬͨɻʹཱͨͳ͔ͬͨ
訂正) Q. 機械学習でなんとかなりませんか?
A. 無理ですね。
ジョークですよ
ここからまじめ(?)にいきます
仮説と予測 Photo by Lukas Blazek on Unsplash
予測とは ・つまりは!! ・何かしらの根拠(科学的裏付け)がある ・検証が可能である ・予測モデルの作成・予測結果が再現可能である ・予測 ≒仮説(予想)+ 根拠(正当性) 将来の出来事や有様を何らかの根拠に⽴って推し測ること
仮説とは ・これ全部仮説。 ・根拠のない結論 ・検証が不可能 ・予測結果が再現不可能 現象を説明しあるいは法則を⾒出すために、設けられる基本的な仮定
予測… できてました?
あなたが思っている 確率の算出は おそらく間違っている
あなたが思っている確率の算出はおそらく間違っている 例)降⽔確率10%ってどういう意味?
☓ ⾬の⽇が10⽇あったら1回は⾬が降る
◦ 同じ気象条件の⽇が10⽇あったら1回は⾬が降る
分析前に定義を明確にする
予測精度100%はありえない
A. 所持しているデータはサンプルにすぎない 検証・予測したいデータをすべて (今保持していないものも含む) ⺟集団
A. 所持しているデータはサンプルにすぎない ⺟集団 サンプル ⺟集団から無作為に 抽出したάルーϓ
A. 所持しているデータはサンプルにすぎない ⺟集団 サンプルは⺟集団と 異なる属性を⺬すかもしれない サンプルA サンプルB サンプルC
でも予測精度100%はおこりうる
過去に出会った予測精度100% 正答率 100% 原因はデータの偏り ↓ 予測モデルがカンニングし てるような状態
80%位でも⼤変なんだよ
単純な定量分析は 正しいとは限らない Photo by Mathew Schwartz on Unsplash
単純な定量分析が正しいとは限らない よく⾒る定量分析のグラフ です。 アイスクリームの売上と⽐ 例して、何かが増加してい ることを⺬しています。
単純な定量分析が正しいとは限らない アイスクリームの売上が上がると、 サメに襲われる件数が増える
単純な定量分析が正しいとは限らない アイスクリームの売上が上がると、 サメに襲われる件数が増える
単純な定量分析が正しいとは限らない 気温が上がる アイスが売れる サメに襲われる 海に⾏く⼈が増える 冷たいものが⾷べたい 相関 相関 独⽴
関係性があるように⾒えても⼤抵は無関係!!
Photo by Christian Erfurt on Unsplash データの背景を 知らないと結論を誤る
データの背景を知らないと結論を誤る 訳) これは私のお気に⼊りの インフォグラフィックの ひとつです。 過去2世紀の間にどれだけ の⽣活が改善されたかを 過⼩評価している⼈は多 くいます
データの背景を知らないと結論を誤る 訳) これは私のお気に⼊りの インフォグラフィックの ひとつです。 過去2世紀の間にどれだけ の⽣活が改善されたかを 過⼩評価している⼈は多 くいます
データの背景を知らないと結論を誤る w ۃͷශࠔʢ໌ࢮ͵͔͠Εͳ͍ʣਓͨͪͷਪҠΛදͨ͠ͷ w ශࠔશମΛදͨ͠ͷͰͳ͍ w ͗Γ͗ΓೖΒͳ͔ͬͨਓ͕Ͳͷ͘Β͍͍Δ͔Θ͔Βͳ͍ w Ή͠Ζ૿͑ͯΔ͔͠Εͳ͍ w
σʔλιʔε͕֤ੈͰόϥόϥ w ՟ฎՁ͕ݻఆ͞Ε͍ͯΔ なにがよくなかったか?
背景のわからないデータを安易に信じない!!
⽣のデータなんて 存在しない Photo by Mark Basarab on Unsplash
⽣のデータなんて存在しない ref. https://www.thenewatlantis.com/publications/why-data-is-never-raw
⽣のデータなんて存在しない データ リソース ⼈間が 理解できる 理解できない プログラムが 処理できる 処理できない 型定義が
ある ない 作成者の主観が ⼊っている ない (⼊る前の状態) ロジックが 紛れている (グルーピングなど) ない ˞͜͜Ͱɺศ্ٓσʔλԽ͞ΕΔલͷऔಘݩ͕࣋ͭใΛ ɹϦιʔεͱఆٛ͠·͢
データは取得時すでに加⼯済み
Raw data = 作成直後のデータ