Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析の不都合な真実 / inconvenient truth on data analy...
Search
Yusuke Komatsu
March 15, 2019
Technology
0
600
データ分析の不都合な真実 / inconvenient truth on data analytics
社内勉強会 ( PERSOL Group Tech Talk #4 ) の発表資料
Yusuke Komatsu
March 15, 2019
Tweet
Share
More Decks by Yusuke Komatsu
See All by Yusuke Komatsu
Create shell manager with golang
usk81
0
260
そろそろ Privacy の話をしないか? / Let's talk about privacy!!
usk81
0
78
Goとjsonで履歴書を管理できるようにしてみた / manage resumes with Go and json
usk81
3
970
とあるgopherが OpenCVをさわってみた話 / Introduction about OpenCV for gophers
usk81
0
300
Other Decks in Technology
See All in Technology
Railsアプリケーション開発者のためのブックガイド
takahashim
14
6.1k
バイブコーディングと継続的デプロイメント
nwiizo
2
400
Sidekiq その前に:Webアプリケーションにおける非同期ジョブ設計原則
morihirok
17
7.2k
データエンジニアがこの先生きのこるには...?
10xinc
0
440
about #74462 go/token#FileSet
tomtwinkle
1
280
AI ReadyなData PlatformとしてのAutonomous Databaseアップデート
oracle4engineer
PRO
0
150
C# 14 / .NET 10 の新機能 (RC 1 時点)
nenonaninu
1
1.5k
Access-what? why and how, A11Y for All - Nordic.js 2025
gdomiciano
1
110
許しとアジャイル
jnuank
1
110
空間を設計する力を考える / 20251004 Naoki Takahashi
shift_evolve
PRO
3
320
生成AIを活用したZennの取り組み事例
ryosukeigarashi
0
200
履歴 on Rails: Bitemporal Data Modelで実現する履歴管理/history-on-rails-with-bitemporal-data-model
hypermkt
0
2.1k
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
54
3k
Agile that works and the tools we love
rasmusluckow
331
21k
The Cost Of JavaScript in 2023
addyosmani
53
9k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.6k
Balancing Empowerment & Direction
lara
4
680
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
45
2.5k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.2k
Reflections from 52 weeks, 52 projects
jeffersonlam
352
21k
Visualization
eitanlees
148
16k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
9
570
Transcript
データ分析 の 不都合な真実 Yusuke.Komatsu@usk81 Photo by Adeboro Odunlami on Unsplash
データ分析 の 不都合な真実 Yusuke.Komatsu@usk81 Photo by Adeboro Odunlami on Unsplash
β version
⾃⼰紹介 { "basics": { "name": "Yusuke Komatsu" }, "skills": [
{"name": "Web Development"}, {"name": "Data Analyst"} ], "interests": [ {"name": "Coffee"}, {"name": "Fortnite"}, {"name": "Machine Larning"} ] }
結論 ・データ分析も、開発の仕様と同様に事前・事後の認識合わせは キチンと⾏いましょう ・⼀⾒、有⽤に⾒えたとしてもバックグラウンドのわからない データは使わない ・科学的に⽴証できない予測は予測ではなくて仮説 ・機械学習は魔法の杖じゃない。使い⽅を間違えないように
おすすめ(Exploratory)
おすすめ(書籍)
–Nate Silver “私たちはシグナルを探そうとしてノイズを集めている”
ウォーミングアップ
AI作って くれない? Photo by Mathew Schwartz on Unsplash AIでなんとか なるでしょ!?
A. はいわかりました!!
ルールベースでプログラム書くだけでもAI
ルールベースでプログラム書くだけでもAI ʙʹྲྀߦͬͨɻʹཱͨͳ͔ͬͨ
訂正) Q. 機械学習でなんとかなりませんか?
A. 無理ですね。
ジョークですよ
ここからまじめ(?)にいきます
仮説と予測 Photo by Lukas Blazek on Unsplash
予測とは ・つまりは!! ・何かしらの根拠(科学的裏付け)がある ・検証が可能である ・予測モデルの作成・予測結果が再現可能である ・予測 ≒仮説(予想)+ 根拠(正当性) 将来の出来事や有様を何らかの根拠に⽴って推し測ること
仮説とは ・これ全部仮説。 ・根拠のない結論 ・検証が不可能 ・予測結果が再現不可能 現象を説明しあるいは法則を⾒出すために、設けられる基本的な仮定
予測… できてました?
あなたが思っている 確率の算出は おそらく間違っている
あなたが思っている確率の算出はおそらく間違っている 例)降⽔確率10%ってどういう意味?
☓ ⾬の⽇が10⽇あったら1回は⾬が降る
◦ 同じ気象条件の⽇が10⽇あったら1回は⾬が降る
分析前に定義を明確にする
予測精度100%はありえない
A. 所持しているデータはサンプルにすぎない 検証・予測したいデータをすべて (今保持していないものも含む) ⺟集団
A. 所持しているデータはサンプルにすぎない ⺟集団 サンプル ⺟集団から無作為に 抽出したάルーϓ
A. 所持しているデータはサンプルにすぎない ⺟集団 サンプルは⺟集団と 異なる属性を⺬すかもしれない サンプルA サンプルB サンプルC
でも予測精度100%はおこりうる
過去に出会った予測精度100% 正答率 100% 原因はデータの偏り ↓ 予測モデルがカンニングし てるような状態
80%位でも⼤変なんだよ
単純な定量分析は 正しいとは限らない Photo by Mathew Schwartz on Unsplash
単純な定量分析が正しいとは限らない よく⾒る定量分析のグラフ です。 アイスクリームの売上と⽐ 例して、何かが増加してい ることを⺬しています。
単純な定量分析が正しいとは限らない アイスクリームの売上が上がると、 サメに襲われる件数が増える
単純な定量分析が正しいとは限らない アイスクリームの売上が上がると、 サメに襲われる件数が増える
単純な定量分析が正しいとは限らない 気温が上がる アイスが売れる サメに襲われる 海に⾏く⼈が増える 冷たいものが⾷べたい 相関 相関 独⽴
関係性があるように⾒えても⼤抵は無関係!!
Photo by Christian Erfurt on Unsplash データの背景を 知らないと結論を誤る
データの背景を知らないと結論を誤る 訳) これは私のお気に⼊りの インフォグラフィックの ひとつです。 過去2世紀の間にどれだけ の⽣活が改善されたかを 過⼩評価している⼈は多 くいます
データの背景を知らないと結論を誤る 訳) これは私のお気に⼊りの インフォグラフィックの ひとつです。 過去2世紀の間にどれだけ の⽣活が改善されたかを 過⼩評価している⼈は多 くいます
データの背景を知らないと結論を誤る w ۃͷශࠔʢ໌ࢮ͵͔͠Εͳ͍ʣਓͨͪͷਪҠΛදͨ͠ͷ w ශࠔશମΛදͨ͠ͷͰͳ͍ w ͗Γ͗ΓೖΒͳ͔ͬͨਓ͕Ͳͷ͘Β͍͍Δ͔Θ͔Βͳ͍ w Ή͠Ζ૿͑ͯΔ͔͠Εͳ͍ w
σʔλιʔε͕֤ੈͰόϥόϥ w ՟ฎՁ͕ݻఆ͞Ε͍ͯΔ なにがよくなかったか?
背景のわからないデータを安易に信じない!!
⽣のデータなんて 存在しない Photo by Mark Basarab on Unsplash
⽣のデータなんて存在しない ref. https://www.thenewatlantis.com/publications/why-data-is-never-raw
⽣のデータなんて存在しない データ リソース ⼈間が 理解できる 理解できない プログラムが 処理できる 処理できない 型定義が
ある ない 作成者の主観が ⼊っている ない (⼊る前の状態) ロジックが 紛れている (グルーピングなど) ない ˞͜͜Ͱɺศ্ٓσʔλԽ͞ΕΔલͷऔಘݩ͕࣋ͭใΛ ɹϦιʔεͱఆٛ͠·͢
データは取得時すでに加⼯済み
Raw data = 作成直後のデータ