Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析の不都合な真実 / inconvenient truth on data analy...
Search
Yusuke Komatsu
March 15, 2019
Technology
0
600
データ分析の不都合な真実 / inconvenient truth on data analytics
社内勉強会 ( PERSOL Group Tech Talk #4 ) の発表資料
Yusuke Komatsu
March 15, 2019
Tweet
Share
More Decks by Yusuke Komatsu
See All by Yusuke Komatsu
Create shell manager with golang
usk81
0
270
そろそろ Privacy の話をしないか? / Let's talk about privacy!!
usk81
0
78
Goとjsonで履歴書を管理できるようにしてみた / manage resumes with Go and json
usk81
3
980
とあるgopherが OpenCVをさわってみた話 / Introduction about OpenCV for gophers
usk81
0
300
Other Decks in Technology
See All in Technology
AlmaLinux + KVM + Cockpit で始めるお手軽仮想化基盤 ~ 開発環境などでの利用を想定して ~
koedoyoshida
0
110
IAMユーザーゼロの運用は果たして可能なのか
yama3133
2
490
AI駆動開発における設計思想 認知負荷を下げるフロントエンドアーキテクチャ/ 20251211 Teppei Hanai
shift_evolve
PRO
2
420
OCI Oracle Database Services新機能アップデート(2025/09-2025/11)
oracle4engineer
PRO
1
210
AI駆動開発の実践とその未来
eltociear
1
210
打 造 A I 驅 動 的 G i t H u b ⾃ 動 化 ⼯ 作 流 程
appleboy
0
360
JEDAI認定プログラム JEDAI Order 2026 エントリーのご案内 / JEDAI Order 2026 Entry
databricksjapan
0
140
regrowth_tokyo_2025_securityagent
hiashisan
0
250
AWS運用を効率化する!AWS Organizationsを軸にした一元管理の実践/nikkei-tech-talk-202512
nikkei_engineer_recruiting
0
100
会社紹介資料 / Sansan Company Profile
sansan33
PRO
11
390k
AWS re:Invent 2025で見たGrafana最新機能の紹介
hamadakoji
0
420
プロンプトやエージェントを自動的に作る方法
shibuiwilliam
13
11k
Featured
See All Featured
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
31
9.8k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
37
6.2k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
254
22k
Designing for Performance
lara
610
69k
Fireside Chat
paigeccino
41
3.7k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
Context Engineering - Making Every Token Count
addyosmani
9
530
Making Projects Easy
brettharned
120
6.5k
Reflections from 52 weeks, 52 projects
jeffersonlam
355
21k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
21
1.3k
Six Lessons from altMBA
skipperchong
29
4.1k
Transcript
データ分析 の 不都合な真実 Yusuke.Komatsu@usk81 Photo by Adeboro Odunlami on Unsplash
データ分析 の 不都合な真実 Yusuke.Komatsu@usk81 Photo by Adeboro Odunlami on Unsplash
β version
⾃⼰紹介 { "basics": { "name": "Yusuke Komatsu" }, "skills": [
{"name": "Web Development"}, {"name": "Data Analyst"} ], "interests": [ {"name": "Coffee"}, {"name": "Fortnite"}, {"name": "Machine Larning"} ] }
結論 ・データ分析も、開発の仕様と同様に事前・事後の認識合わせは キチンと⾏いましょう ・⼀⾒、有⽤に⾒えたとしてもバックグラウンドのわからない データは使わない ・科学的に⽴証できない予測は予測ではなくて仮説 ・機械学習は魔法の杖じゃない。使い⽅を間違えないように
おすすめ(Exploratory)
おすすめ(書籍)
–Nate Silver “私たちはシグナルを探そうとしてノイズを集めている”
ウォーミングアップ
AI作って くれない? Photo by Mathew Schwartz on Unsplash AIでなんとか なるでしょ!?
A. はいわかりました!!
ルールベースでプログラム書くだけでもAI
ルールベースでプログラム書くだけでもAI ʙʹྲྀߦͬͨɻʹཱͨͳ͔ͬͨ
訂正) Q. 機械学習でなんとかなりませんか?
A. 無理ですね。
ジョークですよ
ここからまじめ(?)にいきます
仮説と予測 Photo by Lukas Blazek on Unsplash
予測とは ・つまりは!! ・何かしらの根拠(科学的裏付け)がある ・検証が可能である ・予測モデルの作成・予測結果が再現可能である ・予測 ≒仮説(予想)+ 根拠(正当性) 将来の出来事や有様を何らかの根拠に⽴って推し測ること
仮説とは ・これ全部仮説。 ・根拠のない結論 ・検証が不可能 ・予測結果が再現不可能 現象を説明しあるいは法則を⾒出すために、設けられる基本的な仮定
予測… できてました?
あなたが思っている 確率の算出は おそらく間違っている
あなたが思っている確率の算出はおそらく間違っている 例)降⽔確率10%ってどういう意味?
☓ ⾬の⽇が10⽇あったら1回は⾬が降る
◦ 同じ気象条件の⽇が10⽇あったら1回は⾬が降る
分析前に定義を明確にする
予測精度100%はありえない
A. 所持しているデータはサンプルにすぎない 検証・予測したいデータをすべて (今保持していないものも含む) ⺟集団
A. 所持しているデータはサンプルにすぎない ⺟集団 サンプル ⺟集団から無作為に 抽出したάルーϓ
A. 所持しているデータはサンプルにすぎない ⺟集団 サンプルは⺟集団と 異なる属性を⺬すかもしれない サンプルA サンプルB サンプルC
でも予測精度100%はおこりうる
過去に出会った予測精度100% 正答率 100% 原因はデータの偏り ↓ 予測モデルがカンニングし てるような状態
80%位でも⼤変なんだよ
単純な定量分析は 正しいとは限らない Photo by Mathew Schwartz on Unsplash
単純な定量分析が正しいとは限らない よく⾒る定量分析のグラフ です。 アイスクリームの売上と⽐ 例して、何かが増加してい ることを⺬しています。
単純な定量分析が正しいとは限らない アイスクリームの売上が上がると、 サメに襲われる件数が増える
単純な定量分析が正しいとは限らない アイスクリームの売上が上がると、 サメに襲われる件数が増える
単純な定量分析が正しいとは限らない 気温が上がる アイスが売れる サメに襲われる 海に⾏く⼈が増える 冷たいものが⾷べたい 相関 相関 独⽴
関係性があるように⾒えても⼤抵は無関係!!
Photo by Christian Erfurt on Unsplash データの背景を 知らないと結論を誤る
データの背景を知らないと結論を誤る 訳) これは私のお気に⼊りの インフォグラフィックの ひとつです。 過去2世紀の間にどれだけ の⽣活が改善されたかを 過⼩評価している⼈は多 くいます
データの背景を知らないと結論を誤る 訳) これは私のお気に⼊りの インフォグラフィックの ひとつです。 過去2世紀の間にどれだけ の⽣活が改善されたかを 過⼩評価している⼈は多 くいます
データの背景を知らないと結論を誤る w ۃͷශࠔʢ໌ࢮ͵͔͠Εͳ͍ʣਓͨͪͷਪҠΛදͨ͠ͷ w ශࠔશମΛදͨ͠ͷͰͳ͍ w ͗Γ͗ΓೖΒͳ͔ͬͨਓ͕Ͳͷ͘Β͍͍Δ͔Θ͔Βͳ͍ w Ή͠Ζ૿͑ͯΔ͔͠Εͳ͍ w
σʔλιʔε͕֤ੈͰόϥόϥ w ՟ฎՁ͕ݻఆ͞Ε͍ͯΔ なにがよくなかったか?
背景のわからないデータを安易に信じない!!
⽣のデータなんて 存在しない Photo by Mark Basarab on Unsplash
⽣のデータなんて存在しない ref. https://www.thenewatlantis.com/publications/why-data-is-never-raw
⽣のデータなんて存在しない データ リソース ⼈間が 理解できる 理解できない プログラムが 処理できる 処理できない 型定義が
ある ない 作成者の主観が ⼊っている ない (⼊る前の状態) ロジックが 紛れている (グルーピングなど) ない ˞͜͜Ͱɺศ্ٓσʔλԽ͞ΕΔલͷऔಘݩ͕࣋ͭใΛ ɹϦιʔεͱఆٛ͠·͢
データは取得時すでに加⼯済み
Raw data = 作成直後のデータ