Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析の不都合な真実 / inconvenient truth on data analy...
Search
Yusuke Komatsu
March 15, 2019
Technology
0
600
データ分析の不都合な真実 / inconvenient truth on data analytics
社内勉強会 ( PERSOL Group Tech Talk #4 ) の発表資料
Yusuke Komatsu
March 15, 2019
Tweet
Share
More Decks by Yusuke Komatsu
See All by Yusuke Komatsu
Create shell manager with golang
usk81
0
270
そろそろ Privacy の話をしないか? / Let's talk about privacy!!
usk81
0
78
Goとjsonで履歴書を管理できるようにしてみた / manage resumes with Go and json
usk81
3
980
とあるgopherが OpenCVをさわってみた話 / Introduction about OpenCV for gophers
usk81
0
300
Other Decks in Technology
See All in Technology
世界最速級 memcached 互換サーバー作った
yasukata
0
330
ガバメントクラウド利用システムのライフサイクルについて
techniczna
0
180
AWS re:Invent 2025で見たGrafana最新機能の紹介
hamadakoji
0
110
20251209_WAKECareer_生成AIを活用した設計・開発プロセス
syobochim
5
1.3k
学習データって増やせばいいんですか?
ftakahashi
1
150
寫了幾年 Code,然後呢?軟體工程師必須重新認識的 DevOps
cheng_wei_chen
1
540
pmconf2025 - 他社事例を"自社仕様化"する技術_iRAFT法
daichi_yamashita
0
780
pmconf2025 - データを活用し「価値」へ繋げる
glorypulse
0
700
著者と読み解くAIエージェント現場導入の勘所 Lancers TechBook#2
smiyawaki0820
12
5.8k
[CMU-DB-2025FALL] Apache Fluss - A Streaming Storage for Real-Time Lakehouse
jark
0
110
21st ACRi Webinar - Univ of Tokyo Presentation Slide (Shinya Takamaeda)
nao_sumikawa
0
120
regrowth_tokyo_2025_securityagent
hiashisan
0
160
Featured
See All Featured
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
16
1.8k
Unsuck your backbone
ammeep
671
58k
Building a Modern Day E-commerce SEO Strategy
aleyda
45
8.3k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3.1k
The World Runs on Bad Software
bkeepers
PRO
72
12k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
Build The Right Thing And Hit Your Dates
maggiecrowley
38
3k
Into the Great Unknown - MozCon
thekraken
40
2.2k
Faster Mobile Websites
deanohume
310
31k
Art, The Web, and Tiny UX
lynnandtonic
303
21k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.1k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.6k
Transcript
データ分析 の 不都合な真実 Yusuke.Komatsu@usk81 Photo by Adeboro Odunlami on Unsplash
データ分析 の 不都合な真実 Yusuke.Komatsu@usk81 Photo by Adeboro Odunlami on Unsplash
β version
⾃⼰紹介 { "basics": { "name": "Yusuke Komatsu" }, "skills": [
{"name": "Web Development"}, {"name": "Data Analyst"} ], "interests": [ {"name": "Coffee"}, {"name": "Fortnite"}, {"name": "Machine Larning"} ] }
結論 ・データ分析も、開発の仕様と同様に事前・事後の認識合わせは キチンと⾏いましょう ・⼀⾒、有⽤に⾒えたとしてもバックグラウンドのわからない データは使わない ・科学的に⽴証できない予測は予測ではなくて仮説 ・機械学習は魔法の杖じゃない。使い⽅を間違えないように
おすすめ(Exploratory)
おすすめ(書籍)
–Nate Silver “私たちはシグナルを探そうとしてノイズを集めている”
ウォーミングアップ
AI作って くれない? Photo by Mathew Schwartz on Unsplash AIでなんとか なるでしょ!?
A. はいわかりました!!
ルールベースでプログラム書くだけでもAI
ルールベースでプログラム書くだけでもAI ʙʹྲྀߦͬͨɻʹཱͨͳ͔ͬͨ
訂正) Q. 機械学習でなんとかなりませんか?
A. 無理ですね。
ジョークですよ
ここからまじめ(?)にいきます
仮説と予測 Photo by Lukas Blazek on Unsplash
予測とは ・つまりは!! ・何かしらの根拠(科学的裏付け)がある ・検証が可能である ・予測モデルの作成・予測結果が再現可能である ・予測 ≒仮説(予想)+ 根拠(正当性) 将来の出来事や有様を何らかの根拠に⽴って推し測ること
仮説とは ・これ全部仮説。 ・根拠のない結論 ・検証が不可能 ・予測結果が再現不可能 現象を説明しあるいは法則を⾒出すために、設けられる基本的な仮定
予測… できてました?
あなたが思っている 確率の算出は おそらく間違っている
あなたが思っている確率の算出はおそらく間違っている 例)降⽔確率10%ってどういう意味?
☓ ⾬の⽇が10⽇あったら1回は⾬が降る
◦ 同じ気象条件の⽇が10⽇あったら1回は⾬が降る
分析前に定義を明確にする
予測精度100%はありえない
A. 所持しているデータはサンプルにすぎない 検証・予測したいデータをすべて (今保持していないものも含む) ⺟集団
A. 所持しているデータはサンプルにすぎない ⺟集団 サンプル ⺟集団から無作為に 抽出したάルーϓ
A. 所持しているデータはサンプルにすぎない ⺟集団 サンプルは⺟集団と 異なる属性を⺬すかもしれない サンプルA サンプルB サンプルC
でも予測精度100%はおこりうる
過去に出会った予測精度100% 正答率 100% 原因はデータの偏り ↓ 予測モデルがカンニングし てるような状態
80%位でも⼤変なんだよ
単純な定量分析は 正しいとは限らない Photo by Mathew Schwartz on Unsplash
単純な定量分析が正しいとは限らない よく⾒る定量分析のグラフ です。 アイスクリームの売上と⽐ 例して、何かが増加してい ることを⺬しています。
単純な定量分析が正しいとは限らない アイスクリームの売上が上がると、 サメに襲われる件数が増える
単純な定量分析が正しいとは限らない アイスクリームの売上が上がると、 サメに襲われる件数が増える
単純な定量分析が正しいとは限らない 気温が上がる アイスが売れる サメに襲われる 海に⾏く⼈が増える 冷たいものが⾷べたい 相関 相関 独⽴
関係性があるように⾒えても⼤抵は無関係!!
Photo by Christian Erfurt on Unsplash データの背景を 知らないと結論を誤る
データの背景を知らないと結論を誤る 訳) これは私のお気に⼊りの インフォグラフィックの ひとつです。 過去2世紀の間にどれだけ の⽣活が改善されたかを 過⼩評価している⼈は多 くいます
データの背景を知らないと結論を誤る 訳) これは私のお気に⼊りの インフォグラフィックの ひとつです。 過去2世紀の間にどれだけ の⽣活が改善されたかを 過⼩評価している⼈は多 くいます
データの背景を知らないと結論を誤る w ۃͷශࠔʢ໌ࢮ͵͔͠Εͳ͍ʣਓͨͪͷਪҠΛදͨ͠ͷ w ශࠔશମΛදͨ͠ͷͰͳ͍ w ͗Γ͗ΓೖΒͳ͔ͬͨਓ͕Ͳͷ͘Β͍͍Δ͔Θ͔Βͳ͍ w Ή͠Ζ૿͑ͯΔ͔͠Εͳ͍ w
σʔλιʔε͕֤ੈͰόϥόϥ w ՟ฎՁ͕ݻఆ͞Ε͍ͯΔ なにがよくなかったか?
背景のわからないデータを安易に信じない!!
⽣のデータなんて 存在しない Photo by Mark Basarab on Unsplash
⽣のデータなんて存在しない ref. https://www.thenewatlantis.com/publications/why-data-is-never-raw
⽣のデータなんて存在しない データ リソース ⼈間が 理解できる 理解できない プログラムが 処理できる 処理できない 型定義が
ある ない 作成者の主観が ⼊っている ない (⼊る前の状態) ロジックが 紛れている (グルーピングなど) ない ˞͜͜Ͱɺศ্ٓσʔλԽ͞ΕΔલͷऔಘݩ͕࣋ͭใΛ ɹϦιʔεͱఆٛ͠·͢
データは取得時すでに加⼯済み
Raw data = 作成直後のデータ