Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計とは? @ICUHS
Search
Kazuya Araki
January 23, 2020
Science
0
250
統計とは? @ICUHS
国際基督教大学高等学校の企業訪問時のスライド
Kazuya Araki
January 23, 2020
Tweet
Share
More Decks by Kazuya Araki
See All by Kazuya Araki
Tableau事例紹介 / Tableau Case Study of Eureka
kazuya_araki_tokyo
1
530
Tableau事例紹介 & 課題共有
kazuya_araki_tokyo
1
1.3k
License Management @BizReach, Inc.
kazuya_araki_tokyo
0
48
Art and Science of Visual Analytics Episode 0
kazuya_araki_tokyo
0
41
Art and Science of Visual Analytics Episode 1
kazuya_araki_tokyo
1
110
Art and Science of Visual Analytics Episode 2
kazuya_araki_tokyo
0
39
Art and Science of Visual Analytics Episode 3
kazuya_araki_tokyo
0
39
Tableau + Pythonとデータのあり方
kazuya_araki_tokyo
2
110
株式会社ビズリーチの紹介@Data Analyst Meetup Tokyo vol.8
kazuya_araki_tokyo
0
73
Other Decks in Science
See All in Science
ガウス過程回帰とベイズ最適化
nearme_tech
PRO
1
180
創薬における機械学習技術について
kanojikajino
16
4.9k
メール送信サーバの集約における透過型SMTP プロキシの定量評価 / Quantitative Evaluation of Transparent SMTP Proxy in Email Sending Server Aggregation
linyows
0
650
Transformers are Universal in Context Learners
gpeyre
0
710
Visual Analytics for R&D Intelligence @Funding the Commons & DeSci Tokyo 2024
hayataka88
0
130
ほたるのひかり/RayTracingCamp10
kugimasa
1
520
03_草原和博_広島大学大学院人間社会科学研究科教授_デジタル_シティズンシップシティで_新たな_学び__をつくる.pdf
sip3ristex
0
120
2024-06-16-pydata_london
sofievl
0
600
第61回コンピュータビジョン勉強会「BioCLIP: A Vision Foundation Model for the Tree of Life」
x_ttyszk
1
1.6k
Improving Search @scale with efficient query experimentation @BerlinBuzzwords 2024
searchhub
0
270
白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_20240919
brainpadpr
2
680
拡散モデルの原理紹介
brainpadpr
3
5.8k
Featured
See All Featured
Fashionably flexible responsive web design (full day workshop)
malarkey
406
66k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
A designer walks into a library…
pauljervisheath
205
24k
The Pragmatic Product Professional
lauravandoore
32
6.4k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
49k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
133
33k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Speed Design
sergeychernyshev
27
790
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
Into the Great Unknown - MozCon
thekraken
35
1.6k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
27
1.9k
Transcript
統計とは? 2020年01月23日
Kazuya Araki 株式会社ビズリーチ Data Analyst / Data Archtect • ビズリーチサービスのデータ分析、施策立案
• データ分析基盤設計、運用保守 • データ人材育成、アドバイザー すきなこと • データをみること • 本 • 邦ロック • スノースポーツ (Skiing, Snowboarding, Hiking in the snow etc...) @kazuya_araki_jp jedi_trickstar
普段はこんなことしています
普段はこんなことしています
今となってはこんな私ですが
高校時代は数学が苦手 高校3年 前期期末テスト結果
高校時代は数学が苦手😇 高校3年 前期期末テスト結果
浪人、大学と経て、普通に 優(80~100点): 37科目 / 73単位 良(65~79点): 25科目 / 52単位 可(50~64点):
16科目 / 31単位 不可(50点未満): 0科目 / 0単位 GPA概算(優を3.5とする): (3.5 * 73 + 3 * 52 + 2 * 31 + 1 * 0) / (73 + 52 + 31 + 0) = 473.5 / 156 ≒ 3.0 大学 成績証明書
浪人、大学と経て、普通に😎✌ 優(80~100点): 37科目 / 73単位 良(65~79点): 25科目 / 52単位 可(50~64点):
16科目 / 31単位 不可(50点未満): 0科目 / 0単位 GPA概算(優を3.5とする): (3.5 * 73 + 3 * 52 + 2 * 31 + 1 * 0) / (73 + 52 + 31 + 0) = 473.5 / 156 ≒ 3.0 大学 成績証明書
ということで、本題入ります
None
None
None
jedi_trickstar
統計とは? 2020年01月23日
統計ってなんだろう?🤔 What is "Statistics"?
統計データの使われ方を見てみましょう
①省庁データの使われ方 1. How to use Government data
https://www.huffingtonpost.jp/entry/story_jp_5e1ea82ac5b63211760b21c0
20代のパスポートの新規取得率は低迷している (記事引用) 観光庁がまとめた、2019年1月の「若者のアウトバウンド推進実行会議」の資料による と、日本の20代(20〜29歳)の出国者数は、2000年までは400万人を超えていたものの、 2017年は305万人に留まった。もちろん少子化の影響もあるが、それだけではない。 20代のパスポートの新規取得率は、1995年に9.5%だったものが、2003年には5%に落ち 込み、その後、6%前後で推移。2017年には若干上昇したものの、6.9%だ。取得率で見れ ば、明らかに低迷している。 同じ資料によると、海外旅行に「とても行きたい」と答えた若者は45.1%、「まあまあ行 きたい」の22.6%を合わせると、7割近くになる。決して興味がないわけではないようだ。
他方、「あまり行きたくない」「行きたくない」と答えた若者たちの理由は「怖い・治安が 悪い」が35.5%、「言葉が通じない」が19.7%だった。
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
②弊社のデータの使い方 2. How to use BizReach data
Q. 転職希望者はやはり年々増えているのか Thanks! Nakamura Hanako san
A. 会員数は増加傾向 CONFIDENTIAL ビズリーチサービスデータ: 累計登録会員数
A. 転職が決まった人も増加傾向 ビズリーチサービスデータ: 月別成約数 CONFIDENTIAL
Q. 現在需要のある職業 Thanks! Nakamura Hanako san Q. 今需要が高い仕事とは? Thanks! UMEBAYASHI
Kyosuke san
A. IT関連職の需要が高い CONFIDENTIAL ビズリーチサービスデータ: 業種別成約数(2019年)
③メディアのデータの使い方 3. How to use Mass media data
Q. AIなどの影響が職にどのような影響を与え、 どのような対策を取ろうと考えているか? Thanks! UMEBAYASHI Kyosuke san
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
様々なところで使われていますね🙄
ところで...
話は変わりますが、
実は...
ここまでの内容で重要なことを 言い忘れていました
それは...
ウソをつきました😜
どこでウソをついたかわかりましたか?
①?
②?
③?
正解は...
全部です
None
None
正しいリアクションです
ということで、(長くなりましたが) 今回のテーマは
統計とは? 2020年01月23日
None
データにだまされる ~データ利活用に潜む罠~ 2020年01月23日
Contents 1. 話す人のこと Who am I 2. 前段の話: ~3つのウソ~ Three
lies 3. データは嘘をつかないが、嘘つきはデータを使う Data never lie, but Liars often use data 4. データにだまされないための3つの大切なこと Three important things in Data Analytics
データは嘘をつかないが、嘘つきはデータを使う Data never lie, but Liars often use data
先ほどの3事例のウソを暴きます
①のウソ
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
(余談) 解説を書こうとしたら、 別の方が解説してくれていました
https://www.landerblue.co.jp/48820/
https://www.jijitsu.net/entry/passport-20dai-toukei
None
https://www.mofa.go.jp/mofaj/files/000335477.pdf
要約: どこが問題だったか? • 元記事の主張が異なっていた。 • 計算ミス(を疑う箇所)があった。 • 上記要因が重なり、インフルエンサーが誤発信してしまった。 ◦ 「若者の100人に7人しかパスポートを取得していない」
• などなど
要約: どこが問題だったか? • 元記事の主張が異なっていた。 • 計算ミス(を疑う箇所)があった。 • 上記要因が重なり、インフルエンサーが誤発信してしまった。 ◦ 「若者の100人に7人しかパスポートを取得していない」
• などなど 様々な要因により、データの解釈がずれていく ↓ ウソになる
②のウソ
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向 ↑ ファクト(≒データ)は正しいが、帰納的に導けていない
(あるいは、必要条件を満たしていない)
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向 ↑ ファクト(≒データ)は正しいが、帰納的に導けていない
(あるいは、必要条件を満たしていない) 意図的にロジックを操作することで結論を歪曲する ↓ ウソになる
③のウソ
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
倍率の罠
倍率の罠 結論ありきで統計データを捏造する ↓ ウソになる
Summary データは嘘をつかないが、嘘つきはデータを使う • データの解釈を誤ると、間違った情報となる。 …① • 正しいデータでも、人を騙そうと思えば容易にできる。 …② • データを捏造すると、簡単に人を騙せる。
…③
さて、
ここからが大事
データにだまされないための3つの大切なこと Three important things in Data Analytics
「3つの大切なこと」と言いましたが...
本当は10この要素について述べたい
誰かの解説を見聞するよりも、是非読んでほしい本 https://www.amazon.co.jp/dp/4822289605
可能ならば原典を読むのをオススメします😉 https://www.amazon.com/dp/1250107814
データにだまされないための3つの大切なこと 疑う Doubt and think everything 調べ、理解する Investigate and understand
anything 武器(あるいは防具)を鍛える Train your technical skills and imagination
疑う Doubt and think everything
疑う ≠ 信用しない
疑う ≠ 信用しない
疑う = 視点を変える、別の視点を追加する Beautiful Girl? Old Woman?
疑うターゲット データ データを加工したプロセス
Point: 思考停止しない 以下の思考に陥るとだまされやすい(し、簡単に人をだますことができる) • マスメディアが言っていたから正しい • えらい人、有名人が言っていたから正しい • インターネットの情報は正しい •
政府のデータだから正しい • 統計的手法を使ったから正しい
疑うことからスタートしてみよう
調べ、理解する Investigate and understand anything
Point: エビデンス(証拠) 統計データでいうエビデンス • データ: データソース • データを加工したプロセス ◦ 統計的アプローチ
◦ 統計モデル ◦ など • 前提条件 ◦ 調査環境 ◦ 制約 ◦ など
エビデンスの調べ方 • 公式データ • ggる • 複数の情報源 • 論文、記事内にある参照先
エビデンスを理解する • 何を示しているのか? • 論拠の内容に整合性があるか? • 仮説はあるか? ◦ ある場合は、仮説の設定は妥当か? •
前提条件に過不足はあるか? • エビデンス自体の正しさは最初は気にしない ◦ 正しいかどうか、の判断は主観が入りやすいので気を付ける。 ◦ エビデンス自体が間違っている場合は、上記が破綻しているケースが多い。
データの大海に飛び込むのを恐れない
その経験と知識は確実にあなたの血肉になります
医師の武器防具: 医療技術、医療知識、etc... 弁護士の武器防具: 法律知識、交渉術、etc... 消防士の武器防具: 肉体、防火知識、etc... 武器(あるいは防具)を鍛える
医師の武器防具: 医療技術、医療知識、etc... 弁護士の武器防具: 法律知識、交渉術、etc... 消防士の武器防具: 肉体、防火知識、etc... 武器(あるいは防具)を鍛える
データアナリストの武器防具: 説得力 = 数学、統計学 伝達力 = ロジカルシンキング、クリティカルシンキング 知恵 = ドメイン知識、業界知識、リベラルアーツ
武器(あるいは防具)を鍛える
データアナリストの武器防具: 説得力 = 数学、統計学 伝達力 = ロジカルシンキング、クリティカルシンキング 知恵 = ドメイン知識、業界知識、リベラルアーツ
武器(あるいは防具)を鍛える
武器防具を有効活用しよう
アップデートも忘れないように
アップデートも忘れないように
アップデートも忘れないように
アップデートも忘れないように
Conclusion データにだまされないための3つの大切なこと • 疑う: 視点を変えて別の角度から事象を見る • 調べ、理解する: データソースを突き止め、何を示しているのかを把握する • 武器(あるいは防具)を鍛える:
知識、技術を用いて、より正しい道を導く 間違った情報に惑わされない知恵を持つ
None