Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計とは? @ICUHS
Search
Kazuya Araki
January 23, 2020
Science
0
250
統計とは? @ICUHS
国際基督教大学高等学校の企業訪問時のスライド
Kazuya Araki
January 23, 2020
Tweet
Share
More Decks by Kazuya Araki
See All by Kazuya Araki
Tableau事例紹介 / Tableau Case Study of Eureka
kazuya_araki_tokyo
1
500
Tableau事例紹介 & 課題共有
kazuya_araki_tokyo
1
1.3k
License Management @BizReach, Inc.
kazuya_araki_tokyo
0
45
Art and Science of Visual Analytics Episode 0
kazuya_araki_tokyo
0
41
Art and Science of Visual Analytics Episode 1
kazuya_araki_tokyo
1
100
Art and Science of Visual Analytics Episode 2
kazuya_araki_tokyo
0
38
Art and Science of Visual Analytics Episode 3
kazuya_araki_tokyo
0
35
Tableau + Pythonとデータのあり方
kazuya_araki_tokyo
2
100
株式会社ビズリーチの紹介@Data Analyst Meetup Tokyo vol.8
kazuya_araki_tokyo
0
71
Other Decks in Science
See All in Science
位相的データ解析とその応用例
brainpadpr
1
820
JSol'Ex : traitement d'images solaires en Java
melix
0
130
Healthcare Innovation through Business Entrepreneurship
clintwinters
0
180
証明支援系LEANに入門しよう
unaoya
0
530
Science of Scienceおよび科学計量学に関する研究論文の俯瞰可視化_ポスター版
hayataka88
0
170
【健康&筋肉と生産性向上の関連性】 【Google Cloudを企業で運用する際の知識】 をお届け
yasumuusan
0
420
ベイズ最適化をゼロから
brainpadpr
2
970
Mechanistic Interpretability の紹介
sohtakahashi
0
480
FOGBoston2024
lcolladotor
0
130
Transformers are Universal in Context Learners
gpeyre
0
650
トラブルがあったコンペに学ぶデータ分析
tereka114
2
1.3k
解説!データ基盤の進化を後押しする手順とタイミング
shomaekawa
1
380
Featured
See All Featured
Building Flexible Design Systems
yeseniaperezcruz
328
38k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
113
50k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
173
51k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Optimizing for Happiness
mojombo
376
70k
Typedesign – Prime Four
hannesfritz
40
2.5k
How STYLIGHT went responsive
nonsquared
96
5.3k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
230
52k
Building Adaptive Systems
keathley
38
2.4k
BBQ
matthewcrist
85
9.4k
A Philosophy of Restraint
colly
203
16k
Six Lessons from altMBA
skipperchong
27
3.6k
Transcript
統計とは? 2020年01月23日
Kazuya Araki 株式会社ビズリーチ Data Analyst / Data Archtect • ビズリーチサービスのデータ分析、施策立案
• データ分析基盤設計、運用保守 • データ人材育成、アドバイザー すきなこと • データをみること • 本 • 邦ロック • スノースポーツ (Skiing, Snowboarding, Hiking in the snow etc...) @kazuya_araki_jp jedi_trickstar
普段はこんなことしています
普段はこんなことしています
今となってはこんな私ですが
高校時代は数学が苦手 高校3年 前期期末テスト結果
高校時代は数学が苦手😇 高校3年 前期期末テスト結果
浪人、大学と経て、普通に 優(80~100点): 37科目 / 73単位 良(65~79点): 25科目 / 52単位 可(50~64点):
16科目 / 31単位 不可(50点未満): 0科目 / 0単位 GPA概算(優を3.5とする): (3.5 * 73 + 3 * 52 + 2 * 31 + 1 * 0) / (73 + 52 + 31 + 0) = 473.5 / 156 ≒ 3.0 大学 成績証明書
浪人、大学と経て、普通に😎✌ 優(80~100点): 37科目 / 73単位 良(65~79点): 25科目 / 52単位 可(50~64点):
16科目 / 31単位 不可(50点未満): 0科目 / 0単位 GPA概算(優を3.5とする): (3.5 * 73 + 3 * 52 + 2 * 31 + 1 * 0) / (73 + 52 + 31 + 0) = 473.5 / 156 ≒ 3.0 大学 成績証明書
ということで、本題入ります
None
None
None
jedi_trickstar
統計とは? 2020年01月23日
統計ってなんだろう?🤔 What is "Statistics"?
統計データの使われ方を見てみましょう
①省庁データの使われ方 1. How to use Government data
https://www.huffingtonpost.jp/entry/story_jp_5e1ea82ac5b63211760b21c0
20代のパスポートの新規取得率は低迷している (記事引用) 観光庁がまとめた、2019年1月の「若者のアウトバウンド推進実行会議」の資料による と、日本の20代(20〜29歳)の出国者数は、2000年までは400万人を超えていたものの、 2017年は305万人に留まった。もちろん少子化の影響もあるが、それだけではない。 20代のパスポートの新規取得率は、1995年に9.5%だったものが、2003年には5%に落ち 込み、その後、6%前後で推移。2017年には若干上昇したものの、6.9%だ。取得率で見れ ば、明らかに低迷している。 同じ資料によると、海外旅行に「とても行きたい」と答えた若者は45.1%、「まあまあ行 きたい」の22.6%を合わせると、7割近くになる。決して興味がないわけではないようだ。
他方、「あまり行きたくない」「行きたくない」と答えた若者たちの理由は「怖い・治安が 悪い」が35.5%、「言葉が通じない」が19.7%だった。
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
②弊社のデータの使い方 2. How to use BizReach data
Q. 転職希望者はやはり年々増えているのか Thanks! Nakamura Hanako san
A. 会員数は増加傾向 CONFIDENTIAL ビズリーチサービスデータ: 累計登録会員数
A. 転職が決まった人も増加傾向 ビズリーチサービスデータ: 月別成約数 CONFIDENTIAL
Q. 現在需要のある職業 Thanks! Nakamura Hanako san Q. 今需要が高い仕事とは? Thanks! UMEBAYASHI
Kyosuke san
A. IT関連職の需要が高い CONFIDENTIAL ビズリーチサービスデータ: 業種別成約数(2019年)
③メディアのデータの使い方 3. How to use Mass media data
Q. AIなどの影響が職にどのような影響を与え、 どのような対策を取ろうと考えているか? Thanks! UMEBAYASHI Kyosuke san
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
様々なところで使われていますね🙄
ところで...
話は変わりますが、
実は...
ここまでの内容で重要なことを 言い忘れていました
それは...
ウソをつきました😜
どこでウソをついたかわかりましたか?
①?
②?
③?
正解は...
全部です
None
None
正しいリアクションです
ということで、(長くなりましたが) 今回のテーマは
統計とは? 2020年01月23日
None
データにだまされる ~データ利活用に潜む罠~ 2020年01月23日
Contents 1. 話す人のこと Who am I 2. 前段の話: ~3つのウソ~ Three
lies 3. データは嘘をつかないが、嘘つきはデータを使う Data never lie, but Liars often use data 4. データにだまされないための3つの大切なこと Three important things in Data Analytics
データは嘘をつかないが、嘘つきはデータを使う Data never lie, but Liars often use data
先ほどの3事例のウソを暴きます
①のウソ
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
(余談) 解説を書こうとしたら、 別の方が解説してくれていました
https://www.landerblue.co.jp/48820/
https://www.jijitsu.net/entry/passport-20dai-toukei
None
https://www.mofa.go.jp/mofaj/files/000335477.pdf
要約: どこが問題だったか? • 元記事の主張が異なっていた。 • 計算ミス(を疑う箇所)があった。 • 上記要因が重なり、インフルエンサーが誤発信してしまった。 ◦ 「若者の100人に7人しかパスポートを取得していない」
• などなど
要約: どこが問題だったか? • 元記事の主張が異なっていた。 • 計算ミス(を疑う箇所)があった。 • 上記要因が重なり、インフルエンサーが誤発信してしまった。 ◦ 「若者の100人に7人しかパスポートを取得していない」
• などなど 様々な要因により、データの解釈がずれていく ↓ ウソになる
②のウソ
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向 ↑ ファクト(≒データ)は正しいが、帰納的に導けていない
(あるいは、必要条件を満たしていない)
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向 ↑ ファクト(≒データ)は正しいが、帰納的に導けていない
(あるいは、必要条件を満たしていない) 意図的にロジックを操作することで結論を歪曲する ↓ ウソになる
③のウソ
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
倍率の罠
倍率の罠 結論ありきで統計データを捏造する ↓ ウソになる
Summary データは嘘をつかないが、嘘つきはデータを使う • データの解釈を誤ると、間違った情報となる。 …① • 正しいデータでも、人を騙そうと思えば容易にできる。 …② • データを捏造すると、簡単に人を騙せる。
…③
さて、
ここからが大事
データにだまされないための3つの大切なこと Three important things in Data Analytics
「3つの大切なこと」と言いましたが...
本当は10この要素について述べたい
誰かの解説を見聞するよりも、是非読んでほしい本 https://www.amazon.co.jp/dp/4822289605
可能ならば原典を読むのをオススメします😉 https://www.amazon.com/dp/1250107814
データにだまされないための3つの大切なこと 疑う Doubt and think everything 調べ、理解する Investigate and understand
anything 武器(あるいは防具)を鍛える Train your technical skills and imagination
疑う Doubt and think everything
疑う ≠ 信用しない
疑う ≠ 信用しない
疑う = 視点を変える、別の視点を追加する Beautiful Girl? Old Woman?
疑うターゲット データ データを加工したプロセス
Point: 思考停止しない 以下の思考に陥るとだまされやすい(し、簡単に人をだますことができる) • マスメディアが言っていたから正しい • えらい人、有名人が言っていたから正しい • インターネットの情報は正しい •
政府のデータだから正しい • 統計的手法を使ったから正しい
疑うことからスタートしてみよう
調べ、理解する Investigate and understand anything
Point: エビデンス(証拠) 統計データでいうエビデンス • データ: データソース • データを加工したプロセス ◦ 統計的アプローチ
◦ 統計モデル ◦ など • 前提条件 ◦ 調査環境 ◦ 制約 ◦ など
エビデンスの調べ方 • 公式データ • ggる • 複数の情報源 • 論文、記事内にある参照先
エビデンスを理解する • 何を示しているのか? • 論拠の内容に整合性があるか? • 仮説はあるか? ◦ ある場合は、仮説の設定は妥当か? •
前提条件に過不足はあるか? • エビデンス自体の正しさは最初は気にしない ◦ 正しいかどうか、の判断は主観が入りやすいので気を付ける。 ◦ エビデンス自体が間違っている場合は、上記が破綻しているケースが多い。
データの大海に飛び込むのを恐れない
その経験と知識は確実にあなたの血肉になります
医師の武器防具: 医療技術、医療知識、etc... 弁護士の武器防具: 法律知識、交渉術、etc... 消防士の武器防具: 肉体、防火知識、etc... 武器(あるいは防具)を鍛える
医師の武器防具: 医療技術、医療知識、etc... 弁護士の武器防具: 法律知識、交渉術、etc... 消防士の武器防具: 肉体、防火知識、etc... 武器(あるいは防具)を鍛える
データアナリストの武器防具: 説得力 = 数学、統計学 伝達力 = ロジカルシンキング、クリティカルシンキング 知恵 = ドメイン知識、業界知識、リベラルアーツ
武器(あるいは防具)を鍛える
データアナリストの武器防具: 説得力 = 数学、統計学 伝達力 = ロジカルシンキング、クリティカルシンキング 知恵 = ドメイン知識、業界知識、リベラルアーツ
武器(あるいは防具)を鍛える
武器防具を有効活用しよう
アップデートも忘れないように
アップデートも忘れないように
アップデートも忘れないように
アップデートも忘れないように
Conclusion データにだまされないための3つの大切なこと • 疑う: 視点を変えて別の角度から事象を見る • 調べ、理解する: データソースを突き止め、何を示しているのかを把握する • 武器(あるいは防具)を鍛える:
知識、技術を用いて、より正しい道を導く 間違った情報に惑わされない知恵を持つ
None