Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計とは? @ICUHS
Search
Kazuya Araki
January 23, 2020
Science
0
240
統計とは? @ICUHS
国際基督教大学高等学校の企業訪問時のスライド
Kazuya Araki
January 23, 2020
Tweet
Share
More Decks by Kazuya Araki
See All by Kazuya Araki
Tableau事例紹介 / Tableau Case Study of Eureka
kazuya_araki_tokyo
1
480
Tableau事例紹介 & 課題共有
kazuya_araki_tokyo
1
1.3k
License Management @BizReach, Inc.
kazuya_araki_tokyo
0
43
Art and Science of Visual Analytics Episode 0
kazuya_araki_tokyo
0
39
Art and Science of Visual Analytics Episode 1
kazuya_araki_tokyo
1
100
Art and Science of Visual Analytics Episode 2
kazuya_araki_tokyo
0
38
Art and Science of Visual Analytics Episode 3
kazuya_araki_tokyo
0
32
Tableau + Pythonとデータのあり方
kazuya_araki_tokyo
2
96
株式会社ビズリーチの紹介@Data Analyst Meetup Tokyo vol.8
kazuya_araki_tokyo
0
70
Other Decks in Science
See All in Science
構造設計のための3D生成AI-最新の取り組みと今後の展開-
kojinishiguchi
0
640
MoveItを使った産業用ロボット向け動作作成方法の紹介 / Introduction to creating motion for industrial robots using MoveIt
ry0_ka
0
190
深層学習を利用して 大豆の外部欠陥を判別した研究事例の紹介
kentaitakura
0
250
DEIM2024 チュートリアル ~AWSで生成AIのRAGを使ったチャットボットを作ってみよう~
yamahiro
3
1.4k
ICRA2024 速報
rpc
3
5.5k
Machine Learning for Materials (Lecture 9)
aronwalsh
0
240
Spectral Sparsification of Hypergraphs
tasusu
0
190
Healthcare Innovation through Business Entrepreneurship
clintwinters
0
140
240510 COGNAC LabChat
kazh
0
160
LIMEを用いた判断根拠の可視化
kentaitakura
0
370
ベイズのはなし
techmathproject
0
340
2024-06-16-pydata_london
sofievl
0
550
Featured
See All Featured
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
95
17k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
The World Runs on Bad Software
bkeepers
PRO
65
11k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
10
810
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
48
2.2k
Designing for Performance
lara
604
68k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
159
15k
It's Worth the Effort
3n
183
28k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
Transcript
統計とは? 2020年01月23日
Kazuya Araki 株式会社ビズリーチ Data Analyst / Data Archtect • ビズリーチサービスのデータ分析、施策立案
• データ分析基盤設計、運用保守 • データ人材育成、アドバイザー すきなこと • データをみること • 本 • 邦ロック • スノースポーツ (Skiing, Snowboarding, Hiking in the snow etc...) @kazuya_araki_jp jedi_trickstar
普段はこんなことしています
普段はこんなことしています
今となってはこんな私ですが
高校時代は数学が苦手 高校3年 前期期末テスト結果
高校時代は数学が苦手😇 高校3年 前期期末テスト結果
浪人、大学と経て、普通に 優(80~100点): 37科目 / 73単位 良(65~79点): 25科目 / 52単位 可(50~64点):
16科目 / 31単位 不可(50点未満): 0科目 / 0単位 GPA概算(優を3.5とする): (3.5 * 73 + 3 * 52 + 2 * 31 + 1 * 0) / (73 + 52 + 31 + 0) = 473.5 / 156 ≒ 3.0 大学 成績証明書
浪人、大学と経て、普通に😎✌ 優(80~100点): 37科目 / 73単位 良(65~79点): 25科目 / 52単位 可(50~64点):
16科目 / 31単位 不可(50点未満): 0科目 / 0単位 GPA概算(優を3.5とする): (3.5 * 73 + 3 * 52 + 2 * 31 + 1 * 0) / (73 + 52 + 31 + 0) = 473.5 / 156 ≒ 3.0 大学 成績証明書
ということで、本題入ります
None
None
None
jedi_trickstar
統計とは? 2020年01月23日
統計ってなんだろう?🤔 What is "Statistics"?
統計データの使われ方を見てみましょう
①省庁データの使われ方 1. How to use Government data
https://www.huffingtonpost.jp/entry/story_jp_5e1ea82ac5b63211760b21c0
20代のパスポートの新規取得率は低迷している (記事引用) 観光庁がまとめた、2019年1月の「若者のアウトバウンド推進実行会議」の資料による と、日本の20代(20〜29歳)の出国者数は、2000年までは400万人を超えていたものの、 2017年は305万人に留まった。もちろん少子化の影響もあるが、それだけではない。 20代のパスポートの新規取得率は、1995年に9.5%だったものが、2003年には5%に落ち 込み、その後、6%前後で推移。2017年には若干上昇したものの、6.9%だ。取得率で見れ ば、明らかに低迷している。 同じ資料によると、海外旅行に「とても行きたい」と答えた若者は45.1%、「まあまあ行 きたい」の22.6%を合わせると、7割近くになる。決して興味がないわけではないようだ。
他方、「あまり行きたくない」「行きたくない」と答えた若者たちの理由は「怖い・治安が 悪い」が35.5%、「言葉が通じない」が19.7%だった。
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
②弊社のデータの使い方 2. How to use BizReach data
Q. 転職希望者はやはり年々増えているのか Thanks! Nakamura Hanako san
A. 会員数は増加傾向 CONFIDENTIAL ビズリーチサービスデータ: 累計登録会員数
A. 転職が決まった人も増加傾向 ビズリーチサービスデータ: 月別成約数 CONFIDENTIAL
Q. 現在需要のある職業 Thanks! Nakamura Hanako san Q. 今需要が高い仕事とは? Thanks! UMEBAYASHI
Kyosuke san
A. IT関連職の需要が高い CONFIDENTIAL ビズリーチサービスデータ: 業種別成約数(2019年)
③メディアのデータの使い方 3. How to use Mass media data
Q. AIなどの影響が職にどのような影響を与え、 どのような対策を取ろうと考えているか? Thanks! UMEBAYASHI Kyosuke san
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
様々なところで使われていますね🙄
ところで...
話は変わりますが、
実は...
ここまでの内容で重要なことを 言い忘れていました
それは...
ウソをつきました😜
どこでウソをついたかわかりましたか?
①?
②?
③?
正解は...
全部です
None
None
正しいリアクションです
ということで、(長くなりましたが) 今回のテーマは
統計とは? 2020年01月23日
None
データにだまされる ~データ利活用に潜む罠~ 2020年01月23日
Contents 1. 話す人のこと Who am I 2. 前段の話: ~3つのウソ~ Three
lies 3. データは嘘をつかないが、嘘つきはデータを使う Data never lie, but Liars often use data 4. データにだまされないための3つの大切なこと Three important things in Data Analytics
データは嘘をつかないが、嘘つきはデータを使う Data never lie, but Liars often use data
先ほどの3事例のウソを暴きます
①のウソ
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
(余談) 解説を書こうとしたら、 別の方が解説してくれていました
https://www.landerblue.co.jp/48820/
https://www.jijitsu.net/entry/passport-20dai-toukei
None
https://www.mofa.go.jp/mofaj/files/000335477.pdf
要約: どこが問題だったか? • 元記事の主張が異なっていた。 • 計算ミス(を疑う箇所)があった。 • 上記要因が重なり、インフルエンサーが誤発信してしまった。 ◦ 「若者の100人に7人しかパスポートを取得していない」
• などなど
要約: どこが問題だったか? • 元記事の主張が異なっていた。 • 計算ミス(を疑う箇所)があった。 • 上記要因が重なり、インフルエンサーが誤発信してしまった。 ◦ 「若者の100人に7人しかパスポートを取得していない」
• などなど 様々な要因により、データの解釈がずれていく ↓ ウソになる
②のウソ
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向 ↑ ファクト(≒データ)は正しいが、帰納的に導けていない
(あるいは、必要条件を満たしていない)
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向 ↑ ファクト(≒データ)は正しいが、帰納的に導けていない
(あるいは、必要条件を満たしていない) 意図的にロジックを操作することで結論を歪曲する ↓ ウソになる
③のウソ
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
倍率の罠
倍率の罠 結論ありきで統計データを捏造する ↓ ウソになる
Summary データは嘘をつかないが、嘘つきはデータを使う • データの解釈を誤ると、間違った情報となる。 …① • 正しいデータでも、人を騙そうと思えば容易にできる。 …② • データを捏造すると、簡単に人を騙せる。
…③
さて、
ここからが大事
データにだまされないための3つの大切なこと Three important things in Data Analytics
「3つの大切なこと」と言いましたが...
本当は10この要素について述べたい
誰かの解説を見聞するよりも、是非読んでほしい本 https://www.amazon.co.jp/dp/4822289605
可能ならば原典を読むのをオススメします😉 https://www.amazon.com/dp/1250107814
データにだまされないための3つの大切なこと 疑う Doubt and think everything 調べ、理解する Investigate and understand
anything 武器(あるいは防具)を鍛える Train your technical skills and imagination
疑う Doubt and think everything
疑う ≠ 信用しない
疑う ≠ 信用しない
疑う = 視点を変える、別の視点を追加する Beautiful Girl? Old Woman?
疑うターゲット データ データを加工したプロセス
Point: 思考停止しない 以下の思考に陥るとだまされやすい(し、簡単に人をだますことができる) • マスメディアが言っていたから正しい • えらい人、有名人が言っていたから正しい • インターネットの情報は正しい •
政府のデータだから正しい • 統計的手法を使ったから正しい
疑うことからスタートしてみよう
調べ、理解する Investigate and understand anything
Point: エビデンス(証拠) 統計データでいうエビデンス • データ: データソース • データを加工したプロセス ◦ 統計的アプローチ
◦ 統計モデル ◦ など • 前提条件 ◦ 調査環境 ◦ 制約 ◦ など
エビデンスの調べ方 • 公式データ • ggる • 複数の情報源 • 論文、記事内にある参照先
エビデンスを理解する • 何を示しているのか? • 論拠の内容に整合性があるか? • 仮説はあるか? ◦ ある場合は、仮説の設定は妥当か? •
前提条件に過不足はあるか? • エビデンス自体の正しさは最初は気にしない ◦ 正しいかどうか、の判断は主観が入りやすいので気を付ける。 ◦ エビデンス自体が間違っている場合は、上記が破綻しているケースが多い。
データの大海に飛び込むのを恐れない
その経験と知識は確実にあなたの血肉になります
医師の武器防具: 医療技術、医療知識、etc... 弁護士の武器防具: 法律知識、交渉術、etc... 消防士の武器防具: 肉体、防火知識、etc... 武器(あるいは防具)を鍛える
医師の武器防具: 医療技術、医療知識、etc... 弁護士の武器防具: 法律知識、交渉術、etc... 消防士の武器防具: 肉体、防火知識、etc... 武器(あるいは防具)を鍛える
データアナリストの武器防具: 説得力 = 数学、統計学 伝達力 = ロジカルシンキング、クリティカルシンキング 知恵 = ドメイン知識、業界知識、リベラルアーツ
武器(あるいは防具)を鍛える
データアナリストの武器防具: 説得力 = 数学、統計学 伝達力 = ロジカルシンキング、クリティカルシンキング 知恵 = ドメイン知識、業界知識、リベラルアーツ
武器(あるいは防具)を鍛える
武器防具を有効活用しよう
アップデートも忘れないように
アップデートも忘れないように
アップデートも忘れないように
アップデートも忘れないように
Conclusion データにだまされないための3つの大切なこと • 疑う: 視点を変えて別の角度から事象を見る • 調べ、理解する: データソースを突き止め、何を示しているのかを把握する • 武器(あるいは防具)を鍛える:
知識、技術を用いて、より正しい道を導く 間違った情報に惑わされない知恵を持つ
None