Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計とは? @ICUHS
Search
Kazuya Araki
January 23, 2020
Science
0
260
統計とは? @ICUHS
国際基督教大学高等学校の企業訪問時のスライド
Kazuya Araki
January 23, 2020
Tweet
Share
More Decks by Kazuya Araki
See All by Kazuya Araki
Tableau事例紹介 / Tableau Case Study of Eureka
kazuya_araki_tokyo
1
540
Tableau事例紹介 & 課題共有
kazuya_araki_tokyo
1
1.3k
License Management @BizReach, Inc.
kazuya_araki_tokyo
0
48
Art and Science of Visual Analytics Episode 0
kazuya_araki_tokyo
0
41
Art and Science of Visual Analytics Episode 1
kazuya_araki_tokyo
1
110
Art and Science of Visual Analytics Episode 2
kazuya_araki_tokyo
0
39
Art and Science of Visual Analytics Episode 3
kazuya_araki_tokyo
0
39
Tableau + Pythonとデータのあり方
kazuya_araki_tokyo
2
110
株式会社ビズリーチの紹介@Data Analyst Meetup Tokyo vol.8
kazuya_araki_tokyo
0
73
Other Decks in Science
See All in Science
Analysis-Ready Cloud-Optimized Data for your community and the entire world with Pangeo-Forge
jbusecke
0
130
メール送信サーバの集約における透過型SMTP プロキシの定量評価 / Quantitative Evaluation of Transparent SMTP Proxy in Email Sending Server Aggregation
linyows
0
670
ベイズ最適化をゼロから
brainpadpr
2
1.1k
Improving Search @scale with efficient query experimentation @BerlinBuzzwords 2024
searchhub
0
270
As We May Interact: Challenges and Opportunities for Next-Generation Human-Information Interaction
signer
PRO
0
380
Healthcare Innovation through Business Entrepreneurship
clintwinters
0
190
位相的データ解析とその応用例
brainpadpr
1
980
01_篠原弘道_SIPガバニングボード座長_ポスコロSIPへの期待.pdf
sip3ristex
0
150
04_石井クンツ昌子_お茶の水女子大学理事_副学長_D_I社会実現へ向けて.pdf
sip3ristex
0
150
Reconciling Accuracy, Cost, and Latency of Inference Serving Systems
pjamshidi
0
120
非同期コミュニケーションの構造 -チャットツールを用いた組織における情報の流れの設計について-
koisono
0
210
多次元展開法を用いた 多値バイクラスタリング モデルの提案
kosugitti
0
240
Featured
See All Featured
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
114
50k
Making Projects Easy
brettharned
116
6k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
133
33k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Product Roadmaps are Hard
iamctodd
PRO
50
11k
Docker and Python
trallard
44
3.3k
Done Done
chrislema
182
16k
4 Signs Your Business is Dying
shpigford
182
22k
Writing Fast Ruby
sferik
628
61k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Transcript
統計とは? 2020年01月23日
Kazuya Araki 株式会社ビズリーチ Data Analyst / Data Archtect • ビズリーチサービスのデータ分析、施策立案
• データ分析基盤設計、運用保守 • データ人材育成、アドバイザー すきなこと • データをみること • 本 • 邦ロック • スノースポーツ (Skiing, Snowboarding, Hiking in the snow etc...) @kazuya_araki_jp jedi_trickstar
普段はこんなことしています
普段はこんなことしています
今となってはこんな私ですが
高校時代は数学が苦手 高校3年 前期期末テスト結果
高校時代は数学が苦手😇 高校3年 前期期末テスト結果
浪人、大学と経て、普通に 優(80~100点): 37科目 / 73単位 良(65~79点): 25科目 / 52単位 可(50~64点):
16科目 / 31単位 不可(50点未満): 0科目 / 0単位 GPA概算(優を3.5とする): (3.5 * 73 + 3 * 52 + 2 * 31 + 1 * 0) / (73 + 52 + 31 + 0) = 473.5 / 156 ≒ 3.0 大学 成績証明書
浪人、大学と経て、普通に😎✌ 優(80~100点): 37科目 / 73単位 良(65~79点): 25科目 / 52単位 可(50~64点):
16科目 / 31単位 不可(50点未満): 0科目 / 0単位 GPA概算(優を3.5とする): (3.5 * 73 + 3 * 52 + 2 * 31 + 1 * 0) / (73 + 52 + 31 + 0) = 473.5 / 156 ≒ 3.0 大学 成績証明書
ということで、本題入ります
None
None
None
jedi_trickstar
統計とは? 2020年01月23日
統計ってなんだろう?🤔 What is "Statistics"?
統計データの使われ方を見てみましょう
①省庁データの使われ方 1. How to use Government data
https://www.huffingtonpost.jp/entry/story_jp_5e1ea82ac5b63211760b21c0
20代のパスポートの新規取得率は低迷している (記事引用) 観光庁がまとめた、2019年1月の「若者のアウトバウンド推進実行会議」の資料による と、日本の20代(20〜29歳)の出国者数は、2000年までは400万人を超えていたものの、 2017年は305万人に留まった。もちろん少子化の影響もあるが、それだけではない。 20代のパスポートの新規取得率は、1995年に9.5%だったものが、2003年には5%に落ち 込み、その後、6%前後で推移。2017年には若干上昇したものの、6.9%だ。取得率で見れ ば、明らかに低迷している。 同じ資料によると、海外旅行に「とても行きたい」と答えた若者は45.1%、「まあまあ行 きたい」の22.6%を合わせると、7割近くになる。決して興味がないわけではないようだ。
他方、「あまり行きたくない」「行きたくない」と答えた若者たちの理由は「怖い・治安が 悪い」が35.5%、「言葉が通じない」が19.7%だった。
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
②弊社のデータの使い方 2. How to use BizReach data
Q. 転職希望者はやはり年々増えているのか Thanks! Nakamura Hanako san
A. 会員数は増加傾向 CONFIDENTIAL ビズリーチサービスデータ: 累計登録会員数
A. 転職が決まった人も増加傾向 ビズリーチサービスデータ: 月別成約数 CONFIDENTIAL
Q. 現在需要のある職業 Thanks! Nakamura Hanako san Q. 今需要が高い仕事とは? Thanks! UMEBAYASHI
Kyosuke san
A. IT関連職の需要が高い CONFIDENTIAL ビズリーチサービスデータ: 業種別成約数(2019年)
③メディアのデータの使い方 3. How to use Mass media data
Q. AIなどの影響が職にどのような影響を与え、 どのような対策を取ろうと考えているか? Thanks! UMEBAYASHI Kyosuke san
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
様々なところで使われていますね🙄
ところで...
話は変わりますが、
実は...
ここまでの内容で重要なことを 言い忘れていました
それは...
ウソをつきました😜
どこでウソをついたかわかりましたか?
①?
②?
③?
正解は...
全部です
None
None
正しいリアクションです
ということで、(長くなりましたが) 今回のテーマは
統計とは? 2020年01月23日
None
データにだまされる ~データ利活用に潜む罠~ 2020年01月23日
Contents 1. 話す人のこと Who am I 2. 前段の話: ~3つのウソ~ Three
lies 3. データは嘘をつかないが、嘘つきはデータを使う Data never lie, but Liars often use data 4. データにだまされないための3つの大切なこと Three important things in Data Analytics
データは嘘をつかないが、嘘つきはデータを使う Data never lie, but Liars often use data
先ほどの3事例のウソを暴きます
①のウソ
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
20代のパスポートの新規取得率は低迷している https://www.mlit.go.jp/common/001270463.pdf
(余談) 解説を書こうとしたら、 別の方が解説してくれていました
https://www.landerblue.co.jp/48820/
https://www.jijitsu.net/entry/passport-20dai-toukei
None
https://www.mofa.go.jp/mofaj/files/000335477.pdf
要約: どこが問題だったか? • 元記事の主張が異なっていた。 • 計算ミス(を疑う箇所)があった。 • 上記要因が重なり、インフルエンサーが誤発信してしまった。 ◦ 「若者の100人に7人しかパスポートを取得していない」
• などなど
要約: どこが問題だったか? • 元記事の主張が異なっていた。 • 計算ミス(を疑う箇所)があった。 • 上記要因が重なり、インフルエンサーが誤発信してしまった。 ◦ 「若者の100人に7人しかパスポートを取得していない」
• などなど 様々な要因により、データの解釈がずれていく ↓ ウソになる
②のウソ
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向 ↑ ファクト(≒データ)は正しいが、帰納的に導けていない
(あるいは、必要条件を満たしていない)
尤もらしいデータを見せれば、ロジックを操作できる Q. 転職希望者はやはり年々増えているのか ↓ A. 会員数は増加傾向 A. 転職が決まった人も増加傾向 ↑ ファクト(≒データ)は正しいが、帰納的に導けていない
(あるいは、必要条件を満たしていない) 意図的にロジックを操作することで結論を歪曲する ↓ ウソになる
③のウソ
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
X-Tech = 既存のビジネスにテクノロジーを活用する時代 https://www.nikkei.com/article/DGKKZO43151540Q9A330C1EA5000/ 不動産 × IT = RealTech 金融
× IT = FinTech cf. 医療 × IT = HealthCareTech 農業 × IT = AgriTech 広告 × IT = AdTech 教育 × IT = EdTech マーケティング × IT = MarTech
倍率の罠
倍率の罠 結論ありきで統計データを捏造する ↓ ウソになる
Summary データは嘘をつかないが、嘘つきはデータを使う • データの解釈を誤ると、間違った情報となる。 …① • 正しいデータでも、人を騙そうと思えば容易にできる。 …② • データを捏造すると、簡単に人を騙せる。
…③
さて、
ここからが大事
データにだまされないための3つの大切なこと Three important things in Data Analytics
「3つの大切なこと」と言いましたが...
本当は10この要素について述べたい
誰かの解説を見聞するよりも、是非読んでほしい本 https://www.amazon.co.jp/dp/4822289605
可能ならば原典を読むのをオススメします😉 https://www.amazon.com/dp/1250107814
データにだまされないための3つの大切なこと 疑う Doubt and think everything 調べ、理解する Investigate and understand
anything 武器(あるいは防具)を鍛える Train your technical skills and imagination
疑う Doubt and think everything
疑う ≠ 信用しない
疑う ≠ 信用しない
疑う = 視点を変える、別の視点を追加する Beautiful Girl? Old Woman?
疑うターゲット データ データを加工したプロセス
Point: 思考停止しない 以下の思考に陥るとだまされやすい(し、簡単に人をだますことができる) • マスメディアが言っていたから正しい • えらい人、有名人が言っていたから正しい • インターネットの情報は正しい •
政府のデータだから正しい • 統計的手法を使ったから正しい
疑うことからスタートしてみよう
調べ、理解する Investigate and understand anything
Point: エビデンス(証拠) 統計データでいうエビデンス • データ: データソース • データを加工したプロセス ◦ 統計的アプローチ
◦ 統計モデル ◦ など • 前提条件 ◦ 調査環境 ◦ 制約 ◦ など
エビデンスの調べ方 • 公式データ • ggる • 複数の情報源 • 論文、記事内にある参照先
エビデンスを理解する • 何を示しているのか? • 論拠の内容に整合性があるか? • 仮説はあるか? ◦ ある場合は、仮説の設定は妥当か? •
前提条件に過不足はあるか? • エビデンス自体の正しさは最初は気にしない ◦ 正しいかどうか、の判断は主観が入りやすいので気を付ける。 ◦ エビデンス自体が間違っている場合は、上記が破綻しているケースが多い。
データの大海に飛び込むのを恐れない
その経験と知識は確実にあなたの血肉になります
医師の武器防具: 医療技術、医療知識、etc... 弁護士の武器防具: 法律知識、交渉術、etc... 消防士の武器防具: 肉体、防火知識、etc... 武器(あるいは防具)を鍛える
医師の武器防具: 医療技術、医療知識、etc... 弁護士の武器防具: 法律知識、交渉術、etc... 消防士の武器防具: 肉体、防火知識、etc... 武器(あるいは防具)を鍛える
データアナリストの武器防具: 説得力 = 数学、統計学 伝達力 = ロジカルシンキング、クリティカルシンキング 知恵 = ドメイン知識、業界知識、リベラルアーツ
武器(あるいは防具)を鍛える
データアナリストの武器防具: 説得力 = 数学、統計学 伝達力 = ロジカルシンキング、クリティカルシンキング 知恵 = ドメイン知識、業界知識、リベラルアーツ
武器(あるいは防具)を鍛える
武器防具を有効活用しよう
アップデートも忘れないように
アップデートも忘れないように
アップデートも忘れないように
アップデートも忘れないように
Conclusion データにだまされないための3つの大切なこと • 疑う: 視点を変えて別の角度から事象を見る • 調べ、理解する: データソースを突き止め、何を示しているのかを把握する • 武器(あるいは防具)を鍛える:
知識、技術を用いて、より正しい道を導く 間違った情報に惑わされない知恵を持つ
None