Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析をはじめよう/lets_start_data_analysis
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
florets1
April 16, 2026
Business
990
2
Share
データ分析をはじめよう/lets_start_data_analysis
florets1
April 16, 2026
More Decks by florets1
See All by florets1
なぜSQLはAIぽく見えるのか/why does SQL look AI like
florets1
0
650
Tableauとggplot2の背景/Background_of_Tableau_and_ggplot2
florets1
0
83
Rで学ぶデータハンドリング入門/Introduction_to_Data_Handling_with_R
florets1
0
150
人工知能はクロスジョインでできている/AI_Is_Built_on_Cross_Joins
florets1
0
100
仮説の取扱説明書/User_Guide_to_a_Hypothesis
florets1
4
470
複式簿記から純資産を排除する/eliminate_net_assets_from_double-entry_bookkeeping
florets1
1
480
カイ二乗検定は何をやっているのか/What_Does_the_Chi-Square_Test_Do
florets1
7
2.5k
直積は便利/direct_product_is_useful
florets1
3
480
butterfly_effect/butterfly_effect_in-house
florets1
1
300
Other Decks in Business
See All in Business
司コンピュータ株式会社
tsukasacomputer
0
190
エンジニア職/新卒向け会社紹介資料(テックファーム株式会社)
techfirm
1
5.9k
Unsolicited post-mortem of POPOPO
superprettycat
0
760
【営業職】中途採用向け会社説明資料(テックファーム株式会社)
techfirm
0
750
営業職/新卒向け会社紹介資料(テックファーム株式会社)
techfirm
1
1.5k
株式会社BALLAS 会社案内
ballas_inc
0
37k
YassLab (株) サービス紹介 / Introduction of YassLab
yasslab
PRO
3
42k
supateam - DevOpsDaysTokyo 2026 投影資料
aisaac
PRO
0
340
株式会社ハイパー 会社紹介資料
hypermarketingteam
0
9.8k
Smart相談室 カルチャーデック
smartsoudanshitsu
2
86k
市場特性に応じたマルチプロダクト戦略と持続的な成長を支える組織デザイン
play_inc
0
1.5k
会社説明資料|ROBOTPAYMENT
robot_payment
0
230
Featured
See All Featured
Become a Pro
speakerdeck
PRO
31
5.9k
Gemini Prompt Engineering: Practical Techniques for Tangible AI Outcomes
mfonobong
2
380
How to build an LLM SEO readiness audit: a practical framework
nmsamuel
1
730
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
The Pragmatic Product Professional
lauravandoore
37
7.2k
From π to Pie charts
rasagy
0
170
How Software Deployment tools have changed in the past 20 years
geshan
0
33k
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
180
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
508
140k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
770
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.8k
Transcript
1 2026.04.18 Tokyo.R #120 データ分析をはじめよう 要約・可視化・比較・仮説・検定
2 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
3 要約しよう • データはそのままだとわかりにくい • 一言で説明したい データ:10, 12, 13, 15,
1000 合計:1050
4 平均値 • 合計÷データ件数 データ:10, 12, 13, 15, 1000 平均値:210
5 中央値 • 真ん中の値 データ:10, 12, 13, 15, 1000 中央値:13
6 平均値 vs 中央値 データ:10, 12, 13, 15, 1000 平均値:210
中央値:13 どちらが実態に近い? 中央値は外れ値の影響を受けにくい
7 バラツキ • 全員50点 • 0点と100点 平均は同じだけど、なんか違う
8 分散・標準偏差 データが平均からどれだけ離れているかの指標 データ:10, 12, 14 偏差: 10-12, 12-12, 14-12
分散:偏差の2乗の平均 標準偏差:分散の平方根 1 3 (10 − 12)2+(12 − 12)2+(14 − 12)2
9 可視化(ヒストグラム) x <- rnorm(500, mean=0, sd = 1) hist(x)
データの要約だけではなく 分布の形をみる。
10 可視化(箱ひげ図) x <- rnorm(500, mean=0, sd = 1) y
<- rnorm(500, mean=1, sd = 2) boxplot(list(x=x, y=y)) 複数の分布を比較
11 データ分析事例:割引券の効果 割引券を配ったら平均単価が増えました。 したがって割引券には効果があります。 とは言えません。 配らなくても増えていたかも。
12 比べよう 実験:顧客を2つに分ける • グループA:割引券あり • グループB:割引券なし 注意:よく混ぜよう 偏りのない公平な比較をしましょう。
13 実験結果 Aの平均単価が高い
14 実験結果 Aの平均単価が高い 反論 本当に差はあるの? 標本平均に差があった からと言っても、真の 平均に差があると言え るの?
15 母集団と標本 母集団:調査したいデータ全体 標本:母集団から抽出した一部のデータ 母平均:母集団の平均 標本平均:標本の平均 母分散:母集団の分散 標本分散:標本の分散
16 不偏分散(n-1で割る分散) 標本から真の分散(母分散)を推定する際に、標本 の大きさnで割ると分散が小さく見積もられてしま います。n-1で割ると、偏りのない推定ができます。 1 3 (10 − 12)2+(12
− 12)2+(14 − 12)2 2
17 標準誤差とt値 標準誤差:標本分散を標本の大きさで割ったもの の平方根(標本平均が母平均からどれくらい離れ ているかの指標) t値:標本平均の差が 標準誤差の何倍か
18 仮説検定 1. 仮説をたてる 2. 標本分布を予測 3. 有意水準を決める 4. 標本を集める
5. p値で判断
19 仮説検定:仮説をたてる 仮説:2つのグループの平均値が等しい なぜ差がない仮説をたてるの? 差があることを調べたいのでは? 安心してください。後でこの仮説を捨てちゃいます。
20 仮説検定:標本分布を予測 標本分布:仮説が成り立つ場合に、標本の統計量が 従うであろう確率分布 標本のt値(平均値のズレ)の分布
21 仮説検定:有意水準を決める 判定基準となるしきい値
22 仮説検定:標本からp値を求める p値:仮説が正しいと仮定した場合、標本と同じか、 標本よりも極端な統計量を得る確率。
23 仮説検定:p値で判断 p値があらかじめ設定した有意水準より小さければ そもそも仮説が間違っていたのだ。
24 やってはいけない • 標本を観測してから仮説をたてる • 有意になるまで観測を続ける • 有意になったらそこで観測をやめる • p値を求めてから有意水準を決める
順番が大事 仮説 → 標本分布 → 有意水準 → 標本 → p値
25 こんな仮説はダメ 「2023年に比べて2024年の売上が伸びたのは、関東 の調子がよかったからではないかという仮説をたて ました!」 • 仮説が先。データは後。守ってますか? • 今から2024年のデータを取れるの? •
関東の調子がよかった世界と調子が悪かった世界 2つ用意できる?
26 p値の誤解 「仮説が正しい確率」ではありません。 「データが偶然で生じる確率」ではありません。 正しい解釈:仮説が正しいと仮定した場合、標本 と同じか、標本よりも極端な統計量を得る確率。
27 有意差があればいいの? 実験でほとんど差がなかった。 どうしよう。 仮説検定をやってみよう。 やった!有意差が出たぞ。
28 有意差があれば効果があるの? 割引券を配ると儲かるのか、損するのか 仮説検定だけでは判断できません。 仮説検定では差の大きさはわかりません。 • 有意とはすごいことが起きたわけではない。 • 有意だけで何かを判断できるわけではない。
29 標本の大きさ 標本の大きさ(サンプルサイズ、データ数) 大きすぎるとよくない。ほんの小さな差でも有意 になってしまうから。という考えが主流ですが… • 有意とはすごいことが起きたわけではない。 • 有意だけで何かを判断できるわけではない。
30 正規性の検定の悩ましさ • 「正規分布に従うとは言えない」と主張できる 道具。 • データが多いほど、正規分布からの小さなズレ も有意と判定。 • 多重検定に気をつけて。
31 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
32 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
記述統計の世界 推測統計の世界