Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
データ分析をはじめよう/lets_start_data_analysis
Search
florets1
April 16, 2026
Business
1k
2
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
データ分析をはじめよう/lets_start_data_analysis
florets1
April 16, 2026
More Decks by florets1
See All by florets1
なぜSQLはAIぽく見えるのか/why does SQL look AI like
florets1
0
740
Tableauとggplot2の背景/Background_of_Tableau_and_ggplot2
florets1
0
87
Rで学ぶデータハンドリング入門/Introduction_to_Data_Handling_with_R
florets1
0
160
人工知能はクロスジョインでできている/AI_Is_Built_on_Cross_Joins
florets1
0
110
仮説の取扱説明書/User_Guide_to_a_Hypothesis
florets1
4
480
複式簿記から純資産を排除する/eliminate_net_assets_from_double-entry_bookkeeping
florets1
1
490
カイ二乗検定は何をやっているのか/What_Does_the_Chi-Square_Test_Do
florets1
7
2.5k
直積は便利/direct_product_is_useful
florets1
3
490
butterfly_effect/butterfly_effect_in-house
florets1
1
320
Other Decks in Business
See All in Business
Copilotの監査ログはどこまでみれるのか
ponponmikankan
4
2k
jpax-introduction
jpax
0
1.1k
セーフィー株式会社(Safie Inc.) 会社紹介資料
safie_recruit
7
450k
dotcue採用ピッチ2606.pdf
dotcue
0
110
三井物産グループのデジタル証券~イオン大宮~徹底解説セミナー
c0rp_mdm
PRO
0
1.6k
元ウェブエンジニアが軸を持って人事に転職したら大きくステップアップした話 / Web Dev to HR with a Purpose Driven Career Leap
tbpgr
2
2.3k
営業、広報、開発。 多面的なAIネイティブ化のための 基盤について
timakin
0
200
会社説明資料
kurashima
0
260
パーソルクロステクノロジー_エンタープライズソリューション統括本部のご紹介 / Introduction_of_es
pxt_gs_ssol
0
2.9k
捨てる、という判断 — エンジニアの役割の変化に向き合うConference
appleworld
1
530
ネクストビートコーポレートガイド/corporate-guide
nextbeat
3
86k
kakaopiccoma_engineer_recruitingguide
kakaojapan
2
180
Featured
See All Featured
AI: The stuff that nobody shows you
jnunemaker
PRO
8
700
The Illustrated Children's Guide to Kubernetes
chrisshort
51
52k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
49
10k
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
Color Theory Basics | Prateek | Gurzu
gurzu
0
360
Code Review Best Practice
trishagee
74
20k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
960
DevOps and Value Stream Thinking: Enabling flow, efficiency and business value
helenjbeal
1
230
Have SEOs Ruined the Internet? - User Awareness of SEO in 2025
akashhashmi
0
370
Marketing Yourself as an Engineer | Alaka | Gurzu
gurzu
0
210
Exploring anti-patterns in Rails
aemeredith
3
400
Getting science done with accelerated Python computing platforms
jacobtomlinson
2
220
Transcript
1 2026.04.18 Tokyo.R #120 データ分析をはじめよう 要約・可視化・比較・仮説・検定
2 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
3 要約しよう • データはそのままだとわかりにくい • 一言で説明したい データ:10, 12, 13, 15,
1000 合計:1050
4 平均値 • 合計÷データ件数 データ:10, 12, 13, 15, 1000 平均値:210
5 中央値 • 真ん中の値 データ:10, 12, 13, 15, 1000 中央値:13
6 平均値 vs 中央値 データ:10, 12, 13, 15, 1000 平均値:210
中央値:13 どちらが実態に近い? 中央値は外れ値の影響を受けにくい
7 バラツキ • 全員50点 • 0点と100点 平均は同じだけど、なんか違う
8 分散・標準偏差 データが平均からどれだけ離れているかの指標 データ:10, 12, 14 偏差: 10-12, 12-12, 14-12
分散:偏差の2乗の平均 標準偏差:分散の平方根 1 3 (10 − 12)2+(12 − 12)2+(14 − 12)2
9 可視化(ヒストグラム) x <- rnorm(500, mean=0, sd = 1) hist(x)
データの要約だけではなく 分布の形をみる。
10 可視化(箱ひげ図) x <- rnorm(500, mean=0, sd = 1) y
<- rnorm(500, mean=1, sd = 2) boxplot(list(x=x, y=y)) 複数の分布を比較
11 データ分析事例:割引券の効果 割引券を配ったら平均単価が増えました。 したがって割引券には効果があります。 とは言えません。 配らなくても増えていたかも。
12 比べよう 実験:顧客を2つに分ける • グループA:割引券あり • グループB:割引券なし 注意:よく混ぜよう 偏りのない公平な比較をしましょう。
13 実験結果 Aの平均単価が高い
14 実験結果 Aの平均単価が高い 反論 本当に差はあるの? 標本平均に差があった からと言っても、真の 平均に差があると言え るの?
15 母集団と標本 母集団:調査したいデータ全体 標本:母集団から抽出した一部のデータ 母平均:母集団の平均 標本平均:標本の平均 母分散:母集団の分散 標本分散:標本の分散
16 不偏分散(n-1で割る分散) 標本から真の分散(母分散)を推定する際に、標本 の大きさnで割ると分散が小さく見積もられてしま います。n-1で割ると、偏りのない推定ができます。 1 3 (10 − 12)2+(12
− 12)2+(14 − 12)2 2
17 標準誤差とt値 標準誤差:標本分散を標本の大きさで割ったもの の平方根(標本平均が母平均からどれくらい離れ ているかの指標) t値:標本平均の差が 標準誤差の何倍か
18 仮説検定 1. 仮説をたてる 2. 標本分布を予測 3. 有意水準を決める 4. 標本を集める
5. p値で判断
19 仮説検定:仮説をたてる 仮説:2つのグループの平均値が等しい なぜ差がない仮説をたてるの? 差があることを調べたいのでは? 安心してください。後でこの仮説を捨てちゃいます。
20 仮説検定:標本分布を予測 標本分布:仮説が成り立つ場合に、標本の統計量が 従うであろう確率分布 標本のt値(平均値のズレ)の分布
21 仮説検定:有意水準を決める 判定基準となるしきい値
22 仮説検定:標本からp値を求める p値:仮説が正しいと仮定した場合、標本と同じか、 標本よりも極端な統計量を得る確率。
23 仮説検定:p値で判断 p値があらかじめ設定した有意水準より小さければ そもそも仮説が間違っていたのだ。
24 やってはいけない • 標本を観測してから仮説をたてる • 有意になるまで観測を続ける • 有意になったらそこで観測をやめる • p値を求めてから有意水準を決める
順番が大事 仮説 → 標本分布 → 有意水準 → 標本 → p値
25 こんな仮説はダメ 「2023年に比べて2024年の売上が伸びたのは、関東 の調子がよかったからではないかという仮説をたて ました!」 • 仮説が先。データは後。守ってますか? • 今から2024年のデータを取れるの? •
関東の調子がよかった世界と調子が悪かった世界 2つ用意できる?
26 p値の誤解 「仮説が正しい確率」ではありません。 「データが偶然で生じる確率」ではありません。 正しい解釈:仮説が正しいと仮定した場合、標本 と同じか、標本よりも極端な統計量を得る確率。
27 有意差があればいいの? 実験でほとんど差がなかった。 どうしよう。 仮説検定をやってみよう。 やった!有意差が出たぞ。
28 有意差があれば効果があるの? 割引券を配ると儲かるのか、損するのか 仮説検定だけでは判断できません。 仮説検定では差の大きさはわかりません。 • 有意とはすごいことが起きたわけではない。 • 有意だけで何かを判断できるわけではない。
29 標本の大きさ 標本の大きさ(サンプルサイズ、データ数) 大きすぎるとよくない。ほんの小さな差でも有意 になってしまうから。という考えが主流ですが… • 有意とはすごいことが起きたわけではない。 • 有意だけで何かを判断できるわけではない。
30 正規性の検定の悩ましさ • 「正規分布に従うとは言えない」と主張できる 道具。 • データが多いほど、正規分布からの小さなズレ も有意と判定。 • 多重検定に気をつけて。
31 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
32 今日のお話 • 要約しよう • 可視化しよう • 比べよう • 仮説と検定
記述統計の世界 推測統計の世界