Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
平均値と中央値の違いについて
Search
松村優哉
November 15, 2020
Science
1
870
平均値と中央値の違いについて
統計学勉強会(仮)#1 での発表資料です。
松村優哉
November 15, 2020
Tweet
Share
More Decks by 松村優哉
See All by 松村優哉
はじめての機械学習 / entrance-to-machine-learning2022
y__mattu
2
1.1k
validateパッケージでデータを検証する / Data Validation with validate package
y__mattu
0
580
rstanの環境構築 / Set Up rstan
y__mattu
1
1.1k
R言語とGo言語 / R and Go
y__mattu
1
990
はじめての機械学習 / Entrance to Machine Learning
y__mattu
0
730
dplyr 1.0.0の新機能 / dplyr 1.0.0
y__mattu
2
10k
Other Decks in Science
See All in Science
academist Prize 4期生 研究トーク延長戦!「美は世界を救う」っていうけど、どうやって?
jimpe_hitsuwari
0
140
MCMCのR-hatは分散分析である
moricup
0
360
Symfony Console Facelift
chalasr
2
450
統計的因果探索: 背景知識とデータにより因果仮説を探索する
sshimizu2006
4
910
統計学入門講座 第2回スライド
techmathproject
0
130
CV_3_Keypoints
hachama
0
190
Cross-Media Information Spaces and Architectures (CISA)
signer
PRO
3
31k
Healthcare Innovation through Business Entrepreneurship
clintwinters
0
230
02_西村訓弘_プログラムディレクター_人口減少を機にひらく未来社会.pdf
sip3ristex
0
480
07_浮世満理子_アイディア高等学院学院長_一般社団法人全国心理業連合会代表理事_紹介資料.pdf
sip3ristex
0
480
高校生就活へのDA導入の提案
shunyanoda
0
260
ガウス過程回帰とベイズ最適化
nearme_tech
PRO
1
430
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
107
19k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
45
7.4k
BBQ
matthewcrist
89
9.7k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.8k
RailsConf 2023
tenderlove
30
1.1k
Producing Creativity
orderedlist
PRO
346
40k
Documentation Writing (for coders)
carmenintech
72
4.9k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
2.9k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
700
Transcript
平均値と中央値の違いに ついて 2020/11/15 統計学勉強会(仮) #1 @y__mattu
誰︖ • 名前: 松村優哉 • 学⽣時代の専⾨: 計量経済学、 ベイズ統計、因果推論、マーケティング • HR系企業でデータサイエンティストしてます
• 勉強会運営 →Tokyo.R (#TokyoR) Music×Analytics Meetup (#muana) • 近況: ⾃転⾞楽しい @y__mattu ymattu 2
本⽇の発表について • レベル: ⼊⾨ • 前提知識: ⼩〜中学⽣レベル • 具体的には、「以下の数字の平均値を求めてください」、と⾔われて計算が できるレベル
3 ※細かいことが気になる中上級者へ - 本発表での「平均」はすべて相加平均を指すこととします - ⾼校⽣でも理解できるレベルの内容にするため、統計学的な専⾨⽤語は避けて説明します 例1: A, B, C, D, Eさんに対して、 あるテスト(100点満点)を実施しときの点数データ A→45点 B→58点 C→95点 D→60点 E→100点
突然ですが問題です 4 ⼤学⽣数学基本調査 より 平均は⼩学校で習いますが、 意外と⼤⼈でも間違えます。
突然ですが問題です(答え) 5 ⼤学⽣数学基本調査 より ◦ × × 今⽇の話はここ
平均値とは • データを⾜し合わせ、個数で割った数 • もしAさんが0点だったら…? →極端な数字がある場合、平均値はそれに引っ張られてしまう(この場合、 他の4⼈の点数が同じでも平均点はだいぶ下がっている) 6 例1の場合: (45
+ 58 + 95 + 60 + 100) ÷5 = 71.6 例1の場合: (0 + 58 + 95 + 60 + 100) ÷5 = 62.6
平均値とは • データを⾜し合わせ、個数で割った数 • もしAさんが0点だったら…? →極端な数字がある場合、平均値はそれに引っ張られてしまう(この場合、 他の4⼈の点数が同じでも平均点はだいぶ下がっている) 7 例1の場合: (45
+ 58 + 95 + 60 + 100) ÷5 = 71.6 例1の場合: (0 + 58 + 95 + 60 + 100) ÷5 = 62.6 すべての数字を⾜す、ということは 「順序」や「平均より上(下)の点数の⼈数」とかは関係ありません
中央値とは • データを⼩さい(⼤きい)順に並べ替えて順位をつけた際の「真ん中」 • もしAさんが0点だったら…? 8 偶数個の場合は︖ 例2: 別のクラスのテストの点数データ A
B D C E 45 58 60 95 100 中央値 上位 下位 A B D C E 0 58 60 95 100 中央値 上位 下位 Aさんが0点でも順序は変わらないので、 中央値は60点のまま。 →中央値は極端な数字に引っ張られにくい 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 点数 10 22 25 57 59 60 63 65 68 73 77 79 80 82 上位 中央値 (63 + 65)÷2=64 下位
平均値と中央値の違いまとめ どちらもデータを要約した「代表値」 • 平均値︓全データの総和をデータの個数で割った値。数量的な意味での真ん中。 • 中央値︓全データを⼤きさの順に並べて中央にくる値。順序的な意味での真ん中。 • 先程の問題について 9 ◦
× × 平均値だけでは順序・⼈数はわからないので 50⼈ずついるかもしれないし、いないかもしれない 平均値は「総和÷個数」なので、正しい 「最頻値」という概念の理解が必要ですが、 今⽇は扱いません
(やや発展)中央値をもう少し掘り下げてみる: 四分位数 • 下位データと上位データで、さらに中央値をとったものを四分位数 という • 下位データの中央値→第⼀四分位数 • 上位データの中央値→第三四分位数 →四分位数を基準に、⼈数が等分されていることが分かる
→中央値や四分位数は、順序や範囲内のデータの個数を把握するのに役⽴つ 10 下位 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 点数 10 22 25 57 59 60 63 65 68 73 77 79 80 82 上位 中央値 (63 + 65)÷2=64 第⼀四分位数 第三四分位数
(やや発展)箱ひげ図 第⼀〜第三四分位数と、最⼩・最⼤値を表したグラフを「箱ひげ図」 という 11 第⼀四分位数 中央値 第三四分位数 最⼩値 最⼤値 0
10 20 30 40 50 60 70 80 90 100 テストの点数 • 箱ひげ図を使うと、データの範囲や偏りが 読み取れる! • ※1, 2: ひげの両端は、すごく極端な数字がある場合は、 「最⼤値」「最⼩値」でない場合もある ※参考: 外れ値検出のある箱ひげ図 ※1 ※2
全体のまとめ • 平均値と中央値の違い • 平均値︓全データの総和をデータの個数で割った値。数量的な意味での真ん中。 • 中央値︓全データを⼤きさの順に並べて中央にくる値。順序的な意味での真ん中。 • 中央値で2等分された下位データと上位データで、さらに中央値をとっ たものを四分位数という
• 箱ひげ図は、四分位数や最⼩・最⼤値をグラフ化したもので、データの 範囲や偏りを把握するのに役⽴つ 12
おわり ご清聴ありがとうございました︕