Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
平均値と中央値の違いについて
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
松村優哉
November 15, 2020
Science
1
920
平均値と中央値の違いについて
統計学勉強会(仮)#1 での発表資料です。
松村優哉
November 15, 2020
Tweet
Share
More Decks by 松村優哉
See All by 松村優哉
はじめての機械学習 / entrance-to-machine-learning2022
y__mattu
2
1.1k
validateパッケージでデータを検証する / Data Validation with validate package
y__mattu
0
650
rstanの環境構築 / Set Up rstan
y__mattu
1
1.1k
R言語とGo言語 / R and Go
y__mattu
1
1.1k
はじめての機械学習 / Entrance to Machine Learning
y__mattu
0
790
dplyr 1.0.0の新機能 / dplyr 1.0.0
y__mattu
2
10k
Other Decks in Science
See All in Science
データから見る勝敗の法則 / The principle of victory discovered by science (open lecture in NSSU)
konakalab
1
290
My Little Monster
juzishuu
0
610
イロレーティングを活用した関東大学サッカーの定量的実力評価 / A quantitative performance evaluation of Kanto University Football Association using Elo rating
konakalab
0
210
高校生就活へのDA導入の提案
shunyanoda
1
6.2k
ド文系だった私が、 KaggleのNCAAコンペでソロ金取れるまで
wakamatsu_takumu
2
2k
Performance Evaluation and Ranking of Drivers in Multiple Motorsports Using Massey’s Method
konakalab
0
160
[Paper Introduction] From Bytes to Ideas:Language Modeling with Autoregressive U-Nets
haruumiomoto
0
220
あなたに水耕栽培を愛していないとは言わせない
mutsumix
1
280
蔵本モデルが解き明かす同期と相転移の秘密 〜拍手のリズムはなぜ揃うのか?〜
syotasasaki593876
1
230
アクシズを探せ! 各勢力の位置関係についての考察
miu_crescent
PRO
1
110
機械学習 - DBSCAN
trycycle
PRO
0
1.6k
Cross-Media Technologies, Information Science and Human-Information Interaction
signer
PRO
3
32k
Featured
See All Featured
Google's AI Overviews - The New Search
badams
0
930
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.6k
Fireside Chat
paigeccino
42
3.8k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
The Cost Of JavaScript in 2023
addyosmani
55
9.7k
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
130
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.3k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
190
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
260
Transcript
平均値と中央値の違いに ついて 2020/11/15 統計学勉強会(仮) #1 @y__mattu
誰︖ • 名前: 松村優哉 • 学⽣時代の専⾨: 計量経済学、 ベイズ統計、因果推論、マーケティング • HR系企業でデータサイエンティストしてます
• 勉強会運営 →Tokyo.R (#TokyoR) Music×Analytics Meetup (#muana) • 近況: ⾃転⾞楽しい @y__mattu ymattu 2
本⽇の発表について • レベル: ⼊⾨ • 前提知識: ⼩〜中学⽣レベル • 具体的には、「以下の数字の平均値を求めてください」、と⾔われて計算が できるレベル
3 ※細かいことが気になる中上級者へ - 本発表での「平均」はすべて相加平均を指すこととします - ⾼校⽣でも理解できるレベルの内容にするため、統計学的な専⾨⽤語は避けて説明します 例1: A, B, C, D, Eさんに対して、 あるテスト(100点満点)を実施しときの点数データ A→45点 B→58点 C→95点 D→60点 E→100点
突然ですが問題です 4 ⼤学⽣数学基本調査 より 平均は⼩学校で習いますが、 意外と⼤⼈でも間違えます。
突然ですが問題です(答え) 5 ⼤学⽣数学基本調査 より ◦ × × 今⽇の話はここ
平均値とは • データを⾜し合わせ、個数で割った数 • もしAさんが0点だったら…? →極端な数字がある場合、平均値はそれに引っ張られてしまう(この場合、 他の4⼈の点数が同じでも平均点はだいぶ下がっている) 6 例1の場合: (45
+ 58 + 95 + 60 + 100) ÷5 = 71.6 例1の場合: (0 + 58 + 95 + 60 + 100) ÷5 = 62.6
平均値とは • データを⾜し合わせ、個数で割った数 • もしAさんが0点だったら…? →極端な数字がある場合、平均値はそれに引っ張られてしまう(この場合、 他の4⼈の点数が同じでも平均点はだいぶ下がっている) 7 例1の場合: (45
+ 58 + 95 + 60 + 100) ÷5 = 71.6 例1の場合: (0 + 58 + 95 + 60 + 100) ÷5 = 62.6 すべての数字を⾜す、ということは 「順序」や「平均より上(下)の点数の⼈数」とかは関係ありません
中央値とは • データを⼩さい(⼤きい)順に並べ替えて順位をつけた際の「真ん中」 • もしAさんが0点だったら…? 8 偶数個の場合は︖ 例2: 別のクラスのテストの点数データ A
B D C E 45 58 60 95 100 中央値 上位 下位 A B D C E 0 58 60 95 100 中央値 上位 下位 Aさんが0点でも順序は変わらないので、 中央値は60点のまま。 →中央値は極端な数字に引っ張られにくい 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 点数 10 22 25 57 59 60 63 65 68 73 77 79 80 82 上位 中央値 (63 + 65)÷2=64 下位
平均値と中央値の違いまとめ どちらもデータを要約した「代表値」 • 平均値︓全データの総和をデータの個数で割った値。数量的な意味での真ん中。 • 中央値︓全データを⼤きさの順に並べて中央にくる値。順序的な意味での真ん中。 • 先程の問題について 9 ◦
× × 平均値だけでは順序・⼈数はわからないので 50⼈ずついるかもしれないし、いないかもしれない 平均値は「総和÷個数」なので、正しい 「最頻値」という概念の理解が必要ですが、 今⽇は扱いません
(やや発展)中央値をもう少し掘り下げてみる: 四分位数 • 下位データと上位データで、さらに中央値をとったものを四分位数 という • 下位データの中央値→第⼀四分位数 • 上位データの中央値→第三四分位数 →四分位数を基準に、⼈数が等分されていることが分かる
→中央値や四分位数は、順序や範囲内のデータの個数を把握するのに役⽴つ 10 下位 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 点数 10 22 25 57 59 60 63 65 68 73 77 79 80 82 上位 中央値 (63 + 65)÷2=64 第⼀四分位数 第三四分位数
(やや発展)箱ひげ図 第⼀〜第三四分位数と、最⼩・最⼤値を表したグラフを「箱ひげ図」 という 11 第⼀四分位数 中央値 第三四分位数 最⼩値 最⼤値 0
10 20 30 40 50 60 70 80 90 100 テストの点数 • 箱ひげ図を使うと、データの範囲や偏りが 読み取れる! • ※1, 2: ひげの両端は、すごく極端な数字がある場合は、 「最⼤値」「最⼩値」でない場合もある ※参考: 外れ値検出のある箱ひげ図 ※1 ※2
全体のまとめ • 平均値と中央値の違い • 平均値︓全データの総和をデータの個数で割った値。数量的な意味での真ん中。 • 中央値︓全データを⼤きさの順に並べて中央にくる値。順序的な意味での真ん中。 • 中央値で2等分された下位データと上位データで、さらに中央値をとっ たものを四分位数という
• 箱ひげ図は、四分位数や最⼩・最⼤値をグラフ化したもので、データの 範囲や偏りを把握するのに役⽴つ 12
おわり ご清聴ありがとうございました︕