Slide 1

Slide 1 text

平均値と中央値の違いに ついて 2020/11/15 統計学勉強会(仮) #1 @y__mattu

Slide 2

Slide 2 text

誰︖ • 名前: 松村優哉 • 学⽣時代の専⾨: 計量経済学、 ベイズ統計、因果推論、マーケティング • HR系企業でデータサイエンティストしてます • 勉強会運営 →Tokyo.R (#TokyoR) Music×Analytics Meetup (#muana) • 近況: ⾃転⾞楽しい @y__mattu ymattu 2

Slide 3

Slide 3 text

本⽇の発表について • レベル: ⼊⾨ • 前提知識: ⼩〜中学⽣レベル • 具体的には、「以下の数字の平均値を求めてください」、と⾔われて計算が できるレベル 3 ※細かいことが気になる中上級者へ - 本発表での「平均」はすべて相加平均を指すこととします - ⾼校⽣でも理解できるレベルの内容にするため、統計学的な専⾨⽤語は避けて説明します 例1: A, B, C, D, Eさんに対して、 あるテスト(100点満点)を実施しときの点数データ A→45点 B→58点 C→95点 D→60点 E→100点

Slide 4

Slide 4 text

突然ですが問題です 4 ⼤学⽣数学基本調査 より 平均は⼩学校で習いますが、 意外と⼤⼈でも間違えます。

Slide 5

Slide 5 text

突然ですが問題です(答え) 5 ⼤学⽣数学基本調査 より ○ × × 今⽇の話はここ

Slide 6

Slide 6 text

平均値とは • データを⾜し合わせ、個数で割った数 • もしAさんが0点だったら…? →極端な数字がある場合、平均値はそれに引っ張られてしまう(この場合、 他の4⼈の点数が同じでも平均点はだいぶ下がっている) 6 例1の場合: (45 + 58 + 95 + 60 + 100) ÷5 = 71.6 例1の場合: (0 + 58 + 95 + 60 + 100) ÷5 = 62.6

Slide 7

Slide 7 text

平均値とは • データを⾜し合わせ、個数で割った数 • もしAさんが0点だったら…? →極端な数字がある場合、平均値はそれに引っ張られてしまう(この場合、 他の4⼈の点数が同じでも平均点はだいぶ下がっている) 7 例1の場合: (45 + 58 + 95 + 60 + 100) ÷5 = 71.6 例1の場合: (0 + 58 + 95 + 60 + 100) ÷5 = 62.6 すべての数字を⾜す、ということは 「順序」や「平均より上(下)の点数の⼈数」とかは関係ありません

Slide 8

Slide 8 text

中央値とは • データを⼩さい(⼤きい)順に並べ替えて順位をつけた際の「真ん中」 • もしAさんが0点だったら…? 8 偶数個の場合は︖ 例2: 別のクラスのテストの点数データ A B D C E 45 58 60 95 100 中央値 上位 下位 A B D C E 0 58 60 95 100 中央値 上位 下位 Aさんが0点でも順序は変わらないので、 中央値は60点のまま。 →中央値は極端な数字に引っ張られにくい 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 点数 10 22 25 57 59 60 63 65 68 73 77 79 80 82 上位 中央値 (63 + 65)÷2=64 下位

Slide 9

Slide 9 text

平均値と中央値の違いまとめ どちらもデータを要約した「代表値」 • 平均値︓全データの総和をデータの個数で割った値。数量的な意味での真ん中。 • 中央値︓全データを⼤きさの順に並べて中央にくる値。順序的な意味での真ん中。 • 先程の問題について 9 ○ × × 平均値だけでは順序・⼈数はわからないので 50⼈ずついるかもしれないし、いないかもしれない 平均値は「総和÷個数」なので、正しい 「最頻値」という概念の理解が必要ですが、 今⽇は扱いません

Slide 10

Slide 10 text

(やや発展)中央値をもう少し掘り下げてみる: 四分位数 • 下位データと上位データで、さらに中央値をとったものを四分位数 という • 下位データの中央値→第⼀四分位数 • 上位データの中央値→第三四分位数 →四分位数を基準に、⼈数が等分されていることが分かる →中央値や四分位数は、順序や範囲内のデータの個数を把握するのに役⽴つ 10 下位 順位 1 2 3 4 5 6 7 8 9 10 11 12 13 14 点数 10 22 25 57 59 60 63 65 68 73 77 79 80 82 上位 中央値 (63 + 65)÷2=64 第⼀四分位数 第三四分位数

Slide 11

Slide 11 text

(やや発展)箱ひげ図 第⼀〜第三四分位数と、最⼩・最⼤値を表したグラフを「箱ひげ図」 という 11 第⼀四分位数 中央値 第三四分位数 最⼩値 最⼤値 0 10 20 30 40 50 60 70 80 90 100 テストの点数 • 箱ひげ図を使うと、データの範囲や偏りが 読み取れる! • ※1, 2: ひげの両端は、すごく極端な数字がある場合は、 「最⼤値」「最⼩値」でない場合もある ※参考: 外れ値検出のある箱ひげ図 ※1 ※2

Slide 12

Slide 12 text

全体のまとめ • 平均値と中央値の違い • 平均値︓全データの総和をデータの個数で割った値。数量的な意味での真ん中。 • 中央値︓全データを⼤きさの順に並べて中央にくる値。順序的な意味での真ん中。 • 中央値で2等分された下位データと上位データで、さらに中央値をとっ たものを四分位数という • 箱ひげ図は、四分位数や最⼩・最⼤値をグラフ化したもので、データの 範囲や偏りを把握するのに役⽴つ 12

Slide 13

Slide 13 text

おわり ご清聴ありがとうございました︕