Slide 1

Slide 1 text

統計学入門講座 第1回 データの整理 てくますプロジェクト

Slide 2

Slide 2 text

てくますプロジェクトについて ● てくますプロジェクトは, 「考える楽しさを探そう!」が合言葉の, 数学と情報科学の学習コミュニティです. ● 数学や情報科学は, 誰にとっても役立ち, 趣味としても楽しめるものです. その魅力を伝えるために, 私たちは活動しています. ● 輪読会や講座の実施, 記事などのコンテンツ制作を行っています. ● X などで宣伝いただけると大変嬉しいです. (#てくますプロジェクト) ● 講師はゆっきん(桑原)が担当します. ○ 数学教師→システムエンジニア→プログラミング講師 ○ 数学, プログラミング, ボードゲームが好きです. ○ てくますプロジェクトやボードゲームコミュニティの運営を 行っています.

Slide 3

Slide 3 text

本講座について ● 本講座は統計学を初めて学ぶ方や, 学び直したい方を対象としています. 本講座の前半は高校数学レベル, 後半は大学教養レベルです. 統計検定2級を目指す方にも適した内容です. ● 本講座は各回, 前半で知識のインプット, 後半で問題演習を行います. ● 高校や大学以外で数学を学ぶことのできる貴重な場です. 数学を学びたい人たちが集まっていますので, ぜひ交流してください! ● 本講座作成にあたり, 特に参考にした本を 右に挙げておきます. 2冊ともオススメです.

Slide 4

Slide 4 text

スケジュール 第1回 データの整理 2024/10/07 第4回 確率分布 2024/12/02 第3回 確率の基本 2024/11/18 第2回 データの散らばり 2024/10/28 第5回 検定の枠組み 2024/12/16 第8回 2標本t検定 2025/02/10 第6回 母平均の検定 2025/01/06 第7回 母分散, 母比率の検定 2025/01/27 本講座は全8回です. 各回の内容は以下の通りです.

Slide 5

Slide 5 text

目次 1. 統計学ってどんな学問? 統計学とはどのような学問かを説明します. また「二項検定」を題材として, 統計学の雰囲気をお伝えします. イントロダクションなので, 内容を理解できなくても雰囲気が分かればOKです! 2. データの整理 たくさんあるデータをどのように整理するかについて学びます.

Slide 6

Slide 6 text

統計学ってどんな学問?

Slide 7

Slide 7 text

統計学ってなに? 統計学とは「データから有用な情報を引き出し, 意思決定や予測を行うための手法を学ぶ学問」です. 統計学は大まかに記述統計と推測統計から成り立ちます. 記述統計は得られたデータの特徴を調べる学問です.  例:ある学校のある学年で行われた数学のテストの特徴(平均点や標準偏差)を調べる 推測統計は得られた一部のデータをもとに, 手に入れていないデータの特徴を推測する学問です.  例1:一部の家庭の視聴率から全体の視聴率を推測する  例2:これまでの売上から将来の売上を推測する

Slide 8

Slide 8 text

表が出やすいコインか あるコインを10回投げたとき, なんと9回表が出た. このコインは表が出やすいコインと言えるでしょうか? 統計学の雰囲気を味わうために, 次のような問題を考えてみましょう. 普段, 数学で取り扱っているコインは表が出る確率も裏が出る確率も0.5です. つまり「表が出やすい」=「表が出る確率が0.5より大きい」ということです. 「表が出る確率が0.5より大きい」かどうかなんて, どうやって調べるのでしょうか? 10回中9回表が出るには, 2つのケースが考えられます. 1. コイン自体は通常のコインで, たまたま10回中9回表が出た 2. いびつなコインで, 10回中9回表が出た 前者を帰無仮説, 後者を対立仮説と呼びます.

Slide 9

Slide 9 text

表が出やすいコインか 帰無仮説から帰無分布と呼ばれるものを作成し, 今回の事象がどの程度起こりうるものなのかを調べます. 帰無仮説「表が出る確率は0.5」から 帰無分布(表が出た回数の分布)を作成すると 右図のようになります. この確率の計算方法は第3回で学びますが, 高校数学で「反復試行の確率」と呼ばれているものです. 例えば, 10回中9回表が出る確率は次のように計算できます.

Slide 10

Slide 10 text

表が出やすいコインか 帰無分布に棄却域と呼ばれる領域を作ります. 棄却域は次のように作成します. 1. 帰無分布の端っこに作成する 2. 棄却域の合計が5%(左右2.5%ずつ)に なるように作成する この5%のことを有意水準と呼びます. 有意水準には5%の他に, 1%などを用いることもあります. 棄却域 棄却域

Slide 11

Slide 11 text

表が出やすいコインか 棄却域 棄却域 帰無仮説(通常のコイン)において, 「10回中9回表が出る」は棄却域に入りました. このとき, 次のように判断します. 今回のこの一連の作業のことを検定と呼びます. (詳しくは第5回以降で学習します!) 今回得られた「10回中9回表」という結果は帰無仮説か ら予想される値とかけ離れすぎている. これは, 帰無仮説自体が間違っているということではな いか. そのため, 対立仮説の方を採用し, 「このコインはいびつなコインであると考えられる(有 意水準5%)」と結論づけます.

Slide 12

Slide 12 text

表が出やすいコインか 棄却域 棄却域 補足 「10回中9回表」ではなく「10回中7回表」が出ていた としましょう. この場合は棄却域に入っていません. しかし, 棄却域に入っていないからと言って, 「帰無 仮説が妥当である」とは結論づけられないことに注 意しましょう. 「今回の検定では帰無仮説を棄却できなかった」と いう表現にとどめます. 「帰無仮説を棄却できた → 対立仮説が妥当だと結論づける」はOK! 「帰無仮説を棄却できなかった → 帰無仮説が妥当だと結論づける」はNG!

Slide 13

Slide 13 text

データの整理

Slide 14

Slide 14 text

データがたくさん 何をする? 40人分の身長データが与えられたとします. 個々のデータをじっと眺めていても先に進みません. さて, はじめに何をすればよいでしょうか? 178, 174, 157, 182, 159, 173, 172, 149, 172, 160, 158, 172, 162, 162, 163, 155, 168, 150, 169, 158, 171, 161, 180, 153, 173, 163, 155, 181, 147, 179, 172, 173, 177, 156, 159, 171, 159, 177, 154, 164 40人分の身長データ(単位:cm) データの特徴を理解したい! 図表の活用 代表値

Slide 15

Slide 15 text

図表の活用 ー度数分布表ー 階級 階級値 度数 相対度数 累積度数 累積相対度数 140以上150未満 145 2 0.05 2 0.05 150以上160未満 155 12 0.3 14 0.35 160以上170未満 165 9 0.225 23 0.575 170以上180未満 175 14 0.35 37 0.925 180以上190未満 185 3 0.075 40 1 度数分布表とは, 右下の表のように, 階級ごとの度数(データの個数)がまとめられた表です. ● 階級 データの範囲を小範囲に区切ったもの ● 階級値 その階級を代表する値 ● 度数 その階級に属するデータの個数 ● 相対度数 その階級の全体に占める割合 (度数÷全データの個数) ● 累積度数 その階級までの度数の合計 ● 累積相対度数 その階級までの相対度数の合計

Slide 16

Slide 16 text

図表の活用 ーヒストグラムー ヒストグラムとは, 階級と度数の情報を棒グラフで表したものです. 図表にすることで, 個々のデータの情報は失われてしまいますが, データ全体の特徴に関して情報を得 ることができます. ● 170cm台の人数が最も多い ● 二峰性がある(男性の山と女性の山と思われる)

Slide 17

Slide 17 text

代表値 ー平均値ー 平均値とは, データの合計値をデータ数で割ることで得られる値です. 178, 174, 157, 182, 159, 173, 172, 149, 172, 160, 158, 172, 162, 162, 163, 155, 168, 150, 169, 158, 171, 161, 180, 153, 173, 163, 155, 181, 147, 179, 172, 173, 177, 156, 159, 171, 159, 177, 154, 164 40人分の身長データ(単位:cm) 平均値は (cm) なお, 平均値は外れ値の影響を受けやすいことに注意しましょう.

Slide 18

Slide 18 text

代表値 ー中央値ー 中央値とは, データを小さい順に並べた時に, 中央の位置にくる値です. データが偶数個で中央が2個あるときは, それらの平均値を中央値とします. 178, 174, 157, 182, 159, 173, 172, 149, 172, 160, 158, 172, 162, 162, 163, 155, 168, 150, 169, 158, 171, 161, 180, 153, 173, 163, 155, 181, 147, 179, 172, 173, 177, 156, 159, 171, 159, 177, 154, 164 40人分の身長データ(単位:cm) 147, 149, 150, 153, 154, 155, 155, 156, 157, 158, 158, 159, 159, 159, 160, 161, 162, 162, 163, 163, 164, 168, 169, 171, 171, 172, 172, 172, 172, 173, 173, 173, 174, 177, 177, 178, 179, 180, 181, 182 データを小さい順に 並べ替える 中央値は (cm)

Slide 19

Slide 19 text

代表値 ー最頻値ー 最頻値とは, 最も多く出現する値です. 最も多く出現する値が同率一位で複数存在する場合, その全てが最頻値となります. 178, 174, 157, 182, 159, 173, 172, 149, 172, 160, 158, 172, 162, 162, 163, 155, 168, 150, 169, 158, 171, 161, 180, 153, 173, 163, 155, 181, 147, 179, 172, 173, 177, 156, 159, 171, 159, 177, 154, 164 40人分の身長データ(単位:cm) 147, 149, 150, 153, 154, 155, 155, 156, 157, 158, 158, 159, 159, 159, 160, 161, 162, 162, 163, 163, 164, 168, 169, 171, 171, 172, 172, 172, 172, 173, 173, 173, 174, 177, 177, 178, 179, 180, 181, 182 最頻値は 172 (cm) データを小さい順に 並べ替える

Slide 20

Slide 20 text

度数分布表から代表値を出す 度数分布表からは個々のデータの情報はわからないため, 階級値を使って考えます. 例えば, 140以上150未満のデータはすべて, 145として取り扱います. 階級 階級値 度数 相対度数 累積度数 累積相対度数 140以上150未満 145 2 0.05 2 0.05 150以上160未満 155 12 0.3 14 0.35 160以上170未満 165 9 0.225 23 0.575 170以上180未満 175 14 0.35 37 0.925 180以上190未満 185 3 0.075 40 1 ● 中央値 20人目も21人目も160以上170未満, つまり165として取り扱うので, 中央値は165(cm) ● 最頻値 最も度数が大きい階級の階級値より, 最頻値は175(cm) ● 平均値 平均値は166(cm)

Slide 21

Slide 21 text

四分位数 データは中央値を境に下位50%のデータと上位50%のデータに分けることができます. 2等分したデータをさらに2等分することで, 4等分について考えられます. データ(小さい順) 下位 上位 中央値 下の下 下の上 上の下 上の上 ● 第1四分位数 下位50%のデータの中央値 全体の25%地点 ● 第2四分位数 データ全体の中央値 全体の50%地点 ● 第3四分位数 上位50%のデータの中央値 全体の75%地点 下位と上位にデータを分ける際, データが偶数個の場合はそのまま分ければよいですが, データが奇数個の場合は, 中央値を抜いてデータを分けます.

Slide 22

Slide 22 text

範囲と四分位範囲 また, 第3四分位数  ー 第1四分位数  のことを, 四分位範囲と呼びます. データの最大値 ー データの最小値 のことを, 範囲と呼びます. データ(小さい順) 最小値 最大値 範囲 下の下 下の上 上の下 上の上 四分位範囲 範囲と四分位範囲はともにデータのばらつき(散らばり具合)を把握するための指標です. 四分位範囲はデータの中央50%がどの程度散らばっているかを調べるため, 外れ値の影響を受けづらい メリットがあります.

Slide 23

Slide 23 text

まとめ ● 統計学は大まかに記述統計と推測統計から成り立ちます. ○ 記述統計は得られたデータそのものの特徴を調べます. ○ 推測統計は得られた一部のデータをもとに, 全体の特徴を推測します. ■ 推測統計の一つとして二項検定を紹介しました. ● データを整理する方法として, 図表の活用や代表値の計算があります. ○ 図表の計算として, 度数分布表とヒストグラムを紹介しました. ○ 代表値として, 平均値, 中央値, 最頻値を紹介しました. ○ 中央値を拡張した概念として四分位数も紹介しました.

Slide 24

Slide 24 text

演習問題を解こう!