Upgrade to Pro — share decks privately, control downloads, hide ads and more …

統計学入門講座 第1回スライド

統計学入門講座 第1回スライド

てくますプロジェクトで行った統計学入門講座の第1回スライドです。
実施:2024/10/07

TechmathProject

October 28, 2024
Tweet

More Decks by TechmathProject

Other Decks in Science

Transcript

  1. てくますプロジェクトについて • てくますプロジェクトは, 「考える楽しさを探そう!」が合言葉の, 数学と情報科学の学習コミュニティです. • 数学や情報科学は, 誰にとっても役立ち, 趣味としても楽しめるものです. その魅力を伝えるために,

    私たちは活動しています. • 輪読会や講座の実施, 記事などのコンテンツ制作を行っています. • X などで宣伝いただけると大変嬉しいです. (#てくますプロジェクト) • 講師はゆっきん(桑原)が担当します. ◦ 数学教師→システムエンジニア→プログラミング講師 ◦ 数学, プログラミング, ボードゲームが好きです. ◦ てくますプロジェクトやボードゲームコミュニティの運営を 行っています.
  2. 本講座について • 本講座は統計学を初めて学ぶ方や, 学び直したい方を対象としています. 本講座の前半は高校数学レベル, 後半は大学教養レベルです. 統計検定2級を目指す方にも適した内容です. • 本講座は各回, 前半で知識のインプット,

    後半で問題演習を行います. • 高校や大学以外で数学を学ぶことのできる貴重な場です. 数学を学びたい人たちが集まっていますので, ぜひ交流してください! • 本講座作成にあたり, 特に参考にした本を 右に挙げておきます. 2冊ともオススメです.
  3. スケジュール 第1回 データの整理 2024/10/07 第4回 確率分布 2024/12/02 第3回 確率の基本 2024/11/18

    第2回 データの散らばり 2024/10/28 第5回 検定の枠組み 2024/12/16 第8回 2標本t検定 2025/02/10 第6回 母平均の検定 2025/01/06 第7回 母分散, 母比率の検定 2025/01/27 本講座は全8回です. 各回の内容は以下の通りです.
  4. 表が出やすいコインか 棄却域 棄却域 帰無仮説(通常のコイン)において, 「10回中9回表が出る」は棄却域に入りました. このとき, 次のように判断します. 今回のこの一連の作業のことを検定と呼びます. (詳しくは第5回以降で学習します!) 今回得られた「10回中9回表」という結果は帰無仮説か

    ら予想される値とかけ離れすぎている. これは, 帰無仮説自体が間違っているということではな いか. そのため, 対立仮説の方を採用し, 「このコインはいびつなコインであると考えられる(有 意水準5%)」と結論づけます.
  5. 表が出やすいコインか 棄却域 棄却域 補足 「10回中9回表」ではなく「10回中7回表」が出ていた としましょう. この場合は棄却域に入っていません. しかし, 棄却域に入っていないからと言って, 「帰無

    仮説が妥当である」とは結論づけられないことに注 意しましょう. 「今回の検定では帰無仮説を棄却できなかった」と いう表現にとどめます. 「帰無仮説を棄却できた → 対立仮説が妥当だと結論づける」はOK! 「帰無仮説を棄却できなかった → 帰無仮説が妥当だと結論づける」はNG!
  6. データがたくさん 何をする? 40人分の身長データが与えられたとします. 個々のデータをじっと眺めていても先に進みません. さて, はじめに何をすればよいでしょうか? 178, 174, 157, 182, 159,

    173, 172, 149, 172, 160, 158, 172, 162, 162, 163, 155, 168, 150, 169, 158, 171, 161, 180, 153, 173, 163, 155, 181, 147, 179, 172, 173, 177, 156, 159, 171, 159, 177, 154, 164 40人分の身長データ(単位:cm) データの特徴を理解したい! 図表の活用 代表値
  7. 図表の活用 ー度数分布表ー 階級 階級値 度数 相対度数 累積度数 累積相対度数 140以上150未満 145 2

    0.05 2 0.05 150以上160未満 155 12 0.3 14 0.35 160以上170未満 165 9 0.225 23 0.575 170以上180未満 175 14 0.35 37 0.925 180以上190未満 185 3 0.075 40 1 度数分布表とは, 右下の表のように, 階級ごとの度数(データの個数)がまとめられた表です. • 階級 データの範囲を小範囲に区切ったもの • 階級値 その階級を代表する値 • 度数 その階級に属するデータの個数 • 相対度数 その階級の全体に占める割合 (度数÷全データの個数) • 累積度数 その階級までの度数の合計 • 累積相対度数 その階級までの相対度数の合計
  8. 代表値 ー平均値ー 平均値とは, データの合計値をデータ数で割ることで得られる値です. 178, 174, 157, 182, 159, 173, 172,

    149, 172, 160, 158, 172, 162, 162, 163, 155, 168, 150, 169, 158, 171, 161, 180, 153, 173, 163, 155, 181, 147, 179, 172, 173, 177, 156, 159, 171, 159, 177, 154, 164 40人分の身長データ(単位:cm) 平均値は (cm) なお, 平均値は外れ値の影響を受けやすいことに注意しましょう.
  9. 代表値 ー中央値ー 中央値とは, データを小さい順に並べた時に, 中央の位置にくる値です. データが偶数個で中央が2個あるときは, それらの平均値を中央値とします. 178, 174, 157, 182,

    159, 173, 172, 149, 172, 160, 158, 172, 162, 162, 163, 155, 168, 150, 169, 158, 171, 161, 180, 153, 173, 163, 155, 181, 147, 179, 172, 173, 177, 156, 159, 171, 159, 177, 154, 164 40人分の身長データ(単位:cm) 147, 149, 150, 153, 154, 155, 155, 156, 157, 158, 158, 159, 159, 159, 160, 161, 162, 162, 163, 163, 164, 168, 169, 171, 171, 172, 172, 172, 172, 173, 173, 173, 174, 177, 177, 178, 179, 180, 181, 182 データを小さい順に 並べ替える 中央値は (cm)
  10. 代表値 ー最頻値ー 最頻値とは, 最も多く出現する値です. 最も多く出現する値が同率一位で複数存在する場合, その全てが最頻値となります. 178, 174, 157, 182, 159,

    173, 172, 149, 172, 160, 158, 172, 162, 162, 163, 155, 168, 150, 169, 158, 171, 161, 180, 153, 173, 163, 155, 181, 147, 179, 172, 173, 177, 156, 159, 171, 159, 177, 154, 164 40人分の身長データ(単位:cm) 147, 149, 150, 153, 154, 155, 155, 156, 157, 158, 158, 159, 159, 159, 160, 161, 162, 162, 163, 163, 164, 168, 169, 171, 171, 172, 172, 172, 172, 173, 173, 173, 174, 177, 177, 178, 179, 180, 181, 182 最頻値は 172 (cm) データを小さい順に 並べ替える
  11. 度数分布表から代表値を出す 度数分布表からは個々のデータの情報はわからないため, 階級値を使って考えます. 例えば, 140以上150未満のデータはすべて, 145として取り扱います. 階級 階級値 度数 相対度数

    累積度数 累積相対度数 140以上150未満 145 2 0.05 2 0.05 150以上160未満 155 12 0.3 14 0.35 160以上170未満 165 9 0.225 23 0.575 170以上180未満 175 14 0.35 37 0.925 180以上190未満 185 3 0.075 40 1 • 中央値 20人目も21人目も160以上170未満, つまり165として取り扱うので, 中央値は165(cm) • 最頻値 最も度数が大きい階級の階級値より, 最頻値は175(cm) • 平均値 平均値は166(cm)
  12. 四分位数 データは中央値を境に下位50%のデータと上位50%のデータに分けることができます. 2等分したデータをさらに2等分することで, 4等分について考えられます. データ(小さい順) 下位 上位 中央値 下の下 下の上

    上の下 上の上 • 第1四分位数 下位50%のデータの中央値 全体の25%地点 • 第2四分位数 データ全体の中央値 全体の50%地点 • 第3四分位数 上位50%のデータの中央値 全体の75%地点 下位と上位にデータを分ける際, データが偶数個の場合はそのまま分ければよいですが, データが奇数個の場合は, 中央値を抜いてデータを分けます.
  13. 範囲と四分位範囲 また, 第3四分位数  ー 第1四分位数  のことを, 四分位範囲と呼びます. データの最大値 ー データの最小値 のことを, 範囲と呼びます.

    データ(小さい順) 最小値 最大値 範囲 下の下 下の上 上の下 上の上 四分位範囲 範囲と四分位範囲はともにデータのばらつき(散らばり具合)を把握するための指標です. 四分位範囲はデータの中央50%がどの程度散らばっているかを調べるため, 外れ値の影響を受けづらい メリットがあります.
  14. まとめ • 統計学は大まかに記述統計と推測統計から成り立ちます. ◦ 記述統計は得られたデータそのものの特徴を調べます. ◦ 推測統計は得られた一部のデータをもとに, 全体の特徴を推測します. ▪ 推測統計の一つとして二項検定を紹介しました.

    • データを整理する方法として, 図表の活用や代表値の計算があります. ◦ 図表の計算として, 度数分布表とヒストグラムを紹介しました. ◦ 代表値として, 平均値, 中央値, 最頻値を紹介しました. ◦ 中央値を拡張した概念として四分位数も紹介しました.