統計学入門講座 第2回スライド
by
TechmathProject
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
統計学入門講座 第2回 データの散らばり てくますプロジェクト
Slide 2
Slide 2 text
てくますプロジェクトについて ● てくますプロジェクトは, 「考える楽しさを探そう!」が合言葉の, 数学と情報科学の学習コミュニティです. ● 数学や情報科学は, 誰にとっても役立ち, 趣味としても楽しめるものです. その魅力を伝えるために, 私たちは活動しています. ● 輪読会や講座の実施, 記事などのコンテンツ制作を行っています. ● X などで宣伝いただけると大変嬉しいです. (#てくますプロジェクト) ● 講師はゆっきん(桑原)が担当します. ○ 数学教師→システムエンジニア→プログラミング講師 ○ 数学, プログラミング, ボードゲームが好きです. ○ てくますプロジェクトやボードゲームコミュニティの運営を 行っています.
Slide 3
Slide 3 text
本講座について ● 本講座は統計学を初めて学ぶ方や, 学び直したい方を対象としています. 本講座の前半は高校数学レベル, 後半は大学教養レベルです. 統計検定2級を目指す方にも適した内容です. ● 本講座は各回, 前半で知識のインプット, 後半で問題演習を行います. ● 高校や大学以外で数学を学ぶことのできる貴重な場です. 数学を学びたい人たちが集まっていますので, ぜひ交流してください! ● 本講座作成にあたり, 特に参考にした本を 右に挙げておきます. 2冊ともオススメです.
Slide 4
Slide 4 text
スケジュール 第1回 データの整理 2024/10/07 第4回 確率分布 2024/12/02 第3回 確率の基本 2024/11/18 第2回 データの散らばり 2024/10/28 第5回 検定の枠組み 2024/12/16 第8回 2標本t検定 2025/02/10 第6回 母平均の検定 2025/01/06 第7回 母分散, 母比率の検定 2025/01/27 本講座は全8回です. 各回の内容は以下の通りです.
Slide 5
Slide 5 text
目次 1. 分散と標準偏差 データのばらつき(散らばり具合)を表す分散と標準偏差について説明します. 講座の間, ずっと登場する最重要概念です! 2. 共分散と相関係数 2次元データの相関性を表す共分散と相関係数について説明します. (身長が高いほど, 体重が重い傾向にあるなど)
Slide 6
Slide 6 text
分散と標準偏差
Slide 7
Slide 7 text
2つのデータについて 次の2つのデータは, 平均値・中央値・最頻値がそれぞれ同じです. では同じ傾向のデータであるかというと, そうとも言えなさそうです. この2つのデータには, どのような傾向の違いがあるでしょうか. 0, 1, 3, 5, 5, 5, 7, 9, 10 データA 3, 4, 4, 5, 5, 5, 6, 6, 7 データB データAよりBの方が, データのばらつきが小さそうです.
Slide 8
Slide 8 text
データのばらつきを調べる道具 データのばらつきを調べる道具として第1回では四分位範囲を紹介しましたが, 他のよく使う道具とし て, 分散と標準偏差があります. 分散 を求めるステップ 1. データの平均値を求める 2. 各データに対し, データの平均値との差を求める(これを偏差と呼びます) 3. 偏差の2乗の平均値を求める→この値が分散です! 標準偏差 は で求めることができます. ● テストの平均点が60点で自分が50点のとき, 「平均点より-10点か」など考えますよね. これが偏差です. ● 分散は偏差の2乗の平均値です. ちなみに, 偏差の平均値は0です. ● 標準偏差はもとのデータと単位が同じというメリットがあります.
Slide 9
Slide 9 text
なお, データBは分散が , 標準偏差が よってデータAよりBの方が, 値のばらつきが小さいことが分かりました. 分散と標準偏差を計算してみよう 先ほどのデータAに対し, 分散と標準偏差を求めてみましょう. 0, 1, 3, 5, 5, 5, 7, 9, 10 データA データAの平均値は 5 各データの偏差は順に, -5, -4, -2, 0, 0, 0, 2, 4, 5 よって分散は, 標準偏差は,
Slide 10
Slide 10 text
分散のもう一つの計算方法 分散は偏差の2乗の平均値が定義ですが, この定義とは別の計算方法があります. もう一つの分散の計算方法:(分散)=(データの2乗の平均値)ー(データの平均値の2乗) <証明> この方法を使って, データAの分散を求めてみましょう. よって分散は (先ほどと同じ結果が得られました!) データAの2乗の平均値は
Slide 11
Slide 11 text
そのデータは月並みか特殊か テストの平均点が50点に対し, あなたは70点を取ったとします. この70点は月並みな結果でしょうか? それとも特殊な結果でしょうか? 50 80 20 50 60 40 70点はそこまですごくない 70点はすごい! 標準偏差が30のとき 標準偏差が10のとき それは, 標準偏差によります.
Slide 12
Slide 12 text
そのデータは月並みか特殊か データが月並みか特殊かを調べるには, データが平均値から標準偏差何個分離れているかを調べるとよ いです. データが正規分布(下の釣鐘のような形のグラフ)に従う場合, 平均値から標準偏差±1個分の範囲に約68%のデータが含まれ, 平均値から標準偏差±2個分の範囲に約95%のデータが含まれることが分かっています. 約68% 約95% 標準偏差2個分以上離れていたら, 特殊なデータと言ってよさそう
Slide 13
Slide 13 text
変数変換(すべてに同じ値を足す) さきほどのデータAのすべてのデータに5が足されたとします. このとき, 平均値, 分散, 標準偏差はそれぞれどのように変化するでしょうか. 0, 1, 3, 5, 5, 5, 7, 9, 10 データA 5, 6, 8, 10, 10, 10, 12, 14, 15 すべてのデータが+5 ● 平均値:5増える ● 分散:偏差が変わらないので, 変化なし ● 標準偏差:分散が変わらないので, 変化なし
Slide 14
Slide 14 text
変数変換(すべてに同じ値をかける) 今度はデータAのすべてのデータに2がかけられたとします. このとき, 平均値, 分散, 標準偏差はそれぞれどのように変化するでしょうか. 0, 1, 3, 5, 5, 5, 7, 9, 10 データA 0, 2, 6, 10, 10, 10, 14, 18, 20 すべてのデータが2倍 ● 平均値:2倍になる ● 分散:偏差が2倍なので, 分散は2の2乗=4倍になる ● 標準偏差:分散が4倍なので, 標準偏差はルート4=2倍になる
Slide 15
Slide 15 text
共分散と相関係数
Slide 16
Slide 16 text
2次元データと散布図 これまでは1次元のデータを取り扱ってきましたが, (身長, 体重) や (数学の得点, 英語の得点) などの2次 元のデータを考えることもできます. 2次元データは散布図によって可視化できます.
Slide 17
Slide 17 text
相関係数 身長が高ければ高いほど, 体重が重くなる傾向が見受けられます. このように, Xの値が大きいほど, Yの 値も大きくなる傾向があることを正の相関関係と呼びます. 一方, Xの値が大きいほど, Yの値が小さくなる傾向があることを負の相関関係と呼びます. 相関関係は, 相関係数という値で調べることができます. 相関係数は-1以上1以下の値を取り, 相関係数が正だと正の相関関係, 負だと負の相関関係があることが 分かります. 相関係数 -0.8 相関係数 -0.4 相関係数 0 相関係数 0.4 相関係数 0.8 強い負の相関関係 相関関係が 見られない 弱い負の相関関係 弱い正の相関関係 強い正の相関関係
Slide 18
Slide 18 text
相関係数の計算方法 さて, データXの標準偏差を , データYの標準偏差を , データXとYの共分散を とします. このとき相関係数は で求められます. 相関係数の計算の前に, 共分散について説明します. データXとYの共分散は,「 (Xの偏差)×(Yの偏差)」の平均値 です. (※データXの分散は, 「(Xの偏差)×(Xの偏差)」の平均値だったので, それとよく似ていますね)
Slide 19
Slide 19 text
相関係数を計算してみよう 次のデータXとYの相関係数を計算しましょう. X 2 4 6 8 10 Y 5 7 6 10 12 -4 -3 16 9 12 -2 -1 4 1 2 0 -2 0 4 0 2 2 4 4 4 4 4 16 16 16 合計 40 34 34 よって, データXとYには, 強い正の相関関係があることが分かる.
Slide 20
Slide 20 text
まとめ ● 分散と標準偏差は, データのばらつきを調べる道具です. ○ 分散は偏差の2乗の平均値です. ○ 分散は2乗の平均値ー平均値の2乗でも計算できます. ○ 標準偏差はルート分散です. ● データが平均値から標準偏差何個分離れているかで, そのデータが月並みか特殊かが分かります. ● 変数変換について ○ すべてのデータにnが足されたとき, 平均値はn増える, 分散は変化なし, 標準偏差は変化なし ○ すべてのデータがn倍されたとき, 平均値はn倍される, 分散はnの2乗倍される, 標準偏差はn倍さ れる ● 相関係数は2次元データの2変数の相関性を調べる道具です. ○ 相関係数が正だと正の相関があります.(Xの値が大きいほどYの値も大きくなる) ○ 相関係数が負だと負の相関があります.(Xの値が大きいほどYの値は小さくなる) ○ XとYの共分散は (Xの偏差)×(Yの偏差)の平均値 です. ○ 相関係数は(XとYの共分散)/{(Xの標準偏差)×(Yの標準偏差)}です.
Slide 21
Slide 21 text
演習問題を解こう!