Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
統計学入門講座 第2回スライド
Search
TechmathProject
October 29, 2024
Science
0
34
統計学入門講座 第2回スライド
てくますプロジェクトで行った統計学入門講座の第2回スライドです。
実施:2024/10/28
TechmathProject
October 29, 2024
Tweet
Share
More Decks by TechmathProject
See All by TechmathProject
統計学入門講座 第4回スライド
techmathproject
0
29
統計学入門講座 第3回スライド
techmathproject
0
27
統計学入門講座 第1回スライド
techmathproject
0
130
線形代数学入門講座 第1回スライド
techmathproject
0
27
線形代数学入門講座 第2回スライド
techmathproject
0
25
線形代数学入門講座 第3回スライド
techmathproject
0
13
線形代数学入門講座 第4回スライド
techmathproject
0
11
線形代数学入門講座 第5回スライド
techmathproject
0
12
線形代数学入門講座 第6回スライド
techmathproject
0
15
Other Decks in Science
See All in Science
Factorized Diffusion: Perceptual Illusions by Noise Decomposition
tomoaki0705
0
270
butterfly_effect/butterfly_effect_in-house
florets1
1
110
はじめての「相関と因果とエビデンス」入門:“動機づけられた推論” に抗うために
takehikoihayashi
17
7k
白金鉱業Meetup Vol.16_【初学者向け発表】 数理最適化のはじめの一歩 〜身近な問題で学ぶ最適化の面白さ〜
brainpadpr
10
1.6k
解説!データ基盤の進化を後押しする手順とタイミング
shomaekawa
1
360
大規模言語モデルの開発
chokkan
PRO
84
35k
学術講演会中央大学学員会いわき支部
tagtag
0
110
[第62回 CV勉強会@関東] Long-CLIP: Unlocking the Long-Text Capability of CLIP / kantoCV 62th ECCV 2024
lychee1223
1
760
生成AI による論文執筆サポートの手引き(ワークショップ) / A guide to supporting dissertation writing with generative AI (workshop)
ks91
PRO
0
320
As We May Interact: Challenges and Opportunities for Next-Generation Human-Information Interaction
signer
PRO
0
200
創薬における機械学習技術について
kanojikajino
13
4.7k
Inductive-bias Learning: 大規模言語モデルによる予測モデルの生成
fuyu_quant0
0
120
Featured
See All Featured
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
127
18k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
Facilitating Awesome Meetings
lara
50
6.1k
Designing for Performance
lara
604
68k
Building a Scalable Design System with Sketch
lauravandoore
460
33k
A better future with KSS
kneath
238
17k
Fireside Chat
paigeccino
34
3.1k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
665
120k
How to Ace a Technical Interview
jacobian
276
23k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
1.2k
YesSQL, Process and Tooling at Scale
rocio
169
14k
What’s in a name? Adding method to the madness
productmarketing
PRO
22
3.2k
Transcript
統計学入門講座 第2回 データの散らばり てくますプロジェクト
てくますプロジェクトについて • てくますプロジェクトは, 「考える楽しさを探そう!」が合言葉の, 数学と情報科学の学習コミュニティです. • 数学や情報科学は, 誰にとっても役立ち, 趣味としても楽しめるものです. その魅力を伝えるために,
私たちは活動しています. • 輪読会や講座の実施, 記事などのコンテンツ制作を行っています. • X などで宣伝いただけると大変嬉しいです. (#てくますプロジェクト) • 講師はゆっきん(桑原)が担当します. ◦ 数学教師→システムエンジニア→プログラミング講師 ◦ 数学, プログラミング, ボードゲームが好きです. ◦ てくますプロジェクトやボードゲームコミュニティの運営を 行っています.
本講座について • 本講座は統計学を初めて学ぶ方や, 学び直したい方を対象としています. 本講座の前半は高校数学レベル, 後半は大学教養レベルです. 統計検定2級を目指す方にも適した内容です. • 本講座は各回, 前半で知識のインプット,
後半で問題演習を行います. • 高校や大学以外で数学を学ぶことのできる貴重な場です. 数学を学びたい人たちが集まっていますので, ぜひ交流してください! • 本講座作成にあたり, 特に参考にした本を 右に挙げておきます. 2冊ともオススメです.
スケジュール 第1回 データの整理 2024/10/07 第4回 確率分布 2024/12/02 第3回 確率の基本 2024/11/18
第2回 データの散らばり 2024/10/28 第5回 検定の枠組み 2024/12/16 第8回 2標本t検定 2025/02/10 第6回 母平均の検定 2025/01/06 第7回 母分散, 母比率の検定 2025/01/27 本講座は全8回です. 各回の内容は以下の通りです.
目次 1. 分散と標準偏差 データのばらつき(散らばり具合)を表す分散と標準偏差について説明します. 講座の間, ずっと登場する最重要概念です! 2. 共分散と相関係数 2次元データの相関性を表す共分散と相関係数について説明します. (身長が高いほど,
体重が重い傾向にあるなど)
分散と標準偏差
2つのデータについて 次の2つのデータは, 平均値・中央値・最頻値がそれぞれ同じです. では同じ傾向のデータであるかというと, そうとも言えなさそうです. この2つのデータには, どのような傾向の違いがあるでしょうか. 0, 1, 3,
5, 5, 5, 7, 9, 10 データA 3, 4, 4, 5, 5, 5, 6, 6, 7 データB データAよりBの方が, データのばらつきが小さそうです.
データのばらつきを調べる道具 データのばらつきを調べる道具として第1回では四分位範囲を紹介しましたが, 他のよく使う道具とし て, 分散と標準偏差があります. 分散 を求めるステップ 1. データの平均値を求める 2.
各データに対し, データの平均値との差を求める(これを偏差と呼びます) 3. 偏差の2乗の平均値を求める→この値が分散です! 標準偏差 は で求めることができます. • テストの平均点が60点で自分が50点のとき, 「平均点より-10点か」など考えますよね. これが偏差です. • 分散は偏差の2乗の平均値です. ちなみに, 偏差の平均値は0です. • 標準偏差はもとのデータと単位が同じというメリットがあります.
なお, データBは分散が , 標準偏差が よってデータAよりBの方が, 値のばらつきが小さいことが分かりました. 分散と標準偏差を計算してみよう 先ほどのデータAに対し, 分散と標準偏差を求めてみましょう. 0,
1, 3, 5, 5, 5, 7, 9, 10 データA データAの平均値は 5 各データの偏差は順に, -5, -4, -2, 0, 0, 0, 2, 4, 5 よって分散は, 標準偏差は,
分散のもう一つの計算方法 分散は偏差の2乗の平均値が定義ですが, この定義とは別の計算方法があります. もう一つの分散の計算方法:(分散)=(データの2乗の平均値)ー(データの平均値の2乗) <証明> この方法を使って, データAの分散を求めてみましょう. よって分散は (先ほどと同じ結果が得られました!) データAの2乗の平均値は
そのデータは月並みか特殊か テストの平均点が50点に対し, あなたは70点を取ったとします. この70点は月並みな結果でしょうか? それとも特殊な結果でしょうか? 50 80 20 50 60 40
70点はそこまですごくない 70点はすごい! 標準偏差が30のとき 標準偏差が10のとき それは, 標準偏差によります.
そのデータは月並みか特殊か データが月並みか特殊かを調べるには, データが平均値から標準偏差何個分離れているかを調べるとよ いです. データが正規分布(下の釣鐘のような形のグラフ)に従う場合, 平均値から標準偏差±1個分の範囲に約68%のデータが含まれ, 平均値から標準偏差±2個分の範囲に約95%のデータが含まれることが分かっています. 約68% 約95% 標準偏差2個分以上離れていたら,
特殊なデータと言ってよさそう
変数変換(すべてに同じ値を足す) さきほどのデータAのすべてのデータに5が足されたとします. このとき, 平均値, 分散, 標準偏差はそれぞれどのように変化するでしょうか. 0, 1, 3, 5,
5, 5, 7, 9, 10 データA 5, 6, 8, 10, 10, 10, 12, 14, 15 すべてのデータが+5 • 平均値:5増える • 分散:偏差が変わらないので, 変化なし • 標準偏差:分散が変わらないので, 変化なし
変数変換(すべてに同じ値をかける) 今度はデータAのすべてのデータに2がかけられたとします. このとき, 平均値, 分散, 標準偏差はそれぞれどのように変化するでしょうか. 0, 1, 3, 5,
5, 5, 7, 9, 10 データA 0, 2, 6, 10, 10, 10, 14, 18, 20 すべてのデータが2倍 • 平均値:2倍になる • 分散:偏差が2倍なので, 分散は2の2乗=4倍になる • 標準偏差:分散が4倍なので, 標準偏差はルート4=2倍になる
共分散と相関係数
2次元データと散布図 これまでは1次元のデータを取り扱ってきましたが, (身長, 体重) や (数学の得点, 英語の得点) などの2次 元のデータを考えることもできます. 2次元データは散布図によって可視化できます.
相関係数 身長が高ければ高いほど, 体重が重くなる傾向が見受けられます. このように, Xの値が大きいほど, Yの 値も大きくなる傾向があることを正の相関関係と呼びます. 一方, Xの値が大きいほど, Yの値が小さくなる傾向があることを負の相関関係と呼びます.
相関関係は, 相関係数という値で調べることができます. 相関係数は-1以上1以下の値を取り, 相関係数が正だと正の相関関係, 負だと負の相関関係があることが 分かります. 相関係数 -0.8 相関係数 -0.4 相関係数 0 相関係数 0.4 相関係数 0.8 強い負の相関関係 相関関係が 見られない 弱い負の相関関係 弱い正の相関関係 強い正の相関関係
相関係数の計算方法 さて, データXの標準偏差を , データYの標準偏差を , データXとYの共分散を とします. このとき相関係数は で求められます. 相関係数の計算の前に, 共分散について説明します. データXとYの共分散は,「
(Xの偏差)×(Yの偏差)」の平均値 です. (※データXの分散は, 「(Xの偏差)×(Xの偏差)」の平均値だったので, それとよく似ていますね)
相関係数を計算してみよう 次のデータXとYの相関係数を計算しましょう. X 2 4 6 8 10 Y 5
7 6 10 12 -4 -3 16 9 12 -2 -1 4 1 2 0 -2 0 4 0 2 2 4 4 4 4 4 16 16 16 合計 40 34 34 よって, データXとYには, 強い正の相関関係があることが分かる.
まとめ • 分散と標準偏差は, データのばらつきを調べる道具です. ◦ 分散は偏差の2乗の平均値です. ◦ 分散は2乗の平均値ー平均値の2乗でも計算できます. ◦ 標準偏差はルート分散です.
• データが平均値から標準偏差何個分離れているかで, そのデータが月並みか特殊かが分かります. • 変数変換について ◦ すべてのデータにnが足されたとき, 平均値はn増える, 分散は変化なし, 標準偏差は変化なし ◦ すべてのデータがn倍されたとき, 平均値はn倍される, 分散はnの2乗倍される, 標準偏差はn倍さ れる • 相関係数は2次元データの2変数の相関性を調べる道具です. ◦ 相関係数が正だと正の相関があります.(Xの値が大きいほどYの値も大きくなる) ◦ 相関係数が負だと負の相関があります.(Xの値が大きいほどYの値は小さくなる) ◦ XとYの共分散は (Xの偏差)×(Yの偏差)の平均値 です. ◦ 相関係数は(XとYの共分散)/{(Xの標準偏差)×(Yの標準偏差)}です.
演習問題を解こう!