標本調査法2022 「標本調査法の基礎と実践」 2022年9月5日, 12日 @オンライン 全82枚+
標本調査法の基礎と実践中村 大輝(広島大学)2022年9月5日, 12日@オンライン全82枚+資料ダウンロードhttps://drive.google.com/drive/folders/1iqX983rd-BRIaqYaUXAlkjRi_J_oMKRq?usp=sharing
View Slide
自己紹介2中村 大輝(Daiki Nakamura)◼ 所属広島大学 教育学部 特任学術研究員(数理・データサイエンス・AI教育プログラム担当)◼ 専門科学教育、理科教育、教育心理学◼ 研究テーマ科学的思考力、教育測定、メタ分析、研究方法論◼ 論文• 中村大輝, 山根悠平, 西内舞, 雲財寛. (2019). 理数科教育におけるテクノロジー活用の効果―メタ分析を通した研究成果の統合―. 科学教育研究, 43(2), 82-91. 10.14935/jssej.43.82• 中村大輝・田村智哉・小林誠…・松浦拓也(2020)「理科における授業実践の効果に関するメタ分析-教育センターの実践報告を対象として-」『科学教育研究』44(4), 215-233. 10.14935/jssej.44.215• 中村大輝・雲財寛・松浦拓也(2021)「理科における認知欲求尺度の再構成および項目反応理論に基づく検討」『科学教育研究』45(2), 215-233. 10.14935/jssej.45.215• 中村大輝・原田勇希・久坂哲也・雲財寛・松浦拓也(2021)「理科教育学における再現性の危機とその原因」『理科教育学研究』62(1), 3-22. 10.11639/sjst.sp20016• 中村大輝, 堀田晃毅, 西内舞, 雲財寛 (2022). 社会認知的キャリア理論に基づくSTEMキャリア選択の要因と性差の検討 ―PISA2015データの二次分析を通して―. 日本教育工学会論文誌, 46(2), 303-312.https://doi.org/10.15077/jjet.45098#Twitter@d_nakamuran#E-mail[email protected]#HPhttps://www.nakamura-edu.com/
本勉強会の目標とスケジュール 3⚫ 勉強会を通しての目標✓ 基本的な標本抽出法を理解する✓ 推定量の種類と特徴を理解する✓ Rを用いた分析を実行できるようになる⚫ スケジュール(予定)• 第1回(9月5日 21:00-)• 標本調査法の基礎• Rの基礎• 単純無作為抽出法• 第2回(9月12日 21:00-)• 確率比例抽出法• 層化抽出法• 集落抽出法• 確率比例集落抽出法• 層化確率比例集落抽出法◼ チャットで随時、質問や感想を受け付けます
諸連絡 4• RとRStudioというソフトウェアを使用しますので、あらかじめインストールしておいていただけるとスムーズです。• 欠席者用に録画を行います。録画は欠席者のみに共有し、外部には公開しません。• 発表担当者は統計の専門家ではないため、その内容的正確さを保証できません。• ハラスメント行為など、許容できない迷惑行為が見られた場合には強制的に退出していただく場合があります。https://www.rstudio.com/products/rstudio/download/https://cran.ism.ac.jp/
文献紹介 5土屋隆裕(2009)「概説 標本調査法」朝倉書店.内容紹介標本調査理論の最新成果をふまえ体系的に理解。付録にR例。〔内容〕基礎/線形推定量/単純無作為抽出法/確率比例抽出法/比推定量/層化抽出法/回帰推定量/集落抽出法/多段抽出法/二相抽出法/関連の話題/クロス表/回帰分析https://www.asakura.co.jp/detail.php?book_code=12791➢ この本の内容に準拠して解説を行います。➢ スライドでページ数が出てきたらこの本のページ数に対応します。
標本調査法の基礎Basics of Sample Survey Methods6
標本調査の特徴 7⚫ 全数調査と標本調査• 全数調査:母集団の対象すべてを調査する– 例)国勢調査、全国学力学習状況調査• 標本調査:母集団から一部の対象を抽出して調査し、その結果から母集団の状況を推定する– 例)労働力調査、学校保健統計調査、PISA、TIMSS⚫ 標本調査のメリット(Kish, 1979; Kish & Verma, 1983)p.2• 全数調査に比べ、費用・時間・労力を節約できる• 母集団が大きすぎて全数調査が実施不可能な時でも、標本調査は実施可能• 調査の管理や容易となり、管理が行き届いた調査が実施できる⚫ 標本調査の基礎(p.3)• 母集団から抽出された標本を用いて母数(真の値)を推定する• 推定には標本の選択による誤差が伴う
標本抽出法と推定量 p.3- 8⚫ 標本抽出法(確率抽出法)の種類• 単純無作為抽出法(simple random sampling)• 確率比例抽出法(probability proportional sampling)• 層化抽出法(stratified sampling)• 集落抽出法(cluster sampling)• 多段抽出法(multi-stage sampling)階層構造を利用する方法補助情報を利用する方法⚫ 推定量の種類• 線形推定量– Horvitz-Thompson 推定量(非復元)– Hansen-Hurwitz 推定量(復元)• 比推定量 :補助情報を1つ使用• 回帰推定量 :補助情報を複数使用
復元抽出と非復元抽出 9• 復元抽出(sampling with replacement)一度抽出した標本を母集団に戻してから次の抽出を行う• 非復元抽出(sampling without replacement)一度抽出した標本は母集団に戻さずに次の抽出https://bellcurve.jp/statistics/course/8005.html
母数(母集団特性値)の定義 pp.6-7 10⚫ 有限母集団における変数要素 変数 𝑦 補助変数 𝑥1 𝑦1𝑥12 𝑦2𝑥2⋮ ⋮ ⋮𝑖 𝑦𝑖𝑥𝑖⋮ ⋮ ⋮𝑁 𝑦𝑁𝑥𝑁⚫ 母集団特性値𝜃の計算式母総計: 𝜏𝑦= Σ𝑦𝑖母平均: 𝜇𝑦= 1𝑁𝜏𝑦母分散: 𝜎𝑦2 = 1𝑁−1σ 𝑦𝑖− 𝜇𝑦2母標準偏差: 𝜎𝑦= 𝜎𝑦2母共分散: 𝜎𝑦𝑥= 1𝑁−1σ yi− 𝜇𝑦𝑥𝑖− 𝜇𝑥母相関: 𝜌𝑦𝑥= 𝜎𝑦𝑥𝜎𝑦𝜎𝑥母比率: 𝑝𝑖= 1𝑁σ 𝑦𝑖= 𝜇𝑦母集団比: 𝑅 = 𝜏𝑦𝜏𝑥𝑁 はどんなに大きくても有限とする⇒ 有限母集団(finite population)要素 変数 𝑦 補助変数 𝑥1 576 472 380 313 74 254 292 345 94 22例)𝑁 = 5𝜏𝑦= 1416𝜏𝑥= 159𝜇𝑥= 31.8𝑅 = 8.906
全ての可能な標本 p.10- 11𝑁 = 5の有限母集団から標本 𝑛 = 3 を抽出する際のすべての可能な標本のパターンを考えてみる。非復元抽出の場合、組み合わせの数は以下の式で計算できる。𝑁𝐶𝑛=𝑁!𝑛! 𝑁 − 𝑛 !5𝐶3=5!3! 5 − 3 !=5 × 4 × 3 × 2 × 1(3 × 2 × 1) × (2 × 1)= 10通り標本 要素各標本が選ばれる確率 累積確率(確率比例抽出)単純無作為抽出 確率比例抽出1 1, 2, 3 𝑝(1)= .100 𝑝(1)= .108 .1082 1, 2, 4 𝑝(2)= .100 𝑝(2)= .117 .2253 1, 2, 5 𝑝(3)= .100 𝑝(3)= .105 .3304 1, 3, 4 𝑝(4)= .100 𝑝(4)= .111 .4415 1, 3, 5 𝑝(5)= .100 𝑝(5)= .099 .5406 1, 4, 5 𝑝(6)= .100 𝑝(6)= .108 .6487 2, 3, 4 𝑝(7)= .100 𝑝(7)= .094 .7428 2, 3, 5 𝑝(8)= .100 𝑝(8)= .082 .8249 2, 4, 5 𝑝(9)= .100 𝑝(9)= .091 .91510 3, 4, 5 𝑝(10)= .100 𝑝(10)= .085 1.000➢ 各標本が選ばれる確率は、標本抽出法によって変わる
包含確率 p.14- 12⚫ 一次の包含確率(first-order inclusion probability)ある要素𝑖が標本に含まれる確率𝜋𝑖を一次の包含確率と呼ぶ。例えば、前ページの表において、要素1が含まれる標本は6つあり、いずれかの標本が選ばれる確率𝜋1は、以下の通りである。𝜋1= 𝑝(1)+ 𝑝(2)+ 𝑝(3)+ 𝑝(4)+ 𝑝(5)+ 𝑝(6)= .108 + .117 + .105 + .111 + .099 + .108= .648なお、一次の包含確率の母集団総計は、標本サイズ𝑛の期待値に一致する。𝑈𝜋𝑖= 𝐸 𝑛 = 𝑛𝑠⚫ 二次の包含確率(second-order inclusion probability)二つの要素𝑖と𝑗が同時に標本に含まれる確率𝜋𝑖𝑗を二次の包含確率と呼ぶ。例えば、要素1と2を同時に含む標本は3つあり、二次の包含確率𝜋1,2は、以下の通りである。𝜋1,2= 𝑝(1)+ 𝑝(2)+ 𝑝(3)= .108 + .117 + .105 = .330標本 要素 確率 累積確率1 1, 2, 3 𝑝(1)= .108 .1082 1, 2, 4 𝑝(2)= .117 .2253 1, 2, 5 𝑝(3)= .105 .3304 1, 3, 4 𝑝(4)= .111 .4415 1, 3, 5 𝑝(5)= .099 .5406 1, 4, 5 𝑝(6)= .108 .6487 2, 3, 4 𝑝(7)= .094 .7428 2, 3, 5 𝑝(8)= .082 .8249 2, 4, 5 𝑝(9)= .091 .91510 3, 4, 5 𝑝(10)= .085 1.000𝑛 = 3 のすべての可能な標本の集合包含確率行列 (確率比例抽出)1 2 3 4 51 .648 .330 .318 .336 .3112 .597 .284 .303 .2783 .579 .290 .2654 .607 .2845 .569包含確率行列 (単純無作為)1 2 3 4 51 .600 .300 .300 .300 .3002 .600 .300 .300 .3003 .600 .300 .3004 .600 .3005 .600
線形推定量(HT推定量) p.26- 13⚫ 非復元抽出の場合以下の式で表される Horvitz-Thompson 推定量(HT)は、母総計𝜏𝑦の不偏推定量である。Ƹ𝜏𝑦= 𝑆𝑦𝑖𝜋𝑖= 𝑆𝑤𝑖𝑦𝑖ただし、抽出ウェイト 𝑤𝑖= 1𝜋𝑖各標本抽出デザインに対応した包含確率𝜋𝑖を上式に代入することで、具体的な式を導くことができる。Ƹ𝜏𝑦を𝑁で割れば、母平均の推定量となる。HT推定量の分散とその推定値は以下のとおりである。𝑉 Ƹ𝜏𝑦= 𝑖∈𝑈𝑗∈𝑈(𝜋𝑖𝑗− 𝜋𝑖𝜋𝑗)𝑦𝑖𝜋𝑖𝑦𝑖𝜋𝑗母集団において二次の包含確率がすべて 𝜋𝑖𝑗> 0 のとき、次式は𝑉 Ƹ𝜏𝑦の不偏推定量となる(Horvitz& Thompson, 1952) 。𝑉 Ƹ𝜏𝑦= 𝑖∈𝑆𝑗∈𝑆𝜋𝑖𝑗− 𝜋𝑖𝜋𝑗𝜋𝑖𝑗𝑦𝑖𝜋𝑖𝑦𝑖𝜋𝑗
HT推定の具体例 p.27- 14◼ HT推定値 ※標本 1, 2, 5 確率比例抽出の場合Ƹ𝜏𝑦= 𝑆𝑦𝑖𝜋𝑖=576.648+380.597+94.569= 1690Ƹ𝜇𝑦=Ƹ𝜏𝑦𝑁=16905= 338◼ HT推定値の分散の推定値𝑉 Ƹ𝜏𝑦= 𝑖∈𝑆𝑗∈𝑆𝜋𝑖𝑗− 𝜋𝑖𝜋𝑗𝜋𝑖𝑗𝑦𝑖𝜋𝑖𝑦𝑖𝜋𝑗=.648 − .648 × .648.648×576.648×576.648+ ⋯要素 変数 𝑦 補助変数 𝑥𝟏 𝟓𝟕𝟔 𝟒𝟕𝟐 𝟑𝟖𝟎 𝟑𝟏3 74 254 292 34𝟓 𝟗𝟒 𝟐𝟐包含確率行列 (確率比例抽出)1 2 3 4 51 .648 .330 .318 .336 .3112 .597 .284 .303 .2783 .579 .290 .2654 .607 .2845 .569➢ 複雑な抽出法で母集団サイズが大きくなると、二次の包含確率𝜋𝑖𝑗をすべて計算することは極めて難しくなる。そこで、復元抽出を便宜的に仮定して、HH推定量を用いるという方法が取られることもある。包含確率行列 (単純無作為)1 2 3 4 51 .600 .300 .300 .300 .3002 .600 .300 .300 .3003 .600 .300 .3004 .600 .3005 .6003×3通り
線形推定量(HH推定量) p.30- 15⚫ 復元抽出の場合以下の式で表される Hansen-Hurwitz 推定量(HH)は、母総計𝜏𝑦の不偏推定量である。Ƹ𝜏𝑦=1𝑛𝑆𝑦𝑖𝑝𝑖= 𝑆𝑤𝑖𝑦𝑖ただし、抽出ウェイト 𝑤𝑖= 1𝑛𝑝𝑖各標本抽出デザインに対応した抽出確率𝑝𝑖を上式に代入することで、具体的な式を導くことができる。 Ƹ𝜏𝑦を𝑁で割れば、母平均の推定量となる。HH推定量の分散とその推定値は以下のとおりである。𝑉 Ƹ𝜏𝑦=1𝑛𝑈𝑝𝑖𝑦𝑖𝑝𝑖− 𝜏𝑦𝑉 Ƹ𝜏𝑦=1𝑛(𝑛 − 1)𝑆𝑦𝑖𝑝𝑖− Ƹ𝜏𝑦2HT推定値の分散に比べて格段に計算しやすい。Nが大きい時は復元抽出と見なしてHH推定量を用いることも考えられる。
HH推定の具体例 p.31- 16要素 変数 𝑦 抽出確率 𝑝𝑖𝟏 𝟓𝟕𝟔 . 𝟐𝟗𝟔2 380 .195𝟑 𝟕𝟒 . 𝟏𝟓𝟕4 292 .2145 94 .138◼ HH推定値 ※標本 1, 1, 3 場合Ƹ𝜏𝑦=1𝑛𝑆𝑦𝑖𝑝𝑖=13576.296+576.296+74.157= 1456Ƹ𝜇𝑦=Ƹ𝜏𝑦𝑁=14565= 291.2◼ HH推定値の分散の推定値𝑉 Ƹ𝜏𝑦=1𝑛(𝑛 − 1)𝑆𝑦𝑖𝑝𝑖− Ƹ𝜏𝑦2=13 × (3 − 1)576.296− 14562+ ⋯ = 492.72
抽出ウェイト(sampling weight)についての補足 p.33- 17𝑤𝑖=1𝜋𝑖, 非復元抽出の場合1𝑛𝑝𝑖, 復元抽出の場合線形推定量は、変数値𝑦𝑖と抽出ウェイト𝑤𝑖による加重標本総計として表せる。Ƹ𝜏𝑦= 𝑆𝑤𝑖𝑦𝑖また、抽出ウェイトの標本総計は、母集団サイズ𝑁の線形推定量である。S𝑤𝑖= 𝑁このように、抽出ウェイト𝑤𝑖は、𝑖番目の要素が代表している母集団の要素の数を表している。例えば、𝑤𝑖= 5であれば、その要素は母集団における要素5個(人)分を代表している。
比推定量(ratio estimator) p.70- 18目的変数𝑦と相関の高い補助変数𝑥を利用する方法。ただし、補助変数𝑥の母総計𝜏𝑥は既知のものとする。2つの母総計の線形推定量 Ƹ𝜏𝑦と Ƹ𝜏𝑥の比 𝑅を利用すると、Ƹ𝜏𝑦,𝑅= 𝜏𝑥𝑅 = 𝜏𝑥ො𝜏𝑦ො𝜏𝑥= 𝜏𝑥σ𝑆𝑤𝑖𝑦𝑖σ𝑆𝑤𝑖𝑥𝑖𝑁 = 20, 𝑛 = 3 母総計 線形推定値目的変数 𝑦 𝜏𝑦=? ? ? Ƹ𝜏𝑦= 8187補助変数 𝑥1𝜏𝑥1= 663 Ƹ𝜏𝑥1= 793補助変数 𝑥2(𝑥2= 1)𝜏𝑥2= 𝑁 = 20 Ƹ𝜏𝑥2= 𝑆𝑤𝑖= 𝑁Ƹ𝜏𝑦,𝑅= 𝜏𝑥𝑅 = 𝜏𝑥Ƹ𝜏𝑦Ƹ𝜏𝑥= 663 ×8187793= 6844.869◼ サイズとの比推定量Ƹ𝜏𝑦,𝑁= 𝑁Ƹ𝜏𝑦𝑁= 𝑁σ𝑆𝑤𝑖𝑦𝑖σ𝑆𝑤𝑖
回帰推定量(差分推定量) p.119- 19補助変数における真値と推定値の差分を目的変数に拡大する推定量が差分推定量(difference estimator)である。Ƹ𝜏𝑦,𝐷= Ƹ𝜏𝑦− 𝑏 Ƹ𝜏𝑥− 𝜏𝑥= Ƹ𝜏𝑦+ 𝑏 𝜏𝑥+ Ƹ𝜏𝑥ここで、𝑏は母集団回帰係数であり、目的変数の推定値と補助変数の推定値間の回帰直線の傾きを表す。
一般化回帰推定量 p.124- 20差分推定量は、補助変数が複数の場合にも拡張できる。これを一般化回帰推定量(generalized regression estimator)と呼ぶ。Ƹ𝜏𝑦,𝐺𝑅𝐸𝐺= Ƹ𝜏𝑦+ 𝝉𝒙− ො𝝉𝒙′𝒃ここで、 𝒃 は母集団回帰係数の推定値のベクトルであり、以下の式で求められる。𝒃 = 𝑆𝑤𝑖𝒙𝒊𝒙𝒊′𝑐𝑖−1𝑆𝑤𝑖𝒙𝒊𝑦𝑖𝑐𝑖
練習問題 211. 全数調査と比べて標本調査にはどのような利点があるか述べよ2. 𝑁=5の有限母集団から標本 𝑛=2 を非復元抽出する際のすべての可能な標本のパターンの数を答えよ3. 要素間で一次の包含確率がすべて等しい標本抽出法は何か答えよ4. 一次の包含確率の逆数を何と呼ぶか5. 線形推定量のうち、非復元抽出において用いるのはHT推定量とHH推定量のどちらか。6. 標本から得た推定値の精度を表す指標を答えよ
Rの基礎Basics of Software R22
RStudioの画面エディタ(コードを書くところ)コンソール(結果・出力が出るところ)パッケージの管理図表の出力などワークスペース(変数の管理)
R Script を作成して保存⚫ R Script の作成と保存新しくフォルダを作成し、R Script を保存する。ファイル名には英語を使った方がよい例)script1, 220905, code_0905新規の R Script を作成コードを書いておくメモ帳のようなもの
四則演算# 四則演算3+510-32*3100/20(12+34-56)*78/904^2 # 二乗だよ• エディタに書いて実行 or コンソールに直接入力⚫ 実行の方法• Alt(⌥)+Enterでその行を実行• Ctr(⌘)+Enterでその行を実行+改行• 範囲をドラッグで指定してRunをクリック⚫ コメントアウト(メモ)• #から始めるとそれ以降は読み込まれない• メモやコメントを残せる• コメントの後ろに#を連ねると見出しとして認識される
変数と代入• 代入演算子「• Alt(⌥) + - で、# 変数と代入x y z zオブジェクト変数の箱※イメージオブジェクト:データそのもの変数:オブジェクトを保管する箱代入:オブジェクトを箱に保管することスペースは無視して読み込まれるスペースを入れた方が可読性が高い
関数アウトプットインプット 処理関数24処理4sqrt# 関数sqrt(4) # 平方根exp(1) # 指数関数⚫ 平方根を返す関数 sqrt()、指数関数 exp()関数:何らかのインプットに対して処理を加え、アウトプットを返すもの
疑似データの生成 28# 得点の生成library(mvtnorm)sigma mu N set.seed(123)score # IDの生成id library(infotheo)school_id area gender # 結合population colnames(population) rm(list = c("id","mu","school_id","score","sigma","area","gender")) # 余計なデータを削除
生成したデータ 29
母数の計算 30# 母数(真値)の計算library(psych)describe(population)cor(population$rika, population$sugaku)
単純無作為抽出法simple random sampling31
単純無作為抽出の方法 p.39- 32⚫ 非復元単純無作為抽出の方法• 逐一法(draw by draw procedure)• 無作為ソート法(random sorting procedure)• 選出棄却法(selection-rejection procedure)◼ 無作為ソート法(Sunter, 1977)1. 母集団の各要素に対し、0と1の間の一様乱数をそれぞれ独立に与える2. 与えられた乱数を昇順に並び替える3. 先頭の𝑛個の要素を標本とする# 単純無作為抽出n library(dplyr)set.seed(123)dat_si replace = FALSE) # 無作為ソート法ID 乱数1 0.772 0.023 0.854 0.125 0.48ID 乱数2 0.024 0.125 0.481 0.773 0.85ソート
非復元単純無作為抽出における推定 33⚫ 包含確率一次と二次の包含確率は以下の通り。𝜋𝑖= 𝑁−1𝐶𝑛−1𝑁𝐶𝑛=𝑛𝑁, 𝜋𝑖𝑗=𝑛𝑁, 𝑖 = 𝑗の場合𝑛𝑁𝑛 − 1𝑁 − 1, 𝑖 ≠ 𝑗の場合⚫ 線形推定量(HT推定量)Ƹ𝜏𝑦= 𝑆𝑦𝑖𝜋𝑖=𝑁𝑛𝑆𝑦𝑖= 𝑁ത𝑦𝑉 Ƹ𝜏𝑦= 𝑖∈𝑆𝑗∈𝑆𝜋𝑖𝑗− 𝜋𝑖𝜋𝑗𝜋𝑖𝑗𝑦𝑖𝜋𝑖𝑦𝑖𝜋𝑗= 𝑁2 1 − 𝑓 1𝑛𝑆𝑦2ただし、抽出率𝑓 = 𝑛𝑁, 𝑆𝑦2は標本分散。➢ この1 − 𝑓を有限母集団修正項(finite populationcorrection term, fpc)と呼ぶ。
svydesign()による標本抽出デザインの指定 34ids: 抽出単位。~1と指定すると、クラスターが存在しないことを意味する。fpc: 有限母集団修正項。抽出率𝑓 = 𝑛𝑁か母集団サイズ𝑁のどちらかの変数列を指定する。値が1を超えるかどうかでどちらが指定されたか自動的に判断される。w: 抽出ウェイト(重み)dat_si$N dat_si$w library(survey)si data = dat_si) # 標本抽出デザインsummary(si)
線形推定量 35# 線形推定量svytotal(~rika, si, deff=TRUE) # 総計coef(svytotal(~rika, si))/N # 平均SE(svytotal(~rika, si))/N # 標準誤差◼ 真値𝜏𝑟𝑖𝑘𝑎= 499560.7𝜇𝑟𝑖𝑘𝑎= 49.95607
比推定量 36# 比推定量(R.hat denominator=~sugaku, design=si)) # 比Rの推定値predict(R.hat, mean(population$sugaku))# サイズとの比に基づく推定量svymean(~rika, si) # 平均confint(svymean(~rika, si) ) # 95%信頼区間svyby(~rika, ~gender, si, svymean) # 性別ごと◼ 真値𝜏𝑟𝑖𝑘𝑎= 499560.7𝜇𝑟𝑖𝑘𝑎= 49.95607𝜏𝑠𝑢𝑔𝑎𝑘𝑢= 598942.7𝜇𝑠𝑢𝑔𝑎𝑘𝑢= 59.89427𝑅 =𝜏𝑟𝑖𝑘𝑎𝜏𝑠𝑢𝑔𝑎𝑘𝑢= 0.834071
一般化回帰推定量 37# 一般化回帰推定量(サンプルサイズ+数学点数)si.c sum(population$sugaku)))svymean(~rika, si.c)◼ 真値𝜏𝑟𝑖𝑘𝑎= 499560.7𝜇𝑟𝑖𝑘𝑎= 49.95607推定量 推定値 標準誤差線形推定量 48.348 0.632比推定量 49.237 0.510サイズとの比推定量 48.348 0.632一般化回帰推定量 49.001 0.480⚫ 推定量間の精度の比較
分散の推定 38# 分散の推定svyvar(~rika, si)svyby(~rika, ~gender, si, svyvar) # 性別ごと# 性差の検定tt ttlibrary(effectsize)t_to_d(t = tt$statistic, df_error = tt$parameter)
確率比例抽出法probability proportional sampling39
確率比例抽出法の概要 p.51- 40• 補助変数を標本抽出の際に利用する• 適切な補助変数を利用することで、単純無作為抽出よりも精度が高くなる➢ 条件:目的変数との高い相関、正の値を持つ変数、母集団の全要素の値が既知要素 売上高 𝑦𝑖資本金 𝑥𝑖要素 売上高 𝑦𝑖資本金 𝑥𝑖1 576 47 11 465 512 380 31 12 133 153 74 25 13 84 154 292 34 14 565 545 94 22 15 25 196 158 19 16 660 527 636 57 17 65 198 479 42 18 148 159 236 36 19 209 2810 639 60 20 62 22𝜏𝑦= 5980, 𝜏𝑥= 663赤で示す資本金 𝑥𝑖> 50 の大企業は、5社で売上高の母総計𝜏𝑦の約半分を占めている。636 + 639 + 465 + 565 + 660 = 2965このような要素を標本に含めないと過少推定になる。解決法として、売上高と相関の高い資本金を基準に、資本金𝑥が高い企業ほど標本に選ばれる確率を高くすることを考える。方法①:確率比例抽出法包含確率𝜋𝑖を補助変数𝑥𝑖に比例させる𝜋𝑖∝ 𝑥𝑖, (𝑖 ∈ 𝑈)方法②:層化抽出法母集団をいくつかの層に分けて、影響の強い層の抽出率を高くする。例)大企業と中小企業に分けて、大企業の抽出率を高くする。
確率比例抽出の方法 p.53- 41⚫ 包含確率と抽出ウェイト包含確率𝜋𝑖を補助変数𝑥𝑖に比例させると、𝜋𝑖=𝐸 𝑛 𝑥𝑖𝜏𝑥=𝑛𝑥𝑖𝜏𝑥∝ 𝑥𝑖, 𝑖 ∈ 𝑈𝑤𝑖=1𝜋𝑖=𝜏𝑥𝑛𝑥𝑖これを厳密に満たすような抽出を実現するのは難しく、さらには二次の包含確率の計算が難しいことなどもあり、複数の抽出手続きが考案されている。⚫ 非復元確率比例抽出の方法 p.57-• Poisson抽出法(Poisson sampling)※二次の包含確率が計算しやすい一方で、固定サイズデザインにならない• Sunterの方法(Sunter, 1977, 1986)※固定サイズデザインだが、𝑥が小さいと比例条件が満たされなくなる• Sampfordの方法(Sampford, 1967)※固定サイズデザインだが、抽出率n/Nが高いと効率が悪い• Midzunoの方法(Midzuno, 1952)※補助変数𝑥 の分布によっては適用できない• 系統抽出法(systematic sampling)※手順が簡単だが、誤差分散の不偏推定量が無い• Rao-Hartley-Cochranの方法(Rao et al., 1962)※RHC推定量という独自の推定量を使う
系統抽出法による確率比例抽出 42⚫ 系統抽出法の手続き1. 母集団の要素ごとに、補助変数𝑥𝑖の相対値𝑣𝑖= 𝑥𝑖/𝜏𝑥を求める2. 要素の並び順に従い、相対値𝑣𝑖をσ𝑗≤𝑖𝑣𝑗と累積する3. 0と1の間の一様乱数を1つ発生させ、スタート値𝑎とする。相対値の累積がはじめて𝑎を超える要素を1つ目の標本とする。4. 抽出間隔をdとし、相対値の累積が𝑎 + 𝑛 − 1 𝑑をはじめて超える要素を標本としていく。• しかし、この方法では二次の包含確率が𝜋𝑖𝑗= 0となる要素の組み合わせがあるため、誤差分散𝑉( Ƹ𝜏𝑦)の不偏推定量が求められない。• 解決法として、手順1の前に要素を無作為に並べ替えておくと、この問題を回避できる(Goodman & Kish, 1950)• その場合の誤差分散の推定量は以下の式で近似できる(Hartley & Rao, 1962)𝑉 Ƹ𝜏𝑦≈12(𝑛 − 1)𝑖∈𝑠𝑗∈𝑠1 − 𝜋𝑖+ 𝜋𝑗+1𝑛𝑈𝜋𝑖2𝑦𝑖𝜋𝑖−𝑦𝑗𝜋𝑗https://bellcurve.jp/statistics/course/8007.html
Sampfordの方法による確率比例抽出 43⚫ Sampfordの方法の手続き(Sampford, 1967)1. 母集団の第𝑖要素に抽出確率𝑝𝑖= 𝑥𝑖/𝜏𝑥を与え、1つの要素を抽出する2. 手順1で抽出された要素も含めた𝑁個の要素から、以下の抽出確率で𝑛 − 1個の要素を復元確率比例抽出する。𝑝𝑖′ = 𝑐𝑥𝑖𝜏𝑥− 𝑛𝑥𝑖, 𝑖 ∈ 𝑈ただし、𝑐は σ𝑈𝑝𝑖′ = 1 とするための基準化定数3. 抽出した標本𝑠に重複した要素が含まれていればその標本は破棄し、手順1から再度抽出を行う。
抽出の実施 44# 確率比例抽出(総規模比例抽出) -----# 無作為化系統抽出library(pps)set.seed(123)randomize set.seed(123)units dat_pps # Sampford methodset.seed(123)units dat_pps
抽出デザインの指定 45# 抽出デザイン# 復元抽出を仮定する場合library(survey)dat_pps$w pps_rep # 非復元抽出dat_pps$pi pps_worep data = dat_pps) # 非復元抽出(Hartley-Rao approximation)summary(pps_rep)summary(pps_worep)➢ 確率比例抽出法のような複雑なデザインでは、誤差分散の計算のしやすさから非復元抽出であっても復元抽出を仮定することが考えられる。
デザイン効果と有効標本サイズ 46⚫ デザイン効果(design effect)• ある抽出法における推定量の精度が単純無作為抽出法の場合と比べてどの程度の精度なのかを比較する指標としてデザイン効果がある(kish, 1965)Deff =ある標本抽出デザインにおける推定量の分散非復元単純無作為抽出における推定量の分散• デザイン効果が1よりも大きければ効率が悪い、1よりも小さければ効率が良いことを意味する。⚫ 有効標本サイズ(effective sample size)• デザイン効果に対する標本サイズ𝑛の相対的な大きさを有効標本サイズと呼ぶ(Kish,1965)𝑛EFF=𝑛Deff• 有効標本サイズは、当該標本抽出デザインにおける推定量と同じ精度の推定量を単純無作為抽出法で得るために必要な標本サイズの大きさを表す
線形推定量(HH推定量) 47# 線形推定量svytotal(~rika, pps_rep, deff=TRUE) # 総計n / 0.5774 # 有効標本サイズcoef(svytotal(~rika, pps_rep))/N # 平均SE(svytotal(~rika, pps_rep))/N
比推定量 48# 比推定量(R.hat design = pps_rep)) #比Rの推定値predict(R.hat, mean(population$sugaku))
サイズとの比推定量 49# サイズとの比に基づく推定量svymean(~rika, pps_rep) # 復元抽出を仮定した場合svymean(~rika, pps_worep) # 非復元抽出を仮定した場合推定量単純無作為抽出法 確率比例抽出法推定値 標準誤差 推定値 標準誤差線形推定量 48.348 0.632 50.215 0.527比推定量 49.237 0.510 50.215 0.527サイズとの比推定量 48.348 0.632 49.955 0.757一般化回帰推定量 49.001 0.480 50.199 0.518◼ 真値𝜏𝑟𝑖𝑘𝑎= 499560.7𝜇𝑟𝑖𝑘𝑎= 49.95607
層化抽出法stratified sampling50
層化抽出法の概要 P.97- 51• 確率比例抽出では連続量の補助変数を利用して推定精度を上げたのに対して、層化抽出法ではカテゴリカルな補助変数を利用する• 層化抽出法では、母集団𝑈をいくつかの層(stratum)に分割し、各層において独立に標本を抽出する• 層によって目的変数の大きさが異なる場合、単純無作為抽出だと抽出される要素が特定の層に偏る可能性があるため、層化抽出法を採用した方が良い
層化抽出の方法 p.98- 52⚫ 層化抽出の手続き①母集団𝑈を互いに排反な𝐻個の層𝑈1, … , 𝑈𝐻に分割する。𝑈 = 𝑈1∪ 𝑈2∪ ⋯ ∪ 𝑈ℎ∪ ⋯ ∪ 𝑈𝐻= ራℎ=1𝐻𝑈ℎ第ℎ層に含まれる要素の数(層サイズ)を𝑁ℎとする。このとき、母集団サイズ𝑁は𝑁1, … . 𝑁𝐻の合計𝑁 = σℎ=1𝐻 𝑁ℎである。𝑁ℎの相対的な大きさ𝑊ℎ= 𝑁ℎ/𝑁を第ℎ層の層ウェイトと呼ぶ。第ℎ層の統計量は、第ℎ層に含まれる要素のみで計算する。𝜏𝑦,ℎ= 𝑈ℎ𝑦𝑖, 𝜇𝑦,ℎ=1𝑁ℎ𝜏𝑦,ℎ②各層において独立に標本抽出を行う。層の間で抽出方法が異なってもよい(全数、単純無作為、確率比例など)第ℎ層の標本サイズを𝑛ℎとしたとき、各層の標本サイズの合計は、𝑛 = ℎ=1𝐻𝑛ℎ
層化抽出法における線形推定量 p.100- 53• 母集団総計𝜏𝑦の線形推定量 Ƹ𝜏𝑦やその分散の推定量 𝑉( Ƹ𝜏𝑦)は層ごとの統計量の合計となる。Ƹ𝜏𝑦= ℎ=1𝐻Ƹ𝜏𝑦,ℎ= ℎ=1𝐻𝑠ℎ𝑤𝑖𝑦𝑖= 𝑠𝑤𝑖𝑦𝑖𝑉 Ƹ𝜏𝑦= ℎ=1𝐻𝑉( Ƹ𝜏𝑦,ℎ)ここで、抽出ウェイト𝑤𝑖は、各層の抽出デザインによって決まる。単純無作為抽出であれば 𝑤𝑖= 𝑁ℎ𝑛ℎ確率比例抽出であれば 𝑤𝑖= 𝜏𝑥,ℎ𝑛ℎ𝑥𝑖
各層への標本サイズの割り当て p.101- 54⚫ 各層に割り当てる標本サイズの決め方• Neyman割当(Neyman allocation; Neyman, 1934)各層の抽出方法が非復元単純無作為抽出であり、全体の標本サイズ𝑛が決まっているとき、第ℎ層の標本サイズ𝑛ℎを次式にすると線形推定量の分散が最小になる。𝑛ℎ= 𝑛𝑁ℎ𝜎𝑦,ℎσℎ=1𝐻 𝑁ℎ𝜎𝑦,ℎこれは、層のサイズ𝑁ℎが大きく、また層標準偏差𝜎𝑦,ℎが大きい層ほど、標本サイズ𝑛ℎを大きくすることを意味する。(そのような層は推定量の分散が大きくなるため。)※ただし、正確な𝜎𝑦,ℎは分からないため、類似の調査結果や補助変数𝑥の層標準偏差で代替する。• 比例割当(proportional allocation)標本サイズを層サイズに比例させる。これはすべての層標準偏差𝜎𝑦,ℎが等しい状況でのNeyman割当に相当する。最も採用例が多い。𝑛ℎ= 𝑛𝑁ℎ𝑁• 均等割当(equal allocation)全ての層の標本サイズを等しくする。𝑛ℎ=𝑛𝐻
抽出の実施(層化非復元単純無作為抽出) 55# 層化抽出法(単純無作為抽出) --------------------------# 都市規模(5層)を利用して層化抽出library(pps)stratum stratumsizes(stratum$area) # 層サイズの確認n.h set.seed(123)units dat_stsi
抽出デザイン 56# 抽出デザインdat_stsi$N.h dat_stsi$n.h dat_stsi$w stsi data = dat_stsi)summary(stsi)
線形推定量 57# 線形推定量svytotal(~rika, stsi, deff=TRUE) # 総計coef(svytotal(~rika, stsi))/N # 平均SE(svytotal(~rika, stsi))/N
比推定量 58# 比推定量R.hat stsi) #比Rの推定値predict(R.hat, mean(population$sugaku))
サイズとの比推定量 59# サイズとの比に基づく推定量svymean(~rika, stsi, deff=TRUE)svyby(~rika, ~area, stsi, svymean) # 都市規模ごと推定量単純無作為抽出法 確率比例抽出法 層化単純無作為抽出法推定値 標準誤差 推定値 標準誤差 推定値 標準誤差線形推定量 48.348 0.632 50.215 0.527 50.155 0.265比推定量 49.237 0.510 50.215 0.527 49.827 0.435サイズとの比推定量 48.348 0.632 49.955 0.757 50.155 0.265一般化回帰推定量 49.001 0.480 50.199 0.518 49.859 0.403◼ 真値𝜏𝑟𝑖𝑘𝑎= 499560.7𝜇𝑟𝑖𝑘𝑎= 49.95607
集落抽出法(クラスター抽出法)cluster sampling60
クラスター抽出法の概要 p.135- 61• クラスター抽出法では、要素のまとまりであるクラスターを抽出単位とする。– 例)学校を単位とした抽出• 一般に、要素を単位とするよりも推定精度は下がるが、調査実施の難易度も下がる• クラスター抽出法ではクラスターのリストさえ用意すればよく、母集団の全要素のリストは必要ない• 同一クラスター内の要素は似たような性質を持ちやすいため、標本に含まれる情報が重複しムダの多い抽出法になってしまう ⇒精度の低下
クラスター抽出の方法 p.137- 62①母集団𝑈を𝑀個のクラスター𝑈1, … , 𝑈𝑀に分割する𝑈 = 𝑈1∪ 𝑈2∪ ⋯ ∪ 𝑈𝑀= ራ𝑎∈𝑈I𝑈𝑎第𝑎クラスターに含まれる要素の数(クラスターサイズ)を𝑁𝑎とする。𝑁 = 𝑎∈𝑈I𝑁𝑎母集団総計𝜏𝑦はクラスター総計𝜏𝑦,1, … , 𝜏𝑦,𝑀の合計である。𝜏𝑦= 𝜏𝑦,1+ ⋯ + 𝜏𝑦,𝑀= 𝑎∈𝑈I𝜏𝑦,𝑎②𝑚個のクラスターを任意の抽出法で抽出する。抽出法は何でも良いが、一般的に単純無作為抽出よりもクラスターサイズを補助変数とした確率比例抽出や層化抽出をする方が精度が高い。なお、標本サイズ𝑛はクラスターサイズの合計である。𝑛 = 𝑎∈𝑠I𝑛𝑎
クラスター抽出法における線形推定量 p.139- 63• これまで要素と単位としていた計算をクラスターに置き換えて考えればよい• 母集団総計𝜏𝑦の線形推定量 Ƹ𝜏𝑦は以下の通りであるƸ𝜏𝑦= 𝑎∈𝑠I𝑤𝑎𝜏𝑦,𝑎= 𝑎∈𝑠I𝑤𝑎𝑖∈𝑈𝑎𝑦𝑖= 𝑎∈𝑠I𝑖∈𝑈𝑎𝑤𝑎𝑦𝑖ここで、抽出ウェイト𝑤𝑎は、クラスターの抽出デザインによって決まる。単純無作為抽出であれば 𝑤𝑎= 𝑀𝑚確率比例抽出であれば 𝑤𝑎= 𝜏𝑥(𝑚𝜏𝑥,𝑎)
抽出の実施(非復元単純無作為クラスター抽出) 64# 単純無作為クラスター抽出法-----------------------------------# 学校を単位としてクラスター抽出M m set.seed(123)clusters dat_sic
抽出デザイン 65# 抽出デザインdat_sic$w dat_sic$M sic dat_sic)summary(sic)
線形推定量 66# 線形推定量svytotal(~rika, sic, deff=TRUE) # 総計coef(svytotal(~rika, sic))/N # 平均SE(svytotal(~rika, sic))/N
比推定量 67# 比推定量(R.hat design = sic)) #比Rの推定値predict(R.hat, mean(population$sugaku))
サイズとの比推定量 68# サイズとの比に基づく推定量svymean(~rika, sic, deff=TRUE)推定量単純無作為抽出法(n=1000) 単純無作為クラスター抽出法推定値 標準誤差 推定値 標準誤差線形推定量 49.967 0.295 49.684 4.553比推定量 49.869 0.224 49.670 1.919サイズとの比推定量 49.967 0.295 49.684 4.553一般化回帰推定量 49.890 0.218 49.668 1.468◼ 真値𝜏𝑟𝑖𝑘𝑎= 499560.7𝜇𝑟𝑖𝑘𝑎= 49.95607
抽出の実施(確率比例クラスター抽出) 69# 確率比例クラスター抽出 -----------------------------------------school library(pps)set.seed(123)randomize set.seed(123)units clusters dat_ppsc
抽出デザイン 70# 抽出デザインdat_ppsc$n.s dat_ppsc$w ppsc summary(ppsc)
線形推定量 71# 線形推定量svytotal(~rika, ppsc, deff=TRUE)coef(svytotal(~rika, ppsc)) / NSE(svytotal(~rika, ppsc)) / N
比推定量 72# 比推定量(R.hat design = ppsc)) #比Rの推定値predict(R.hat, mean(population$sugaku))
サイズとの比推定量 73# サイズとの比に基づく推定量svymean(~rika, ppsc, deff=TRUE)推定量単純無作為抽出法(n=1000) 単純無作為クラスター抽出法 確率比例クラスター抽出法推定値 標準誤差 推定値 標準誤差 推定値 標準誤差線形推定量 49.967 0.295 49.684 4.553 49.848 2.241比推定量 49.869 0.224 49.670 1.919 49.877 0.958サイズとの比推定量 49.967 0.295 49.684 4.553 49.849 2.241一般化回帰推定量 49.890 0.218 49.668 1.468 49.864 1.547◼ 真値𝜏𝑟𝑖𝑘𝑎= 499560.7𝜇𝑟𝑖𝑘𝑎= 49.95607
層化確率比例クラスター抽出stratified probability proportional cluster sampling74
抽出の実施(層化確率比例クラスター抽出) 75# 層化確率比例クラスター抽出 ----------------------------------------------library(pps)school の作成set.seed(123)m.h units clusters dat_stppsc
抽出デザイン 76# 抽出デザインdat_stppsc$w stppsc data=dat_stppsc)summary(stppsc)𝑤𝑖= 𝑁ℎ/(𝑚ℎ𝑛𝑎)
線形推定量 77# 線形推定量svytotal(~rika, stppsc, deff=TRUE)coef(svytotal(~rika, stppsc)) / NSE(svytotal(~rika, stppsc)) / N
比推定量 78# 比推定量(R.hat design = stppsc)) #比Rの推定値predict(R.hat, mean(population$sugaku))
サイズとの比推定量 79# サイズとの比に基づく推定量svymean(~rika, stppsc, deff=TRUE)推定量単純無作為クラスター抽出法 確率比例クラスター抽出法 層化確率比例クラスター抽出法推定値 標準誤差 推定値 標準誤差 推定値 標準誤差線形推定量 49.684 4.553 49.848 2.241 51.044 1.712比推定量 49.670 1.919 49.877 0.958 50.274 0.824サイズとの比推定量 49.684 4.553 49.849 2.241 51.044 1.712一般化回帰推定量 49.668 1.468 49.864 1.547 50.259 0.750◼ 真値𝜏𝑟𝑖𝑘𝑎= 499560.7𝜇𝑟𝑖𝑘𝑎= 49.95607
まとめsummary80
標本抽出法と推定量(再掲) 81⚫ 標本抽出法(確率抽出法)の種類• 単純無作為抽出法(simple random sampling)• 確率比例抽出法(probability proportional sampling)• 層化抽出法(stratified sampling)• 集落抽出法(cluster sampling)• 多段抽出法(multi-stage sampling)階層構造を利用する方法補助情報を利用する方法⚫ 推定量の種類• 線形推定量– Horvitz-Thompson 推定量(非復元)– Hansen-Hurwitz 推定量(復元)• 比推定量 :補助情報を1つ使用• 回帰推定量 :補助情報を複数使用
まとめ 82⚫ 目的変数と相関の高い補助変数を活用することで推定の精度を高めることができる– 母数+全要素の値が分かっている場合は抽出段階で活用➢連続量:確率比例抽出法、カテゴリカル:層化抽出– 母数のみ分かっている場合は推定段階で活用➢単一:比推定量、複数:一般化回帰推定量⚫ クラスターを単位とした抽出の場合、クラスター内の類似度が高いほど抽出の効率は悪くなる⚫ 今日の講習会をきっかけに標本抽出法に興味を持ってくださる方が増えると嬉しいです。⚫ 質問などありましたらいつでもメールで受け付けます。⚫ この講習会は完全ボランティアで実施しています。それでも、コーヒー代を奢ってくださる方がいると嬉しいです(笑)