Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
06 MCA_01
Search
419kfj
October 09, 2023
0
23
06 MCA_01
SSJDA計量分析セミナー
対応分析/多重対応分析の原理と実際 06
419kfj
October 09, 2023
Tweet
Share
More Decks by 419kfj
See All by 419kfj
Methods and Examples of Correspondence Analysis
419kfj
0
69
01 Introduction
419kfj
0
46
02 ベクトル行列演算とCAの数理
419kfj
0
55
03 CAの数理その2
419kfj
0
21
04 データの準備
419kfj
0
24
05 CAとMCA事例
419kfj
0
22
07 MCAからGDAへ
419kfj
0
43
08 SDAからIDAへ
419kfj
0
20
A 参考資料
419kfj
0
22
Featured
See All Featured
It's Worth the Effort
3n
182
27k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3.4k
Making the Leap to Tech Lead
cromwellryan
128
8.8k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
25
1.3k
The Cult of Friendly URLs
andyhume
76
5.9k
Raft: Consensus for Rubyists
vanstee
135
6.5k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
36
1.9k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
502
140k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
157
15k
The Art of Programming - Codeland 2020
erikaheidi
48
13k
VelocityConf: Rendering Performance Case Studies
addyosmani
322
23k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
326
21k
Transcript
CAとMCA(1) 2023/09/06 藤本⼀男
[email protected]
CAからMCAへ • データ形式 • CAはクロス表の2変数データ(クロス表) • MCAは3変数以上の個体x変数データ(調査の集計表) • 古典的なMCAの技法 •
指⽰⾏列(indicator Matrix)に対するCA • Burt⾏列に対するCA • 本講習ではindicator ⾏列に対するCAを扱います。 • Le Roux & Rouanetの『多重対応分析』も、これを⽤いてます。 • FactoMineR::MCAは、選択できる
indicator⾏列とはなにか • indicator ⾏列版のMCAの処理 • 個体x変数のデータを受け取る • 変数部分を、あるルールで展開する。 • 変数カテゴリを並べる。
• その⾏の選択された場所に1をたてる。 • 選択されてないところには0。 • 1は必ず1つたっている。そのために、⾏和はすべて「変数の数」に 等しくなっている。 • Complete Disjunctive Coding • 完全排他コーディング • 『多重対応分析』の⽤語集も参照。
処理の確認 • GDAtools::dichotom を⽤いて、indicator⾏列化する。 • そうしてできた、indicator⾏列にCAを⾏う。 この部分をindicator⾏列にしてみた。
指⽰⾏列にしてCAをします
CAの結果。変数マップ
個体ポイント、カテゴリポイント • これは同じ。 • 軸の寄与率が異なっている。 • これは、MCAに適⽤される修正寄与率というもの。 • 寄与率は、全体の慣性を座標軸に割り振るものなので、軸がふ えると(つまり次元が増えると)、⼀つあたりの寄与率が⼩さ
くなってしまう。そこで、平均寄与率以下を無視する補正を⾏ う。 • Benzécreの補正 • LeRoux&Rouanet/GDAtoolsは、こちらをつかっている。 • Greenacreの補正 • ca::adjustedに実装されている。
個体マップ
CAとMCAの関係 MCA indicator Matrixに CA Burt Matrixに CA GDAtoolsのspeMCA FactoMineR::MCA
FactoMineR::MCA method=”Burt” method=”indicator” MCAには、indicator、Burt以外にもさまざまな⼿法が開発されているので、どのMCAを⽤いた分析 なのかを明⽰する必要があります。 また、MCAには、⽣成された空間の座標軸が多くなることから、各軸の分散率が⼩さくなります。そ の問題に対処するために、Benzécri や Greenacreが補正⽅法を提案しており、どの⽅法での分散率な のかの明⽰も必要です。
SSM2005オンライン集計から個票へ ⾏に、留置A票の問16ア、イ、 ウと性別を投⼊。 列に年齢を投⼊ この多元クロスをダウンロー ドする。
やり⽅の詳細は、以下を参照してくださ い。 • https://rpubs.com/kfj419/1077498 • 原理は以下の通りです。 • SSJDAのオンライン集計で、分析したい変数を⼀つのクロス表にまと める。 •
出⼒するフォーマットが(古い?)Excelの仕様らしく、⾏数、列数が 64Kを超えると脱落が起こります。(普通はおこらない…) • この例では、列に「年齢」50列(合計55列)を配置し、⾏には、問16 アイウ(各5個のカテゴリ)と性別(2)を配置するので、 5x5x5x2=1250⾏。 • つまり、1250x55⾏のデータ⾏列がダウンロードされます。 • これを対象に処理します。
こうやってつくったSSM2005のサブセッ トを使います。 くわえて「⾯接票」の 性別、年齢、を使います。 https://ssjda.iss.u-tokyo.ac.jp/Direct/gaiyo.php?lang=jpn&eid=0764 の調査票リンクから取得
recode • 問16ア、イ、ウは、Q16a、b、c にrename • 回答の1234は、ABCDにrecode • 年齢は、10歳刻みの年代にrecode
分析の⼿順 • 分析対象の変数の分布を確認 • 度数分布を確認。 • 棒グラフで変数のないの傾向を把握。 • クロス集計による連関の確認 •
クロス表 • mosaic plot で期待値からのはずれるセル(カテゴリの組み合わせ)を 確認。 • MCAを実⾏ • Rmarkdownで記述したスクリプトをもとに説明していきます。
MCAのリザルトの確認⼿順 • 変数マップと個体マップを描く • 変数マップをみながら、⽣成された空間の軸を解釈する • ポイントは、寄与率(contribution) • その軸に寄与しているカテゴリを⼤きさ、向きとともに判定し、軸の 名前をつける。これは⾃動的には無理。分析者のデータ(変数)に対
する専⾨的な知識、洞察⼒が問われます。 • ⾃動的に、⽂化資本+/-、経済資本-/プラス、という軸が現れるわけで はありません。 • chatGPTに⼿伝ってもらうこともありかと。 • この名付けられた軸が、新たな「変数」となり、各ポイント は、その変数が張る空間に位置づけられることになります。
「追加変数」を活⽤する • CAで空間⽣成するポイントは、周辺度数(⾏和、列和)をもってます。 • ⾏空間(個体空間)のポイントは、列空間(変数空間)のポイントすべて の「集計」関係にある。⾏と列がつながっている。 • Transition Formura(遷移公式)で表現されます。 •
そこで、質量をもっていない変数(これを追加変数(supplimentary valiable)と呼びます)を⽤意して、それを⽣成された空間に射影する、 ということが可能になります。 • こうすると、射影された「空間の構造」を「追加変数で説明する」ことが できます。 • 空間⽣成に寄与する変数:Active変数 • そこに射影される変数:Supplimantary変数 • 変数をこのように区分することを「構造設計」と呼びます。