Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
06 MCA_01
Search
419kfj
October 09, 2023
0
27
06 MCA_01
SSJDA計量分析セミナー
対応分析/多重対応分析の原理と実際 06
419kfj
October 09, 2023
Tweet
Share
More Decks by 419kfj
See All by 419kfj
多重対応分析/構造化データ解析の原理と研究者視点の介在点「文化と不平等」調査データの分析(1)
419kfj
0
27
Methods and Examples of Correspondence Analysis
419kfj
0
80
01 Introduction
419kfj
0
56
02 ベクトル行列演算とCAの数理
419kfj
0
66
03 CAの数理その2
419kfj
0
23
04 データの準備
419kfj
0
29
05 CAとMCA事例
419kfj
0
24
07 MCAからGDAへ
419kfj
0
54
08 SDAからIDAへ
419kfj
0
24
Featured
See All Featured
StorybookのUI Testing Handbookを読んだ
zakiyama
27
5.3k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
Become a Pro
speakerdeck
PRO
25
5k
GraphQLの誤解/rethinking-graphql
sonatard
67
10k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.8k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
232
17k
Rails Girls Zürich Keynote
gr2m
94
13k
Building an army of robots
kneath
302
43k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
28
9.1k
jQuery: Nuts, Bolts and Bling
dougneiner
61
7.5k
How to Think Like a Performance Engineer
csswizardry
20
1.1k
Automating Front-end Workflow
addyosmani
1366
200k
Transcript
CAとMCA(1) 2023/09/06 藤本⼀男
[email protected]
CAからMCAへ • データ形式 • CAはクロス表の2変数データ(クロス表) • MCAは3変数以上の個体x変数データ(調査の集計表) • 古典的なMCAの技法 •
指⽰⾏列(indicator Matrix)に対するCA • Burt⾏列に対するCA • 本講習ではindicator ⾏列に対するCAを扱います。 • Le Roux & Rouanetの『多重対応分析』も、これを⽤いてます。 • FactoMineR::MCAは、選択できる
indicator⾏列とはなにか • indicator ⾏列版のMCAの処理 • 個体x変数のデータを受け取る • 変数部分を、あるルールで展開する。 • 変数カテゴリを並べる。
• その⾏の選択された場所に1をたてる。 • 選択されてないところには0。 • 1は必ず1つたっている。そのために、⾏和はすべて「変数の数」に 等しくなっている。 • Complete Disjunctive Coding • 完全排他コーディング • 『多重対応分析』の⽤語集も参照。
処理の確認 • GDAtools::dichotom を⽤いて、indicator⾏列化する。 • そうしてできた、indicator⾏列にCAを⾏う。 この部分をindicator⾏列にしてみた。
指⽰⾏列にしてCAをします
CAの結果。変数マップ
個体ポイント、カテゴリポイント • これは同じ。 • 軸の寄与率が異なっている。 • これは、MCAに適⽤される修正寄与率というもの。 • 寄与率は、全体の慣性を座標軸に割り振るものなので、軸がふ えると(つまり次元が増えると)、⼀つあたりの寄与率が⼩さ
くなってしまう。そこで、平均寄与率以下を無視する補正を⾏ う。 • Benzécreの補正 • LeRoux&Rouanet/GDAtoolsは、こちらをつかっている。 • Greenacreの補正 • ca::adjustedに実装されている。
個体マップ
CAとMCAの関係 MCA indicator Matrixに CA Burt Matrixに CA GDAtoolsのspeMCA FactoMineR::MCA
FactoMineR::MCA method=”Burt” method=”indicator” MCAには、indicator、Burt以外にもさまざまな⼿法が開発されているので、どのMCAを⽤いた分析 なのかを明⽰する必要があります。 また、MCAには、⽣成された空間の座標軸が多くなることから、各軸の分散率が⼩さくなります。そ の問題に対処するために、Benzécri や Greenacreが補正⽅法を提案しており、どの⽅法での分散率な のかの明⽰も必要です。
SSM2005オンライン集計から個票へ ⾏に、留置A票の問16ア、イ、 ウと性別を投⼊。 列に年齢を投⼊ この多元クロスをダウンロー ドする。
やり⽅の詳細は、以下を参照してくださ い。 • https://rpubs.com/kfj419/1077498 • 原理は以下の通りです。 • SSJDAのオンライン集計で、分析したい変数を⼀つのクロス表にまと める。 •
出⼒するフォーマットが(古い?)Excelの仕様らしく、⾏数、列数が 64Kを超えると脱落が起こります。(普通はおこらない…) • この例では、列に「年齢」50列(合計55列)を配置し、⾏には、問16 アイウ(各5個のカテゴリ)と性別(2)を配置するので、 5x5x5x2=1250⾏。 • つまり、1250x55⾏のデータ⾏列がダウンロードされます。 • これを対象に処理します。
こうやってつくったSSM2005のサブセッ トを使います。 くわえて「⾯接票」の 性別、年齢、を使います。 https://ssjda.iss.u-tokyo.ac.jp/Direct/gaiyo.php?lang=jpn&eid=0764 の調査票リンクから取得
recode • 問16ア、イ、ウは、Q16a、b、c にrename • 回答の1234は、ABCDにrecode • 年齢は、10歳刻みの年代にrecode
分析の⼿順 • 分析対象の変数の分布を確認 • 度数分布を確認。 • 棒グラフで変数のないの傾向を把握。 • クロス集計による連関の確認 •
クロス表 • mosaic plot で期待値からのはずれるセル(カテゴリの組み合わせ)を 確認。 • MCAを実⾏ • Rmarkdownで記述したスクリプトをもとに説明していきます。
MCAのリザルトの確認⼿順 • 変数マップと個体マップを描く • 変数マップをみながら、⽣成された空間の軸を解釈する • ポイントは、寄与率(contribution) • その軸に寄与しているカテゴリを⼤きさ、向きとともに判定し、軸の 名前をつける。これは⾃動的には無理。分析者のデータ(変数)に対
する専⾨的な知識、洞察⼒が問われます。 • ⾃動的に、⽂化資本+/-、経済資本-/プラス、という軸が現れるわけで はありません。 • chatGPTに⼿伝ってもらうこともありかと。 • この名付けられた軸が、新たな「変数」となり、各ポイント は、その変数が張る空間に位置づけられることになります。
「追加変数」を活⽤する • CAで空間⽣成するポイントは、周辺度数(⾏和、列和)をもってます。 • ⾏空間(個体空間)のポイントは、列空間(変数空間)のポイントすべて の「集計」関係にある。⾏と列がつながっている。 • Transition Formura(遷移公式)で表現されます。 •
そこで、質量をもっていない変数(これを追加変数(supplimentary valiable)と呼びます)を⽤意して、それを⽣成された空間に射影する、 ということが可能になります。 • こうすると、射影された「空間の構造」を「追加変数で説明する」ことが できます。 • 空間⽣成に寄与する変数:Active変数 • そこに射影される変数:Supplimantary変数 • 変数をこのように区分することを「構造設計」と呼びます。