06 MCA_01 - Speaker Deck

Slide 1

Slide 1 text

CAとMCA（１） 2023/09/06 藤本⼀男 [email protected]

Slide 2

Slide 2 text

CAからMCAへ • データ形式 • CAはクロス表の2変数データ（クロス表） • MCAは3変数以上の個体x変数データ（調査の集計表） • 古典的なMCAの技法 • 指⽰⾏列（indicator Matrix）に対するCA • Burt⾏列に対するCA • 本講習ではindicator ⾏列に対するCAを扱います。 • Le Roux & Rouanetの『多重対応分析』も、これを⽤いてます。 • FactoMineR::MCAは、選択できる

Slide 3

Slide 3 text

indicator⾏列とはなにか • indicator ⾏列版のMCAの処理 • 個体x変数のデータを受け取る • 変数部分を、あるルールで展開する。 • 変数カテゴリを並べる。 • その⾏の選択された場所に１をたてる。 • 選択されてないところには０。 • １は必ず１つたっている。そのために、⾏和はすべて「変数の数」に等しくなっている。 • Complete Disjunctive Coding • 完全排他コーディング • 『多重対応分析』の⽤語集も参照。

Slide 4

Slide 4 text

処理の確認 • GDAtools::dichotom を⽤いて、indicator⾏列化する。 • そうしてできた、indicator⾏列にCAを⾏う。この部分をindicator⾏列にしてみた。

Slide 5

Slide 5 text

指⽰⾏列にしてCAをします

Slide 6

Slide 6 text

CAの結果。変数マップ

Slide 7

Slide 7 text

個体ポイント、カテゴリポイント • これは同じ。 • 軸の寄与率が異なっている。 • これは、MCAに適⽤される修正寄与率というもの。 • 寄与率は、全体の慣性を座標軸に割り振るものなので、軸がふえると（つまり次元が増えると）、⼀つあたりの寄与率が⼩さくなってしまう。そこで、平均寄与率以下を無視する補正を⾏う。 • Benzécreの補正 • LeRoux&Rouanet/GDAtoolsは、こちらをつかっている。 • Greenacreの補正 • ca::adjustedに実装されている。

Slide 8

Slide 8 text

個体マップ

Slide 9

Slide 9 text

CAとMCAの関係 MCA indicator Matrixに CA Burt Matrixに CA GDAtoolsのspeMCA FactoMineR::MCA FactoMineR::MCA method=”Burt” method=”indicator” MCAには、indicator、Burt以外にもさまざまな⼿法が開発されているので、どのMCAを⽤いた分析なのかを明⽰する必要があります。また、MCAには、⽣成された空間の座標軸が多くなることから、各軸の分散率が⼩さくなります。その問題に対処するために、Benzécri や Greenacreが補正⽅法を提案しており、どの⽅法での分散率なのかの明⽰も必要です。

Slide 10

Slide 10 text

SSM2005オンライン集計から個票へ⾏に、留置A票の問16ア、イ、ウと性別を投⼊。列に年齢を投⼊この多元クロスをダウンロードする。

Slide 11

Slide 11 text

やり⽅の詳細は、以下を参照してください。 • https://rpubs.com/kfj419/1077498 • 原理は以下の通りです。 • SSJDAのオンライン集計で、分析したい変数を⼀つのクロス表にまとめる。 • 出⼒するフォーマットが（古い？）Excelの仕様らしく、⾏数、列数が 64Kを超えると脱落が起こります。（普通はおこらない…） • この例では、列に「年齢」50列（合計55列）を配置し、⾏には、問16 アイウ（各5個のカテゴリ）と性別（2）を配置するので、 5x5x5x2=1250⾏。 • つまり、1250x55⾏のデータ⾏列がダウンロードされます。 • これを対象に処理します。

Slide 12

Slide 12 text

こうやってつくったSSM2005のサブセットを使います。くわえて「⾯接票」の性別、年齢、を使います。 https://ssjda.iss.u-tokyo.ac.jp/Direct/gaiyo.php?lang=jpn&eid=0764 の調査票リンクから取得

Slide 13

Slide 13 text

recode • 問16ア、イ、ウは、Q16a、b、c にrename • 回答の1234は、ABCDにrecode • 年齢は、10歳刻みの年代にrecode

Slide 14

Slide 14 text

分析の⼿順 • 分析対象の変数の分布を確認 • 度数分布を確認。 • 棒グラフで変数のないの傾向を把握。 • クロス集計による連関の確認 • クロス表 • mosaic plot で期待値からのはずれるセル（カテゴリの組み合わせ）を確認。 • MCAを実⾏ • Rmarkdownで記述したスクリプトをもとに説明していきます。

Slide 15

Slide 15 text

MCAのリザルトの確認⼿順 • 変数マップと個体マップを描く • 変数マップをみながら、⽣成された空間の軸を解釈する • ポイントは、寄与率(contribution) • その軸に寄与しているカテゴリを⼤きさ、向きとともに判定し、軸の名前をつける。これは⾃動的には無理。分析者のデータ（変数）に対する専⾨的な知識、洞察⼒が問われます。 • ⾃動的に、⽂化資本+/-、経済資本-/プラス、という軸が現れるわけではありません。 • chatGPTに⼿伝ってもらうこともありかと。 • この名付けられた軸が、新たな「変数」となり、各ポイントは、その変数が張る空間に位置づけられることになります。

Slide 16

Slide 16 text

「追加変数」を活⽤する • CAで空間⽣成するポイントは、周辺度数（⾏和、列和）をもってます。 • ⾏空間（個体空間）のポイントは、列空間（変数空間）のポイントすべての「集計」関係にある。⾏と列がつながっている。 • Transition Formura（遷移公式）で表現されます。 • そこで、質量をもっていない変数（これを追加変数（supplimentary valiable）と呼びます）を⽤意して、それを⽣成された空間に射影する、ということが可能になります。 • こうすると、射影された「空間の構造」を「追加変数で説明する」ことができます。 • 空間⽣成に寄与する変数：Active変数 • そこに射影される変数：Supplimantary変数 • 変数をこのように区分することを「構造設計」と呼びます。