Slide 1

Slide 1 text

多重対応分析/構造化データ解析の原理と 研究者視点の介在点 「文化と不平等」調査データの分析(1) ver0.98 日本社会学会 第97回全国大会 階級・階層・移動(3)@サギタリウス館 S301 2024年11月10日 津田塾大学数学計算機科学研究所 特任研究員 藤本一男 [email protected]

Slide 2

Slide 2 text

履歴 • 2024/11/10 v0.98をspeakerDeckに登録 • 2024/11/09 v0.97をspeakerDeckに登録 • 2024/11/08 v0.95を共有サイトに登録 • 2024/11/07 ver0.9をspeakerDeckに登録。発表当日直前まで updateを試みます。 • 最新版は、こちらをご覧ください。 • https://speakerdeck.com/419kfj/gou-zao-hua-detajie-xi-noyuan-li- toyan-jiu-zhe-shi-dian-nojie-zai-dian-wen-hua-tobu-ping-deng- diao-cha-detanofen-xi-1 2024/11/10 日本社会学会97回大会 2

Slide 3

Slide 3 text

本報告の目的 • 「文化と不平等」調査データの分析(2)〜(4)で使われる計量 手法である多重対応分析/構造化データ解析の説明 • 関東地方の社会空間の構築 「文化と不平等」調査データの分析(2) • ライフスタイルとハビトゥス「文化と不平等」調査データの分析(3) • 音楽空間と社会空間はどのように関係しうるのか 「文化と不平等」調査データの分析(4) • 対応分析/多重対応分析 • 今でこそ、名前は知られているが、手法としては未知、という現状! 2024/11/10 日本社会学会97回大会 3

Slide 4

Slide 4 text

報告の概要:チャートによる目次 2024/11/10 日本社会学会97回大会 4 調査データ 多重対応分析 MCA 変数(カテゴリ) 空間 個体空間 各変数カテゴリが座標を もつ 各個体が座標をもつ

Slide 5

Slide 5 text

(つづき) 2024/11/10 日本社会学会97回大会 5 調査データ 行:個体 列:変数 多重対応分析 MCA 変数(カテゴリ) 空間 個体空間 Active 変数 追加変数 構造化モデリング 空間を生成する変数 空間に射影する変数 研究者が 関係を分析したい変数 生成された空間に 射影する (追加変数)

Slide 6

Slide 6 text

生成された空間 変数空間 個体空間 インタビュー 追加変数 アクティブ変数 幾何学が量と質を 架橋する 個体空間にインタビュー 対象者の位置をplot 個体空間に 変数カテゴリの 集中楕円を描画 空間を生成する 空間生成には寄与させないが、 関係をplotして解釈を「追加」 する どの変数で 空間を生成するか どの変数を 追加するか 構 造 化 モ デ リ ン グ (つづき) 2024/11/10 日本社会学会97回大会 6

Slide 7

Slide 7 text

3報告が前提としているもの • 調査データ • 多重対応分析による空間生成 • 変数(カテゴリ)空間 • 個体空間 • 追加変数による変数空間解釈の補佐 • 空間生成には寄与しないが、空間にplotできる。 • 個体空間における集中楕円から変数の分布の分析 • 個体空間に、インタビュー対象者番号のplot(混合研究法) 2024/11/10 日本社会学会97回大会 7

Slide 8

Slide 8 text

用語 • 対応分析 • Correspondence Analysis • CA • 入力は、2元クロス表 • 次のMCAと対比的に用いるときは、シンプルCAということもある。 • 多重対応分析 • Multiple Correspondence Analysis • MCA • 入力は、調査集計表(行に回答個体、列に複数の変数) • 列の変数は、変数カテゴリに分解されて、0/1の表としてCAされる。 • 古典的MCA • この0/1表は、変数ごとに1が一つだけ、というルールを課す。行和は変数数となる。 • どちらもCA。 • 入力データの前処理に違いがあるだけ • CAのもつ特性は「共通」 2024/11/10 日本社会学会97回大会 8

Slide 9

Slide 9 text

対応分析CA/多重対応分析MCAの基本 • 分析対象の「関係」に注目する。 • 全体の平均(クロス表でいう帰無仮説状態)は、原点。 • 似たものは近くに • 似てないものは遠くに • 分散の分解技法としてのCA/MCA • m x n のデータ表(行列)の低次元近似による重要な情報(分散)の 抽出 • 生成された空間の座標軸は、新たな<変数>。 2024/11/10 日本社会学会97回大会 9

Slide 10

Slide 10 text

空間生成 2024/11/10 日本社会学会97回大会 10

Slide 11

Slide 11 text

データ表にCAすると空間が生成される • CAでもMCAでも処理される表は、2元表。 • 行変数/個体、列変数/変数カテゴリ • これにCAを行うことで、次の二つの空間が生成される • 行変数空間/個体空間 • 列変数空間/変数(カテゴリ)空間 • それぞれ元のデータ表がもっていた分散を大きさの順に並べ替 えて「低次元」近似をおこなう。 • 数理的には、元行列(の残差行列)に対する特異値分解 (SVA)による 2024/11/10 日本社会学会97回大会 11

Slide 12

Slide 12 text

MCAの視点で説明をつづけます • 行空間は、個体空間 • 列空間は、変数カテゴリ空間 • 変数空間と呼んでも変数カテゴリ空間のことを指しています。 • 分解された分散値は、CAに比べて、MCAは、カテゴリ数が多 い、一つ一つの分散値が小さくなってしまう。これを補正する 計算式が提案されていて(Benzecreの補正、Greenacreの補 正)、軸が体現する分散(情報)の表現率(分散率)は、通常、 修正分散率で語られる。 2024/11/10 日本社会学会97回大会 12

Slide 13

Slide 13 text

二つの空間の生成 2024/11/10 日本社会学会97回大会 13 col1 … coln rowS um row1 : rown colSum m x n matrix 行空間/個体空間 列空間/変数空間 Generating the space means generating axies, dim1….dimn. > these dimn has inertias or variances which are disassembled from the total variance of inputed table. > these inertial of dims are the same in Row space and Col spece.

Slide 14

Slide 14 text

標準化残差行列Sを特異値分解する • SVD result 3matrixes , U,D,V • S= U D α Vt • U related to Row coordinate • V related to Col coordinate • αis singular value(square root of eigen value) excepcted matrix residuales diag matrix, items are inverted squared row margin diag matrix, items are inverted squared col margin standardization

Slide 15

Slide 15 text

残差行列のSVDから二つの空間の生成 P S(residual matrix) U D α V SVD diag matrix, items are inverted squared row margin D r -1/2 diag matrix, items are inverted squared col margin D r -1/2 Φ行標準座標 Γ列標準座標 F行主座標 G列主座標 Φ=D r -1/2U Γ=D c -1/2V F=ΦD α G=ΓD α SVDの結果としての 三つの要素 S=UD α VT 特異値アルファを選択すること で次元縮減(低次元近似)が行 われる P=M/n 2024/11/10 日本社会学会97回大会 15

Slide 16

Slide 16 text

生成された空間を読む 2024/11/10 日本社会学会97回大会 16

Slide 17

Slide 17 text

選択肢回答変数 Active変 数 追加 変数 回答者 変数1 変数2 …. 変数n 1 2 3 : n 回答者 Dim.1 Dim.2 …. Dim.n 1 2 3 : n 変数 Dim.1 Dim.2 …. Dim.n 変数1 変数2 変数3 : 変数n 回答者 分散率 累積分散率 修正分散率 累積修正分散率 Dim.1 Dim.2 Dim.3 : Dim.n 割合 座標値 座標値 Active変数 による 空間生成 追加変数 Dim.1 Dim.2 …. Dim.n 1 2 生成された座標軸 個体空間座標値 変数空間座標値 射影される変数座標値 座標値 集計データ 2024/11/10 日本社会学会97回大会 17

Slide 18

Slide 18 text

変数空間の例 2024/11/10 日本社会学会97回大会 18 各軸は、変数カテゴリによって「生成」 されている。 各軸の生成に寄与している変数カテゴリを 根拠に「命名」する。 これが新しい変数 第1軸はxx 第2軸はxx 第3軸はxx 軸の命名が最初の難関。

Slide 19

Slide 19 text

分析対象を構造化する:軸の解釈可能性 • 分析したい変数を • アクティブ変数(空間生成に寄与)と追加変数(空間生成に寄与しな い)に区分する。 • MCAの数理としては、なにを投入しても、空間を生成してくれ る。 • しかし、生成された空間(座標軸)が解釈可能かどうかは別の 話。 • 投入された変数が同質なものであれば、それを合成した解釈が可能。 • 異質なものを投入すると、軸の解釈が困難になる。 2024/11/10 日本社会学会97回大会 19

Slide 20

Slide 20 text

追加変数は「おまけ」ではありません • アクティブ変数が「主」で、追加変数が「従」ということでは なく、分析対象としてはどちらも「主」です。 • 空間の生成において、「主」と「従」になっているだけ。 • この追加変数の使い方は、MCAの応用範囲をひろげます。 • 例:自由記述部分を機械学習をもちいて、変数化し、それを選択肢解 答で生成した空間に射影して解釈をすすめる、ということも可能。 2024/11/10 日本社会学会97回大会 20

Slide 21

Slide 21 text

2024/11/10 日本社会学会97回大会 21 追加変数を射影した例

Slide 22

Slide 22 text

2024/11/10 日本社会学会97回大会 22 追加変数の交互作用plot(性別と年代を射影)

Slide 23

Slide 23 text

分析の基本 • この空間に配置されたpoint(個体、変数カテゴリ)の位置、か たまり具合、散らばり具合を解釈することになる。 • この空間は、投入される変数によって姿を変えます。 • この空間の座標軸は、新たな<変数>となる • ただし、なにを投入しても、 「経済資本+文化資本ー」となるわけで はない。 • 軸の名称は、軸の生成に寄与している変数カテゴリから解釈する。 • 異質な変数を投入した場合、(空間は生成されるものの)軸の解釈が 困難になる。 • どの変数で空間を生成するのか。同時に投入できない変数をどうする のか。 2024/11/10 日本社会学会97回大会 23

Slide 24

Slide 24 text

構造化データ解析SDA • 分析者は、空間生成に寄与させる変数と、そこに射影させて、 解釈を補佐する変数にわけて分析を進める。 • Active variables(アクティブ変数) • 空間生成を行う変数 • Supplementary variables(追加変数) • 空間に射影される変数。空間構造には影響せず。 • どのような空間を生成させるのか=どの変数をActive変数とす るのか。そこに加えなくとも、空間の解釈に必要な変数はなに か。 • これを構造化モデリングと呼ぶ。 • これは、調査票のデザインの段階で考えられているもの。 2024/11/10 日本社会学会97回大会 24

Slide 25

Slide 25 text

追加変数をplotすることで空間の解釈を進める • Active変数:同質(同類?)の変数で空間を生成 • 異質なものを投入してもなにか軸は生成されるが、解釈が困難。 • それとは異質でも、関係を確認したい変数を「追加変数」とし て射影する。 • 性別、年代、保有資産、最終学歴、など。(なんでもよい) 2024/11/10 日本社会学会97回大会 25

Slide 26

Slide 26 text

軸の解釈 • MCAのresultで、各軸に寄与している変数カテゴリを確認する ことができる。それをもとにして、軸を命名する。 • これをあらたな「変数」としてplotされたカテゴリの関係を解 釈していく。 • 追加変数をもちいて、空間の構造をさらに分析していくことに なる。 2024/11/10 日本社会学会97回大会 26

Slide 27

Slide 27 text

個体空間の分析(1) 2024/11/10 日本社会学会97回大会 27

Slide 28

Slide 28 text

行と列の「対応」関係 • 行のポイント(個体)と列のポイント(変数カテゴリ)は、相 互に関連しあっている。 • ある列ポイント(ある変数カテゴリ)は、すべての個体ポイントによ るそのカテゴリの選択を反映している。 • ある行ポイント(ある個体の位置)は、その個体が回答したすべての 変数カテゴリの選択を反映している。 • この関係は、線形回帰モデルによってむずびついている (Greenacre2017=2022:105) • 遷移公式 • 変数の散らばり度合いを個体空間で確認することができる。 2024/11/10 日本社会学会97回大会 28

Slide 29

Slide 29 text

個体空間の分析 • LeRouxたちが参加した『文化・階級・卓越化』で使われてい る、集中楕円による変数の分布の評価方法。 • 変数マップでplotされるカテゴリポイントは、そのカテゴリが選択さ れた「平均」位置が示されている。 • このカテゴリが選択された範囲は、個体空間で確認される。→ 集中楕 円による表示。 2024/11/10 日本社会学会97回大会 29

Slide 30

Slide 30 text

個体空間の例 2024/11/10 日本社会学会97回大会 30

Slide 31

Slide 31 text

個体空間に変数の 分布を集中楕円で 表示 2024/11/10 日本社会学会97回大会 31

Slide 32

Slide 32 text

個体空間の分析(2) 2024/11/10 日本社会学会97回大会 32

Slide 33

Slide 33 text

インタビュー対 象者の個体空間 へのplot • 混合研究法の土台と してのMCA 2024/11/10 日本社会学会97回大会 33

Slide 34

Slide 34 text

空間生成と追加変数とインタビュー対象者 • MCAが生成する二つの空間とそれを基礎にして、追加変数によ る空間分析の進化、インタビュー分析との連携が可能。 • こうした分析枠組みは、構造化データ解析と呼ばれている。 • 他の応用事例 • 回答選択肢+自由記述という形式のデータで、自由記述部分を機械学 習によってようやく、キーワードを変数化し、それを回答選択肢によ る変数空間/個体空間にplotすることも可能。 • 言語処理学会での大畑・藤本(2023)、根本・藤本(2024)報告 2024/11/10 日本社会学会97回大会 34

Slide 35

Slide 35 text

参考文献 • Le Roux, Brigitte, Henry Rouanet. 2010. Multiple correspondence analysis. Quantitative applications in the social sciences 163. Thousand Oaks, Calif: Sage Publications. (大隅昇;小野裕亮;鳰真紀子共訳., 2021.『多重対応分析』 オーム社. • Greenacre, Michael J. 2017. Correspondence analysis in practice. Third edition. Chapman & Hall/CRC interdisciplinary statistics series. Boca Raton: CRC Press, Taylor & Francis Group.(訳:藤本 一男. 2020. 対応分析の理論と実践: 基礎・応用・展開. 東京: オーム 社.) • トニー・ベネット、マイク・サベージ他(磯直樹他訳)『文化・階 級・卓越化』青弓社、2017 2024/11/10 日本社会学会97回大会 35

Slide 36

Slide 36 text

ソフトウェア関係 • Robette N. (2023), GDAtools : Geometric Data Analysis in R, version 2.0, https://nicolas-robette.github.io/GDAtools/ • R Core Team (2023). _R: A Language and Environment for Statistical Computing_. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/. • RStudio Team (2020). RStudio: Integrated Development for R. RStudio, PBC, Boston, MA URL http://www.rstudio.com/. 2024/11/10 日本社会学会97回大会 36

Slide 37

Slide 37 text

津田塾大学紀要に書いた対応分析関係 • 2017,「対応分析のグラフを適切に解釈する条件−Standard Coordinate, Principal Coordinateを理 解する」『津田塾大学紀要』第49号, 141-153 • 2018,「プログラミング言語Rにおける2つのmosaicplotと日本語、多言語表示」 『津田塾大学紀 要』第50号, 129-146 • 2019,「『Supplymentary』変数から多重対応分析(MCA)を考える―幾何学的データ解析 (GDA)と多重対応分析(MCA)―」『津田塾大学紀要』 第51号, 156-167 • 2020,「対応分析は<関係>をどのように表現するのか―CA/MCAの基本特性と分析フレームワーク としてのGDA―」『津田塾大学紀要』第52号, 169-184 • 2022,「日本における「対応分析」受容の現状を踏まえて、EDA(探索的データ解 析)の中に対応 分析を位置付け、新たなデータ解析のアプローチを実現する」 『津田塾大学紀要』第54号, 172- 193 • 2023,「『幾何学的データ解析』は分散をどのように分解するのか−GDAtoolsを用 いて原理的な確 認を行う−」『津田塾大学紀要』第55号, 119−139 • 2024,「帰納的データ解析(IDA)から見る「統計的検定」へのもう一つのアプローチ」『津田塾大 学紀要』第56号, 43−64 2024/11/10 日本社会学会97回大会 37

Slide 38

Slide 38 text

SSJDA計量分析セミナー2023夏の資料 • https://419kfj.sakura.ne.jp/db/%e3%80%8c%e5%af%b e%e5%bf%9c%e5%88%86%e6%9e%90- %e5%a4%9a%e9%87%8d%e5%af%be%e5%bf%9c%e5 %88%86%e6%9e%90%e3%81%ae%e5%8e%9f%e7%90 %86%e3%81%a8%e5%ae%9f%e9%9a%9b%e3%80%8d %e3%82%b9%e3%83%a9%e3%82%a4%e3%83%89/ • 01_IntroductionV1.0.pdf • 02_ベクトル行列演算とCAの数理V1.0.pdf • 03_CAの数理その2V1.0.pdf • 04_データ準備V1.0.pdf • 05_CAとMCA事例V1.0.pdf • 06_MCA_01V1.0.pdf • 07_MCAからGDAへV1.0.pdf • 08_SDAからIDAへV1.0.pptx • A_参考資料.pdf 2024/11/10 日本社会学会97回大会 38

Slide 39

Slide 39 text

書籍紹介 2024/11/10 日本社会学会97回大会 39

Slide 40

Slide 40 text

謝辞 • この発表は「対応分析研究会」(磯直樹先生主宰)での発表とそれへ の質疑応答の成果でもあります。ご意見をいただいた皆様に感謝いた します。 • また、本発表は、以下の研究支援を受けています。記して感謝いたし ます。 • 科研費 • 「データの幾何学的配置に着目したカテゴリカルデータ分析手法の研究」 • 研究代表者:藤本一男 • 基盤研究(C) 20K02162 • 「現代日本の文化と不平等に関する社会学的研究:社会調査を通じた理論構築」 • 研究代表者:磯 直樹 • 基盤研究(B) 22H00913 2024/11/10 日本社会学会97回大会 40