Upgrade to Pro — share decks privately, control downloads, hide ads and more …

多重対応分析/構造化データ解析の原理と研究者視点の介在点 「文化と不平等」調査データの分析(1)

419kfj
November 08, 2024

多重対応分析/構造化データ解析の原理と研究者視点の介在点 「文化と不平等」調査データの分析(1)

日本社会学会 第97回全国大会 階級・階層・移動(3) での藤本発表スライド v0.98
ここに最新版をuploadしていきます。

419kfj

November 08, 2024
Tweet

More Decks by 419kfj

Other Decks in Research

Transcript

  1. 履歴 • 2024/11/10 v0.98をspeakerDeckに登録 • 2024/11/09 v0.97をspeakerDeckに登録 • 2024/11/08 v0.95を共有サイトに登録

    • 2024/11/07 ver0.9をspeakerDeckに登録。発表当日直前まで updateを試みます。 • 最新版は、こちらをご覧ください。 • https://speakerdeck.com/419kfj/gou-zao-hua-detajie-xi-noyuan-li- toyan-jiu-zhe-shi-dian-nojie-zai-dian-wen-hua-tobu-ping-deng- diao-cha-detanofen-xi-1 2024/11/10 日本社会学会97回大会 2
  2. 本報告の目的 • 「文化と不平等」調査データの分析(2)〜(4)で使われる計量 手法である多重対応分析/構造化データ解析の説明 • 関東地方の社会空間の構築 「文化と不平等」調査データの分析(2) • ライフスタイルとハビトゥス「文化と不平等」調査データの分析(3) •

    音楽空間と社会空間はどのように関係しうるのか 「文化と不平等」調査データの分析(4) • 対応分析/多重対応分析 • 今でこそ、名前は知られているが、手法としては未知、という現状! 2024/11/10 日本社会学会97回大会 3
  3. (つづき) 2024/11/10 日本社会学会97回大会 5 調査データ 行:個体 列:変数 多重対応分析 MCA 変数(カテゴリ)

    空間 個体空間 Active 変数 追加変数 構造化モデリング 空間を生成する変数 空間に射影する変数 研究者が 関係を分析したい変数 生成された空間に 射影する (追加変数)
  4. 生成された空間 変数空間 個体空間 インタビュー 追加変数 アクティブ変数 幾何学が量と質を 架橋する 個体空間にインタビュー 対象者の位置をplot

    個体空間に 変数カテゴリの 集中楕円を描画 空間を生成する 空間生成には寄与させないが、 関係をplotして解釈を「追加」 する どの変数で 空間を生成するか どの変数を 追加するか 構 造 化 モ デ リ ン グ (つづき) 2024/11/10 日本社会学会97回大会 6
  5. 3報告が前提としているもの • 調査データ • 多重対応分析による空間生成 • 変数(カテゴリ)空間 • 個体空間 •

    追加変数による変数空間解釈の補佐 • 空間生成には寄与しないが、空間にplotできる。 • 個体空間における集中楕円から変数の分布の分析 • 個体空間に、インタビュー対象者番号のplot(混合研究法) 2024/11/10 日本社会学会97回大会 7
  6. 用語 • 対応分析 • Correspondence Analysis • CA • 入力は、2元クロス表

    • 次のMCAと対比的に用いるときは、シンプルCAということもある。 • 多重対応分析 • Multiple Correspondence Analysis • MCA • 入力は、調査集計表(行に回答個体、列に複数の変数) • 列の変数は、変数カテゴリに分解されて、0/1の表としてCAされる。 • 古典的MCA • この0/1表は、変数ごとに1が一つだけ、というルールを課す。行和は変数数となる。 • どちらもCA。 • 入力データの前処理に違いがあるだけ • CAのもつ特性は「共通」 2024/11/10 日本社会学会97回大会 8
  7. 対応分析CA/多重対応分析MCAの基本 • 分析対象の「関係」に注目する。 • 全体の平均(クロス表でいう帰無仮説状態)は、原点。 • 似たものは近くに • 似てないものは遠くに •

    分散の分解技法としてのCA/MCA • m x n のデータ表(行列)の低次元近似による重要な情報(分散)の 抽出 • 生成された空間の座標軸は、新たな<変数>。 2024/11/10 日本社会学会97回大会 9
  8. データ表にCAすると空間が生成される • CAでもMCAでも処理される表は、2元表。 • 行変数/個体、列変数/変数カテゴリ • これにCAを行うことで、次の二つの空間が生成される • 行変数空間/個体空間 •

    列変数空間/変数(カテゴリ)空間 • それぞれ元のデータ表がもっていた分散を大きさの順に並べ替 えて「低次元」近似をおこなう。 • 数理的には、元行列(の残差行列)に対する特異値分解 (SVA)による 2024/11/10 日本社会学会97回大会 11
  9. 二つの空間の生成 2024/11/10 日本社会学会97回大会 13 col1 … coln rowS um row1

    : rown colSum m x n matrix 行空間/個体空間 列空間/変数空間 Generating the space means generating axies, dim1….dimn. > these dimn has inertias or variances which are disassembled from the total variance of inputed table. > these inertial of dims are the same in Row space and Col spece.
  10. 標準化残差行列Sを特異値分解する • SVD result 3matrixes , U,D,V • S= U

    D α Vt • U related to Row coordinate • V related to Col coordinate • αis singular value(square root of eigen value) excepcted matrix residuales diag matrix, items are inverted squared row margin diag matrix, items are inverted squared col margin standardization
  11. 残差行列のSVDから二つの空間の生成 P S(residual matrix) U D α V SVD diag

    matrix, items are inverted squared row margin D r -1/2 diag matrix, items are inverted squared col margin D r -1/2 Φ行標準座標 Γ列標準座標 F行主座標 G列主座標 Φ=D r -1/2U Γ=D c -1/2V F=ΦD α G=ΓD α SVDの結果としての 三つの要素 S=UD α VT 特異値アルファを選択すること で次元縮減(低次元近似)が行 われる P=M/n 2024/11/10 日本社会学会97回大会 15
  12. 選択肢回答変数 Active変 数 追加 変数 回答者 変数1 変数2 …. 変数n

    1 2 3 : n 回答者 Dim.1 Dim.2 …. Dim.n 1 2 3 : n 変数 Dim.1 Dim.2 …. Dim.n 変数1 変数2 変数3 : 変数n 回答者 分散率 累積分散率 修正分散率 累積修正分散率 Dim.1 Dim.2 Dim.3 : Dim.n 割合 座標値 座標値 Active変数 による 空間生成 追加変数 Dim.1 Dim.2 …. Dim.n 1 2 生成された座標軸 個体空間座標値 変数空間座標値 射影される変数座標値 座標値 集計データ 2024/11/10 日本社会学会97回大会 17
  13. 分析対象を構造化する:軸の解釈可能性 • 分析したい変数を • アクティブ変数(空間生成に寄与)と追加変数(空間生成に寄与しな い)に区分する。 • MCAの数理としては、なにを投入しても、空間を生成してくれ る。 •

    しかし、生成された空間(座標軸)が解釈可能かどうかは別の 話。 • 投入された変数が同質なものであれば、それを合成した解釈が可能。 • 異質なものを投入すると、軸の解釈が困難になる。 2024/11/10 日本社会学会97回大会 19
  14. 分析の基本 • この空間に配置されたpoint(個体、変数カテゴリ)の位置、か たまり具合、散らばり具合を解釈することになる。 • この空間は、投入される変数によって姿を変えます。 • この空間の座標軸は、新たな<変数>となる • ただし、なにを投入しても、

    「経済資本+文化資本ー」となるわけで はない。 • 軸の名称は、軸の生成に寄与している変数カテゴリから解釈する。 • 異質な変数を投入した場合、(空間は生成されるものの)軸の解釈が 困難になる。 • どの変数で空間を生成するのか。同時に投入できない変数をどうする のか。 2024/11/10 日本社会学会97回大会 23
  15. 構造化データ解析SDA • 分析者は、空間生成に寄与させる変数と、そこに射影させて、 解釈を補佐する変数にわけて分析を進める。 • Active variables(アクティブ変数) • 空間生成を行う変数 •

    Supplementary variables(追加変数) • 空間に射影される変数。空間構造には影響せず。 • どのような空間を生成させるのか=どの変数をActive変数とす るのか。そこに加えなくとも、空間の解釈に必要な変数はなに か。 • これを構造化モデリングと呼ぶ。 • これは、調査票のデザインの段階で考えられているもの。 2024/11/10 日本社会学会97回大会 24
  16. 空間生成と追加変数とインタビュー対象者 • MCAが生成する二つの空間とそれを基礎にして、追加変数によ る空間分析の進化、インタビュー分析との連携が可能。 • こうした分析枠組みは、構造化データ解析と呼ばれている。 • 他の応用事例 • 回答選択肢+自由記述という形式のデータで、自由記述部分を機械学

    習によってようやく、キーワードを変数化し、それを回答選択肢によ る変数空間/個体空間にplotすることも可能。 • 言語処理学会での大畑・藤本(2023)、根本・藤本(2024)報告 2024/11/10 日本社会学会97回大会 34
  17. 参考文献 • Le Roux, Brigitte, Henry Rouanet. 2010. Multiple correspondence

    analysis. Quantitative applications in the social sciences 163. Thousand Oaks, Calif: Sage Publications. (大隅昇;小野裕亮;鳰真紀子共訳., 2021.『多重対応分析』 オーム社. • Greenacre, Michael J. 2017. Correspondence analysis in practice. Third edition. Chapman & Hall/CRC interdisciplinary statistics series. Boca Raton: CRC Press, Taylor & Francis Group.(訳:藤本 一男. 2020. 対応分析の理論と実践: 基礎・応用・展開. 東京: オーム 社.) • トニー・ベネット、マイク・サベージ他(磯直樹他訳)『文化・階 級・卓越化』青弓社、2017 2024/11/10 日本社会学会97回大会 35
  18. ソフトウェア関係 • Robette N. (2023), GDAtools : Geometric Data Analysis

    in R, version 2.0, https://nicolas-robette.github.io/GDAtools/ • R Core Team (2023). _R: A Language and Environment for Statistical Computing_. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/. • RStudio Team (2020). RStudio: Integrated Development for R. RStudio, PBC, Boston, MA URL http://www.rstudio.com/. 2024/11/10 日本社会学会97回大会 36
  19. 津田塾大学紀要に書いた対応分析関係 • 2017,「対応分析のグラフを適切に解釈する条件−Standard Coordinate, Principal Coordinateを理 解する」『津田塾大学紀要』第49号, 141-153 • 2018,「プログラミング言語Rにおける2つのmosaicplotと日本語、多言語表示」

    『津田塾大学紀 要』第50号, 129-146 • 2019,「『Supplymentary』変数から多重対応分析(MCA)を考える―幾何学的データ解析 (GDA)と多重対応分析(MCA)―」『津田塾大学紀要』 第51号, 156-167 • 2020,「対応分析は<関係>をどのように表現するのか―CA/MCAの基本特性と分析フレームワーク としてのGDA―」『津田塾大学紀要』第52号, 169-184 • 2022,「日本における「対応分析」受容の現状を踏まえて、EDA(探索的データ解 析)の中に対応 分析を位置付け、新たなデータ解析のアプローチを実現する」 『津田塾大学紀要』第54号, 172- 193 • 2023,「『幾何学的データ解析』は分散をどのように分解するのか−GDAtoolsを用 いて原理的な確 認を行う−」『津田塾大学紀要』第55号, 119−139 • 2024,「帰納的データ解析(IDA)から見る「統計的検定」へのもう一つのアプローチ」『津田塾大 学紀要』第56号, 43−64 2024/11/10 日本社会学会97回大会 37
  20. SSJDA計量分析セミナー2023夏の資料 • https://419kfj.sakura.ne.jp/db/%e3%80%8c%e5%af%b e%e5%bf%9c%e5%88%86%e6%9e%90- %e5%a4%9a%e9%87%8d%e5%af%be%e5%bf%9c%e5 %88%86%e6%9e%90%e3%81%ae%e5%8e%9f%e7%90 %86%e3%81%a8%e5%ae%9f%e9%9a%9b%e3%80%8d %e3%82%b9%e3%83%a9%e3%82%a4%e3%83%89/ • 01_IntroductionV1.0.pdf

    • 02_ベクトル行列演算とCAの数理V1.0.pdf • 03_CAの数理その2V1.0.pdf • 04_データ準備V1.0.pdf • 05_CAとMCA事例V1.0.pdf • 06_MCA_01V1.0.pdf • 07_MCAからGDAへV1.0.pdf • 08_SDAからIDAへV1.0.pptx • A_参考資料.pdf 2024/11/10 日本社会学会97回大会 38
  21. 謝辞 • この発表は「対応分析研究会」(磯直樹先生主宰)での発表とそれへ の質疑応答の成果でもあります。ご意見をいただいた皆様に感謝いた します。 • また、本発表は、以下の研究支援を受けています。記して感謝いたし ます。 • 科研費

    • 「データの幾何学的配置に着目したカテゴリカルデータ分析手法の研究」 • 研究代表者:藤本一男 • 基盤研究(C) 20K02162 • 「現代日本の文化と不平等に関する社会学的研究:社会調査を通じた理論構築」 • 研究代表者:磯 直樹 • 基盤研究(B) 22H00913 2024/11/10 日本社会学会97回大会 40