Upgrade to Pro — share decks privately, control downloads, hide ads and more …

カテゴリカル・データに対する構造化デー タ解析(SDA)と帰納的データ解析(IDA) 2023...

419kfj
October 08, 2023

カテゴリカル・データに対する構造化デー タ解析(SDA)と帰納的データ解析(IDA) 2023年「文化と不平等」調査の幾何学的データ分析(3)

2022年の95回大会での報告では、幾何学的データ解析(GDA)の中で、多重対応分析(MCA)と分散分析(ANOVA)の結びつきの実際を説明し手法の特徴を明らかにした。今回は、それを踏まえて幾何学的データ解析(SDA)と帰納的データ解析(IDA)の報告を行う。また、「現代日本の文化と不平等」(科研費:基盤(B) 22H00913)で取得したデータを用いて適用の実際を報告する

対応分析をめぐっては、拙訳書1)2)に続いて、『多重対応分析』3)が刊行され、分析手法として活用する条件が整ったといえる。しかし、この手法のアプローチが社会学会においては一般化されている回帰分析などのアプローチとは異なるものであるために、必ずしもわかりやすいものにはなっていない。

本報告では、以前の報告も踏まえて、幾何学的データ解析(GDA)における、多重対応分析(MCA)の位置付け。また、構造化データ分析(SDA)と概括される調査データ(個体x変数)の構造化モデリングを概説する。加えて、構造設計に用いられた構造因子(追加変数)に注目した部分集合間の関係に対する帰納的データ解析(IDA)というアプローチを紹介する。ここで用いられる「検定」手法は、計算手法としては、並べ替え検定(permutation test)であるが、検定目的である「典型性検定」(typicality test)および「同質性検定」(homoginity test)は、組合せ検定(comibinatorial Inference)すなわち集合論的推定(Set-theoretic Inference)として理論化されてきたものである4)。

本報告では、こうしたSDAおよびIDAの実際を、「現代日本の文化と不平等」(科研費:基盤(B) 22H00913)で取得したデータに対して適用したもの実例に報告を行う予定である。

1) Clausen,Sten-Erik,1987,”Applied Correspondence Analysis An Introduction”,SAGE,(訳:藤本一男,2015,『対応分析入門』,オーム社)
2) Greenacre.M.J,2017,”Correspondence Analysis in Practice Third Edition”,CRC press, (訳:藤本一男, 2020,『対応分析の理論と実践』,オーム社)
3) Briggite LeRoux, Henry Rouanet,2010, ”Multiple Correspondence Analysis”, SAGE (訳:大隈昇・小野裕亮・鳰真紀子,2021,『多重対応分析』オーム社)
4) Rouanet, Henry Bert Marie-Claude,1998,”Introduction to Combinatorial Inference”,New Ways in Statistical Methodology From Siginificance Tests to Basian Inference, 2nd Edition, Europian University Studies, Peter Lang

◾️関連する論考:
「Supplementary」変数から多重対応分析(MCA)を考える―幾何学的データ解析(GDA)と多重対応分析(MCA)―」『津田塾大学紀要』51号(2019),155 – 167
「対応分析は〈関係〉をどのように表現するのかーCA/MCAの基本特性と分析フレームワークとしてのGDAー」『津田塾大学紀要』52号(2020),169−184
「日本における「対応分析」受容の現状を踏まえて、 EDA(探索的データ解析)の中に対応分析を位置付け、 新たなデータ解析のアプローチを実現する」『津田塾大学紀要』54号(2022),177 – 193
「幾何学的データ解析(GDA)」では分散はどのように分解されるのか-GDAでANOVAの手法を用いるために押さえるべき事がある-」『津田塾大学紀要』55号(2023),119−139

419kfj

October 08, 2023
Tweet

More Decks by 419kfj

Other Decks in Research

Transcript

  1. 構成 • 多重対応分析(MCA)と幾何学的データ解析(GDA) • GDAとIDA • IDA、並べ替え検定 • 2023年「⽂化と不平等」調査データへの適⽤ •

    個体空間と変数空間(暫定⽣成版) • 追加変数の射影 • 典型性検定によるp値 • 履歴 • v1.0 共⽤サーバーに登録版。 • v1.2 解説追加。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 2
  2. 多重対応分析と推定・検定 • 幾何学的データ解析(GDA)の中での帰納的データ解析 (IDA) 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 4 MCA

    多重対応分析 SDA 構造化データ 解析 IDA 帰納的データ解析 データ 個体空間と 変数空間の⽣成 追加変数をもちいた 空間分析 記述統計 推測統計 典型性検定 同質性検定 ⾏:個体 列:変数
  3. 幾何学的データ解析(GDA) • もともとは、Benzécreが対応分析を「データ解析」と呼んでい た。 • 1996年に、スタンフォードのPatrikスペスが「Geometric Data Analysis」と呼ぶことを提案。Brigitte LeRoux、Henry Rouanetらが積極的に採⽤。

    • GDAの名称はもちいられていないが、内容的には、ルバール、.. 仏語1977、英訳1984、⽇本語訳1994、で扱われている。 • ディスタンクシオン、第5章の注の(2)で参照されている。 • 決して「新奇なもの」ではない、ということ。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 5
  4. 多重対応分析(MCA)とGDA • 対応分析/多重対応分析のしくみ • カテゴリカルデータの数量化 • ⾏空間(個体空間)と列空間(変数空間)の⼆つが⽣成される。 • 空間⽣成に⽤いられる変数:Active変数 •

    ⽣成された空間に投影されて空間の構造を分析する変数:追加変数 • 追加変数を射影(その1) • 変数空間に追加変数を投影する • Active変数との関係が図⽰される。 • 追加変数を射影(その2) • パターンは、変数空間のものと相似形だが、個体空間を追加変数でグ ループ化し分析するところが異なる。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 6 変数の位置:座標 広がり:分散 個体空間での集中楕円 軸との関係:η2
  5. GDAの発展過程 • 追加変数を変数空間に射影し、分析するアプローチ • 変数空間への射影:スポット • 追加変数を個体空間に射影する • 個体空間での群の展開を分析対象にする •

    平均点座標 • 分散、集中楕円 • 相関⽐(η2)による分散の評価 • η2= 群間分散 全体分散(!群間分散+"群内分散) • 軸ごとにη2をみることで、その変数の影響の⼤きさを評価できる。 • ベネット他の『⽂化・階級・卓越化』で採⽤( LeRoux、Rouanet)。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 7
  6. MCAの分析 • Step1 • MCAによって⽣成された変数空間の軸を解釈命名する。これは、軸へ の各カテゴリポイントの寄与率から。 • Step2 • さらに、変数空間を追加変数によって解釈していく。

    • Step3 • 個体空間を追加変数で群化し、追加変数カテゴリによる分析を⾏う。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 8
  7. GDA、全体の流れ 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 9 MCA データ アクティ ブ変数

    追加変数 変数空間 個体空間 射影 構造化モデリング 個体空間を追加変数で部分空間化 することによって、 ・空間内での差異を確認できる。 ・分散を表⽰できる。→ 集中楕円 ★軸の解釈(寄与率に注⽬) ・追加変数の分散の影響をη2で 評価する。 「並べ替え」 による検定 確認された差異は有意か 全体(原点)との差異 典型性検定 ⼆つの部分集合間の差異 同質性検定 アクティブ変数は、変数空間の中で数量化されており、 また、追加変数も、変数空間/個体空間に射影されるこ とで数量化されている。
  8. IDAのアプローチ • 以上の過程で明らかになった差異についての検定を⾏う。 • ⼿法 • 組み合わせ論的フレームワークによる検定:「並べ替え検定」 • MCAの結果得られた座標値を「参照⺟集団」とする。 •

    追加変数によって群化された空間の平均点を検定統計量とする • 検定は2種類 • 典型性検定(Typicality test) • 参照⺟集団全体(原点)と⽐較して、注⽬している群が「典型」か否か。平均点のズ レを検定。 • 同質性検定(Homogeneity test) • ⼆つの群に注⽬して、その平均点の差が有意か否かを検定。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 11
  9. 伝統的検定との関係 • 典型性検定 • 問題状況 • 参照⺟集団の平均点(ゼロ)と注⽬群の平均点の差の検定 • 1群の平均値のt-検定 •

    同質性検定 • 問題状況 • ⼆つの注⽬群の平均点の差の検定 • 2群の平均値のt-検定 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 12 伝統的検定(t-検定)でもとめられる • 正規性の仮定 • 等分散性 は必要とされない。
  10. ⼿法 • 並べ替え検定を⾏う。 • 並べ替え総数。参照⺟集団の総数Nから、注⽬群のnを置き換えなしでサンプ リングする組み合わせ数。 • ! C "

    これは、⼤きな数になるので、計算時間から困難。 • ⼆つの近似 • 乱数シミュレーション(モンテカルロ法)近似。 • 正規近似 • 並べ替えで⽣成される「標本分布」は、中⼼極限定理から、正規分布を強く仮定できる。 • MCA2010=2021とGDAtoolsのdimtypicality、homog.testは、この正規近似で計算。 • 正規近似 • 軸ごとの⽐較:正規近似 • 平⾯での⽐較:距離なので正規近似要素の2乗和となるので「⾃由度2」の 「χ2分布」で近似される。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 13
  11. 全体雲 1215 18−24歳 93 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲

    93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 平均点(18−24歳)を求める 平 均 点 を 求 め る 93個体 9999個の分布 を確認する 9999個の平均値の 分布と18−24歳の 平均値をplotする。 pointの数は、10000 になる。 ※標本平均なので、 中⼼極限定理の展開その もの 準拠⺟集団 注⽬している年齢群 典型性検定での並べ替え抽出 2023/06/10 対応分析研究会第19回 14 「並べ替え」での抽出 ⾮復元抽出でサンプリング 例は、LeRoux&Rouanet 2010=2021での数値
  12. 全体雲 N⼈ X歳 n1⼈ 準拠⺟集団 注⽬している 年齢群1 2023/06/10 対応分析研究会第19回 15

    同質性検定の並べ替え抽出 n1個の 部分雲 全体雲 N-n1⼈ Y歳 n2⼈ 注⽬している 年齢群2 ⾮復元 抽出*1 n2個の 部分雲 n1個の平均値からn2個 の平均値の差を求める ⾮復元 抽出*2 ⾮復元抽出*1の数# 𝐶 $% = #! $% ! #'$% ! ⾮復元抽出*2の数#'$% 𝐶 $( = (#'$%)! $( ! #'$%'$( ! 総数は、これの積になる #! $% ! #'$% ! (#'$%)! $( ! #'$%'$( ! = #! $% ! $( !(#' $%+$( ! p119
  13. 基本的なMCAのresult • Active変数になにを選択するか、によって、⽣成される空間は 異なったものになる。 • GDAにおける構造設計 • Active変数の選択 • 追加変数の選択

    • ⽤いるのは、確定版ではなく分析途中の暫定版。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 17
  14. 構造設計:Active変数と追加変数 • Active変数 • "学歴" "⽗学歴" "⺟学歴" "世帯年収" "⾦融資産" •

    "相続_⾦融資産" "相続_住宅" "相続_⼟地" "相続_⽥畑" • "相続_美術品" "相続_その他" "相続_なし" • 追加変数 • "性別" "働き⽅" "仕事内容" "役職" • 合成変数として、”性別・働き⽅” “性別・仕事内容” 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 18
  15. 変数空間への寄与率からdim1、dim2を評 価すると • dim1 • 右側 • 資産あり • 左側

    • 資産なし 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 22
  16. 変数空間への寄与率からdim1,dim2を評価 する • dim2 • 上側 • 学歴なし • 下側

    • 学歴あり • 原点 • 全体の平均位 置 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 23
  17. 追加変数 • 性別 • 働き⽅ • 仕事の内容 • 性別・働き⽅ •

    性別・仕事の内容 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 24 Active変数 MCAによって、変数空間と個体空間を⽣成する 追加変数(転じて「構造化因⼦」) MCAによって⽣成された⼆つの空間に、射影され、 その空間の構造を分析するのに⽤いられる。 「幾何学的データ解析では、「個体x変数」のデータ表に おいて、なんらかの「構造」を⽰す変数は、幾何学的な 空間を求める際には、意図的に使わない。たとえば、⽣ 活様式における性別の役割を調べるのに、 性別を使わないほうがよいことは明らかであろう。 個体間の距離の定義には⽤いない⽅の変数の組みを、 構造化因⼦*と呼ぶ。 そして、変数のうちいくつかが構造化因⼦*であるデータ 表を構造化データと呼ぶ。」 LeRoux&Rounat2010=2021:95 *Structuring factor:構造化しているのは、Active変数なので これは「構造因⼦」の⽅がいいのではないかと思ってます。
  18. 検定⼿法の分類 • 厳密計算 • 可能となる組み合わせ数すべてをリサンプリングして、帰無分布を⽣成しそ の分布に対して検定統計量をあてがい、p値を計算する。 そこでは、確率分布は使わずに、個数と割合で計算。 • 近似計算1 •

    原理的には、厳密計算と同じことをするが、すべての組み合わせ数を実施す るのではなくランダムに9999個のサンプルを⽣成して、近似帰無分布を⽣成 し、検定統計量の位置からp値を計算する • 近似計算2 • 並べ替え分布は、1軸単位であれば、正規近似が、平⾯で距離を⽐較するの であれば、カイ⼆乗近似が(強く)成り⽴つので、それを前提にリサンプリ ングはせずに、p値を算出する。LeRoux&Rouanet2010=2021では、これを ⽤いて、計算している。また、GDAtoolsのdimtypicality(典型性検定)、 homog.test(同質性検定)は、この近似計算2で計算している。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 33
  19. 組み合わせ論枠組みでの検定 • 問題状況と⼿法 • 典型性検定 • 注⽬している部分集合(例:男性部分集合)が全体からみて、有意にずれて いるかいなかを検定。 • 軸ごとの検定

    • 平⾯での検定 • 伝統的⼿法での「1群の平均値のt-検定」 • 同質性検定 • ⼆つの部分集合に注⽬し(例:男性アルバイトと⼥性アルバイト)の平均点 の差異が有意かどうかを検定。 • 軸ごとの検定 • 平⾯での検定 • 伝統的⼿法での「2群の平均値の差のt-検定」 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 34
  20. 参考⽂献 • Greenacre, Michael J. 2017. Correspondence analysis in practice.

    Third edition. CRC Press.(訳:藤本⼀男,2020,『対応分析の理論と実践』オーム社) • Le Roux, Brigitte, Henry Rouanet. 2010. Multiple correspondence analysis. Quantitative applications in the social sciences 163. Sage Publications.(訳: ⼤隅昇・⼩野裕亮・鳰真紀⼦,2021,『多重対応分析』オーム社) • Le Roux, Brigitte, Solène Bienaise,Jean-Luc Durand. 2019. Combinatorial inference in geometric data analysis. CRC Press. • Robette N. (2023), GDAtools : Geometric Data Analysis in R, version 2.0, https://nicolas- robette.github.io/GDAtools/ • R Core Team (2023). _R: A Language and Environment for Statistical Computing_. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/. • RStudio Team (2020). RStudio: Integrated Development for R. RStudio, PBC, Boston, MA URL http://www.rstudio.com/. 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 36
  21. 謝辞 • この発表は「対応分析研究会」(磯直樹先⽣主宰)での発表とそれへ の質疑応答の成果でもあります。ご意⾒をいただいた皆様に感謝いた します。 • また、本発表は、以下の研究⽀援を受けています。記して感謝いたし ます。 • 科研費

    • 「データの幾何学的配置に着⽬したカテゴリカルデータ分析⼿法の研究」 • 研究代表者:藤本⼀男 • 基盤研究(C) 20K02162 • 「現代⽇本の⽂化と不平等に関する社会学的研究:社会調査を通じた理論構築」 • 研究代表者:磯 直樹 • 基盤研究(B) 22H00913 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 37