Slide 1

Slide 1 text

カテゴリカル・データに対する構造化デー タ解析(SDA)と帰納的データ解析(IDA) 2023年「⽂化と不平等」調査の幾何学的データ分析(3) ⽇本社会学会 第96回 全国⼤会 ⽂化・社会意識(1) 2023/10/8 version1.2 津⽥塾⼤学 数学・計算機科学研究所 藤本⼀男 [email protected]

Slide 2

Slide 2 text

構成 • 多重対応分析(MCA)と幾何学的データ解析(GDA) • GDAとIDA • IDA、並べ替え検定 • 2023年「⽂化と不平等」調査データへの適⽤ • 個体空間と変数空間(暫定⽣成版) • 追加変数の射影 • 典型性検定によるp値 • 履歴 • v1.0 共⽤サーバーに登録版。 • v1.2 解説追加。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 2

Slide 3

Slide 3 text

多重対応分析(MCA)と 幾何学的データ解析(GDA) 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 3

Slide 4

Slide 4 text

多重対応分析と推定・検定 • 幾何学的データ解析(GDA)の中での帰納的データ解析 (IDA) 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 4 MCA 多重対応分析 SDA 構造化データ 解析 IDA 帰納的データ解析 データ 個体空間と 変数空間の⽣成 追加変数をもちいた 空間分析 記述統計 推測統計 典型性検定 同質性検定 ⾏:個体 列:変数

Slide 5

Slide 5 text

幾何学的データ解析(GDA) • もともとは、Benzécreが対応分析を「データ解析」と呼んでい た。 • 1996年に、スタンフォードのPatrikスペスが「Geometric Data Analysis」と呼ぶことを提案。Brigitte LeRoux、Henry Rouanetらが積極的に採⽤。 • GDAの名称はもちいられていないが、内容的には、ルバール、.. 仏語1977、英訳1984、⽇本語訳1994、で扱われている。 • ディスタンクシオン、第5章の注の(2)で参照されている。 • 決して「新奇なもの」ではない、ということ。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 5

Slide 6

Slide 6 text

多重対応分析(MCA)とGDA • 対応分析/多重対応分析のしくみ • カテゴリカルデータの数量化 • ⾏空間(個体空間)と列空間(変数空間)の⼆つが⽣成される。 • 空間⽣成に⽤いられる変数:Active変数 • ⽣成された空間に投影されて空間の構造を分析する変数:追加変数 • 追加変数を射影(その1) • 変数空間に追加変数を投影する • Active変数との関係が図⽰される。 • 追加変数を射影(その2) • パターンは、変数空間のものと相似形だが、個体空間を追加変数でグ ループ化し分析するところが異なる。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 6 変数の位置:座標 広がり:分散 個体空間での集中楕円 軸との関係:η2

Slide 7

Slide 7 text

GDAの発展過程 • 追加変数を変数空間に射影し、分析するアプローチ • 変数空間への射影:スポット • 追加変数を個体空間に射影する • 個体空間での群の展開を分析対象にする • 平均点座標 • 分散、集中楕円 • 相関⽐(η2)による分散の評価 • η2= 群間分散 全体分散(!群間分散+"群内分散) • 軸ごとにη2をみることで、その変数の影響の⼤きさを評価できる。 • ベネット他の『⽂化・階級・卓越化』で採⽤( LeRoux、Rouanet)。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 7

Slide 8

Slide 8 text

MCAの分析 • Step1 • MCAによって⽣成された変数空間の軸を解釈命名する。これは、軸へ の各カテゴリポイントの寄与率から。 • Step2 • さらに、変数空間を追加変数によって解釈していく。 • Step3 • 個体空間を追加変数で群化し、追加変数カテゴリによる分析を⾏う。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 8

Slide 9

Slide 9 text

GDA、全体の流れ 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 9 MCA データ アクティ ブ変数 追加変数 変数空間 個体空間 射影 構造化モデリング 個体空間を追加変数で部分空間化 することによって、 ・空間内での差異を確認できる。 ・分散を表⽰できる。→ 集中楕円 ★軸の解釈(寄与率に注⽬) ・追加変数の分散の影響をη2で 評価する。 「並べ替え」 による検定 確認された差異は有意か 全体(原点)との差異 典型性検定 ⼆つの部分集合間の差異 同質性検定 アクティブ変数は、変数空間の中で数量化されており、 また、追加変数も、変数空間/個体空間に射影されるこ とで数量化されている。

Slide 10

Slide 10 text

MCAにまつわる疑問 「幾何学的データ解析でも、統計的推測をおこなえるか?」と いう問いが紹介されている。 それへの回答としては、機能的に可能である、という回答に加 え、統計的推測において重要なことはなにか、どのように推測 を行うべきか、が重要であると、検定の前提にかかわる観点か らの回答が述べられている。 • MCA2010=2021:15 の「よくある質問」 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 10

Slide 11

Slide 11 text

IDAのアプローチ • 以上の過程で明らかになった差異についての検定を⾏う。 • ⼿法 • 組み合わせ論的フレームワークによる検定:「並べ替え検定」 • MCAの結果得られた座標値を「参照⺟集団」とする。 • 追加変数によって群化された空間の平均点を検定統計量とする • 検定は2種類 • 典型性検定(Typicality test) • 参照⺟集団全体(原点)と⽐較して、注⽬している群が「典型」か否か。平均点のズ レを検定。 • 同質性検定(Homogeneity test) • ⼆つの群に注⽬して、その平均点の差が有意か否かを検定。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 11

Slide 12

Slide 12 text

伝統的検定との関係 • 典型性検定 • 問題状況 • 参照⺟集団の平均点(ゼロ)と注⽬群の平均点の差の検定 • 1群の平均値のt-検定 • 同質性検定 • 問題状況 • ⼆つの注⽬群の平均点の差の検定 • 2群の平均値のt-検定 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 12 伝統的検定(t-検定)でもとめられる • 正規性の仮定 • 等分散性 は必要とされない。

Slide 13

Slide 13 text

⼿法 • 並べ替え検定を⾏う。 • 並べ替え総数。参照⺟集団の総数Nから、注⽬群のnを置き換えなしでサンプ リングする組み合わせ数。 • ! C " これは、⼤きな数になるので、計算時間から困難。 • ⼆つの近似 • 乱数シミュレーション(モンテカルロ法)近似。 • 正規近似 • 並べ替えで⽣成される「標本分布」は、中⼼極限定理から、正規分布を強く仮定できる。 • MCA2010=2021とGDAtoolsのdimtypicality、homog.testは、この正規近似で計算。 • 正規近似 • 軸ごとの⽐較:正規近似 • 平⾯での⽐較:距離なので正規近似要素の2乗和となるので「⾃由度2」の 「χ2分布」で近似される。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 13

Slide 14

Slide 14 text

全体雲 1215 18−24歳 93 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 93個体の 部分雲 平均点(18−24歳)を求める 平 均 点 を 求 め る 93個体 9999個の分布 を確認する 9999個の平均値の 分布と18−24歳の 平均値をplotする。 pointの数は、10000 になる。 ※標本平均なので、 中⼼極限定理の展開その もの 準拠⺟集団 注⽬している年齢群 典型性検定での並べ替え抽出 2023/06/10 対応分析研究会第19回 14 「並べ替え」での抽出 ⾮復元抽出でサンプリング 例は、LeRoux&Rouanet 2010=2021での数値

Slide 15

Slide 15 text

全体雲 N⼈ X歳 n1⼈ 準拠⺟集団 注⽬している 年齢群1 2023/06/10 対応分析研究会第19回 15 同質性検定の並べ替え抽出 n1個の 部分雲 全体雲 N-n1⼈ Y歳 n2⼈ 注⽬している 年齢群2 ⾮復元 抽出*1 n2個の 部分雲 n1個の平均値からn2個 の平均値の差を求める ⾮復元 抽出*2 ⾮復元抽出*1の数# 𝐶 $% = #! $% ! #'$% ! ⾮復元抽出*2の数#'$% 𝐶 $( = (#'$%)! $( ! #'$%'$( ! 総数は、これの積になる #! $% ! #'$% ! (#'$%)! $( ! #'$%'$( ! = #! $% ! $( !(#' $%+$( ! p119

Slide 16

Slide 16 text

2023年「⽂化と不平等」調査 データへの適⽤ 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 16

Slide 17

Slide 17 text

基本的なMCAのresult • Active変数になにを選択するか、によって、⽣成される空間は 異なったものになる。 • GDAにおける構造設計 • Active変数の選択 • 追加変数の選択 • ⽤いるのは、確定版ではなく分析途中の暫定版。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 17

Slide 18

Slide 18 text

構造設計:Active変数と追加変数 • Active変数 • "学歴" "⽗学歴" "⺟学歴" "世帯年収" "⾦融資産" • "相続_⾦融資産" "相続_住宅" "相続_⼟地" "相続_⽥畑" • "相続_美術品" "相続_その他" "相続_なし" • 追加変数 • "性別" "働き⽅" "仕事内容" "役職" • 合成変数として、”性別・働き⽅” “性別・仕事内容” 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 18

Slide 19

Slide 19 text

固有値(軸の慣性) 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 19

Slide 20

Slide 20 text

変数空間 1−2軸 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 20

Slide 21

Slide 21 text

個体空間 1−2軸 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 21

Slide 22

Slide 22 text

変数空間への寄与率からdim1、dim2を評 価すると • dim1 • 右側 • 資産あり • 左側 • 資産なし 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 22

Slide 23

Slide 23 text

変数空間への寄与率からdim1,dim2を評価 する • dim2 • 上側 • 学歴なし • 下側 • 学歴あり • 原点 • 全体の平均位 置 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 23

Slide 24

Slide 24 text

追加変数 • 性別 • 働き⽅ • 仕事の内容 • 性別・働き⽅ • 性別・仕事の内容 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 24 Active変数 MCAによって、変数空間と個体空間を⽣成する 追加変数(転じて「構造化因⼦」) MCAによって⽣成された⼆つの空間に、射影され、 その空間の構造を分析するのに⽤いられる。 「幾何学的データ解析では、「個体x変数」のデータ表に おいて、なんらかの「構造」を⽰す変数は、幾何学的な 空間を求める際には、意図的に使わない。たとえば、⽣ 活様式における性別の役割を調べるのに、 性別を使わないほうがよいことは明らかであろう。 個体間の距離の定義には⽤いない⽅の変数の組みを、 構造化因⼦*と呼ぶ。 そして、変数のうちいくつかが構造化因⼦*であるデータ 表を構造化データと呼ぶ。」 LeRoux&Rounat2010=2021:95 *Structuring factor:構造化しているのは、Active変数なので これは「構造因⼦」の⽅がいいのではないかと思ってます。

Slide 25

Slide 25 text

データ:個体空間座標と追加変数 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 25 : 個体 番号 個体空間での個体の座標 個体番号と結びつけ られた追加変数 : 以下略

Slide 26

Slide 26 text

仕事内容と 性別のdim1 分布 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 26

Slide 27

Slide 27 text

第1軸での典型性検定によるp値 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 27 全体の平均(原点)から の差異は「有意」である

Slide 28

Slide 28 text

性別_仕事内容 のdim1分布 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 28

Slide 29

Slide 29 text

働き⽅:性別_仕事内容 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 29

Slide 30

Slide 30 text

働き⽅:性別_雇⽤形態 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 30

Slide 31

Slide 31 text

2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 31

Slide 32

Slide 32 text

2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 32

Slide 33

Slide 33 text

検定⼿法の分類 • 厳密計算 • 可能となる組み合わせ数すべてをリサンプリングして、帰無分布を⽣成しそ の分布に対して検定統計量をあてがい、p値を計算する。 そこでは、確率分布は使わずに、個数と割合で計算。 • 近似計算1 • 原理的には、厳密計算と同じことをするが、すべての組み合わせ数を実施す るのではなくランダムに9999個のサンプルを⽣成して、近似帰無分布を⽣成 し、検定統計量の位置からp値を計算する • 近似計算2 • 並べ替え分布は、1軸単位であれば、正規近似が、平⾯で距離を⽐較するの であれば、カイ⼆乗近似が(強く)成り⽴つので、それを前提にリサンプリ ングはせずに、p値を算出する。LeRoux&Rouanet2010=2021では、これを ⽤いて、計算している。また、GDAtoolsのdimtypicality(典型性検定)、 homog.test(同質性検定)は、この近似計算2で計算している。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 33

Slide 34

Slide 34 text

組み合わせ論枠組みでの検定 • 問題状況と⼿法 • 典型性検定 • 注⽬している部分集合(例:男性部分集合)が全体からみて、有意にずれて いるかいなかを検定。 • 軸ごとの検定 • 平⾯での検定 • 伝統的⼿法での「1群の平均値のt-検定」 • 同質性検定 • ⼆つの部分集合に注⽬し(例:男性アルバイトと⼥性アルバイト)の平均点 の差異が有意かどうかを検定。 • 軸ごとの検定 • 平⾯での検定 • 伝統的⼿法での「2群の平均値の差のt-検定」 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 34

Slide 35

Slide 35 text

分析の実際過程 • Nicoras Robette⽒によるGDAtoolsは、その名の通り、多重対 応分析でもGDA分析に特化したツールとして提供されているの で、典型性検定、同質性検定ふくめて、LeRoux&Rouanet2010 にそったtoolが提供されている。 • しかし、実際の分析過程では、より詳細な部分集合への分割と そこでの分散の分解に注⽬する必要があるので、そこでは、 CSA(ClassSpecificAnalysis:特定個体を選択するサブセット MCA)も駆使して分析、検定を⾏なっていくことなる。 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 35

Slide 36

Slide 36 text

参考⽂献 • Greenacre, Michael J. 2017. Correspondence analysis in practice. Third edition. CRC Press.(訳:藤本⼀男,2020,『対応分析の理論と実践』オーム社) • Le Roux, Brigitte, Henry Rouanet. 2010. Multiple correspondence analysis. Quantitative applications in the social sciences 163. Sage Publications.(訳: ⼤隅昇・⼩野裕亮・鳰真紀⼦,2021,『多重対応分析』オーム社) • Le Roux, Brigitte, Solène Bienaise,Jean-Luc Durand. 2019. Combinatorial inference in geometric data analysis. CRC Press. • Robette N. (2023), GDAtools : Geometric Data Analysis in R, version 2.0, https://nicolas- robette.github.io/GDAtools/ • R Core Team (2023). _R: A Language and Environment for Statistical Computing_. R Foundation for Statistical Computing, Vienna, Austria. https://www.R-project.org/. • RStudio Team (2020). RStudio: Integrated Development for R. RStudio, PBC, Boston, MA URL http://www.rstudio.com/. 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 36

Slide 37

Slide 37 text

謝辞 • この発表は「対応分析研究会」(磯直樹先⽣主宰)での発表とそれへ の質疑応答の成果でもあります。ご意⾒をいただいた皆様に感謝いた します。 • また、本発表は、以下の研究⽀援を受けています。記して感謝いたし ます。 • 科研費 • 「データの幾何学的配置に着⽬したカテゴリカルデータ分析⼿法の研究」 • 研究代表者:藤本⼀男 • 基盤研究(C) 20K02162 • 「現代⽇本の⽂化と不平等に関する社会学的研究:社会調査を通じた理論構築」 • 研究代表者:磯 直樹 • 基盤研究(B) 22H00913 2023/10/08 ⽇本社会学会 第96回全国⼤会 ⽂化・社会意識(1) 37