多次元展開法を用いた多値バイクラスタリングモデルの提案

Slide 1

Slide 1 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 多次元展開法を用いた多値バイクラスタリングモデルの提案 ○小杉考司（専修大学人間科学部）荘島宏二郎（大学入試センター）清水裕士（関西学院大学社会学部） 1

Slide 2

Slide 2 text

自己紹介 • 名前；小杉考司（こすぎこうじ） • 移動；大阪→京都→山口→神奈川 • 専門；心理統計，統計モデリング 2

Slide 3

Slide 3 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclustering • 項目と被験者両方について同時にクラスタリングする。 • 以下，項目のクラスターは「フィールド」，被験者のクラスターは「クラス」と呼称する。 • 被験者数S，項目数J，U={ }，ここで正答は ,誤答はとする。 • 推定したいパラメタは • メンバーがクラスに所属する確率， • 項目がフィールドに所属する確率 • あるクラスがあるフィールドに所属する確率 usj usj = 1 usj = 0 MC MF ΠB 3

Slide 4

Slide 4 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Class Membership Matrix • ある被験者sがクラス1，2，…,Cに所属する確率ベクトル • 要素の総和は1，つまり • これを行列にしたのがClass Membership Matrixで， • 4

Slide 5

Slide 5 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Field Membership Matrix • ある項目jがフィールド1，2，…,Fに所属する確率ベクトル • 要素の総和は1，つまり • これを行列にしたのがField Membership Matrixで， • 5

Slide 6

Slide 6 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Bicluster Reference Matrix • ある被験者sがクラスcに所属し，あるフィールドfに所属するある項目jに正答する確率を次のように表す。 • これを行列にしたのがBicluster Reference Matrix で， 6 • このをデータから推定する。 MC MF ΠB Fig.7.3 Biclustering machine Pr (usj = 1 ∣ msc = 1,mjf = 1) = πfc ( ∈ [0,1]) .

Slide 7

Slide 7 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclusteringとは 7 3BOLMVTUFSJOH 4IPKJNB C

Slide 8

Slide 8 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 詳しくはこの本に • 荘島宏二郎先生の開発されたモデルは右のTDEで網羅的に紹介されている • ExametrikaはExcelで動くプログラムで，全てではないがTDEで紹介されているモデルが動く • Mathematicaのコードは全モデルについて公開されている 8 Shojima(2022) Test Data Engineering, Springer

Slide 9

Slide 9 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Rパッケージ公開中 9 IUUQTLPTVHJUUJHJUIVCJP&YBNFUSJLB &YBNFUSJLB(JUIVCͰ ݕࡧݕࡧ͎ʂ

Slide 10

Slide 10 text

Slide 11

Slide 11 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclusteringの面白さ • 誰がどこのクラスに所属しているか，どの項目がどのフィールドに所属しているかを見るだけでも面白い • フィールドが何に対応しているかによって，テストの内容分析の一助に • ランクを上げる・下がる時のオッズなどで個々人の情報をフィードバックできる • ランクごとのフィールド正答率からフィールドのslope, location indexも。 • このランクの人はこういう内容が理解できているというCan-do Chartを書いたり 11

Slide 12

Slide 12 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* これを心理尺度に • 心理尺度の多くは多段階(3〜7件法）なので，心理尺度に使えるようにしたい。 12 • リッカート法→因子分析，という不適切な慣例が横行していると小杉は考えているからです。 • 個人の内部に関する要素の同一性(局所均質的構成概念の仮定;Borsboom(2005))が満たされないものは，カテゴリの度数を数え上げることさえ限定的な意味しか持ち得ない • 本当はわからないけどこのカテゴリに反応したという意味で「同じ」とみなす，という無機質な解釈なら可能 • 因子分析のようなデータ生成メカニズムを扱うモデル化は不適切 ˡͳ͔ͥʁ

Slide 13

Slide 13 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 心理学者は何がしたいのか？ • 項目を意味的まとまりで納得したい(構成概念が欲しい） • 個人差は認めつつ類型論的に個人を解釈したい 13 • 項目と個人の両方をクラスタリング，あるいは序列化したい。この時，項目カテゴリは順序尺度水準程度である • クラスタリングやMDSの方が方法論としては妥当なはず

Slide 14

Slide 14 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案モデル 14 • 多次元展開法の変量モデル(足立,2000)がベース • 個人s，項目jがそれぞれP次元空間に座標をもつとして，距離　を考える。 • 他段階反応カテゴリを持つデータU={ }は，個人と項目の距離を反映していると仮定する。 • ここで • 　ただし αsp , βjp d(αs , βj ) = P ∑ p=1 (αsp − βjp )2 usj usj = μsj + esj esj ∼ N(0,σ) μsj = λ − ψd(αs , βj ) ψ > 0 出典；　足立浩平, 計量多次元展開法の変量モデル, 行動計量学, 2000, 27 巻, 1 号, p. 12-23

Slide 15

Slide 15 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案モデル 15

Slide 16

Slide 16 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* MCMC推定 • ラベルスイッチングを避けるために，クラス・フィールドの重心は極座標で表現 • 原点・尺度・鏡像の不定性が残る→原点と尺度の不定性についてはQR分解を用いた中心化法で対応，鏡像に関する不定性は避けようがないので，初期値を選ぶことで対応 • 具体的手順 1. 混合モデルでない多次元展開法から，個人・項目の座標を推定する（多数のチェインの中から最も良いものを選ぶ） 2. 混合ガウス分布モデルパッケージから，重心と混合率を計算 3. 2で得られた値を初期ととして本モデルを推定 16

Slide 17

Slide 17 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 17 ࣍ݩɼਓɼ߲໨ɼΫϥε਺ɼϑΟʔϧυ਺ͷԾ૝σʔλΑΓ ԁ͸ ͰಘΒΕΔ4%ͷഒ Σ

Slide 18

Slide 18 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 18 ࣍ݩɼਓɼ߲໨ɼΫϥε਺ɼϑΟʔϧυ਺ͷԾ૝σʔλΑΓ ϑΟʔϧυͷॏ৺͸େମରԠ

Slide 19

Slide 19 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 19 ࣍ݩɼਓɼ߲໨ɼΫϥε਺ɼϑΟʔϧυ਺ͷԾ૝σʔλΑΓ Ϋϥεͷॏ৺΋େମରԠ

Slide 20

Slide 20 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ • クラスのカッパ係数は0.73，正確性は0.82で，フィールドは完全に一致 • 分類目的としては十分使えるかと 20 ࣍ݩɼਓɼ߲໨ɼΫϥε਺ɼϑΟʔϧυ਺ͷԾ૝σʔλΑΓ 5& $ $ $ $ $ $ 5& ' ' ' '

Slide 21

Slide 21 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 尺度のデータの例 21 • PsychパッケージのBFIデータの一部を利用。以下の五つの性格次元を各5項目で測定。 • A (Agreeableness; 協調性) • O (Openness; 開放性) • E (Extraversion; 外向性) • C (Conscientiousness; 誠実性) • N (Neuroticism; 神経症傾向) • このうち欠損値を含まない500件を取り出して，25x500のデータで分析。 • 初期値としてクラス数2，フィールド数6が提案されたのでそれを採用

Slide 22

Slide 22 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 22 ˛͕߲໨ ˔͕ݸਓ

Slide 23

Slide 23 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 23

Slide 24

Slide 24 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 24 /߲໨͸ಉ͡ϑΟʔϧυʹ "0܈ $&܈ ͦͷ΄͔ͷ܈ П П П П П П ϑΟʔϧυࠞ߹཰ К К Ϋϥεࠞ߹཰

Slide 25

Slide 25 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 考察 • 従来とは違うフィールドの分類結果 • 性格検査は（理論上）「言葉の共通意味空間」を取り出しているが，このモデルは「個々人の項目カテゴリとの距離の自己評定」をモデル化したものだから • 提案手法に適した心理尺度（とその作り方）があるはず • 初期フィールド数は6だが，実質的に2つは混合率の低さから所属する項目がない（潰れた） • 確率モデルなので，適合度等でフィールド数，クラス数を決定できる • 個人のクラス分けが明確でない 25

Slide 26

Slide 26 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案手法の良し悪し • 推定のステップ数の多さ，不安定さ • 非混合多次元展開法の段階で多くの候補を出して，最もマシなものを初期とするのが第一段階 • クラス数の選定は今回外挿的に行なった • 最後の推定も長くすることで，なんとか収束基準を達成 (warmup=30,000,iteration100,000) • 潜在変数／反応データ生成モデルを考えていないので，不自然な仮定，因子分析の誤用悪用を回避することができる 26

Slide 27

Slide 27 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* まとめ • 名義尺度，順序尺度反応への拡張，反応カテゴリへの反応感度の個人差などへの拡張が考えられる • 提案モデルは一例に過ぎず，心理尺度の適切な分析のために心理モデリングは貢献できるはず • 多次元尺度法，クラスタ分析などをもっと広めたい！ • 多相データ，個人差モデルはまだまだモデリングしがいがあるフィールドだと思います！ 27

Slide 28

Slide 28 text

1. 外的基準で数量化でき，それに対応する尺度である→心理尺度である必要はないが，ラフな近似としての意味があるかも？ 2. 反応パターンが一義的でそれに対応して直接意味のある数値化ができる→テスト理論 3. 反応パターンが一義的で，反応カテゴリの集積が確率分布に従うと仮定できることから，尺度値が数値化できる→態度理論/因子分析モデル 4. 反応パターンが一義的だが，確率分布が仮定できない→測定モデルを止める。MDS,クラスタリング，パターン分類へ 5. 反応カテゴリが一義的でなく，程度の評価は個人ごとに異なる→ 非計量MDSの3相モデルなど積極的に個人差をモデル化する 6. 反応カテゴリに個々人の意味が付与されており，その人にしかわからない→測るという目的に合致しない 28 ৺ ཧ ई ౓ ͷ ར ༻ Մ ೳ ੑ

Slide 29

Slide 29 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 多次元展開法を用いた多値バイクラスタリングモデルの提案 ○小杉考司（専修大学人間科学部）荘島宏二郎（大学入試センター）清水裕士（関西学院大学社会学部） 29

Slide 30

Slide 30 text

৺ཧֶత࿈ଓମʢ৺ཧֶ͕ର৅ͱ͢Δൣғʣ ෺ཧత൓Ԡ ৘ใ ݸਓͷ ओ؍తҙຯ ࣾձత ؒओ؍త߹ҙ ଌఆํ๏ 物理的測定 (狭義の)心理測定態度測定テスト？物理モデル計算モデル多変量解析？ ଌఆϞσϧ ݚڀର৅ ݸਓͷओ؍తʮҙຯʯʮܦݧʯΛଌఆ͢Δํ๏΍Ϟσϧʹ͍ͭͯ͸΄ͱΜͲސΈΒΕͣɼ ࣾձతɾؒओ؍తҙຯͷଌఆϞσϧΛޡͬͯར༻͍ͯ͠Δέʔε͕ଟ͘ΈΒΕΔ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ

Slide 31

Slide 31 text

Biclusteringの他のモデル • テストの場合，行方向にも列方向にも比率/正答数で序列かできるのがありがたい。限定的状況だからこそモデリングにはむいているのかも。 • Bi-clusteringはtwo-mode clustering，block clusteringともいわれ，いくつか他のモデルもある 31 (1$.ͷҰൠԽͰ͜Ε΋໘ന͍ ໊ٛई౓ਫ४ͳΒͪ͜ΒɻϚʔέͳͲͰ࢖ΘΕͯΔͬΆ͍