Slide 1

Slide 1 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 多次元展開法を用いた 多値バイクラスタリング モデルの提案 ○小杉考司(専修大学人間科学部) 荘島宏二郎(大学入試センター) 清水裕士(関西学院大学社会学部) 1

Slide 2

Slide 2 text

自己紹介 • 名前;小杉考司(こすぎこうじ) • 移動;大阪→京都→山口→神奈川 • 専門;心理統計,統計モデリング 2

Slide 3

Slide 3 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclustering • 項目と被験者両方について同時にクラスタリングする。 • 以下,項目のクラスターは「フィールド」,被験者のクラスターは「クラス」 と呼称する。 • 被験者数S,項目数J,U={ },ここで正答は ,誤答は とする。 • 推定したいパラメタは • メンバーがクラスに所属する確率 , • 項目がフィールドに所属する確率 • あるクラスがあるフィールドに所属する確率 usj usj = 1 usj = 0 MC MF ΠB 3

Slide 4

Slide 4 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Class Membership Matrix • ある被験者sがクラス1,2,…,Cに所属する確率ベクトル • 要素の総和は1,つまり • これを行列にしたのがClass Membership Matrixで, • 4

Slide 5

Slide 5 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Field Membership Matrix • ある項目jがフィールド1,2,…,Fに所属する確率ベクトル • 要素の総和は1,つまり • これを行列にしたのがField Membership Matrixで, • 5

Slide 6

Slide 6 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Bicluster Reference Matrix • ある被験者sがクラスcに所属し,あるフィールドfに所属す るある項目jに正答する確率を次のように表す。 • これを行列にしたのがBicluster Reference Matrix で, 6 • この をデータから推定する。 MC MF ΠB Fig.7.3 Biclustering machine Pr (usj = 1 ∣ msc = 1,mjf = 1) = πfc ( ∈ [0,1]) .

Slide 7

Slide 7 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclusteringとは 7 3BOLMVTUFSJOH 4IPKJNB C

Slide 8

Slide 8 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 詳しくはこの本に • 荘島宏二郎先生の開発されたモデル は右のTDEで網羅的に紹介されて いる • ExametrikaはExcelで動くプログ ラムで,全てではないがTDEで紹介 されているモデルが動く • Mathematicaのコードは全モデル について公開されている 8 Shojima(2022) Test Data Engineering, Springer

Slide 9

Slide 9 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Rパッケージ公開中 9 IUUQTLPTVHJUUJHJUIVCJP&YBNFUSJLB &YBNFUSJLB(JUIVCͰ ݕࡧݕࡧ͎ʂ

Slide 10

Slide 10 text

10

Slide 11

Slide 11 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclusteringの面白さ • 誰がどこのクラスに所属しているか,どの項目がどのフィールドに所属し ているかを見るだけでも面白い • フィールドが何に対応しているかによって,テストの内容分析の一助に • ランクを上げる・下がる時のオッズなどで個々人の情報をフィードバッ クできる • ランクごとのフィールド正答率からフィールドのslope, location indexも。 • このランクの人はこういう内容が理解できているというCan-do Chartを書いたり 11

Slide 12

Slide 12 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* これを心理尺度に • 心理尺度の多くは多段階(3〜7件法)なので,心理尺度に使 えるようにしたい。 12 • リッカート法→因子分析,という不適切な慣例が横行していると小 杉は考えているからです。 • 個人の内部に関する要素の同一性(局所均質的構成概念の仮 定;Borsboom(2005))が満たされないものは,カテゴリの度数 を数え上げることさえ限定的な意味しか持ち得ない • 本当はわからないけどこのカテゴリに反応したという意味で「同 じ」とみなす,という無機質な解釈なら可能 • 因子分析のようなデータ生成メカニズムを扱うモデル化は不適切 ˡͳ͔ͥʁ

Slide 13

Slide 13 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 心理学者は何がしたいのか? • 項目を意味的まとまりで納得したい(構成概念が欲しい) • 個人差は認めつつ類型論的に個人を解釈したい 13 • 項目と個人の両方をクラスタリング,あるいは序列化した い。この時,項目カテゴリは順序尺度水準程度である • クラスタリングやMDSの方が方法論としては妥当なはず

Slide 14

Slide 14 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案モデル 14 • 多次元展開法の変量モデル(足立,2000)がベース • 個人s,項目jがそれぞれP次元空間に座標 をもつとして,距 離  を考える。 • 他段階反応カテゴリを持つデータU={ }は,個人と項目の距離を 反映していると仮定する。 • ここで •  ただし αsp , βjp d(αs , βj ) = P ∑ p=1 (αsp − βjp )2 usj usj = μsj + esj esj ∼ N(0,σ) μsj = λ − ψd(αs , βj ) ψ > 0 出典; 足立 浩平, 計量多次元展開法の変量モデル, 行動計量学, 2000, 27 巻, 1 号, p. 12-23

Slide 15

Slide 15 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案モデル 15

Slide 16

Slide 16 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* MCMC推定 • ラベルスイッチングを避けるために,クラス・フィールドの重心は極座標で表 現 • 原点・尺度・鏡像の不定性が残る→原点と尺度の不定性についてはQR分解 を用いた中心化法で対応,鏡像に関する不定性は避けようがないので,初期 値を選ぶことで対応 • 具体的手順 1. 混合モデルでない多次元展開法から,個人・項目の座標を推定する(多 数のチェインの中から最も良いものを選ぶ) 2. 混合ガウス分布モデルパッケージから,重心と混合率を計算 3. 2で得られた値を初期ととして本モデルを推定 16

Slide 17

Slide 17 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 17 ࣍ݩɼਓɼ߲໨ɼΫϥε਺ɼϑΟʔϧυ਺ͷԾ૝σʔλΑΓ ԁ͸ ͰಘΒΕΔ4%ͷഒ Σ

Slide 18

Slide 18 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 18 ࣍ݩɼਓɼ߲໨ɼΫϥε਺ɼϑΟʔϧυ਺ͷԾ૝σʔλΑΓ ϑΟʔϧυͷॏ৺͸େମରԠ

Slide 19

Slide 19 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 19 ࣍ݩɼਓɼ߲໨ɼΫϥε਺ɼϑΟʔϧυ਺ͷԾ૝σʔλΑΓ Ϋϥεͷॏ৺΋େମରԠ

Slide 20

Slide 20 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ • クラスのカッパ係数は0.73,正確性は0.82で,フィールド は完全に一致 • 分類目的としては十分使えるかと 20 ࣍ݩɼਓɼ߲໨ɼΫϥε਺ɼϑΟʔϧυ਺ͷԾ૝σʔλΑΓ 5& $ $ $ $ $ $ 5& ' ' ' '

Slide 21

Slide 21 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 尺度のデータの例 21 • PsychパッケージのBFIデータの一部を利用。以下の五つの性格 次元を各5項目で測定。 • A (Agreeableness; 協調性) • O (Openness; 開放性) • E (Extraversion; 外向性) • C (Conscientiousness; 誠実性) • N (Neuroticism; 神経症傾向) • このうち欠損値を含まない500件を取り出して,25x500のデー タで分析。 • 初期値としてクラス数2,フィールド数6が提案されたのでそれを 採用

Slide 22

Slide 22 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 22 ˛͕߲໨ ˔͕ݸਓ

Slide 23

Slide 23 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 23

Slide 24

Slide 24 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 24 /߲໨͸ಉ͡ϑΟʔϧυʹ "0܈ $&܈ ͦͷ΄͔ͷ܈ П П П П П П ϑΟʔϧυࠞ߹཰ К К Ϋϥεࠞ߹཰

Slide 25

Slide 25 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 考察 • 従来とは違うフィールドの分類結果 • 性格検査は(理論上)「言葉の共通意味空間」を取り出しているが,こ のモデルは「個々人の項目カテゴリとの距離の自己評定」をモデル化 したものだから • 提案手法に適した心理尺度(とその作り方)があるはず • 初期フィールド数は6だが,実質的に2つは混合率の低さから所属する 項目がない(潰れた) • 確率モデルなので,適合度等でフィールド数,クラス数を決定できる • 個人のクラス分けが明確でない 25

Slide 26

Slide 26 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案手法の良し悪し • 推定のステップ数の多さ,不安定さ • 非混合多次元展開法の段階で多くの候補を出して,最も マシなものを初期とするのが第一段階 • クラス数の選定は今回外挿的に行なった • 最後の推定も長くすることで,なんとか収束基準を達成 (warmup=30,000,iteration100,000) • 潜在変数/反応データ生成モデルを考えていないので,不 自然な仮定,因子分析の誤用悪用を回避することができる 26

Slide 27

Slide 27 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* まとめ • 名義尺度,順序尺度反応への拡張,反応カテゴリへの反応感 度の個人差などへの拡張が考えられる • 提案モデルは一例に過ぎず,心理尺度の適切な分析のため に心理モデリングは貢献できるはず • 多次元尺度法,クラスタ分析などをもっと広めたい! • 多相データ,個人差モデルはまだまだモデリングしがいが あるフィールドだと思います! 27

Slide 28

Slide 28 text

1. 外的基準で数量化でき,それに対応する尺度である→心理尺度 である必要はないが,ラフな近似としての意味があるかも? 2. 反応パターンが一義的でそれに対応して直接意味のある数値化 ができる→テスト理論 3. 反応パターンが一義的で,反応カテゴリの集積が確率分布に従う と仮定できることから,尺度値が数値化できる→態度理論/因子 分析モデル 4. 反応パターンが一義的だが,確率分布が仮定できない→測定モ デルを止める。MDS,クラスタリング,パターン分類へ 5. 反応カテゴリが一義的でなく,程度の評価は個人ごとに異なる→ 非計量MDSの3相モデルなど積極的に個人差をモデル化する 6. 反応カテゴリに個々人の意味が付与されており,その人にしかわ からない→測るという目的に合致しない 28 ৺ ཧ ई ౓ ͷ ར ༻ Մ ೳ ੑ

Slide 29

Slide 29 text

ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 多次元展開法を用いた 多値バイクラスタリング モデルの提案 ○小杉考司(専修大学人間科学部) 荘島宏二郎(大学入試センター) 清水裕士(関西学院大学社会学部) 29

Slide 30

Slide 30 text

৺ཧֶత࿈ଓମʢ৺ཧֶ͕ର৅ͱ͢Δൣғʣ ෺ཧత൓Ԡ ৘ใ ݸਓͷ ओ؍తҙຯ ࣾձత ؒओ؍త߹ҙ ଌఆํ๏ 物理的測定 (狭義の)心理測定 態度測定 テスト ? 物理モデル 計算モデル 多変量解析 ? ଌఆϞσϧ ݚڀର৅ ݸਓͷओ؍తʮҙຯʯʮܦݧʯΛଌఆ͢Δํ๏΍Ϟσϧʹ͍ͭͯ͸΄ͱΜͲސΈΒΕͣɼ ࣾձతɾؒओ؍తҙຯͷଌఆϞσϧΛޡͬͯར༻͍ͯ͠Δέʔε͕ଟ͘ΈΒΕΔ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ

Slide 31

Slide 31 text

Biclusteringの 他のモデル • テストの場合,行方向にも列方向にも比率/正答数で序列か できるのがありがたい。限定的状況だからこそモデリングに はむいているのかも。 • Bi-clusteringはtwo-mode clustering,block clusteringともいわれ,いくつか他のモデルもある 31 (1$.ͷҰൠԽͰ͜Ε΋໘ന͍ ໊ٛई౓ਫ४ͳΒͪ͜ΒɻϚʔέͳͲͰ࢖ΘΕͯΔͬΆ͍