Upgrade to Pro — share decks privately, control downloads, hide ads and more …

多次元展開法を用いた 多値バイクラスタリング モデルの提案

Koji E. Kosugi
September 12, 2024

多次元展開法を用いた 多値バイクラスタリング モデルの提案

行動計量学会2024年大会特別セッション「心理学におけるモデリングアプローチの展開VI」での発表資料です。

Koji E. Kosugi

September 12, 2024
Tweet

More Decks by Koji E. Kosugi

Other Decks in Science

Transcript

  1. ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclustering • 項目と被験者両方について同時にクラスタリングする。 • 以下,項目のクラスターは「フィールド」,被験者のクラスターは「クラス」 と呼称する。 • 被験者数S,項目数J,U={

    },ここで正答は ,誤答は とする。 • 推定したいパラメタは • メンバーがクラスに所属する確率 , • 項目がフィールドに所属する確率 • あるクラスがあるフィールドに所属する確率 usj usj = 1 usj = 0 MC MF ΠB 3
  2. 10

  3. ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* これを心理尺度に • 心理尺度の多くは多段階(3〜7件法)なので,心理尺度に使 えるようにしたい。 12 • リッカート法→因子分析,という不適切な慣例が横行していると小 杉は考えているからです。

    • 個人の内部に関する要素の同一性(局所均質的構成概念の仮 定;Borsboom(2005))が満たされないものは,カテゴリの度数 を数え上げることさえ限定的な意味しか持ち得ない • 本当はわからないけどこのカテゴリに反応したという意味で「同 じ」とみなす,という無機質な解釈なら可能 • 因子分析のようなデータ生成メカニズムを扱うモデル化は不適切 ˡͳ͔ͥʁ
  4. ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案モデル 14 • 多次元展開法の変量モデル(足立,2000)がベース • 個人s,項目jがそれぞれP次元空間に座標 をもつとして,距 離

     を考える。 • 他段階反応カテゴリを持つデータU={ }は,個人と項目の距離を 反映していると仮定する。 • ここで •  ただし αsp , βjp d(αs , βj ) = P ∑ p=1 (αsp − βjp )2 usj usj = μsj + esj esj ∼ N(0,σ) μsj = λ − ψd(αs , βj ) ψ > 0 出典; 足立 浩平, 計量多次元展開法の変量モデル, 行動計量学, 2000, 27 巻, 1 号, p. 12-23
  5. ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* MCMC推定 • ラベルスイッチングを避けるために,クラス・フィールドの重心は極座標で表 現 • 原点・尺度・鏡像の不定性が残る→原点と尺度の不定性についてはQR分解 を用いた中心化法で対応,鏡像に関する不定性は避けようがないので,初期 値を選ぶことで対応

    • 具体的手順 1. 混合モデルでない多次元展開法から,個人・項目の座標を推定する(多 数のチェインの中から最も良いものを選ぶ) 2. 混合ガウス分布モデルパッケージから,重心と混合率を計算 3. 2で得られた値を初期ととして本モデルを推定 16
  6. ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 尺度のデータの例 21 • PsychパッケージのBFIデータの一部を利用。以下の五つの性格 次元を各5項目で測定。 • A (Agreeableness;

    協調性) • O (Openness; 開放性) • E (Extraversion; 外向性) • C (Conscientiousness; 誠実性) • N (Neuroticism; 神経症傾向) • このうち欠損値を含まない500件を取り出して,25x500のデー タで分析。 • 初期値としてクラス数2,フィールド数6が提案されたのでそれを 採用
  7. ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 考察 • 従来とは違うフィールドの分類結果 • 性格検査は(理論上)「言葉の共通意味空間」を取り出しているが,こ のモデルは「個々人の項目カテゴリとの距離の自己評定」をモデル化 したものだから •

    提案手法に適した心理尺度(とその作り方)があるはず • 初期フィールド数は6だが,実質的に2つは混合率の低さから所属する 項目がない(潰れた) • 確率モデルなので,適合度等でフィールド数,クラス数を決定できる • 個人のクラス分けが明確でない 25
  8. ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案手法の良し悪し • 推定のステップ数の多さ,不安定さ • 非混合多次元展開法の段階で多くの候補を出して,最も マシなものを初期とするのが第一段階 • クラス数の選定は今回外挿的に行なった

    • 最後の推定も長くすることで,なんとか収束基準を達成 (warmup=30,000,iteration100,000) • 潜在変数/反応データ生成モデルを考えていないので,不 自然な仮定,因子分析の誤用悪用を回避することができる 26
  9. 1. 外的基準で数量化でき,それに対応する尺度である→心理尺度 である必要はないが,ラフな近似としての意味があるかも? 2. 反応パターンが一義的でそれに対応して直接意味のある数値化 ができる→テスト理論 3. 反応パターンが一義的で,反応カテゴリの集積が確率分布に従う と仮定できることから,尺度値が数値化できる→態度理論/因子 分析モデル

    4. 反応パターンが一義的だが,確率分布が仮定できない→測定モ デルを止める。MDS,クラスタリング,パターン分類へ 5. 反応カテゴリが一義的でなく,程度の評価は個人ごとに異なる→ 非計量MDSの3相モデルなど積極的に個人差をモデル化する 6. 反応カテゴリに個々人の意味が付与されており,その人にしかわ からない→測るという目的に合致しない 28 ৺ ཧ ई ౓ ͷ ར ༻ Մ ೳ ੑ
  10. ৺ཧֶత࿈ଓମʢ৺ཧֶ͕ର৅ͱ͢Δൣғʣ ෺ཧత൓Ԡ ৘ใ ݸਓͷ ओ؍తҙຯ ࣾձత ؒओ؍త߹ҙ ଌఆํ๏ 物理的測定 (狭義の)心理測定

    態度測定 テスト ? 物理モデル 計算モデル 多変量解析 ? ଌఆϞσϧ ݚڀର৅ ݸਓͷओ؍తʮҙຯʯʮܦݧʯΛଌఆ͢Δํ๏΍Ϟσϧʹ͍ͭͯ͸΄ͱΜͲސΈΒΕͣɼ ࣾձతɾؒओ؍తҙຯͷଌఆϞσϧΛޡͬͯར༻͍ͯ͠Δέʔε͕ଟ͘ΈΒΕΔ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ