Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
多次元展開法を用いた 多値バイクラスタリング モデルの提案
Search
Koji E. Kosugi
September 12, 2024
Science
0
190
多次元展開法を用いた 多値バイクラスタリング モデルの提案
行動計量学会2024年大会特別セッション「心理学におけるモデリングアプローチの展開VI」での発表資料です。
Koji E. Kosugi
September 12, 2024
Tweet
Share
More Decks by Koji E. Kosugi
See All by Koji E. Kosugi
小杉考司(専修大学)
kosugitti
2
560
電子計算機のイロハ
kosugitti
1
1.5k
Shinyで親父の威厳を回復した話
kosugitti
0
590
ベイズ統計学勉強会 2022年春合宿資料「はじめてのTeX」
kosugitti
2
7.9k
Tokyo.R #94 脱rstan初心者
kosugitti
3
1k
Tokyo.R #90 RStudioで日本語論文を書く(2)
kosugitti
1
1.1k
Other Decks in Science
See All in Science
Improving Search @scale with efficient query experimentation @BerlinBuzzwords 2024
searchhub
0
240
Lyme Disease
uni_of_nomi
0
130
白金鉱業Meetup Vol.15 DMLによる条件付処置効果の推定_sotaroIZUMI_20240919
brainpadpr
1
480
拡散モデルの概要 −§2. スコアベースモデルについて−
nearme_tech
PRO
0
550
Pericarditis Comic
camkdraws
0
1.1k
20240420 Global Azure 2024 | Azure Migrate でデータセンターのサーバーを評価&移行してみる
olivia_0707
2
890
ほたるのひかり/RayTracingCamp10
kugimasa
0
200
Introduction to Graph Neural Networks
joisino
PRO
4
2k
Analysis-Ready Cloud-Optimized Data for your community and the entire world with Pangeo-Forge
jbusecke
0
100
(Forkwell Library #48)『詳解 インシデントレスポンス』で学び倒すブルーチーム技術
scientia
2
1.4k
20分で分かる Human-in-the-Loop 機械学習におけるアノテーションとヒューマンコンピューターインタラクションの真髄
hurutoriya
4
2.3k
プロダクト開発を通して学んだナレッジマネジメントの哲学
sonod
0
150
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
136
6.6k
Rails Girls Zürich Keynote
gr2m
93
13k
Side Projects
sachag
452
42k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
1.8k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
131
33k
The Straight Up "How To Draw Better" Workshop
denniskardys
232
140k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
505
140k
The Cult of Friendly URLs
andyhume
78
6k
Building Your Own Lightsaber
phodgson
102
6.1k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
191
16k
For a Future-Friendly Web
brad_frost
175
9.4k
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
Transcript
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 多次元展開法を用いた 多値バイクラスタリング モデルの提案 ◦小杉考司(専修大学人間科学部) 荘島宏二郎(大学入試センター) 清水裕士(関西学院大学社会学部) 1
自己紹介 • 名前;小杉考司(こすぎこうじ) • 移動;大阪→京都→山口→神奈川 • 専門;心理統計,統計モデリング 2
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclustering • 項目と被験者両方について同時にクラスタリングする。 • 以下,項目のクラスターは「フィールド」,被験者のクラスターは「クラス」 と呼称する。 • 被験者数S,項目数J,U={
},ここで正答は ,誤答は とする。 • 推定したいパラメタは • メンバーがクラスに所属する確率 , • 項目がフィールドに所属する確率 • あるクラスがあるフィールドに所属する確率 usj usj = 1 usj = 0 MC MF ΠB 3
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Class Membership Matrix • ある被験者sがクラス1,2,…,Cに所属する確率ベクトル • 要素の総和は1,つまり •
これを行列にしたのがClass Membership Matrixで, • 4
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Field Membership Matrix • ある項目jがフィールド1,2,…,Fに所属する確率ベクトル • 要素の総和は1,つまり •
これを行列にしたのがField Membership Matrixで, • 5
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Bicluster Reference Matrix • ある被験者sがクラスcに所属し,あるフィールドfに所属す るある項目jに正答する確率を次のように表す。 • これを行列にしたのがBicluster
Reference Matrix で, 6 • この をデータから推定する。 MC MF ΠB Fig.7.3 Biclustering machine Pr (usj = 1 ∣ msc = 1,mjf = 1) = πfc ( ∈ [0,1]) .
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclusteringとは 7 3BOLMVTUFSJOH 4IPKJNB C
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 詳しくはこの本に • 荘島宏二郎先生の開発されたモデル は右のTDEで網羅的に紹介されて いる • ExametrikaはExcelで動くプログ ラムで,全てではないがTDEで紹介
されているモデルが動く • Mathematicaのコードは全モデル について公開されている 8 Shojima(2022) Test Data Engineering, Springer
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Rパッケージ公開中 9 IUUQTLPTVHJUUJHJUIVCJP&YBNFUSJLB &YBNFUSJLB(JUIVCͰ ݕࡧݕࡧ͎ʂ
10
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclusteringの面白さ • 誰がどこのクラスに所属しているか,どの項目がどのフィールドに所属し ているかを見るだけでも面白い • フィールドが何に対応しているかによって,テストの内容分析の一助に • ランクを上げる・下がる時のオッズなどで個々人の情報をフィードバッ
クできる • ランクごとのフィールド正答率からフィールドのslope, location indexも。 • このランクの人はこういう内容が理解できているというCan-do Chartを書いたり 11
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* これを心理尺度に • 心理尺度の多くは多段階(3〜7件法)なので,心理尺度に使 えるようにしたい。 12 • リッカート法→因子分析,という不適切な慣例が横行していると小 杉は考えているからです。
• 個人の内部に関する要素の同一性(局所均質的構成概念の仮 定;Borsboom(2005))が満たされないものは,カテゴリの度数 を数え上げることさえ限定的な意味しか持ち得ない • 本当はわからないけどこのカテゴリに反応したという意味で「同 じ」とみなす,という無機質な解釈なら可能 • 因子分析のようなデータ生成メカニズムを扱うモデル化は不適切 ˡͳ͔ͥʁ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 心理学者は何がしたいのか? • 項目を意味的まとまりで納得したい(構成概念が欲しい) • 個人差は認めつつ類型論的に個人を解釈したい 13 • 項目と個人の両方をクラスタリング,あるいは序列化した
い。この時,項目カテゴリは順序尺度水準程度である • クラスタリングやMDSの方が方法論としては妥当なはず
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案モデル 14 • 多次元展開法の変量モデル(足立,2000)がベース • 個人s,項目jがそれぞれP次元空間に座標 をもつとして,距 離
を考える。 • 他段階反応カテゴリを持つデータU={ }は,個人と項目の距離を 反映していると仮定する。 • ここで • ただし αsp , βjp d(αs , βj ) = P ∑ p=1 (αsp − βjp )2 usj usj = μsj + esj esj ∼ N(0,σ) μsj = λ − ψd(αs , βj ) ψ > 0 出典; 足立 浩平, 計量多次元展開法の変量モデル, 行動計量学, 2000, 27 巻, 1 号, p. 12-23
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案モデル 15
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* MCMC推定 • ラベルスイッチングを避けるために,クラス・フィールドの重心は極座標で表 現 • 原点・尺度・鏡像の不定性が残る→原点と尺度の不定性についてはQR分解 を用いた中心化法で対応,鏡像に関する不定性は避けようがないので,初期 値を選ぶことで対応
• 具体的手順 1. 混合モデルでない多次元展開法から,個人・項目の座標を推定する(多 数のチェインの中から最も良いものを選ぶ) 2. 混合ガウス分布モデルパッケージから,重心と混合率を計算 3. 2で得られた値を初期ととして本モデルを推定 16
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 17 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ ԁ ͰಘΒΕΔ4%ͷഒ Σ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 18 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ ϑΟʔϧυͷॏ৺େମରԠ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 19 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ Ϋϥεͷॏ৺େମରԠ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ • クラスのカッパ係数は0.73,正確性は0.82で,フィールド は完全に一致 • 分類目的としては十分使えるかと 20 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ
5& $ $ $ $ $ $ 5& ' ' ' '
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 尺度のデータの例 21 • PsychパッケージのBFIデータの一部を利用。以下の五つの性格 次元を各5項目で測定。 • A (Agreeableness;
協調性) • O (Openness; 開放性) • E (Extraversion; 外向性) • C (Conscientiousness; 誠実性) • N (Neuroticism; 神経症傾向) • このうち欠損値を含まない500件を取り出して,25x500のデー タで分析。 • 初期値としてクラス数2,フィールド数6が提案されたのでそれを 採用
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 22 ˛͕߲ ˔͕ݸਓ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 23
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 24 /߲ಉ͡ϑΟʔϧυʹ "0܈ $&܈ ͦͷ΄͔ͷ܈ П
П П П П П ϑΟʔϧυࠞ߹ К К Ϋϥεࠞ߹
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 考察 • 従来とは違うフィールドの分類結果 • 性格検査は(理論上)「言葉の共通意味空間」を取り出しているが,こ のモデルは「個々人の項目カテゴリとの距離の自己評定」をモデル化 したものだから •
提案手法に適した心理尺度(とその作り方)があるはず • 初期フィールド数は6だが,実質的に2つは混合率の低さから所属する 項目がない(潰れた) • 確率モデルなので,適合度等でフィールド数,クラス数を決定できる • 個人のクラス分けが明確でない 25
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案手法の良し悪し • 推定のステップ数の多さ,不安定さ • 非混合多次元展開法の段階で多くの候補を出して,最も マシなものを初期とするのが第一段階 • クラス数の選定は今回外挿的に行なった
• 最後の推定も長くすることで,なんとか収束基準を達成 (warmup=30,000,iteration100,000) • 潜在変数/反応データ生成モデルを考えていないので,不 自然な仮定,因子分析の誤用悪用を回避することができる 26
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* まとめ • 名義尺度,順序尺度反応への拡張,反応カテゴリへの反応感 度の個人差などへの拡張が考えられる • 提案モデルは一例に過ぎず,心理尺度の適切な分析のため に心理モデリングは貢献できるはず •
多次元尺度法,クラスタ分析などをもっと広めたい! • 多相データ,個人差モデルはまだまだモデリングしがいが あるフィールドだと思います! 27
1. 外的基準で数量化でき,それに対応する尺度である→心理尺度 である必要はないが,ラフな近似としての意味があるかも? 2. 反応パターンが一義的でそれに対応して直接意味のある数値化 ができる→テスト理論 3. 反応パターンが一義的で,反応カテゴリの集積が確率分布に従う と仮定できることから,尺度値が数値化できる→態度理論/因子 分析モデル
4. 反応パターンが一義的だが,確率分布が仮定できない→測定モ デルを止める。MDS,クラスタリング,パターン分類へ 5. 反応カテゴリが一義的でなく,程度の評価は個人ごとに異なる→ 非計量MDSの3相モデルなど積極的に個人差をモデル化する 6. 反応カテゴリに個々人の意味が付与されており,その人にしかわ からない→測るという目的に合致しない 28 ৺ ཧ ई ͷ ར ༻ Մ ೳ ੑ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 多次元展開法を用いた 多値バイクラスタリング モデルの提案 ◦小杉考司(専修大学人間科学部) 荘島宏二郎(大学入試センター) 清水裕士(関西学院大学社会学部) 29
৺ཧֶత࿈ଓମʢ৺ཧֶ͕ରͱ͢Δൣғʣ ཧతԠ ใ ݸਓͷ ओ؍తҙຯ ࣾձత ؒओ؍త߹ҙ ଌఆํ๏ 物理的測定 (狭義の)心理測定
態度測定 テスト ? 物理モデル 計算モデル 多変量解析 ? ଌఆϞσϧ ݚڀର ݸਓͷओ؍తʮҙຯʯʮܦݧʯΛଌఆ͢Δํ๏Ϟσϧʹ͍ͭͯ΄ͱΜͲސΈΒΕͣɼ ࣾձతɾؒओ؍తҙຯͷଌఆϞσϧΛޡͬͯར༻͍ͯ͠Δέʔε͕ଟ͘ΈΒΕΔ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ
Biclusteringの 他のモデル • テストの場合,行方向にも列方向にも比率/正答数で序列か できるのがありがたい。限定的状況だからこそモデリングに はむいているのかも。 • Bi-clusteringはtwo-mode clustering,block clusteringともいわれ,いくつか他のモデルもある
31 (1$.ͷҰൠԽͰ͜Ε໘ന͍ ໊ٛईਫ४ͳΒͪ͜ΒɻϚʔέͳͲͰΘΕͯΔͬΆ͍