Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
多次元展開法を用いた 多値バイクラスタリング モデルの提案
Search
Koji E. Kosugi
September 12, 2024
Science
0
200
多次元展開法を用いた 多値バイクラスタリング モデルの提案
行動計量学会2024年大会特別セッション「心理学におけるモデリングアプローチの展開VI」での発表資料です。
Koji E. Kosugi
September 12, 2024
Tweet
Share
More Decks by Koji E. Kosugi
See All by Koji E. Kosugi
小杉考司(専修大学)
kosugitti
2
570
電子計算機のイロハ
kosugitti
1
1.5k
Shinyで親父の威厳を回復した話
kosugitti
0
600
ベイズ統計学勉強会 2022年春合宿資料「はじめてのTeX」
kosugitti
2
8k
Tokyo.R #94 脱rstan初心者
kosugitti
3
1k
Tokyo.R #90 RStudioで日本語論文を書く(2)
kosugitti
1
1.2k
Other Decks in Science
See All in Science
科学で迫る勝敗の法則(名城大学公開講座.2024年10月) / The principle of victory discovered by science (Open lecture in Meijo Univ. 2024)
konakalab
0
230
ウェーブレットおきもち講座
aikiriao
1
800
深層学習を利用して 大豆の外部欠陥を判別した研究事例の紹介
kentaitakura
0
240
20240420 Global Azure 2024 | Azure Migrate でデータセンターのサーバーを評価&移行してみる
olivia_0707
2
920
Inductive-bias Learning: 大規模言語モデルによる予測モデルの生成
fuyu_quant0
0
120
Mechanistic Interpretability の紹介
sohtakahashi
0
400
Improving Search @scale with efficient query experimentation @BerlinBuzzwords 2024
searchhub
0
250
【健康&筋肉と生産性向上の関連性】 【Google Cloudを企業で運用する際の知識】 をお届け
yasumuusan
0
370
(Forkwell Library #48)『詳解 インシデントレスポンス』で学び倒すブルーチーム技術
scientia
2
1.4k
非同期コミュニケーションの構造 -チャットツールを用いた組織における情報の流れの設計について-
koisono
0
160
The Incredible Machine: Developer Productivity and the Impact of AI
tomzimmermann
0
420
事業会社における 機械学習・推薦システム技術の活用事例と必要な能力 / ml-recsys-in-layerx-wantedly-2024
yuya4
3
250
Featured
See All Featured
A Philosophy of Restraint
colly
203
16k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
229
52k
Building an army of robots
kneath
302
44k
Fashionably flexible responsive web design (full day workshop)
malarkey
405
65k
Large-scale JavaScript Application Architecture
addyosmani
510
110k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
28
900
Rebuilding a faster, lazier Slack
samanthasiow
79
8.7k
Put a Button on it: Removing Barriers to Going Fast.
kastner
59
3.6k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
Typedesign – Prime Four
hannesfritz
40
2.4k
Designing Experiences People Love
moore
138
23k
Art, The Web, and Tiny UX
lynnandtonic
298
20k
Transcript
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 多次元展開法を用いた 多値バイクラスタリング モデルの提案 ◦小杉考司(専修大学人間科学部) 荘島宏二郎(大学入試センター) 清水裕士(関西学院大学社会学部) 1
自己紹介 • 名前;小杉考司(こすぎこうじ) • 移動;大阪→京都→山口→神奈川 • 専門;心理統計,統計モデリング 2
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclustering • 項目と被験者両方について同時にクラスタリングする。 • 以下,項目のクラスターは「フィールド」,被験者のクラスターは「クラス」 と呼称する。 • 被験者数S,項目数J,U={
},ここで正答は ,誤答は とする。 • 推定したいパラメタは • メンバーがクラスに所属する確率 , • 項目がフィールドに所属する確率 • あるクラスがあるフィールドに所属する確率 usj usj = 1 usj = 0 MC MF ΠB 3
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Class Membership Matrix • ある被験者sがクラス1,2,…,Cに所属する確率ベクトル • 要素の総和は1,つまり •
これを行列にしたのがClass Membership Matrixで, • 4
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Field Membership Matrix • ある項目jがフィールド1,2,…,Fに所属する確率ベクトル • 要素の総和は1,つまり •
これを行列にしたのがField Membership Matrixで, • 5
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Bicluster Reference Matrix • ある被験者sがクラスcに所属し,あるフィールドfに所属す るある項目jに正答する確率を次のように表す。 • これを行列にしたのがBicluster
Reference Matrix で, 6 • この をデータから推定する。 MC MF ΠB Fig.7.3 Biclustering machine Pr (usj = 1 ∣ msc = 1,mjf = 1) = πfc ( ∈ [0,1]) .
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclusteringとは 7 3BOLMVTUFSJOH 4IPKJNB C
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 詳しくはこの本に • 荘島宏二郎先生の開発されたモデル は右のTDEで網羅的に紹介されて いる • ExametrikaはExcelで動くプログ ラムで,全てではないがTDEで紹介
されているモデルが動く • Mathematicaのコードは全モデル について公開されている 8 Shojima(2022) Test Data Engineering, Springer
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Rパッケージ公開中 9 IUUQTLPTVHJUUJHJUIVCJP&YBNFUSJLB &YBNFUSJLB(JUIVCͰ ݕࡧݕࡧ͎ʂ
10
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* Biclusteringの面白さ • 誰がどこのクラスに所属しているか,どの項目がどのフィールドに所属し ているかを見るだけでも面白い • フィールドが何に対応しているかによって,テストの内容分析の一助に • ランクを上げる・下がる時のオッズなどで個々人の情報をフィードバッ
クできる • ランクごとのフィールド正答率からフィールドのslope, location indexも。 • このランクの人はこういう内容が理解できているというCan-do Chartを書いたり 11
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* これを心理尺度に • 心理尺度の多くは多段階(3〜7件法)なので,心理尺度に使 えるようにしたい。 12 • リッカート法→因子分析,という不適切な慣例が横行していると小 杉は考えているからです。
• 個人の内部に関する要素の同一性(局所均質的構成概念の仮 定;Borsboom(2005))が満たされないものは,カテゴリの度数 を数え上げることさえ限定的な意味しか持ち得ない • 本当はわからないけどこのカテゴリに反応したという意味で「同 じ」とみなす,という無機質な解釈なら可能 • 因子分析のようなデータ生成メカニズムを扱うモデル化は不適切 ˡͳ͔ͥʁ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 心理学者は何がしたいのか? • 項目を意味的まとまりで納得したい(構成概念が欲しい) • 個人差は認めつつ類型論的に個人を解釈したい 13 • 項目と個人の両方をクラスタリング,あるいは序列化した
い。この時,項目カテゴリは順序尺度水準程度である • クラスタリングやMDSの方が方法論としては妥当なはず
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案モデル 14 • 多次元展開法の変量モデル(足立,2000)がベース • 個人s,項目jがそれぞれP次元空間に座標 をもつとして,距 離
を考える。 • 他段階反応カテゴリを持つデータU={ }は,個人と項目の距離を 反映していると仮定する。 • ここで • ただし αsp , βjp d(αs , βj ) = P ∑ p=1 (αsp − βjp )2 usj usj = μsj + esj esj ∼ N(0,σ) μsj = λ − ψd(αs , βj ) ψ > 0 出典; 足立 浩平, 計量多次元展開法の変量モデル, 行動計量学, 2000, 27 巻, 1 号, p. 12-23
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案モデル 15
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* MCMC推定 • ラベルスイッチングを避けるために,クラス・フィールドの重心は極座標で表 現 • 原点・尺度・鏡像の不定性が残る→原点と尺度の不定性についてはQR分解 を用いた中心化法で対応,鏡像に関する不定性は避けようがないので,初期 値を選ぶことで対応
• 具体的手順 1. 混合モデルでない多次元展開法から,個人・項目の座標を推定する(多 数のチェインの中から最も良いものを選ぶ) 2. 混合ガウス分布モデルパッケージから,重心と混合率を計算 3. 2で得られた値を初期ととして本モデルを推定 16
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 17 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ ԁ ͰಘΒΕΔ4%ͷഒ Σ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 18 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ ϑΟʔϧυͷॏ৺େମରԠ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ 19 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ Ϋϥεͷॏ৺େମରԠ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* パラメタリカバリ • クラスのカッパ係数は0.73,正確性は0.82で,フィールド は完全に一致 • 分類目的としては十分使えるかと 20 ࣍ݩɼਓɼ߲ɼΫϥεɼϑΟʔϧυͷԾσʔλΑΓ
5& $ $ $ $ $ $ 5& ' ' ' '
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 尺度のデータの例 21 • PsychパッケージのBFIデータの一部を利用。以下の五つの性格 次元を各5項目で測定。 • A (Agreeableness;
協調性) • O (Openness; 開放性) • E (Extraversion; 外向性) • C (Conscientiousness; 誠実性) • N (Neuroticism; 神経症傾向) • このうち欠損値を含まない500件を取り出して,25x500のデー タで分析。 • 初期値としてクラス数2,フィールド数6が提案されたのでそれを 採用
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 22 ˛͕߲ ˔͕ݸਓ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 23
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 結果のプロット 24 /߲ಉ͡ϑΟʔϧυʹ "0܈ $&܈ ͦͷ΄͔ͷ܈ П
П П П П П ϑΟʔϧυࠞ߹ К К Ϋϥεࠞ߹
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 考察 • 従来とは違うフィールドの分類結果 • 性格検査は(理論上)「言葉の共通意味空間」を取り出しているが,こ のモデルは「個々人の項目カテゴリとの距離の自己評定」をモデル化 したものだから •
提案手法に適した心理尺度(とその作り方)があるはず • 初期フィールド数は6だが,実質的に2つは混合率の低さから所属する 項目がない(潰れた) • 確率モデルなので,適合度等でフィールド数,クラス数を決定できる • 個人のクラス分けが明確でない 25
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 提案手法の良し悪し • 推定のステップ数の多さ,不安定さ • 非混合多次元展開法の段階で多くの候補を出して,最も マシなものを初期とするのが第一段階 • クラス数の選定は今回外挿的に行なった
• 最後の推定も長くすることで,なんとか収束基準を達成 (warmup=30,000,iteration100,000) • 潜在変数/反応データ生成モデルを考えていないので,不 自然な仮定,因子分析の誤用悪用を回避することができる 26
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* まとめ • 名義尺度,順序尺度反応への拡張,反応カテゴリへの反応感 度の個人差などへの拡張が考えられる • 提案モデルは一例に過ぎず,心理尺度の適切な分析のため に心理モデリングは貢献できるはず •
多次元尺度法,クラスタ分析などをもっと広めたい! • 多相データ,個人差モデルはまだまだモデリングしがいが あるフィールドだと思います! 27
1. 外的基準で数量化でき,それに対応する尺度である→心理尺度 である必要はないが,ラフな近似としての意味があるかも? 2. 反応パターンが一義的でそれに対応して直接意味のある数値化 ができる→テスト理論 3. 反応パターンが一義的で,反応カテゴリの集積が確率分布に従う と仮定できることから,尺度値が数値化できる→態度理論/因子 分析モデル
4. 反応パターンが一義的だが,確率分布が仮定できない→測定モ デルを止める。MDS,クラスタリング,パターン分類へ 5. 反応カテゴリが一義的でなく,程度の評価は個人ごとに異なる→ 非計量MDSの3相モデルなど積極的に個人差をモデル化する 6. 反応カテゴリに個々人の意味が付与されており,その人にしかわ からない→測るという目的に合致しない 28 ৺ ཧ ई ͷ ར ༻ Մ ೳ ੑ
ߦಈܭྔֶձୈճେձಛผηογϣϯ ৺ཧֶʹ͓͚ΔϞσϦϯάΞϓϩʔνͷల։7* 多次元展開法を用いた 多値バイクラスタリング モデルの提案 ◦小杉考司(専修大学人間科学部) 荘島宏二郎(大学入試センター) 清水裕士(関西学院大学社会学部) 29
৺ཧֶత࿈ଓମʢ৺ཧֶ͕ରͱ͢Δൣғʣ ཧతԠ ใ ݸਓͷ ओ؍తҙຯ ࣾձత ؒओ؍త߹ҙ ଌఆํ๏ 物理的測定 (狭義の)心理測定
態度測定 テスト ? 物理モデル 計算モデル 多変量解析 ? ଌఆϞσϧ ݚڀର ݸਓͷओ؍తʮҙຯʯʮܦݧʯΛଌఆ͢Δํ๏Ϟσϧʹ͍ͭͯ΄ͱΜͲސΈΒΕͣɼ ࣾձతɾؒओ؍తҙຯͷଌఆϞσϧΛޡͬͯར༻͍ͯ͠Δέʔε͕ଟ͘ΈΒΕΔ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ ㅟ
Biclusteringの 他のモデル • テストの場合,行方向にも列方向にも比率/正答数で序列か できるのがありがたい。限定的状況だからこそモデリングに はむいているのかも。 • Bi-clusteringはtwo-mode clustering,block clusteringともいわれ,いくつか他のモデルもある
31 (1$.ͷҰൠԽͰ͜Ε໘ന͍ ໊ٛईਫ४ͳΒͪ͜ΒɻϚʔέͳͲͰΘΕͯΔͬΆ͍