多変量解析（数量化Ⅰ～Ⅳ類）

多変量解析（数量化Ⅰ～Ⅳ類）長岡技術科学大学自然言語処理研究室学部３年勝田哲弘 1 2017/3/31

データ • ４種の尺度 • 名義尺度 ▫ 数値自体に意味がない • 順序尺度 ▫
大小には意味がある 2 質的データ名義尺度名義的に数値化男を１、女を２順序尺度順序に意味がある好き１、それほどではない２、嫌い３量的データ間隔尺度数の間隔に意味がある部屋の温度計比例尺度数値の差や比に意味がある身長、体重、時間

数量化Ⅰ類 • 数値データを外的基準として質的データを数量化 3 物件番号日照駅徒歩圏価格１
良圏外３６．４２良圏内５２．６・・・・・・・・・・・・９悪圏外２０．２１０悪圏内３６．５

数量化Ⅰ類 • カテゴリーごとに見やすくする 4 物件番号日照良悪駅徒歩圏圏内
圏外価格１１００１３６．４２１０１０５２．６・・・・・・・・・・・・９０１０１２０．２１００１１０３６．５

数量化Ⅰ類 • カテゴリーウェイト ▫ 各カテゴリーの関係を表す重み • サンプルスコア 1 1 +
2 2 + 1 1 + 2 2 5 アイテム日照駅徒歩圏カテゴリー良い悪い圏内圏外ウェイト 1 2 1 2 物件k 1 2 1 2

数量化Ⅰ類 • サンプルスコアと目的変量との誤差の平方和が最小になるカテゴリーウェイトを決定 ▫ 最小二乗法 6 物件番号日照
良悪駅徒歩圏圏内圏外サンプルスコア価格１１００１ 1 + 2 ３６．４２１０１０ 1 + 1 ５２．６・・・・・・・・・・・・・・・９０１０１ 2 + 2 ２０．２１００１１０ 2 + 1 ３６．５

数量化Ⅱ類 • 質的データを外的基準として質的データを数量化 7 名前会話家事所得結婚離婚
A １２１結婚 B ２１１結婚 C １１２結婚 D １２２離婚会話家事所得１：多い１：する１：まあ満足２：少ない２：しない２：不満

数量化Ⅱ類 • サンプルスコアを計算し、カテゴリーウェイトを決定 ▫ 相関比を最大に • 相関比 2 =
: 全変動 : 群間変動 8

数量化Ⅱ類 • : 全変動 = (1 − )2+(2 − )2+
⋯ + ( − )2 z:サンプルスコア • : 群間変動 = ( − )2+ ( − )2 n:群の個体数 P,Q:結婚、離婚 9

数量化Ⅲ類 • 全てのカテゴリーが対等、目安の変量がない 10 和食中華洋食エスニック２０代１
１３０代１１４０代１１１５０代１１６０代１

数量化Ⅲ類 • 対角線上に１が集まるように並び替え • カテゴリーウェイトの大小順 11 和食1 洋食3 エスニック4 中華2
６０代5 １５０代4 １１４０代3 １１１３０代2 １１２０代1 １１

数量化Ⅲ類 • 相関係数R R = 1 − 3 − +
1 − 4 − + ⋯ + 4 − 3 − 3 1 − 2 + ⋯ + 2 4 − 2 2 1 − 2 + ⋯ + 5 − 2 • 相関係数を最大とするように数量化 12

数量化Ⅳ類 • 数量化Ⅲ類と同様に数量化の基準がない資料が対象 • 親近度 13 ５８４
５７５７７８３６７

数量化Ⅳ類 • 親近度の重みを付けた距離の平方和Q = 5(2 − 1 )2+8(3 − 1
)2+4(4 − 1 )2 + ⋯ +3(1 − 4 )2+6(2 − 4 )2+7(3 − 4 )2 • Qの最小化で1 , 2 , 3 , 4 を求める 14

条件付け • 数量化Ⅰ類 ▫ どれか１つのカテゴリーウェイトを０にする • 数量化Ⅱ類 ▫ サンプルスコアの分散を１にする •
数量化Ⅲ類 ▫ 平均値をそれぞれ０、分散をそれぞれ１にする • 数量化Ⅳ類 ▫ 平均値を０、変動を１にする 15

多変量解析（数量化Ⅰ～Ⅳ類）

多変量解析（数量化Ⅰ～Ⅳ類）

katsutan

More Decks by katsutan

Other Decks in Technology

Featured

Transcript

多変量解析（数量化Ⅰ～Ⅳ類）長岡技術科学大学自然言語処理研究室学部３年勝田哲弘 1 2017/3/31

データ • ４種の尺度 • 名義尺度 ▫ 数値自体に意味がない • 順序尺度 ▫

数量化Ⅰ類 • 数値データを外的基準として質的データを数量化 3 物件番号日照駅徒歩圏価格１

数量化Ⅰ類 • カテゴリーごとに見やすくする 4 物件番号日照良悪駅徒歩圏圏内

数量化Ⅰ類 • カテゴリーウェイト ▫ 各カテゴリーの関係を表す重み • サンプルスコア 1 1 +

数量化Ⅰ類 • サンプルスコアと目的変量との誤差の平方和が最小になるカテゴリーウェイトを決定 ▫ 最小二乗法 6 物件番号日照

数量化Ⅱ類 • 質的データを外的基準として質的データを数量化 7 名前会話家事所得結婚離婚

数量化Ⅱ類 • サンプルスコアを計算し、カテゴリーウェイトを決定 ▫ 相関比を最大に • 相関比 2 =

数量化Ⅱ類 • : 全変動 = (1 − )2+(2 − )2+

数量化Ⅲ類 • 全てのカテゴリーが対等、目安の変量がない 10 和食中華洋食エスニック２０代１

数量化Ⅲ類 • 対角線上に１が集まるように並び替え • カテゴリーウェイトの大小順 11 和食1 洋食3 エスニック4 中華2

数量化Ⅲ類 • 相関係数R R = 1 − 3 − +

数量化Ⅳ類 • 数量化Ⅲ類と同様に数量化の基準がない資料が対象 • 親近度 13 ５８４

数量化Ⅳ類 • 親近度の重みを付けた距離の平方和Q = 5(2 − 1 )2+8(3 − 1

条件付け • 数量化Ⅰ類 ▫ どれか１つのカテゴリーウェイトを０にする • 数量化Ⅱ類 ▫ サンプルスコアの分散を１にする •