Upgrade to Pro — share decks privately, control downloads, hide ads and more …

多変量解析(数量化Ⅰ~Ⅳ類)

katsutan
March 30, 2017

 多変量解析(数量化Ⅰ~Ⅳ類)

長岡技術科学大学 自然言語処理研究室 B3ゼミ発表9

katsutan

March 30, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. データ • 4種の尺度 • 名義尺度 ▫ 数値自体に意味がない • 順序尺度 ▫

    大小には意味がある 2 質的データ 名義尺度 名義的に数値化 男を1、女を2 順序尺度 順序に意味がある 好き1、それほどではな い2、嫌い3 量的データ 間隔尺度 数の間隔に意味がある 部屋の温度計 比例尺度 数値の差や比に意味がある 身長、体重、時間
  2. 数量化Ⅰ類 • 数値データを外的基準として質的データを数量 化 3 物件番号 日照 駅徒歩圏 価格 1

    良 圏外 36.4 2 良 圏内 52.6 ・・・ ・・・ ・・・ ・・・ 9 悪 圏外 20.2 10 悪 圏内 36.5
  3. 数量化Ⅰ類 • カテゴリーごとに見やすくする 4 物件番号 日照 良 悪 駅徒歩圏 圏内

    圏外 価格 1 1 0 0 1 36.4 2 1 0 1 0 52.6 ・・・ ・・・ ・・・ ・・・ 9 0 1 0 1 20.2 10 0 1 1 0 36.5
  4. 数量化Ⅰ類 • カテゴリーウェイト ▫ 各カテゴリーの関係を表す重み • サンプルスコア 1 1 +

    2 2 + 1 1 + 2 2 5 アイテム 日照 駅徒歩圏 カテゴリー 良い 悪い 圏内 圏外 ウェイト 1 2 1 2 物件k 1 2 1 2
  5. 数量化Ⅰ類 • サンプルスコアと目的変量との誤差の平方和が 最小になるカテゴリーウェイトを決定 ▫ 最小二乗法 6 物件番 号 日照

    良 悪 駅徒歩圏 圏内 圏外 サンプルスコア 価格 1 1 0 0 1 1 + 2 36.4 2 1 0 1 0 1 + 1 52.6 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 9 0 1 0 1 2 + 2 20.2 10 0 1 1 0 2 + 1 36.5
  6. 数量化Ⅱ類 • 質的データを外的基準として質的データを数量 化 7 名前 会話 家事 所得 結婚離婚

    A 1 2 1 結婚 B 2 1 1 結婚 C 1 1 2 結婚 D 1 2 2 離婚 会話 家事 所得 1:多い 1:する 1:まあ満足 2:少ない 2:しない 2:不満
  7. 数量化Ⅱ類 • : 全変動 = (1 − )2+(2 − )2+

    ⋯ + ( − )2 z:サンプルスコア • : 群間変動 = ( − )2+ ( − )2 n:群の個体数 P,Q:結婚、離婚 9
  8. 数量化Ⅲ類 • 相関係数R R = 1 − 3 − +

    1 − 4 − + ⋯ + 4 − 3 − 3 1 − 2 + ⋯ + 2 4 − 2 2 1 − 2 + ⋯ + 5 − 2 • 相関係数を最大とするように数量化 12
  9. 数量化Ⅳ類 • 親近度の重みを付けた距離の平方和Q = 5(2 − 1 )2+8(3 − 1

    )2+4(4 − 1 )2 + ⋯ +3(1 − 4 )2+6(2 − 4 )2+7(3 − 4 )2 • Qの最小化で1 , 2 , 3 , 4 を求める 14
  10. 条件付け • 数量化Ⅰ類 ▫ どれか1つのカテゴリーウェイトを0にする • 数量化Ⅱ類 ▫ サンプルスコアの分散を1にする •

    数量化Ⅲ類 ▫ 平均値をそれぞれ0、分散をそれぞれ1にする • 数量化Ⅳ類 ▫ 平均値を0、変動を1にする 15