Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テキストマイニング

Avatar for katsutan katsutan
March 09, 2017

 テキストマイニング

長岡技術科学大学 自然言語処理研究室 B3ゼミ発表7

Avatar for katsutan

katsutan

March 09, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 分析の流れ 3 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・

    ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ カテゴリー カテゴリー カテゴリー 概念 概念 概念
  2. 多変量解析 • 多くの変数、データを解析 5 国語 算数 理科 社会 英語 Aさん

    55 70 85 48 57 Bさん 65 60 59 55 72 Cさん 72 55 74 63 85 平均 64.0 61.7 72.7 55.3 71.3
  3. 多変量解析 • 相関関数 = ( − )( − ) (

    − )2 ( − )2 7 国語 算数 理科 社会 英語 国語 1.000 -0.739 -0.511 0.990 0.998 算数 1.000 0.957 -0.638 -0.697 理科 1.000 -0.386 -0.458 社会 1.000 0.997
  4. Χ2値 • 共変動の強さ(分散の大きさ) = 実測値、 = 期待値 2 = −

    2 =1 • 分散が大きい程データには何らかの意味を持っ ている 8
  5. 数量化Ⅲ類 • 質的変数、量的に意味がないデータの解析。 • クロス集計表から線形関係を見出す 9 豚骨 鶏ガラ 煮干し マイルド

    ピリ辛 こってり さっぱり A店 10 1 1 6 5 7 1 B店 10 0 0 2 3 9 0 C店 1 9 1 5 5 2 1 D店 0 1 8 2 0 1 6 E店 9 2 0 4 6 6 0 F店 8 6 7 9 10 1 7
  6. 数量化Ⅲ類 • 左列から順に数値の大きいものに入れ替える 10 豚骨 こってり マイルド ピリ辛 鶏ガラ 煮干し

    さっぱり A店 10 7 6 5 1 1 1 B店 10 9 2 3 0 0 0 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7
  7. 数量化Ⅲ類 • 上から順に数値の大きいもの • こってり-さっぱり 11 豚骨 こってり マイルド ピリ辛

    鶏ガラ 煮干し さっぱり B店 10 9 2 3 0 0 0 A店 10 7 6 5 1 1 1 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6
  8. 数量化Ⅲ類 • 寄与率 ▫ その軸がデータの何%を説明するかの指標 12 第一軸 第二軸 第三軸 第四軸

    第五軸 寄与率 64.91% 29.13% 5.32% 0.56% 0.08% 累積寄与率 64.91% 94.04% 99.36% 99.92% 100%
  9. 数量化Ⅲ類 • 座標値 13 B C D A E F

    煮干し さっぱり こってり 豚骨 マイルド 鶏ガラ ピリ辛