Upgrade to Pro — share decks privately, control downloads, hide ads and more …

テキストマイニング

katsutan
March 09, 2017

 テキストマイニング

長岡技術科学大学 自然言語処理研究室 B3ゼミ発表7

katsutan

March 09, 2017
Tweet

More Decks by katsutan

Other Decks in Technology

Transcript

  1. 分析の流れ 3 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・

    ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ カテゴリー カテゴリー カテゴリー 概念 概念 概念
  2. 多変量解析 • 多くの変数、データを解析 5 国語 算数 理科 社会 英語 Aさん

    55 70 85 48 57 Bさん 65 60 59 55 72 Cさん 72 55 74 63 85 平均 64.0 61.7 72.7 55.3 71.3
  3. 多変量解析 • 相関関数 = ( − )( − ) (

    − )2 ( − )2 7 国語 算数 理科 社会 英語 国語 1.000 -0.739 -0.511 0.990 0.998 算数 1.000 0.957 -0.638 -0.697 理科 1.000 -0.386 -0.458 社会 1.000 0.997
  4. Χ2値 • 共変動の強さ(分散の大きさ) = 実測値、 = 期待値 2 = −

    2 =1 • 分散が大きい程データには何らかの意味を持っ ている 8
  5. 数量化Ⅲ類 • 質的変数、量的に意味がないデータの解析。 • クロス集計表から線形関係を見出す 9 豚骨 鶏ガラ 煮干し マイルド

    ピリ辛 こってり さっぱり A店 10 1 1 6 5 7 1 B店 10 0 0 2 3 9 0 C店 1 9 1 5 5 2 1 D店 0 1 8 2 0 1 6 E店 9 2 0 4 6 6 0 F店 8 6 7 9 10 1 7
  6. 数量化Ⅲ類 • 左列から順に数値の大きいものに入れ替える 10 豚骨 こってり マイルド ピリ辛 鶏ガラ 煮干し

    さっぱり A店 10 7 6 5 1 1 1 B店 10 9 2 3 0 0 0 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7
  7. 数量化Ⅲ類 • 上から順に数値の大きいもの • こってり-さっぱり 11 豚骨 こってり マイルド ピリ辛

    鶏ガラ 煮干し さっぱり B店 10 9 2 3 0 0 0 A店 10 7 6 5 1 1 1 E店 9 6 4 6 2 0 0 F店 8 1 9 10 6 7 7 C店 1 2 5 5 9 1 1 D店 0 1 2 0 1 8 6
  8. 数量化Ⅲ類 • 寄与率 ▫ その軸がデータの何%を説明するかの指標 12 第一軸 第二軸 第三軸 第四軸

    第五軸 寄与率 64.91% 29.13% 5.32% 0.56% 0.08% 累積寄与率 64.91% 94.04% 99.36% 99.92% 100%
  9. 数量化Ⅲ類 • 座標値 13 B C D A E F

    煮干し さっぱり こってり 豚骨 マイルド 鶏ガラ ピリ辛