テキストマイニング

テキストマイニング長岡技術科学大学自然言語処理研究室学部３年勝田哲弘 1 2017/3/10

テキストマイニングとは • テキストの中の言葉どうしに見られるパターンや規則性を見つけ、知識・情報を取り出す。 ▫ 形態素の出現頻度、あるかないか。 ▫ 出現パターンや相関関係を分析 • 言葉どうしの共通性、類似性
2

分析の流れ 3 ・・・・・・・・・・・・・・・・・・・・・・・・
・・・・・・・・・・・・・・・・・・・・・・・・カテゴリーカテゴリーカテゴリー概念概念概念

分析の流れ • 「複数の事物や事象から共通の特徴を取り出し、それらを包括的、概括的に捉える思考の構成単位」 • 研究者の解釈が含まれると再現性がなくなる。 • 厳密なルールが必要 4 概念
概念概念

多変量解析 • 多くの変数、データを解析 5 国語算数理科社会英語 Aさん
５５７０８５４８５７ Bさん６５６０５９５５７２ Cさん７２５５７４６３８５平均６４．０６１．７７２．７５５．３７１．３

多変量解析 • 相関関数 = ( − )( − ) (
− )2 ( − )2 6

多変量解析 • 相関関数 = ( − )( − ) (
− )2 ( − )2 7 国語算数理科社会英語国語１．０００ -０．７３９ -０．５１１０．９９００．９９８算数１．００００．９５７ -０．６３８ -０．６９７理科１．０００ -０．３８６ -０．４５８社会１．００００．９９７

Χ2値 • 共変動の強さ（分散の大きさ） = 実測値、 = 期待値 2 = −
2 =1 • 分散が大きい程データには何らかの意味を持っている 8

数量化Ⅲ類 • 質的変数、量的に意味がないデータの解析。 • クロス集計表から線形関係を見出す 9 豚骨鶏ガラ煮干しマイルド
ピリ辛こってりさっぱり A店１０１１６５７１ B店１０００２３９０ C店１９１５５２１ D店０１８２０１６ E店９２０４６６０ F店８６７９１０１７

数量化Ⅲ類 • 左列から順に数値の大きいものに入れ替える 10 豚骨こってりマイルドピリ辛鶏ガラ煮干し
さっぱり A店１０７６５１１１ B店１０９２３０００ C店１２５５９１１ D店０１２０１８６ E店９６４６２００ F店８１９１０６７７

数量化Ⅲ類 • 上から順に数値の大きいもの • こってり-さっぱり 11 豚骨こってりマイルドピリ辛
鶏ガラ煮干しさっぱり B店１０９２３０００ A店１０７６５１１１ E店９６４６２００ F店８１９１０６７７ C店１２５５９１１ D店０１２０１８６

数量化Ⅲ類 • 寄与率 ▫ その軸がデータの何％を説明するかの指標 12 第一軸第二軸第三軸第四軸
第五軸寄与率 64.91% 29.13% 5.32% 0.56% 0.08% 累積寄与率 64.91% 94.04% 99.36% 99.92% 100%

数量化Ⅲ類 • 座標値 13 B C D A E F
煮干しさっぱりこってり豚骨マイルド鶏ガラピリ辛

まとめ • 言葉などの質的データに対する客観的な分析方法はすでに確立している。 • 言葉のデータはどれをキーワードにするか、析出するかという点は、恣意的、主観的になる。 14

参考文献 • 福祉・心理・看護のテキストマイニング入門藤井美和・小杉考司・李政元編著中央法規 15

katsutan