Upgrade to Pro — share decks privately, control downloads, hide ads and more …

B3勉強会(2015年3月26日)テキストマイニング

 B3勉強会(2015年3月26日)テキストマイニング

MIKAMI-YUKI

March 26, 2015
Tweet

More Decks by MIKAMI-YUKI

Other Decks in Education

Transcript

  1. 長岡技術科学大学 B3 三上侑城
    3年勉強会 2015年3月26日
    テキストマイニング
    自然言語処理研究室
    1

    View Slide

  2. テキストマイニングとは
    1990年代半ばから広がりはじめた。
    複数の文章データの内容を総合的にとら
    えることで初めて得られる知見を抽出す
    るための内容分析技術。
    2

    View Slide

  3. 可能にすること
    現在、文章データは毎日膨大に増え続
    けている。
    情報が多すぎて、目を通せない。
    その結果、せっかくの文章データを十分に
    活用できない。

    これを打破するのがテキストマイニング
    3

    View Slide

  4. 可能にすること
    膨大な文章データから得られた情報から
    ・一般消費者の意見が企業活動に反映
    されやすくなる。
    ・様々な情報を適切に参照できるので、
    無駄を削減することができる。
    従来、人手で数日かかっていた作業が、
    1時間程度に短縮される。
    4

    View Slide

  5. 基本的な仕組み
    テキストマイニングは文章中に記述された
    内容の統計的な分析であり、
    ・内容をいかにして統計的に分析可能な
    状態にするか。
    ・内容に対して、どの様な統計的分析が
    有効か。
    が中心的な技術課題となっている。
    5

    View Slide

  6. 処理の流れ
    分析対象のデータを
    ・形態素解析 ・構文解析
    ・文脈分析 ・意味解析
    する。この時、
    ・カテゴリ辞書
    ・同義語辞書
    などを使用する。
    6

    View Slide

  7. 適用事例
    コールセンターにおいての使用
    企業には様々な問い合わせや注文、
    確認、苦情などが寄せられる。
    その時に保存される応対の記録は、
    ・顧客が何を言ってきて、それに対しどう
    対応したか。
    ・どのような営業活動に対して顧客がどう
    反応したか。
    7

    View Slide

  8. 適用事例
    それまで多くの企業は資源を活用できず、
    データが埋もれたままになっていた。
    多様な内容を自由に書く形式になるため、
    各データを人の手で読むしかなかった。
    苦情や要望などを把握することで、トラブ
    ルの要因の早期発見や顧客の求めてい
    るものなど、有益な情報が得られる。
    8

    View Slide

  9. PCヘルプセンターの事例
    PCヘルプセンターのデータ蓄積の主な
    目的は、
    ・QA再利用による対応時間短縮
    ・提携項目の分析に基づいた対応
    利用者の満足度を上げるためには、
    ・電話がすぐにつながるようにする。
    9

    View Slide

  10. PCヘルプセンターの事例
    待ち時間を減らすには、
    ・個々の問い合わせにかかる時間を短縮。
    ・問い合わせ自体を減らす。

    ・オペレータ間で情報を共有し合い、
    対応能力を向上させる。
    ・問い合わせが不要になるように、製品の
    質を高める。
    10

    View Slide

  11. PCヘルプセンターの事例
    一週間に1万件近い問い合わせ
    →その分だけ文章データが出来る。
    人手では一週間に300件程度しか、処
    理・分析ができない。

    十分な分析ができているとは、言えない
    状況であった。
    11

    View Slide

  12. PCヘルプセンターの事例
    データ処理をおこなった結果、
    ・総キーワード数は約150万語
    ・語の種類は約10万語
    ・その内2回以上使われた単語は
    約3万7千語
    ・総キーワードの半数以上が760回以上
    同じワードが出てきている。
    12

    View Slide

  13. PCヘルプセンターの事例
    最終的に10回以上出現している、
    約1万6千語を辞書に登録した。
    登録した内容は、カテゴリ分け、表現分
    け、同義表現の集約をおこなった。
    13

    View Slide

  14. PCヘルプセンターの事例
    先ほどの辞書を使用して、文章データを
    分析した。
    質問で適切だと分析した回答を、Web
    上のFAQのサイトに掲載したところ、以前
    と掲載件数は変わらないにもかかわらず、
    問題解決率が大きく上がり、Webサポー
    トの満足度が高くなった。
    14

    View Slide

  15. まとめ
    テキストマイニングは分析志向で、文章
    中に記述された内容を単位にして、それ
    が増えているのか減っている、他の内容と
    どのような相関を持つかなど、どの様な特
    徴があるかを分析し、提示する技術。
    これを使うことで、今まで人手では困難
    だった大量の文章の分析が、できるように
    なった。
    15

    View Slide

  16. ご視聴ありがとうございました
    参考文献
    ・テキストマイニングを使う技術/作る技術
    著:那須川哲哉
    東京電機大学出版局 2006年11月
    16

    View Slide