長岡技術科学大学 B3 三上侑城3年勉強会 2015年3月26日テキストマイニング自然言語処理研究室1
View Slide
テキストマイニングとは1990年代半ばから広がりはじめた。複数の文章データの内容を総合的にとらえることで初めて得られる知見を抽出するための内容分析技術。2
可能にすること現在、文章データは毎日膨大に増え続けている。情報が多すぎて、目を通せない。その結果、せっかくの文章データを十分に活用できない。↓これを打破するのがテキストマイニング3
可能にすること膨大な文章データから得られた情報から・一般消費者の意見が企業活動に反映されやすくなる。・様々な情報を適切に参照できるので、無駄を削減することができる。従来、人手で数日かかっていた作業が、1時間程度に短縮される。4
基本的な仕組みテキストマイニングは文章中に記述された内容の統計的な分析であり、・内容をいかにして統計的に分析可能な状態にするか。・内容に対して、どの様な統計的分析が有効か。が中心的な技術課題となっている。5
処理の流れ分析対象のデータを・形態素解析 ・構文解析・文脈分析 ・意味解析する。この時、・カテゴリ辞書・同義語辞書などを使用する。6
適用事例コールセンターにおいての使用企業には様々な問い合わせや注文、確認、苦情などが寄せられる。その時に保存される応対の記録は、・顧客が何を言ってきて、それに対しどう対応したか。・どのような営業活動に対して顧客がどう反応したか。7
適用事例それまで多くの企業は資源を活用できず、データが埋もれたままになっていた。多様な内容を自由に書く形式になるため、各データを人の手で読むしかなかった。苦情や要望などを把握することで、トラブルの要因の早期発見や顧客の求めているものなど、有益な情報が得られる。8
PCヘルプセンターの事例PCヘルプセンターのデータ蓄積の主な目的は、・QA再利用による対応時間短縮・提携項目の分析に基づいた対応利用者の満足度を上げるためには、・電話がすぐにつながるようにする。9
PCヘルプセンターの事例待ち時間を減らすには、・個々の問い合わせにかかる時間を短縮。・問い合わせ自体を減らす。↓・オペレータ間で情報を共有し合い、対応能力を向上させる。・問い合わせが不要になるように、製品の質を高める。10
PCヘルプセンターの事例一週間に1万件近い問い合わせ→その分だけ文章データが出来る。人手では一週間に300件程度しか、処理・分析ができない。↓十分な分析ができているとは、言えない状況であった。11
PCヘルプセンターの事例データ処理をおこなった結果、・総キーワード数は約150万語・語の種類は約10万語・その内2回以上使われた単語は約3万7千語・総キーワードの半数以上が760回以上同じワードが出てきている。12
PCヘルプセンターの事例最終的に10回以上出現している、約1万6千語を辞書に登録した。登録した内容は、カテゴリ分け、表現分け、同義表現の集約をおこなった。13
PCヘルプセンターの事例先ほどの辞書を使用して、文章データを分析した。質問で適切だと分析した回答を、Web上のFAQのサイトに掲載したところ、以前と掲載件数は変わらないにもかかわらず、問題解決率が大きく上がり、Webサポートの満足度が高くなった。14
まとめテキストマイニングは分析志向で、文章中に記述された内容を単位にして、それが増えているのか減っている、他の内容とどのような相関を持つかなど、どの様な特徴があるかを分析し、提示する技術。これを使うことで、今まで人手では困難だった大量の文章の分析が、できるようになった。15
ご視聴ありがとうございました参考文献・テキストマイニングを使う技術/作る技術著:那須川哲哉東京電機大学出版局 2006年11月16