トラブルを表す文のWebからの抽出

 トラブルを表す文のWebからの抽出

丹治 広樹, 村田 真樹, 柿澤 康範, Stijn, De Saeger, 鳥澤健太郎, 山本 和英. トラブルを表す文のWebからの抽出. 言語処理学会第15回年次大会, pp.140-143 (2009.3)

Transcript

  1. トラブルを表す文のWebからの抽出 丹治広樹 村田真樹 柿澤康範 Stijn,De Saeger 鳥澤健太郎 山本和英 † †

    ‡ ‡ ‡ § † 長岡技術科学大学 {tanji, ykaz}@nlp.nagaokaut.ac.jp ‡ 独立行政法人 情報通信研究機構 {murata, stijn, torisawa}@nict.go.jp § 北陸先端科学技術大学院大学 s0710017@jaist.ac.jp 1
  2. 研究の背景 トラブルを表す文のみを抽出する 2 トラブル例:ウィルスセキュリティをインストールしましたが、 突然重くなり、動作が遅くなってしまいました。 インターネットで 検索してみよう トラブルに遭遇 どこを読めばいいか わからない・・・

    アプローチ
  3. 研究の応用例 3 解決策は あるのかな? セキュリティソフト が重い… トラブルを表す文 解決策・原因を表す文 このソフトは ダメなのか!

    ソフトを変えたら 軽くなった セキュリティソフト セキュリティソフトに 関するトラブルの事例 とその解決策・原因 キーワード トラブルQ&Aシステム
  4. 研究の概要 zYahoo!知恵袋およびTSUBAKIデータを対象に 教師あり機械学習でトラブルを表す文を抽出 zYahoo!知恵袋でF値最大0.7 ¾300万文の文書データから適合率9割程度で トラブルを表す文を約30万文抽出可能 zTSUBAKIデータでF値最大0.47 ¾5億文の文書データから適合率9割程度で トラブルを表す文を約350万文抽出可能 4

  5. トラブルを表す文の抽出 Web文書 学習データ テストデータ 分類器 トラブル の記述 辞書 Web文書 5

  6. 使用した手法 z機械学習手法 • 最大エントロピー法(ME) • サポートベクトルマシン法(SVM) カーネルの次元数d=1(SVM1)とd=2(SVM2)を使用 z辞書とのマッチングによる方法(辞書マッチ) 辞書に記載されている表現を2つ以上含む文は トラブルを表す文であると判定

    例:セキュリティソフトを入れたら同種ソフトの<妨害>により パソコンの電源が<切れ><なく>なって<困り>ました。 → 4つ含むのでトラブル 6
  7. 機械学習手法の素性 素性番号 素性説明 素性番号 素性説明 S1 文章の長さ S16 動詞辞書とマッチした数 S2

    文章中の単語 uni-gram S17 マッチした動詞を含む単語 uni-gram S3 文章中の単語 bi-gram S18 マッチした動詞を含む単語 bi-gram S4 文章中の単語 tri-gram S19 マッチした動詞を含む単語 tri-gram S5 文章中に含まれる単語数 S20 形容詞辞書とマッチした数 S6 文章の平均単語長 S21 マッチした形容詞を含む単語 uni-gram S7 文章中の各文の文末文字列 S22 マッチした形容詞を含む単語 bi-gram S8 最初の文の文末文字列 S23 マッチした形容詞を含む単語 tri-gram S9 最初の文の長さ S24 フレーズ辞書とマッチした数 S10 最後の文の文末文字列 S25 マッチしたフレーズ S11 最後の文の長さ S26 パターン辞書とマッチした数 S12 名詞辞書とマッチした数 S27 マッチしたパターン S13 マッチした名詞を含む単語 uni-gram S28 擬音辞書とマッチした数 S14 マッチした名詞を含む単語 bi-gram S29 マッチした擬音 S15 マッチした名詞を含む単語 tri-gram S30 全ての辞書でマッチした数 7
  8. トラブルを表す文の抽出実験 Yahoo!知恵袋 • 学習データ 1,000文(うちトラブル281文) • テストデータ 1,000文(うちトラブル263文) TSUBAKIデータ •

    学習データ 1,000文(うちトラブル128文) • テストデータ 1,000文(うちトラブル126文) 事前調査 学習データで交差検定を行い、MEの確率値および SVMの分離平面との距離がF値最大になる点を算出 8 Yahoo!知恵袋 TSUBAKIデータ
  9. 実験結果 ベースライン:出力をすべてトラブルと判定 • ブートストラップ法により有意差を検証 +:ベースラインに対して有意に良い *:辞書マッチに対して有意に良い Yahoo!知恵袋 TSUBAKIデータ 適合率 再現率

    F値 適合率 再現率 F値 ベースライン 0.263 1.000 0.416 0.126 1.000 0.224 辞書マッチ 0.473 0.806 0.596 0.303 0.690 0.421 ME 0.592 0.840 0.695 0.338 0.619 0.437 SVM1 0.639 0.768 0.698 0.409 0.556 0.471 SVM2 0.633 0.715 0.671 0.386 0.540 0.450 9 +* +* +* + +* +* + +
  10. 再現率・適合率曲線 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4

    0.6 0.8 1 適 合率 再 現率 Yahoo!知恵袋 TSUBAKIデータ 大規模なWebが対象 再現率が低くても トラブルを表す文を 適合率よく大量に 収集可能 10 zYahoo!知恵袋10万文から9,313文抽出 zTSUBAKIデータ100万文から6,995文抽出
  11. 考察:正規化α値 最大エントロピー法で求まるα値を正規化した値 α値が大きいほど重要な素性であるといえる 素性の単語 トラブル 度 素性の単語 非トラブル 度 S2_が

    0.664 S2_は 0.664 S30_1 0.662 S2_お 0.643 S2_しまい 0.633 S2_って 0.634 S30_3 0.627 S8_? 0.613 S3_のですが 0.617 S10_? 0.596 S20_1 0.616 S2_人 0.591 S3_わかりませ 0.615 S2_2 0.590 S4_わかりません 0.615 S2_聞き 0.589 S7_かりません。 0.614 S3_? 0.588 S16_1 0.607 S17_違う 0.585 . . . . . . . . . . . . Yahoo!知恵袋で重要な素性 TSUBAKIデータで重要な素性 素性の単語 トラブル 度 素性の単語 非トラブル 度 S30_1 0.712 S2_・ 0.635 S2_場合 0.674 S2_ます 0.598 S16_1 0.665 S2_や 0.593 S30_3 0.658 S2_ように 0.592 S2_のに 0.642 S2_. 0.589 S2_ほど 0.628 S1_150 0.582 S26_1 0.623 S2_たい 0.579 S2_あり 0.617 S2_を 0.571 S2_が 0.613 S2_か 0.568 S2_車 0.609 S2_ことは 0.566 . . . . . . . . . . . . 11 ※ ※
  12. □ 辞書とマッチした回数は重要 □ 逆接はトラブルを表す 例:「最近PCを買ったのですが、DVDドライブがついていません でした」 表現の前後どちらかはトラブルを表す可能性が高い □ Yahoo!知恵袋で「?」はトラブルでない 例:「おでんにオススメの具材は何ですか?」

    トラブルでなく、知恵や知識を問う質問が多数 Yahoo!知恵袋のような掲示板特有の傾向だと考える ※トラブル度 :トラブルとするときの正規化α値 ※非トラブル度:トラブルでないとするときの正規化α値 考察:正規化α値 12
  13. 結論 zまとめ • トラブルを表す表現等を機械学習の素性として トラブルを表す文を抽出した ¾Yahoo!知恵袋で F値最大0.7 300万文のデータから約30万文抽出可能 ¾TSUBAKIデータで F値最大0.47

    5億文のデータから約350万文抽出可能 z今後の展望 • 抽出したトラブルに対応する解決策の獲得 • トラブル検索やQ&A作成への応用 13
  14. 補足資料 14

  15. トラブルを表す文の抽出について トラブルを検索する人が欲しい情報は何か? • どのようなトラブルなのか? • そのトラブルを解決する方法はあるのか? • 何が原因でそのトラブルが起きるのか? Step 1:トラブルを表す文の抽出(本稿はここ)

    Step 2:トラブルに対する解決策を表す文の抽出 および トラブルの原因を表す文の抽出 15
  16. 研究の目標 獲得したい文の例 ウィルスセキュリティをインストールしましたが、 突然重くなり、動作が遅くなってしまいました。 ウィルスセキュリティをもう一度インストールしてく ださい。あと、古いウィルス対策ソフトは先にアンイ ンストールしてください。 複数のウィルス対策ソフトを同時にインストールする と、ソフト同士が干渉しあい、処理能力が低下したり フリーズしたりします。

    16 トラブル 解決策 原因
  17. 使用したWeb文書データ zYahoo!知恵袋 • Question、Normal Answer、Best Answerの3種 トラブルの事例が含まれやすいQuestionを使用 • 2004年4月~2005年10月の文書データを使用 記事をランダムに抽出

    zTSUBAKIデータ • TSUBAKIが提供している大量のWeb文書 50文字以上で日本語を含む文のみを使用 17
  18. トラブルを表す表現の辞書 文の抽出にトラブルを表す表現の辞書を使用 • 名詞辞書 :「事故」「サーバー停止」 • 動詞辞書 :「壊れる」「入れ忘れる」 • 形容詞辞書

    :「悪い」「見つからない」 • フレーズ辞書 :「価格が高い」「威力が低い」 • パターン辞書 :「できない」「起こる」 • 擬音辞書 :「びしょびしょ」「ズタズタ」等 18
  19. 機械学習に使用した素性 z文の長さ z文章中の単語情報 • 出現する単語 N-gram (例:電源、電源が切れ) • 文章の単語数 •

    文末文字列 (例:くなって困りました。) z文章中の始めの文と終わりの文の情報 zトラブルを表す表現の辞書とのマッチ • マッチした単語 (例:妨害) • マッチした単語の周辺 (例:の妨害、妨害により) • それぞれの辞書とマッチした数 19
  20. 閾値の算出 閾値:MEの確率値およびSVMの対象と分離平面と の距離を変えたときにF値最大となる点 20 0 0.2 0.4 0.6 0.8 0

    0.2 0.4 0.6 0.8 1 閾値 F値 MEにおけるF値の閾値依存性 デフォルト F値最大
  21. ブートストラップ法による検定 21 重複を許して1,000文取り出しF値の勝敗をみる これを10,000回繰り返して勝率を計算 ベースライン 辞書マッチ ME SVM1 SVM2 ベースライン

    - 0.0000 0.0000 0.0000 0.0000 辞書マッチ 1.0000 - 0.0000 0.0003 0.0001 ME 1.0000 1.0000 - 0.8076 0.8188 SVM1 1.0000 0.9997 0.1924 - 0.5200 SVM2 1.0000 0.9999 0.1812 0.4800 - ベースライン 辞書マッチ ME SVM1 SVM2 ベースライン - 0.0000 0.0000 0.0000 0.0000 辞書マッチ 1.0000 - 0.0098 0.0180 0.1071 ME 1.0000 0.9902 - 0.5974 0.8521 SVM1 1.0000 0.9820 0.4026 - 0.8572 SVM2 1.0000 0.8929 0.1479 0.1428 - Yahoo!知恵袋 TSUBAKIデータ
  22. z逆接を表す表現はトラブルを表す(TSUBAKI) 例:「金曜日以外の平日に到着するようお願いした のに、わざわざ金曜日指定で届きました。」 Yahoo!知恵袋と同様の傾向がみられる z「たい」はトラブルでない 例:「参考資料というのがございますが、それの2つ のグラフについて御説明いただきたい。」 希望や要望を表す文はトラブルでない可能性が高い 「『~したい』と述べた」といった使われ方も 22

    考察:正規化α値
  23. 考察:不正解例の検証 zトラブルでない文をトラブルと判定した事例 トラブルを表す表現を列挙している場合 例:「弊社は個人情報の紛失、破壊、改ざん、漏えいなどを防 止するため不正アクセス、コンピュータウィルス等に対 する適切なセキュリティー対策を講じます」 表現を誤認してしまった場合 例:「口の中で消えてしまうような口どけの生地とクリーム」 23

  24. zトラブルをトラブルでないと判定した事例 手がかりがひとつしかなく弱い場合 例:「データが入ったpassを紛失した模様」 z対策 ¾「紛失-防止する」「消える-口どけ」のように 係り受けを見て判断する ¾「紛失-した」のように過去形に重みを置く 24 考察:不正解例の検証

  25. トラブルをトラブルと判定した事例 半年前に新築しました。 家の基礎の部分に、コンクリートの灰汁 が染み出て ブラシで何度こすってもキリがありません。 灰汁を出 なくする方法か、目立たなくする方法がありましたら教えてください。 吹奏楽団でコントラバスを演奏しているのですが、弓で弾くと 「ビーン」と変な音が混じってしまいます。何が原因なんでしょう か?

    弦を替えれば直るのでしょうか? ちなみに弦はいくらくらい するものなんでしょうか? 子供の頃転んで歯を怪我してしまいました。 色が変色しているの はどうやったら治せますか? お風呂の浴槽が黒ずんできました。普通に掃除をしても きれい に落ちないんですがどうすればいいのですか。 25 正解例(Yahoo!知恵袋)
  26. トラブルでないものをトラブルでないと判定した事例 群馬県の草津温泉で、みなさんのお勧めの宿があれば教えてくださ い! サイコロの1だけ赤いのは、なぜですか? ダフ屋はなぜ違法なのですか? 賞味期限の切れた納豆、牛乳、卵はみなさん何日くらいまで許容範 囲ですか?? 私は、納豆は2日、牛乳は1日、卵は即日なのです が。。。 是非是非!!教えて下さい。

    どうして恒星が中心で惑星が周りをまわることになるのですか?た とえば太陽系だと、木星が中心で地球や太陽が周りをまわることには なりえないのですか? 26 正解例(Yahoo!知恵袋)
  27. トラブルをトラブルでないと判定した事例 玄関前で鳩が雨宿りしています 私は動物が嫌いなので すごく 困っています どうすればこの鳩を追い払う事ができますか さっき、明太子ご飯とアイスクリームを食べたら、体調が悪くなり ました。 食べ合わせが悪かったんでしょうか? 最悪の食べ合わせ

    は何ですか? 左太ももの横の部分に、梵字のようなものが、たまに現れます、な にか原因あるのでしょうか? ペットを飼われている方に質問です。 デンタルケアはどうしてい ますか? ガムや歯磨き効果のあるロープのようなものを噛ませては いるのですが、 歯の汚れが気になります。 アドバイスをお願いし ます。 27 不正解例(Yahoo!知恵袋)
  28. トラブルでないものをトラブルと判定した事例 Excelについて教えて下さい。 横の一行を固定(スクロール しても動かなく)したいのですが、どの様にすればいいでしょうか? 今日、電気屋さんでパソコンを触ってたらフォルダをダブルクリッ クではなくてワンクリックしただけで開いてました。 何かの設定で こんな事できるんでしょうか?教えてください。 応募メールに写真を添付して送るのに、ビットマップ(サイズ4. 65

    MB)を送るのですが、大きすぎますか?またPCによって見 れないなんてことないですか? 彼のお母さんの誕生日に何かプレゼントをしたいのです。 年齢は 60歳ですが、50代前半にしか見えません。 高いものは気を使わ せそうなので、何かよいアイデアはありませんでしょうか? 28 不正解例(Yahoo!知恵袋)
  29. トラブルをトラブルと判定した事例 めまい、吐き気、頭痛などの症状で、住宅建材や壁紙、家具などに 含まれるホルムアルデヒドやトルエンなどの化学物質が人体に影響を 及ぼすとされているが、原因は究明されていない。 フォルダオプションの[表示]タブにある「登録されている拡張子 は表示しない」のチェックを解除すると、すべてのファイルの拡張子 が表示されてしまいます。 そして避難指示から二日後、有珠山は22年ぶりに噴火し、隆起・ 噴石・泥流などによる大きな被害を及ぼしました。 あそこは、いくら運転技術があり、また気をつけても、あの車間距

    離、めちゃめちゃな道路設計では避けようもない事故がおこります。 29 正解例(TSUBAKIデータ)
  30. トラブルでないものをトラブルでないと判定した事例 ちょっとしたきっかけで副業としてネットビジネスをはじめたんで すが、いい情報がありましたのでシェアしたいと思います。 PHPのイメージ関数によりJPEG、GIF、PNG、SWF、 TIFF、JPEG2000イメージの大きさを知ることができま す。 カシスはブラックカラントや黒スグリとも呼ばれる、直径1cm弱 の濃い紫色の果実で、4種類のアントシアニンが含まれるベリー類の 一種です。 このように温泉としてもたいへん良質なものでありますが当館では

    さらに温泉療養効果を高めるべく世界的に希少価値の高い北投石やト ルマリンを使用した天然ラジウム岩盤浴を併設しております。 30 正解例(TSUBAKIデータ)
  31. トラブルをトラブルでないと判定した事例 添付ファイルを開こうとすると「アプリケーションが関連付けられ ていません」というエラーメッセージがでます 私は赤ちゃんのために作られているはずである、あるメーカーの 「ベ◦ーローション」を塗って湿疹が出た事があります。 その間病気らしい病気もせず とても元気に過ごしてきましたが 年には 勝てず 最近

    関節・肝臓が悪くなってきて サプリメント ・薬を飲んでいます。 1.5リットルのペットボトルだとおよそ砂糖150グラムを食 べることになってしまう、それはもう大変な量の糖分が入っていま す。 31 不正解例(TSUBAKIデータ)
  32. トラブルでないものをトラブルと判定した事例 彼によると、ボルケーノではカナビスが気化する温度で蒸気をつく るり燃焼することはないので、発癌性物質を放出するジョイント喫煙 よりも害がないと言う。 プロクシフェンNは、頭頂が薄くなってゆくタイプにも、また額が 禿げ上がるタイプにも良い結果があるとの臨床結果が報告済みの商品 です。 災害は、いつ、どこで起きても不思議ではない今、万が一に備えて の準備をしておくことが、被害の軽減につながります。 在庫状況や価格はタイミングによって変更されることがありますの

    で、アマゾンのサイトで購入手続きを行う際にもう一度確認してくだ さい。 32 不正解例(TSUBAKIデータ)
  33. 使用した言語資源およびツール 1) 高村大也. 単語感情極性対応表, http://www.lr.pi.titech.ac.jp/~takamura/index_j.html 2) 小林のぞみ, 乾健太郎, 松本裕治. 評価表現辞書,

    http://www.syncha.org/evaluative_expressions.html 3) 鍜治伸裕. 評価表現辞書, http://www.tkl.iis.u-tokyo.ac.jp/~kaji/ 4) Masao Uchiyama. Maximum Entropy Modeling Package. http://www2.nict.go.jp/x/x161/members/mutiyama/software.html , 2006. 5) Taku Kudo. TinySVM : Support Vector Machines. http://chasen.org/~taku/software/TinySVM/ , 2002. 6) ヤフー株式会社. 「Yahoo!知恵袋-研究機関提供用データデータ仕様書 国立情報学研究所(NII)提供版ver1.0」. 国立情報学研究所, 2007. 7) 新里圭司, 黒橋禎夫. 検索エンジン基盤TSUBAKI. 2007. 33