Upgrade to Pro — share decks privately, control downloads, hide ads and more …

トラブルを表す文のWebからの抽出

 トラブルを表す文のWebからの抽出

丹治 広樹, 村田 真樹, 柿澤 康範, Stijn, De Saeger, 鳥澤健太郎, 山本 和英. トラブルを表す文のWebからの抽出. 言語処理学会第15回年次大会, pp.140-143 (2009.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. トラブルを表す文のWebからの抽出 丹治広樹 村田真樹 柿澤康範 Stijn,De Saeger 鳥澤健太郎 山本和英 † †

    ‡ ‡ ‡ § † 長岡技術科学大学 {tanji, ykaz}@nlp.nagaokaut.ac.jp ‡ 独立行政法人 情報通信研究機構 {murata, stijn, torisawa}@nict.go.jp § 北陸先端科学技術大学院大学 [email protected] 1
  2. 研究の応用例 3 解決策は あるのかな? セキュリティソフト が重い… トラブルを表す文 解決策・原因を表す文 このソフトは ダメなのか!

    ソフトを変えたら 軽くなった セキュリティソフト セキュリティソフトに 関するトラブルの事例 とその解決策・原因 キーワード トラブルQ&Aシステム
  3. 機械学習手法の素性 素性番号 素性説明 素性番号 素性説明 S1 文章の長さ S16 動詞辞書とマッチした数 S2

    文章中の単語 uni-gram S17 マッチした動詞を含む単語 uni-gram S3 文章中の単語 bi-gram S18 マッチした動詞を含む単語 bi-gram S4 文章中の単語 tri-gram S19 マッチした動詞を含む単語 tri-gram S5 文章中に含まれる単語数 S20 形容詞辞書とマッチした数 S6 文章の平均単語長 S21 マッチした形容詞を含む単語 uni-gram S7 文章中の各文の文末文字列 S22 マッチした形容詞を含む単語 bi-gram S8 最初の文の文末文字列 S23 マッチした形容詞を含む単語 tri-gram S9 最初の文の長さ S24 フレーズ辞書とマッチした数 S10 最後の文の文末文字列 S25 マッチしたフレーズ S11 最後の文の長さ S26 パターン辞書とマッチした数 S12 名詞辞書とマッチした数 S27 マッチしたパターン S13 マッチした名詞を含む単語 uni-gram S28 擬音辞書とマッチした数 S14 マッチした名詞を含む単語 bi-gram S29 マッチした擬音 S15 マッチした名詞を含む単語 tri-gram S30 全ての辞書でマッチした数 7
  4. トラブルを表す文の抽出実験 Yahoo!知恵袋 • 学習データ 1,000文(うちトラブル281文) • テストデータ 1,000文(うちトラブル263文) TSUBAKIデータ •

    学習データ 1,000文(うちトラブル128文) • テストデータ 1,000文(うちトラブル126文) 事前調査 学習データで交差検定を行い、MEの確率値および SVMの分離平面との距離がF値最大になる点を算出 8 Yahoo!知恵袋 TSUBAKIデータ
  5. 実験結果 ベースライン:出力をすべてトラブルと判定 • ブートストラップ法により有意差を検証 +:ベースラインに対して有意に良い *:辞書マッチに対して有意に良い Yahoo!知恵袋 TSUBAKIデータ 適合率 再現率

    F値 適合率 再現率 F値 ベースライン 0.263 1.000 0.416 0.126 1.000 0.224 辞書マッチ 0.473 0.806 0.596 0.303 0.690 0.421 ME 0.592 0.840 0.695 0.338 0.619 0.437 SVM1 0.639 0.768 0.698 0.409 0.556 0.471 SVM2 0.633 0.715 0.671 0.386 0.540 0.450 9 +* +* +* + +* +* + +
  6. 再現率・適合率曲線 0 0.2 0.4 0.6 0.8 1 0 0.2 0.4

    0.6 0.8 1 適 合率 再 現率 Yahoo!知恵袋 TSUBAKIデータ 大規模なWebが対象 再現率が低くても トラブルを表す文を 適合率よく大量に 収集可能 10 zYahoo!知恵袋10万文から9,313文抽出 zTSUBAKIデータ100万文から6,995文抽出
  7. 考察:正規化α値 最大エントロピー法で求まるα値を正規化した値 α値が大きいほど重要な素性であるといえる 素性の単語 トラブル 度 素性の単語 非トラブル 度 S2_が

    0.664 S2_は 0.664 S30_1 0.662 S2_お 0.643 S2_しまい 0.633 S2_って 0.634 S30_3 0.627 S8_? 0.613 S3_のですが 0.617 S10_? 0.596 S20_1 0.616 S2_人 0.591 S3_わかりませ 0.615 S2_2 0.590 S4_わかりません 0.615 S2_聞き 0.589 S7_かりません。 0.614 S3_? 0.588 S16_1 0.607 S17_違う 0.585 . . . . . . . . . . . . Yahoo!知恵袋で重要な素性 TSUBAKIデータで重要な素性 素性の単語 トラブル 度 素性の単語 非トラブル 度 S30_1 0.712 S2_・ 0.635 S2_場合 0.674 S2_ます 0.598 S16_1 0.665 S2_や 0.593 S30_3 0.658 S2_ように 0.592 S2_のに 0.642 S2_. 0.589 S2_ほど 0.628 S1_150 0.582 S26_1 0.623 S2_たい 0.579 S2_あり 0.617 S2_を 0.571 S2_が 0.613 S2_か 0.568 S2_車 0.609 S2_ことは 0.566 . . . . . . . . . . . . 11 ※ ※
  8. □ 辞書とマッチした回数は重要 □ 逆接はトラブルを表す 例:「最近PCを買ったのですが、DVDドライブがついていません でした」 表現の前後どちらかはトラブルを表す可能性が高い □ Yahoo!知恵袋で「?」はトラブルでない 例:「おでんにオススメの具材は何ですか?」

    トラブルでなく、知恵や知識を問う質問が多数 Yahoo!知恵袋のような掲示板特有の傾向だと考える ※トラブル度 :トラブルとするときの正規化α値 ※非トラブル度:トラブルでないとするときの正規化α値 考察:正規化α値 12
  9. 結論 zまとめ • トラブルを表す表現等を機械学習の素性として トラブルを表す文を抽出した ¾Yahoo!知恵袋で F値最大0.7 300万文のデータから約30万文抽出可能 ¾TSUBAKIデータで F値最大0.47

    5億文のデータから約350万文抽出可能 z今後の展望 • 抽出したトラブルに対応する解決策の獲得 • トラブル検索やQ&A作成への応用 13
  10. トラブルを表す表現の辞書 文の抽出にトラブルを表す表現の辞書を使用 • 名詞辞書 :「事故」「サーバー停止」 • 動詞辞書 :「壊れる」「入れ忘れる」 • 形容詞辞書

    :「悪い」「見つからない」 • フレーズ辞書 :「価格が高い」「威力が低い」 • パターン辞書 :「できない」「起こる」 • 擬音辞書 :「びしょびしょ」「ズタズタ」等 18
  11. 機械学習に使用した素性 z文の長さ z文章中の単語情報 • 出現する単語 N-gram (例:電源、電源が切れ) • 文章の単語数 •

    文末文字列 (例:くなって困りました。) z文章中の始めの文と終わりの文の情報 zトラブルを表す表現の辞書とのマッチ • マッチした単語 (例:妨害) • マッチした単語の周辺 (例:の妨害、妨害により) • それぞれの辞書とマッチした数 19
  12. ブートストラップ法による検定 21 重複を許して1,000文取り出しF値の勝敗をみる これを10,000回繰り返して勝率を計算 ベースライン 辞書マッチ ME SVM1 SVM2 ベースライン

    - 0.0000 0.0000 0.0000 0.0000 辞書マッチ 1.0000 - 0.0000 0.0003 0.0001 ME 1.0000 1.0000 - 0.8076 0.8188 SVM1 1.0000 0.9997 0.1924 - 0.5200 SVM2 1.0000 0.9999 0.1812 0.4800 - ベースライン 辞書マッチ ME SVM1 SVM2 ベースライン - 0.0000 0.0000 0.0000 0.0000 辞書マッチ 1.0000 - 0.0098 0.0180 0.1071 ME 1.0000 0.9902 - 0.5974 0.8521 SVM1 1.0000 0.9820 0.4026 - 0.8572 SVM2 1.0000 0.8929 0.1479 0.1428 - Yahoo!知恵袋 TSUBAKIデータ
  13. トラブルをトラブルと判定した事例 半年前に新築しました。 家の基礎の部分に、コンクリートの灰汁 が染み出て ブラシで何度こすってもキリがありません。 灰汁を出 なくする方法か、目立たなくする方法がありましたら教えてください。 吹奏楽団でコントラバスを演奏しているのですが、弓で弾くと 「ビーン」と変な音が混じってしまいます。何が原因なんでしょう か?

    弦を替えれば直るのでしょうか? ちなみに弦はいくらくらい するものなんでしょうか? 子供の頃転んで歯を怪我してしまいました。 色が変色しているの はどうやったら治せますか? お風呂の浴槽が黒ずんできました。普通に掃除をしても きれい に落ちないんですがどうすればいいのですか。 25 正解例(Yahoo!知恵袋)
  14. トラブルをトラブルでないと判定した事例 玄関前で鳩が雨宿りしています 私は動物が嫌いなので すごく 困っています どうすればこの鳩を追い払う事ができますか さっき、明太子ご飯とアイスクリームを食べたら、体調が悪くなり ました。 食べ合わせが悪かったんでしょうか? 最悪の食べ合わせ

    は何ですか? 左太ももの横の部分に、梵字のようなものが、たまに現れます、な にか原因あるのでしょうか? ペットを飼われている方に質問です。 デンタルケアはどうしてい ますか? ガムや歯磨き効果のあるロープのようなものを噛ませては いるのですが、 歯の汚れが気になります。 アドバイスをお願いし ます。 27 不正解例(Yahoo!知恵袋)
  15. トラブルでないものをトラブルと判定した事例 Excelについて教えて下さい。 横の一行を固定(スクロール しても動かなく)したいのですが、どの様にすればいいでしょうか? 今日、電気屋さんでパソコンを触ってたらフォルダをダブルクリッ クではなくてワンクリックしただけで開いてました。 何かの設定で こんな事できるんでしょうか?教えてください。 応募メールに写真を添付して送るのに、ビットマップ(サイズ4. 65

    MB)を送るのですが、大きすぎますか?またPCによって見 れないなんてことないですか? 彼のお母さんの誕生日に何かプレゼントをしたいのです。 年齢は 60歳ですが、50代前半にしか見えません。 高いものは気を使わ せそうなので、何かよいアイデアはありませんでしょうか? 28 不正解例(Yahoo!知恵袋)
  16. 使用した言語資源およびツール 1) 高村大也. 単語感情極性対応表, http://www.lr.pi.titech.ac.jp/~takamura/index_j.html 2) 小林のぞみ, 乾健太郎, 松本裕治. 評価表現辞書,

    http://www.syncha.org/evaluative_expressions.html 3) 鍜治伸裕. 評価表現辞書, http://www.tkl.iis.u-tokyo.ac.jp/~kaji/ 4) Masao Uchiyama. Maximum Entropy Modeling Package. http://www2.nict.go.jp/x/x161/members/mutiyama/software.html , 2006. 5) Taku Kudo. TinySVM : Support Vector Machines. http://chasen.org/~taku/software/TinySVM/ , 2002. 6) ヤフー株式会社. 「Yahoo!知恵袋-研究機関提供用データデータ仕様書 国立情報学研究所(NII)提供版ver1.0」. 国立情報学研究所, 2007. 7) 新里圭司, 黒橋禎夫. 検索エンジン基盤TSUBAKI. 2007. 33