Upgrade to Pro — share decks privately, control downloads, hide ads and more …

構文片を用いた日報からの障害情報抽出

 構文片を用いた日報からの障害情報抽出

柿元 芳文, 山本 和英. 構文片を用いた日報からの障害情報抽出. 言語処理学会第14回年次大会, pp.923-926 (2008.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 手法概要 Livedoor Blog 価格.com 障害 日報 非障害 日報 学習データ 辞書の

    拡張 障害情報辞書 新規入力日報 入力構文片 入力日報の 障害情報抽出 構文片のスコアリング マッチング A B C
  2. 学習データ 収集ルールは人手により設定 Livedoor Blog „ 障害日報 2,410件 „ 非障害日報 3,651,242件

    価格.com クチコミ掲示板 „ 障害日報 30,000件 „ 非障害日報 1,712,999件 A
  3. 評価実験 2つの評価 „ 辞書を用いた二値分類精度の評価 „ 抽出された障害情報の評価 評価データ „ 被験者3人により作成 „

    障害日報、非障害日報に分類 „ 3人一致の日報のみ使用 „ 障害日報、非障害日報 133件、 133件
  4. 評価:得られた障害情報 基準 障害情報 (1) 画面が ⇒ 表示されない 遅延が ⇒ 発生する

    音が ⇒ 途切れる (2) サポートに ⇒ 電話する 販売店に ⇒ 返品する 原因を ⇒ 特定する (3) コンセントを ⇒ 抜く 電源を ⇒ 入れる 一度も ⇒ 繋がる
  5. 評価:拡張で得られた障害情報 基準 拡張元 拡張先 (1) 悪い⇒サービス 悪い⇒イメージ 検索が⇒出来ない 表示が⇒出来ない (2)

    サポートに⇒連絡する サポートに⇒相談する エラーが⇒出る マークが⇒出る (3) 連絡を⇒くれる 返事を⇒くれる 基準(1)まで正解 : 適合率 0.30 基準(2)まで正解 : 適合率 0.40
  6. スコア算出式 P(w i ) : ある構文片w i が出現した障害日誌の数 N(w i

    ) : ある構文片w i が出現した障害日誌の数 P doc : 障害日報の総数 N : 非障害日報の総数
  7. 学習データ Livedoor Blog „ 障害情報 Šタグに「トラブル」が入っている Šタイトルに「トラブル」が入っている „ 非障害情報 Šタイトル及び本文に「トラブル」が入っていな

    い 価格.com クチコミ掲示板 „ 障害情報 Šタグが「悪い」に設定されている „ 非障害情報 Šタグが「悪い」「質問」以外に設定されている