構文片を用いた日報からの障害情報抽出

構文片を用いた日報からの障害情報抽出長岡技術科学大学電気系柿元芳文 , 山本和英

はじめに日々の報告を電子文書で提出管理職による閲覧問題があれば対応非常に高コスト問題のある表現を自動的に抽出したい

障害情報の定義ある日報の中で何らかの障害を報告している表現障害の内容を把握できる単位が必要係り受けの対を基とした構文片を用いた [Aoki et al. 07] 障害情報例
サーバーが → 壊れる椅子が → 壊れる

手法概要 Livedoor Blog 価格.com 障害日報非障害日報学習データ辞書の
拡張障害情報辞書新規入力日報入力構文片入力日報の障害情報抽出構文片のスコアリングマッチング A B C

学習データ収集ルールは人手により設定 Livedoor Blog 障害日報 2,410件非障害日報 3,651,242件
価格.com クチコミ掲示板障害日報 30,000件非障害日報 1,712,999件 A

障害情報辞書の作成構文片にスコアを付与する障害日報と非障害日報での出現の偏りを用いた -１～+１のスコアを付与出現頻度による信頼性を考慮確率の信頼区間推定法を用いた
[藤村ら 04] [Alan et al. 98] 正のスコアとなった構文片を辞書へ登録 B

辞書をそのまま用いると学習データ中の障害情報しか抽出できない未知の障害への対応が必要辞書の拡張概要動作が遅い検索が表示が対応が
・・・検索が遅い表示が遅い対応が遅い・・・類似したサ変名詞を検索辞書へ追加 C

Webコーパス構文片辞書中の構文片の拡張サ変名詞が対象前項、後項双方に行う係り先の類似性を基に拡張

評価実験２つの評価辞書を用いた二値分類精度の評価抽出された障害情報の評価評価データ被験者３人により作成
障害日報、非障害日報に分類３人一致の日報のみ使用障害日報、非障害日報 133件、 133件

評価：辞書を用いた二値分類精度 F値の最大値 0.772 適合率 0.724 再現率 0.827

評価基準基準（１）何らかの障害を表している基準（２）直接的に障害を表してはいないが、何らかの障害を連想することができる基準（３）
障害を表しておらず、連想することもできない

考察：二値分類時の誤抽出傾きが一定 → どの閾値帯でも同程度の誤りを含んでいる障害らしい構文片を得られるが最適とは言えない

評価：得られた障害情報基準障害情報（１）画面が ⇒ 表示されない遅延が ⇒ 発生する
音が ⇒ 途切れる（２）サポートに ⇒ 電話する販売店に ⇒ 返品する原因を ⇒ 特定する（３）コンセントを ⇒ 抜く電源を ⇒ 入れる一度も ⇒ 繋がる

評価：拡張で得られた障害情報基準拡張元拡張先（１）悪い⇒サービス悪い⇒イメージ検索が⇒出来ない表示が⇒出来ない（２）
サポートに⇒連絡するサポートに⇒相談するエラーが⇒出るマークが⇒出る（３）連絡を⇒くれる返事を⇒くれる基準（１）まで正解：適合率 0.30 基準（２）まで正解：適合率 0.40

終わりに日報から障害情報を自動的に抽出する手法を提案構文片を用いて辞書を自動構築二値分類器としての評価でF値0.772 抽出された障害情報の評価で適合率0.40

スコア算出式 P（w i ） : ある構文片w i が出現した障害日誌の数 N（w i
） : ある構文片w i が出現した障害日誌の数 P doc : 障害日報の総数 N : 非障害日報の総数

信頼区間推定法

学習データ Livedoor Blog 障害情報タグに「トラブル」が入っているタイトルに「トラブル」が入っている非障害情報タイトル及び本文に「トラブル」が入っていな
い価格.com クチコミ掲示板障害情報タグが「悪い」に設定されている非障害情報タグが「悪い」「質問」以外に設定されている

拡張の概要

自然言語処理研究室