Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日報を対象とした障害予知システムの構築

 日報を対象とした障害予知システムの構築

柿元 芳文. 日報を対象とした障害予知システムの構築. 長岡技術科学大学修士論文 (2009.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 2 背景 企業内文書の電子化 s ネットワークの普及 s WebやE-mailによる業務日報 業務日報の重要性 s 上司による業務の良悪の判断

    s 業務に関する障害の把握  明示されている障害  明示されていない障害  未発生であるが、起こり得る障害
  2. 3 背景 企業内文書の電子化 s ネットワークの普及 s WebやE-mailによる業務日報 業務日報の重要性 s 上司による業務の良悪の判断

    s 業務に関する障害の把握  明示されている障害  明示されていない障害  未発生であるが、起こり得る障害 業務日報から障害を予知する技術
  3. 7 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  4. 8 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  5. 9 関連研究:障害情報抽出部 人手による辞書を用いる手法 [市村ら 2001] s 日報から「製品名」「要因概念」「結果概念」 を抽出 構文パタンを用いる手法 [斎藤ら

    2007] s 議事録からプロジェクトリスクを抽出 統計的情報を用いる手法 [De Seager et al 2008] s 日報からトラブル表現を抽出 構文パタンと 統計的情報を用いて障害情報を抽出
  6. 12 構文パタン 具体物名 + 格助詞「が」     ⇒ 障害を示す単語を含む文節 具体物名 s 具体物辞書を用いて判定

    障害を表す単語を含む文節 s 障害語辞書を用いて判定 s 後項フィルタを用いて判定 障害情報の例 パソコンが⇒壊れる , 液晶が⇒割れる
  7. 13 EDR電子化辞書 具体物辞書 学習データ 障害語辞書 ドメイン別 日報 障害 日報 非障害

    日報 日報中の 構文片 障害情報辞書 具体物名を 抽出 1 2 3 単語と後項の スコアリング 障害情報の 抽出 手法概要図:障害情報抽出部 後項フィルタ
  8. 14 EDR電子化辞書 具体物辞書 学習データ 障害語辞書 ドメイン別 日報 障害 日報 非障害

    日報 日報中の 構文片 障害情報辞書 具体物名を 抽出 1 2 3 単語と後項の スコアリング 障害情報の 抽出 手法概要図:障害情報抽出部 後項フィルタ
  9. 16 EDR電子化辞書 具体物辞書 学習データ 障害語辞書 ドメイン別 日報 障害 日報 非障害

    日報 日報中の 構文片 障害情報辞書 具体物名を 抽出 1 2 3 単語と後項の スコアリング 障害情報の 抽出 手法概要図:障害情報抽出部 後項フィルタ
  10. 17 学習データの作成 すべての日報にはタグが存在する s 良い s 悪い s 質問 s

    特価情報 s その他 「悪い」日報を障害日報 「良い」日報を非障害日報
  11. 18 障害語辞書の構築 統計的情報を用いる 藤村らの手法を参考とした [藤村ら 2005] 単語の出現の偏り:-1 ~ +1 s

    wi :ある単語 s P(wi) : wi が出現した非障害日報の数 s N(wi) : wi が出現した障害日報の数 s Pdoc,Ndoc : 非障害日報と障害日報の総数
  12. 22 EDR電子化辞書 具体物辞書 学習データ 障害語辞書 ドメイン別 日報 障害 日報 非障害

    日報 日報中の 構文片 障害情報辞書 具体物名を 抽出 1 2 3 単語と後項の スコアリング 障害情報の 抽出 手法概要図:障害情報抽出部 後項フィルタ
  13. 23 障害情報抽出手順 ドメイン別 日報 パソコンを⇒買う 彼が⇒迷う パソコンが⇒燃える パソコンが⇒良い 彼が⇒迷う パソコンが⇒燃える

    パソコンが⇒良い パソコンが⇒燃える パソコンが⇒良い パソコンが⇒燃える 前項が ガ格 具体物辞書 障害語辞書 後項フィルタ
  14. 25 否定語の考慮 障害語辞書は2種類の単語を含む 正のスコアの単語 : 間に合う , 動く 否定語の考慮 :

    間に合わない , 動かない 負のスコアの単語 : 壊れる , 割れる 否定語の考慮 : 壊れない , 割れない 否定語「ない」によって極性が反転する 文節内で「ない」と共起した場合、 スコアを反転する
  15. 27 考察:誤抽出について 誤抽出数は s 全抽出数 : 573 s 語抽出数 :

    109 誤抽出は障害語辞書によるものが最多 前項によって障害/非障害と変化するもの s ノイズが⇒発生する , 飛行機雲が⇒発生する 否定語の不足によるもの s 液晶が⇒壊れる , 液晶が⇒壊れにくい
  16. 29 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  17. 31 文書分類タスクで解く 文書分類は 同じテーマを持っている文書対は、共通 の単語が出やすい s 単語を特徴量として用いている s 分類先は同じテーマを持つ文書群 日報と障害の対応付けは

    同じ障害は同じ状況で起こりやすい s 状況は内容語が表す s 内容語を特徴量として用いる s 分類先は同じ障害情報を持つ日報群
  18. 32 文書分類タスクで解く 文書分類は 同じテーマを持っている文書対は、共通 の単語が出やすい s 単語を特徴量として用いている s 分類先は同じテーマを持つ文書群 日報と障害の対応付けは

    同じ障害は同じ状況で起こりやすい s 状況は内容語が表す s 内容語を特徴量として用いる s 分類先は同じ障害情報を持つ日報群
  19. 33 文書分類との差異 分類先1 入力日報 分類先2 分類先3 分類先4 障害情報1 障害情報2 障害情報3

    障害情報4 文書分類 日報と障害情報の対応付け 分類先の日報数に大きな差
  20. 34 手法概要図 : 学習部 ドメイン別 日報 障害情報辞書 障害日報 (T1) 障害日報

    (T2) 障害日報 (T3) ・・・ 障害日報 (TN) 予知情報(T1) 予知情報(T2) 予知情報(T3) 予知情報(TN) ・・・ 予知情報辞書 各障害情報から予知情報を構築 各障害情報(T1~N)を含む 日報の収集
  21. 36 手法概要図 : 対応付け部 予知情報辞書 入力日報 内容語集合 入力日報に起こりうる 障害情報 TN

    内容語の抽出 確率モデルを用いた 類似度の計算 類似度の計算には 独自の確率モデルを使用
  22. 38 対応付けスコア算出式 s f : 予知情報 s d : 入力日報

    s WF : 集合F に含まれ、集合D にも含まれる要素集合 s WD : 集合D に含まれ、集合F にも含まれる要素集合 s F : 予知情報f の要素集合 s D : 入力日報d の要素集合
  23. 40 比較手法 ベースライン s 学習用日報中での出現確率上位の障害情報を常 に出力する 確率モデル [Iwayama et al

    1994] s 入力日報と予知情報の単語の出現確率 s 障害情報の出現確率の考慮
  24. 41 比較手法 ベクトル空間モデル s 入力日報と予知情報の内容語集合をベクトル として扱う s コサイン距離を用いる s 両ベクトルの要素の和集合を取る

    機械学習 s SVMを用いる s 各障害情報に分類モデルを構築 s 複数対応付けられた場合は、出現確率の高い 障害情報を優先
  25. 42 評価結果:対応付け部 表2 対応付け精度 手法 上位3位出力時の精度 電話 カメラ 車 ゲーム

    ベースライン 0.731 0.266 0.667 0.667 確率モデル 0.769 0.348 0.533 0.417 ベクトル空間モデル 0.679 0.332 0.533 0.250 機械学習 0.692 0.305 0.467 0.250 本手法 0.769 0.375 0.733 0.417 すべてのドメインで比較手法と同等又は  比較手法を越えることが出来ている
  26. 44 考察:確率モデルとの比較(2/2) 表3 上位の障害情報を除いた評価用日報での精度 手法 上位3位出力時の精度 電話 カメラ 車 ゲーム

    確率モデル 0.238 0.117 0 0 本手法 0.333 0.223 0.200 0 出現確率上位3位の障害情報以外も 対応付けることができている
  27. 46 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  28. 50 評価実験概要:障害予知部 評価用日報 s 要予知日報と判断された日報 s 200件 : 各ドメイン 50

    件 被験者は3名 人間による予知 s 「人間でも可能な予知」を収集 s 要予知日報判定の評価 システムの予知の評価 s 障害予知の精度を評価
  29. 54 評価結果:障害の予知 表5 障害予知部の精度 ドメイン 出力種別 障害予知部の精度 被験者3人の加算平均 電話 システム

    0.475 ランダム 0.343 カメラ システム 0.458 ランダム 0.430 車 システム 0.475 ランダム 0.424 ゲーム システム 0.363 ランダム 0.340 全体 システム 0.448 ランダム 0.396
  30. 55 考察:人間の予知能力との比較 予知可能割合 = 予知が必要だとされた日報数 正しい予知ができた日報数 予知可能割合 被験者1 0.693 被験者2

    0.325 被験者3 0.689 システム 0.448 人間の予知能力を越える可能性がある 表6 人間の予知可能割合との比較
  31. 60 岩山らの確率モデル s wi : ある単語 s P(f) : 予知情報辞書内の予知情報を取り出した時、

    f となる確率 s P(wi ) : 予知情報辞書から要素を取り出した時、  wi となる確率 s P(wi |f) : 予知情報f から要素を取り出した時、 wi となる確率 s P(wi |d) : 予知情報d から要素を取り出した時、 w となる確率
  32. 63 システム全体での精度 ドメイン 出力種別 障害予知部の精度 被験者3人の加算平均 電話 システム 0.307 ランダム

    0.207 カメラ システム 0.358 ランダム 0.328 車 システム 0.312 ランダム 0.272 ゲーム システム 0.208 ランダム 0.210 全体 システム 0.295 ランダム 0.253
  33. 64 予知可能割合(各ドメイン) 予知可能割合 被験者3人の加算平均 電話 0.594 カメラ 0.595 車 0.551

    ゲーム 0.520 「ゲーム」は日報に記載されている状況からは 障害を予知しにくい システムによる予知の精度も低かった
  34. 73 ドメイン別 日報 障害情報辞書 障害日報 (T1) 障害日報 (T2) 障害日報 (T3)

    ・・・ 障害日報 (TN) 予知情報(T1) 予知情報(T2) 予知情報(T3) 予知情報(TN) ・・・ 予知情報辞書 入力日報 内容語集合 入力日報に起こりうる 障害情報 TN 各障害情報から予知情報を構築 内容語の抽出 確率モデルを用いた 類似度の計算 各障害情報(T1~N)を含む日報の収集
  35. 74 関連研究:SVMモデル 障害情報1 モデル1 モデル2 モデル3 モデル4 入力日報 分類先 日報郡

    SVMモデル ◦ × × ◦ SVMによる 二値分類 障害情報2 障害情報3 障害情報4 障害情報1 障害情報2