Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日報を対象とした障害予知

 日報を対象とした障害予知

柿元 芳文, 山本 和英. 日報を対象とした障害予知. 言語処理学会第15回年次大会, pp.905-908 (2009.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 2 背景 企業内文書の電子化 s ネットワークの普及 s WebやE-mailによる業務日報 業務日報の重要性 s 上司による業務の良悪の判断

    s 業務に関する障害の把握  明示されている障害  明示されていない障害  未発生であるが、起こり得る障害
  2. 3 背景 企業内文書の電子化 s ネットワークの普及 s WebやE-mailによる業務日報 業務日報の重要性 s 上司による業務の良悪の判断

    s 業務に関する障害の把握  明示されている障害  明示されていない障害  未発生であるが、起こり得る障害 業務日報から障害を予知する技術
  3. 7 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  4. 8 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  5. 9 障害語辞書 負のスコア 正のスコア 症状 修理 基板 持ち込む おかしい 突然

    問い合わせる クレーム 不良 ポイント ♪ 正解 感動 面白い 嬉しい サクサク 満足 きれい 統計的情報を用いて構築 ー1 〜 +1のスコアを付与
  6. 10 障害情報辞書 ドメイン 障害情報 電話 音が 割れる 電源が 切れる カメラ

    レンズが 異常 シャッターが 壊れる 車 カーナビが 壊れる チューナーが おかしくなる ゲーム ファンが ひどい ソフトが 動かない
  7. 11 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  8. 12 文書分類として処理 分類先1 入力日報 分類先2 分類先3 分類先4 障害情報1 障害情報2 障害情報3

    障害情報4 文書分類 日報と障害情報の対応付け 分類先の日報数に大きな差
  9. 14 手法概要図 : 学習部 ドメイン別 日報 障害情報辞書 障害日報 (T1) 障害日報

    (T2) 障害日報 (T3) ・・・ 障害日報 (TN) 予知情報(T1) 予知情報(T2) 予知情報(T3) 予知情報(TN) ・・・ 予知情報辞書 各障害情報から予知情報を構築 各障害情報(T1~N)を含む 日報の収集
  10. 17 手法概要図 : 対応付け部 予知情報辞書 入力日報 内容語集合 入力日報に起こりうる 障害情報 TN

    内容語の抽出 確率モデルを用いた 類似度の計算 類似度の計算には 独自の確率モデルを使用
  11. 19 対応付けスコア算出式 s f : 予知情報 s d : 入力日報

    s WF : 集合F に含まれ、集合D にも含まれる要素集合 s WD : 集合D に含まれ、集合F にも含まれる要素集合 s F : 予知情報f の要素集合 s D : 入力日報d の要素集合
  12. 20 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  13. 24 評価実験概要:障害予知部 評価用日報 s 要予知日報と判断された日報 s 200件 : 各ドメイン 50

    件 被験者は3名 人間による予知 s 「人間でも可能な予知」を収集 s 要予知日報判定の評価 システムの予知の評価 s 障害予知の精度を評価
  14. 33 文書分類タスクで解く 文書分類は 同じテーマを持っている文書対は、共通 の単語が出やすい s 単語を特徴量として用いている s 分類先は同じテーマを持つ文書群 日報と障害の対応付けは

    同じ障害は同じ状況で起こりやすい s 状況は内容語が表す s 内容語を特徴量として用いる s 分類先は同じ障害情報を持つ日報群
  15. 34 文書分類タスクで解く 文書分類は 同じテーマを持っている文書対は、共通 の単語が出やすい s 単語を特徴量として用いている s 分類先は同じテーマを持つ文書群 日報と障害の対応付けは

    同じ障害は同じ状況で起こりやすい s 状況は内容語が表す s 内容語を特徴量として用いる s 分類先は同じ障害情報を持つ日報群
  16. 35 岩山らの確率モデル s wi : ある単語 s P(f) : 予知情報辞書内の予知情報を取り出した時、

    f となる確率 s P(wi ) : 予知情報辞書から要素を取り出した時、  wi となる確率 s P(wi |f) : 予知情報f から要素を取り出した時、 wi となる確率 s P(wi |d) : 予知情報d から要素を取り出した時、 w となる確率
  17. 37 システム全体での精度 ドメイン 出力種別 障害予知部の精度 被験者3人の加算平均 電話 システム 0.307 ランダム

    0.207 カメラ システム 0.358 ランダム 0.328 車 システム 0.312 ランダム 0.272 ゲーム システム 0.208 ランダム 0.210 全体 システム 0.295 ランダム 0.253
  18. 38 予知可能割合(各ドメイン) 予知可能割合 被験者3人の加算平均 電話 0.594 カメラ 0.595 車 0.551

    ゲーム 0.520 「ゲーム」は日報に記載されている状況からは 障害を予知しにくい システムによる予知の精度も低かった
  19. 46 構文パタン 具体物名 + 格助詞「が」     ⇒ 障害を示す単語を含む文節 具体物名 s 具体物辞書を用いて判定

    障害を表す単語を含む文節 s 障害語辞書を用いて判定 s 後項フィルタを用いて判定 障害情報の例 パソコンが⇒壊れる , 液晶が⇒割れる
  20. 47 EDR電子化辞書 具体物辞書 学習データ 障害語辞書 ドメイン別 日報 障害 日報 非障害

    日報 日報中の 構文片 障害情報辞書 具体物名を 抽出 1 2 3 単語と後項の スコアリング 障害情報の 抽出 手法概要図:障害情報抽出部 後項フィルタ
  21. 48 関連研究:SVMモデル 障害情報1 モデル1 モデル2 モデル3 モデル4 入力日報 分類先 日報郡

    SVMモデル ◦ × × ◦ SVMによる 二値分類 障害情報2 障害情報3 障害情報4 障害情報1 障害情報2
  22. 50 評価結果:対応付け部 表2 対応付け精度 手法 上位3位出力時の精度 電話 カメラ 車 ゲーム

    ベースライン 0.731 0.266 0.667 0.667 確率モデル 0.769 0.348 0.533 0.417 ベクトル空間モデル 0.679 0.332 0.533 0.250 機械学習 0.692 0.305 0.467 0.250 本手法 0.769 0.375 0.733 0.417 すべてのドメインで比較手法と同等又は  比較手法を越えることが出来ている
  23. 51 考察:確率モデルとの比較(2/2) 表3 上位の障害情報を除いた評価用日報での精度 手法 上位3位出力時の精度 電話 カメラ 車 ゲーム

    確率モデル 0.238 0.117 0 0 本手法 0.333 0.223 0.200 0 出現確率上位3位の障害情報以外も 対応付けることができている