日報を対象とした障害予知

 日報を対象とした障害予知

柿元 芳文, 山本 和英. 日報を対象とした障害予知. 言語処理学会第15回年次大会, pp.905-908 (2009.3)

Transcript

  1. 日報を対象とした 障害予知 長岡技術科学大学 柿元 芳文 山本 和英

  2. 2 背景 企業内文書の電子化 s ネットワークの普及 s WebやE-mailによる業務日報 業務日報の重要性 s 上司による業務の良悪の判断

    s 業務に関する障害の把握  明示されている障害  明示されていない障害  未発生であるが、起こり得る障害
  3. 3 背景 企業内文書の電子化 s ネットワークの普及 s WebやE-mailによる業務日報 業務日報の重要性 s 上司による業務の良悪の判断

    s 業務に関する障害の把握  明示されている障害  明示されていない障害  未発生であるが、起こり得る障害 業務日報から障害を予知する技術
  4. 4 目的 障害予知システムの構築 s 入力日報から、隠れた障害、 又は起こり得る障害を発見する s 障害の早期発見 s 障害の発生防止

    テキスト情報から障害を予知する  研究は行われていない!
  5. 5 障害予知の例 最近雨が多く、閉め切っているせいかサーバー室の 温度が高い。そんな状況下で長時間使用しているか らか、パソコンの温度があがっていた。 入力日報 予知 近々 プリンタが詰まる かもしれない!

  6. 6 用いた日報データ 第三者に報告する形で記述 書き手の主観情報を多く含む ドメインが固定されている Web上のデータ「価格.com」の 1つの書き込みを「日報」として用いる 企業の日報は大量に手に入れることが難しい 企業の日報の特徴 扱ったドメイン

    : 電話 , カメラ , 車 , ゲーム
  7. 7 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  8. 8 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  9. 9 障害語辞書 負のスコア 正のスコア 症状 修理 基板 持ち込む おかしい 突然

    問い合わせる クレーム 不良 ポイント ♪ 正解 感動 面白い 嬉しい サクサク 満足 きれい 統計的情報を用いて構築 ー1 〜 +1のスコアを付与
  10. 10 障害情報辞書 ドメイン 障害情報 電話 音が 割れる 電源が 切れる カメラ

    レンズが 異常 シャッターが 壊れる 車 カーナビが 壊れる チューナーが おかしくなる ゲーム ファンが ひどい ソフトが 動かない
  11. 11 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  12. 12 文書分類として処理 分類先1 入力日報 分類先2 分類先3 分類先4 障害情報1 障害情報2 障害情報3

    障害情報4 文書分類 日報と障害情報の対応付け 分類先の日報数に大きな差
  13. 13 関連研究:対応付け部 文書分類手法 確率モデルを用いる手法 s 分類先と分類元での単語の出現確率 ベクトル空間モデルを用いる手法 s 分類先と分類元からベクトルを作成 s

    コサイン距離を用いる 機械学習を用いる手法 s 単語を素性として分類モデルを構築 s SVMを使用
  14. 14 手法概要図 : 学習部 ドメイン別 日報 障害情報辞書 障害日報 (T1) 障害日報

    (T2) 障害日報 (T3) ・・・ 障害日報 (TN) 予知情報(T1) 予知情報(T2) 予知情報(T3) 予知情報(TN) ・・・ 予知情報辞書 各障害情報から予知情報を構築 各障害情報(T1~N)を含む 日報の収集
  15. 15 予知情報辞書の構築 予知情報は各障害情報ごとに作成 予知情報の例 落とす .6 指 .6 衝撃 .2

    ポケット .2 当たる .1 液晶が 割れる 共起した内容語
  16. 16 予知情報辞書の構築 予知情報は各障害情報ごとに作成 予知情報の例 落とす .6 指 .6 衝撃 .2

    ポケット .2 当たる .1 液晶が 割れる 共起頻度
  17. 17 手法概要図 : 対応付け部 予知情報辞書 入力日報 内容語集合 入力日報に起こりうる 障害情報 TN

    内容語の抽出 確率モデルを用いた 類似度の計算 類似度の計算には 独自の確率モデルを使用
  18. 18 対応付けスコアの計算 各予知情報と入力日報間で計算 独自の確率モデルを用いる 対応付けスコアに求める項目 予知情報と入力日報の内容語の一致率 s 状況が一致するほど良い 障害情報の出現しやすさ s

    出現しやすい障害情報の考慮 s 信頼区間推定法を利用 対応付けスコアの上位3件を対応付ける
  19. 19 対応付けスコア算出式 s f : 予知情報 s d : 入力日報

    s WF : 集合F に含まれ、集合D にも含まれる要素集合 s WD : 集合D に含まれ、集合F にも含まれる要素集合 s F : 予知情報f の要素集合 s D : 入力日報d の要素集合
  20. 20 提案手法の流れ 障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる 日報と障害情報の対応付け s 文書分類のタスクとして処理

    s 独自の確率モデルを用いる 入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知
  21. 21 手法概要図:障害予知部 入力日報 予知の必要性判断 日報と障害情報の 対応付け手法 起こり得る障害情報     の対応付け 入力日報からの障害の予知

  22. 22 要予知日報判定 入力日報の予知の必要性判断 障害は悪い状況の集まりから発生 障害語辞書を用いて判定スコアSp を算出 負のスコアの日報を要予知日報とする s wi :入力日報に出現した単語

    s D : 入力日報の内容語集合 s Stc : 障害語らしさのスコア
  23. 23 要予知日報判定 入力日報の予知の必要性判断 障害は悪い状況の集まりから発生 障害語辞書を用いて判定スコアSp を算出 負のスコアの日報を要予知日報とする 負のスコアとなった日報に対して 対応付け手法による予知を行う

  24. 24 評価実験概要:障害予知部 評価用日報 s 要予知日報と判断された日報 s 200件 : 各ドメイン 50

    件 被験者は3名 人間による予知 s 「人間でも可能な予知」を収集 s 要予知日報判定の評価 システムの予知の評価 s 障害予知の精度を評価
  25. 25 評価実験1:人間による予知 障害が予知できる s 障害を3つまで記述 障害が起こり得るが予知はできない 障害は起こり得ない 人間でも可能な予知を収集 要予知日報判定の精度を算出 入力日報のみを提示

  26. 26 評価実験2:システムによる予知 システムの出力した予知3件 s 被験者が「起こり得る」と選択したら正解 ランダムで出力した予知3件 s 障害情報辞書からランダムで選択 障害は起こり得るが出力の中にはない 障害は起こり得ない

    システムの障害予知部のみの精度を算出 入力日報とシステムの出力を提示
  27. 27 評価結果:要予知日報判定 ドメイン 要予知日報判定精度 被験者3人の加算平均 電話 0.630 カメラ 0.740 車

    0.566 ゲーム 0.547 全体 0.622
  28. 28 評価結果:障害の予知 ドメイン 障害予知部の精度 被験者3人の加算平均 ランダム 障害予知部の精度 被験者3人の加算平均 システム 電話

    0.343 0.475 0.475 カメラ 0.430 0.458 0.458 車 0.424 0.475 0.475 ゲーム 0.340 0.363 0.363 全体 0.396 0.448 0.448
  29. 29 考察:人間の予知能力との比較 予知可能割合 = 予知が必要だとされた日報数 正しい予知ができた日報数 予知可能割合 被験者1 0.693 被験者2

    0.325 被験者3 0.689 システム 0.448 人間の予知能力を越える可能性がある
  30. 30 考察:人間の予知との相違 人間が気付きにくい予知ほどいい予知 評価実験1で得た「人間による予知」と 「システムの出力した予知」を比較 比較した結果、 一致した予知は            すべての被験者において一割程度 人間が気付きにくい予知を多く出力できた

  31. 31 まとめ 文書分類による対応付け手法を用いた  障害の予知 障害語辞書を用いた要予知日報判定 s 障害は悪い状況の集まりから生じる 要予知日報判定部の精度は0.622 障害予知部の精度は0.448 人間の予知能力を越える可能性

    人間が気付きにくい予知を多く出力
  32. 32 発表おわり

  33. 33 文書分類タスクで解く 文書分類は 同じテーマを持っている文書対は、共通 の単語が出やすい s 単語を特徴量として用いている s 分類先は同じテーマを持つ文書群 日報と障害の対応付けは

    同じ障害は同じ状況で起こりやすい s 状況は内容語が表す s 内容語を特徴量として用いる s 分類先は同じ障害情報を持つ日報群
  34. 34 文書分類タスクで解く 文書分類は 同じテーマを持っている文書対は、共通 の単語が出やすい s 単語を特徴量として用いている s 分類先は同じテーマを持つ文書群 日報と障害の対応付けは

    同じ障害は同じ状況で起こりやすい s 状況は内容語が表す s 内容語を特徴量として用いる s 分類先は同じ障害情報を持つ日報群
  35. 35 岩山らの確率モデル s wi : ある単語 s P(f) : 予知情報辞書内の予知情報を取り出した時、

    f となる確率 s P(wi ) : 予知情報辞書から要素を取り出した時、  wi となる確率 s P(wi |f) : 予知情報f から要素を取り出した時、 wi となる確率 s P(wi |d) : 予知情報d から要素を取り出した時、 w となる確率
  36. 36 各ドメインの学習用日報数 ドメイン 学習用日報数 電話 41,917 カメラ 218,481 車 42,822

    ゲーム 28,778 各ドメインの学習用日報数
  37. 37 システム全体での精度 ドメイン 出力種別 障害予知部の精度 被験者3人の加算平均 電話 システム 0.307 ランダム

    0.207 カメラ システム 0.358 ランダム 0.328 車 システム 0.312 ランダム 0.272 ゲーム システム 0.208 ランダム 0.210 全体 システム 0.295 ランダム 0.253
  38. 38 予知可能割合(各ドメイン) 予知可能割合 被験者3人の加算平均 電話 0.594 カメラ 0.595 車 0.551

    ゲーム 0.520 「ゲーム」は日報に記載されている状況からは 障害を予知しにくい システムによる予知の精度も低かった
  39. 39 障害発生の喚起 「障害は起こり得ない」 とされた日報数 被験者3人の平均 評価実験1 75.7 評価実験2 66.7 予知の出力と一緒に提示することで

    「障害は起こり得ない」日報数が減少 障害を喚起することができた
  40. 40 障害予知例(一致) FMトランスミッタを使用する場合、雑音(ザー という音)が入り聞こえ方も悪くなります。た だ、手を本体に近づけると雑音がなくなり受信 状態も良くなります。このような症状で困って る方、改善方法、原因などお判りの方いらっし ゃいましたらアドバイスお願いします。 ノイズが 発生する

    オーディオが 壊れる 人間 : 雑音が 取れない システム :
  41. 41 障害予知例(一致) 2年前の新車時にヴォクシーに取り付けてもらいました。1ヶ月 ほど前からナビ画面が走行と共にグルグル右回転します。3D にしても同じで、Nにすると自車表示が回転します。現在地も ズレたり戻ったりで、ほとんどナビとして役に立たなくなって 困っています。相談窓口に電話をしましたが接続確認をして、 間違ってなければ本体を送ってほしいとのことでした。しかし 、簡単に脱着出来るものでもないし、それだけでも費用がかか る上、修理の保証もないので、直る見込みか原因が分からない

    ならあきらめるしかないと思っています。ちなみに使用頻度は 年間走行7000km程度の通常使用です。 カーナビが 壊れる 人間:ナビシステムが壊れて使えなくなる システム:
  42. 42 障害予知例(不一致) はじめまして、皆様。今回初代KDからX2への買い替 えを検討しております。というのも、CMOSセンサー の前のフィルターをカビさせてしまいました。キャ ノンのQRセンターに送って診断してもらったら、約 18000円かかるとのこと…。果たして約2万円出して 修理するべきか、それともX2に買い換えるか。非常 に迷っています。みなさんだったら、どうされます か?よろしくお願いします。

    人間:修理が2週間後に間に合わない システム:レンズが 壊れる
  43. 43 障害予知例(不一致) D300を買って1ヶ月くらい経ちました。今日はじめてC F8Gにフルになるまで撮影してきました。うまくとれてる かなぁ〜と撮ったものをみてるとなんか白く点になってると ころがある、これもこれもこれも!!で昔撮ったものにも白 い点が・・・2カ所ありました。とりあえずキタムラさんに 持って行って相談してニコン行き決定しました。なおるのか なぁ〜なんか心配ですが新品交換よりもプロにみてもらって 修理?した方が安心だよと店長さんが言ってくれたんでそれ

    を信用することにします。皆さんのD300は大丈夫ですか ?また2週間後に使う予定なので間に合うように送るって言 ってくれました。間に合うかなぁ〜ううう。 人間:修理が2週間後に間に合わない システム:液晶が 壊れる
  44. 44 関連研究:障害予知部 文書から障害を予知する研究はない 2つの出来事間の因果関係を推定する手法 入力文 : 私は、熱が出たため病院へ行った。 因果関係: 熱が出る(原因) ,

    病院へ行く(結果) 因果関係を用いれば予知が可能となる可能性 しかし 人間にとって想像が容易な予知しかできない
  45. 45 文書分類による予知 文書分類を応用した予知によって 人間に障害を気付かせる役割 人間が容易に想像できる予知をしても  意味がない 人間が気付きにくい予知も可能

  46. 46 構文パタン 具体物名 + 格助詞「が」     ⇒ 障害を示す単語を含む文節 具体物名 s 具体物辞書を用いて判定

    障害を表す単語を含む文節 s 障害語辞書を用いて判定 s 後項フィルタを用いて判定 障害情報の例 パソコンが⇒壊れる , 液晶が⇒割れる
  47. 47 EDR電子化辞書 具体物辞書 学習データ 障害語辞書 ドメイン別 日報 障害 日報 非障害

    日報 日報中の 構文片 障害情報辞書 具体物名を 抽出 1 2 3 単語と後項の スコアリング 障害情報の 抽出 手法概要図:障害情報抽出部 後項フィルタ
  48. 48 関連研究:SVMモデル 障害情報1 モデル1 モデル2 モデル3 モデル4 入力日報 分類先 日報郡

    SVMモデル ◦ × × ◦ SVMによる 二値分類 障害情報2 障害情報3 障害情報4 障害情報1 障害情報2
  49. 49 評価結果:障害情報抽出部 表1 障害情報抽出精度 抽出された障害情報を人手で評価 抽出数は多くないが高い精度を実現 ドメイン 抽出数 抽出精度 電話 81

    0.902 カメラ 386 0.775 車 62 0.919 ゲーム 44 0.750
  50. 50 評価結果:対応付け部 表2 対応付け精度 手法 上位3位出力時の精度 電話 カメラ 車 ゲーム

    ベースライン 0.731 0.266 0.667 0.667 確率モデル 0.769 0.348 0.533 0.417 ベクトル空間モデル 0.679 0.332 0.533 0.250 機械学習 0.692 0.305 0.467 0.250 本手法 0.769 0.375 0.733 0.417 すべてのドメインで比較手法と同等又は  比較手法を越えることが出来ている
  51. 51 考察:確率モデルとの比較(2/2) 表3 上位の障害情報を除いた評価用日報での精度 手法 上位3位出力時の精度 電話 カメラ 車 ゲーム

    確率モデル 0.238 0.117 0 0 本手法 0.333 0.223 0.200 0 出現確率上位3位の障害情報以外も 対応付けることができている