日報を対象とした障害予知システムの構築

日報を対象とした障害予知システムの構築電気電子情報工学専攻山本研究室 07511584 柿元芳文

2 背景企業内文書の電子化 s ネットワークの普及 s WebやE-mailによる業務日報業務日報の重要性 s 上司による業務の良悪の判断
s 業務に関する障害の把握明示されている障害明示されていない障害未発生であるが、起こり得る障害

3 背景企業内文書の電子化 s ネットワークの普及 s WebやE-mailによる業務日報業務日報の重要性 s 上司による業務の良悪の判断
s 業務に関する障害の把握明示されている障害明示されていない障害未発生であるが、起こり得る障害業務日報から障害を予知する技術

4 目的障害予知システムの構築 s 入力日報から、隠れた障害、又は起こり得る障害を発見する s 障害の早期発見 s 障害の発生防止
テキスト情報から障害を予知する　研究は行われていない！

5 障害予知の例最近雨が多く、締め切っているせいかサーバー室の温度が高い。そんな状況下で長時間使用しているからか、パソコンの温度があがっていた。要注意である。入力日報近々プリンタが詰まるかもしれない！

6 用いた日報データ第三者に報告する形で記述書き手の主観情報を多く含むドメインが固定されている Web上のデータ「価格.com」の１つの書き込みを「日報」として用いる企業の日報は大量に手に入れることが難しい企業の日報の特徴扱ったドメイン
: 電話 , カメラ , 車 , ゲーム

7 提案手法の流れ障害情報の抽出 s 予知すべき情報の収集 s 構文パタンと統計的情報を用いる日報と障害情報の対応付け s 文書分類のタスクとして処理
s 独自の確率モデルを用いる入力日報からの障害の予知 s 予知の必要/不要の判断 s 対応付け手法を用いた障害の予知

9 関連研究：障害情報抽出部人手による辞書を用いる手法 [市村ら 2001] s 日報から「製品名」「要因概念」「結果概念」を抽出構文パタンを用いる手法 [斎藤ら
2007] s 議事録からプロジェクトリスクを抽出統計的情報を用いる手法 [De Seager et al 2008] s 日報からトラブル表現を抽出構文パタンと統計的情報を用いて障害情報を抽出

10 障害情報の定義ある日報の中で何らかの障害を報告している表現生じた障害の内容が推察できる単位単語では不十分である s 障害の内容が推察できない壊れる、遅延、エラー、失敗
s 対象によって対処法が変わる「椅子が壊れる」「サーバーが壊れる」障害情報の単位として

11 障害情報の定義ある日報の中で何らかの障害を報告している表現生じた障害の内容が推察できる単位単語では不十分である障害情報の単位として障害情報には少なくとも障害の対象と状態の対が必要である

12 構文パタン具体物名 + 格助詞「が」　　　　⇒ 障害を示す単語を含む文節具体物名 s 具体物辞書を用いて判定
障害を表す単語を含む文節 s 障害語辞書を用いて判定 s 後項フィルタを用いて判定障害情報の例パソコンが⇒壊れる , 液晶が⇒割れる

13 EDR電子化辞書具体物辞書学習データ障害語辞書ドメイン別日報障害日報非障害
日報日報中の構文片障害情報辞書具体物名を抽出 1 2 3 単語と後項のスコアリング障害情報の抽出手法概要図：障害情報抽出部後項フィルタ

15 具体物辞書の構築 EDR電子化辞書を用いる具体物名として用いた概念具体物（例：カメラ）自然現象によって出来る物（例：電波）上記概念から除いた概念事象（例：業者）抽象物（例：科学）人間または人間と似た振舞をする主体
　　　　　　　　　　　（例：子供）

17 学習データの作成すべての日報にはタグが存在する s 良い s 悪い s 質問 s
特価情報 s その他「悪い」日報を障害日報「良い」日報を非障害日報

18 障害語辞書の構築統計的情報を用いる藤村らの手法を参考とした [藤村ら 2005] 単語の出現の偏り：-1 ~ +1 s
wi :ある単語 s P(wi) : wi が出現した非障害日報の数 s N(wi) : wi が出現した障害日報の数 s Pdoc,Ndoc : 非障害日報と障害日報の総数

19 出現頻度による差異の考慮出現頻度:100 スコア:-0.9 出現頻度:10000 スコア:-0.9 出現頻度が高い方がスコアの信頼性が高い信頼区間推定法を用いた [Agresti et
al 1998]

20 信頼区間推定法の適用内容語をスコアStcと共に障害語辞書に登録 s 正のスコアの単語例: 感動 , 面白い s 負のスコアの単語例:
おかしい , 欠陥信頼区間の考慮により極性が反転した内容語は　登録しない

21 後項フィルタの構築文節を単位として構築複数ドメインの非障害日報に頻出する文節は障害を示さない s 例: 発売される　購入できる「各ドメインの非障害日報での出現確率の積」を算出
降順でランキング上位となった後項を後項フィルタとして用いる

23 障害情報抽出手順ドメイン別日報パソコンを⇒買う彼が⇒迷うパソコンが⇒燃えるパソコンが⇒良い彼が⇒迷うパソコンが⇒燃える
パソコンが⇒良いパソコンが⇒燃えるパソコンが⇒良いパソコンが⇒燃える前項がガ格具体物辞書障害語辞書後項フィルタ

24 閾値の設定設定対象障害語辞書後項フィルタ設定方法ドメイン「電話」を基準障害語辞書と後項フィルタの閾値を変化させ、設定条件を超えた閾値の組合せ設定条件：抽出精度
0.9 以上　　　　　抽出数が最多

25 否定語の考慮障害語辞書は2種類の単語を含む正のスコアの単語 : 間に合う , 動く否定語の考慮 :
間に合わない , 動かない負のスコアの単語 : 壊れる , 割れる否定語の考慮 : 壊れない , 割れない否定語「ない」によって極性が反転する文節内で「ない」と共起した場合、スコアを反転する

26 評価結果：障害情報抽出部表１　障害情報抽出精度抽出された障害情報を人手で評価抽出数は多くないが高い精度を実現ドメイン抽出数抽出精度電話 81
0.902 カメラ 386 0.775 車 62 0.919 ゲーム 44 0.750

27 考察:誤抽出について誤抽出数は s 全抽出数 : 573 s 語抽出数 :
109 誤抽出は障害語辞書によるものが最多前項によって障害/非障害と変化するもの s ノイズが⇒発生する , 飛行機雲が⇒発生する否定語の不足によるもの s 液晶が⇒壊れる , 液晶が⇒壊れにくい

28 まとめ：障害情報抽出部構文パタンと統計的情報を用いた障害情報抽出手法を提案 EDR電子化辞書から具体物辞書を構築統計的情報から障害語辞書、　　　　　後項フィルタを構築ドメイン「電話」「車」で精度0.9以上「カメラ」「ゲーム」で精度0.8弱高精度を実現

30 関連研究：対応付け部文書分類手法確率モデルを用いる手法 s 分類先と分類元での単語の出現確率ベクトル空間モデルを用いる手法 s 分類先と分類元からベクトルを作成 s
コサイン距離を用いる機械学習を用いる手法 s 単語を素性として分類モデルを構築 s SVMを使用

31 文書分類タスクで解く文書分類は同じテーマを持っている文書対は、共通の単語が出やすい s 単語を特徴量として用いている s 分類先は同じテーマを持つ文書群日報と障害の対応付けは
同じ障害は同じ状況で起こりやすい s 状況は内容語が表す s 内容語を特徴量として用いる s 分類先は同じ障害情報を持つ日報群

32 文書分類タスクで解く文書分類は同じテーマを持っている文書対は、共通の単語が出やすい s 単語を特徴量として用いている s 分類先は同じテーマを持つ文書群日報と障害の対応付けは
同じ障害は同じ状況で起こりやすい s 状況は内容語が表す s 内容語を特徴量として用いる s 分類先は同じ障害情報を持つ日報群

33 文書分類との差異分類先1 入力日報分類先2 分類先3 分類先4 障害情報1 障害情報2 障害情報3
障害情報4 文書分類日報と障害情報の対応付け分類先の日報数に大きな差

34 手法概要図 : 学習部ドメイン別日報障害情報辞書障害日報 (T1) 障害日報
(T2) 障害日報 (T3) ・・・障害日報 (TN) 予知情報(T1) 予知情報(T2) 予知情報(T3) 予知情報(TN) ・・・予知情報辞書各障害情報から予知情報を構築各障害情報(T1~N)を含む日報の収集

35 予知情報辞書の構築予知情報は各障害情報ごとに作成内容語を要素内容語と障害情報の共起頻度を付与障害情報を構成している内容語は要素から除く予知情報の例液晶が⇒割れる {落とす.6
, 指.6 , 衝撃.2 , ポケット.2 , 当たる.2}

36 手法概要図 : 対応付け部予知情報辞書入力日報内容語集合入力日報に起こりうる障害情報 TN
内容語の抽出確率モデルを用いた類似度の計算類似度の計算には独自の確率モデルを使用

37 対応付けスコアの計算各予知情報と入力日報間で計算独自の確率モデルを用いる対応付けスコアに求める項目予知情報と入力日報の内容語の一致率 s 状況が一致するほどいい障害情報の出現しやすさ s
出現しやすい障害情報の考慮対応付けスコアの上位3件を対応付ける

38 対応付けスコア算出式 s f : 予知情報 s d : 入力日報
s WF : 集合F に含まれ、集合D にも含まれる要素集合 s WD : 集合D に含まれ、集合F にも含まれる要素集合 s F : 予知情報f の要素集合 s D : 入力日報d の要素集合

39 評価実験：対応付け部評価用日報の収集 s 学習用日報に含まれない日報 s 障害情報を含む日報 s 対応付け手法が、日報が持っている障害情報を出力できたら正解
比較手法 s ベースライン s 確率モデル s ベクトル空間モデル (コサイン距離) s 機械学習モデル (SVM)

40 比較手法ベースライン s 学習用日報中での出現確率上位の障害情報を常に出力する確率モデル [Iwayama et al
1994] s 入力日報と予知情報の単語の出現確率 s 障害情報の出現確率の考慮

41 比較手法ベクトル空間モデル s 入力日報と予知情報の内容語集合をベクトルとして扱う s コサイン距離を用いる s 両ベクトルの要素の和集合を取る
機械学習 s SVMを用いる s 各障害情報に分類モデルを構築 s 複数対応付けられた場合は、出現確率の高い障害情報を優先

42 評価結果：対応付け部表2 対応付け精度手法上位3位出力時の精度電話カメラ車ゲーム
ベースライン 0.731 0.266 0.667 0.667 確率モデル 0.769 0.348 0.533 0.417 ベクトル空間モデル 0.679 0.332 0.533 0.250 機械学習 0.692 0.305 0.467 0.250 本手法 0.769 0.375 0.733 0.417 すべてのドメインで比較手法と同等又は　比較手法を越えることが出来ている

43 考察：確率モデルとの比較(1/2) 精度が確率モデルと同等のドメインあり確率モデルの出力には　　　　　　　　出現確率上位3位の障害情報が多い上位3位の障害情報が正解である日報はほとんど正解している上位ではない障害情報も対応付けたい出現確率上位3位の障害情報が正解である評価用日報を除いて再評価

44 考察：確率モデルとの比較(2/2) 表3 上位の障害情報を除いた評価用日報での精度手法上位3位出力時の精度電話カメラ車ゲーム
確率モデル 0.238 0.117 0 0 本手法 0.333 0.223 0.200 0 出現確率上位3位の障害情報以外も対応付けることができている

45 まとめ：対応付け部日報と障害情報の対応付けを　　　　　　文書分類のタスクとして処理独自の確率モデルを提案 s 内容語の一致率 s 障害情報の出現しやすさ比較手法よりも優れた対応付け精度を実現
s 出現確率の低い障害情報も対応付け可能

47 手法概要図：障害予知部入力日報予知の必要性判断日報と障害情報の対応付け手法起こり得る障害情報　　　　の対応付け入力日報からの障害の予知

48 要予知日報判定入力日報の予知の必要性判断障害は悪い状況の集まりから発生障害語辞書を用いて判定スコアSp を算出負のスコアの日報を要予知日報とする s wi :入力日報に出現した単語
s D : 入力日報の内容語集合 s Stc : 障害語らしさのスコア

49 要予知日報判定入力日報の予知の必要性判断障害は悪い状況の集まりから発生障害語辞書を用いて判定スコアSp を算出負のスコアの日報を要予知日報とする負のスコアとなった日報に対して対応付け手法による予知を行う

50 評価実験概要：障害予知部評価用日報 s 要予知日報と判断された日報 s 200件 : 各ドメイン 50
件被験者は3名人間による予知 s 「人間でも可能な予知」を収集 s 要予知日報判定の評価システムの予知の評価 s 障害予知の精度を評価

51 評価実験1：人間による予知障害が予知できる s 障害を3つまで記述障害が起こり得るが予知はできない障害は起こり得ない人間でも可能な予知を収集要予知日報判定の精度を算出入力日報のみを提示

52 評価実験2：システムによる予知システムの出力した予知3件 s 被験者が「起こり得る」と選択したら正解ランダムで出力した予知3件 s 障害情報辞書からランダムで選択障害は起こり得るが出力の中にはない障害は起こり得ない
システムの障害予知部のみの精度を算出入力日報とシステムの出力を提示

53 評価結果：要予知日報判定表4 要予知日報判定精度要予知日報判定部は6割強の精度ドメイン要予知日報判定精度被験者3人の加算平均電話 0.630
カメラ 0.740 車 0.566 ゲーム 0.547 全体 0.622

54 評価結果：障害の予知表5 障害予知部の精度ドメイン出力種別障害予知部の精度被験者3人の加算平均電話システム
0.475 ランダム 0.343 カメラシステム 0.458 ランダム 0.430 車システム 0.475 ランダム 0.424 ゲームシステム 0.363 ランダム 0.340 全体システム 0.448 ランダム 0.396

55 考察：人間の予知能力との比較予知可能割合 = 予知が必要だとされた日報数正しい予知ができた日報数予知可能割合被験者1 0.693 被験者2
0.325 被験者3 0.689 システム 0.448 人間の予知能力を越える可能性がある表6 人間の予知可能割合との比較

56 考察：人間の予知との相違人間が気付きにくい予知ほどいい予知評価実験1で得た「人間による予知」と「システムの出力した予知」を比較比較した結果、一致した予知は　　　　　　　　　　　すべての被験者において一割程度人間が気付きにくい予知を多く出力できた

57 まとめ：障害予知部障害語辞書を用いた要予知日報判定 s 障害は悪い状況の集まりから生じる対応付け手法を用いた障害の予知要予知日報判定部の精度は0.622 障害予知部の精度は0.448 人間の予知能力を越える可能性人間が気付きにくい予知を多く出力

58 まとめ：システム全体障害予知システムを構築 s 障害情報の抽出 s 日報と障害情報の対応付け s 障害の予知対応付け手法、障害予知手法共に　　　
比較手法を越える精度人間が気付きにくい予知を多く出力

59 発表おわり

60 岩山らの確率モデル s wi : ある単語 s P(f) : 予知情報辞書内の予知情報を取り出した時、
f となる確率 s P(wi ) : 予知情報辞書から要素を取り出した時、　 wi となる確率 s P(wi |f) : 予知情報f から要素を取り出した時、 wi となる確率 s P(wi |d) : 予知情報d から要素を取り出した時、 w となる確率

61 ベクトル空間モデル

62 各ドメインの学習用日報数ドメイン学習用日報数電話 41,917 カメラ 218,481 車 42,822
ゲーム 28,778 表7 各ドメインの学習用日報数

63 システム全体での精度ドメイン出力種別障害予知部の精度被験者3人の加算平均電話システム 0.307 ランダム
0.207 カメラシステム 0.358 ランダム 0.328 車システム 0.312 ランダム 0.272 ゲームシステム 0.208 ランダム 0.210 全体システム 0.295 ランダム 0.253

64 予知可能割合(各ドメイン) 予知可能割合被験者3人の加算平均電話 0.594 カメラ 0.595 車 0.551
ゲーム 0.520 「ゲーム」は日報に記載されている状況からは障害を予知しにくいシステムによる予知の精度も低かった

65 障害発生の喚起「障害は起こり得ない」とされた日報数被験者3人の平均評価実験1 75.7 評価実験2 66.7 予知の出力と一緒に提示することで
「障害は起こり得ない」日報数が減少障害を喚起することができた

66 障害予知例 FMトランスミッタを使用する場合、雑音（ザーという音）が入り聞こえ方も悪くなります。ただ、手を本体に近づけると雑音がなくなり受信状態も良くなります。このような症状で困ってる方、改善方法、原因などお判りの方いらっしゃいましたらアドバイスお願いします。ノイズが ⇒
発生するオーディオが ⇒ 壊れる

67 障害予知例Ｄ３００を買って１ヶ月くらい経ちました。今日はじめてＣＦ８Ｇにフルになるまで撮影してきました。うまくとれてるかなぁ〜と撮ったものをみてるとなんか白く点になってるところがある、これもこれもこれも！！で昔撮ったものにも白い点が・・・２カ所ありました。とりあえずキタムラさんに持って行って相談してニコン行き決定しました。なおるのかなぁ〜なんか心配ですが新品交換よりもプロにみてもらって修理？した方が安心だよと店長さんが言ってくれたんでそれを信用することにします。皆さんのＤ３００は大丈夫
ですか？また２週間後に使う予定なので間に合うように送るって言ってくれました。間に合うかなぁ〜ううう。人間 s 修理が2週間後に間に合わないシステム s 液晶が ⇒ 割れる

68 構文片の利用[青木ら 2007] 係受け関係にある2文節を基としている対象と状態の対を含むことができる入力文: 　古いパソコンのバッテリーがいきなり爆発した。構文片: 古い ⇒
パソコンバッテリーが ⇒ 爆発するいきなり ⇒ 爆発する

69 構文片の利用[青木ら 2007] 係受け関係にある2文節を基としている対象と状態の対を含むことができる入力文: 　古いパソコンのバッテリーがいきなり爆発した。構文片: 古い ⇒
パソコンバッテリーが ⇒ 爆発するいきなり ⇒ 爆発するすべての構文片が対象と状態の対を含むわけではない

70 関連研究：障害予知部文書から障害を予知する研究はない 2つの出来事間の因果関係を推定する手法入力文 : 私は、熱が出たため病院へ行った。因果関係：熱が出る(原因) ,
病院へ行く(結果) 因果関係を用いれば予知が可能となる可能性しかし人間にとって想像が容易な予知しかできない

71 文書分類による予知文書分類を応用した予知によって人間に障害を気付かせる役割人間が容易に想像できる予知をしても　意味がない人間が気付きにくい予知も可能

72 障害情報抽出手順ドメイン別の大規模な日報データを与える構文片を抽出する前項がガ格を持たない場合、棄却する前項が具体物を含むか判定する後項が障害を示す単語を含むか判定する後項が後項フィルタに含まれる場合、棄却する障害情報辞書へ登録

73 ドメイン別日報障害情報辞書障害日報 (T1) 障害日報 (T2) 障害日報 (T3)
・・・障害日報 (TN) 予知情報(T1) 予知情報(T2) 予知情報(T3) 予知情報(TN) ・・・予知情報辞書入力日報内容語集合入力日報に起こりうる障害情報 TN 各障害情報から予知情報を構築内容語の抽出確率モデルを用いた類似度の計算各障害情報(T1~N)を含む日報の収集

74 関連研究:SVMモデル障害情報1 モデル1 モデル2 モデル3 モデル4 入力日報分類先日報郡
SVMモデル ◦ × × ◦ SVMによる二値分類障害情報2 障害情報3 障害情報4 障害情報1 障害情報2

日報を対象とした障害予知システムの構築

日報を対象とした障害予知システムの構築

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript