Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
構文片を用いた日報からの障害情報抽出
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
自然言語処理研究室
March 31, 2008
Research
120
0
Share
構文片を用いた日報からの障害情報抽出
柿元 芳文, 山本 和英. 構文片を用いた日報からの障害情報抽出. 言語処理学会第14回年次大会, pp.923-926 (2008.3)
自然言語処理研究室
March 31, 2008
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
410
データサイエンス13_解析.pdf
jnlp
0
530
データサイエンス12_分類.pdf
jnlp
0
370
データサイエンス11_前処理.pdf
jnlp
0
490
Recurrent neural network based language model
jnlp
0
160
自然言語処理研究室 研究概要(2012年)
jnlp
0
160
自然言語処理研究室 研究概要(2013年)
jnlp
0
120
自然言語処理研究室 研究概要(2014年)
jnlp
0
150
自然言語処理研究室 研究概要(2015年)
jnlp
0
230
Other Decks in Research
See All in Research
セマンティック通信勉強会 6Gに向けたデバイス間効率的な通信の技術紹介・課題・今後展望
satai
2
120
LLM Compute Infrastructure Overview
karakurist
2
1.3k
AIエージェント時代のLLM-jpモデルのあるべき姿
k141303
0
350
AIスーパーコンピュータにおけるLLM学習処理性能の計測と可観測性 / AI Supercomputer LLM Benchmarking and Observability
yuukit
1
870
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
260
計算情報学研究室(数理情報学第7研究室)2026
tomohirokoana
0
410
はじまりの クエスチョンブック —余暇と豊かさにあふれた社会とは?
culturaltransition
PRO
0
440
Dual Quadric表現を用いた動的物体追跡とRGB-D・IMU制約の密結合によるオドメトリ推定
nanoshimarobot
0
370
ローテーション別のサイドアウト戦略 ~なぜあのローテは回らないのか?~
vball_panda
0
330
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
530
Data Visualization Tools in the Age of AI
flekschas
0
140
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
960
Featured
See All Featured
How to audit for AI Accessibility on your Front & Back End
davetheseo
0
370
SEO Brein meetup: CTRL+C is not how to scale international SEO
lindahogenes
1
2.6k
The #1 spot is gone: here's how to win anyway
tamaranovitovic
2
1k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
180
The Art of Programming - Codeland 2020
erikaheidi
57
14k
Stewardship and Sustainability of Urban and Community Forests
pwiseman
0
200
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.8k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.7k
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
330
Between Models and Reality
mayunak
4
290
Darren the Foodie - Storyboard
khoart
PRO
3
3.3k
Transcript
構文片を用いた 日報からの障害情報抽出 長岡技術科学大学 電気系 柿元 芳文 , 山本 和英
はじめに 日々の報告を電子文書で提出 管理職による閲覧 問題があれば対応 非常に高コスト 問題のある表現を自動的に抽出したい
障害情報の定義 ある日報の中で何らかの障害を報告 している表現 障害の内容を把握できる単位が必要 係り受けの対を基とした構文片を用いた [Aoki et al. 07] 障害情報例
サーバーが → 壊れる 椅子が → 壊れる
手法概要 Livedoor Blog 価格.com 障害 日報 非障害 日報 学習データ 辞書の
拡張 障害情報辞書 新規入力日報 入力構文片 入力日報の 障害情報抽出 構文片のスコアリング マッチング A B C
学習データ 収集ルールは人手により設定 Livedoor Blog 障害日報 2,410件 非障害日報 3,651,242件
価格.com クチコミ掲示板 障害日報 30,000件 非障害日報 1,712,999件 A
障害情報辞書の作成 構文片にスコアを付与する 障害日報と非障害日報での出現の偏りを 用いた -1~+1のスコアを付与 出現頻度による信頼性を考慮 確率の信頼区間推定法を用いた
[藤村ら 04] [Alan et al. 98] 正のスコアとなった構文片を辞書へ登録 B
辞書をそのまま用いると 学習データ中の障害情報しか抽出 できない 未知の障害への対応が必要 辞書の拡張概要 動作が遅い 検索が 表示が 対応が
・・・ 検索が遅い 表示が遅い 対応が遅い ・・・ 類似したサ変名詞 を検索 辞書へ追加 C
Webコーパス 構文片 辞書中の構文片の拡張 サ変名詞が対象 前項、後項双方に行う 係り先の類似性を基に拡張
評価実験 2つの評価 辞書を用いた二値分類精度の評価 抽出された障害情報の評価 評価データ 被験者3人により作成
障害日報、非障害日報に分類 3人一致の日報のみ使用 障害日報、非障害日報 133件、 133件
評価:辞書を用いた二値分類精度 F値の最大値 0.772 適合率 0.724 再現率 0.827
評価基準 基準(1) 何らかの障害を表している 基準(2) 直接的に障害を表してはいないが、 何らかの障害を連想することができる 基準(3)
障害を表しておらず、連想することも できない
考察:二値分類時の誤抽出 傾きが一定 → どの閾値帯でも同程度の誤りを含んでいる 障害らしい構文片を得られるが最適とは言えない
評価:得られた障害情報 基準 障害情報 (1) 画面が ⇒ 表示されない 遅延が ⇒ 発生する
音が ⇒ 途切れる (2) サポートに ⇒ 電話する 販売店に ⇒ 返品する 原因を ⇒ 特定する (3) コンセントを ⇒ 抜く 電源を ⇒ 入れる 一度も ⇒ 繋がる
評価:拡張で得られた障害情報 基準 拡張元 拡張先 (1) 悪い⇒サービス 悪い⇒イメージ 検索が⇒出来ない 表示が⇒出来ない (2)
サポートに⇒連絡する サポートに⇒相談する エラーが⇒出る マークが⇒出る (3) 連絡を⇒くれる 返事を⇒くれる 基準(1)まで正解 : 適合率 0.30 基準(2)まで正解 : 適合率 0.40
終わりに 日報から障害情報を自動的に抽出す る手法を提案 構文片を用いて辞書を自動構築 二値分類器としての評価でF値0.772 抽出された障害情報の評価で 適合率0.40
スコア算出式 P(w i ) : ある構文片w i が出現した障害日誌の数 N(w i
) : ある構文片w i が出現した障害日誌の数 P doc : 障害日報の総数 N : 非障害日報の総数
信頼区間推定法
学習データ Livedoor Blog 障害情報 タグに「トラブル」が入っている タイトルに「トラブル」が入っている 非障害情報 タイトル及び本文に「トラブル」が入っていな
い 価格.com クチコミ掲示板 障害情報 タグが「悪い」に設定されている 非障害情報 タグが「悪い」「質問」以外に設定されている
拡張の概要