Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150326 発表資料
Search
Yuta
March 26, 2015
Education
0
130
20150326 発表資料
Yuta
March 26, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
160
NLP2016 報告
sudo
0
180
NLP2016 発表スライド
sudo
0
200
20160218 文献紹介
sudo
0
220
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
170
20150708 文献紹介
sudo
0
150
20150610 文献紹介
sudo
0
170
20150512 文献紹介
sudo
0
180
Other Decks in Education
See All in Education
自己紹介 / who-am-i
yasulab
2
3.1k
Avoin jakaminen ja Creative Commons -lisenssit
matleenalaakso
0
1.1k
Pen-based Interaction - Lecture 4 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.2k
令和6年度 無料トライアルキャンペーン説明会
asial_edu
0
610
Design Guidelines and Principles - Lecture 7 - Information Visualisation (4019538FNR)
signer
PRO
0
1.7k
論文の読み方 / How to survey
kaityo256
PRO
175
120k
Visualisation Techniques - Lecture 8 - Information Visualisation (4019538FNR)
signer
PRO
0
1.7k
インターアクトクラブについて:国際ロータリー第2720地区インターアクト委員会 委員長・大分東ロータリークラブ 阿部 克哉 氏
2720japanoke
0
660
MonacaEducation導入手引き2024年第1版
asial_edu
0
140
Pre-enrollment Information for UTokyo International Students
utokyoissr2360
0
4.8k
Canva
matleenalaakso
0
150
Родина моя Беларусь в лицах
programmer_sch2np
0
150
Featured
See All Featured
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
501
140k
Optimising Largest Contentful Paint
csswizardry
7
2.3k
Embracing the Ebb and Flow
colly
79
4.1k
GitHub's CSS Performance
jonrohan
1023
450k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
1
1.3k
Building Your Own Lightsaber
phodgson
98
5.7k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
34
8.9k
How To Stay Up To Date on Web Technology
chriscoyier
782
250k
Why Our Code Smells
bkeepers
PRO
331
56k
Happy Clients
brianwarren
91
6.4k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
The Cult of Friendly URLs
andyhume
74
5.7k
Transcript
情報抽出(文献紹介) 自然言語処理研究室 B3 須戸悠太 1
文献 • 言語処理学会第21回年次大会より • ブートストラップ法を用いたTwitterからの不具合文抽 出 ▫ 栗原光平,嶋田和孝(九工大) 2
ブートストラップ法とは • 半教師あり学習の1つ • タグ付け作業を軽減するための一般的なフレー ムワーク 3
ブートストラップ法とは 4 シード Japan プール パターン 集めたいものの事例を人手 でシードとして少数入力 ① ②
③
ブートストラップ法とは • ①:シードとコーパス中でよく共起する文脈をパターン として獲得 • ②:パターンとコーパス中でよく共起するものをプール に追加 • ③:プールの中でスコアの高いものをシードとして選択 5
ブートストラップ法の利点 • 人手の削減 ▫ タグ付けをする際、一つ一つ人手でつけるのではなく、大 量の候補をある程度の制度で集めることができる • ラベルなしデータの利用 ▫ ラベル付きデータだけでなく、ラベルなしデータも用いて
分類等のタスクを行う事ができる 6
目標 • 特定の製品の不具合について述べた文(不具合文)を Twitter上から自動で抽出 ▫ 例:「なんで!?スマホの電源がつかない…」 • 不具合文抽出のために、製品の異常や不具合の症状を表 す表現(不具合表現)をブートストラップ的に自動獲得 することでより多様な不具合文抽出を目指す
▫ 例:電源がつかない 7
処理の流れ • 初めに,不具合表現を人手で与え,これをシードとして 1 回目の不具合文抽出を行う • 抽出された不具合文から新たな不具合表現を獲得し,そ れらについて信頼度のスコアリング • 信頼度の高い不具合表現を選出し,それらを次のステッ
プの入力(シード)として与え,再び不具合文を抽出 8
処理の流れ 9 シード 不具合文 不具合表現候補 不具合表現 Tweetコーパス 不具合表現獲得 信頼度スコアリング
不具合表現の獲得 • 1. 特定の副詞の出現 ▫ 例:「勝手に」「突然」 • 2.動詞の未然形と否定の助動詞の連続 ▫ 例:「動かない」「起動しない」
• 3.ネガティブな単語の出現 ▫ 例:「悪い」「破れる」 10
信頼度のスコアリング・不具合文の抽出 • 獲得した不具合表現について信頼度のスコアリングを行 い,より不具合らしさが強いと思われるものだけを次の 入力として利用する • ノイズ除去→人手でルール設定 • 不具合表現の後ろに「言っていた」「聞いた」などの伝 聞に関する言い回し→抽出しない
11
実験 • 対象製品:携帯電話・スマートフォン • データセット:ツイート10 万件 • 初期シード ▫ 壊れる,
おかしい, 異常, 故障, 破損, フリーズ, バグ • ブートストラップによる反復を5 回行い,その結果に対 し人手でアノテーションし適合率によって評価 12
結果 13
結果 • 1→2回目 ▫ 適合率を維持したまま抽出数が大幅に増加 • 2→3回目 ▫ 抽出数の増加は少なかったものの,ノイズの増大がなく, 高い適合率を維持したまま反復を繰り返すことに成功
• 獲得出来た不具合表現 ▫ 勝手に電源がつく,急に電源が落ちる,電源が落ちない, 画面がつかない,ボタンが押せない 14
抽出できた不具合文 • 「充電切れるわケータイ熱くなっちゃって充電できない わ勝手に電源切れるわ最悪です」 • 「てか携帯画面真っ暗になって電池パック抜いて電源入 れようとしても電源つかないんだけど」 • 「壊れた」などの直接的に不具合を示す語は出現してい ないが,赤字部分を不具合表現として認識することで抽
出に成功している 15
参考文献 • パターン認識と機械学習 上 p22 ▫ C.M.ビショップ 著 ▫ Springer
(2007年) • 株式会社ブレインパッド_テクニカルナレッジ共有会#10 「ブート ストラップ法による自然言語処理」白井尊昭 ▫ https://speakerdeck.com/brainpad/zhu-shi-hui-she- bureinpatudo-tekunikarunaretuzigong-you-hui-number-10- butosutoratupufa-niyoruzi-ran-yan-yu-chu-li-bai-jing-zun-zhao 16