Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150326 発表資料
Search
Yuta
March 26, 2015
Education
0
140
20150326 発表資料
Yuta
March 26, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
180
NLP2016 報告
sudo
0
200
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
270
20150909 発表資料
sudo
0
150
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
200
20150512 文献紹介
sudo
0
190
Other Decks in Education
See All in Education
いわゆる「ふつう」のキャリアを歩んだ人の割合(若者向け)
hysmrk
0
310
1202
cbtlibrary
0
210
2025年度伊藤正彦ゼミ紹介
imash
0
170
東大1年生にJulia教えてみた
matsui_528
7
12k
栃木にいても「だいじ」だっぺ〜! 栃木&全国アジャイルコミュニティへの参加・運営の魅力
sasakendayo
1
140
Use Cases and Course Review - Lecture 8 - Human-Computer Interaction (1023841ANR)
signer
PRO
0
1.4k
子どもが自立した学習者となるデジタルの活用について
naokikato
PRO
0
180
1125
cbtlibrary
0
170
【洋書和訳:さよならを待つふたりのために】第1章 出会いとメタファー
yaginumatti
0
240
Flinga
matleenalaakso
3
15k
CSS3 and Responsive Web Design - Lecture 5 - Web Technologies (1019888BNR)
signer
PRO
1
3.1k
RGBでも蛍光を!? / RayTracingCamp11
kugimasa
2
380
Featured
See All Featured
Agile Actions for Facilitating Distributed Teams - ADO2019
mkilby
0
120
The Straight Up "How To Draw Better" Workshop
denniskardys
239
140k
The Pragmatic Product Professional
lauravandoore
37
7.1k
Testing 201, or: Great Expectations
jmmastey
46
8k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
2
190
Automating Front-end Workflow
addyosmani
1371
200k
A designer walks into a library…
pauljervisheath
210
24k
Building AI with AI
inesmontani
PRO
1
700
Git: the NoSQL Database
bkeepers
PRO
432
66k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
133
19k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
140
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
Transcript
情報抽出(文献紹介) 自然言語処理研究室 B3 須戸悠太 1
文献 • 言語処理学会第21回年次大会より • ブートストラップ法を用いたTwitterからの不具合文抽 出 ▫ 栗原光平,嶋田和孝(九工大) 2
ブートストラップ法とは • 半教師あり学習の1つ • タグ付け作業を軽減するための一般的なフレー ムワーク 3
ブートストラップ法とは 4 シード Japan プール パターン 集めたいものの事例を人手 でシードとして少数入力 ① ②
③
ブートストラップ法とは • ①:シードとコーパス中でよく共起する文脈をパターン として獲得 • ②:パターンとコーパス中でよく共起するものをプール に追加 • ③:プールの中でスコアの高いものをシードとして選択 5
ブートストラップ法の利点 • 人手の削減 ▫ タグ付けをする際、一つ一つ人手でつけるのではなく、大 量の候補をある程度の制度で集めることができる • ラベルなしデータの利用 ▫ ラベル付きデータだけでなく、ラベルなしデータも用いて
分類等のタスクを行う事ができる 6
目標 • 特定の製品の不具合について述べた文(不具合文)を Twitter上から自動で抽出 ▫ 例:「なんで!?スマホの電源がつかない…」 • 不具合文抽出のために、製品の異常や不具合の症状を表 す表現(不具合表現)をブートストラップ的に自動獲得 することでより多様な不具合文抽出を目指す
▫ 例:電源がつかない 7
処理の流れ • 初めに,不具合表現を人手で与え,これをシードとして 1 回目の不具合文抽出を行う • 抽出された不具合文から新たな不具合表現を獲得し,そ れらについて信頼度のスコアリング • 信頼度の高い不具合表現を選出し,それらを次のステッ
プの入力(シード)として与え,再び不具合文を抽出 8
処理の流れ 9 シード 不具合文 不具合表現候補 不具合表現 Tweetコーパス 不具合表現獲得 信頼度スコアリング
不具合表現の獲得 • 1. 特定の副詞の出現 ▫ 例:「勝手に」「突然」 • 2.動詞の未然形と否定の助動詞の連続 ▫ 例:「動かない」「起動しない」
• 3.ネガティブな単語の出現 ▫ 例:「悪い」「破れる」 10
信頼度のスコアリング・不具合文の抽出 • 獲得した不具合表現について信頼度のスコアリングを行 い,より不具合らしさが強いと思われるものだけを次の 入力として利用する • ノイズ除去→人手でルール設定 • 不具合表現の後ろに「言っていた」「聞いた」などの伝 聞に関する言い回し→抽出しない
11
実験 • 対象製品:携帯電話・スマートフォン • データセット:ツイート10 万件 • 初期シード ▫ 壊れる,
おかしい, 異常, 故障, 破損, フリーズ, バグ • ブートストラップによる反復を5 回行い,その結果に対 し人手でアノテーションし適合率によって評価 12
結果 13
結果 • 1→2回目 ▫ 適合率を維持したまま抽出数が大幅に増加 • 2→3回目 ▫ 抽出数の増加は少なかったものの,ノイズの増大がなく, 高い適合率を維持したまま反復を繰り返すことに成功
• 獲得出来た不具合表現 ▫ 勝手に電源がつく,急に電源が落ちる,電源が落ちない, 画面がつかない,ボタンが押せない 14
抽出できた不具合文 • 「充電切れるわケータイ熱くなっちゃって充電できない わ勝手に電源切れるわ最悪です」 • 「てか携帯画面真っ暗になって電池パック抜いて電源入 れようとしても電源つかないんだけど」 • 「壊れた」などの直接的に不具合を示す語は出現してい ないが,赤字部分を不具合表現として認識することで抽
出に成功している 15
参考文献 • パターン認識と機械学習 上 p22 ▫ C.M.ビショップ 著 ▫ Springer
(2007年) • 株式会社ブレインパッド_テクニカルナレッジ共有会#10 「ブート ストラップ法による自然言語処理」白井尊昭 ▫ https://speakerdeck.com/brainpad/zhu-shi-hui-she- bureinpatudo-tekunikarunaretuzigong-you-hui-number-10- butosutoratupufa-niyoruzi-ran-yan-yu-chu-li-bai-jing-zun-zhao 16