Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150326 発表資料
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuta
March 26, 2015
Education
0
140
20150326 発表資料
Yuta
March 26, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
180
NLP2016 報告
sudo
0
200
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
270
20150909 発表資料
sudo
0
150
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
200
20150512 文献紹介
sudo
0
190
Other Decks in Education
See All in Education
1021
cbtlibrary
0
400
The World That Saved Me: A Story of Community and Gratitude
_hashimo2
3
510
HTML5 and the Open Web Platform - Lecture 3 - Web Technologies (1019888BNR)
signer
PRO
2
3.2k
【洋書和訳:さよならを待つふたりのために】第2章 ガン特典と実存的フリースロー
yaginumatti
0
230
Security, Privacy and Trust - Lecture 11 - Web Technologies (1019888BNR)
signer
PRO
0
3.2k
160人の中高生にAI・技術体験の講師をしてみた話
shuntatoda
1
300
滑空スポーツ講習会2025(実技講習)EMFT講習 実施要領/JSA EMFT 2025 procedure
jsaseminar
0
110
Cifrado asimétrico
irocho
0
380
【洋書和訳:さよならを待つふたりのために】第1章 出会いとメタファー
yaginumatti
0
240
【旧:ZEPメタバース校舎操作ガイド】
ainischool
0
800
あなたの言葉に力を与える、演繹的なアプローチ
logica0419
1
270
コマンドラインを見直そう(1995年からタイムリープ)
sapi_kawahara
0
660
Featured
See All Featured
Deep Space Network (abreviated)
tonyrice
0
49
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.7k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
35
2.4k
WENDY [Excerpt]
tessaabrams
9
36k
Ten Tips & Tricks for a 🌱 transition
stuffmc
0
69
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
11
830
The World Runs on Bad Software
bkeepers
PRO
72
12k
Darren the Foodie - Storyboard
khoart
PRO
2
2.4k
From π to Pie charts
rasagy
0
120
A better future with KSS
kneath
240
18k
Facilitating Awesome Meetings
lara
57
6.8k
Kristin Tynski - Automating Marketing Tasks With AI
techseoconnect
PRO
0
150
Transcript
情報抽出(文献紹介) 自然言語処理研究室 B3 須戸悠太 1
文献 • 言語処理学会第21回年次大会より • ブートストラップ法を用いたTwitterからの不具合文抽 出 ▫ 栗原光平,嶋田和孝(九工大) 2
ブートストラップ法とは • 半教師あり学習の1つ • タグ付け作業を軽減するための一般的なフレー ムワーク 3
ブートストラップ法とは 4 シード Japan プール パターン 集めたいものの事例を人手 でシードとして少数入力 ① ②
③
ブートストラップ法とは • ①:シードとコーパス中でよく共起する文脈をパターン として獲得 • ②:パターンとコーパス中でよく共起するものをプール に追加 • ③:プールの中でスコアの高いものをシードとして選択 5
ブートストラップ法の利点 • 人手の削減 ▫ タグ付けをする際、一つ一つ人手でつけるのではなく、大 量の候補をある程度の制度で集めることができる • ラベルなしデータの利用 ▫ ラベル付きデータだけでなく、ラベルなしデータも用いて
分類等のタスクを行う事ができる 6
目標 • 特定の製品の不具合について述べた文(不具合文)を Twitter上から自動で抽出 ▫ 例:「なんで!?スマホの電源がつかない…」 • 不具合文抽出のために、製品の異常や不具合の症状を表 す表現(不具合表現)をブートストラップ的に自動獲得 することでより多様な不具合文抽出を目指す
▫ 例:電源がつかない 7
処理の流れ • 初めに,不具合表現を人手で与え,これをシードとして 1 回目の不具合文抽出を行う • 抽出された不具合文から新たな不具合表現を獲得し,そ れらについて信頼度のスコアリング • 信頼度の高い不具合表現を選出し,それらを次のステッ
プの入力(シード)として与え,再び不具合文を抽出 8
処理の流れ 9 シード 不具合文 不具合表現候補 不具合表現 Tweetコーパス 不具合表現獲得 信頼度スコアリング
不具合表現の獲得 • 1. 特定の副詞の出現 ▫ 例:「勝手に」「突然」 • 2.動詞の未然形と否定の助動詞の連続 ▫ 例:「動かない」「起動しない」
• 3.ネガティブな単語の出現 ▫ 例:「悪い」「破れる」 10
信頼度のスコアリング・不具合文の抽出 • 獲得した不具合表現について信頼度のスコアリングを行 い,より不具合らしさが強いと思われるものだけを次の 入力として利用する • ノイズ除去→人手でルール設定 • 不具合表現の後ろに「言っていた」「聞いた」などの伝 聞に関する言い回し→抽出しない
11
実験 • 対象製品:携帯電話・スマートフォン • データセット:ツイート10 万件 • 初期シード ▫ 壊れる,
おかしい, 異常, 故障, 破損, フリーズ, バグ • ブートストラップによる反復を5 回行い,その結果に対 し人手でアノテーションし適合率によって評価 12
結果 13
結果 • 1→2回目 ▫ 適合率を維持したまま抽出数が大幅に増加 • 2→3回目 ▫ 抽出数の増加は少なかったものの,ノイズの増大がなく, 高い適合率を維持したまま反復を繰り返すことに成功
• 獲得出来た不具合表現 ▫ 勝手に電源がつく,急に電源が落ちる,電源が落ちない, 画面がつかない,ボタンが押せない 14
抽出できた不具合文 • 「充電切れるわケータイ熱くなっちゃって充電できない わ勝手に電源切れるわ最悪です」 • 「てか携帯画面真っ暗になって電池パック抜いて電源入 れようとしても電源つかないんだけど」 • 「壊れた」などの直接的に不具合を示す語は出現してい ないが,赤字部分を不具合表現として認識することで抽
出に成功している 15
参考文献 • パターン認識と機械学習 上 p22 ▫ C.M.ビショップ 著 ▫ Springer
(2007年) • 株式会社ブレインパッド_テクニカルナレッジ共有会#10 「ブート ストラップ法による自然言語処理」白井尊昭 ▫ https://speakerdeck.com/brainpad/zhu-shi-hui-she- bureinpatudo-tekunikarunaretuzigong-you-hui-number-10- butosutoratupufa-niyoruzi-ran-yan-yu-chu-li-bai-jing-zun-zhao 16