Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150326 発表資料
Search
Yuta
March 26, 2015
Education
0
140
20150326 発表資料
Yuta
March 26, 2015
Tweet
Share
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
170
NLP2016 報告
sudo
0
190
NLP2016 発表スライド
sudo
0
220
20160218 文献紹介
sudo
0
260
20150909 発表資料
sudo
0
140
20150820 文献紹介
sudo
0
190
20150708 文献紹介
sudo
0
160
20150610 文献紹介
sudo
0
190
20150512 文献紹介
sudo
0
180
Other Decks in Education
See All in Education
人になにかを教えるときに考えていること(2025-05版 / VRC-LT #18)
sksat
5
1.2k
GitHubとAzureを使って開発者になろう
ymd65536
1
160
RSJ2025 ランチョンセミナー 一歩ずつ世界へ:学生・若手研究者のための等身大の国際化の始め方
t_inamura
0
280
Técnicas y Tecnología para la Investigación Neurocientífica en el Neuromanagement
jvpcubias
0
130
2026 g0v 零時政府年會啟動提案 / g0v Summit 2026 Kickstart
rschiang
0
270
小学校女性教員向け プログラミング教育研修プログラム「SteP」の実践と課題
codeforeveryone
0
110
AWSと共に英語を学ぼう
amarelo_n24
0
150
2025年度春学期 統計学 第12回 分布の平均を推測する ー 区間推定 (2025. 6. 26)
akiraasano
PRO
0
160
Pydantic(AI)とJSONの詳細解説
mickey_kubo
0
190
Case Studies and Course Review - Lecture 12 - Information Visualisation (4019538FNR)
signer
PRO
1
2.1k
DIP_1_Introduction
hachama
0
120
みんなのコードD&I推進レポート2025 テクノロジー分野のジェンダーギャップとその取り組みについて
codeforeveryone
0
210
Featured
See All Featured
Understanding Cognitive Biases in Performance Measurement
bluesmoon
29
1.9k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
520
The Cult of Friendly URLs
andyhume
79
6.6k
Building an army of robots
kneath
306
46k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.9k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
3.1k
The Invisible Side of Design
smashingmag
301
51k
Speed Design
sergeychernyshev
32
1.1k
Imperfection Machines: The Place of Print at Facebook
scottboms
268
13k
A Modern Web Designer's Workflow
chriscoyier
696
190k
Transcript
情報抽出(文献紹介) 自然言語処理研究室 B3 須戸悠太 1
文献 • 言語処理学会第21回年次大会より • ブートストラップ法を用いたTwitterからの不具合文抽 出 ▫ 栗原光平,嶋田和孝(九工大) 2
ブートストラップ法とは • 半教師あり学習の1つ • タグ付け作業を軽減するための一般的なフレー ムワーク 3
ブートストラップ法とは 4 シード Japan プール パターン 集めたいものの事例を人手 でシードとして少数入力 ① ②
③
ブートストラップ法とは • ①:シードとコーパス中でよく共起する文脈をパターン として獲得 • ②:パターンとコーパス中でよく共起するものをプール に追加 • ③:プールの中でスコアの高いものをシードとして選択 5
ブートストラップ法の利点 • 人手の削減 ▫ タグ付けをする際、一つ一つ人手でつけるのではなく、大 量の候補をある程度の制度で集めることができる • ラベルなしデータの利用 ▫ ラベル付きデータだけでなく、ラベルなしデータも用いて
分類等のタスクを行う事ができる 6
目標 • 特定の製品の不具合について述べた文(不具合文)を Twitter上から自動で抽出 ▫ 例:「なんで!?スマホの電源がつかない…」 • 不具合文抽出のために、製品の異常や不具合の症状を表 す表現(不具合表現)をブートストラップ的に自動獲得 することでより多様な不具合文抽出を目指す
▫ 例:電源がつかない 7
処理の流れ • 初めに,不具合表現を人手で与え,これをシードとして 1 回目の不具合文抽出を行う • 抽出された不具合文から新たな不具合表現を獲得し,そ れらについて信頼度のスコアリング • 信頼度の高い不具合表現を選出し,それらを次のステッ
プの入力(シード)として与え,再び不具合文を抽出 8
処理の流れ 9 シード 不具合文 不具合表現候補 不具合表現 Tweetコーパス 不具合表現獲得 信頼度スコアリング
不具合表現の獲得 • 1. 特定の副詞の出現 ▫ 例:「勝手に」「突然」 • 2.動詞の未然形と否定の助動詞の連続 ▫ 例:「動かない」「起動しない」
• 3.ネガティブな単語の出現 ▫ 例:「悪い」「破れる」 10
信頼度のスコアリング・不具合文の抽出 • 獲得した不具合表現について信頼度のスコアリングを行 い,より不具合らしさが強いと思われるものだけを次の 入力として利用する • ノイズ除去→人手でルール設定 • 不具合表現の後ろに「言っていた」「聞いた」などの伝 聞に関する言い回し→抽出しない
11
実験 • 対象製品:携帯電話・スマートフォン • データセット:ツイート10 万件 • 初期シード ▫ 壊れる,
おかしい, 異常, 故障, 破損, フリーズ, バグ • ブートストラップによる反復を5 回行い,その結果に対 し人手でアノテーションし適合率によって評価 12
結果 13
結果 • 1→2回目 ▫ 適合率を維持したまま抽出数が大幅に増加 • 2→3回目 ▫ 抽出数の増加は少なかったものの,ノイズの増大がなく, 高い適合率を維持したまま反復を繰り返すことに成功
• 獲得出来た不具合表現 ▫ 勝手に電源がつく,急に電源が落ちる,電源が落ちない, 画面がつかない,ボタンが押せない 14
抽出できた不具合文 • 「充電切れるわケータイ熱くなっちゃって充電できない わ勝手に電源切れるわ最悪です」 • 「てか携帯画面真っ暗になって電池パック抜いて電源入 れようとしても電源つかないんだけど」 • 「壊れた」などの直接的に不具合を示す語は出現してい ないが,赤字部分を不具合表現として認識することで抽
出に成功している 15
参考文献 • パターン認識と機械学習 上 p22 ▫ C.M.ビショップ 著 ▫ Springer
(2007年) • 株式会社ブレインパッド_テクニカルナレッジ共有会#10 「ブート ストラップ法による自然言語処理」白井尊昭 ▫ https://speakerdeck.com/brainpad/zhu-shi-hui-she- bureinpatudo-tekunikarunaretuzigong-you-hui-number-10- butosutoratupufa-niyoruzi-ran-yan-yu-chu-li-bai-jing-zun-zhao 16