Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150326 発表資料
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuta
March 26, 2015
Education
150
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
20150326 発表資料
Yuta
March 26, 2015
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
180
NLP2016 報告
sudo
0
200
NLP2016 発表スライド
sudo
0
230
20160218 文献紹介
sudo
0
270
20150909 発表資料
sudo
0
150
20150820 文献紹介
sudo
0
200
20150708 文献紹介
sudo
0
170
20150610 文献紹介
sudo
0
200
20150512 文献紹介
sudo
0
190
Other Decks in Education
See All in Education
0526
cbtlibrary
0
170
プログラミング言語において文字列を複数行にわたって だらだらと記載するアレ
sapi_kawahara
0
170
教育現場から見た Ruby on Rails
yasslab
PRO
0
180
アラムコSTEAMチャレンジ 実践報告書
codeforeveryone
0
160
2026年度春学期 統計学 第4回 データを「分布」で見る (2026. 4. 30)
akiraasano
PRO
0
150
生成AIを授業の相棒にするデータサイエンス入門(「デジタル✕探究」イノベーターズフォーラム テクニカルセッション講演資料)
datascientistsociety
PRO
0
310
Examen de Selectividad. Geografía junio 2026 (Convocatoria Ordinaria). UCLM
juanmartin2026
0
480
면접관 눈에 띄는 데이터 분석 포트폴리오 만드는 법 | 2026년 5월 세미나
datarian
0
850
Curso de Consagração ao Sagrado Coração de Jesus - O Sagrado Coração na História (Aula 01)
cm_manaus
0
230
「機械学習と因果推論」入門 ⑤ 因果効果推定の一般化
masakat0
0
130
プロポーザルを書く技術とアンチパターン/proposal-writing-and-antipatterns
moriyuya
13
3.5k
Human-AI Interaction - Lecture 11 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.1k
Featured
See All Featured
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
1
340
For a Future-Friendly Web
brad_frost
183
10k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
870
brightonSEO & MeasureFest 2025 - Christian Goodrich - Winning strategies for Black Friday CRO & PPC
cargoodrich
3
740
Ethics towards AI in product and experience design
skipperchong
2
320
The Invisible Side of Design
smashingmag
301
52k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
1
260
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1.4k
Public Speaking Without Barfing On Your Shoes - THAT 2023
reverentgeek
1
440
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Designing for Performance
lara
611
70k
Organizational Design Perspectives: An Ontology of Organizational Design Elements
kimpetersen
PRO
1
750
Transcript
情報抽出(文献紹介) 自然言語処理研究室 B3 須戸悠太 1
文献 • 言語処理学会第21回年次大会より • ブートストラップ法を用いたTwitterからの不具合文抽 出 ▫ 栗原光平,嶋田和孝(九工大) 2
ブートストラップ法とは • 半教師あり学習の1つ • タグ付け作業を軽減するための一般的なフレー ムワーク 3
ブートストラップ法とは 4 シード Japan プール パターン 集めたいものの事例を人手 でシードとして少数入力 ① ②
③
ブートストラップ法とは • ①:シードとコーパス中でよく共起する文脈をパターン として獲得 • ②:パターンとコーパス中でよく共起するものをプール に追加 • ③:プールの中でスコアの高いものをシードとして選択 5
ブートストラップ法の利点 • 人手の削減 ▫ タグ付けをする際、一つ一つ人手でつけるのではなく、大 量の候補をある程度の制度で集めることができる • ラベルなしデータの利用 ▫ ラベル付きデータだけでなく、ラベルなしデータも用いて
分類等のタスクを行う事ができる 6
目標 • 特定の製品の不具合について述べた文(不具合文)を Twitter上から自動で抽出 ▫ 例:「なんで!?スマホの電源がつかない…」 • 不具合文抽出のために、製品の異常や不具合の症状を表 す表現(不具合表現)をブートストラップ的に自動獲得 することでより多様な不具合文抽出を目指す
▫ 例:電源がつかない 7
処理の流れ • 初めに,不具合表現を人手で与え,これをシードとして 1 回目の不具合文抽出を行う • 抽出された不具合文から新たな不具合表現を獲得し,そ れらについて信頼度のスコアリング • 信頼度の高い不具合表現を選出し,それらを次のステッ
プの入力(シード)として与え,再び不具合文を抽出 8
処理の流れ 9 シード 不具合文 不具合表現候補 不具合表現 Tweetコーパス 不具合表現獲得 信頼度スコアリング
不具合表現の獲得 • 1. 特定の副詞の出現 ▫ 例:「勝手に」「突然」 • 2.動詞の未然形と否定の助動詞の連続 ▫ 例:「動かない」「起動しない」
• 3.ネガティブな単語の出現 ▫ 例:「悪い」「破れる」 10
信頼度のスコアリング・不具合文の抽出 • 獲得した不具合表現について信頼度のスコアリングを行 い,より不具合らしさが強いと思われるものだけを次の 入力として利用する • ノイズ除去→人手でルール設定 • 不具合表現の後ろに「言っていた」「聞いた」などの伝 聞に関する言い回し→抽出しない
11
実験 • 対象製品:携帯電話・スマートフォン • データセット:ツイート10 万件 • 初期シード ▫ 壊れる,
おかしい, 異常, 故障, 破損, フリーズ, バグ • ブートストラップによる反復を5 回行い,その結果に対 し人手でアノテーションし適合率によって評価 12
結果 13
結果 • 1→2回目 ▫ 適合率を維持したまま抽出数が大幅に増加 • 2→3回目 ▫ 抽出数の増加は少なかったものの,ノイズの増大がなく, 高い適合率を維持したまま反復を繰り返すことに成功
• 獲得出来た不具合表現 ▫ 勝手に電源がつく,急に電源が落ちる,電源が落ちない, 画面がつかない,ボタンが押せない 14
抽出できた不具合文 • 「充電切れるわケータイ熱くなっちゃって充電できない わ勝手に電源切れるわ最悪です」 • 「てか携帯画面真っ暗になって電池パック抜いて電源入 れようとしても電源つかないんだけど」 • 「壊れた」などの直接的に不具合を示す語は出現してい ないが,赤字部分を不具合表現として認識することで抽
出に成功している 15
参考文献 • パターン認識と機械学習 上 p22 ▫ C.M.ビショップ 著 ▫ Springer
(2007年) • 株式会社ブレインパッド_テクニカルナレッジ共有会#10 「ブート ストラップ法による自然言語処理」白井尊昭 ▫ https://speakerdeck.com/brainpad/zhu-shi-hui-she- bureinpatudo-tekunikarunaretuzigong-you-hui-number-10- butosutoratupufa-niyoruzi-ran-yan-yu-chu-li-bai-jing-zun-zhao 16