Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第3回B3ゼミ
Search
miyanishi
January 21, 2013
1
95
第3回B3ゼミ
機械学習を用いた日本語表現のチャンキング
miyanishi
January 21, 2013
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
76
文献紹介1月
miyanishi
0
160
文献紹介12月
miyanishi
0
210
文献紹介11月
miyanishi
0
240
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
230
15年7月文献紹介
miyanishi
0
250
Featured
See All Featured
Web development in the modern age
philhawksworth
203
10k
Atom: Resistance is Futile
akmur
260
25k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
84
45k
Optimising Largest Contentful Paint
csswizardry
13
2.4k
It's Worth the Effort
3n
180
27k
Making the Leap to Tech Lead
cromwellryan
125
8.6k
Build The Right Thing And Hit Your Dates
maggiecrowley
25
2k
The Mythical Team-Month
searls
217
42k
Clear Off the Table
cherdarchuk
86
310k
Adopting Sorbet at Scale
ufuk
69
8.6k
10 Git Anti Patterns You Should be Aware of
lemiorhan
649
58k
RailsConf 2023
tenderlove
9
580
Transcript
宮西 由貴 第3回 B3ゼミ -機械学習を用いた日本語機能表現のチャンキング-
機能表現と内容表現 機能表現 二つ以上の語から形成される 全体で一つの「機能的」な意味を持つ 内容表現
語彙的意味を形成する語 名詞・形容詞・動詞 「出発するにあたって」・・・機能表現 「ボールが壁にあたって」・・・内容表現
既存の解析では・・・ JUMAN&KNP JUMAN解析時には機能語を検出しない 31種類/52種類 ChaSen&CaboCha
「助詞・格助詞・述語」をChaSen時に検出 一部の表現はまとめて機能的な表現として解析 26種類/52種類 機能的用法と内容的用法の区別が十分でない
改善策 機能表現候補の形態素列の用法を正しく識別 検出器を使用(作成) 人手で作成した規則を使用 コストが膨大
機能語集合の規模が拡大した場合に追従不可 提案手法 チャンク同定問題として定式化 YamChaを利用
日本語複合辞用例DB 複合辞 単なる語の連接ではない 個々の構成要素のプラス以上の独自の意味を持つ 日本語複合辞用例データベース(用例DB)
機能表現の機械処理を研究するために設計 125種類(複合辞用例集)+異形=337種類
機械学習で機能表現検出 機能表現をクラス判別として定式化 機能表現となる可能性のある部分単位 複数の機能表現→矛盾した結果を出す可能性 温泉はどんな場所にあっても,心が弾む
それが試合というものの難しさだ 機能表現をチャンキングとして定式化 形態素が単位 複数の機能表現が重複しない
チャンクタグの表現方法 チャンクタグ 検出時に付与するもの チャンクの範囲を示す要素の表現 IOB2フォーマットを使用
チャンクの用法を示す要素の表現 I:チャンクに含まれる形態素(先頭以外) O:チャンクに含まれない形態素 B:チャンクの先頭の形態素 F:用例集で説明されている用法 A:接続詞的用法 M:その他の機能的用法 C:内容的用法 Y:読み不一致 B:判定単位が不適切
SVMを用いた機能表現検出 チャンクタグの組み合わせ 範囲を示す要素・・・B/I 用法を示す要素・・・F/AM/CYB 組み合わせた6種類
研究で作成する検出器 F:Fが付与される表現を検出 FAM:F,A,Mのどれか付与される表現を検出
素性 素性の種類 形態素素性: 形態素解析によって得た情報 表層形,品詞,品詞細分類,活用形,原形,読み,発音
チャンク素性: 機能表現候補Eを構成している形態素数 機能表現候補中の の相対的位置情報 チャンク文脈素性: i番目の機能表現候補の直前&直後2形態素の素性 チャンク素性 −2 −1 … … +1 −2
CFとOFを式で表す チャンク素性: =< − + 1, − + 1
> チャンク文脈素性: =< −2 , −2 , −1 , −1 , +1 , +1 , +2 , +2 > 優先順位 最も左側の機能表現候補を用いて素性を付与 1を満たす候補が複数存在→最も形態素数が多い候補を使用