Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第3回B3ゼミ
Search
miyanishi
January 21, 2013
1
99
第3回B3ゼミ
機械学習を用いた日本語表現のチャンキング
miyanishi
January 21, 2013
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
85
文献紹介1月
miyanishi
0
180
文献紹介12月
miyanishi
0
240
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.8k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
111
20k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
13k
Embracing the Ebb and Flow
colly
87
4.8k
A Tale of Four Properties
chriscoyier
160
23k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
It's Worth the Effort
3n
187
28k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Become a Pro
speakerdeck
PRO
29
5.5k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4k
What’s in a name? Adding method to the madness
productmarketing
PRO
23
3.6k
Why Our Code Smells
bkeepers
PRO
339
57k
Transcript
宮西 由貴 第3回 B3ゼミ -機械学習を用いた日本語機能表現のチャンキング-
機能表現と内容表現 機能表現 二つ以上の語から形成される 全体で一つの「機能的」な意味を持つ 内容表現
語彙的意味を形成する語 名詞・形容詞・動詞 「出発するにあたって」・・・機能表現 「ボールが壁にあたって」・・・内容表現
既存の解析では・・・ JUMAN&KNP JUMAN解析時には機能語を検出しない 31種類/52種類 ChaSen&CaboCha
「助詞・格助詞・述語」をChaSen時に検出 一部の表現はまとめて機能的な表現として解析 26種類/52種類 機能的用法と内容的用法の区別が十分でない
改善策 機能表現候補の形態素列の用法を正しく識別 検出器を使用(作成) 人手で作成した規則を使用 コストが膨大
機能語集合の規模が拡大した場合に追従不可 提案手法 チャンク同定問題として定式化 YamChaを利用
日本語複合辞用例DB 複合辞 単なる語の連接ではない 個々の構成要素のプラス以上の独自の意味を持つ 日本語複合辞用例データベース(用例DB)
機能表現の機械処理を研究するために設計 125種類(複合辞用例集)+異形=337種類
機械学習で機能表現検出 機能表現をクラス判別として定式化 機能表現となる可能性のある部分単位 複数の機能表現→矛盾した結果を出す可能性 温泉はどんな場所にあっても,心が弾む
それが試合というものの難しさだ 機能表現をチャンキングとして定式化 形態素が単位 複数の機能表現が重複しない
チャンクタグの表現方法 チャンクタグ 検出時に付与するもの チャンクの範囲を示す要素の表現 IOB2フォーマットを使用
チャンクの用法を示す要素の表現 I:チャンクに含まれる形態素(先頭以外) O:チャンクに含まれない形態素 B:チャンクの先頭の形態素 F:用例集で説明されている用法 A:接続詞的用法 M:その他の機能的用法 C:内容的用法 Y:読み不一致 B:判定単位が不適切
SVMを用いた機能表現検出 チャンクタグの組み合わせ 範囲を示す要素・・・B/I 用法を示す要素・・・F/AM/CYB 組み合わせた6種類
研究で作成する検出器 F:Fが付与される表現を検出 FAM:F,A,Mのどれか付与される表現を検出
素性 素性の種類 形態素素性: 形態素解析によって得た情報 表層形,品詞,品詞細分類,活用形,原形,読み,発音
チャンク素性: 機能表現候補Eを構成している形態素数 機能表現候補中の の相対的位置情報 チャンク文脈素性: i番目の機能表現候補の直前&直後2形態素の素性 チャンク素性 −2 −1 … … +1 −2
CFとOFを式で表す チャンク素性: =< − + 1, − + 1
> チャンク文脈素性: =< −2 , −2 , −1 , −1 , +1 , +1 , +2 , +2 > 優先順位 最も左側の機能表現候補を用いて素性を付与 1を満たす候補が複数存在→最も形態素数が多い候補を使用