Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
第5回
Search
miyanishi
February 04, 2013
0
140
第5回
単語格子とマルコフモデルによる日本語機能表現の解析
miyanishi
February 04, 2013
Tweet
Share
More Decks by miyanishi
See All by miyanishi
平成27年度最終ゼミ
miyanishi
0
85
文献紹介1月
miyanishi
0
190
文献紹介12月
miyanishi
0
240
文献紹介11月
miyanishi
0
250
文献紹介10月
miyanishi
0
190
文献紹介(2015/09)
miyanishi
0
220
文献紹介8月(PPDB)
miyanishi
0
330
文献紹介15年08月
miyanishi
0
240
15年7月文献紹介
miyanishi
0
260
Featured
See All Featured
Faster Mobile Websites
deanohume
310
31k
Docker and Python
trallard
46
3.6k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
9
1k
GitHub's CSS Performance
jonrohan
1032
470k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Building Better People: How to give real-time feedback that sticks.
wjessup
370
20k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
2.9k
Rebuilding a faster, lazier Slack
samanthasiow
84
9.2k
Designing Experiences People Love
moore
142
24k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
24k
How GitHub (no longer) Works
holman
315
140k
How To Stay Up To Date on Web Technology
chriscoyier
791
250k
Transcript
宮西 由貴 単語格子とマルコフモデルによる日本 語機能表現の解析 ~日本語表現辞書「つつじ」を用いて~
研究について 日本語機能表現辞書「つつじ」 機能表現を構成するエントリー+意味ラベル 応用:評判解析・係り受け解析 など 現在:日本語機能表現の解析器は無し
放送番組の反響を分析するアプリケーション 日本語の形態素解析と同じ手法を使用 単語格子を作成 最適経路の選択→マルコフモデル使用
機能表現の解析 機能語・・・1語の機能表現 形態素解析・・・語単位に分割 機能&内容表現の抽出・・・連語で1つの意味 →異なるレイヤーで行う処理 エントリーを参照して解析
曖昧性の問題
曖昧性の問題 同一のエントリーが複数の意味を持つ という:「同格」「伝聞」「強調」 機能的な意味で用いられていない という:↑+「機能的でない」
どこまでを機能表現と認定すべきか 「机の上には宝石だけある」 「さすがは宝石だけある」 「ある」は機能表現でない場合もある
提案手法 形態素解析済み後に処理を行う 形態素解析モジュール+機能表現解析モジュール モジュールを分割した理由 大規模コーパスで学習した形態素解析器が安定&高精度
別コーパスによるモデル学習を可能にする 欠点 形態素解析誤りが後段に引き継がれる
機能表現解析モジュール 形態素解析済みテキストを単語リストとみなす 機能表現辞書のエントリーを参照 機能表現の可能性がある部分に辺を張る 単語格子(グラフ)作成 グラフは多数経路を含むが確率モデルで決定
選択された最適経路に相当する機能表現を選択
機能表現解析モジュール 全ての単語リストは機能表現でない辺を構成 機能表現の可能性がある部分に別途の辺を張る 機能表現である場合とない場合の両方を考慮する 機能表現しか取り得ない表現
詳細な言語学知識で決定できる 今回はその前提知識を使用しない =可能性のない辺を削除しない
機能表現解析モジュール 最適経路を選択する確率モデル マルコフモデル 素性 表層文字列
品詞 機能表現の意味属性 低頻度の接続確率 バックオフスムージング 5事象より少ない接続→未知語への確率と割当て
正解コーパス 2006年NHK教育テレビ「知るを楽しむ」 の反響を集めた 正解を付与する文を形態素解析 機能表現辞書のエントリー参照,単語格子を形成 適切な機能表現に対応する経路を人手で選択
実験条件 品詞 4階層すべてを用いる 最上位1階層のみを用いる 複数形態素にまたがる機能表現
最初の形態素の品詞のみを用いる 形態素の品詞の組み合わせを用いる 表層文字列 用いる 用いない Openな実験orClosedな実験
評価について 機能表現の精度 (分母)中の正解数 形態素または機能表現の数 適合率 正しく検出された機能表現の数 解析によって検出された機能表現の数
再現率 正しく検出された機能表現の数 正解データに存在する機能表現の数
評価 機能表現検出の精度 検出器としての性能
検出誤りの例 逆接確定の「が」 題名がふざけていて嫌な気がしたが,内容はよい 逆説確定として検出してしまう 乗れるもの乗れないものの悲喜こもごもを感じた
推量の「よう」 決断力があったなら株で儲かるような気がします